AIFactum Künstliche Intelligenz mit Evidenz

Schlagwort: Prompt Injection

Adversarial Poetry: wenn Gedichte zu Hacks werden

Wie poetische Prompts moderne KI-Modelle austricksen Künstliche Intelligenz gilt als Inbegriff rationaler Effizienz. Sie berechnet, analysiert, erkennt Muster, emotionslos und präzise. Umso überraschender ist eine neue Erkenntnis aus der KI-Forschung, die derzeit für Aufsehen sorgt: Ausgerechnet Gedichte können KI-Systeme in die Irre führen und dazu bringen, Inhalte preiszugeben, die eigentlich streng blockiert sein sollten. Keine…

November 27, 2025
Jailbreaking in aktuellen KI-Modellen

DeepSeek im Fokus: neue Erkenntnisse zu Jailbreaks und KI-Sicherheit Im letzten Beitrag haben wir erklärt, wie Adversarial Attacks funktionieren, von Data Poisoning bis Evasion. Inzwischen ist die Debatte um Jailbreaking (gezielte Umgehung von Sicherheitsfiltern) regelrecht explodiert: Besonders DeepSeek wurde in den letzten Monaten zum prominenten Beispiel. Berichte und Analysen attestieren der Reihe R1 eine sehr hohe Anfälligkeit gegen bekannte Jailbreak-Techniken, in…

August 27, 2025
Adversarial Attacks – Wenn KI ausgetrickst wird

Stell dir vor, du gehst durch einen Park, alles sieht friedlich aus und plötzlich ruft dir jemand zu: „Achtung, da liegt ein Puma!“. Du schaust hin, und tatsächlich, da liegt ein Puma … oder? Bei genauerem Hinsehen merkst du: Es ist nur ein perfekt platziertes Kissen mit aufgeklebten Pumaohren. Du wurdest getäuscht und zwar absichtlich. Genauso…

August 20, 2025
Die neue Bedrohung für KI-Systeme: Indirect Prompt Injection

Künstliche Intelligenz (KI) hält immer mehr Einzug in unseren Alltag. Chatbots, intelligente Assistenten und autonome Agenten mit Sprachsteuerung erleichtern uns viele Aufgaben. Doch eine neue Art von Schwachstelle bedroht die Sicherheit dieser Systeme: Die sogenannte „Indirect Prompt Injection„. Was ist eine Indirect Prompt Injection? Bei vielen KI-Systemen, insbesondere solchen mit Sprachverarbeitung, werden große KI-Sprachmodelle eingesetzt.…

August 15, 2023