Schlagwort: Prompt Injection
-

Adversarial Poetry: wenn Gedichte zu Hacks werden
Wie poetische Prompts moderne KI-Modelle austricksen Künstliche Intelligenz gilt als Inbegriff rationaler Effizienz. Sie berechnet, analysiert, erkennt Muster, emotionslos und präzise. Umso überraschender ist eine neue Erkenntnis aus der KI-Forschung, die derzeit für Aufsehen sorgt: Ausgerechnet Gedichte können KI-Systeme in die Irre führen und dazu bringen, Inhalte preiszugeben, die eigentlich streng blockiert sein sollten. Keine…
-

Jailbreaking in aktuellen KI-Modellen
DeepSeek im Fokus: neue Erkenntnisse zu Jailbreaks und KI-Sicherheit Im letzten Beitrag haben wir erklärt, wie Adversarial Attacks funktionieren, von Data Poisoning bis Evasion. Inzwischen ist die Debatte um Jailbreaking (gezielte Umgehung von Sicherheitsfiltern) regelrecht explodiert: Besonders DeepSeek wurde in den letzten Monaten zum prominenten Beispiel. Berichte und Analysen attestieren der Reihe R1 eine sehr hohe Anfälligkeit gegen bekannte Jailbreak-Techniken, in…
-

Adversarial Attacks – Wenn KI ausgetrickst wird
Stell dir vor, du gehst durch einen Park, alles sieht friedlich aus und plötzlich ruft dir jemand zu: „Achtung, da liegt ein Puma!“. Du schaust hin, und tatsächlich, da liegt ein Puma … oder? Bei genauerem Hinsehen merkst du: Es ist nur ein perfekt platziertes Kissen mit aufgeklebten Pumaohren. Du wurdest getäuscht und zwar absichtlich. Genauso…
-

Die neue Bedrohung für KI-Systeme: Indirect Prompt Injection
Künstliche Intelligenz (KI) hält immer mehr Einzug in unseren Alltag. Chatbots, intelligente Assistenten und autonome Agenten mit Sprachsteuerung erleichtern uns viele Aufgaben. Doch eine neue Art von Schwachstelle bedroht die Sicherheit dieser Systeme: Die sogenannte „Indirect Prompt Injection„. Was ist eine Indirect Prompt Injection? Bei vielen KI-Systemen, insbesondere solchen mit Sprachverarbeitung, werden große KI-Sprachmodelle eingesetzt.…



