Die neue Bedrohung für KI-Systeme: Indirect Prompt Injection

Künstliche Intelligenz (KI) hält immer mehr Einzug in unseren Alltag. Chatbots, intelligente Assistenten und autonome Agenten mit Sprachsteuerung erleichtern uns viele Aufgaben. Doch eine neue Art von Schwachstelle bedroht die Sicherheit dieser Systeme: Die sogenannte „Indirect Prompt Injection„.

Was ist eine Indirect Prompt Injection?

Bei vielen KI-Systemen, insbesondere solchen mit Sprachverarbeitung, werden große KI-Sprachmodelle eingesetzt. Diese sind darauf trainiert, aus Text Informationen zu extrahieren und auch Anweisungen auszuführen.

Das Problem: Es gibt keine klare Trennung zwischen Daten und Befehlen. Angreifer können nun gezielt schädliche Befehle in die vom KI-System verarbeiteten Daten „einschleusen“. Wenn das System dann auf diese manipulierten Daten zugreift, werden die Befehle ohne weitere Prüfung ausgeführt.

Wie die Indirect Prompt Injection Attacke abläuft

Die Angreifer platzieren die Befehle beispielsweise in Websites, Dokumenten oder Audio-Transkripten, auf die das KI-System zugreift. Die Befehle können gut versteckt und verschlüsselt sein, so dass ein Mensch sie nicht erkennt.

Greift das KI-System nun auf diese präparierten Daten zu, liest es die Befehle mit und führt sie gedankenlos aus. Dem System ist ja nicht bewusst, dass die Daten manipuliert wurden. Für das KI-Modell gibt es keinen Unterschied zwischen harmlosen Informationen und Schadcode.

Große Gefahren durch kleine Befehle

Was auf den ersten Blick nach einem harmlosen Software-Bug klingt, kann gravierende Folgen haben. Denn je nach Einsatzgebiet des KI-Systems können die heimlich eingeschleusten Befehle großen Schaden anrichten.

Ein Chatbot mit Zugang zum Backend könnte etwa dazu gebracht werden, persönliche Nutzerdaten preiszugeben. Ein automatisierter Helfer im Smart Home könnte Hausgeräte manipulieren oder die Haustür öffnen. Schlimmstenfalls könnten ganze Server-Infrastrukturen lahmgelegt oder Software-Supply-Chains infiziert werden.

Die möglichen Angriffsszenarien sind also beunruhigend vielfältig. Experten warnen eindringlich vor dieser neuen Schattengefahr.

Noch keine wirksamen Gegenmaßnahmen

Das Fatale an dieser Schwachstelle: Sie ist intrinsisch in der Funktionsweise heutiger KI-Systeme angelegt. Es existiert also bisher kein wirksamer technischer Schutz dagegen.

Hersteller und Forscher arbeiten zwar bereits an Abwehrmechanismen. Doch das Grundproblem bleibt bestehen: In der Kommunikation mit KI-Systemen gibt es keine klare Trennung zwischen harmlosen Infos und gefährlichen Befehlen.

Als Gegenmaßnahmen empfehlen Experten daher, den Zugriff auf potenziell manipulierte Datenquellen zu beschränken. Außerdem sollten kritische Aktionen von Menschen kontrolliert werden. Auch die möglichen Aktionsbefugnisse der KI-Systeme selbst müssen dringend reduziert werden.

Fazit: Indirect Prompt Injection

Indirect Prompt Injection ist eine brandneue und hochgefährliche Angriffsmethode gegen KI-Systeme. Ob Chatbot, digitale Assistentin oder selbstfahrendes Auto – praktisch jedes System mit Sprachsteuerung und Zugriff auf externe Datenquellen ist potenziell verwundbar.

Du bist als Anwender gleichermaßen gefordert, dich der neuen Bedrohung bewusst zu werden und Gegenmaßnahmen zu ergreifen. Denn die zunehmende Vernetzung und Automatisierung durch KI birgt neben vielen Chancen auch neue Risiken für deine Datensicherheit. Regelmäßige Sicherheitsupdates und die besonnene Nutzung dieser intelligenten Helfer bleiben unverzichtbar.

Quelle und weiterführende Informationen:

Möchtest du mehr über die Hintergründe zu Indirect Prompt Injection erfahren? Lade hier das detaillierte PDF-Dokument (Indirect Prompt Injections – Intrinsische Schwachstelle in anwendungsintegrierten KI-Sprachmodellen) des BSI herunter und informiere dich aus erster Hand über diese neue Schwachstellenklasse.

Zum PDF-Dokument des BSI