AIFactum Künstliche Intelligenz mit Evidenz

Kategorie: Security

Jailbreaking in aktuellen KI-Modellen

DeepSeek im Fokus: neue Erkenntnisse zu Jailbreaks und KI-Sicherheit Im letzten Beitrag haben wir erklärt, wie Adversarial Attacks funktionieren, von Data Poisoning bis Evasion. Inzwischen ist die Debatte um Jailbreaking (gezielte Umgehung von Sicherheitsfiltern) regelrecht explodiert: Besonders DeepSeek wurde in den letzten Monaten zum prominenten Beispiel. Berichte und Analysen attestieren der Reihe R1 eine sehr hohe Anfälligkeit gegen bekannte Jailbreak-Techniken, in…

August 27, 2025
Adversarial Attacks – Wenn KI ausgetrickst wird

Stell dir vor, du gehst durch einen Park, alles sieht friedlich aus und plötzlich ruft dir jemand zu: „Achtung, da liegt ein Puma!“. Du schaust hin, und tatsächlich, da liegt ein Puma … oder? Bei genauerem Hinsehen merkst du: Es ist nur ein perfekt platziertes Kissen mit aufgeklebten Pumaohren. Du wurdest getäuscht und zwar absichtlich. Genauso…

August 20, 2025
Die neue Bedrohung für KI-Systeme: Indirect Prompt Injection

Künstliche Intelligenz (KI) hält immer mehr Einzug in unseren Alltag. Chatbots, intelligente Assistenten und autonome Agenten mit Sprachsteuerung erleichtern uns viele Aufgaben. Doch eine neue Art von Schwachstelle bedroht die Sicherheit dieser Systeme: Die sogenannte „Indirect Prompt Injection„. Was ist eine Indirect Prompt Injection? Bei vielen KI-Systemen, insbesondere solchen mit Sprachverarbeitung, werden große KI-Sprachmodelle eingesetzt.…

August 15, 2023
AI Checkliste für User

Sicherheitsaspekte beim Einsatz von KI-Sprachmodellen KI-Sprachmodelle haben in den letzten Jahren einen regelrechten Hype ausgelöst. Sie sind vielseitig einsetzbar und können Texte zusammenfassen, Fragen beantworten und sogar mit dir chatten. Doch trotz ihrer beeindruckenden Fähigkeiten ist es wichtig, den Sprachmodellen nicht bedingungslos zu vertrauen und ihnen nicht zu viele Informationen anzuvertrauen. In diesem Blogartikel stellen…

Juli 17, 2023