Schlagwort: Adversarial Attacks
-
Jailbreaking in aktuellen KI-Modellen
DeepSeek im Fokus: neue Erkenntnisse zu Jailbreaks und KI-Sicherheit Im letzten Beitrag haben wir erklärt, wie Adversarial Attacks funktionieren, von Data Poisoning bis Evasion. Inzwischen ist die Debatte um Jailbreaking (gezielte Umgehung von Sicherheitsfiltern) regelrecht explodiert: Besonders DeepSeek wurde in den letzten Monaten zum prominenten Beispiel. Berichte und Analysen attestieren der Reihe R1 eine sehr hohe Anfälligkeit gegen bekannte Jailbreak-Techniken, in…