Schlagwort: Adversarial Attacks

  • Jailbreaking in aktuellen KI-Modellen

    Jailbreaking in aktuellen KI-Modellen

    DeepSeek im Fokus: neue Erkenntnisse zu Jailbreaks und KI-Sicherheit Im letzten Beitrag haben wir erklärt, wie Adversarial Attacks funktionieren, von Data Poisoning bis Evasion. Inzwischen ist die Debatte um Jailbreaking (gezielte Umgehung von Sicherheitsfiltern) regelrecht explodiert: Besonders DeepSeek wurde in den letzten Monaten zum prominenten Beispiel. Berichte und Analysen attestieren der Reihe R1 eine sehr hohe Anfälligkeit gegen bekannte Jailbreak-Techniken, in…