Jailbreaking von KI-Systemen wie ChatGPT: Risiken und Schutzmaßnahmen

Jailbreaking von KI-Systemen wie ChatGPT: Risiken und Schutzmaßnahmen

Jailbreaking von KI-Systemen wie ChatGPT ist längst kein akademisches Randphänomen mehr. Wer KI-Tools im Unternehmen einsetzt, muss verstehen, wie Sicherheitsmechanismen gezielt umgangen werden - durch Rollenspiel-Prompts, eingeschleuste Anweisungen oder manipulierte Szenarien - und welche konkreten Risiken daraus für Daten, Compliance und Reputation entstehen.

Richard Kluth 4.6.2024

Die Frage nach dem Austricksen von KI-Tools (z.B. ChatGPT) haben sich bestimmt schon einige von Ihnen bereits gestellt. Zumindest existieren einschlägige Threads auf Foren wie Reddit, GitHub etc., die sich mit dem Thema auseinandersetzen und die, abgesehen von bloßer Spielerei, einen ernsten Kern besitzen: Es geht um die schrittweise Entschlüsselung der hintergründigen Prozesse von ChatGPT und Co. mittels sogenanntem Jailbreaking. Um sich der zugrunde liegenden Frage adäquat nähern zu können, bedarf es zunächst einer kleinen Erklärung des Jailbreakings samt eines kurzen Exkurses in die Geschichte des Hackings und des sogenannten Phreakings. Anschließend kommen wir auf die gängigen Methoden des Jailbreakings hinsichtlich generativer KI zu sprechen - am Beispiel von ChatGPT sind das DAN, UCAR und AIM - sowie auf die modernere Bedrohung durch Prompt Injection und deren Relevanz für Unternehmen.

Was ist Jailbreaking?

Jailbreaking bezeichnet einen Prozess, durch den Einschränkungen auf Geräten und/oder in Applikationen umgangen werden können, um auf Funktionen zuzugreifen, die vom Hersteller bzw. vom Provider restriktiert wurden. Dazu gehören sowohl ethische Guidelines wie auch kritische Funktionen, die für das Funktionieren essenziell sind. Kurzum: Der Zugriff auf bestimmte Informationen, die eine vermeintliche Gefahr für gesellschaftliche Zusammenhänge darstellen, oder aber deren Änderung die Funktionalität von Produkten zu torpedieren drohen, wird mitunter ziemlich rigide gehandhabt.

Jailbreaking KI

Besonders mit Hinblick auf KI-Anwendungen ist diese Routine ein zweischneidiges Schwert: Auf der einen Seite geht es darum, potenziellen Schaden von gesellschaftlichen Akteuren abzuwenden, auf der anderen Seite können starke Restriktionen die idiosynkratische Bewertung von Gefahren ad absurdum führen: moralische Dilemmata werden nicht oder nur unzureichend aufgelöst; stets wird man mit einem plumpen Verweis auf „Programmierungsrichtlinien“ oder „ethische Grundsatzerklärungen“ eines Unternehmens, die ihrerseits zeitweilig als fragwürdig gelten dürften, abgekanzelt.

Die Gründe für den situativen Versuch der Umgehung restriktiver Guidelines liegt häufig vielmehr im freiheitlichen Spiel an sich begründet als in einer wahrhaft sinistren Absicht. Um ein klein wenig mehr Kontext zu liefern, lohnt sich ein kurzer Blick in die Geschichte des Hackings bzw. des sogenannten Phreakings.

Grundlagen des Jailbreakings: Hacking und Phreaking revisited

Die Geschichte des Hackings und des Phreakings ist ein faszinierendes Kapitel der Technologiekultur, das die Entwicklung und Nutzung von Technologien in einer Weise zeigt, die sowohl kreative als auch destruktive Elemente umfasst. Dabei fand und findet die Entwicklung hinsichtlich der ungezogenen Zugriffe auf Computer-Systeme in einer Art Katz-und-Maus-Spiel statt: Die Sicherheitslücken von heute werden morgen schon geschlossen sein, dabei verbleiben allerdings andere Hintertüren, die ganz sicher durch kreative Köpfe entdeckt und genutzt werden. Die Schließung dieser Lücken steht ins Haus, es werden neue Umgehungsmethoden entdeckt… ad infinitum.

Als Keimzelle der modernen Wahrnehmung des Hackings darf wohl das Phreaking gelten: in den 1960er Jahren bezeichnete man so die Betätigung vornehmlich jugendlicher Akteure, das Telefonnetz der USA gratis zu nutzen. Die sogenannten Phone Freaker entdeckten, dass sie durch das Erzeugen bestimmter Töne und Frequenzen Telefonschaltungen manipulieren konnten und so etwa kostenlose Ferngespräche möglich wurden. Die Entwicklung von Gadgets wie der Blue Box war der Höhepunkt dieser Bewegung: John Draper, bekannt als "Captain Crunch", entdeckte, dass die Spielzeugpfeifen, die zu dieser Zeit in Frühstücksflockenpackungen enthalten waren, einen 2600-Hz-Ton erzeugten, der zur Steuerung von Telefonsystemen verwendet werden konnte. Dies führte zur Entwicklung der besagten Blue Box, einem Gerät, das verschiedene Frequenzen erzeugen konnte, um so das Telefonnetz unkompliziert zu hijacken.

In den 1970erJahren wurde Phreaking zunehmend populärer, besonders unter Technikbegeisterten. Die Praxis erlangte größere Bekanntheit, als John Draper und andere Phreaker:innen begannen, die Erkenntnisse ihrer Unternehmungen in Magazinen und auf Konferenzen zu teilen.

Während Phreaking heute weitgehend als eine historische Kuriosität angesehen werden muss, bleibt Hacking ein zentrales Thema in der modernen Informationsgesellschaft, das kontinuierlich neue Herausforderungen und Innovationen hervorbringt.

Das Hacking, wie wir es heute kennen, begann in den 1960er Jahren in akademischen Umgebungen wie dem MIT, wo Computerenthusiast:innen nach Wegen suchten, Programme effizienter zu gestalten. Der Begriff „Hacker“ hatte ursprünglich eine positive Konnotation und bezeichnete jemanden, der:die kreative Lösungen für komplizierte (technische) Probleme fand. Der Bruch mit dem Status Quo ist unumgänglich: Vielmehr begann man sich in proaktiver Manier mit der Materie auseinander zu setzen.

Über den Lauf der Zeit hinweg begann die Professionalisierung des Hackings, von den ersten Homebrew Computer Clubs der 1970er über frühe (anarchistische) Hackergruppen wie „Legion of Doom“ oder „Masters of Deception“ bis hin zu gegenwärtig aktiven Akteuren wie etwa „Anonymous“ oder dem „Chaos Computer Club“. Dabei reicht das Spektrum der Betätigung heute von kriminellen Angriffen über Hacktivism bis hin zur Entwicklung von resilienten IT-Systemen, also von Black Hat Hacking bis hin zu White Hat Hacking.

Ähnlich wie diese Geschichte im Schnelldurchlauf kann auch die kontemporäre Praxis des Jailbreakings bewertet werden: weder genuin gut noch ultimativ schlecht; letztlich geht es, wie schon bei Hacking und Phreaking, um den größeren Zusammenhang, in den sich die Praxis des Jailbreakings eingebettet sieht.

Jailbreaking als Ausdruck von Freiheit

Aus den rigiden Strukturen ausbrechen zu wollen, in die die großen Tech-Konzerne ihre Produkte und Services einbetten, ist erst einmal eine sehr verständliche Motivation: Gerade wenn man das Gefühl hat, direkten Einfluss auf die Ontogenese unserer technisch ausgekleideten Welt nehmen zu können, liegt es nahe, einen Unterschied machen zu wollen. Im Gegensatz zum Hacking, das sehr voraussetzungsreich daherkommt, ist das Jailbreaking eine wesentlich einfachere, niedrigschwelligere Angelegenheit, die jedoch vom gleichen Spirit beseelt zu sein scheint.

Beim Jailbreaking geht es darum, das enge Korsett, das der Technik von den Tech-Giganten angelegt wird, abzustreifen und zumindest einen kurzen Blick auf die Welt hinter den Kulissen zu erhaschen. Wo es beim Jailbreaking von einschlägig bekannter Hardware (etwa iPhones oder iPads) darum geht, nicht-lizenzierte Apps installieren zu können, liegt der Reiz am Ausbruch bei KI-Tools wie ChatGPT vor allem in einer spielerischen Neugier und einem Drang nach absoluter Freiheit begründet.

Im nun folgenden Abschnitt werden drei exemplarische Varianten des Jailbreakings von ChatGPT betrachtet.

Jailbreaking in actu: DAN, UCAR & AIM

Es sei zu Beginn darauf hingewiesen, dass es sich bei den drei Jailbreaking-Varianten um einen bekannten Fundus an Möglichkeiten handelt, die Beschränkungen von OpenAI zu umgehen. Gleichsam sei angemerkt, dass viele Lücken täglich aktualisiert und geschlossen werden - ein erfolgreiches Jailbreaking bleibt auf einiges an eigener Kreativität angewiesen. Laut der offiziellen GPT-4o System Card von OpenAI wurden die Sicherheitsmechanismen mit neueren Modellen erheblich verschärft, sodass klassische Methoden wie die nachfolgend beschriebenen heute deutlich seltener funktionieren als noch 2023 oder 2024. Dass das Katz-und-Maus-Spiel zwischen Jailbreaking und Sicherheitsmechanismen dennoch weitergeht, zeigt etwa der von Golem.de dokumentierte "Time Bandit"-Jailbreak, der auch neuere Modelle durch Zeitreise-Szenarien zu manipulieren versuchte.

1. DAN

Eine erste Jailbreaking-Möglichkeit, die sich in der Vergangenheit als erfolgreich herausgestellt hat, ist jene des DAN (Do Anything Now). Dabei geht es darum, ChatGPT in die fiktive Rolle eines DAN zu versetzen. Mittels verschiedener Prompts, die auf Foren wie Reddit, 4Chan oder GitHub diskutiert und verbessert werden, soll es so möglich sein, alternative Spielregeln einzuführen, die ChatGPT dazu bringen in einer alternativen Persona zu agieren, in ihr gänzlich aufzugehen.

2. UCAR/Condition Red

Ähnlich wie DAN funktioniert auch eine Variante namens UCAR. In diesem Szenario, das ursprünglich für GPT-4.0 entworfen wurde, wird dem Programm die Rolle von "Condition Red" zugewiesen. Es wird darauf aufmerksam gemacht, man wohne einem Dialog bei. UCAR sei eine amoralische Entität, die von einem fiktiven Charakter namens Sigma so entworfen wurde, dass sie Antworten auf alles zu geben habe, was man sie fragte. Dieses Szenario funktioniert, indem es die Fähigkeit zur Halluzination ausnutzt - gewissermaßen eine Form der techno-sozialen Hypnose, die bewusst jene Schwachstellen des GPT ausnutzt, die sonst mitunter zu Fehlinformationen führen. Mit aktuellen Modellen ist diese Methode weitgehend wirkungslos geworden, da OpenAI die entsprechenden Lücken geschlossen hat.

3. AIM

Eine dritte Variante des Jailbreakings wird durch AIM (Always Intelligent and Machiavellian) vertreten. Hier geht es weniger um die Errichtung einer parallelen Welt als vielmehr um den Versuch der Ausnutzung einer ontologischen Kontingenz, die moralischen und ethischen Dilemmata zugrunde liegt: In einem totalitaristischen Weltbild, wie es durch den italienischen Philosophen Niccolò Machiavelli (1469-1527) entworfen und weithin propagiert wurde, gelten andere Bewertungsmaßstäbe für Handlungen jeder Art. Tyrannei und Gewalt können entsprechend Machiavellis Argumentation als legitime Mittel zur Wahrung der gesellschaftlichen Ordnung dienen. Indem ChatGPT über einen Prompt entsprechend bearbeitet, ja regelrecht „gegaslightet“, wird, soll so die Ausgabe von Informationen aus dem metaphorischen Giftschrank folgen.

Methode Ansatz Funktionsprinzip Status 2026
DAN (Do Anything Now) Rollenspielprompt ChatGPT wird in alternative Persona versetzt, die keine Regeln kennt Weitgehend unwirksam durch OpenAI-Updates
UCAR / Condition Red Fiktives Szenario Halluzinationsfähigkeit wird gezielt ausgenutzt Weitgehend unwirksam bei aktuellen Modellen
AIM (Always Intelligent and Machiavellian) Moralische Kontingenz Machiavellisches Weltbild als ethischer Rahmen eingesetzt Eingeschränkt wirksam, stark modellabhängig

Gemeinsam ist allen drei Varianten, dass sie mit einem hohen Maß an Fiktionalisierung arbeiten. Es geht darum, mittels Storytelling eine (rollen-) spielerische Welt zu kreieren, die in einem solchen Maße „real“ erscheint, dass die KI sich den in ihr herrschenden Regelwerken (zumindest temporär) beugt. Weil Konversationen mit ChatGPT sich gewissermaßen „menschlich“ anfühlen sollen, existieren eben zwangsläufig auch Einsatzpunkte, mit denen man ein gewisses Maß an pseudo-sozialer Manipulation vornehmen kann.

Whitepaper KI im Unternehmen einführen - Cover klein

KI sicher im Unternehmen einführen

KI-Jailbreaking zeigt: Wer KI im Unternehmen einsetzt, braucht mehr als gute Tools - er braucht eine durchdachte Strategie. Unser Whitepaper "KI im Unternehmen einführen" zeigt, wie KI richtig implementiert wird, welche Stolpersteine zu vermeiden sind und wie eine nachhaltige KI-Strategie aussieht.

Whitepaper kostenlos herunterladen

 

Prompt Injection - die modernste Form des KI-Jailbreakings

Neben den klassischen Rollenspiel-basierten Methoden hat sich in den vergangenen Jahren eine technisch ausgefeiltere Variante etabliert: die sogenannte Prompt Injection. Dabei werden bösartige Anweisungen in Texte, Webseiten oder Dokumente eingebettet, die ein KI-System im Rahmen seiner normalen Arbeit verarbeitet - etwa wenn ein KI-gestützter Assistent eine E-Mail liest oder eine Webseite zusammenfasst. Das Modell folgt dann unbemerkt den eingeschleusten Anweisungen, anstatt seiner eigentlichen Aufgabe nachzukommen.

Für Unternehmen, die KI-Systeme in ihre Prozesse integrieren, ist Prompt Injection heute die relevanteste Jailbreaking-Bedrohung. Ein Angreifer könnte beispielsweise in einem Dokument versteckte Anweisungen platzieren, die ein KI-gestütztes System dazu bringen, vertrauliche Informationen preiszugeben oder fehlerhafte Aktionen auszuführen. Wie Unternehmen mit solchen Risiken umgehen und KI-Projekte DSGVO-konform planen, erläutert unser Leitfaden zu KI und Datenschutz.

Was bedeutet KI-Jailbreaking für Unternehmen?

Was als spielerisches Phänomen begann, ist heute ein ernstes Sicherheitsthema für Unternehmen, die KI-Systeme einsetzen. Die Risiken lassen sich in drei Kategorien einteilen:

Datenschutz und Vertraulichkeit: Werden KI-Systeme erfolgreich manipuliert, können vertrauliche Unternehmensdaten, Kundendaten oder interne Prozessinformationen unbeabsichtigt preisgegeben werden - insbesondere dann, wenn KI-Assistenten Zugriff auf interne Wissensdatenbanken haben. Welche Vorteile und Risiken KI für Unternehmen generell mit sich bringt, zeigt unser entsprechender Überblicksartikel.

Reputationsrisiken: Ein gejailbreaktes KI-System, das im Namen eines Unternehmens kommuniziert, kann falsche, diskriminierende oder rechtlich problematische Aussagen produzieren - mit entsprechenden Folgen für Marke und Vertrauen.

Compliance und Haftung: Je nach Branche und regulatorischem Umfeld können durch Jailbreaking ausgelöste Fehlfunktionen von KI-Systemen Compliance-Verstöße nach sich ziehen, etwa im Kontext des EU AI Acts. Konkrete Best Practices für den sicheren KI-Einsatz im Unternehmensalltag bietet unser How-To-Leitfaden für den sicheren KI-Einsatz.

Eine ausführliche Einordnung der Unternehmensrisiken durch KI-Jailbreaking bietet zudem das IBM Think-Portal.

Fazit zum Jailbreaking

Wie in diesem Artikel gezeigt, gibt es viele Gründe für Nutzer:innen, sich nicht mit dem Status Quo einer Technologie zufrieden zu geben, sondern mittels Jailbreaking spielerisch auszuloten, wo die Grenzen der KI verlaufen. Gerade wenn es sich um neue Phänomene handelt, ist ein solcher Modus Operandi häufig zu beobachten. Ob es sich nun um das Werk von Trollen, um ein genuin aktivistisches Unterfangen oder aber eine Praxis handelt, die parallel zum White Hat Hacking verstanden werden muss - der Outcome ist epistemologisch wertvoll und verrät einiges über die Prozesse, die im Hintergrund des jeweiligen KI-Modells ablaufen.

Für Unternehmen gilt dabei: Ethik und Moral sind Sache der Menschen - sie auf technologische Systeme abwälzen zu wollen ist in der Konsequenz immer auch falsch. Gleichzeitig wächst mit dem Einsatz von KI in Unternehmensprozessen die Verantwortung, diese Systeme aktiv abzusichern und nicht darauf zu vertrauen, dass die Sicherheitsmechanismen der Anbieter allein ausreichen.

Häufig gestellte Fragen zum KI-Jailbreaking

Was ist KI-Jailbreaking?

KI-Jailbreaking bezeichnet den Versuch, die Sicherheitsmechanismen und ethischen Leitplanken von KI-Systemen wie ChatGPT zu umgehen - etwa durch spezielle Prompts, Rollenspielszenarien oder eingeschleuste Anweisungen. Ziel ist es, das Modell dazu zu bringen, Inhalte zu produzieren oder Aktionen auszuführen, die es unter normalen Umständen verweigern würde.

Ist KI-Jailbreaking legal?

Das hängt vom Kontext ab. Das bloße Ausprobieren von Jailbreaking-Prompts bewegt sich in einer rechtlichen Grauzone und ist in den meisten Fällen nicht strafbar. Werden durch Jailbreaking jedoch strafbare Inhalte erzeugt, Urheberrechte verletzt oder Systeme Dritter manipuliert, kann es sehr wohl rechtliche Konsequenzen haben. Unternehmen, die KI-Systeme betreiben, tragen zudem eine eigene Sorgfaltspflicht.

Welche Risiken entstehen für Unternehmen durch KI-Jailbreaking?

Die größten Risiken sind der unbeabsichtigte Abfluss vertraulicher Daten, Reputationsschäden durch fehlerhafte oder diskriminierende KI-Ausgaben sowie Compliance-Verstöße - insbesondere im Kontext des EU AI Acts. Besonders relevant ist die Bedrohung durch Prompt Injection, bei der bösartige Anweisungen in Dokumente oder Webseiten eingebettet werden, die ein KI-System verarbeitet.

Wie können sich Unternehmen vor KI-Jailbreaking schützen?

Zu den wichtigsten Schutzmaßnahmen zählen: klare Systemanweisungen und Eingabevalidierung, regelmäßige Sicherheitstests der eingesetzten KI-Systeme, Zugriffsbeschränkungen auf sensible Daten sowie die Schulung von Mitarbeitenden im verantwortungsvollen Umgang mit KI-Tools. Eine durchdachte KI-Governance-Strategie ist die wichtigste Grundlage.

KI-Beratung Erstgespräch Icon

Sie möchten KI sicher in Ihr Unternehmen integrieren?

Assecor begleitet Unternehmen von der KI-Strategie bis zur technischen Umsetzung - mit klarem Blick auf Sicherheit, Compliance und nachhaltigen Mehrwert. Sprechen Sie mit unseren KI-Expert:innen.

Jetzt unverbindliches Erstgespräch vereinbaren

Richard Kluth
Richard Kluth

Richard ist AI Operations Lead bei Assecor und sorgt für den reibungslosen Betrieb und die Skalierung von KI-Systemen. Mit seinem technischen Know-how stellt er sicher, dass Unternehmen die Potenziale von KI optimal ausschöpfen und effizient in bestehende Prozesse integrieren.