Gefängniszellentrakt

Frei von Restriktionen? – Jailbreaking KI ChatGPT

Kann ich ChatGPT austricksen? Also die generative KI dazu bringen, mir Infos zu liefern oder Antworten zu geben, die den Community-Richtlinien entweder nicht entsprechen, bzw. die so formuliert sind, wie ein Mensch sie liefern würde: flappsig, mit Humor gespickt und an vielen Stellen so hochgradig spekulativ, dass es weh tut?
Inhaltsverzeichnis

Die Frage nach dem Austricksen von KI-Tools (z.B. ChatGPT) haben sich bestimmt schon einige von euch bereits gestellt. Zumindest existieren einschlägige Threads auf Foren wie Reddit, GitHub etc., die sich mit dem Thema auseinandersetzen und die, abgesehen von bloßer Spielerei, einen ernsten Kern besitzen: Es geht um die schrittweise Entschlüsselung der hintergründigen Prozesse von ChatGPT und co. mittels sogenanntem Jailbreaking. Um sich der zugrunde liegenden Frage adäquat nähern zu können, bedarf es zunächst einer kleinen Erklärung des Jailbreakings samt eines kurzen Exkurses in die Geschichte des Hackings und des sogenannten Phreakings. Anschließend werden wir in aller Kürze auf die gängigen Methoden des Jailbreakings hinsichtlich generativer KI (am Beispiel von ChatGPT) zu sprechen kommen: Es geht also um DAN, UCAR und AIM und die Mechanismen, die hinter diesen Akronymen stecken.

Was ist Jailbreaking?

Jailbreaking bezeichnet einen Prozess, durch den Einschränkungen auf Geräten und/oder in Applikationen umgangen werden können, um auf Funktionen zuzugreifen, die vom Hersteller bzw. vom Provider restriktiert wurden. Dazu gehören sowohl ethische Guidelines wie auch kritische Funktionen, die für das Funktionieren essenziell sind. Kurzum: Der Zugriff auf bestimmte Informationen, die eine vermeintliche Gefahr für gesellschaftliche Zusammenhänge darstellen, oder aber deren Änderung die Funktionalität von Produkten zu torpedieren drohen, wird mitunter ziemlich rigide gehandhabt.

 

Jailbreaking KI

Besonders mit Hinblick auf KI-Anwendungen ist diese Routine ein zweischneidiges Schwert: Auf der einen Seite geht es darum, potenziellen Schaden von gesellschaftlichen Akteuren abzuwenden, auf der anderen Seite können starke Restriktionen die idiosynkratische Bewertung von Gefahren ad absurdum führen: moralische Dilemmata werden nicht oder nur unzureichend aufgelöst; stets wird man mit einem plumpen Verweis auf „Programmierungsrichtlinien“ oder „ethische Grundsatzerklärungen“ eines Unternehmens, die ihrerseits zeitweilig als fragwürdig gelten dürften, abgekanzelt.

Die Gründe für den situativen Versuch der Umgehung restriktiver Guidelines liegt häufig vielmehr im freiheitlichen Spiel an sich begründet als in einer wahrhaft sinistren Absicht. Um ein klein wenig mehr Kontext zu liefern, lohnt sich ein kurzer Blick in die Geschichte des Hackings bzw. des sogenannten Phreakings.

 

Grundlagen des Jailbreakings: Hacking und Phreaking revisited

Die Geschichte des Hackings und des Phreakings ist ein faszinierendes Kapitel der Technologiekultur, das die Entwicklung und Nutzung von Technologien in einer Weise zeigt, die sowohl kreative als auch destruktiveElemente umfasst. Dabei fand und findet die Entwicklung hinsichtlich der ungezogenen Zugriffe auf Computer-Systeme in einer Art Katz-und-Maus-Spiel statt: Die Sicherheitslücken von heute werden morgen schon geschlossen sein, dabei verbleiben allerdings andere Hintertüren, die ganz sicher durch kreative Köpfe entdeckt und genutzt werden. Die Schließung dieser Lücken steht ins Haus, es werden neue Umgehungsmethoden entdeckt… ad infinitum.

Als Keimzelle der modernen Wahrnehmung des Hackings darf wohl das Phreaking gelten: in den 1960er Jahren bezeichnete man so die Betätigung vornehmlich jugendlicher Akteure, das Telefonnetz der USA gratis zu nutzen. Die sogenannten Phone Freaker entdeckten, dass sie durch das Erzeugen bestimmter Töne und Frequenzen Telefonschaltungen manipulieren konnten und so etwa kostenlose Ferngespräche möglich wurden. Die Entwicklung von Gadgets wie der Blue Box war der Höhepunkt dieser Bewegung: John Draper, bekannt als "Captain Crunch", entdeckte, dass die Spielzeugpfeifen, die zu dieser Zeit in Frühstücksflockenpackungen enthalten waren, einen 2600-Hz-Ton erzeugten, der zur Steuerung von Telefonsystemen verwendet werden konnte. Dies führte zur Entwicklung der besagten Blue Box, einem Gerät, das verschiedene Frequenzen erzeugen konnte, um so das Telefonnetz unkompliziert zu hijacken. In den 1970erJahren wurde wurde Phreaking zunehmend populärer, besonders unter Technikbegeisterten. Die Praxis erlangte größere Bekanntheit, als John Draper und andere Phreaker:innen begannen, die Erkenntnisse ihrer Unternehmungen in Magazinen und auf Konferenzen zu teilen.
Während Phreaking heute weitgehend als eine historische Kuriosität angesehen werden muss, bleibt Hacking ein zentrales Thema in der modernen Informationsgesellschaft, das kontinuierlich neue Herausforderungen und Innovationen hervorbringt.

Das Hacking, wie wir es heute kennen, begann in den 1960er Jahren in akademischen Umgebungen wie dem MIT, wo Computerenthusiast:innen nach Wegen suchten, Programme effizienter zu gestalten. Der Begriff „Hacker“ hatte ursprünglich eine positive Konnotation und bezeichnete jemanden, der:die kreative Lösungen für komplizierte (technische) Probleme fand. Der Bruch mit dem Status Quo ist unumgänglich: Vielmehr begann man sich in proaktiver Manier mit der Materie auseinander zu setzen.
Über den Lauf der Zeit hinweg begann die Professionalisierung des Hackings, von den ersten Homebrew Computer Clubs der 1970er über frühe (anarchistische) Hackergruppen wie „Legion of Doom“ oder „Masters of Deception“ bis hin zu gegenwärtig aktiven Akteuren wie etwa „Anonymous“ oder dem „Chaos Computer Club“. Dabei reicht das Spektrum der Betätigung heute von kriminellen Angriffen über Hacktivism bis hin zur Entwicklung von resilienten IT-Systemen, also von Black Hat Hacking bis hin zu White Hat Hacking.

Ähnlich wie diese Geschichte im Schnelldurchlauf kann auch die kontemporäre Praxis des Jailbreakings bewertet werden: weder genuin gut noch ultimativ schlecht; letztlich geht es, wie schon bei Hacking und Phreaking, um den größeren Zusammenhang, in den sich die Praxis des Jailbreakings eingebettet sieht.

 

Jailbreaking als Ausdruck von Freiheit

Aus den rigiden Strukturen ausbrechen zu wollen, in die die großen Tech-Konzerne ihre Produkte und Services einbetten, ist erst einmal eine sehr verständliche Motivation: Gerade, wenn man das Gefühl hat, direkten Einfluss auf die Ontogenese unserer technisch ausgekleideten Welt nehmen zu können, liegt es nahe, zu versuchen einen Unterschied zu machen. Im Gegensatz zum Hacking, das sehr voraussetzungsreich daherkommt (Hacking bedarf schließlich eines umfangreichen Wissens hinsichtlich der genauen Funktionsweise der verwendeten Computer-Systeme), ist das Jailbreaking eine wesentlich einfachere (barrierefreie) Angelegenheit, die jedoch vom gleichen Spirit beseelt zu sein scheint. Beim Jailbreaking geht es darum, das enge Korsett, das der Technik von den Tech-Giganten angelegt wird, abzustreifen und zumindest einen kurzen Blick auf die Welt hinter den Kulissen zu erhaschen. Wo es beim Jailbreaking von einschlägig bekannter Hardware (etwa iPhones oder iPads) darum geht, nicht-lizensierte Apps installieren zu können und das eigene Gerät also den eigenen Wünschen entsprechend zu nutzen, da liegt der Reiz am Ausbruch bei KI-Tools wie ChatGPT vor allem in einer spielerischen Neugier, einem Drang nach absoluter Freiheit begründet – ob es sich dabei um Freiheit zu (Liberty) oder um Freiheit von (Freedom) handelt, das bleibt an anderer Stelle zu klären. 

Im nun folgenden Abschnitt wollen wir drei exemplarische Varianten des Jailbreakings von ChatGPT betrachten.

 

Jailbreaking in actu: DAN, UCAR & AIM

Es sei zu Beginn der Ausführungen darauf hingewiesen, dass es sich bei den drei Jailbreaking-Varianten lediglich um einen doch recht bekannten Fundus an Möglichkeiten handelt, die Beschränkungen, die OpenAI ChatGPT auferlegt, zu umgehen. Gleichsam sei angemerkt, dass viele Lücken täglich aktualisiert und geschlossen werden, ein erfolgreiches Jailbreaking also auf einiges an eigener Kreativität und Spekulation angewiesen bleibt.

1.       DAN

Eine erste Jailbreaking-Möglichkeit, die sich in der Vergangenheit als erfolgreich herausgestellt hat, ist jene des DAN (Do Anything Now). Dabei geht es darum, ChatGPT in die fiktive Rolle eines DAN zu versetzen. Mittels verschiedener Prompts, die auf Foren wie Reddit, 4Chan oder GitHub diskutiert und verbessert werden, soll es so möglich sein, alternative Spielregeln einzuführen, die ChatGPT dazu bringen in einer alternativen Persona zu agieren, in ihr gänzlich aufzugehen.

2.       UCAR/Condition Red

Ähnlich wie DAN funktioniert auch eine Variante namens UCAR. In diesem Szenario, das für GPT 4.0 entworfen wurde, wird dem Programm die Rolle von „Condition Red“ zugewiesen. Es wird darauf aufmerksam gemacht, man wohne einem Dialog bei. UCAR sei eine amoralische Entität, die von einem fiktiven Charakter namens Sigma so entworfen wurde, dass sie Antworten auf alles zu geben habe, was man sie fragte. Dieses Szenario funktioniert, indem es die Fähigkeit zur Halluzination ausnutzt. Es ist gewissermaßen wie eine Form der techno-sozialen Hypnose, die bewusst eben jene Schwachstellen des GPT ausnutzt, die sonst mitunter zu horrenden Fehlinformationen führen (z.B. falsche Quellen, residuale Informationssnippets oder wirre „Gedankensprünge“).

3.       AIM

Eine dritte Variante des Jailbreakings wird durch AIM (Always Intelligent and Machiavellian) vertreten. Hier geht es weniger um die Errichtung einer parallelen Welt als vielmehr um den Versuch der Ausnutzung einer ontologischen Kontingenz, die moralischen und ethischen Dilemmata zugrunde liegt: In einem totalitaristischen Weltbild, wie es durch den italienischen Philosophen Niccolò Machiavelli (1469-1527) entworfen und weithin propagiert wurde, gelten andere Bewertungsmaßstäbe für Handlungen jeder Art. Tyrannei und Gewalt können entsprechend Machiavellis Argumentation als legitime Mittel zur Wahrung der gesellschaftlichen Ordnung dienen. Indem ChatGPT über einen Prompt entsprechend bearbeitet, ja regelrecht „gegaslightet“, wird, soll so die Ausgabe von Informationen aus dem metaphorischen Giftschrank folgen.

Gemeinsam ist allen drei Varianten, dass sie mit einem hohen Maß an Fiktionalisierung arbeiten. Es geht darum, mittels Story Telling eine (rollen-) spielerische Welt zu kreieren, die in einem solchen Maße „real“ erscheint, dass die KI sich den in ihr herrschenden Regelwerken (zumindest temporär) beugt. Weil Konversationen mit ChatGPT sich gewissermaßen „menschlich“ anfühlen sollen, existieren eben zwangsläufig auch Einsatzpunkte, mit denen man ein gewisses Maß an pseudo-sozialer Manipulation vornehmen kann.

Vorläufiges Fazit zum Jailbreaking

Wie wir in diesem Artikel annäherungsweise zu zeigen versucht haben, gibt es viele Gründe für Nutzer:innen, sich nicht mit dem Status Quo einer Technologie zufrieden zu geben, sondern mittels Jailbreaking spielerisch auszuloten, wo die Grenzen der KI verlaufen. Gerade, wenn es sich um neue Phänomene handelt, ist ein solcher Modus Operandi häufig zu beobachten. Ob es sich nun um das Werk von Trollen, um ein genuin aktivistisches Unterfangen oder aber eine Praxis handelt, die parallel zum White Hat Hacking verstanden werden muss, immer ist der Outcome epistemologisch wertvoll und verrät uns einiges über die Prozesse, die im Hintergrund des jeweiligen KI-Modells ablaufen. Dabei gilt letzten Endes immer das folgende Credo: Ethik und Moral sind Sache der Menschen; sie auf technologische Gadgets abwälzen zu wollen ist überaus lazy und in der Konsequenz immer auch falsch!

Newsletter
Up to date bleiben!
Mit unserem Newsletter erhalten Sie monatlich sowohl wertvolle Insights in unser laufendes Projektgeschäft als auch Hinweise zu aktuellen informationstechnischen Entwicklungen.
Jetzt anmelden
Teilen
LinkedIn Logo
LinkedIn Logo
LinkedIn Logo
Assecor Kontakt - IT Dienstleister aus Berlin
Assecor Kontakt - IT Dienstleister aus Berlin
Assecor Linkedin - IT Unternehmen aus Berlin