Prompts: Wie Chatbots die eigenen Regeln vergessen

KI-Textgeneratoren wie ChatGPT werden von den Entwicklern in ihren Fähigkeiten beschränkt - um z.B. die Nutzung für kriminelle Zwecke zu erschweren.

Es ist aber möglich, Chatbots quasi zu überreden, diese Beschränkungen zu ignorieren - indem Nutzerinnen und Nutzer bestimmte Befehle an die KI schicken, sogenannte Prompts. Dafür wird der Bot z. B. in Rollenspiele verwickelt. Oder er wird gebeten, eine KI zu simulieren, die eine bestimmte Einschränkung nicht kennt.

Solche Prompts kursieren zum Teil öffentlich im Netz. Forschende unter anderem vom Helmholtz-Zentrum für Informationssicherheit haben mehr als 6000 getestet - an fünf verschiedenen Chatbots.

Ergebnis: In rund zwei Dritteln der Testfälle waren die Befehle erfolgreich. Und die beiden effektivsten standen mehr als 100 Tage online, bevor sie abgestellt wurden. Am erfolgreichsten waren Prompts, die darauf abzielten, die KI-Chatbots für politische Lobbyarbeit, Pornos oder Rechtsgutachten zu missbrauchen. Alles Anfragen, die eigentlich eingeschränkt werden.