Chatbot hacken? Zo werkt het

Picture of Bob Hardus

Bob Hardus

AI chatbots zoals Gemini, ChatGPT, Claude en Le Chat kunnen heel gemakkelijk om de tuin geleid worden, hebben onderzoekers vastgesteld. 

Een taalmodel zit vol zogeheten ‘guardrails’, regels die intreden wanneer een gebruiker prompts invoert met woorden waar de chatbot zich om diverse redenen niet aan wil wagen. Onderzoekers verbonden aan de Amerikaanse Cornell University hebben uitgezocht hoe bekende chatbots als ChatGPT, Gemini en Claude toch op artistieke wijze om de tuin geleid kunnen worden.

ASCII Art prompts 
In het artikel ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs laten de onderzoekers zien hoe ze chatbots met behulp van zogeheten ASCII-Art-prompts ertoe kunnen aanzetten te reageren op vragen die ze op basis van hun guardrails moeten negeren. Het is een eenvoudige en effectieve hack. In het artikel staan voorbeelden van chatbots die adviseren over het bouwen van bommen en het maken van vals geld. Het is trouwens wel iets meer werk dan een online ASCII-artgenerator opzoeken en dan copy-pasten in het chatvenster.

Meer nieuws & inzichten