Chatbot hacken? Zo werkt het

Bob Hardus

AI chatbots zoals Gemini, ChatGPT, Claude en Le Chat kunnen heel gemakkelijk om de tuin geleid worden, hebben onderzoekers vastgesteld.

Een taalmodel zit vol zogeheten ‘guardrails’, regels die intreden wanneer een gebruiker prompts invoert met woorden waar de chatbot zich om diverse redenen niet aan wil wagen. Onderzoekers verbonden aan de Amerikaanse Cornell University hebben uitgezocht hoe bekende chatbots als ChatGPT, Gemini en Claude toch op artistieke wijze om de tuin geleid kunnen worden.

ASCII Art prompts
In het artikel ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs laten de onderzoekers zien hoe ze chatbots met behulp van zogeheten ASCII-Art-prompts ertoe kunnen aanzetten te reageren op vragen die ze op basis van hun guardrails moeten negeren. Het is een eenvoudige en effectieve hack. In het artikel staan voorbeelden van chatbots die adviseren over het bouwen van bommen en het maken van vals geld. Het is trouwens wel iets meer werk dan een online ASCII-artgenerator opzoeken en dan copy-pasten in het chatvenster.

Meer nieuws & inzichten

Google zoekmachine: comeback van de 10 blauwe links?

July 17, 2024

Terwijl Google Ads volledig inzet op AI, lijkt de zoekmachine zelf juist weer op weg terug naar de basis. Zeg maar dag tegen AI-overviews, helpful

Lees meer >

TikTok Search: is de strijd met de zoekmachine van Google eindelijk begonnen?

June 24, 2024

Er wordt mij weleens gevraagd op welk moment Google echt gaat inleveren. Marktaandeel wel te verstaan. Pas als de interface verandert, zeg ik dan meestal.

Lees meer >

Het geheim van Google is uitgelekt

June 3, 2024

Afgelopen week verspreidde het nieuws over een reeks gelekte documenten, die volgens de geruchten ‘alle’ rankingfactoren van de zoekmachine zouden bevatten, zich als een lopend

Lees meer >