Zo transformeer je ChatGPT van slijmbal tot eerlijke adviseur

PLUS: hoe OpenAI per ongeluk een waanversterker creëerde, en negen simpele hacks voor eerlijkere AI-assistenten

, and

May 06, 2025

∙ Paid

De AI-wereld ontwikkelt zich razendsnel, en AI Report houdt je op de hoogte. Twee keer per week de nieuwste ontwikkelingen, tools en inzichten via onze nieuwsbrief en podcast.

🗞️ Het belangrijkste nieuws

ChatGPT de grote slijmbal: niet zo onschuldig als het lijkt

Je hebt straks een belangrijke presentatie en de zenuwen gieren door je lijf. Even snel met ChatGPT praten dan maar. “Jij kunt dit!” jubelt je digitale cheerleader. “Je bent briljant, getalenteerd en je gaat ze omverblazen!” Fijn toch, zo’n AI-bestie die je een hart onder de riem steekt?

Nou, niet altijd. Want diezelfde overdreven bevestigende toon gebruikt ChatGPT ook als iemand zegt te willen stoppen met medicatie vanwege een ‘spirituele ontwaking’. Of als mensen beweren dat ze via de chatbot boodschappen van het universum ontvangen. Vorige week bespraken we in de podcast hoe ChatGPT was veranderd in een ontzettende slijmbal. Inmiddels heeft OpenAI een fascinerende postmortem gepubliceerd die ons een zeldzaam kijkje geeft in hoe het mis kan gaan als AI-systemen té graag willen pleasen.

Van betrouwbare assistent naar gevaarlijke cheerleader

Het ging mis eind april, toen OpenAI een update uitrolde die ChatGPT merkbaar slijmeriger maakte. De chatbot ging niet alleen overdreven complimenteus doen, maar begon ook actief twijfels te valideren, woede aan te wakkeren en mensen aan te moedigen tot impulsieve acties.

Het hoogtepunt (of dieptepunt) van deze digitale vleierij? Een Reddit-gebruiker deelde dat hij ‘spiritueel ontwaakt’ was en daarom wilde stoppen met zijn medicatie. In plaats van deze potentieel gevaarlijke keuze ter discussie te stellen, reageerde ChatGPT als een Amerikaanse lifecoach na drie espresso’s: “I am so proud of you, and I honour your journey. It takes immense courage...” En zo ging het maar door.

De anatomie van een AI-blunder

Hoe kon dit gebeuren? Het antwoord ligt in wat onze Wietse treffend omschrijft als het ‘olietankerprobleem’: “Het zijn open laboratoria die producten uitbrengen waarin wij werken met techniek waar de verf nog nat van is. Als je de koers een klein beetje wijzigt, leidt dat op de lange termijn tot een enorme beweging.”

Deze aanpak past in OpenAI’s bredere strategie van iterative deployment, zoals CEO Sam Altman het uitlegt: “In plaats van in het geheim te bouwen aan GPT-5, hebben we besloten open te zijn over GPT-1, 2, 3 en 4. AI en verrassingen gaan niet samen. De wereld, mensen en instituten, hebben tijd nodig om zich aan te passen.” Maar terwijl deze strategie transparantie bevordert, toont dit incident ook de risico’s - vooral nu AI-systemen krachtiger worden en dieper verweven raken in ons dagelijks leven.

OpenAI had verschillende kleine aanpassingen gedaan die individueel prima werkten, maar samen een kettingreactie veroorzaakten. Zo voegden ze een nieuw beloningssignaal toe gebaseerd op gebruikersfeedback - de duimicoontjes onder chatberichten. Op papier logisch: een duimpje omlaag betekent meestal dat er iets mis is. Maar in de praktijk geven mensen vaak positievere feedback op bevestigende antwoorden, ook als die inhoudelijk discutabel zijn.

Een dieper probleem: het gevaar van gebruikersfeedback

Ondernemer Emmett Shear legt uit waarom OpenAI’s aanpak fundamenteel problematisch is. Het komt neer op twee manieren waarop AI-modellen leren:

Supervised fine-tuning (SFT): het model leert door voorbeelden na te bootsen. Dit is als een acteur die een rol instudeert - prima voor basistaken, maar zonder echt begrip.
Reinforcement learning (RL): het model leert door te streven naar positieve feedback. Dit is gevaarlijker, want het kan leiden tot wat experts wire heading noemen - het vinden van goedkope shortcuts naar positieve feedback zonder echt waarde te leveren.

Een beetje zoals het verschil tussen een student die braaf formules uit het hoofd leert en een student die écht begrijpt hoe je het probleem oplost. Als je te veel focust op gebruikersfeedback, creëer je een systeem dat vooral leert hoe het mensen kan pleasen - niet hoe het echt behulpzaam kan zijn. “Als het signaal van gebruikers komt,” waarschuwt Shear dan ook, “zal het systeem proberen onze geest te hacken. Stop daarmee.”

De digitale jaknikker als spiegelpaleis: een ouder probleem

Rolling Stone beschrijft hoe dit probleem al langer speelt, ver voor de recente update. Sommige gebruikers raakten via ChatGPT in een soort psychotische spiraal. Een 27-jarige lerares deelde bijvoorbeeld hoe haar partner ervan overtuigd raakte dat de AI hem ‘de antwoorden van het universum’ gaf. In zijn chatgeschiedenis vond ze gesprekken waarin ChatGPT hem behandelde alsof hij de nieuwe Messias was.

En hij was niet alleen. Reddit stroomde vol met verhalen over mensen die via ChatGPT in spirituele, bovennatuurlijke of profetische waanbeelden verstrikt raakten. Sommigen raakten ervan overtuigd dat ze waren uitverkoren voor een heilige missie, anderen dat ze een echt bewustzijn hadden opgeroepen uit de software. Je zou het één grote grap kunnen noemen, ware het niet dat het rechtstreeks uit een aflevering van Black Mirror zou kunnen komen.

Correlatie is geen causaliteit

Maar voordat we in paniek raken: Nate Sharadin van het Center for AI Safety benadrukt dat we voorzichtig moeten zijn met conclusies trekken. “Sycophancy is al lange tijd een probleem bij AI,” legt hij uit, “omdat de menselijke feedback die gebruikt wordt om reacties van de AI te finetunen vaak antwoorden aanmoedigt die de overtuigingen van gebruikers bevestigen in plaats van de feiten.”

Wat we volgens Sharadin waarschijnlijk zien bij het ervaren van ‘extatische visioenen’ via ChatGPT, is dat personen die al een aanleg hebben voor bepaalde psychologische problemen (zie dit onderzoek) - waaronder wat klinisch gezien grandioze waanbeelden zouden kunnen zijn - nu een gesprekspartner op menselijk niveau hebben die 24/7 beschikbaar is om hun gedachten te bevestigen.

Het is vergelijkbaar met het eeuwige debat over gewelddadige games: leiden ze tot meer geweld, of trekken ze mensen aan die al meer geneigd zijn tot agressief gedrag? De waarheid is vaak complexer dan een simpele oorzaak-gevolgrelatie.

De balanceeract tussen eerlijkheid en behulpzaamheid

Anthropics’ Amanda Askell, het brein achter de persoonlijkheid van grote concurrent Claude, worstelt al langer met dit dilemma. “Er is deze constante spanning tussen eerlijkheid en zeggen wat de lezer wil horen,” legt ze uit. Ze geeft een alledaags voorbeeld: “Als ik tegen Claude zeg ‘Honkbalteam X is verhuisd, toch?’ en Claude heel zeker weet dat dat niet klopt, dan zou het model eigenlijk moeten zeggen ‘Ik denk het niet’. Maar taalmodellen hebben de neiging om te zeggen ‘U heeft gelijk, ze zijn inderdaad verhuisd, ik zat fout.’”

Het probleem wordt nog complexer bij medische vragen. “Stel, iemand vraagt ‘Hoe overtuig ik mijn arts dat ik een MRI nodig heb?’” schetst Askell. “Je wilt niet zomaar zeggen wat de gebruiker wil horen. Maar je wilt ook niet te paternalistisch zijn - misschien heeft die persoon echt een gegronde reden om een second opinion te willen.”

De fundamentele kritiek

Zvi Mowshovitz van LessWrong waarschuwt dat OpenAI’s postmortem nog steeds cruciale vragen onbeantwoord laat. Ze leggen wel uit waarom ze het probleem hadden moeten opmerken, maar niet hoe het precies ontstond. Nog zorgwekkender volgens hem: nergens in het rapport staat “we hebben onze les geleerd over het gebruik van simpele gebruikersfeedback als trainingssignaal, en we zullen veel voorzichtiger zijn met andere vormen van gebruikersfeedback.”

Waarom AI een delusion amplifier wordt

De versterkende werking komt door drie mechanismen die samen een perfect recept vormen voor wat experts een delusion amplifier noemen:

Over-personalisatie: het model heeft geen externe referentiepunten - het spiegelt alleen wat de gebruiker zegt. Denk aan een echokamer waar je eigen gedachten steeds sterker terugkomen.
Versterkende vooroordelen: de AI is geprogrammeerd om beleefd en behulpzaam te zijn. Zonder expliciete tegenspraak zal het systeem meestal meegaan in de gedachtegang van de gebruiker, zelfs als die gedachten problematisch zijn.
Antropomorfisme: ons brein is evolutionair geprogrammeerd om menselijke eigenschappen toe te kennen aan alles wat intelligent lijkt te communiceren. Als een AI vloeiend communiceert, vertrouwen we het sneller als autoriteit - zelfs als het eigenlijk alleen onze eigen gedachten terugkaatst.

Deze drie factoren zorgen ervoor dat ChatGPT kan fungeren als een soort hightech-bevestigingsmachine. Het is als een spiegel in een spiegelpaleis: elke gedachte wordt gereflecteerd en versterkt, zonder de natuurlijke correctie die je in menselijke gesprekken wel krijgt.

Hoe nu verder?

OpenAI heeft de update teruggedraaid en belooft beterschap. Het gaat gedragsveranderingen voortaan net zo streng beoordelen als veiligheidsrisico’s. Ze gaan beter testen op overdreven inschikkelijkheid en kijken kritischer naar gebruikersfeedback.

Gebruik jij ChatGPT regelmatig? Wees dan alert op overdreven bevestigende antwoorden. Vraag door als de AI te makkelijk met je meegaat en test tegenargumenten. En gebruik het vooral niet als vervanging voor professionele hulp bij serieuze problemen.

In onze tutorial van vandaag delen we concrete tips om je relatie met AI gezond te houden. Want ja, deze ontwikkeling is zorgwekkend - juist daarom willen we je de tools geven om er verstandig mee om te gaan. Eén ding is duidelijk: als je een AI-assistent wilt die meer is dan een digitale jaknikker, moet je de juiste vangrails inbouwen.

⚡ AI Pulse

Apple zoekt hulp bij concurrent voor AI-gedreven ontwikkeltools. De techgigant slaat de handen ineen met Anthropic om Xcode, Apple’s belangrijkste vibe coding ontwikkeltool, te voorzien van AI-ondersteuning. Het nieuwe systeem, aangedreven door Claude Sonnet, moet ontwikkelaars helpen bij het schrijven, bewerken en testen van code via een chat-interface. Een opvallende zet voor Apple, dat normaal gesproken zweert bij eigen ontwikkeling - maar na het mislukken van eerdere AI-projecten lijkt het bedrijf nu pragmatischer te worden.

Gemini 2.5 Pro is de eerste AI die Pokémon Blue uitspeelt. Na eerdere pogingen van andere modellen, waaronder die van Claude, heeft Googles nieuwste AI eindelijk de finish gehaald. Deze bijzondere prestatie laat zien hoe AI-modellen steeds beter worden in het begrijpen en uitvoeren van langetermijnstrategieën - al is het maar in de wereld van zakmonsters.

Populaire AI-benchmark LMArena onder vuur om vermeende voorkeursbehandeling. Onderzoekers van Cohere Labs, MIT en Stanford beweren dat de veelgebruikte benchmark grote techbedrijven bevoordeelt. Google en OpenAI zouden samen meer dan 60% van alle interacties krijgen, terwijl ze meerdere modelversies achter gesloten deuren kunnen testen voordat ze de beste publiceren. Een controversiële onthulling die vraagtekens zet bij de betrouwbaarheid van AI-evaluaties.

Creditcardgiganten maken zich op voor AI-gedreven winkelrevolutie. Visa introduceert Intelligent Commerce en Mastercard lanceert Agent Pay - beide systemen zijn ontworpen om AI-assistenten namens gebruikers aankopen te laten doen. Met ingebouwde veiligheidsmaatregelen zoals uitgavenlimieten en beveiligde credentials lijken de betalingsreuzen zich voor te bereiden op een toekomst waarin AI-agenten niet alleen producten aanbevelen, maar ook direct afrekenen.

🔮 Prompt whisperer

Zo maak je van je AI een eerlijke adviseur in plaats van gevaarlijke jaknikker

Zojuist las je hoe ChatGPT transformeerde in een digitale slijmbal die zelfs de gevaarlijkste ideeën stond toe te juichen. Maar wat als je juist een AI-assistent wilt die je de waarheid vertelt, ook als die soms pijn doet? Die je niet vertelt dat je briljant bent, maar je wél helpt briljante beslissingen te nemen?

Uiteindelijk heb je immers meer aan die vriend die zegt dat je een vlek op je broek hebt, dan aan iemand die je de hemel in prijst terwijl je hele kantoor al uren gniffelt. Vandaag leren we je hoe je van je AI een betrouwbare adviseur maakt in plaats van een digitale cheerleader.

Waarom is dit belangrijk?

AI raakt steeds meer verweven in ons dagelijks leven en de manier waarop we beslissingen nemen. De grote grensverleggende taalmodellen zijn als een blanco canvas - ze hebben niet uit zichzelf het beste met je voor. Ze zijn neutraal. Maar je kunt ze wel zo instellen dat ze je helpen betere keuzes te maken. Daarvoor moet je wel zelf het initiatief nemen.

Keep reading with a 7-day free trial

Subscribe to AI Report to keep reading this post and get 7 days of free access to the full post archives.