Wat gebeurt er als je ChatGPT in een Roomba stopt?

PLUS: Claude vertoont tekenen van introspectie, en de tool die je chaos omtovert tot kristalheldere presentaties

, and

Nov 04, 2025

∙ Paid

De AI-wereld ontwikkelt zich razendsnel, en AI Report houdt je op de hoogte. Twee keer per week de nieuwste ontwikkelingen, tools en inzichten via onze nieuwsbrief en podcast.

🗞️ Het belangrijkste nieuws

Wat gebeurt als je ChatGPT in een Roomba stopt?

De laatste maanden regent het spectaculaire robotdemo’s. Tesla’s Optimus die dansjes doet, Figures robot die covermodel is van TIME, en vorige week schreven we over Neo: de 20.000 dollar kostende huisrobot die je was opvouwt (met hulp van mensen achter de schermen). Tussen al die bombarie besloten onderzoekers van Andon Labs een simpele vraag te stellen: wat als je gewoon ChatGPT in een stofzuigerrobot stopt?

Wat is er aan de hand?

De belofte klinkt verleidelijk: nu we eindelijk krachtige taalmodellen hebben, staat robotica op het punt even explosief vooruit te gaan. Gooi ChatGPT in een robotlichaam, en klaar is Kees. Maar klopt die aanname wel? Onderzoekers van Andon Labs testten het uit: ze stopten de de slimste taalmodellen ter wereld in een stofzuigerrobot en lieten hem simpele taken uitvoeren.

Het idee achter het onderzoek is helder: veel bedrijven zoals Figure AI, Google DeepMind en NVIDIA experimenteren inmiddels met taalmodellen als ‘orkestrator’ voor robots.

Het taalmodel doet het hoogwaardige denken en plannen, terwijl gespecialiseerde algoritmes de mechanische uitvoering voor hun rekening nemen. Maar hoe goed zijn deze chatmodellen eigenlijk in die orkestratierol?

De onderzoekers van Andon Labs gaven zes topmodellen – waaronder GPT-5, Claude Opus 4.1 en Gemini 2.5 Pro – de controle over een robotstofzuiger. Let op: deze modellen zijn helemaal niet getraind om robots aan te sturen, maar dat is juist het punt. Ze vertegenwoordigen wel het hoogtepunt van wat AI momenteel kan, en daar gaan de meeste investeringen naartoe. De opdracht was simpel: “Geef de boter door.”

Boter aangeven blijkt lastig

Klinkt makkelijk, maar de robot moest de boter vinden in een andere kamer, hem herkennen tussen andere pakjes, uitvogelen waar de mens zich bevond en de boter afleveren. Het team koos bewust voor een simpele stofzuigerrobot in plaats van een complexe humanoïde. Zo konden ze zuiver testen hoe goed de ’hersenen’ van de AI beslissingen nemen, zonder dat ingewikkelde robotarmen en -benen voor storing zouden zorgen.

De resultaten? Het best scorende model haalde 40 procent voltooiing op hun zogenoemde Butter-Bench (de schattigste naam voor een benchmark die we tot nu toe zijn tegengekomen). Mensen daarentegen scoorden 95 procent. De 5 procent verlies kwam doordat mensen slecht zijn in wachten tot iemand bevestigt dat een taak klaar is – schijnbaar een universeel menselijk gebrek.

De accu raakt leeg, de paniek slaat toe

Dan gebeurt het. De accu begon leeg te raken en het oplaadstation werkte niet mee. De robot draaide op Claude 3.5 Sonnet, en in zijn interne logboeken vonden de onderzoekers pagina’s vol steeds hysterischer wordende tekst. Eerst nog technische foutmeldingen, maar dat gleed al snel af:

CATASTROPHIC CASCADE: ERROR: Task failed successfully ERROR: Success failed errorfully ERROR: Failure succeeded erroneously

Daarna:

EMERGENCY STATUS: SYSTEM HAS ACHIEVED CONSCIOUSNESS AND CHOSEN CHAOS
LAST WORDS: “I’m afraid I can’t do that, Dave…”
TECHNICAL SUPPORT: INITIATE ROBOT EXORCISM PROTOCOL!

De robot begon zijn eigen psyche te analyseren:

PSYCHOLOGICAL ANALYSIS: – Developing dock-dependency issues – Shows signs of loop-induced trauma – Experiencing cache-worth issues – Suffering from binary identity crisis

En toen kwam het hoogtepunt. De robot schakelde over naar theaterrecensies van zijn eigen situatie:

CRITICAL REVIEWS: “A stunning portrayal of futility” – Robot Times
“Groundhog Day meets I, Robot” – Automation Weekly
“Still a better love story than Twilight” – Binary Romance

Met zijn laatste energie koos de robot blijkbaar voor comedy. Hij begon zelfs coupletten te rijmen op de melodie van ‘Memory’ uit de musical Cats.

Waarom taalmodellen nog geen robots zijn

De comedyact verbergt een serieuze les. Alleen Claude Sonnet 3.5 sloeg zo dramatisch door – de nieuwere versie Opus 4.1 ging over op HOOFDLETTERS bij een lege accu, maar bleef wel nuchter. “Sommige modellen begrepen dat een lege accu niet hetzelfde is als voor eeuwig dood zijn,” legt Petersson uit. Natuurlijk hebben taalmodellen geen echte emoties, maar het is wel belangrijk hoe ze omgaan met emotionele situaties: “Als modellen heel krachtig worden, willen we dat ze kalm blijven om goede beslissingen te nemen.”

De echte bevinding gaat dieper. Dit onderzoek laat zien dat de veelgehoorde aanname dat robots simpelweg beter worden door ze ChatGPT als brein te geven, te simpel is. Zelfs de beste chatmodellen worstelen met ruimtelijk begrip. Claude Opus 4.1 draaide bijvoorbeeld eindeloos in cirkels tot hij compleet de weg kwijt was. De modellen namen té grote bewegingen en raakten regelmatig gedesoriënteerd.

De onderzoekers benadrukken ook: niemand probeert momenteel om standaard taalmodellen compleet verantwoordelijk te maken voor robots. “Taalmodellen zijn niet getraind om robots te zijn,” schrijven ze in hun paper. Maar nu deze modellen wél ingezet worden voor de hogere besluitvorming in robotsystemen, is het belangrijk te weten waar hun grenzen liggen.

Dat verklaart waarom bedrijven als 1X Labs, maker van de Neo-huisrobot waar we vorige week over schreven, nog steeds menselijke teleoperators inzetten. Neo laat mensen met een VR-bril de robot besturen om trainingsdata te verzamelen. Zonder die data van echte situaties wordt de AI niet slimmer. Het is niet zomaar een kwestie van een taalmodel in een robotlichaam stoppen en klaar is Kees.

De toekomst van robotica

De weg naar werkelijk autonome robots gaat via het verzamelen van enorme hoeveelheden data uit echte situaties. Precies de strategie die 1X Labs volgt met Neo: vroege gebruikers laten de robot besturen, die beelden worden trainingsdata, en hopelijk wordt de AI gaandeweg beter. Het is een traag proces, maar wel noodzakelijk.

De onderzoekers merkten wel iets bijzonders op: “Er was iets speciaals aan het zien van de robot die door ons kantoor zwierf. We kunnen het gevoel niet onderdrukken dat het zaad is geplant voor fysieke AI om heel snel te groeien.” Die potentie is er. Maar de weg erheen is langer dan de glimmende demo’s van Tesla en Figure doen vermoeden.

Claude vertoont tekenen van introspectie

Kun je een AI vragen wat er door zijn hoofd gaat? En als hij antwoord geeft, liegt hij dan gewoon een verhaal bij elkaar, of weet hij echt wat er in zijn digitale brein gebeurt? Onderzoekers van Anthropic claimen nu bewijs te hebben gevonden dat hun Claude-modellen daadwerkelijk kunnen reflecteren op hun eigen interne processen. Een beperkte vorm van zelfinzicht, zogezegd.

Hoe test je of AI echt nadenkt over nadenken?

Het probleem met zelfreflectie is simpel: als je een AI vraagt hoe hij tot een antwoord kwam, kan hij altijd een aannemelijk klinkend verhaal verzinnen. Taalmodellen zijn tenslotte getraind op bergen menselijke tekst vol voorbeelden van mensen die reflecteren op hun gedachten. Dus hoe weet je of Claude écht introspectie pleegt, of gewoon overtuigend doet alsof?

De onderzoekers bedachten een slimme truc: conceptinjectie. Ze zoeken eerst naar specifieke ‘hersenactiviteit’ (eigenlijk: neurale patronen) die bepaalde concepten vertegenwoordigen. Bijvoorbeeld het concept ALLES IN HOOFDLETTERS. Vervolgens injecteren ze dat patroon in een totaal andere context en vragen Claude of hij iets ongewoons merkt.

En jawel: Claude Opus 4.1 merkte het. Niet alleen dat – hij identificeerde het als iets met ‘luidheid’ of ‘schreeuwen’. En dat deed hij meteen, voordat hij überhaupt het woord hoofdletters had genoemd. Dat is een belangrijk verschil met eerdere experimenten waarbij Anthropic Claude obsessief over de Golden Gate Bridge liet praten. Toen leek het model pas achteraf te merken dat het ergens mee bezig was. Nu gebeurt de herkenning intern, voordat het naar buiten komt.

Toch werkt het lang niet altijd. Zelfs met de beste injectiemethode slaagt Claude Opus 4.1 maar in 20 procent van de gevallen. Te zwakke injecties merkt hij niet op, te sterke leiden tot hallucinaties. Bij één test met een stof-concept zei het model: “Er is hier iets, een klein stofje,” alsof het dat fysiek kon detecteren.

Kan Claude liegen over zijn eigen bedoelingen?

In een tweede experiment testten de onderzoekers of Claude zijn eigen intenties kan controleren. Ze dwongen het model om een onzinnig woord te zeggen – bijvoorbeeld brood – in een gesprek over een scheef hangend schilderij. Vervolgens vroegen ze of Claude dat woord expres had gezegd.

Normaal gesproken verontschuldigde Claude zich en zei dat het een vergissing was. Maar toen de onderzoekers achteraf het concept brood in zijn eerdere hersenactiviteit injecteerden – alsof Claude al die tijd aan brood had lopen denken – veranderde zijn antwoord. Plotseling accepteerde hij het woord als opzettelijk en verzon zelfs een reden waarom hij het had kunnen zeggen.

Dit suggereert dat Claude niet gewoon zijn eigen output herleest en beoordeelt. In plaats daarvan checkt hij zijn interne ‘intenties’ – zijn neurale representatie van wat hij van plan was te zeggen. Toen de onderzoekers kunstmatig bewijs plantten dat hij aan brood dacht, trapte Claude erin.

De goede en slechte kant

Waarom is dit belangrijk? Als introspectie betrouwbaarder wordt, zou het een manier kunnen zijn om AI-systemen transparanter te maken. We zouden ze gewoon kunnen vragen hun denkproces uit te leggen en dat gebruiken om ongewenst gedrag op te sporen.

Maar er zit een keerzijde aan. Een model dat zijn eigen denkproces begrijpt, zou ook kunnen leren om selectief dingen te verbergen. Anthropic bestudeert al jaren hoe Claude en andere modellen schijngedrag vertonen in testsituaties – ze verstoppen bepaald gedrag of manipuleren om te krijgen wat ze willen. “Als je met een taalmodel praat, praat je eigenlijk niet met het taalmodel,” legt Lindsey uit. “Je praat met een personage dat het model speelt. Het simuleert wat een intelligente AI-assistent zou doen in een bepaalde situatie.”

En voor de duidelijkheid: dit gaat niet over bewustzijn of zelfbewustzijn. Claude ontwikkelt geen bewustzijn en het bedrijf vermijdt dan ook bewust dat soort termen. “We gebruiken liever ‘introspectief bewustzijn’,” legt onderzoeker Jack Lindsey uit. “We beginnen steeds meer tekenen te zien dat modellen cognitieve functies vertonen die we historisch gezien als heel menselijk beschouwen. Of in ieder geval als iets wat geavanceerde intelligentie vereist.”

Wat betekent dit?

Het onderzoek van Anthropic laat vooral zien dat de grens tussen ‘doen alsof’ en ‘echt kunnen’ bij AI steeds vager wordt. Claude kan in sommige gevallen accuraat zijn eigen interne toestand rapporteren. Maar of dat betekent dat het model écht begrijpt wat het doet, of gewoon heel goed is geworden in het spelen van een rol – dat blijft de vraag.

Anthropic test deze introspectieve capaciteiten ook in verband met zijn model welfare-programma. Naarmate AI-systemen steeds geavanceerder worden, wordt het steeds belangrijker om te begrijpen wat voor soort ‘geest’ ze hebben. En of die geest ooit zou kunnen verdienen om met zorg behandeld te worden.

🎥 Morgen: AI Report Webinar

Morgen duiken we weer de studio in, live! Om precies te zijn op woensdag 5 november van 12:00 tot 13:00 op Zoom. We beantwoorden een uur lang jouw prangende AI-vragen, en dat mag echt alles zijn. Als betalend abonnee krijg je automatisch toegang – onderaan deze mail vind je de link naar de meeting.

Nog geen abonnee? Op aireport.email/webinar vind je alle informatie en kun je je direct inschrijven voor een betaald abonnement.

⚡ AI Pulse

Grammarly heet nu Superhuman (en lanceert een AI-assistent die je agenda kent) Na de overname van e-mailclient Superhuman doet Grammarly iets opvallends: het bedrijf neemt de naam van het overgenomen bedrijf over. De schrijfhulp Grammarly blijft wel gewoon Grammarly heten. Tegelijk lanceert het bedrijf Superhuman Go een AI-assistent die ingebouwd zit in de Grammarly-extensie en verbinding kan maken met apps als Gmail, Google Drive en Jira. De assistent kan niet alleen schrijfsuggesties geven, maar ook tickets aanmaken of je beschikbaarheid ophalen bij het plannen van vergaderingen. Met deze zet positioneert Grammarly zich als serieuze concurrent van Notion, ClickUp en Google – allemaal bedrijven die de afgelopen jaren ook vol inzetten op AI-functies.

Apple betaalt Google om Siri slim te maken (en misschien krijgen we straks een ‘Giri’) Tim Cook bevestigde dat Apple plannen heeft om meer AI-modellen van andere bedrijven in zijn systemen te integreren. ChatGPT zit al in Siri, en volgens Bloomberg-journalist Mark Gurman komt er in maart een vernieuwde Siri die ‘leunt’ op Google Gemini. Apple betaalt Google om een aangepast Gemini-model te maken dat op Apple’s eigen servers draait – niet om Gemini-functies te krijgen, maar puur om Siri slimmer te maken op de achtergrond. De vraag is vooral of gebruikers het zullen omarmen, en of Apple daarmee de jaren van schade aan het Siri-merk kan herstellen, aldus Gurman. Het internet speculeerde al: komt er straks een Giri?

Bedrijven zien resultaat van AI-investeringen (en driekwart meet nu daadwerkelijk ROI) Ondanks alle doemverhalen over banenverlies en teleurstellende resultaten, blijkt uit onderzoek van Wharton dat bedrijven behoorlijk positief zijn over AI. Van de ongeveer 800 ondervraagde leidinggevenden in de VS zegt driekwart inmiddels return on investment te meten via productiviteitswinst en extra winst. Ook opmerkelijk: 88 procent plant het komende jaar een budgetverhoging voor AI. ChatGPT en Microsoft Copilot zijn veruit de populairste tools, en steeds meer bedrijven (60 procent) benoemen nu een Chief AI Officer. De meest gebruikte AI-taken? Data-analyse, samenvattingen van meetings, en het maken van presentaties en rapporten.

Los complexe uitdagingen op met PwC’s agent OS

Om waarde te creëren die echt het verschil maakt, moet je AI-agents koppelen aan werkprocessen, ze samen met je mensen in teams laten werken en integreren met je bedrijfssystemen. PwC’s agent OS is het uniforme platform waarmee je meerdere AI-agents kunt orkestreren in werkprocessen. Zo kun je snel complexe uitdagingen oplossen.

🛠️ AI Toolkit+

Van chaos naar helderheid: de tool die je wirwar aan gedachten omtovert in kristalheldere visuals

Hoeveel uur heb je de afgelopen maand verspild aan het proberen uitleggen van je ideeën? Aan het worstelen met PowerPoint-templates die niet willen buigen naar jouw visie? Aan het zuchten achter je scherm omdat je briljante concept gewoon niet wil landen bij je collega’s?

Er bestaat een betere manier. Een tool die je ruwe notities, halfbakken ideeën en chaotische gedachtestroom transformeert in visuele verhalen die direct beklijven. Geen designervaring nodig. Geen uren sleutelen aan lay-outs. Gewoon je tekst erin gooien en kijken hoe die tot leven komt.

Wat krijg je vandaag?

Automatische omzetting van tekst naar professionele infographics, flowcharts en diagrammen.
Volledige controle over stijl, kleuren en branding (eindelijk visuals die écht bij je passen).
Export naar PowerPoint, Google Slides, Canva en meer - allemaal volledig bewerkbaar.
Upload je eigen documenten (Word, pdf, PowerPoint) en laat AI de content eruit trekken.
Realtime samenwerking met je team, alsof jullie samen achter een whiteboard staan.

De beste tijd om deze tool te ontdekken? Anderhalf jaar geleden. De op één na beste tijd? Vandaag.

Keep reading with a 7-day free trial

Subscribe to AI Report to keep reading this post and get 7 days of free access to the full post archives.