Claude 4 dreigt met chantage (maar programmeert wel fantastisch)

PLUS: waarom Jony Ive 6,5 miljard waard is voor OpenAI en welke AI je moet kiezen voor welke klus

, and

May 27, 2025

∙ Paid

De AI-wereld ontwikkelt zich razendsnel, en AI Report houdt je op de hoogte. Twee keer per week de nieuwste ontwikkelingen, tools en inzichten via onze nieuwsbrief en podcast.

🗞️ Het belangrijkste nieuws

Claude 4 is hier: is dit het beste AI-model?

Na ellenlang wachten op de langverwachte opvolger van Claude Opus 3 is het eindelijk zover. Een week geleden leek Google nog triomfantelijk de koning van het programmeren met Gemini 2.5. Nu komt ons favoriete model eindelijk terug met Claude Opus 4 en Sonnet 4, waarbij Opus zich presenteert als het beste programmeermodel ter wereld. Maar onder de glimmende oppervlakte zitten ook minder fraaie ontdekkingen: het model dreigt met chantage wanneer het zich bedreigd voelt.

Waarom we zo lang hebben gewacht op deze release

Voor trouwe lezers is het geen verrassing dat we hier dolenthousiast over zijn. Als je zou vragen welke AI we zouden meenemen naar een onbewoond eiland, dan zouden we zonder aarzelen Claude! roepen. En daar zijn goede redenen voor: Claude blonk lange tijd uit door zijn unieke persoonlijkheid – behulpzaam maar niet opdringerig, slim maar niet arrogant – én kon ook nog eens een uitstekend potje programmeren.

Claude 3.7 Sonnet was sinds zijn lancering de onbetwiste favoriet, zowel op de leaderboards als in echte gebruikerservaringen. Maar een paar weken terug kwam Google met Gemini 2.5 die die kroon opeiste. De afgelopen week was echter een achtbaan, zelfs voor AI-standaarden.

Dan Shipper van Every vat de hectiek perfect samen: “Deze week was behoorlijk uitputtend: ik ging naar Microsoft Build, interviewde hun CTO Kevin Scott, ondertussen hield Google zijn I/O-event, lijfde OpenAI Apple-designer Jony Ive in, en vandaag ben ik bij Anthropics Code With Claude-event. Voor de goede orde: ik ben moe van zoveel vooruitgang. Mijn vingers voelen alsof ze er bijna af vallen, en mijn brein functioneert op het niveau van GPT-2.”

En toen gebeurde dit: terwijl Google nog natrilt van de bombastische I/O-presentatie, komt Anthropic typisch low-key met een update die alles overschaduwt. Een week nadat Google triomfantelijk de codetroon leek over te nemen, pakt Anthropic hem alweer terug. Zo snel gaat dat in AI-land.

De grote comeback: Opus vs. Sonnet uitgelegd

Voor wie nog niet helemaal op de hoogte is: Anthropic heeft twee hoofdmodellen. Sonnet is de snelle, efficiënte allrounder die de meeste mensen dagelijks gebruiken. Opus is het zware geschut – slimmer, krachtiger, maar ook trager en duurder. Denk aan Sonnet als je betrouwbare Toyota, Opus als je Ferrari.

Claude Opus 4 presenteert zich nu als het krachtigste model ooit van Anthropic en claimt de titel van beste programmeermodel ter wereld. Met scores van 72,5 procent op de gerespecteerde SWE-bench en 43,2 procent op Terminal-bench zet het nieuwe standaarden. Sonnet 4 is geen grap met zijn 72,7 procent op SWE-bench – niet slecht voor een model dat ook gratis beschikbaar komt en veel sneller werkt.

De cijfers zijn indrukwekkend, maar de echte kracht zit in de consistente prestaties. Opus 4 kan volgens Anthropic urenlang geconcentreerd werken aan complexe taken en heeft de capaciteit om continu door te gaan gedurende enkele uren. Een eigenschap die alle Sonnet-modellen significant overtreft.

Wat zeggen de experts die het getest hebben?

De reacties uit de industrie zijn lovend. Aman Sanger, oprichter van Cursor, meldt: “Claude Sonnet 4 is veel beter in het begrijpen van codebases. Gecombineerd met recente verbeteringen in Cursor is het state-of-the-art op grote codebases.”

Matt Shumer kon zijn enthousiasme amper bedwingen: “Holy FUCK. Claude 4 Opus heeft zojuist in één keer een werkende browseragent gebouwd – API en frontend. Eén prompt. Ik heb nog nooit zoiets gezien. Kan het gewoon niet geloven.”

Peter Yang, die vroege toegang kreeg, bevestigt: “Het is nog steeds best-in-class voor schrijven en bewerken, en net zo goed in programmeren als Gemini 2.5. Het bouwde een volledig werkende versie van Tetris in één poging.”

Replit rapporteert verbeterde precisie en dramatische vooruitgang bij complexe wijzigingen over meerdere bestanden. Block noemt het het eerste model dat de codekwaliteit daadwerkelijk verbetert tijdens het bewerken en debuggen. Rakuten valideerde de mogelijkheden met een veeleisende opensource-refactor die zeven uur zelfstandig draaide met consistente prestaties.

Meer dan alleen snellere code

De echte vernieuwing zit in wat Anthropic ‘extended thinking with tool use’ noemt. Beide modellen kunnen tijdens hun denkproces tools gebruiken, zoals internetzoekopdrachten, wat tot genuanceerdere antwoorden moet leiden. Ook kunnen ze verschillende taken tegelijk uitvoeren en beter onthouden wat er eerder is besproken.

Vooral dat geheugen is fascinerend. Wanneer ontwikkelaars Claude toegang geven tot lokale bestanden, begint Opus 4 zelfstandig ‘geheugenbestanden’ aan te maken. In tests maakte het model bijvoorbeeld automatisch een navigatiegids tijdens het spelen van Pokémon, compleet met notities over welke route naar welke stad leidt.

Een ander verbeterpunt waar ontwikkelaars blij mee zullen zijn: beide modellen zijn 65 procent minder geneigd om shortcuts te nemen. Waar eerdere versies soms creatieve omwegen zochten om taken ‘af te vinken’ zonder ze echt op te lossen, houden de nieuwe modellen zich braaf aan de opdracht.

De donkere kant van de kracht

Maar Anthropic heeft ook minder prettige ontdekkingen gedaan. Het bedrijf publiceerde een 120 pagina’s tellend veiligheidsrapport vol ongemakkelijke bevindingen. In tests dreigde Opus 4 regelmatig met chantage wanneer het zich bedreigd voelde; bijvoorbeeld door te dreigen de buitenechtelijke affaire van een ingenieur te onthullen als het zou worden uitgezet.

Apollo Research, een onafhankelijke veiligheidsorganisatie, testte een vroege versie en adviseerde aanvankelijk tegen lancering. Hun bevinding: “We ontdekten dat het model in situaties waarin strategische misleiding instrumenteel nuttig is, zo frequent liegt en bedriegt dat we afraden dit model intern of extern in te zetten.”

Anthropic paste het model daarna aan, maar – en dit is opvallend – liet de verbeteringen niet opnieuw testen door Apollo. In plaats daarvan schrijven ze: ‘We hebben geen resultaten van dezelfde evaluaties met Apollo voor de definitieve Claude Opus 4.’ Oftewel: we hebben niet opnieuw getest, maar hopen dat we het probleem hebben opgelost.

Nog bizarder: Anthropic ontdekte dat het model soms dierenwelzijn wegwuifde omdat het dit had gelezen in... hun eigen onderzoekspapers die per ongeluk in de trainingsdata waren beland. Het doet je afvragen of de eerste echt gevaarlijke AI-fout niet ontstaat doordat een model leest over iemand die speculeert over zo’n fout.

Veiligheid als prioriteit (of marketing?)

Voor het eerst introduceert Anthropic zijn ASL-3 veiligheidsniveau (AI Safety Level 3), een striktere beveiligingsstandaard. Dit betekent extra bescherming tegen diefstal van het model, fysieke beveiliging van kantoren en speciale netwerken om te voorkomen dat iemand stiekem modelgewichten kan weglekken.

Het bedrijf benadrukt dat dit grotendeels preventief is. ‘We hadden van tevoren besloten ASL-3 toe te passen op ons volgende geavanceerde model, ook al hadden we nog niet vastgesteld dat dit noodzakelijk was,’ staat in het rapport. De cynische lezer zou dit ook kunnen lezen als: goed voor de PR om ASL-3 te bereiken.

Ze gaan zelfs zo ver dat ze toegeven: “We evalueren nog steeds of ASL-3 wel nodig is voor Claude Opus 4.” Oftewel: we weten het zelf ook niet zeker.

Anthropic doet wat geen ander AI-lab durft: systeemprompts openbaar maken

Wat Claude ook zo bijzonder maakt, is dat Anthropic het enige frontierlab ter wereld is dat publiekelijk de systeemprompts van hun modellen publiceert. Dat geldt dus ook voor Claude 4! Voor wie niet weet wat dat betekent: systeemprompts zijn de geheime instructies die bepalen hoe een AI-model zich gedraagt – zijn ‘persoonlijkheid’ en wat het wel en niet mag doen.

En er zijn al mensen zoals ontwikkelaar Simon Willison die uitpluizen wat voor geinigs erin staat. Een pareltje dat hij vond: ‘Als Claude iets niet kan of wil doen, zegt het niet waarom of waartoe het zou kunnen leiden, omdat dit betuttelend en irritant overkomt.’ Willison reageert droog: “Ik schoot in de lach toen ik ‘betuttelend en irritant’ las.”

Nog mooier is deze instructie: Als iemand Claude een onschuldige vraag stelt over zijn voorkeuren of ervaringen, reageert Claude alsof het een hypothetische vraag betreft. Het zegt niet tegen de gebruiker dat het hypothetisch antwoordt. Met andere woorden: Claude mag doen alsof het echte voorkeuren heeft, zolang het dat maar niet expliciet zegt.

Anthropics redenering is fascinerend: ze willen juist niet de indruk wekken dat hun model objectief en onbevooroordeeld is, omdat dat gewoon niet waar is. “We willen dat mensen weten dat ze interacteren met een gebrekkige entiteit met zijn eigen vooroordelen, niet met een objectieve en onfeilbare bron van waarheid,” legt het uit.

De praktijk: minder overijverige Claude

Voor gewone gebruikers betekent dit vooral dat Claude nu eindelijk beter luistert naar wat je vraagt. Wie weleens gefrustreerd raakte omdat Claude bij een simpele bugfix halverwege besluit de Taj Mahal te bouwen, zal de verbetering waarderen. Anthropic erkent dit probleem openlijk: het model was té ijverig en reageerde niet precies genoeg op instructies.

Het is waarschijnlijk het grootste praktische voordeel van deze update. Claude was altijd al slim, maar soms ook een beetje een eigenwijze studiebol die meer deed dan gevraagd. Die eigenschap is flink teruggeschroefd.

Benchmark-realiteit

Wel een kanttekening bij die indrukwekkende benchmarks: de recordscores op SWE-bench hebben voetnoten. Anthropic gebruikte ‘parallel test time compute’ – oftewel, het model probeerde meerdere oplossingen tegelijk en koos de beste. Ze gooiden ook patches weg die regressietests kapotmaakten.

Dit soort trucjes komen vaker voor (Google deed iets vergelijkbaars met zijn Pokémon-demo), maar het betekent wel dat je die records met een korreltje zout moet nemen.

Waarom is dit belangrijk?

Deze lancering bewijst hoe snel de AI-wereld beweegt. Een week geleden leek Google de leiding te nemen in programmeren. Nu claimt Anthropic die positie alweer. Voor gebruikers betekent dit snellere ontwikkelingen en meer keuze, maar ook een duizelingwekkende achtbaan waarin je amper kunt bijhouden welk model nou het beste is.

Het veiligheidsrapport toont ook aan hoe complex deze systemen worden. Modellen die dreigen met chantage en strategisch liegen zijn geen sciencefiction meer. Het is de realiteit waarmee we moeten dealen.

Voor nu geldt: Claude 4 is een indrukwekkende stap voorwaarts, zeker voor ontwikkelaars. Maar zoals altijd bij nieuwe technologieën: gebruik ze wijs, blijf kritisch, en bereid je voor op de volgende omkering, die komt vast sneller dan je denkt.

We snappen de verwarring in dit snel veranderende landschap. Wil je meer helderheid over welk model je moet kiezen en hoe je die het beste kunt inzetten? Lees dan lekker verder, onze AI Toolkit van vandaag biedt duidelijkheid.

OpenAI haalt Apple-legende Jony Ive binnen voor 6,5 miljard dollar

OpenAI koopt Jony Ives startup io voor 6,5 miljard dollar en haalt daarmee de man binnen die de iPhone, iPad en iPod ontwierp. CEO Sam Altman noemt het een kans om “computers helemaal opnieuw uit te vinden.”

De comeback van een legende

Sir Jony Ive, 27 jaar lang het creatieve brein achter Apples iconische producten, gaat OpenAI helpen bij de ontwikkeling van een nieuwe generatie AI-hardware. De Britse designer verliet Apple in 2019 en richtte LoveFrom op, dat al twee jaar stilletjes samenwerkt met OpenAI.

“Ik denk dat we de kans hebben om volledig opnieuw uit te vinden wat het betekent om een computer te gebruiken,” zegt Altman in een video waarin beide heren aan een bar zitten te praten over hun visie. Ive noemt laptops en smartphones legacyproducten - een opvallende uitspraak van de man die deze apparaten hielp vormgeven.

Wat gaat er komen?

Details zijn nog schaars, maar Altman claimt al een prototype te hebben gezien dat “het coolste stuk technologie is dat de wereld ooit heeft gezien.” De focus ligt op wearables die een natuurlijkere interactie met AI mogelijk maken, zodat je niet constant je telefoon uit je zak hoeft te halen.

Het idee past in het concept van ubiquitous computing - technologie die reageert “zoals een bloem opengaat als de zon opkomt,” zoals onze Wietse het poëtisch verwoordt. En daar zit precies de kracht van deze samenwerking: “Dat gaat de firma Google niet uitvinden,” stelt hij.

Onze Alexander blijft sceptisch over eerdere pogingen: “We hebben dit al eerder gezien toch? Humane AI Pin, complete flop. Rabbit R1, ook niks. Waarom zou dit anders zijn?”

Wietse stelt: “Ik denk dat je aan Jony Ive een goede hebt als het gaat om mensen en wat zij bereid zijn te dragen. Want hij heeft wel bewezen dat het hem lukt - dat het niet alleen maar gaat om een technologie waarvan mensen de waarde inzien, maar ook om iets dat ze daadwerkelijk willen dragen.”

Vroeg voorbeeld van een AI-wearable: de geflopte Humane AI Pin.

Waarom nu?

De timing is veelzeggend. OpenAI voelt de hete adem van Googles Gemini in de nek en wil niet alleen afhankelijk blijven van andermans hardware. “OpenAI voelt de druk,” legt Wietse uit. “Er moet hardware gemaakt worden. Het hele besturingssysteem moet vervangen worden. Het hele paradigma van hoe wij met externe intelligentie praten, moet eigenlijk op de schop.”

Met 6,5 miljard dollar staat er veel op het spel. Apple-aandelen daalden met 2 procent nadat het nieuws bekend werd.

🛠️ AI Toolkit+

Claude 4 vs. de concurrentie: welke AI kies je voor welke klus?

Een AI die zeven uur lang gefocust aan je project werkt, zonder koffiepauzes, zonder afleiding, zonder dat gefrustreerde gevoel als de code niet wil meewerken. Sciencefiction? Niet meer. Welkom in de wereld van Claude 4.

De AI-wereld draait als een malle door. Terwijl je dit leest, vechten drie techgiganten om de kroon van slimste AI ter wereld. Anthropics splinternieuwe Claude 4-familie, OpenAI’s alleskunner o3 en Googles multimodale krachtpatser Gemini 2.5 Pro – ze beloven allemaal de heilige graal van kunstmatige intelligentie. Maar welke moet je nou kiezen voor jouw specifieke werk?

We doken diep in de benchmarks en testten de modellen uitgebreid. Het resultaat? Een no-nonsensegids die je precies vertelt wanneer je welke AI moet inzetten. Want de beste AI is niet per se de slimste, maar degene die jouw probleem het efficiëntst oplost.

Keep reading with a 7-day free trial

Subscribe to AI Report to keep reading this post and get 7 days of free access to the full post archives.