Stuntelige telefonist van GPT-5 zorgt voor heimwee naar oude modellen
PLUS: Laat AI je Canva-designs maken maar behoud de creatieve controle
De AI-wereld ontwikkelt zich razendsnel, en AI Report houdt je op de hoogte. Twee keer per week de nieuwste ontwikkelingen, tools en inzichten via onze nieuwsbrief en podcast.
🗞️ Het belangrijkste nieuws
GPT-5: Het beste taalmodel tot nu toe, dat niemand lijkt te willen hebben
Stel, je werkt jaren aan een nieuw product en in de periode voor de lancering krik je de verwachtingen nog even flink op. Eindelijk presenteer je met trots en grote woorden het resultaat. Een dag later organiseer je een feedback-sessie om alle complimenten te incasseren en te horen wat er nog beter kan.
Na de lancering van GPT-5 liep dit net even anders. Deelnemers van de ask me anything op Reddit buitelden over elkaar heen om te vragen, soms zelfs te smeken, om zo snel mogelijk de oude modellen weer beschikbaar te maken. Onder dreiging van directe opzegging van het abonnement. Hoe kan het dat GPT-5 bij een groot deel van de gebruikers zo slecht valt?
Wat is er aan de hand?
De lancering van GPT-5 houdt de gemoederen bezig. Experts en developers reageren voornamelijk positief, zoals ook Rick Lamers van Groq in de extra podcast over GPT-5 van afgelopen zaterdag. Het model scoort hoger op de benchmarks, heeft een grotere context-window, kan beter programmeren en kan langer zelfstandig aan taken werken zonder te ontsporen. Bovendien wordt een hardnekkig probleem rond taalmodellen flink aangepakt: GPT-5 hallucineert 30-60% minder dan haar voorgangers.
Tegelijkertijd is de kritiek op het nieuwe model niet van de lucht. Of het nu de vibes van 4o waren, de structurele aanpak van 4.1 of de schrijfstijl van 4.5, veel gebruikers zijn het er over eens dat de oude bekende modellen beter waren dan GPT-5. Het model kon niet eens het juiste aantal b’s in het woord blueberry tellen!
Eind vorig jaar zei Sam Altman nog dat AGI mogelijk in 2025 al bereikt zou worden. Dat scenario lijkt nu in de prullenbak te kunnen. LLM-criticus Gary Marcus vat het goed samen: “omdat de verwachtingen zo hoog waren, ziet een enorme hoeveelheid mensen GPT-5 als een grote teleurstelling”.
Hoe werkt het?
Sinds de lancering van ChatGPT in 2022 is het speelveld van de taalmodellen een stuk complexer geworden. Omdat grote modellen (zoals GPT-4o) vaak duur zijn om te draaien, worden kleine, goedkopere modellen meegeleverd voor de simpele vragen (4o mini). Daarnaast zijn er redeneermodellen die complexe vragen omtrent logica kunnen beantwoorden, die ook weer hun eigen mini-modellen hebben (zoals o3 en o3-mini). En dan zijn er nog updates zoals GPT 4.1 en 4.5, allemaal weer met hun eigen voor- en nadelen.
Tot nu toe moesten gebruikers van ChatGPT zelf inschatten welk soort model het beste antwoord zou kunnen geven op hun vraag. In praktijk bleek dat de meeste gebruikers bleven hangen bij het standaard model, waardoor de redeneermodellen nauwelijks werden aangeroepen. Toch zonde van al die ongebruikte extra intelligentie.
Het idee achter GPT-5 is dat de keuze voor het soort model uit handen wordt genomen van de gebruiker. Op basis van de gestelde vraag wordt via een router bepaald welk model het meest geschikt is om te antwoorden. Vergelijk het met een telefonist die je vraag opneemt en je vervolgens doorverbindt met de juiste expert; iemand die snel (en dus goedkoop) antwoord geeft of juist eentje die eerst alles uitzoekt en fact-checkt en daarna pas reageert.
Problemen met doorverbinden
Dat klinkt aantrekkelijk, maar in de praktijk voelen veel gebruikers zich bekocht. Want in plaats van een reactie van de expert op PhD-niveau die je beloofd is, word je regelmatig geholpen door de stagiair. Zoals Ethan Mollick aangeeft op X: “het probleem is dat je soms de beste AI krijgt en soms een van de slechtste AI’s, en dit kan binnen een gesprek veranderen”.
Op zich zou dit geen probleem moeten zijn als de stagiair alleen de simpele vragen krijgt voorgeschoteld en de expert de rest afhandelt. Daarvoor is het cruciaal dat de router de juiste vragen koppelt aan het juiste model. OpenAI heeft in eerste instantie geprobeerd om deze router-functie in het model te trainen, maar zoals Rick al vertelde in de podcast is dat niet gelukt. Om verdere vertraging van GPT-5 te voorkomen heeft OpenAI er toen maar voor gekozen om een aparte router te ontwikkelen buiten het nieuwe model om.
De blueberry-test laat zien dat deze geïmproviseerde router nog niet altijd goed werkt. Het is algemeen bekend dat je een vraag over spelling het beste kan overlaten aan een redeneermodel, maar kennelijk was OpenAI even vergeten dit mee te delen aan haar telefonist. Onze Maarten kwam er trouwens achter dat de blueberry-bug inmiddels gefixt is; deze wordt nu correct beantwoord door het redeneermodel.
Mocht je zelf last hebben van verkeerd doorverbinden, dan kan je (als betaald gebruiker) via het ontwikkelaars-platform van OpenAI zelf kiezen met welk van de modellen achter GPT-5 je wil praten. Of, zoals OpenAI zelf suggereerde in de ask me anything, je geeft in je prompt aan dat ChatGPT “hard moet nadenken” zodat je reactie krijgt van het redeneermodel.
Heimwee naar oude modellen
Of het nu komt door de klunzige telefonist of doordat ook de meest intelligente modellen achter GPT-5 niet bevallen, mensen willen massaal hun oude vertrouwde GPT-modellen terug. Er werd zelfs een petitie gestart om GPT-4o terug te krijgen: “voor velen van ons biedt GPT-4o een unieke en onvervangbare gebruikservaring, ongeacht de prestaties op de benchmarks”. Dit was niet aan dovemansoren gericht, inmiddels kan je GPT-4o weer activeren via de instellingen. Onze Wietse oppert zelfs om gebruikers zelf te laten kiezen of ze gestuurd willen worden door de telefonist van GPT-5 of dat ze zelf het gewenste model (al dan niet van de GPT-5 serie) willen blijven selecteren.
Deze heimwee naar oude modellen doet denken aan wat onze Alexander een paar maanden geleden beschreef toen Claude 3 werd vervangen door een upgrade; hij was in rouw omdat hij zijn trouwe schrijfmaatje kwijt was. Misschien gaat het hier vooral over de lastige omschakeling van een door-en-door bekend model naar een onbekend model dat telkens net even anders reageert dan je gewend bent. Of is GPT-5 toch echt een stap achteruit? De tijd zal het leren. OpenAI had natuurlijk gehoopt dat het zo’n hit zou zijn dat alle voorgaande modellen direct vergeten zou worden. Dat is in ieder geval niet gelukt.
Pluspunten
Maar GPT-5 had toch ook een heleboel pluspunten? Die zijn er zeker, en er zijn genoeg mensen die dat weten te waarderen. AI-developer Matt Shumer geeft weliswaar aan dat hij 4o nog steeds beter vindt voor schijf-taken, maar is verder overwegend positief over GPT-5. Hij prijst de prestaties in vibe-coding, snelheid, hogere intelligentie, grote context window in combinatie met hoge nauwkeurigheid en focus op details. “Op dit moment het beste model, de lat is hoger gelegd”. En de gerenommeerde AI-duider Simon Willison schrijft in zijn blog dat GPT-5 “het zelden verprutst, over het algemeen competent aanvoelt en zo nu en dan imponeert”.
Onze Maarten testte hoe GPT-5 presteert op zijn eigen benchmark, die zich het best laat omschrijven als een typische vervelende kantoor-taak die veel te veel tijd kost (een zeer grote hoeveelheid data uit een pdf kopiëren en in een tabel plakken, waar je handmatig zeker een uur mee kwijt zou zijn). En GPT-5 was het eerste model dat deze taak (na 2 pogingen) succesvol wist te volbrengen.
Waarom is dit belangrijk?
GPT-5 was bedoeld als grote zomerschoonmaak; de wildgroei aan verschillende modellen nu allemaal onder één dak. Maar door de routing-issues lijkt deze strategie van unified branding nu als een boomerang terug te keren in het gezicht van Sam Altman en de zijnen. En daarmee lijkt de droom van AGI zich achter de horizon te verstoppen.
Maar intussen is OpenAI al begonnen met het oplossen van de kinderziektes. En als al het stof dadelijk is neergedaald hebben we gewoon een ongekend betrouwbaar, nauwkeurig en intelligent model tot onze beschikking. Dat ons vooral op kantoor meer tijd gaat besparen omdat we er meer irritante klusjes aan kunnen uitbesteden. Ondanks alle kritiek zet de ontwikkeling in AI zich gestaag voort.
⚡ AI Pulse
Grok gaat advertenties verwerken in antwoorden. Elon Musk kondigde in een gesprek met adverteerders aan dat hij van plan is om reacties van zijn chatbot Grok te voorzien van advertenties. Bijvoorbeeld door een commerciële oplossing te presenteren voor een probleem dat de gebruiker voorlegt. Eerder kondigden Perplexity en OpenAI soortgelijke stappen aan. Dit past in een trend waarin nieuwe software in eerste instantie wordt geoptimaliseerd voor de gebruiker, om vervolgens stapje voor stapje steeds aantrekkelijker gemaakt te worden voor adverteerders. Dit wordt met een mooi woord ook wel enshittification genoemd. Denk bijvoorbeeld aan Google, Facebook of Marktplaats. Geniet dus nog maar even van advertentie-vrije chatbots, voor je het weet is die mooie tijd alweer voorbij.
TU Graz werkt aan AI-gestuurde bio-engineering op maat. Onderzoekers hebben een nieuwe AI-techniek ontwikkeld die eiwitten opbouwt als legosteentjes. In plaats van hele eiwitten te modelleren, werkt het systeem met ‘bouwstenen’ die specifieke functies hebben. Door die slim te combineren, kunnen volledig nieuwe, op maat gemaakte eiwitten ontstaan. Bijvoorbeeld enzymen die helpen om materialen zoals cellulose af te breken, en stoffen die als werkzame ingrediënten in medicijnen worden gebruikt. Volgens het team is de aanpak veel sneller en flexibeler dan traditionele methoden.
AI leert bedreigde diersoorten herkennen aan hun geluid. Google DeepMind gebruikt AI om natuuronderzoekers te helpen zeldzame dieren op te sporen via hun geluiden. Het systeem analyseert enorme hoeveelheden veldopnames vol achtergrondruis en filtert daar de roep van bijvoorbeeld de ernstig bedreigde kakapo of het gesnuif van de Sumatraanse neushoorn uit. Zo kunnen onderzoekers veel sneller ontdekken waar dieren zich bevinden en hoe hun populatie zich ontwikkelt, zonder ze fysiek te storen. De techniek wordt open gedeeld via het platform Sounding Wild, zodat ook kleine onderzoeksprojecten wereldwijd AI kunnen inzetten voor natuurbehoud.
We digitaliseren razendsnel, maar wie heeft de aan-uitknop?
Organisaties omarmen AI vrijwel allemaal via de grote technologiebedrijven buiten Europa. Daarmee groeit onze afhankelijkheid van deze partijen, juist nu geopolitieke spanningen oplopen. Het is zaak om ons niet volledig uit te leveren aan de wereldwijde big tech-firma’s, maar ook te kijken naar eigen, controleerbare, uitlegbare en betrouwbare alternatieven.
🛠️ AI Toolkit+
Laat AI je Canva-designs maken (terwijl jij achteroverleunt)
Deze week duiken bespreken we een oplossing voor iedereen die weleens zuchtend in Canva zit: wat als je gewoon kon zéggen wat je wilt maken en AI de rest regelt? Na een week intensief testen met onze favoriete AI-assistent kunnen we bevestigen – dit is de toekomst van design voor niet-designers.
Wat krijg je vandaag?
Een AI die écht je Canva-ontwerpen maakt, aanpast en publiceert – van YouTube-banners tot complete presentaties.
Onze eerlijke testervaring: hoe we in 10 minuten professionele headers maakten voor AI Report (waar we anders uren over zouden doen).
Concrete voorbeelden waarin deze combo schittert (en waar het nog hapert).
Een stap-voor-stapgids om vandaag nog je eerste AI-gegenereerde designs te maken.
Pro-tips die het verschil maken tussen amateuristische AI-plaatjes en designs waar je trots op kunt zijn.
Keep reading with a 7-day free trial
Subscribe to AI Report to keep reading this post and get 7 days of free access to the full post archives.