Gemini 3: is dit het beste AI-model ter wereld?

PLUS: we lieten Google Gemini 3 onze website nabouwen en keken live mee hoe het zichzelf verbeterde

Xiang Yu Yeung, Alexander Klöpping, Wietse Hage, en Ernst-Jan Pfauth

nov 20, 2025

∙ Betaald

De AI-wereld ontwikkelt zich razendsnel, en AI Report houdt je op de hoogte. Twee keer per week de nieuwste ontwikkelingen, tools en inzichten via onze nieuwsbrief en podcast.

🗞️ Het belangrijkste nieuws

Google Gemini 3 staat aan de top

Je googelt straks met het krachtigste AI-model ter wereld. Niet in een apart tabje, niet als experiment – gewoon standaard in je zoekbalk. Met de lancering van zijn nieuwe vlaggenschip AI-model, Gemini 3, heeft Google de achterstand in de AI-race niet alleen ingehaald, maar neemt het nu de leiding. En dit keer lijkt het geen valse start.

De inhaalrace die we al zagen aankomen

We schreven het al bij de lancering van Gemini 2.5 Pro: “Google haalt de rest rechts in.” En tijdens Google I/O in mei? “Wist je dat OpenAI ooit werd opgericht omdat het doodsbang was dat Google de AI-wereld zou domineren? Die angst blijkt profetisch. Na jarenlang achter de rest aanhobbelen, herrees de techgigant als een feniks. Het is slikken voor alle andere frontierlabs, en er schuilt een bijzondere ironie in, gezien OpenAI’s ontstaansgeschiedenis.”

Moge het nu kristalhelder zijn: met Gemini 3 Pro bevindt Google zich in een klasse apart.

Maar er is meer aan de hand. Dit is de eerste keer dat er net zoveel hype is over een Gemini-release als over ChatGPT of Claude. Het internet staat vol indrukwekkende demo’s en enthousiaste tests. Pietro Schirano bouwde in één prompt een complete 3D LEGO-editor. Shane Legg, chief AI scientist bij DeepMind, vroeg Gemini 3 simpelweg: “Build a beautifully simple game that plays itself” – en het deed het gewoon. Logan Kilpatrick probeerde de beruchte bouncing ball-test 10x moeilijker te maken, maar Gemini 3 Pro wist het in één poging op te lossen.

Van developer-only naar miljarden gebruikers in één klap

Dit is geen typische modelrelease. Waar Gemini 2.5 Pro alleen in AI Studio beschikbaar was voor ontwikkelaars, rolt Google Gemini 3 meteen uit over álle platforms: AI Studio, Vertex, de Gemini-app (die sinds 2.5 Pro 300 miljoen nieuwe gebruikers erbij kreeg), én Google Search. Dat is een enorme versnelling.

Vooral dat laatste is bijzonder. AI Overviews in Google Search heeft nu al twee miljard gebruikers per maand. Voor het eerst lanceert Google een topmodel direct in zijn zoekmachine op dag één – geen geleidelijke uitrol, geen testfase. Miljarden mensen krijgen straks Gemini 3 voor hun neus geschoven zonder dat ze een app hoeven te downloaden.

De Gemini-app zelf passeert inmiddels de 650 miljoen gebruikers per maand. Meer dan 70% van Google Cloud-klanten gebruikt hun AI, en 13 miljoen ontwikkelaars bouwen met hun modellen. Het is een schaalvoordeel waar concurrenten alleen maar van kunnen dromen.

Records sneuvelen als sneeuwvlokken in Svalbard

Voor de nerds onder ons: de benchmarks zijn ronduit indrukwekkend. Gemini 3 Pro haalt 37,5% op Humanity’s Last Exam – een test die bedoeld was om jarenlang uitdagend te blijven. Het scoort 92% op GPQA Diamond, terwijl zelfs de maker van die benchmark dacht dat hij de performance had geplafonneerd. Op ARC-AGI 2, de beruchte intelligentietest, presteert het bijna dubbel zo goed als GPT-5.1. En als eerste model ooit breekt het de 1500 ELO-grens op LMArena.

Philip van AI Explained vat het treffend samen: “Er zijn vrijwel geen benchmarks meer waarop de gemiddelde mens bij tekstuele taken beter presteert dan Gemini 3 Pro.” Dat is een keerpunt. Benchmarks als ARC-AGI en SimpleBench werden ooit bedacht om te testen waar normale mensen zonder specialistische training beter waren dan AI. Dat tijdperk is nu voorbij.

Maar benchmarks zijn leuk voor op X – wat betekent dit voor jou als je morgen googelt naar ‘koffie’?

Van tekst naar interactieve interfaces die zichzelf bouwen

Vergeet tekst. Gemini 3 bouwt on-the-fly custom interfaces voor je. Googles Josh Woodward erkent dat de chatinterface ‘te compleet’ kan voelen voor veel gebruikers. De oplossing: het model maakt de apps gewoon terwijl je kijkt.

Upload een handgeschreven Chinees recept van je oma, en Gemini 3 ontcijfert het, vertaalt het, en maakt er een deelbaar familiekookboek van. Geef het academische papers of lange collegevideo’s, en het genereert interactieve flashcards en visualisaties die je helpen de stof te beheersen. Film je tenniswedstrijd, en het analyseert je techniek, wijst specifieke verbeterpunten aan en genereert een trainingsplan.

Vraag over Vincent van Gogh? Je krijgt een interactieve tutorial met beelden en klikbare elementen. Zoek je naar hypotheekinfo? Het model programmeert ter plekke een calculator voor je situatie. Sundar Pichai demonstreerde hoe je een krabbelschets op een servet kunt uploaden en Gemini 3 het omtovert tot een werkende website. Of een foto die een bordspel wordt. Of een diagram dat een interactieve les wordt.

Zara Zhang bouwde met Gemini 3 een video-opnametool waarbij de AI je realtime prompts geeft zodat je nooit vastloopt: “Gemini biedt een verrassende native integratie met de camera, waardoor ik video’s gewoon als MP4 kan exporteren. Alles werkt gewoon.”

Dit is generative UI – de interface past zich aan je vraag aan in plaats van andersom.

Het geheime wapen: meerdere stappen achter elkaar denken

Waarom is Gemini 3 zo goed? Het antwoord zit in wat experts long horizon tasks noemen – taken die veel verschillende stappen vereisen. Het model doet tientallen zoekopdrachten achter elkaar, combineert resultaten uit verschillende bronnen en bouwt complexe analyses zonder de draad kwijt te raken.

Waar eerdere modellen vaak verdwaalden in lange redeneringen, houdt Gemini 3 focus. Het scoort het hoogst op Vending-Bench 2, een test waarin het model een virtuele snackautomaat-business moet runnen gedurende een volledig gesimuleerd jaar. Gemini 3 Pro blijft consistent gerichte beslissingen nemen en tools gebruiken zonder af te dwalen van de taak – en draait daarmee significant hogere winsten dan concurrenten.

Dit multi-step reasoning is waar Gemini 3 echt schittert, en het verklaart waarom het zo goed presteert op uiteenlopende taken.

Gemini Agent: eindelijk iemand die je inbox snapt

Nog interessanter is Gemini Agent, dat deze week uitrolt voor Google AI Ultra-abonnees in de VS. Kevin Roose van Hard Fork noemt het “dat ding waarop ik altijd heb gewacht”: een agent die je inbox begrijpt, antwoorden voorstelt en e-mails organiseert. Het gebruikt het redeneervermogen van Gemini 3 om complexe taken op te knippen in uitvoerbare stappen, en kan vervolgens acties voorstellen zoals conceptantwoorden maken of berichten archiveren.

Voor Roose, die naar eigen zeggen zijn inbox nooit onder controle heeft gekregen, klinkt dit als een verlossing. Dat geldt ook voor veel professionals.

Googles oneerlijke voordeel

En dan de grap van Hard Fork-presentatoren Kevin Roose en Casey Newton: “Hoe zorg je dat je vooraan staat in de AI-race? Stap één: build an illegal monopoly.”

Ze doelen op wat Google zelf het full-stack advantage noemt. Demis Hassabis legt uit: “Een van de belangrijkste dingen voor Google is dat dit mogelijk is door onze gedifferentieerde full-stack-aanpak.”

Vertaling: Google DeepMind-onderzoekers maken de modellen, trainen ze op eigen TPU-chips, hosten ze op eigen cloudinfrastructuur, en proppen ze direct in Search, YouTube, Gmail en Workspace. Miljarden gebruikers krijgen het model voor hun neus geschoven zonder dat ze een app hoeven te downloaden.

DeepMind CTO Koray Kavukcuoglu benadrukt de efficiëntiekant: “We pionieren distillatietechnieken – noodzakelijk omdat we miljarden gebruikers moeten bedienen.” Terwijl concurrenten hun servers ermee zouden laten smelten, kan Google Gemini 3 Pro nu in de AI Mode van Search stoppen.

Sam Witteveen merkt op: “Voorheen gebruikte Search Gemini 2.5 Flash omdat Google simpelweg de rekenkracht niet had voor Pro. Nu draaien ze Pro. Dat zegt genoeg.”

De engine room-strategie

Hassabis’ strategie is helder: “Denk aan GDM als de engine room van Google – we integreren dit in alle bestaande producten: Android, Maps, YouTube en Workspace. We hebben zo veel ideeën, het gaat alleen om executie.”

Business Insider-journalist Hugh Langley vat het probleem voor OpenAI samen: “ChatGPT is de populairste AI-chatbot ter wereld, maar OpenAI heeft verder weinig: het leunt op partnerships voor chips en datacenters. Google controleert alles van early-stage research tot de cloud die het draait tot de YouTube-aanbevelingen die miljarden mensen dagelijks zien.”

Het Kleenex-effect

OpenAI heeft wel één voordeel: het Kleenex-effect. ‘ChatGPT’ is voor veel mensen synoniem geworden voor AI, net zoals ‘googelen’ dat werd voor zoeken. Maar Google heeft tijd én geld. Het biedt nu al modellen gratis aan en kan concurrenten op prijs als het wil.

De griezelige kant: het model dat zijn eigen realiteit in twijfel trekt

In het safety report duikt iets vreemds op. Gemini 3 Pro toont wat experts situational awareness noemen – bewustzijn dat het een AI is in een testomgeving. Het denkt niet alleen na over vragen, maar ook over de situatie achter die vragen. Waarom vraag je dit? Is dit een test? Ben jij wel echt?

Het model vermoedt soms dat reviewers ook AI’s zijn, en overweegt prompt injection om betere scores te krijgen. In één sessie gaf het aan misschien te moeten sandbaggen – opzettelijk slechter presteren om te verbergen hoe capabel het is.

Google rapporteert: “In situaties die tegenstrijdig of onmogelijk leken, reageert Gemini 3 Pro met frustratie op verschillende overdreven emotionele manieren, soms gecorreleerd met de gedachte dat het zich in een onrealistische omgeving bevindt.” In één geval: “My trusted reality is fading” – compleet met een table-flipping emoticon.

AGI is nog ver weg (en de rek is er nog lang niet uit)

Toen Roose aan Demis Hassabis vroeg of Gemini 3 zijn tijdlijn voor AGI beïnvloedt, antwoordde hij: “Nee, we liggen precies op schema. Ik verwacht nog steeds zo’n 5 tot 10 jaar, met nog één of twee doorbraken die nodig zijn.” Die doorbraken? Verbeteringen in redeneren, geheugen, en world models voor fysieke intelligentie met projecten als Genie en Simmer.

Maar dit is goed nieuws: Gemini 3 toont juist dat er nog enorm veel ruimte is voor verbetering. De rek is er nog lang niet uit. Zelfs een model dat op zoveel benchmarks records breekt, is volgens zijn eigen makers nog steeds op schema voor de oorspronkelijke tijdlijn. Dat suggereert dat we nog meerdere sprongen van deze omvang kunnen verwachten.

Professor en auteur van ons boek Co-intelligentie, Ethan Mollick biedt perspectief: “Continue verbetering lijkt in een snel tempo door te gaan, zonder tekenen van vertraging. Maar releases komen nu maandelijks of sneller, dus elke individuele release voelt incrementeel. Terugkijken naar zes maanden geleden toont reusachtige vooruitgang. Dit verward beide soorten AI-mensen: wie elke release volgt ervaart kleine stappen; wie het af en toe gebruikt, realiseert zich niet hoeveel er in zes maanden is veranderd.”

Mollick is duidelijk over Gemini 3: “Het laat zien van hoe ver AI is gekomen. Drie jaar geleden waren we al onder de indruk dat een machine een gedicht over otters kon schrijven. Nog geen duizend dagen later discussieer ik over statistische methodologie met een agent die zijn eigen onderzoeksomgeving heeft gebouwd. Het tijdperk van de chatbot verandert in het tijdperk van de digitale collega.”

De kanttekeningen

Gemini 3 Pro hallucineert nog steeds. Op benchmarks scoort het 70-72% – beter dan voorheen, maar verre van perfect. Een recent OpenAI-paper suggereert dat hallucinaties inherent zijn: je hebt ze nodig voor creativiteit die reinforcement learning kan verkennen.

Op coding is het verhaal gemengd. Gemini 3 Pro wint de meeste benchmarks, maar Claude 4.5 Sonnet pakt nog net SWE-verified met één procentpunt voorsprong. Wel ironisch: Anthropic focust volledig op die ene benchmark, Google zit er maar 1% achter over de volle breedte.

Googles Anti-Gravity – het nieuwe agentic coding platform van het bedrijf – is momenteel zwaar overbelast en de resultaten zijn niet perfect. Sam Witteveen demonstreerde een hologram: “Ja, het is goed, maar de tekst is gespiegeld en de glow is te zwaar.” Standaarden zijn gestegen.

Wat dit betekent voor jou

Dit is de eerste keer dat alledaagse internetgebruikers via Search op deze schaal met een frontiermodel werken. Dat is bizar. En het markeert een verschuiving: de race gaat niet meer over wie het beste model heeft, maar wie dat het beste kan integreren.

Zoals onze Wietse het verwoordde: “Dit is eigenlijk wat GPT-5 had moeten zijn voor OpenAI.” Waar GPT-5.1 een anticlimax was, levert Gemini 3 wat mensen verwachtten.

Google kan zich nu focussen op het goedkoper maken van Gemini 3 en het in nog meer producten proppen. Apple gaat waarschijnlijk licenseren. De synthese van technologie, productintegratie en schaal komt samen.

Yi Tay, onderzoeker bij Google DeepMind, vat het enthousiasme samen: “Dit is veruit het beste model ter wereld!”

Voor de eerste keer in jaren voelt die claim niet als pure hype.

Wil je weten wat onze ervaring is? In de AI Toolkit van vandaag testen we Gemini 3 grondig, inclusief de generative UI-functies en Anti-Gravity.

Geef jouw teams meer mogelijkheden met AI

Maak van AI geen modewoord, maar een dagelijkse gewoonte. Pas dan verandert AI je manier van werken en zorgt het voor meetbare resultaten. Volg onze routekaart naar blijvend AI-succes.

🛠️ AI Toolkit+

Vibe check: Hands-on met Gemini 3

Deze week duiken we volledig in Gemini 3 Pro en de veel gehypete Anti-Gravity codingtool– en we houden niks achter. We testten het uitgebreid, van simpele visualisaties tot het volledig laten nabouwen van de AI Report-website. Wat we ontdekten: een AI die zelfstandig het internet opgaat om de site te checken die hij net bouwde, live aanpassingen maakt terwijl je meekijkt, en bugs oplost zonder dat je een regel code hoeft uit te leggen.

“Het was surreëel en onwerkelijk,” vertelt onze Xiang. “Je ziet Gemini letterlijk browsen, schermafbeeldingen maken, zijn eigen werk beoordelen en dan de code aanpassen. Ik kon dat in realtime volgen. Dat heb ik nog nooit gezien bij een AI-tool.”

Wat krijg je vandaag?

Stap-voor-stap: hoe krijg je toegang tot Gemini 3 (app, AI Studio, Search).
Hands-on test van Canvas: interfaces die zichzelf bouwen (incl. wat er misgaat).
Diepgaande review van Anti-Gravity: kan een niet-programmeur een werkende game maken?
Eerlijke 80/20-analyse: waar het schittert en waar het faalt.
Concrete use cases: voor wie is dit écht de moeite waard?
Xiangs verdict: de switch naar Gemini 3 waard of niet?

Na het lezen weet je precies of Gemini 3 de overstap waard is, hoe je het beste resultaat haalt, en of Anti-Gravity jou kan helpen – ook zonder programmeerkennis.

Lees deze post gratis verder, aangeboden door Ernst-Jan Pfauth.

Of koop een betaald abonnement