Alle afleveringen
S08E54 - Tokenmaxxing: de nieuwe hype uit Silicon Valley
S08E54

Tokenmaxxing: de nieuwe hype uit Silicon Valley

Seizoen 8 12 min Hosts: Joop Snijder & Niels Naglé
0:00

Wat leer je in deze aflevering?

Joop Snijder, CTO bij Aigency, ziet organisaties AI-gebruik meten op tokenverbruik en adoptiepercentages, terwijl dat precies de verkeerde metriek is. Zodra tokengebruik een doel wordt, gaan medewerkers prompts verlengen en agents draaien voor taken die ze handmatig sneller doen, puur om hoog te scoren op een dashboard. Dit is Goodhart's law in de praktijk: de metriek stuurt gedrag, maar niet richting betere resultaten.

Joop analyseerde zijn eigen gebruik van Claude over meer dan 2400 berichten en ontdekte dat zijn berichten gemiddeld 84 tekens lang zijn, niet omdat hij weinig doet, maar omdat hij stuurt op richting en bijstuurt op wat hij ziet. Kijk morgen naar de AI-metrics in jouw organisatie: zijn het activiteitsmetrics of outcome-metrics zoals kwaliteit, doorlooptijd en foutreductie? Als het antwoord activiteitsmetrics is, heb je een gesprek te voeren.

01
Tokenmaxxing als statusspel Medewerkers bij techbedrijven worden gerangschikt op tokenverbruik, wat leidt tot gedrag als het verlengen van prompts en het starten van onnodige agents, puur om hoger op een dashboard te scoren. Niet omdat het waarde toevoegt.
02
Goodhart's Law in de praktijk Zodra tokengebruik een doel wordt, stopt het een bruikbare indicator te zijn. Vergelijkbaar met hoe programmeurs ooit werden beoordeeld op lines of code of agile teams op velocity points.
03
Perverse prikkels vanuit Silicon Valley Partijen als NVIDIA verdienen direct aan meer tokenconsumptie en bepalen tegelijkertijd het narratief over goede AI-adoptie. Dit verschuift de discussie van waardecreatie naar maximale AI-consumptie.
04
Drie concrete neveneffecten Onnodig energieverbruik door zinloze AI-interacties, cognitieve overbelasting doordat gebruik zelf onderdeel wordt van beoordeling, en verlies van vakmanschap doordat volume belangrijker wordt dan reflectie.

Kernbegrippen

Tokenmaxxing
Het optimaliseren van AI-gebruik puur op tokenverbruik als doel, zonder focus op werkelijke waardecreatie.
Goodhart's Law
Wanneer een maatstaf een doel wordt, verliest het zijn waarde als indicator voor wat je werkelijk wilt bereiken.
Outcome-metrics
Prestatie-indicatoren gericht op eindresultaten zoals kwaliteit, foutreductie en doorlooptijd in plaats van activiteitsmeting.
Perverse prikkels
Financiële of organisatorische stimulansen die ongewenst gedrag uitlokken, zoals onnodige AI-interacties voor hogere scores.

Wat kun je morgen doen?

  1. 1 Controleer of AI-gebruik in je organisatie gekoppeld is aan beoordelingen of status, dat is een vroeg signaal van tokenmaxxing
  2. 2 Vervang adoptie-metrics door outcome-metrics: neemt kwaliteit toe, dalen fouten, verbeteren doorlooptijden

Transcript

Welkom weer bij de korte aflevering van AIToday Live, ze hebben weer een nieuwe hype weten te creëren hoor in Silicon Valley. En daar ga ik het over hebben. Want de afgelopen jaren hebben we allerlei AI-hypes voorbij zien komen. Eerst ging het over wie de meeste GPU's had, daarna over wie de grootste modellen bouwde en vervolgens hoeveel AI-agents je organisatie draaide. Maar inmiddels lijkt Silicon Valley een nieuwe obsessie gevonden te hebben. Tokenmaxxing. Een term die misschien nog wat niche klinkt, maar die iets blootlegt, wat toch eigenlijk wel essentieel is. Want tokenmaxxing en je schrijft het zelfs met dubbel x, want het moet gemaximaliseerd worden. Tokenmaxxing gaat niet alleen over AI. Het gaat over hoe organisaties omgaan met meten, sturen, status, controle en menselijk gedrag. Kort gezegd, tokenmaxxing betekent dat organisaties en medewerkers het gebruik van AI-tokens. Het is feitelijk de hoeveelheid AI-consumptie gaan zien als bewijs van productiviteit, innovatiekracht of waardecreatie. Meer tokens betekent dan zogenaamd beter bezig zijn. Precies daar gaat het mis. Ik vind dit een zorgelijke en onwenselijke ontwikkeling. En niet alleen omdat het inefficiënt is, maar vooral omdat het blootlegt hoe wij technologie gebruiken om controle, status en schijnzekerheid te organiseren. Deze aflevering analyseer ik eerst wat tokenmaxxing is en waarom het zo goed past bij de cultuur van Silicon Valley. Daarna wil ik het ook met je over hebben over de psychologische en organisatorische mechanismen erachter, namelijk extrinsieke motivatie. Sociale vergelijking, FOMO en wat wordt genoemd Goodhart's law. Laten we beginnen met wat is tokenmaxxing. Die term ontstond rond de interne AI-dashboards bij grote technologiebedrijven waar medewerkers werden gerangschikt op basis van hun AI-gebruik. Hoeveel tokens zij verbruikten, hoeveel agents ze draaiden, hoeveel prompts ze stuurden. En wat begon als een stimulans om AI-tools te verkennen, veranderde langzaam in een statusspel en mensen gingen prompts verlengen, extra agents draaien, AI inzetten voor taken die eigenlijk sneller handmatig konden. Dus complete experimenten starten puur om tokenverbruik omhoog te krijgen. Niet omdat het zinvol is, maar omdat het dashboard zichtbaar is voor management dat dat meekijkt en collega's op die manier worden vergeleken. AI-native zijn werd dan een identiteitskenmerk. Het mechanisme herkennen we uit de gedragspsychologie. Mensen optimaliseren niet op wat belangrijk is, maar op wat zichtbaar beloond wordt. En dan zijn we bij Goodhart's law: when a measure becomes a target, it ceases to be a good measure. Oftewel, zodra tokengebruik een doel wordt, stopt het met een bruikbare indicator te zijn. Dan krijg je het gamen van de metriek. Gedrag dat goed scoort op het dashboard, maar weinig toevoegt aan echte waarde. Tokenmaxxing past eigenlijk perfect binnen de cultuur van Silicon Valley. Die al decennia lang een bijna religieuze fascinatie heeft met schaalbaarheid, kwantificering en optimalisatie. Alles moet meetbaar zijn, alles moet zichtbaar zijn in dashboards. En als het niet meetbaar is, bestaat het bijna niet meer. Dat is dezelfde cultuur die ooit programmeurs beoordeelde op lines of code of agile teams op velocity points en social media veranderde in een jacht op likes en engagement. Dus nu reduceert ze AI-gebruik tot tokenconsumptie. Het probleem is alleen dat complexe menselijke prestaties zich zelden laten reduceren tot een metriek. Hoe complexer het werk wordt, hoe gevaarlijker simplificatie wordt. Want goed werk bestaat vaak juist uit dingen die niet direct zichtbaar zijn. Twijfelen, nadenken, vertragen, reflecteren, een gesprek voeren. Een slechte oplossing juist niet bouwen, een agent niet starten. En dashboards kunnen daar slecht mee omgaan. Ze houden van tellen en niet van betekenis. En dus krijg je dan management-by-metric, zou je kunnen zeggen, een wereld waarin zichtbare activiteit verward wordt met daadwerkelijke waardecreatie. Waarom doen slimme mensen hier aan mee? Want vrijwel niemand staat 's ochtends op met de gedachte. Vandaag ga ik bewust inefficiënt AI gebruiken. En toch gebeurt het door een combinatie van verschillende mechanismen. De eerste is namelijk extrinsieke motivatie. Dat is als organisaties tokengebruik, expliciet of impliciet koppelen aan innovatie, zelfs promotiekansen. Dat je future readiness bent, future ready bent. Dan verschuift die motivatie. AI-gebruik zelf wordt dan het doel en niet betere besluitvorming. Intrinsieke motivatie draait om vakmanschap en betekenis. Extrinsieke motivatie draait om signalen, status en beoordeling en die twee botsen. Ik moet eigenlijk zeggen, zodra die twee botsen, dan wint vaak toch de metriek. En je hebt ook te maken met sociale vergelijking. Mensen vergelijken zichzelf continu met anderen. Dat is echt menselijk gedrag. Dashboards versterken dit mechanisme enorm. Want ineens zie je wie meer AI gebruikt, wie hoger staat op de leaderboard. Niemand wil degene zijn die achterblijft dus gaan mensen meedoen. En wat deze ontwikkeling extra wrang maakt, is dat sommige van de luidste stemmen achter deze trend direct economisch belang hebben bij meer tokenconsumptie. Neem NVIDIA. De CEO daarvan, Jensen Huang presenteert AI-gebruik consequent als iets dat exponentieel moet groeien. Meer inference, meer agents, meer compute. En vanuit zijn perspectief is dat logisch. NVIDIA verkoopt immers de GPU's die deze explosie aan tokenverbruik mogelijk maken. Maar wanneer de industrie die verdient aan compute tegelijkertijd het narratief bepaalt over wat goede AI-adoptie is, dan ontstaat er al een risico op hele perverse prikkels. Dan verschuift de discussie ongemerkt van hoe creëren we waardevolle AI-toepassingen naar hoe maximaliseren we AI-consumptie. Meer tokens betekent immers meer GPU-capaciteit, meer datacenterbelasting, meer energieverbruik. En daarmee dus meer afhankelijkheid van hyperscalers. Het is eigenlijk verbazingwekkend hoe kritiekloos sommige organisaties dit narratief overnemen. Alsof maximale AI-consumptie vanzelfsprekend gelijk staat aan innovatie. We weten ook dat meer vergaderen geen betere samenwerking betekent of meer e-mails betekenen geen betere communicatie en meer tokens verbruiken betekent niet automatisch dat je een betere organisatie wordt. En dan kun je zeggen, ach, laat Silicon Valley lekker experimenteren. Maar deze cultuur sijpelt door naar ondernemingen, overheden, consultancybedrijven en uiteindelijk de rest van de samenleving. En daar wordt het dan wel problematisch. Ten eerste het energieverbruik. Dus elke token kost energie en generatieve AI-systemen draaien op enorme datacenters vol GPU's. 81 En als organisaties massaal onnodige AI-interacties stimuleren, stimuleren ze ook zinloos energieverbruik. 82 terwijl we midden in de discussie zitten over netcongestie, verduurzaming en soms zelfs energie-armoede. 83 Tokenmaxxing maximaliseert computeconsumptie en niet waardecreatie. 84 Ten tweede bestaat dus cognitieve vervuiling. 85 Mensen worden continu aangemoedigd om meer AI te gebruiken, meer prompts, meer agents, meer context, meer tooling. 86 Maar cognitieve capaciteit is niet onbeperkt. 87 En technologie die bedoeld was om werkdruk te verlagen, creëert op deze manier extra mentale druk, omdat gebruik zelf onderdeel wordt van beoordeling. 88 En ten derde het verlies van vakmanschap. 89 Dus als volume belangrijker wordt dan kwaliteit, verschuift aandacht van kritisch denken naar outputproductie, dan wordt snelheid belangrijker dan reflectie en het draaien van agents belangrijker dan begrijpen wat er gebeurt. 90 Kijk, er is een alternatief. 91 En ik zou dat namelijk outcome maxxing willen noemen, doe ik ook lekker met twee x'en. 92 Outcome maxxing. 93 Kijk, ik gebruik zelf al meer dan een jaar dagelijks Claude. 94 Voor deze aflevering heb ik mijn eigen chatgeschiedenis doorgenomen, meer dan 2400 berichten over meerdere sessies. 95 Wat eruit komt, is eigenlijk juist het tegenovergestelde van tokenmaxxing. 96 Het blijkt dat mijn berichten zijn gemiddeld 84 tekens lang. 97 Geen woorden, nee, tekens lang. 98 En niet omdat ik lui ben, maar dit is wat Claude teruggaf naar deze analyse. 99 Niet omdat ik lui ben, maar omdat ik stuur op richting en dan bijsturen op wat ik zie. 100 Ik gebruik Claude als een collega die meedenkt. 101 En niet als een machine die ik maximaal moet laten draaien. 102 De vraag die ik mezelf het vaakst stel is niet heb ik genoeg AI gebruikt vandaag, maar werkt het systeem daarna beter. 103 Ik gebruik weinig tokens per bericht maar elk bericht is beslissend. 104 Dit is wat er ook terugkwam. 105 Je waarde zit niet in het volume van het AI-gebruik. 106 Het zit in de kwaliteit van de sturing. 107 De scherpte van de correcties en de vraag of het systeem daarna beter werkt. 108 Dat is de vraag die ertoe doet. 109 Dus niet het tokenverbruik. 110 Dat is dan precies wat ik bedoel met het alternatief. 111 Betekent dit dat AI-gebruik helemaal niet meetbaar mag zijn, nou denk ik niet. 112 Maar het betekent wel dat we fundamenteel anders moeten kijken naar succes. 113 Dus niet tokenmaxxing, maar outcome maxxing. 114 De uitkomst maximaliseren. 115 Niet sturen op hoeveel prompts iemand gebruikt, hoeveel agents draaien of hoeveel tokens worden verstookt, maar op vragen als neemt de kwaliteit toe, dalen fouten, verbeteren doorlooptijden, dat soort vragen. 116 Dit zijn outcome-metrics die de uitkomst meten. 117 En dat is moeilijker te meten, want echte waarde laat zich wat minder makkelijk vangen. 118 Juist daarom zijn ze belangrijker. 119 Je kunt herkennen dat een organisatie doorslaat richting tokenmaxxing als medewerkers AI gebruiken voor triviale taken puur om activiteiten zichtbaar te maken. 120 Als er competitie ontstaat rondom AI-gebruik. 121 En als tokenbudgetten onderdeel worden van status of als managers meer praten over adoptiepercentages dan over resultaten. 122 Als je dat ziet, moet er een alarmbel afgaan. 123 Want uiteindelijk gaat digitale volwassenheid niet over hoeveel tokens je verstookt, maar over hoeveel betekenisvolle waarde je creëert. 124 Dankjewel weer voor het luisteren naar deze aflevering vergeet niet. 125 AI is niet de oplossing van oud probleem, maar onmisbaar waar het past. 126 Tot de volgende aflevering.