Alle afleveringen
S07E38 - Weer een nieuwe model versie: GPT-4.1 en nu?
S07E38

Weer een nieuwe model versie: GPT-4.1 en nu?

Seizoen 7 14 min Hosts: Joop Snijder & Niels Naglé
0:00

Wat leer je in deze aflevering?

In de nieuwste aflevering van AIToday Live staat de release van GPT 4.1 door OpenAI centraal. De podcast analyseert de introductie van drie nieuwe varianten: GPT 4.1, GPT 4.1 Mini en GPT 4.1 Nano, slechts drie maanden na GPT 4o.

De hosts bespreken de verwarring die ontstaat door de naamgeving en het grote aantal beschikbare modellen. Ze gaan in op de prijsstelling, waarbij GPT 4.1 ongeveer een derde goedkoper is dan zijn voorganger.

Een belangrijke verbetering in GPT 4.1 is de context-lengte van 1 miljoen tokens, wat nieuwe mogelijkheden biedt voor diverse toepassingen.

01
Release van GPT 4.1 en verwarring door modelvarianten
02
Prijsstelling en kosten van tokens
03
Verbeteringen in context-lengte van GPT 4.1
04
Valkuilen van lange context-lengte in AI-toepassingen

Kernbegrippen

Context lengte
Het aantal tokens dat een AI-model in één keer kan verwerken; bepaalt hoe veel informatie tegelijk beschikbaar is.
Model migratie
Het proces van overstappen van één AI-modelversie naar een ander, vereist testen en aanpassingen in code.
Token-kosten
De prijs per verwerkte token; beïnvloedt de totale operationele kosten van AI-toepassingen.
Release strategie
Het plan van AI-leveranciers voor het uitbrengen van nieuwe modelversies en het communiceren daarvan naar gebruikers.

Wat er gezegd wordt

Wat mij betreft is het alsof je in een koffiezaak staat waar de ene barista je 2 euro rekent voor een cappuccino, een andere 25 euro voor een elite cappuccino, en de derde 8 euro voor een cappuccino premium.

Joop Snijder

Stabiliteit en voorspelbaarheid zijn cruciaal binnen bedrijfsomgevingen.

Joop Snijder

Transcript

Hoi, leuk dat je weer luistert naar een korte aflevering van AIToday Live. Ik ben Joop Snijder, CTO van Aigency. En vandaag deel ik graag mijn gedachten over de recente release van GPT 4.1. Normaal gesproken duik ik niet zo diep in actuele ontwikkelingen. Maar deze release is opmerkelijk genoeg om er vandaag bij stil te staan. Niet alleen omdat het nieuwe mogelijkheden biedt. Maar vooral omdat het wat mij betreft belangrijke problemen rondom de keuzes voor taalmodellen blootlegt. En eerlijk gezegd begin ik me een beetje te ergeren aan de release strategie die OpenAI hanteert. Voordat we erin duiken, voor de nieuwe luisteraars die ons net zijn gaan volgen. AIToday Live deelt praktische AI kennis en ervaringen via toegankelijke menselijke verhalen. We helpen iedereen die wil begrijpen hoe AI echt werkt in organisaties. Verteld door de mensen die er dagelijks mee werken. Nou laat ik beginnen met dat context en achtergrond. Op 14 april 2025 heeft OpenAI GPT 4.1 gelanceerd in drie varianten. Van groot naar klein zijn dat GPT 4.1, GPT 4.1 Mini en GPT 4.1 Nano. En voor wie de tel al is kwijt geraakt. GPT 4.5 was de opvolger van GPT 4.0. Niet te verwachten met GPT 4o. Die heeft eigenlijk helemaal niet bestaan. En binnenkort komt er ook nog een zogenaamd reasoning model o4. Naast de o1 modellen waarvan de 1, hou je vast, o1-mini-high heet. Nou wie het nog begrijpt mag het zeggen. De kracht van de GPT's adoptie zat juist in de eenvoud. En daar is OpenAI nu aardig van aan het wegdrijven wat mij betreft. En wat me vooral opvalt is dat het drie maanden geleden dat GPT 4.5 is geïntroduceerd. En dat zal het model zijn dat de kortste levensduur heeft gehad van alle taalmodellen die OpenAI heeft uitgebracht. Want dit model wordt namelijk alweer uitgefaseerd. OpenAI adviseert nu om GPT 4o te vervangen door GPT 4.1. Nou stel je voor dat je net bent overgestapt naar 4.5. Ja lekker dan. Dus als organisatie kun je simpelweg niet elke drie maanden je taalmodel wisselen. Maar goed, wat betekent deze release nu concreet? Laten we eens kijken naar de belangrijkste aspecten waarop deze release invloed heeft. Ten eerste de prijsstelling van tokens. Voor wie nieuw is bij deze podcast, tokens zijn de bouwstenen waarmee een taalmodel werkt. Elke letter, ieder woord wordt opgedeeld in tokens. En elke token kost geld. En ze vormen de variabele kosten voor op large language models gebaseerde toepassingen. ChatGPT 4.1 is ongeveer een derde goedkoper dan GPT 4o. Wat best wel interessant is. Maar tegelijkertijd, OpenAI die heeft nu 17 modelversies. Met allemaal verschillende prijzen voor input en output tokens. En om je een idee te geven wat het verschil is. De goedkoopste variant, de nieuwste GPT 4.1 Nano. Het kleinste model. Kost 10 dollar cent per miljoen tokens. Terwijl o1 Pro maar liefst 600 dollar per miljoen tokens qua output kost. Wat mij betreft is het alsof je in een koffiezaak staat waar de ene barista je 2 euro rekent voor een cappuccino. Een andere 25 euro voor een elite cappuccino. Die er identiek uitziet. En de derde 8 euro voor een cappuccino premium. Allemaal met vage beloftes over smaakverbetering die je pas proeft als je er oog voor hebt. Maar goed, naast de verwarrende prijsstructuur zijn er tenminste ook enkele objectief meetbare verbeteringen in deze nieuwe release. Namelijk de nieuwe context lengte. Die is echt wel indrukwekkend. Voor wie niet bekend is met het begrip de context lengte is simpelweg hoeveel tekst het model tegelijkertijd zou kunnen tussen aanhalingsstekens onthouden en verwerken in één gesprek. En de 1 miljoen tokens is echt een enorme sprong vergeleken met de 128.000 tokens van eerdere GPT-4 modellen. Om dat in perspectief te plaatsen, 1 miljoen tokens staat gelijk aan meer dan 8 kopieën van de volledige React codebase of een kleine roman. Heropene AI beweert dat GPT-4.1 betrouwbaar informatie kan verwerken over deze gehele context lengte. Ze hebben het model ook getraind om relevante tekst beter op te merken daarbinnen. En afleiders te negeren, zowel in lange als korte contexten. En dit is echt een belangrijke verbetering omdat tot nu toe modellen met zo'n lange context de details in het midden gewoon vergaten. En dit klinkt natuurlijk veelbelovend voor toepassingen in juridische contexten, programmeren, klantenservice en vele andere domeinen. Maar hier schuilt ook een valkuil. Namelijk als variabele kosten belangrijk zijn, en dat zijn ze toch voor de meeste bedrijven, kan een grote context lengte je vijand worden. En meer input betekent niet automatisch meer rendement, of dat nu in geld of productiviteit is. Dus bij het ontwerpen van LLM gebaseerde applicaties moet je hier rekening mee gaan houden. Ga je de context lengte, ga je die beperken. Stel je rate limits in, en dat zijn beperkingen op hoe vaker gebruiker het model mag aanroepen binnen een bepaalde tijd. Wat betekent dit voor je gebruikers en voor de gebruikers ervaring? Maar misschien wel het meest frustrerende aspect is het lastige overschakelen tussen modellen. Laat ik bijvoorbeeld onze situatie van de podcast eens schetsen. Omdat daar kan ik gewoon vrij over praten. Bij AIToday Live hebben we 27 prompts verdeeld over OpenAI en Cloud. Omdat we als AI podcast onze productie ook met veel AI uitvoeren, hebben we geluk, tussen aanhalingstekens, dat we de impact van veranderingen direct kunnen zien dankzij onze AI automatisering voor de podcast. En ik word daar niet vrolijk van. Een goede herhaalbare prompt maken voor een geautomatiseerd proces is monnikenwerk. En een nieuw taalmodel betekent dat je gewoon weer aan de slag moet. Het is alsof je net je keuken hebt ingericht voor een specifiek recept. En dan vertelt iemand dat je nu een ander fornuis moet kopen met net iets andere knoppen. Maar goed, laten we eens kijken naar het grotere plaatje. De gevolgen van deze frequente modelwisselingen zijn echt verstrekkend voor organisaties die AI implementeren. Stel je voor, je hebt net je promptbibliotheek opgezet, alles werkt naar behoren en dan moet je weer alles nalopen omdat er een nieuw model is. En een nieuw model is trouwens niet per se beter. De benchmarks geven dan aan waar ze zogenaamd beter in worden. Maar eerlijk gezegd, ik word niet heel warm van de benchmarks en wat ze uiteindelijk zeggen over de praktische toepassingen binnen je eigen organisatie. En daarbij komt ook, kijk bij onze klanten kunnen we niet zomaar van taalmodel veranderen. Ja, ze zien ons aankomen, dan verklaren ze toch op een gegeven moment voor gek iedere keer. Want stabiliteit en voorspelbaarheid zijn cruciaal binnen bedrijfsomgevingen. En bovendien maakt de overvloed aan keuzes het niet eenvoudiger. Stel je ontwikkelt een nieuwe applicatie of agent, welk model kies je dan? Kies je een reasoning model of niet? En dan nog alle varianten binnen een van deze categorieën. Die keuze is zelfs lastig in de gebruikersinterface van ChatGPT. Op het moment van deze opname is GPT 4.1 nog niet eens te kiezen in de user interface. Het is alleen te gebruiken via de API, zodat je er tegenaan kan programmeren. Nu we de praktische problemen hebben besproken, wil ik even stilstaan bij wat mij persoonlijk het meeste stoort. Want waar ik me echt aan erger in deze situatie, is het gebrek aan transparantie en de duidelijke release strategie van OpenAI. Dus als OpenAI en andere AI leveranciers klanten serieus willen nemen, moeten ze naar een voorspelbare update cyclus en duidelijke richtlijnen gaan geven voor wanneer modellen worden uitgefaseerd. Dit is niet zomaar een wens, het is een absolute noodzaak voor bedrijven die serieus met deze technologie aan de slag willen. Maar goed, genoeg geklaagd. Laten we weer even constructief zijn. Want wat kun je als organisatie of professional doen om hiermee om te gaan? Wat zou ik je adviseren als het gaat om het kiezen van zo'n model? Als je nu moet starten met een AR-implementatie, kies gewoon het goedkoopste model wat beschikbaar is en kijk of je daar correcte resultaten mee haalt. En zo niet, dan schaal je langzaam op naar duurdere modellen. Zorg wel dat je testen maakt als je een large language model integreert in je applicatie. En over testen gesproken, kijk als je meer wilt weten over hoe je goede tests voor prompts kunt schrijven, luister dan zeker even terug naar afleveringen 72 en 84 van ons zesde seizoen. Want daarin bespreken we verschillende prompttechnieken en hoe je kunt testen met onvolledige of onrealistische gebruikersinvoer. Heel nuttig als je met deze modelwisselingen te maken krijgt. En ook nog trouwens als je worstelt met de vraag welk model nu eigenlijk het beste past bij jouw situatie, dan raad ik je aflevering 97 van seizoen 6 aan. Daarom bespreken we uitgebreid alle criteria die je moet afwegen en waarom je niet zomaar achter elk nieuwe modelversie aan moet rennen. Precies eigenlijk wat we vandaag behandelen, maar dan wat dieper. Een andere is dus als je een model al gebruikt en je moet een keuze maken. Ja, zolang de huidige versie van je taalmodel werkt en je komt uit met die kosten, doe dan even niet. Hij houdt wel in de gaten wanneer je model uitgefaseerd gaat worden door de leverancier en migreer voor die datum. En kijk dan naar welk model een optie is. Nou, ook hier adviseer ik om testen te schrijven, zodat je bij je migratie snel de impact kunt bepalen van het gewijzigde model. Oh ja, en voor wie graag meer informatie wil in de show notes van deze aflevering deel ik drie handige links. Je vindt daar een overzicht van modellen die binnenkort worden uitgefaseerd door OpenAI. Met gedetailleerde informatie over de huidige modellen van OpenAI. En daarnaast nog een vergelijkingstabel waar je de verschillende modellen naast elkaar kunt zetten qua functies en prijzen. Echt de moeite waard om even te bekijken als je hiermee aan de slag gaat. Nou, laten we nu even alles samenbrengen. En kijken wat we kunnen leren van wat we vandaag gehoord hebben. Kijk, een duidelijke release strategie van modellen is belangrijk voor het gebruik op lange termijn. Lijkt me duidelijk, de tijd, geld en energie die gestoken wordt in het gebruik van deze modellen moeten rechtvaardiger zijn. We zitten in een spannende tijd waarin de mogelijkheden van AI snel groeien. Maar laten we niet vergeten dat implementatie in de echte wereld stabiliteit en voorspelbaarheid vereist. Als professional die dagelijks met deze technologieën werkt, hoop ik dat leveranciers van taalmodellen dit serieuzer gaan nemen. Nou, wat kun jij nu doen om jezelf te beschermen tegen deze constante veranderingen? Nou, maak een bewuste keuze voor welk model je gebruikt. Bouw testen in je applicatie. En houd de end of life data van de modellen die je gebruikt bij. Wat levert je dat op? Stabiliteit, voorspelbaarheid en zeker minder hoofdpijn bij nieuwe releases. Wat je het doet? Direct naar deze aflevering. Nou, inventariseer eens welke modellen je momenteel gebruikt en wanneer ze mogelijk uitgefaseerd worden. En maak een migratieplan. En bedenk altijd, AI is niet de oplossing voor elk probleem, maar onmisbaar waar het past. Dank je wel weer voor het luisteren. Vind je deze aflevering nou nuttig? Tip ons eens bij je collega, familie of vriend. Dat waarderen wij heel erg. Tot de volgende keer. [Muziek] [Muziek]