Wat leer je in deze aflevering?
Saskia Lensink, productmanager van GPT-NL bij TNO, bouwde met 13,5 miljoen euro een Nederlandstalig taalmodel waarvan elke zin in de trainingsdata juridisch is gecheckt en traceerbaar is naar de bron. Dat klinkt vanzelfsprekend, maar het kostte anderhalf jaar om die dataset samen te stellen, omdat licentie-informatie bij de meeste beschikbare datasets ontbreekt of AI-training expliciet verbiedt. Het model richt zich op drie toepassingen die samen zo'n 80 procent van het praktische gebruik van Artificial Intelligence in organisaties dekken: samenvatten, versimpelen en RAG, waarbij je vragen stelt aan je eigen documenten in plaats van aan het geheugen van een model.
Voor sectoren als overheid en zorg is dat relevant: een model waarvan de data-herkomst volledig transparant is en dat op Europese servers draait, neemt een concrete drempel weg voor adoptie. Wil je bijdragen of experimenteren: de code staat op GitHub, datasets zijn gedocumenteerd via Hugging Face, en eind 2025 is er een gehoste versie beschikbaar via een API.
Kernbegrippen
- Soevereiniteit
- Behoud van controle over AI-modellen en data binnen Europa, onafhankelijk van Amerikaanse techbedrijven.
- RAG (Retrieval-Augmented Generation)
- Techniek waarbij AI-modellen eigen documenten raadplegen voor nauwkeurigere antwoorden.
- Data-licenties
- Juridische afspraken die bepalen hoe trainingsdata gebruikt mag worden zonder inbreuk op eigendomsrechten.
- Prompt-engineering
- Het aanpassen van instructies per toepassing zodat AI-modellen optimaal presteren op specifieke taken.
Wat kun je morgen doen?
- 1 Gebruik GPT-NL voor samenvatten, versimpelen of RAG op eigen documenten — voor die taken is een groot model niet nodig
- 2 Doneer data via info@gpt-nl.nl als je datasets beschikbaar hebt, ook als privépersoon
- 3 Bekijk datasets en trainingscode via de Hugging Face- en GitHub-pagina van GPT-NL
Interview: Saskia Lensink
Had je ooit gedacht, toen je taalwetenschap studeerde, dat je dit vak op deze manier zou toepassen?
Nee, helemaal niet. Taalwetenschap was altijd een vrij kleine studie, een beetje niche. Taaltechnologie, wat een raar thema, dacht ik toen. En ineens, sinds ChatGPT is uitgekomen, is het de technologie waar iedereen het over heeft. Dus ik zit ineens midden in een soort storm. Dat is hartstikke leuk.
Kun je uitleggen wat GPT-NL precies is voor luisteraars die er nog niet mee bekend zijn?
GPT-NL is een taalmodel, een LLM (Large Language Model), die wij zelf helemaal vanaf niks af aan het trainen zijn, samen met Surf en het NFI. Dat doen we bij TNO. Het idee is: waarom zou je zo'n taalmodel helemaal zelf bouwen? We vinden het heel belangrijk dat we eigen taalmodellen kunnen bouwen, dus dat we die kennis hebben. Maar we vinden het ook heel belangrijk dat we modellen bouwen die we in eigen handen hebben, soeverein zijn en ook binnen de kaders van de wet vallen.
Waarom benadruk je dat laatste aspect zo specifiek?
Er zijn nogal wat rechtszaken die lopen momenteel als het gaat om de herkomst van de data waarop al die grote taalmodellen zijn getraind. Dus worden er nogal wat vraagtekens geplaatst bij of daar data is gebruikt die wel gebruikt had mogen worden. Zijn er copyrightschendingen? Daar zijn veel rechtszaken over. Maar mensen maken zich ook zorgen over de privacy of over de kwaliteit van de data waarop getraind is. En wij willen dat graag helemaal in eigen handen houden.
Weten jullie dus precies op welke data van wie er getraind is?
Precies, en we weten ook zeker dat we die data mogen gebruiken. Want we hebben overal netjes gecheckt of het geschikt is voor AI-trainingen, of we hebben om toestemming gevraagd.
Wat bedoel je met 'geschikt' qua data?
Je hebt allerlei datasets die op het internet te vinden zijn, die kun je downloaden. Maar er zit vaak ook licentie-informatie bij, of het is onbekend. En die licentie-informatie vertelt jou of je dat mag gebruiken voor bijvoorbeeld het trainen van een taalmodel. Heel vaak mag dat helemaal niet. Of er wordt op de website van een bedrijf aangegeven in een opt-out bericht, zoals dat heet: deze data mag niet gebruikt worden voor het trainen van AI-modellen. Daar zijn we heel goed op gaan letten om ervoor te zorgen dat er dus niet per ongeluk data in zit die niet gebruikt had mogen worden.
Was het lastig om daar zo secuur op in te gaan?
Dat was lastig. We dachten in het begin best wel optimistisch: nou, we hebben een paar maanden nodig en dan hebben we dat wel in kannen en kruiken. Uiteindelijk zijn we daar echt wel een lange tijd mee bezig geweest. Het heeft ongeveer anderhalf jaar geduurd voordat we de volledige dataset verzameld hadden waarmee we zijn gaan trainen. Het had meerdere redenen. Er zijn meerdere wetten die van toepassing zijn, dus je moet heel goed uitzoeken: hoe zit dat dan precies, wat wel, wat niet, welke keuzes maak je. Toestemming vragen kost ook tijd. En vooral ook omdat we met heel veel data-eigenaren om tafel zijn gaan zitten en gekeken hebben: kunnen we met elkaar een gemeenschappelijke afspraak maken, een gemeenschappelijke licentieovereenkomst, die voor iedereen hetzelfde is. En dat kost even wat praten met elkaar, polderen. Maar dat heeft er wel voor gezorgd dat we nu gewoon één afspraakstelsel hebben waar iedereen in mee kan stappen.
Krijgen de bedrijven of organisaties die data ter beschikking stellen er ook iets voor terug?
Dat ligt aan het type data. Bijvoorbeeld de Rijksoverheid. We hebben heel veel teksten die gemaakt worden door gemeentes, de ministeries, noem maar op. Dat zijn heel vaak teksten die publiek beschikbaar zouden mogen zijn. Die data, die teksten, denk bijvoorbeeld aan verslagen van raadsvergaderingen, dat soort data zit er allemaal in en die data mag gewoon gebruikt worden zonder dat daarvoor betaald moet worden. Daarnaast heb je ook data van bedrijven, bijvoorbeeld mediabedrijven. Dat is data die heel veel geld waard is. Die data zou je kunnen kopen, dat kost heel veel geld, honderden miljoenen euro's waard. Dat geld hebben wij niet. Dus we hebben met die bedrijven en ook met andere bedrijven de afspraak gemaakt: in plaats van dat wij de data kopen, hebben we een kickback-constructie. Dus voor ieder stukje geld dat wij verdienen met de verkoop van de commerciële licentie vloeit een gedeelte weer terug naar de rechthebbende.
Zijn er dan ook andere licenties naast de commerciële licentie?
Ja, we hebben een professionele en commerciële licentie voor bedrijven en professioneel gebruik. En we hebben ook een academische licentie, een onderzoekslicentie. Dus we zorgen ervoor dat onderzoekers in ieder geval gratis gebruik kunnen maken van het model voor onderzoeksdoeleinden. Dat vinden we heel belangrijk.
Waren er bepaalde eisen aan de kwaliteit van de data die erin ging?
Ja, absoluut. In de ideale wereld heb je een dataset die precies een weerspiegeling is van alles wat er in Nederland gebeurt en alle thema's en alle type taalgebruik. Daar hebben we wel een beeld bij van hoe dat eruit zou moeten zien, maar dat ga je nooit voor elkaar krijgen, dat is heel moeilijk. Maar daar hebben we geprobeerd om op te letten. Het tweede waar we op hebben gelet, is of er geen data in zit van slechte kwaliteit, als in bijvoorbeeld als jij een internetforum leegtrekt, bijvoorbeeld 4chan. Daar staan niet altijd de leukste gezelligste berichten tussen. Daar hebben we ook heel goed op gelet dat we dat soort dingen zoveel mogelijk vermijden. Dus aan de ene kant let je heel erg op de kwaliteit van de tekst. Is het geschreven door professionele schrijvers? Aan de andere kant wil je er ook wel wat gewoon taalgebruik tussen hebben zitten, maar wel voorkomen dat daar heel veel misinformatie in staat of heel veel haatdragende berichten.
Zitten er alleen Nederlandstalige teksten in?
Nee, er zit voornamelijk heel veel Engels in. Ja, dat was toch noodzakelijk. Kijk, als je naar de grote taalmodellen kijkt over de hele wereld, dan is vaak Nederlands wat daarin zit een vrij beperkt gedeelte van de hele set. Bij ons is dat gedeelte Nederlands een stuk groter. Maar uiteindelijk heb je gewoon heel veel data nodig om ervoor te zorgen dat je model iets kan. Dus we hebben ook heel veel Engelse data nodig gehad om ervoor te zorgen dat die toch goed in het Nederlands is.
Heb je ook andere talen nodig om eigenlijk taalconstructies te begrijpen?
Dat is heel grappig. We dachten vrij aan het begin dat het nodig was om dezelfde soort talen in zo'n taalmodel te hebben. Dus het Nederlands wordt een beetje beter als je er Deens bij stopt, die talen lijken op elkaar. Maar het lijkt er inmiddels op dat iedere soort taal enorm bijdraagt aan de kwaliteit. Dus in de toekomst zullen we ook meerdere talen gaan toevoegen.
Hoe meet je de kwaliteit van het model?
Er zijn heel veel manieren daarvoor. Je hebt een aantal standaardtests die je aan zo'n taalmodel kunt voorleggen. De benchmarks noemen we ze ook wel. Je kunt hem bijvoorbeeld een wiskunde-examen geven en dan kijken: hoe vaak geeft hij goed antwoord, kun je hem een cijfer geven, dan weet je hoe goed die is in wiskunde. Dat is een beetje een flauw voorbeeld, maar zo heb je heel veel van dat soort standaardtesten. Die voeren we uit, maar tegelijkertijd, omdat het een standaardtest is, zegt dat nog niet zo heel erg veel over hoe het nou in de praktijk werkt. Want ik kan wel een wiskunde-examen doen, maar dat gaat jou niks vertellen over hoe goed ik mijn rol bij GPT-NL kan uitvoeren. Daarvoor moet je het echt in de praktijk uitproberen. En dat zijn we nu volop aan het doen met een aantal partners en haalbaarheidsstudies aan het uitvoeren. En vaak weten de partners heel goed waarvoor ze het model willen gebruiken en wanneer het goed genoeg is.
Kun je wat delen over waar het nu voor gebruikt wordt?
Zeker, ja. We hebben uiteindelijk een stukje geld gekregen van het ministerie van Economische Zaken, 13,5 miljoen, met de opdracht: ga daarmee een taalmodel maken. Dat was best wel een kluifje. Het is vrij weinig geld als je het vergelijkt met andere projecten. We zijn heel kritisch gaan kijken naar wat er nou noodzakelijk is. We zijn met heel veel bedrijven en organisaties gaan praten. Stel, wij maken ons eigen soevereine model. Waar zou jij het voor inzetten als je weet dat het niet alles kan? Daar kwam naar voren dat als we kijken naar eenvoudige toepassingen van taalmodellen, het gaat om samenvatten van teksten. Dat is grappig genoeg helemaal niet zo ingewikkeld voor een taalmodel. Daar heb je niet het nieuwste en het beste voor nodig. Hetzelfde geldt voor versimpelen. Dat werd ook door heel veel organisaties aangegeven: het aanpassen van je teksten aan een bepaald publiek. En RAG, het retrieval augmented generation.
Kun je RAG even uitleggen?
Dat is eigenlijk: je combineert een zoekmachine met een taalmodel. En daarmee ga je door je eigen informatie, je eigen documenten heen van je bedrijf of je organisatie. En dan kun je heel veel informatie uit je eigen documenten trekken. Dus je kan vragen gaan stellen over je eigen documenten.
Kun je iets concreter vertellen waar het in die haalbaarheidsstudies gebruikt wordt?
Hier gaan die drie kernfunctionaliteiten samenvatten, versimpelen en dat RAG, daar richten we ons met name op. Er zijn ook een paar haalbaarheidsstudies waarin we bijvoorbeeld categoriseren en classificeren. Dus een sentimentanalyse: hoe blij zijn mensen in dit bericht? We zijn ook aan het kijken of we stukjes kunnen vertalen, van het Nederlands naar het Engels of andersom. De haalbaarheidsstudies die we nu doen, zijn met name bij overheidspartijen, maar ook bij een telecomorganisatie. Bijvoorbeeld bij een overheidspartij, samen met Binnenlandse Zaken en de makers van chatbot Gem, de gemeentechatbot, zijn we aan het kijken: hoe goed zou GPT-NL kunnen werken in die hele stack, in die hele chatbotomgeving voor gemeentes.
Kunnen ze dan echt dingen naast elkaar leggen en kijken of het beter, slechter of gelijk is?
Ja, en dat is het mooie van deze samenwerking. Want Gem bestaat al meerdere jaren, dus is al een applicatie, er zijn eindgebruikers en er zit een heel team achter dat precies weet waar ze Gem voor willen gebruiken en wat de eindgebruikers, de gemeentes, verwachten. Dat is fantastisch. En we zijn nu samen met hen aan het kijken: kunnen we GPT-NL inzetten en waar gaat het goed en waar gaat het minder goed. Dat is ontzettend nuttig om te weten.
Wat komt er bij kijken om het model te fine-tunen?
Dat is een hele goede vraag. Ook best een ingewikkelde. Om een simpel voorbeeld te geven: stel, jij stelt een vraag aan een chatbot. Dan kan die chatbot een heel lang en uitgebreid antwoord geven met heel veel terminologie en jargon en heel uitgebreid, en dat is misschien voor een jurist of een expert een heel fijn antwoord. Maar als ik gewoon wil vragen hoe ik een vergunning moet aanvragen voor mijn dakkapel, dan wil ik een vrij simpel antwoord, concreet en kort. Dus verschillende eindgebruikers hebben verschillende eisen aan de technologie. Dus waar gaan wij dan op optimaliseren als je zoveel verschillende eindgebruikers hebt? Dat is een hele lastige. Daar kunnen we heel moeilijk een standaardkeuze in maken. Dus vandaar ook dat we bij die haalbaarheidsstudies kijken: gaan we er uiteindelijk op uitkomen dat we een aantal versies van GPT-NL hebben? De ene misschien geschikt voor een bepaalde eindgebruiker, de andere misschien meer geschikt voor een juridisch expert. Of is dat iets wat uiteindelijk door de organisatie zelf nog even gedaan moet worden?
Waar ligt het moment dat je stopt met fine-tunen en dat je gewoon opnieuw moet gaan trainen?
Dat is ook een goede. Kijk, uiteindelijk is de pre-training, dus het voortrainen van het model, dat hebben we nu afgesloten. Daar hebben we op dit moment binnen het huidige budget ook geen geld meer voor om door te blijven gaan. En er lijkt ook een beetje een grens bereikt te zijn van wat we eruit kunnen halen. De grootste winst zit hem nu echt in dat verdere fine-tunen.
Wat was voor jou het voordeel van een klein budget hebben?
Je moet keuzes maken. En dat is ook fijn, want daardoor pak je focus en blijf je ook heel pragmatisch. En ik denk dat dat ook gewoon heel goed is, dat we ook heel pragmatisch met deze technologieën omgaan. Groter betekent niet altijd beter. We maken zelf wel eens de vergelijking met: stel, je hebt een Ferrari. Prachtige auto, maar daar ga je niet je boodschappen mee halen. Dat is totale waanzin. Dat kan ook op een fiets. En dat is denk ik ook een beetje de manier waarop we naar AI kunnen kijken. Er zijn gigantisch grote modellen die heel veel energie slurpen en ook veel kosten om in productie te nemen. Maar dat zijn niet altijd het type modellen die je nodig hebt om te bereiken wat je wil. We zijn ook gewoon gedwongen om een beetje pragmatisch en fit-for-purpose, heel gericht op de klant te gaan denken en gewoon te kijken wat kan er wel binnen deze mogelijkheden.
Loop je dan niet tegen het verschil van verwachtingen aan, omdat de meeste mensen ChatGPT kennen?
De hele tijd. En dat kan ook niet anders. Maar het scheelt wel een hoop: de mensen die veel met taalmodellen werken, die voelen vaak ook wel een beetje aan dat ze natuurlijk niet het niveau van een ChatGPT kunnen verwachten. Maar die geven vaak zelf ook aan: voor het soort use cases waar ik het model voor inzet, heb ik die performance ook helemaal niet nodig. Het draait ook heel erg om wat voor processen je eromheen inricht. Heel veel modellen moet je uiteindelijk toch nog een klein beetje een zetje geven in de goede richting om ze geschikt te maken voor jouw use case. En je hebt er continu een soort van onderhoud aan. Dus op zich scheelt dat heel erg en we zijn ook heel erg bezig om het continu uit te leggen. Als je echt wil dat we naar een volgende performance-boost gaan, dan zullen we gewoon door moeten ontwikkelen en daar moet een stukje geld bij. Maar op dit moment kunnen we heel veel aanpakken, heel veel van de eenvoudige use cases, die misschien wel 80% van de toepassingen van generatieve AI op dit moment dekken.
Betekent het ook dat het goedkoper is om te gebruiken dan de grote modellen?
We zijn vanuit TNO verplicht om geen ongeoorloofde staatssteun te geven. Dat is ook een bepaald construct. Betekent dat we ook niet zomaar modellen gratis op de markt mogen zetten. Dus daar zijn bepaalde regels voor. We mogen niet de markt gaan verstoren. Dus daar moeten we rekening mee houden. Tegelijkertijd zijn we ook aan het kijken naar wat kunnen we wel, wat is er mogelijk. Dan kom je er ook heel gauw achter dat dit soort modellen in de lucht houden en aanbieden aan eindgebruikers, dat kost geld. Dat kun je niet gratis doen. En dan ga je ook kijken naar het verdienmodel van de grote jongens over de plas. En dan zie je dat heel veel gebruik vooraf gefinancierd is. En dat heel veel modellen tegen best wel een lage prijs op de markt worden gezet, maar heel vaak is de kostprijs een stuk hoger.
Is TNO degene die het exploiteert?
Op dit moment bieden wij dat model inderdaad aan. En dan kijken we naar de toekomst toe hoe we dat verder gaan continueren. Wat we heel erg belangrijk vinden vanuit TNO, is dat nu we geld hebben gestopt en hebben gebouwd aan een soeverein taalmodel voor Nederland, voor Europa, dat het ook echt in Europese handen blijft. En dat is wel een gevaar wat we zien bij heel veel AI-bedrijven door heel Europa heen. Op het moment dat ze een beetje succesvol worden, worden ze heel vaak overgekocht door Amerikaanse bedrijven, Chinese bedrijven. Dat is echt iets wat wij willen voorkomen. We willen echt 100% kunnen borgen dat dat niet gaat gebeuren.
Is het dan ook de bedoeling dat het direct in Nederland blijft draaien?
Ja, we willen er sowieso voor zorgen dat het draait in een Europese cloud. Dus het hoeft niet per se een Nederlands bedrijf te zijn, het kan ook een Europees bedrijf. Maar er zijn best wel wat partijen in Nederland actief die dit soort services aan kunnen bieden. Dus we zijn nu ook volop aan het kijken met wie kunnen we samenwerken, hoe gaan we dat aanvliegen. We willen wel het gebruik van GPT-NL zo makkelijk mogelijk maken voor iedereen.
Hoe betaalt de overheid ervoor als het aan hen ter beschikking wordt gesteld?
Nou, ook zij moeten gewoon een commerciële licentie afnemen. Dus commercieel gebruik van het model ter bevordering van een bedrijfsvoering, dat geldt voor hen net zo goed. Wat wel interessant is, is dat de Rijksoverheid ook veel bezig is met eigen soevereine cloudoplossingen, rijkscloudoplossingen. Er zijn al meerdere partijen, ook van de overheid zelf, die een middleware-oplossing hebben, een hostingplatform. Vlam is een belangrijke partner daar. En via hen kunnen we het model straks ook gaan aanbieden aan een grotere groep ambtenaren. Dus we zijn nu op kleine schaal aan het experimenteren samen met Vlam.
Hoe delen jullie met eindgebruikers waar het model goed voor werkt en waar niet?
We zijn nu in die haalbaarheidsstudies bezig om al deze inzichten te verzamelen, te bundelen en proberen ook zoveel mogelijk voor iedereen ter beschikking te stellen. We bouwen heel veel kennis daarover op. Dus dat kunnen we dan ook vervolgens weer doorgeven op het moment dat we bij een nieuwe klant aan de slag gaan. Maar uiteindelijk zou je daar wel een soort certificeringstraject voor willen hebben, waarbij je gewoon de kennis bundelt en in een soort vast lespakket aanbiedt.
Is er iets wat verrassend genoeg zelfs beter werkt dan bij de concurrenten?
Nou ja, het is al fijn dat we de enige zijn die een privacy-prijs hebben gewonnen. We hebben namelijk de AI Award bij Jimstolze gewonnen, de privacy-award. Dat was echt fantastisch. Dat was wel een mooie erkenning. Het feit ook dat we volledig transparant kunnen zijn over welke data erin zit. We hebben onze code ook open source beschikbaar gesteld, dus iedereen kan dat ook bekijken. Dat is fantastisch. En wat ik zelf nog steeds geweldig vind, is dat we met dit budget erin geslaagd zijn om een werkende LLM te maken, die daadwerkelijk ook op een bepaald niveau komt met die taken. We hebben wel gezegd, hij moet minimaal op het niveau van ChatGPT 3.5, dus die eerste versies van ChatGPT. En dat niveau moeten we wel minimaal kunnen halen op die kerntaken. En daar zitten we overheen. Dus dat vinden we echt geweldig.
Wat hebben jullie in dat traject geleerd dat je graag van tevoren had willen weten?
Er zijn heel veel lessen. Uiteindelijk een beetje geduld hebben, maar ook wel een beetje doorduwen, maar dat hebben we eigenlijk overal wel gedaan. Ik denk dat ik vooral heel trots ben op hoe we toch continu, ondanks dat niet alles makkelijk was, wel door zijn blijven gaan. En ik ben heel verbaasd over hoe verenigd iedereen erachter staat. Iedereen is wel enthousiast, denkt mee, de hele gemeenschap. En dan hebben we het niet alleen over de dataleveranciers, maar juist ook over de eindgebruikers en allerlei stakeholders in het veld die zo bereid zijn om mee te denken en hier de schouders onder te zetten. Dat is gewoon heel mooi.
Als het extra geld er niet komt, wat dan?
Dan hebben we nu deze productlijn van GPT-NL. Die gaan we zo goed mogelijk maken. Maar dat betekent wel dat de functionaliteiten beperkt zijn. Er zijn gewoon de functionaliteiten die we nu kunnen aanbieden, en er zal dan niet heel veel meer bij kunnen komen. Dus we kunnen niet ineens allemaal agente tool-use gaan aanbieden op basis van dit model. We kunnen het model niet ineens in het Frans of in het Turks laten praten. En dan stopt de ontwikkeling een beetje. Dan blijft het model relevant voor de komende één, twee, misschien zelfs wel drie jaar. Dat is moeilijk om in de toekomst te kijken. Maar uiteindelijk gaat de wereld om je heen verandert. En je wil heel graag wel enigszins kunnen meegaan met die verandering.
Stel, je budget was twee keer zo groot. Wat zou dan het eerste zijn wat je zou willen laten bouwen?
We hebben wel gezegd, we hebben ongeveer keer tien nodig voor de volgende fase. Dat zijn wel echt de bedragen waar we aan denken. Maar met twee keer zo'n groot budget zouden we gewoon onze datastrategie voortzetten. En dan met name denk ik gericht op misschien één of twee extra taalgebieden. Dus dan ga je niet gelijk heel Europa erbij nemen. Ik denk dat we dan vooral kiezen voor het verbeteren van onze RAG-functionaliteit. Bij retrieval augmented generation kun je je retrieval verbeteren, of je generation. We willen die retrieval een stukje verbeteren. Daar denken we heel erg aan. We willen ook graag een spraakfunctionaliteit toevoegen. Er zijn best wel wat bedrijven en initiatieven die heel goed bezig zijn met spraaktechnologie. Dus dat verder integreren zou heel mooi zijn.
Wanneer wordt het interessant om het model groter te maken of een nieuwe variant te gaan trainen?
Dat is een interessante afweging. Uiteindelijk is daar het belangrijkste: wie is bereid of wie zou daarvoor willen betalen? Dus het ligt heel erg aan de markt. Als er uiteindelijk vooral heel veel animo is voor sectorspecifieke modellen, dan gaan we daar volop op inzetten. Maar we denken dat we uiteindelijk op beide paarden moeten wedden. Dus aan de ene kant zou je veel meer op sectorspecifieke toepassingen willen gaan inzoomen. En aan de andere kant willen we ook dat fundament wat we nu hebben gebouwd verder uitbreiden, dus groter maken. Uiteindelijk als je fundament steviger is, kun je er ook meer op voortbouwen. Dus dan gaan die sectorspecifieke toepassingen ook beter zijn, kun je ook meer functionaliteiten verder gaan fine-tunen.
Jullie hebben een stelling: AI gaat tijdsbesparing opleveren voor de zorgverlener. Wat vind je daarvan?
Dat is wel de belofte en dat is ook de hoop. En ik denk zeker dat het kan. Ik denk dat daarbij de techniek niet de grootste hobbel is, maar de cultuur. De manier van werken. De zorg is wel een ongelooflijk lastig domein. Ik weet er niet veel van, maar ik heb me wel eens laten vertellen dat daar zo'n 9.000 verschillende organisaties en freelancers actief zijn. Heel veel fragmentatie, dat maakt het gewoon ontzettend lastig om daar met geïntegreerde oplossingen te komen. Dus ja, ik geloof er zeker in dat de zorg heel veel baat heeft bij AI. Alleen al kijken naar de rapportageverplichtingen. Zoiets simpels als het samenvatten van informatie, als je dat op een goede manier kunt doen, kun je veel informatie ontsluiten. Maar het is ontzettend belangrijk dat die informatie compleet en correct en juist is. En daar zit natuurlijk wel de twijfel.
Zou GPT-NL niet een mooie combinatie zijn met de zorg, omdat jullie de privacy zo goed op orde hebben?
Absoluut. We denken ook zeker dat de zorg een heel mooi toepassingsdomein kan zijn van dit soort soevereine en betrouwbare Europese modellen. Tegelijkertijd zijn we ook realistisch. De zorg is ook een heel moeilijk domein om nieuwe innovaties in weg te zetten. Dus het is ook niet het eerste veld waarbinnen we GPT-NL gaan aanbieden of waar we aan het experimenteren zijn. Experimenteren kun je heel goed doen, zou ook binnen de zorg kunnen. Maar we vinden het ook best wel een tricky veld. Het is zo ontzettend belangrijk dat je daar met betrouwbare informatie werkt en dat je modellen te vertrouwen zijn. En kwaliteit en performance, daar kun je gewoon echt niet omheen. Dus we vinden het wel heel belangrijk dat we goed weten wat GPT-NL wel en niet kan, zeker in dit soort kritische gebieden. We merken ook dat de zorg wat terughoudend is.
Wanneer zou je het model breder beschikbaar stellen zodat mensen het kunnen gaan afnemen?
Ja, we zullen het altijd voor zakelijk eindgebruik inzetten. We hebben op dit moment alleen bij de haalbaarheidsstudies bètaversies van het model draaien op de infrastructuur van de klanten zelf. Het is de bedoeling dat we aan het einde van dit jaar een gehoste versie van het model gaan aanbieden. Dan is het veel makkelijker te gebruiken voor allerlei organisaties, dus ook organisaties die niet het model zelf kunnen hosten.
Wat zijn de reacties die je over het algemeen krijgt op het initiatief?
Voor Trump waren er mensen die zeiden: jullie zijn gek. Na Trump zijn wij een van de weinige mensen die blij zijn dat dat gebeurt. We noemen hem ook wel eens onze beste marketeer. Dat is natuurlijk wel zo. Je merkt dat de publieke opinie enorm omgeslagen is. We merkten eigenlijk al toen Deepseek uitkwam, dat dat ook al wel het een en ander heeft veranderd in de algemene blik op GPT-NL. Eerst was het beeld ook een beetje: met dat geld, jullie zijn gek, waarom zou je het überhaupt proberen? Toen kwam Deepseek, dat model leek erop dat het met veel minder geld gebouwd is. Oh ja, het kan dus wel. En toen kwam Trump en toen werd de hele discussie rondom digitale soevereiniteit ineens superbelangrijk. We moeten onze eigen Europese producten maken in eigen beheer hebben. Al die discussies samen hebben ervoor gezorgd dat we nu heel veel fans hebben, dat mensen heel enthousiast reageren op het initiatief, het ook een warm hart toedragen. Maar vanaf het begin af aan merkten we al wel dat we heel veel steun hadden bij allerlei partijen, maar nu merken we dat die steun breder en breder wordt.
Waar hoop je dat jullie over drie jaar staan?
Dan hebben we een model dat niet alleen maar geschikt is voor Nederlandse use cases, maar gewoon in heel Europa ingezet kan worden, geschikt voor meerdere talen, maar ook veel meer functionaliteiten heeft. Dan is het niet alleen maar beter in RAG, maar kan het ook met spraak omgaan, misschien ook met andere modaliteiten. Ik denk aan de zorg, stel dat het misschien goed met sensordata kan omgaan. Over drie jaar weet ik ook gewoon dat het een model is dat je niet alleen maar gebruikt uit een soort idealisme, omdat het ook daadwerkelijk goed genoeg is voor de eindgebruiker. Want uiteindelijk is idealisme heel fijn. En het is heel mooi dat je een soeverein model hebt, maar als het gewoon niet goed genoeg werkt, dan is het ook heel erg zonde. Dus we willen er echt voor zorgen dat het model fit-for-purpose is, dat het breed gebruikt kan worden voor de use cases waar het echt waarde toevoegt.
Heeft dit traject ook iets met jezelf gedaan?
Ja, het is heel grappig, want we hebben zo'n geluk met het tijdstip waarop we dit zijn begonnen. We hebben nu zoveel positieve energie mee. Ik had een paar jaar geleden nooit gedacht dat ik een podcast zou opnemen, dat ik zoveel op een podium zou mogen staan. Dus je leert heel veel. Ik vind het ook heel fijn dat we met zo'n groot team eraan werken. Dus je ontwikkelt je inderdaad als mens ook enorm. Ik kijk ook al wel een beetje op een andere manier naar technologie en de verantwoordelijkheid die je daar ook wel in kan pakken. In plaats van een beetje passief zitten met: ja, zo is het nu eenmaal, en een beetje klagen, heb ik steeds meer geleerd dat je moet denken: kom op. Dat kan niet meer, al dat complex gedoe dat we met z'n allen hebben, dat moeten we een beetje loslaten. En het is heel makkelijk om een beetje te klagen over hoe dingen niet ideaal zijn, maar daar kom je niet zoveel mee verder. En ik vind dat dat wel een hele mooie les is die we nu hebben geleerd. Oké, je mag best wel een keer diep zuchten. Maar ga dan kijken wat je wel kan doen en kijk wat er binnen je mogelijkheden ligt. En dat is vaak toch een stuk meer dan je denkt.
Hoe groot is het team waarmee jullie dit gebouwd hebben?
In het begin hadden we pakweg zo'n twintig mensen die erbij betrokken zijn. En dan zijn dat niet alleen maar de engineers en de data scientists, maar dat zijn ook mensen die specialist zijn en heel veel weten van marketing en communicatie. We hebben natuurlijk heel veel juristen aan boord. Ethici, taalwetenschappers zoals ik. En dan gaandeweg zijn er ook wat meer mensen bijgekomen. Er zijn nu vooral ook bij die haalbaarheidsstudies, werken we ook met business consultants die ook heel goed in staat zijn om de vraag van de klant te verbinden aan waar de engineers mee bezig zijn. De rollen kristalliseren zich een beetje uit. En tegelijkertijd heeft iedereen zes petten op. Dat is ook een beetje: het is nieuwe technologie. We proberen van alles en nog wat. Ontwikkelingen gaan ontzettend snel. Dus we moeten meerdere dingen een beetje kunnen. En we hebben het geluk dat we heel veel experts om ons heen hebben.
Hoe kunnen mensen die kennis tot zich nemen die niet onderdeel van het traject waren?
We hebben nu op onze website wat toegankelijke blogs staan en interviews over het initiatief, dus GPT-NL. Voor mensen die weinig werken met AI is het heel toegankelijk en hopelijk ook leuk om een beetje te lezen. We hebben ook een Hugging Face-pagina waarop we onze datasets hebben gepubliceerd. Dus alle publieke data die we hebben verzameld, die is daar te downloaden. En alle private datasets, die zijn daar uitgebreid beschreven. Dus je kunt daar precies vinden wat we hebben gebruikt. En dan zijn mensen vrij om zelf bij die partijen aan te kloppen als ze die data ook willen. En daar hebben we ook artikelen over gepubliceerd hoe we dat hebben gedaan. En we hebben een GitHub-pagina waarin al onze code te vinden is. We hebben ook uitgebreid gedocumenteerd. Dus daar kun je ook die code zelf bekijken. Je kunt de documentatie lezen.
Wat was de overweging om die zo open beschikbaar te stellen?
We vinden het belangrijk dat we ook iets bijdragen aan de community. Vanwege de afspraken met de dataleveranciers kun je niet zomaar alles opengooien. We vinden het heel belangrijk dat er wel een data-ecosysteem ontstaat, waarbij de makers ook een stukje mee kunnen profiteren van hopelijk alle inkomsten die we gaan maken met elkaar. Er moet gewoon een gezond ecosysteem zijn waar iedereen baat bij heeft. En die code, ja, met zulke beperkte budgetten ga je niet allemaal nieuwe gekke dingen doen, dan ga je gewoon pakken wat werkt. Dus wat dat betreft hebben we niet een heel extreem nieuwe manier van modeltrainen gebruikt. We hebben daar gewoon gepakt wat heel veel andere mensen ook gebruiken, waarvan we weten wat werkt, met hier en daar wat kleine specifieke aanpassingen. Dus dat is voor iedereen om te bekijken en zelf te herhalen. Als je dit model op dezelfde manier zou willen trainen, dan heb je miljoenen euro's nodig om alleen al de rekenkracht te kunnen betalen. Dus dat zal niet zo snel gekopieerd kunnen worden. En zeker de data is uiteindelijk een van de allerbelangrijkste ingrediënten. Die kun je niet zomaar wegtrekken.
Zou er iets zijn wat luisteraars kunnen doen om bij te dragen?
Doneer je data. We hebben wel een lijst van criteria. Maar eigenlijk, zeker nu we verder willen opschalen, wordt het steeds belangrijker dat we vooral heel veel data hebben. En dat is niet alleen Nederlandstalige data, dat is ook data in allerlei soorten talen. Dus als je datasets hebt, als je data wil bijdragen, als je mee wil in licentieovereenkomsten, laat het vooral weten. Kom vooral bij ons op de lijn en dan kijken we verder hoe we dat samen inrichten. Je kunt het beste een mailtje sturen naar info@gpt-nl.nl. En dan mag er zeker contact worden opgenomen. We gaan dat ook verder inrichten, verder opschalen, maar dat is eigenlijk nu het allerbelangrijkste dat we meer data verzamelen. Dat kan ook als privépersoon. Als je zegt: ik heb iets leuks. Een van de eerste mensen die bij ons op de lijn kwamen, Aaron Mirck. En hij was echt een van de eerste die op de lijn kwam: maar wat gaaf. En bij deze doneer ik mijn data. Hier zijn mijn boeken. Die mogen jullie gebruiken voor het trainen van GPT-NL. En ook op die kleine schaal zijn data van harte welkom. Dat vinden we ontzettend tof. Ik denk dat als we met z'n allen de schouders eronder zetten, dat we heel ver komen. AIToday Live is een podcast die zich richt op de nieuwste ontwikkelingen in AI en de impact ervan op verschillende sectoren. In elke aflevering spreken hosts Niels Naglé en Joop Snijder met experts uit het veld om inzicht te geven in de mogelijkheden en uitdagingen van AI-technologie. Luister via je favoriete podcast app: Spotify, Apple Podcasts, YouTube Music, en meer.
Over de gast
Saskia Lensink is productmanager van GPT-NL bij TNO, waar ze leiding geeft aan de ontwikkeling van een Nederlandstalig taalmodel dat volledig in Europese handen blijft. Van oorsprong taalwetenschapper, houdt ze zich nu dagelijks bezig met de praktische en juridische kant van het trainen van grote taalmodellen op zorgvuldig geselecteerde, rechtmatig verkregen data. Met een budget van 13,5 miljoen euro — een fractie van wat vergelijkbare projecten elders kosten — heeft haar team aangetoond dat pragmatisch werken binnen strikte beperkingen tot een werkend resultaat leidt.
Bekijk gastprofielTranscript
Vandaar spreken we met Saskia Lensink, productmanager van GPT-NL bij TNO. Van huis-uit taalwetenschapper, een studie die ze zelf ooit niets noemde, staat ze nu midden in de storm van de grootste taaltechnologie-revolutie ooit. Want TNO bouwt met slechts 13,5 miljoen euro, een eigen Nederlandstalig model. Volledige soevereiniteit, met data maar van ze zeker weten dat ze die mogen gebruiken en gebouwd om niet in Amerikaanse of Chinese handen te vallen. De centrale vraag, wat kun je eigenlijk bereiken als je weet dat je budget 10 keer kleiner is dan wat je nodig hebt? Joop: Hoi, leuk dat je weer luistert naar een nieuwe aflevering van AIToday Live. Joop: Ik ben Joop Snijder, head of AI bij Info Support. Niels: En ik Niels Naglé, Area Lead Data & AI bij Info Support. Joop: En in de studio zijn we heel erg blij mee, Saskia Lensink van GPT-NL. Joop: Eigenlijk van TNO moet ik zeggen. Joop: Maar we gaan het hebben over GPT-NL. Joop: En met heel veel plezier. Joop: Maar voordat we beginnen, zou je jezelf eerst willen voorstellen. Saskia: Saskia Lensink, ik ben productmanager van GPT-NL en ik werk bij TNO. Saskia: Van huis uit linguïst, taalwetenschapper, en mag me nu de hele dag bezighouden met taaltechnologie. Joop: Had je dat ooit gedacht toen je dit studeerde dat je het op deze manier zou gaan toepassen? Saskia: Nee, helemaal niet. Saskia: Taalwetenschap was altijd een vrij kleine studie, een beetje niche. Saskia: Waarom zou je je bezighouden? Saskia: Taaltechnologie, wat een raar thema. Saskia: En ineens sinds ChatGPT uit is gekomen, is het ineens de technologie waar iedereen het over heeft. Saskia: Dus ik zit ineens midden in een soort storm. Saskia: Dat is hartstikke leuk. Niels: Zie je dat ook terug in de opleidingen nu? Niels: Ik kan je nog volgen of er veel meer instroom is, inderdaad. Saskia: Aan de ene kant zie je dat taalwetenschap ook wel wat groter lijkt te worden, maar ook een beetje veranderd. Saskia: We zijn veel meer bezig met allerlei computationele technieken, dus heel veel met computers, heel veel met rekenen. Saskia: En je ziet ook dat die taalmodellen. Saskia: Een taalwetenschapper zijn heel handig, maar het is ook heel handig als iemand engineer is of als iemand kunstmatige intelligentie heeft gestudeerd. Saskia: Er zijn heel veel vakgebieden die daarin samenkomen. Saskia: En we hebben eigenlijk over de volle breedte mensen vanuit studieachtergronden bij ons zitten. Joop: Je zegt, we zitten midden in de storm. Joop: Waar wordt nog wel wat gesproken over GPT-NL. Joop: Zou je eerst aan luisteraars kunnen uitleggen die nog niet mee hebben gekregen wat het is. Saskia: GPT-NL is een taalmodel, een LLM, die wij zelf helemaal vanaf niets af aan het trainen zijn. Saskia: samen met Surf en het NFI. Saskia: Dat doen we bij TNO. Saskia: Het idee is, waarom zou je zo'n taalmodel helemaal zelf bouwen? Saskia: We vinden het heel belangrijk dat we eigen taalmodellen kunnen bouwen, dus dat we die kennis hebben. Saskia: Maar we vinden het ook heel belangrijk dat we modellen bouwen die we in eigen handen hebben, soeverein zijn en ook binnen de kaders van de wet vallen. Joop: En waarom zeg je dat laatste er specifiek bij? Saskia: Er zijn nogal wat. Saskia: Kijk, ik ga niet met vingers wijzen, dat doen we niet, maar we zien wel dat er heel veel rechtszaken lopen momenteel. Saskia: Als het gaat om de herkomst van de data waarop al die grote taalmodellen zijn getraind. Saskia: Dus worden er nogal wat vraagtekens bij geplaatst. Saskia: Is daar data gebruikt die wel gebruikt had mogen worden. Saskia: Zijn er copyrightschendingen, daar zijn veel rechtszaken over. Saskia: Maar mensen maken zich ook zorgen over de privacy of over de kwaliteit van de data waarop getraind is. Saskia: En wij willen dat graag helemaal in eigen handen houden. Joop: Dus jullie weten precies op welke data van wie er getraind is. Saskia: Precies, en we weten ook zeker dat we die data mogen gebruiken. Saskia: Want we hebben overal netjes gecheckt of het geschikt is voor AI-trainingen of we hebben om toestemming gevraagd. Niels: En wat bedoel je met geschikt zijn qua data? Saskia: Je hebt allerlei datasets die op het internet te vinden zijn, die kun je downloaden. Saskia: Maar er zit vaak ook licentie-informatie bij, of het is onbekend. Saskia: En die licentie-informatie vertelt jou of je dat mag gebruiken voor bijvoorbeeld het trainen van een taalmodel. Saskia: Heel vaak mag dat helemaal niet. Saskia: Of er wordt op de website van een bedrijf aangegeven in een opt-out bericht zoals dat heet. Saskia: Deze data mag niet gebruikt worden voor het trainen van AI-modellen. Saskia: Daar zijn we heel goed op gaan letten om ervoor te zorgen dat er dus niet per ongeluk data in zit die niet gebruikt had mogen worden. Niels: Het is heel secuur daarop ingaan, was dat lastig? Saskia: Dat was lastig. Saskia: We dachten in het begin best wel optimistisch nou, we hebben een paar maanden nodig en dan hebben we dat wel in kan in kruiken. Saskia: Uiteindelijk zijn we daar echt wel een lange tijd mee bezig geweest. Saskia: Het heeft ongeveer anderhalf jaar geduurd voordat we de volledige dataset verzameld hadden waarmee we zijn gaan trainen. Saskia: Het had meerdere redenen. Saskia: Er zijn meerdere wetten die van toepassing zijn, dus je moet heel goed uitzoeken. Saskia: Hoe zit dat dan precies, wat wel, wat niet, welke keuzes maak je. Saskia: Toestemmingvragen kosten ook tijd. Saskia: En vooral ook omdat we met heel veel data-eigenaren om tafel zijn gaan zitten en gekeken, kunnen we met elkaar een gemeenschappelijke afspraak maken, gemeenschappelijke licentieovereenkomst, die voor iedereen hetzelfde is. Saskia: En dat kost even wat praten met elkaar, polderen. Saskia: Maar dat heeft er wel voor gezorgd dat we nu gewoon één afspraakstelsel hebben waar iedereen in mee kan stappen. Saskia: En dat is ook wel heel prettig, want dat maakt ook dat je niet het gevoel hebt dat bij de ene veel betere deal is gesloten of dat er ander voorrang heeft gekregen. 75 Saskia: Nee, het is gewoon voor iedereen hetzelfde. 76 Joop: En stel je stellen de bedrijven of organisaties die data ter beschikking, of krijgen ze er ook nog iets voor terug. 77 Saskia: Dat ligt aan het type data. 78 Saskia: Dat even uitleggen. 79 Saskia: Bijvoorbeeld de Rijksoverheid. 80 Saskia: We hebben heel veel teksten die gemaakt worden door gemeentes, de ministeries, noem maar op. 81 Saskia: En dat zijn heel vaak teksten die publiek beschikbaar zouden mogen zijn. 82 Saskia: Die data, die teksten, denk bijvoorbeeld aan verslagen van raadsvergaderingen. 83 Saskia: Dat soort data zit er allemaal in en die data mag gewoon gebruikt worden zonder dat daarvoor betaald moet worden. 84 Saskia: Daarnaast heb je ook data van bedrijven, bijvoorbeeld mediabedrijven. 85 Saskia: Dat is data die heel veel geld waard is. 86 Saskia: Er zou je data zou je kunnen kopen. 87 Saskia: Dat kost heel veel geld. 88 Saskia: Dat geld hebben wij niet. 89 Saskia: Dus honderden miljoenen euro's waard. 90 Saskia: Dus we hebben met die bedrijven en ook met andere bedrijven de afspraak gemaakt. 91 Saskia: In plaats van dat wij de data kopen, hebben we een kickback constructie. 92 Saskia: Dus voor ieder stukje geld dat wij verdienen met de verkoop van de commerciële licentie vloeit een gedeelte weer terug naar de rechthebbende. 93 Joop: En je zegt van voor commerciële licentie zijn er ook andere licenties dan. 94 Saskia: Ja, we hebben dus een professioneel en commerciële licentie voor bedrijven en professioneel gebruik. 95 Saskia: En we hebben ook een academische licentie, een onderzoekslicentie. 96 Saskia: Dus we zorgen ervoor dat onderzoekers in ieder geval gratis gebruik kunnen maken van het model voor onderzoeksdoeleinden. 97 Saskia: Dat vinden we heel belangrijk. 98 Niels: De data die erin gaat, waren daar nog bepaalde eisen aan. 99 Niels: Kwaliteit. 100 Niels: Hoe heb je erop gelet? 101 Niels: Want ja, dat is van invloed op het eind eindresultaat. 102 Saskia: Ja, absoluut. 103 Saskia: In de ideale wereld heb je een dataset die precies een weerspiegeling is van alles wat er in Nederland gebeurt en alle thema's en alle type taalgebruik. 104 Saskia: Daar hebben we wel een beeld bij van hoe dat eruit zou moeten zien, maar dat ga je nooit voor elkaar krijgen, dat is heel moeilijk. 105 Saskia: Maar daar hebben we geprobeerd om op te letten. 106 Saskia: Het tweede waar we op hebben gelet, is of er geen data in zit van slechte kwaliteit, als in bijvoorbeeld als jij een internetforum leegtrekt, bijvoorbeeld 4chan. 107 Saskia: Daar staan niet altijd de leukste gezelligste berichten tussen. 108 Saskia: En hebben we er ook heel goed op gelet dat we dat soort dingen zoveel mogelijk vermijden. 109 Saskia: Dus aan de ene kant let je heel erg op de kwaliteit van de tekst. 110 Saskia: Is het geschreven door professionele schrijvers. 111 Saskia: Aan andere kant wil je er ook wel wat gewoon taalgebruik tussen hebben zitten, maar wel voorkomen dat daar heel veel misinformatie in staat of heel veel haatdragende berichten. 112 Niels: Klinkt dus aan groot werk. 113 Saskia: Ja, dat was heel veel werk. 114 Saskia: Zeker. 115 Saskia: Maar het fijne is wel, dat is aan de voorkant heel veel werk. 116 Saskia: Dus je moet heel goed nadenken over welke keuzes maak je, hoe ga je dat inregelen. 117 Saskia: Dat moet je vervolgens deels automatiseren, dat kun je niet allemaal met de hand. 118 Saskia: Maar wat we nu dus wel hebben, is een set van protocollen en manieren van werken en heel veel code. 119 Saskia: Die we gewoon weer kunnen hergebruiken. 120 Saskia: Dus je kan dit heel goed gaan opschalen en verder uitbouwen. 121 Joop: En zitten alleen maar Nederlandstalige teksten erin? 122 Saskia: Nee, er zit voornamelijk heel veel Engels in. 123 Saskia: Ja, dat was toch noodzakelijk. 124 Saskia: Kijk, als je naar de grote taalmodellen kijkt over de hele wereld, dan is vaak Nederlands wat daarin zit een vrij beperkt gedeelte van de hele set. 125 Saskia: Bij ons is dat is dat gedeelte Nederlands een stuk groter. 126 Saskia: Maar uiteindelijk heb je gewoon heel veel data nodig om ervoor te zorgen dat je model iets kan. 127 Saskia: Dus we hebben ook heel veel Engelse data nodig gehad om ervoor te zorgen dat die toch goed in het Nederlands is. 128 Joop: Om eigenlijk taalconstructies te begrijpen, heb je ook andere talen nodig. 129 Saskia: Dat is heel grappig. 130 Saskia: We dachten vrij aan het begin dat het nodig was om dezelfde soort talen in zo'n taalmodel te hebben. 131 Saskia: Dus het Nederlands wordt een beetje beter als je er Deens bij stopt, die talen lijken op elkaar. 132 Saskia: Maar het lijkt er inmiddels op dat die ieder soort taal enorm bijdraagt aan de kwaliteit. 133 Saskia: Dus dat zal in de toekomst zullen we ook meerdere talen gaan toevoegen. 134 Joop: En hoe meet je dan de kwaliteit? 135 Saskia: Er zijn ook heel veel manieren voor. 136 Saskia: Je hebt een aantal standaardtests die je aan zo'n taalmodel kunt voorspiegelen. 137 Saskia: De benchmarks noemen we ze ook wel. 138 Saskia: Je kan hem bijvoorbeeld een wiskunde examen geven en dan kijken, hoe vaak geeft hij goed antwoord kun je hem een cijfer geven en dan weet je hoe goed die is in wiskunde. 139 Saskia: Dat is een beetje een flauw voorbeeld, maar zo heb je heel veel van dat soort standaard testen. 140 Saskia: Die voeren we uit, maar tegelijkertijd, omdat het een standaard test is, zegt dat nog niet zo heel erg veel over hoe het nou in de praktijk werkt. 141 Saskia: Want ik kan wel een wiskunde examen doen, maar dat gaat jou niks vertellen over hoe goed ik mijn rol bij GPT-NL kan uitvoeren. 142 Saskia: Daarvoor moet je het echt in de praktijk uitproberen. 143 Saskia: En dat zijn we nu volop aan het doen. 144 Saskia: Dan zijn we nu volop aan het doen met een aantal partners en we haalbaarheidsstudies aan het uitvoeren. 145 Saskia: En vaak weten de partners heel goed waarvoor ze het model willen gebruiken en wanneer het goed genoeg is. 146 Saskia: Dus we hebben heel vaak standaard evalueren of aangepaste evaluaties gemaakt. 147 Joop: En kan je wat delen, ik weet niet of je dat mag, van waar het dan nu voor gebruikt wordt. 148 Saskia: Zeker, ja, we hebben uiteindelijk een stukje geld gekregen van het ministerie van Economische Zaken. 149 Saskia: 13 en een half miljoen. 150 Saskia: Met opdracht, ga daarmee een taalmodel maken. 151 Saskia: Dat was best wel een kluifje. 152 Saskia: Het is vrij weinig geld als je het vergelijkt met het. 153 Joop: Ik moet zeggen, toen ik dat voor het eerst hoorde, dan dacht ik echt, jullie zijn kansloos. 154 Saskia: Ja, dat dachten meer mensen. 155 Saskia: Laten we toch maar kijken wat er wel kan. 156 Joop: Top dat je dat gedaan hebt. 157 Saskia: Toch we een beetje optimistisch voor gaan. 158 Saskia: En ergens heeft dat ook wel is dat een voordeel geweest. 159 Saskia: Want dat betekent dat je heel kritisch gaat kijken. 160 Saskia: Is zozeer naar wat kunnen we, wat vinden we leuk, maar meer wat is er nou noodzakelijk. 161 Saskia: Dus we zijn heel veel gaan praten, we hebben berekeningen gemaakt. 162 Saskia: Je kan een beetje inschattingen maken. 163 Saskia: Als ik zoveel data heb en zoveel tijd en zoveel geld. 164 Saskia: Dan kan het model ongeveer zo goed worden. 165 Saskia: En we zijn met heel veel bedrijven en organisaties gaan praten. 166 Saskia: Stel, wij maken ons eigen soevereine model. 167 Saskia: Waar zou jij het voor inzetten als je weet dat het niet alles kan. 168 Saskia: Daar kwam het naar voren. 169 Saskia: Als we kijken naar een beetje eenvoudige toepassingen van de taalmodellen, dan gaat het om samenvatten van teksten. 170 Saskia: Dat is grappig genoeg, helemaal niet zo ingewikkeld voor een taalmodel. 171 Saskia: Daar heb je niet het nieuwste en het beste voor nodig. 172 Saskia: Zelfde geld voor versimpelen. 173 Saskia: Dat werd ook heel veel organisaties aangegeven. 174 Saskia: Het aanpassen van je teksten aan een bepaald publiek. 175 Saskia: En RAG, het retrieval augmented generation. 176 Saskia: Of jullie daarmee bekend zijn. 177 Joop: Maar voor de luisteraars is misschien handig om dat nog even extra uit te leggen. 178 Saskia: Dus dat is eigenlijk, je combineert een zoekmachine met een taalmodel. 179 Saskia: En daarmee ga je door je eigen informatie, je eigen documenten heen van je bedrijf. 180 Saskia: Voor je organisatie. 181 Saskia: En dan kun je heel veel informatie uit je eigen documenten trekken. 182 Saskia: Dus je kan vragen gaan stellen over je eigen documenten. 183 Joop: Ja, en dat zien we, dat zien wij denk ik ook in de markt van wat er heel veel gebeurt. 184 Joop: Maar dan nog even concreet, want dit zijn dan zeg maar meer een soort van use cases. 185 Joop: Kun je iets meer vertellen waar het dan nu in die haalbaarheidsstudies, waar het gebruikt wordt, hoe het gebruikt wordt. 186 Saskia: Zeker weten. 187 Saskia: Hier gaan die drie kernfunctionaliteiten samenvatten, versimpelen en dat RAG daar richten we ons met name op. 188 Saskia: Er zijn ook een paar haalbaarheidsstudies, visibility studies, waarin we bijvoorbeeld categoriseren, classificeren. 189 Saskia: Dus een sentimentanalyse. 190 Saskia: Hoe blij zijn mensen in dit bericht. 191 Saskia: We zijn ook aan het kijken of we stukjes kunnen vertalen. 192 Saskia: Het is ook grappig van het Nederlands naar het Engels of andersom. 193 Saskia: De haalbaarheidsstudies die we nu doen, zijn met name bij overheidspartijen, maar ook bij een telecomorganisatie. 194 Saskia: En bijvoorbeeld bij een overheidspartij. 195 Saskia: Samen met Binnenlandse Zaken. 196 Saskia: Samen met hen en de makers van chatbot Gem, gemeentechatbot, zijn we aan het kijken, hoe goed zou GPT-NL kunnen werken in die hele stack, in die hele chatbotomgeving voor gemeentes. 197 Joop: En die Gem draaiden dat denk ik al een tijdje of niet? 198 Joop: Want dan zouden ze kunnen dan echt dingen naast elkaar leggen en kijken of het beter, slechter of gelijk is. 199 Saskia: Ja, en dat is het mooie van deze samenwerking. 200 Saskia: Want Gem bestaat al, al meerdere jaren, dus is al een applicatie, er zijn eindgebruikers en er zit een heel team achter dat precies weet waar ze Gem voor willen gebruiken en wat de eindgebruikers, de gemeentes, verwachten. 201 Saskia: Dus dat is fantastisch. 202 Saskia: En we zijn nu samen met hen aan het kijken, kunnen we GPT-NL inzetten en waar gaat het goed en waar gaat het minder goed. 203 Saskia: En dat is ontzettend nuttig om te weten. 204 Saskia: En dat is ontzettend nuttig om te weten. 205 Joop: Oh, sorry. 206 Saskia: Ja, we zijn dat is ook wel interessant om te zien. 207 Saskia: Als je kijkt, bijvoorbeeld chatbot Gem, maar ook bij een versimpeling. 208 Saskia: We hebben ook een applicatie waarbij we versimpelde overheidsbrieven maken. 209 Saskia: Of dat doet de Binnenlandse Zaken samen met de PNA groep. 210 Saskia: Wij kijken dan weer naar kan GPT-NL daarin functioneren. 211 Saskia: En we zien dat bij Chatbot Gem dat hij het voor sommige dingen best wel goed doet, andere dingen niet zo goed. 212 Saskia: Hetzelfde geldt voor het versimpelen van brieven. 213 Saskia: We zijn echt nog aan het kijken hoe kunnen we het meeste uit het model halen. 214 Saskia: Want je moet hem best wel goed uitleggen wat je wil. 215 Saskia: Je zegt versimpelde brief, doet hij niet zo goed. 216 Saskia: En als je de standaard prompts gebruikt, die je bijvoorbeeld bij een Mistral model kan inzetten, doet hij het ook niet zo goed. 217 Saskia: Je moet hem net weer op een eigen manier prompten. 218 Saskia: Dus dat zijn we volop aan het ontdekken. 219 Saskia: Terwijl we tegelijkertijd ook het model verder fine-tunen. 220 Saskia: Dus we leren hem steeds beter hoe die zich in bepaalde situaties moet gedragen. 221 Niels: En wat komt er bij kijken? 222 Niels: Ja, ik zou meteen een andere vraag hoor als ik hem daar nog weten. 223 Niels: Wat komt er bij kijken? 224 Niels: Dat fine-tunen. 225 Niels: Hoe doen je dat? 226 Niels: Want dat vraagt nogal wat, want het houden we dan getraind, je krijgt input van veel verschillende kanten. Niels: Wat bepaal je wat je wel gaat aanpassen en wat niet. Saskia: Ja, dat is een hele goede vraag. Saskia: Ook best een ingewikkelde, om even een simpel voorbeeld te geven, stel, jij stelt een vraag aan een chatbot. Saskia: Dan kan die chatbot een heel lang en uitgebreid antwoord geven met heel veel terminologie en jargon en heel uitgebreid, en dat is misschien voor een jurist of een expert een heel fijn antwoord. Saskia: Maar als ik gewoon wil vragen, hoe moet ik een dak moet ik een vergunning aanvragen voor mijn dakkapel, dan wil ik een vrij simpel antwoord en concreet en kort. Saskia: Dus de eindgebruiker verschillende eindgebruikers hebben verschillende eisen aan de technologie. Saskia: Dus waar gaan wij dan op optimaliseren? Saskia: Als je zoveel verschillende eindgebruikers hebt. Saskia: Dat is een hele lastige idee. Saskia: Daar kunnen we heel moeilijk een standaard keuze in maken. Saskia: Dus vandaar ook dat we bij die haalbaarheidsstudies kijken, gaan we er uiteindelijk op uitkomen dat we een aantal versies van GPT-NL hebben. Saskia: De een misschien geschikt voor bepaalde eindgebruiker, de ander misschien meer geschikt voor een juridisch expert. Saskia: Of is dat iets wat uiteindelijk door de organisatie zelf nog even gedaan moet worden. Saskia: Dus we zijn nu vooral aan het kijken, welke data kunnen we hem verder fine-tunen. Saskia: Dus je hebt algemene sets die hem een beetje beter maken. Saskia: We kijken ook wat is er nodig om geschikt te maken voor de eindgebruiker. Saskia: En hoe makkelijk kunnen we dat verder tweaken. Saskia: Dus het is ook heel erg ontdekken wat welk sausje wat voor soort ingrediënten heb je nodig om er het beste uit te halen. Joop: En waar ligt dan het moment dat je stopt met fine-tunen en dat je gewoon opnieuw moet gaan trainen. Saskia: Ja, dat is ook een goede. Saskia: Kijk, uiteindelijk is de pre-training, dus ja, het voortrainen van het model, dat hebben we nu afgesloten. Saskia: Da hebben we op dit moment binnen het huidige budget ook geen geld meer om door te blijven gaan. Saskia: En er lijkt ook een beetje een grens bereikt te zijn van wat we eruit kunnen halen. Saskia: De grootste winst zit hem nu echt in dat verdere fine-tunen. Saskia: Dus dat hebben we al wel gezien. Saskia: En met fine-tunen zijn er zoveel mogelijkheden, zoveel verschillende technieken, dat ontwikkelt zich ook heel snel. Saskia: Dus daar zijn we continu allerlei experimenten aan in het uitvoeren. Niels: Ik was nog wel nieuwsgierig. Niels: Je hebt de constraint van een beperkt aantal hoeveelheid geld ten opzichte van de grote partijen, dat kan als een groot nadeel zien worden. Niels: Wat was voor jou als jou het voordeel van een kleine budget hebben? Saskia: Je moet keuzes maken. Saskia: En dat is ook fijn, want daardoor pak je focus en blijf je ook heel pragmatisch. Saskia: En ik denk dat dat ook gewoon een grote plaat heel goed is dat we ook heel pragmatisch met deze technologieën omgaan. Saskia: Groter betekent niet altijd beter. Saskia: We maken zelf wel eens de vergelijking met stel, je hebt een Ferrari. Saskia: Prachtige auto, maar daar ga je niet je boodschappen mee halen. Saskia: Dat is totale waanzin. Saskia: Dat kan ook op een fiets via. Saskia: En dat is denk ik ook een beetje de manier waarop we naar AI kunnen kijken. Saskia: Er zijn gigantisch grote modellen die heel veel energie slurpen en ook veel kosten om in productie te nemen. Saskia: Maar dat zijn niet altijd het type modellen die je nodig hebt om te bereiken wat je wil. Saskia: We zijn ook gewoon gedwongen om een beetje pragmatisch en fit voor purpose, heel gericht op de klant te gaan denken en gewoon te kijken wat kan er wel binnen deze mogelijkheden. Joop: Loop je dan niet ook tegen het verschil van verwachtingen aan, omdat de meeste mensen die kennen ChatGPT of zijn nu met Claude bezig. Joop: En dat dan de vergelijking wordt gemaakt. Saskia: De hele tijd. Saskia: En dat kan ook niet anders. Saskia: Zelfs het scheelt wel een hoop de mensen die veel met taalmodellen werken. Saskia: Die voelen vaak ook wel een beetje aan dat ze natuurlijk niet het niveau van een ChatGPT kunnen verwachten. Saskia: Maar die geven vaak zelf ook aan voor het soort use cases waar ik het model voor inzet, heb ik die performance ook helemaal niet nodig. Saskia: Het draait ook heel erg om wat voor processen richt je eromheen in. Saskia: Heel veel modellen moet je uiteindelijk toch nog een klein beetje een zetje geven in de goede richting om ze geschikt te maken voor jouw use case. Saskia: En je hebt er continu een soort van onderhoud aan. Saskia: Dus op zich scheelt dat heel erg en we zijn ook heel erg bezig om het continu uit te leggen. Saskia: Als je echt wil dat we naar een volgende performance boost gaan, dan zullen we gewoon door moeten ontwikkelen en daar moet er een stukje geld bij. Saskia: Maar op dit moment kunnen we heel veel aanpakken, heel veel van de eenvoudige use cases, die misschien wel 80% van de toepassingen van generatieve AI op dit moment dekken. Niels: En betekent het ook dat het goedkoper is om te gebruiken daarmee dan de grote modellen, omdat het kleiner en meer gefocust is. Saskia: We zijn vanuit TNO zijn we ook verplicht om geen ongeoorloofde staatssteun te geven. Saskia: Dat is ook een bepaald construct. Saskia: Betekent dat we ook niet zomaar modellen gratis op de markt mogen zetten. Saskia: Dus daar zijn we ook bepaalde regels voor. Saskia: We mogen niet de markt gaan verstoren. Saskia: Dus daar moeten we rekening mee houden. Saskia: Telijkertijd zijn we ook aan het kijken naar wat kunnen we wel, wat is er mogelijk. Saskia: En dan kom je er ook heel gauw achter dat dit soort modellen in de lucht houden en aanbieden aan eindgebruikers. Joop: Ja, dat kost geld. Saskia: Dat kun je niet gratis doen. Saskia: En dan ga je ook kijken naar het verdienmodel van de grote jongens over de plas. Saskia: En dan zie je dat heel veel gebruik voor gefinancierd is. Saskia: En dat heel veel modellen tegen best wel een lage prijs op de markt worden gezet, maar heel vaak is de kostprijs een stuk hoger. Saskia: Dus het is ook een beetje de vraag van ja, hoe gaan we daar op goede manier mee om? Saskia: Dus we proberen om de kosten zo laag mogelijk te houden, maar we moeten daar ook eerlijk over zijn. Saskia: Ja, het is niet gratis. Saskia: Ook als je een model ergens wil aanbieden als een API. Saskia: Het kost ook gewoon rekenkracht om de boel draaiende te houden. Joop: Zelfs bij de grote jongens zie je al verschil. Joop: Dat er of functionaliteit weg wordt gehaald in goedkopere abonnementen. Joop: Dus moet je duurder abonnement nemen. Joop: Of dat er meer token-based afgerekend gaat worden. Joop: Ik denk dat als we hier over een jaar zitten, dat die abonnementsvormen die zij nu aanbieden er ook heel anders uitzien. Saskia: Dat zou heel goed kunnen. Saskia: Ja, en dat is altijd een afweging die je moet maken. Saskia: En voor ons belangrijkste is dat we wel overeind blijven. Saskia: We moeten er gewoon voor zorgen dat we een gezond businessmodel hebben, waardoor we ook door kunnen blijven gaan en niet continu afhankelijk blijven van subsidiestromen. Saskia: Want dit is technologie die uiteindelijk waarde moet gaan toevoegen, die processen beter moet maken of leuker of in ieder geval efficiënter. Saskia: Dus dat zou onder de streep geld moeten opleveren. Joop: En is TNO nou degene die het dan exploiteert? Saskia: Op dit moment bieden wij dat model inderdaad aan. Saskia: En dan kijken we inderdaad naar de toekomst toe hoe we dat verder gaan continueren. Saskia: Wat we heel erg belangrijk vinden vanuit TNO, is dat nu we geld hebben gestopt en hebben gebouwd aan een soeverein taalmodel voor Nederland, voor Europa. Saskia: Dat het ook echt in Europese handen blijft. Saskia: En dat is wel een gevaar wat we zien bij heel veel AI bedrijven door heel Europa heen. Saskia: Op het moment dat ze een beetje succesvol worden, worden ze heel vaak overgekocht door Amerikaanse bedrijven, Chinese bedrijven. Saskia: Dat is echt iets wat wij willen voorkomen. Saskia: We willen echt 100% kunnen borgen dat dat niet gaat gebeuren, wie er ook aan het roer staat of wat voor ideeën er ook zijn. Joop: Wat dat is dan al wel gebeurd. Joop: Want ik weet wel, er is het de Zwitser die ook hun eigen model hadden gemaakt. Joop: Zijn die dan nog zelfstandig? Saskia: Ja, ik weet dat het Alpaca-model is een open source model. Saskia: Volgens mij ook nog gewoon in Zwitserse handen. Saskia: Een voorbeeld wat we vaker hebben bekeken, is een bedrijf in Finland, Silo AI, ontzettend mooi bedrijf, ook hele goede krachtige modellen, bieden veel services aan, die zijn toen overgekocht door AMD. Saskia: En dat vinden we dan jammer. Saskia: Denken van ja, we zien dat soort voorbeelden veel. Saskia: Het is heel erg zonde als we met name ook omdat er belastinggeld in is gegaan in het ontwikkelen hiervan. Saskia: En wil je eigenlijk voorkomen dat je daar met z'n allen aan hebt meebetaald en vervolgens dat je dat soort initiatieven kwijtraakt. Joop: Is het dan ook de bedoeling dat het zo direct in Nederland blijft draaien? Joop: Dus dat het ook hier in een soevereine cloud komt. Saskia: Ja, we willen er sowieso voor zorgen dat het draait in een Europese cloud. Saskia: Dus het hoeft niet per se een Nederlands bedrijf te zijn, het kan ook een Europees bedrijf. Saskia: Maar er zijn best wel wat partijen in Nederland actief die dit soort services aan kunnen bieden. Saskia: Dus we zijn nu ook volop aan het kijken met wie kunnen we samenwerken hoe gaan we dat aanvliegen. Saskia: Dus we willen wel het gebruik van GPT-NL zo makkelijk mogelijk maken voor iedereen. Joop: En als het aan de overheid ter beschikking wordt gesteld. Joop: Hoe betalen zij er dan voor? Saskia: Nou, ook zij moeten gewoon een commerciële licentie afnemen. Saskia: Dus commercieel gebruik van het model ter bevordering van een bedrijfsvoering. Saskia: Dat geldt voor hen net zo goed. Saskia: Wat wel interessant is, is dat de Rijksoverheid ook veel bezig is met eigen soevereine cloudoplossingen rijkscloudoplossingen. Saskia: Er zijn er al meerdere partijen. Saskia: Ook van de overheid zelf, die een middleware oplossing hebben, een hostingplatform hebben Vlam is een belangrijke partner daar. Saskia: En via hen kunnen we het model straks ook gaan aanbieden aan een grotere groep ambtenaren. Saskia: Dus we zijn nu in op kleine schaal aan het experimenteren samen met Vlam. Saskia: Dus zij bieden het model nog niet gelijk aan aan al hun gebruikers. Saskia: Dat doen we echt in fase. Saskia: Maar dat is bijvoorbeeld een platform waarop GPT-NL straks kan gaan draaien. Niels: En bij dat testen, dan gaan jullie kijken waar werkt het goed voor. Niels: En daar leren jullie van, gaan jullie bijtrainen. Niels: Hoe delen jullie dat met de eindgebruikers, zodat die ook weten van dit werkt goed, hier moeten we niet voor gebruiken, hoe doen jullie dat? Saskia: We zijn nu dus in die haalbaarheidsstudies bezig om al deze inzichten te verzamelen, te bundelen en proberen ook zoveel mogelijk voor iedereen ter beschikking te stellen. Saskia: We bouwen we heel veel kennis daarover op. Saskia: Dus dat kunnen we dan ook vervolgens weer doorgeven op het moment dat we bij een nieuwe klant aan de slag gaan. Saskia: Maar uiteindelijk zou je daar wel een soort certificeringstraject voor willen hebben, waarbij je gewoon de kennis bundelt en in een soort vast lespakket aanbiedt. Joop: Is er een onderdeel? Joop: Wat voor jullie verrassend is, dat het misschien zelfs wel beter werkt dan bij de concurrenten laten we het zo noemen. Saskia: Nou ja, het is al fijn dat we, we zijn de enige die een privacy prijs hebben gewonnen. Joop: De AI award bij Jim Stoltze hebben jullie gewonnen. Saskia: Ja, dat was echt fantastisch. Saskia: Dat was wel een mooie erkenning. Saskia: We hebben namelijk de privacy awards gewonnen. Saskia: Het feit ook dat we volledig transparant kunnen zijn over welke data erin zit. Saskia: We hebben onze code ook open source beschikbaar gesteld, dus iedereen kan dat ook bekijken. Saskia: Dat is fantastisch. Saskia: En wat ik zelf nog steeds geweldig vind, is dat we met dit budget er in zijn geslaagt om een werkende LLM te maken, die daadwerkelijk ook op een bepaald niveau komt met die taken. Saskia: We hebben wel gezegd, hij moet minimaal op het niveau van de ChatGPT 3.5, dus zeg maar die eerste versies van ChatGPT. Saskia: En dat niveau moeten we wel minimaal kunnen halen op die kerntaken. Saskia: En daar zitten we overheen. Saskia: Dus dat vinden we echt geweldig. Joop: Ja, dat is heel knap wat jullie gedaan hebben. Niels: Wat hebben jullie in dat traject om daar te komen geleerd? Niels: Dat je graag van tevoren had willen weten. Saskia: Er zijn heel veel lessen. Niels: Of er niet eens te zijn, dan mogelijk over praten. Saskia: Uiteindelijk een beetje geduld hebben, maar ook wel een beetje doorduwen, maar dat hebben we eigenlijk overal wel gedaan. Saskia: Ik denk dat ik vooral heel trots ben op hoe we toch continu, ondanks dat niet alles makkelijk was, wel door zijn blijven gaan. Saskia: En ik ben heel heel erg verbaasd over hoe verenigd iedereen er wel achter staat. Saskia: Iedereen is wel enthousiast, denkt mee, de hele gemeenschap. Saskia: En dan hebben we het niet alleen over de data leveranciers, maar juist ook over de eindgebruikers en allerlei stakeholders in het veld zo bereid zijn om mee te denken en hier de schouders onder te zetten. Saskia: Dat is gewoon heel mooi. Saskia: Het is wel heel lastig om te kijken. Saskia: We hebben nu laten zien wat we kunnen met dit stukje geld. Saskia: Dit smaakt naar meer, nu willen we opschalen. Saskia: En die stap die is ongelooflijk lastig. Saskia: Er is niet zomaar geld beschikbaar. Saskia: Je krijgt niet automatisch van de Rijksoverheid weer een check. Saskia: Dus daar zitten we best wel zitten we nu in een spannende fase. Joop: En als dat niet komt, dat geld, wat dan. Saskia: Dan hebben we nu deze productlijn van GPT-NL. Saskia: Die gaan we zo goed mogelijk maken. Saskia: Maar dat betekent wel dat je functionaliteiten beperkt zijn. Saskia: Er zijn gewoon de functionaliteiten die we nu kunnen aanbieden, en er zal dan niet heel veel meer bij kunnen komen. Saskia: Dus we kunnen niet ineens allemaal agente tool use gaan aanbieden op basis van dit model. Saskia: We kunnen het model niet ineens in het Frans of in het Turks laten praten. Saskia: En dan stopt de ontwikkeling een beetje. Saskia: En dan blijft het model relevant voor komende jaar, twee jaar, misschien zelfs wel drie jaar. Saskia: Dat is moeilijk om in de toekomst te kijken. Saskia: Maar uiteindelijk gaat de wereld om je heen verandert. Saskia: En je wil heel graag wel enigszins kunnen meegaan met die verandering. Joop: Het zou ook heel pijnlijk zijn voor de ambitie van Nederland. Saskia: Absoluut, het is ontzettend zonde. Saskia: Vooral ook als je ziet wat je met beperkte middelen toch ontzettend ver kan komen, dan weet je gewoon dat er heel veel potentie zit in een volgende stap en in verdere opschaling. Niels: En twee vragen, ik begin op mijn eerste. Niels: Eerste vraag die bij mij opppopte, was het stukje van stel, je hebt wel het budget en dat was twee keer zo groot. Niels: Wat zou dan het eerste zijn wat je zou willen laten bouwen? Saskia: Een huidge budget keer twee. Saskia: Ja, we hebben wel gezegd, we hebben ongeveer keer tien nodig voor de volgende fase. Saskia: Dat zijn wel echt even de bedragen waar we aan denken. Saskia: Maar met een twee keer zo'n groot budget. Saskia: Nou zouden gewoon onze datastrategie voortzetten. Saskia: En dan met name denk ik gericht op misschien één of twee extra taalgebieden. Saskia: Dus dan gaan je niet gelijk heel Europa erbij nemen. Saskia: Ik denk dat we dan vooral kiezen voor het verbeteren van onze RAG-functionaliteit. Saskia: Je kan met retrieval augmented generation, kun je je R, je retrieval kun je verbeteren, of je G, je Generation. Saskia: We kunnen we die retrieval een stukje verbeteren. Saskia: Daar denken we heel erg aan. Saskia: We willen ook graag een spraakfunctionaliteit toevoegen. Saskia: Er zijn best wel wat bedrijven en initiatieven die heel goed bezig zijn met spraaktechnologie. Saskia: Dus dat verder integreren zou heel mooi zijn. Niels: En de tweede vraag een beetje in de verlengde van is. Niels: Wanneer wordt het interessant om het model groter te maken voor een nieuwe variant met dezelfde strategie gaan trainen voor andere doeleinden. Saskia: Dat is een interessante afweging. Saskia: Uiteindelijk is daar het belangrijkste wie is bereid of wie zou daarvoor willen betalen. Saskia: Dus het ligt heel erg aan de markt. Saskia: Als er uiteindelijk vooral heel veel animo is voor sectorspecifieke modellen, dan gaan we daar volop op inzetten. Saskia: Maar we denken dat we uiteindelijk op beide paarden moeten wedden. Saskia: Dus aan de ene kant zou je veel meer op sectorspecifieke toepassingen willen gaan inzoomen. Saskia: En aan de andere kant willen we ook dat fundament wat we nu hebben gebouwd verder uitbreiden, dus groter maken. Saskia: Uiteindelijk als je fundament steviger is, kun je er ook meer op voortbouwen. 429 Saskia: Dus dan gaan die sectorspecifieke toepassingen ook beter zijn, kun je ook meer functionaliteiten verder gaan fine tunen. 430 Joop: We hebben een kaartspel ontwikkeld samen met het Elisabeth II Steden ziekenhuis uit Tilburg. 431 Joop: Waar het vooral om gaat, is eigenlijk hoe gaan we als maatschappij met deze technologie om en dan heel gericht in de zorg. 432 Joop: Daar hebben we allemaal uiteindelijk mee te maken. 433 Joop: Dus we willen graag aan jou zo stelling ook voorleggen als dat mag. 434 Unknown: Je denken het zo dit spel bepalen verhalen. 435 Niels: Dit is de categorie gebruik en toepassingen. 436 Niels: En de stelling luidt als volgt. 437 Niels: AI gaat de tijdsbesparing opleveren voor de zorgverlener. 438 Saskia: Dat is wel de belofte en dat is ook de hoop. 439 Saskia: En ik denk zeker dat het kan. 440 Saskia: Ik denk dat daarbij de techniek niet de grootste hobbel is, maar de cultuur. 441 Saskia: Manier van werken. 442 Saskia: De zorg is wel een ongelooflijk lastig domein, ik weet er niet veel van, maar ik heb me wel eens laten vertellen dat daar zo'n 9000 verschillende organisaties en freelancers actief zijn. 443 Saskia: Heel veel fragmentatie, dat maakt het gewoon ontzettend lastig om daar met geïntegreerde oplossingen te komen. 444 Saskia: Dus ja, ik geloof er zeker weten in dat de zorg heel erg heel veel baat heeft bij AI. 445 Joop: Even slokje water. 446 Joop: Ja, zeker. 447 Saskia: Dankjewel. 448 Saskia: Ik denk dat de zorg echt heel veel baat kan hebben bij AI. 449 Saskia: Alleen dan kijken naar de rapportageverplichtingen. 450 Saskia: Zoiets simpels als het samenvatten van informatie, als je dat op een goede manier kan doen, kun je zelf veel informatie ontsluiten. 451 Saskia: Maar het is ontzettend belangrijk dat die informatie compleet en correct en juist is. 452 Saskia: En daar zit natuurlijk wel de twijfel. 453 Joop: Gebeurt soms gebeurt ons ook geen probleem. 454 Joop: Ik ben wel benieuwd. 455 Joop: Je gaf daar straks aan van jullie hebben natuurlijk de privacy heel goed op orde. 456 Joop: Zou het ook niet een hele mooie combinatie zijn, juist GPT-NL en de zorg. 457 Joop: Omdat daar natuurlijk heel vaak een drempel ligt van ja, maar waar sturen we het dan naartoe. 458 Joop: Het lijkt wel een beetje een match made in haven. 459 Saskia: Absoluut. 460 Saskia: We denken ook zeker dat de zorg een heel mooi toepassingsdomein kan zijn van dit soort soevereine en betrouwbare Europese modellen tegelijkertijd zijn we ook realistisch. 461 Saskia: De zorg is ook een heel moeilijk domein om nieuwe innovaties in weg te zetten. 462 Saskia: Dus het is ook niet het eerste veld waarbinnen we GPT-NL gaan aanbieden of waar we aan het experimenteren zijn. 463 Saskia: Experimenteren kun je heel goed doen, zou ook binnen de zorg kunnen. 464 Saskia: Maar we vinden het ook best wel een tricky veld. 465 Saskia: Het is zo ontzettend belangrijk dat je daar met betrouwbare informatie werkt en als je modellen te vertrouwen zijn. 466 Saskia: En kwaliteit en performance, die zijn gewoon echt kun je niet omheen. 467 Saskia: Dus we vinden het wel heel belangrijk dat we goed weten wat GPT-NL wel en niet kan. 468 Saskia: Zeker in dit soort kritische gebieden. 469 Saskia: We merken ook dat de zorg wat terughoudend is. 470 Saskia: Dus we hebben wel wat haalbaarheidsstudies bij de publieke overheid en inderdaad ook kleine aantal commerciële clubs, maar nog niet in de zorg. 471 Joop: Snap ik. 472 Joop: Wanneer zouden we hadden over het geld en het exploiteren van het model. 473 Joop: Wanneer zou het moment zijn dat je het breder beschikbaar zou stellen dat mensen het ook kunnen gaan afnemen? 474 Saskia: Ja, we zullen het altijd voor zakelijk eindgebruik inzetten. 475 Saskia: We hebben op dit moment alleen bij de haalbaarheidsstudies beta versies van het model draaien op de infrastructuur van de klanten zelf. 476 Niels: Ik ga het hele flesje water. 477 Saskia: Het is de bedoeling dat we aan het einde van dit jaar een gehoste versie van het model gaan aanbieden, dan is het veel makkelijker te gebruiken voor allerlei organisaties, dus ook organisaties die niet het model zelf kunnen hosten. 478 Niels: En je zegt zakelijk, omdat het niet bedoeld is om bij de burgers te brengen vanwege concurrentievoordeel en dat soort zaken. 479 Saskia: Dat is niet zozeer de reden, maar we hebben het vooral geschikt gemaakt voor zakelijk gebruik. 480 Saskia: Je zou het als privépersoon gewoon in je eigen vrije tijd prima kunnen gebruiken, maar dan moet je wel een commerciële licentie afnemen, dat is waarschijnlijk voor heel veel van ons helemaal niet interessant als je het voor je appeltaartrecepten, je bent van harte welkom om dan een licentie af te nemen bij GPT-NL, maar ik denk dat dat niet zo interessant is voor de consumentenmarkt, en het is ook gewoon niet geschikt gemaakt voor allerlei toepassingen waar consumenten veel AI voor gebruiken. 481 Joop: Wat zijn nou de reacties die je over het algemeen krijgt op het initiatief wat jullie aan het ontplooien zijn. 482 Joop: Voor Trump, jullie zijn gek, na Trump fijn. 483 Joop: Een van de weinige mensen die blij zijn dat daar gebeurt, we noemen ze ook wel eens onze beste marketeers. 484 Saskia: Dat is natuurlijk wel zo. 485 Saskia: Je merkt dat de publieke opinie enorm omgeslagen is, we merkte eigenlijk al toen Deepseek uitkwam, dat dat ook al wel het een en ander heeft veranderd in de algemene blik op GPT-NL. 486 Joop: Dat was een Chinees model die in één keer als veel goedkoper, zoals zij dat ontwikkeld hadden in één keer naar boven kwam. 487 Saskia: Precies, eerst was het beeld ook een beetje met dat geld, jullie zijn gek, waarom zou je het überhaupt proberen? 488 Saskia: Toen kwam Deepseek dat model leek erop dat het met veel minder geld gebouwd is. 489 Saskia: Oh ja, het kan dus wel. 490 Saskia: En toen kwam Trump en toen werd het hele discussie rondom digitale soevereiniteit ineens super belangrijk. Saskia: En we moeten onze eigen Europese producten maken in eigen beheer hebben. Saskia: Al die discussies samen hebben ervoor gezorgd dat we nu heel veel fans hebben, dat mensen heel enthousiast reageren op het initiatief, het ook een warm hart toedragen. Saskia: Maar vanaf het begin af aan merkten we al wel dat we heel veel steun hadden bij allerlei partijen, maar nu merken we dat die steun breder en breder wordt. Niels: Stel, we zijn drie jaar verder, waar hoop je dan dat we staan. Saskia: Dan hebben we een model dat niet alleen maar geschikt is voor Nederlandse use cases, maar gewoon in heel Europa ingezet kan worden geschikt dus bij meerdere talen, maar ook veel meer functionaliteiten heeft, dan niet alleen maar beter is in RAG, maar ook met spraak kan omgaan, misschien ook met andere modaliteiten. Saskia: Ik denk aan de zorg, stel ik misschien goed met sensordata omgaan. Saskia: Over drie jaar weet ik ook gewoon dat het een model is dat je niet alleen maar gebruikt uit een soort idealisme. Saskia: Omdat het ook daadwerkelijk goed genoeg is voor de eindgebruiker. Saskia: Want uiteindelijk is idealisme heel fijn. Saskia: En het is heel mooi dat je een soeverein model hebt, maar als het gewoon niet goed genoeg werkt, dan is het ook heel erg zonde. Saskia: Dus we willen er echt voor zorgen dat het model fit for purpose is dat het breed gebruikt kan worden voor de use cases waar echt waarde toevoegt ik kan me zo voorstellen, we begonnen helemaal in het begin dat je taalwetenschapper gestudeerd hebt. Joop: Dat een traject als dit van de afgelopen jaren ook iets met jezelf heeft gedaan. Joop: Dat is wel grappig aan de ene kant wel aan de andere kant ben ik gewoon nog steeds Saskia. Saskia: Ja, het is heel grappig, want we hebben zo'n geluk met het tijdstip waarop we dit zijn begonnen. Saskia: We hebben nu zoveel positieve energie mee. Saskia: Ik had een paar jaar geleden nooit gedacht dat ik een podcast zou opnemen dat ik zoveel op een podium zou mogen staan. Saskia: Dus je leert heel veel. Saskia: Ik vind het ook heel fijn dat we met zo'n groot team eraan werken. Saskia: Dus je ontwikkelt je inderdaad als mensen ook enorm. Saskia: Kijk ook al wel een beetje op een andere manier naar technologie en de verantwoordelijkheid die je daar ook wel in kan pakken. Niels: Wat is daar veranderd? Saskia: In plaats van een beetje passief zitten met ja, zo is het nou eenmaal en een beetje klagen steeds meer geleerd dat je ja inderdaad kom op. Saskia: Dat kan niet meer al complex, wat we hebben met z'n allen dat moeten we een beetje loslaten. Saskia: En het is heel makkelijk om een beetje te klagen over hoe dingen niet ideaal zijn, maar daar kom je niet zoveel mee verder. Saskia: En ik vind dat dat wel heel mooie lessens die we nu hebben geleerd. Saskia: Oké, je mag best wel een keer diep zuchten. Saskia: Maar ga dan kijken wat je wel kan doen en kijk wat er binnen je mogelijkheden ligt. Saskia: En dat is vaak toch een stuk meer dan je denkt. Joop: Mooi sluiting. Niels: Ik was ook afsluiten. Niels: Ik was een groot team. Niels: Hoe groot moet ik denken? Niels: Want ja, het is nogal wat een eigen LLM gaan bouwen. Niels: Wat voor discipline zijn hoe groot was het team? Saskia: In het begin hadden we pak een beetje zo'n twintig mensen die erbij betrokken zijn. Saskia: En dan zijn dat niet alleen maar de engineers en de data scientist, maar dat zijn ook mensen die specialist heel veel weten van marketing en communicatie. Saskia: We hebben natuurlijk heel veel juristen aan boord. Saskia: Ethici taalwetenschappers zoals ik. Saskia: En dan gaandeweg zijn er ook wat meer mensen bijgekomen. Saskia: Er zijn nu vooral ook bij die haalbaarheidsstudies werken we ook met businessconsultants. Saskia: Die ook heel goed in staat zijn om de vraag van de klant te verbinden aan waar de engineers mee bezig zijn. Saskia: De rollen kristalliseren zich een beetje uit. Saskia: En tegelijkertijd heeft iedereen zes petten op. Saskia: Dat is ook een beetje het is nieuwe technologie. Saskia: We proberen van alles en nog wat. Saskia: Ontwikkelingen gaan ontzettend snel. Saskia: Dus we moeten meerdere dingen een beetje kunnen. Saskia: En we hebben het geluk dat we heel veel experts om ons heen hebben. Niels: Ja, en heel veel kennis die we dus ook opdoen binnen Europa binnen Nederland. Niels: Over hoe zouden we dit volgende keer weer anders doen, nog beter kunnen doen. Niels: Hoe kunnen mensen die kennis ook tot zich nemen, die niet wel onderdeel van het traject waren, maar wel meer over zou willen weten. Saskia: We hebben nu op onze website hebben we wat toegankelijke blogs staan en interviews over het initiatief, dus GPT-NL. Saskia: Voor mensen die weinig werken met AI is het heel toegankelijk en hopelijk ook leuk om een beetje te lezen. Saskia: We hebben ook een Hugging Face pagina waarop we onze datasets hebben gepubliceerd. Saskia: Dus alle publieke data die we hebben verzameld, die is daar te downloaden. Saskia: En alle private datasets, die zijn daar uitgebreid beschreven. Saskia: Dus je kan daar precies vinden wat we hebben gebruikt. Saskia: En dan zijn mensen vrij om zelf bij die partijen aan te kloppen als ze die data ook willen. Saskia: En daar hebben we ook artikelen over gepubliceerd hoe we dat hebben gedaan. Saskia: Dus dat kun je dan ook bekijken. Saskia: En we hebben een GitHub pagina waarin al onze code te vinden is. Saskia: We hebben ook uitgebreid gedocumenteerd. Saskia: Dus daar kun je ook die code zelf bekijken. Saskia: Je kan de documentatie lezen. Joop: Wat was daar de overweging van om die dan zo open beschikbaar te stellen? Saskia: Dat we wel belangrijk vinden dat we ook iets bijdragen aan de community. Saskia: Vanwege de afspraken met de dataleveranciers, kun je niet zomaar alles opengooien. Saskia: We vinden het heel belangrijk dat er wel een data-ecosysteem ontstaat, waarbij de makers ook een stukje mee kunnen profiteren van hopelijk alle inkomsten die we gaan maken met elkaar. Saskia: Er moet gewoon een gezonde ecosysteem zijn waar iedereen baat bij heeft. Saskia: En die code. Saskia: Ja, met zulke beperkte budgetten, ga je niet ga je niet allemaal nieuwe gekke dingen doen, dan ga je gewoon pakken wat werkt. Saskia: Dus wat dat betreft hebben we niet een heel extreem nieuwe manier van model trainen gebruikt. Saskia: We hebben daar gewoon gepakt wat heel veel andere mensen ook gebruiken, waarvan we weten wat werkt, met hier en daar wat kleine specifieke aanpassingen. Saskia: Dus dat is voor iedereen om te bekijken en zelf te herhalen. Saskia: Als je dit model op dezelfde manier zou willen trainen, dan heb je miljoenen euro's nodig om alleen al de rekenkracht te kunnen betalen. Saskia: Dus dat zal niet zo snel gekopieerd kunnen worden. Saskia: En zeker de data is uiteindelijk een van de allerbelangrijkste ingrediënten. Saskia: Die kun je niet zomaar wegtrekken. Niels: Ik was zo nieuwsgierig, je was hier onderweg vanuit Den Haag, inderdaad. Niels: Wat was een vraag die je wel had verwacht die we niet gesteld hebben? Saskia: Ja, ik krijg zoveel vragen dat ik over het algemeen wel een klein beetje voorbereid ben over wat er allemaal langs kan komen. Saskia: Ik denk deze vraag. Niels: Dan is die makkelijk. Joop: Super bedankt dat je ons wilde laten weten, wat er allemaal speelt rondom GPT-NL. Joop: Ik verwacht dat er ook nog een hoop gaat gebeuren, dus dat de storm nog een tijdje voor je blijven bestaan, de storm mag niet gaan liggen, wat dat betreft. Joop: Zou er iets zijn, zeg maar wat luisteraars kunnen doen om nog iets aan bij te dragen, wat Niels en ik zouden kunnen doen om bij te dragen, doneer je data. Joop: Er zijn daar criteria aan verbonden. Saskia: We hebben wel een lijst van criteria. Saskia: Maar eigenlijk zeker nu we verder willen opschalen, wordt het steeds belangrijker dat we vooral heel veel data hebben. Saskia: En dat is niet alleen Nederlandstalige data, dat is ook data in allerlei soorten talen, dus als je datasets hebt als je data wil bijdragen. Saskia: Als je het mee wil in licentieovereenkomsten, laat het vooral weten. Saskia: Kom vooral bij ons op de lijn en dan kijken we verder hoe we dat samen inrichten. Joop: En waar vinden we die lijn? Saskia: Je kan het beste een mailtje sturen naar info@gpt-nl.nl Joop: Kijk, we zullen het opnemen in de shownotes. Saskia: En dan mogen er zeker contact worden opgenomen. Saskia: We gaan dat ook verder inrichten, verder opschalen, maar dat is eigenlijk nu het allerbelangrijkste dat we meer data verzamelen. Saskia: Dat kan ook als privépersoon. Saskia: Als je zegt, ik heb het leuke is. Saskia: Een van de eerste mensen die bij ons op de lijn kwamen, Aaron Mirck. Saskia: En hij was echt een van de eerste die op de lijn kwam, maar wat gaaf. Saskia: En bij deze doneer ik mijn data. Saskia: Hier zijn mijn boeken. Saskia: Die mogen jullie gebruiken voor het trainen van GPT-NL. Saskia: En ook op die kleine schaal zijn data van harte welkom. Saskia: Dat vinden we ontzettend tof. Saskia: Ik denk dat we er als we met z'n allen de schouders onder zetten dat we heel ver komen. Joop: Dan gaan wij ook data doneren. Joop: Kan ik jou vast beloven? Joop: Dus oproep aan de luisteraar: doneer je data. Niels: Ik had nooit gedacht dat ik dat zo uitspreken, dankjewel, Saskia, jullie bedankt. Joop: Leuk dat je weer luisterde aan deze aflevering. Joop: Wil je nou iets meer nog weten van Saskia? Joop: We gaan er namelijk nog een vraag van de maand stellen. Joop: Dit doen we gelijk aan alle gasten van deze maand. Joop: En dan hoor je wat ze geantwoord heeft. Joop: En de vraag is dit keer namelijk. Joop: Ga ik je dat alvast geven, is: stel, je bent de minister van Digitale Zaken. Joop: Wat zou je morgen veranderen? Joop: Dus als je dan de antwoord van Saskia wil weten, abonneer je even via de nieuwsbrief.