Alle afleveringen
S05E66 - GPT-NL: redding van de Nederlandse taal of utopisch idealisme?
S05E66

GPT-NL: redding van de Nederlandse taal of utopisch idealisme?

Seizoen 5 6 min Hosts: Joop Snijder & Niels Naglé
0:00

Wat leer je in deze aflevering?

Welkom bij een nieuwe aflevering van AIToday Live! Vandaag bespreken we het nieuws rondom GPT-NL, een ambitieus Nederlands taalmodel dat in ontwikkeling is. TNO, het Nederlands Forensisch Instituut en SURF hebben gezamenlijk 13,5 miljoen euro geïnvesteerd in dit project. Het doel is om een variant van een bestaand model te creëren, specifiek getraind op Nederlandse tekst, om zo meer digitale autonomie te verkrijgen. Maar er zijn ook uitdagingen, zoals het budget en ethische vraagstukken. Laten we met elkaar de toekomst van GPT-NL verkennen.

01
Ambitie voor digitale soevereiniteit GPT-NL moet Nederland minder afhankelijk maken van grote techbedrijven zoals OpenAI en Google, door een eigen Nederlandstalig AI-model te ontwikkelen dat getraind wordt op gecontroleerde Nederlandse tekst.
02
Beperkt budget als groot obstakel Met 13,5 miljoen euro is het budget relatief bescheiden vergeleken met de miljarden die nodig waren voor ChatGPT. Dit maakt het lastig om een model van vergelijkbare kwaliteit te ontwikkelen.
03
Focus op ethiek en transparantie Het project wil alleen data gebruiken waarvoor toestemming is gegeven en vooroordelen in het model voorkomen, in tegenstelling tot grote taalmodellen die op ongecontroleerde internetdata zijn getraind.
04
Technische beperkingen blijven bestaan Zelfs met gecontroleerde, feitelijke trainingsdata zal het model nog steeds fouten maken, omdat GPT-technologie fundamenteel een woordvoorspeller is die feitelijkheden kan door elkaar husselen.

Kernbegrippen

Digitale soevereiniteit
Onafhankelijkheid van grote techbedrijven door eigen controle over kritieke digitale infrastructuur en AI-systemen.
Taalmodel
AI-systeem dat tekstpatronen leert uit trainingsdata om nieuwe tekst te genereren of taal te begrijpen.
Trainingsdata
Verzameling teksten waarop een AI-model wordt getraind om patronen en kennis op te pikken.
Hallucinaties
Fenomeen waarbij AI-modellen foutieve of verzonden informatie genereren alsof het feit is.

Transcript

Hoi allemaal en welkom bij deze nieuwe aflevering van AIToday Live. Vandaag ga ik het in deze korte aflevering hebben over het nieuws rondom GPT-NL, een nieuw Nederlands taalmodel dat momenteel in ontwikkeling is. Is het de redding van de Nederlandse taal of een utopisch idealisme? Er is deze week veel te doen rondom dit onderwerp, dus ik zal uitleggen waar het over gaat, wat de ambities zijn en waarom ik pendel tussen optimisme en de nodige scepsis. Laten we beginnen. GPT-NL is een initiatief van TNO, het Nederlands Forensisch Instituut en SURF. SURF is een samenwerkingsverband van onderwijs en onderzoeksinstellingen. Samen trekken ze 13,5 miljoen euro uit voor de ontwikkeling van dit Nederlandstalig AI-model. Het uiteindelijke doel is om een variant van een KPT-model te maken, maar dan getraind helemaal op Nederlandse tekst. De bedoeling is dat dit taalmodel conversaties kan voeren, net als ChatterJPT teksten kan samenvatten en genereren. Dit idee is ontstaan vanuit een verlangen naar meer digitale soevereiniteit. Grote techbedrijven als Google, OpenAI en Meta hebben nu de macht over taalmodellen zoals ChatGPT en BARD die getraind zijn op veel talige teksten. Door een eigen Nederlandstalig model te ontwikkelen hoopt men meer autonomie te krijgen. De ambities die zich gesteld hebben met GPT-NL zijn nogal hoog. Zo wil men met het model bijdragen aan het oplossen van maatschappelijke uitdagingen, moet het model helpen bij het vergroten van digitale inclusiviteit en het vergroten van de onderwijskwaliteit. Kortom, GPT-NL moet gaan bijdragen aan een betere samenleving. Daarnaast zijn er ambities op het gebied van transparantie en ethiek. Dat ondersteun ik heel erg. GPT-NL zou alleen getraind moeten worden op data waarvoor toestemming is van de maker. Ook wil men voorkomen dat het model vooroordelen reproduceert. Dit in tegenstelling tot de grote taalmodellen die vaak op internetdata getraind zijn zonder controle op herkomst. Er klinkt ook kritiek rondom het GPT-NL. Ten eerste is 13,5 miljoen euro niet veel geld voor het trainen van een groot taalmodel. Dat is ChatGPT bijvoorbeeld. Als die getraind moet worden, kost 1 cycle al miljoenen. En we weten dat het honderden miljoenen, zo niet miljarden, heeft gekost om te komen waar ze nu staan. Met relatief weinig geld is het lastig om een model van gelijkbaar kwaliteit te maken. Zelf vind ik dat de focus op alleen Nederlandse tekst nogal nauw is. Het onderzoek blijkt dat meertalige modellen technisch gezien beter generaliseren, omdat dan de onderliggende taalstructuur beter geleerd wordt. Maar wellicht door een Europees initiatief ervan te maken, kunnen ze deze horden wel nemen. En die Nederlandse data, daar is dan ook wel de vraag van waar moet die dan vandaan komen? Is dat dan alleen uit gratis bronnen? Want door de hebberige dataverzameling van Big Tech zullen mediabedrijven en andere contentmakers nu niet staan te springen voor het afstaan van data. Laat staan gratis toch? Dus met een budget van 13 miljoen, is dat best wel een uitdaging wat mij betreft. En ook nog over de wetgeving. De EU-act die er aankomt en andere beleidskaders stellen strenge eisen aan AI-producten. Het is nog maar de vraag of en hoe dat Nederlands model hieraan zal voldoen. Zelfs met betrouwbare data kan een model nog steeds fouten maken. Dus als de overheid, ze willen dit ook richten op de overheid, dit model gaat gebruiken, moet er wel kritisch gekeken worden naar de uitkomsten. En het is ook een illusie om te denken dat als je hier alleen maar gecontroleerde feitelijke data in stopt, dat het model ook alleen maar feitelijk correcte informatie teruggeeft. De GPT-technologie is echt een woord voor woord voor woordvoorspeller en zal ook die feitelijkheden door elkaar husselen. Waardoor je zinnen krijgt die er niet kloppen. Maar laten we de positieve kant niet vergeten. De ambities van dit project zijn wat mij betreft bewonderenswaardig. Het draait allemaal om het beschermen van onze waarden, het aantrekken en behouden van AI-talent. En dat is natuurlijk ook heel belangrijk. Dus ik ben van mening dat dit initiatief het voordeel van de twijfel verdient, maar laten we niet naïef zijn. De uitdagingen zijn immens en de ambities zijn hoog. Dit is precies waarom onderzoek zo belangrijk is. We onderzoeken omdat we antwoord willen vinden op vragen die we nog niet kunnen beantwoorden. Dus ik kijk uit naar de resultaten van TNO, SURF en het NFI aan het eind van 2024. En ik hoop vurig dat de wetenschappelijke inzichten die zij opdoen vrij gedeeld zullen worden met de wereld. Dit was mijn blik op de toekomst van het Nederlands AI-taalmodel. Ik denk een pad bezaaid met zowel kansen als uitdagingen. Wat denk jij? Laat je reacties achter of discussieer mee via LinkedIn. Dit was het weer voor vandaag. Bedankt voor het luisteren en tot de volgende keer! [Muziek] [Muziek]