Wat leer je in deze aflevering?
In deze aflevering van AIToday Live staat de vraag centraal of leveranciers van Large Language Models (LLM's) deze als open source moeten classificeren om regelgeving van de nieuwe EU-AI Act te omzeilen. Een onderzoek van de Radboud Universiteit onthult de complexiteit achter de open source claims van bekende AI-modellen, waarbij de definitie van openheid in de context van AI onder de loep wordt genomen. Met voorbeelden zoals het Franse Mistral7B en het Nederlandse GEITje, wordt de uitdaging rondom transparantie en de zogenaamde 'open washing' praktijken belicht. De aflevering verkent de implicaties van de EU AI Act en de noodzaak voor een herdefiniëring van open source binnen de AI-sector, met een blik op de rol van kleinere, niet-commerciële spelers in de ontwikkeling van verantwoordelijke en transparante AI.
Kernbegrippen
- Open source AI
- AI-modellen waarvan code, trainingsdata, gewichten en nabewerkingen volledig toegankelijk en transparant zijn.
- Open washing
- Praktijk waarbij bedrijven hun AI-modellen als open source presenteren zonder volledige transparantie te bieden.
- EU AI Act
- Europese regelgeving die vanaf 2026 strenge eisen stelt aan high-risk AI-modellen en hun transparantie.
- Reproduceerbaarheid
- Vermogen om AI-modellen met dezelfde resultaten opnieuw te trainen met dezelfde data en parameters.
Transcript
Hoi, welkom bij een nieuwe aflevering van AIToday Live. In deze korte aflevering vandaag gaan we het hebben over een onderwerp dat steeds meer aandacht krijgt. Namelijk de vraag of leveranciers van Large Language Models (LLM's) als open source moeten worden aangemerkt om strengere regelgeving van de nieuwe EU-AI Act te ontzeilen. Want dit zou hen kunnen helpen om veel geld en gedoe te besparen. Maar is dat echt zo eenvoudig? Onderzoek van de Radboud Universiteit laat weinig heel van die open source claims van bekende modellen. Bij open source denken de meeste mensen aan gratis software die je kunt downloaden en gebruiken. Maar het concept gaat veel dieper. Open source betekent dat je toegang hebt tot de broncode en deze kunt aanpassen. Dit verhoogt de transparantie en betrouwbaarheid omdat je precies kunt zien hoe iets werkt. Maar goed, in de wereld van kunstmatige intelligentie wordt de term open source ook vaak gebruikt. Maar hier ligt het toch wel anders. Bij AI gaat het niet alleen om de broncode. Je hebt ook inzicht nodig in de data waarop het model is getraind, de berekende gewichten en de nabewerkingen die zijn uitgevoerd. Dat geheel maakt uiteindelijk een model. Het onderzoek van het Radboud heeft 14 karakter-eigenschappen geïdentificeerd om aan te geven hoe open een model echt is. En nogmaals, het fundamentele probleem is dat een AI-model meer is dan alleen code. Daarom dat ze die 14 hebben gepakt. Zo'n AI-model is getraind op enorm hoeveelheden data en bevat ontelbare parameters. Zelfs als een model als open source wordt gelabeld, betekent dit niet automatisch dat het volledig transparant is. De onderzoekers hebben aangetoond dat slechts een klein deel van de zogenaamde open source modellen echt volledig open is. Laten we een voorbeeld nemen. Een van de meer bekendere, tussen aanhalingstekens open source modellen, is het Franse Mistral7B. Sorry voor de moeilijke namen, die verzinnen ze allemaal. Ik heb ze niet verzonnen. Het Franse Mistral7B. Het enige wat ze open hebben gemaakt, is dat je het model kan downloaden en zelf lokaal kan draaien. Het is een getraind model met toegang tot de programmeertaal, maar je hebt geen idee op basis van welke data er getraind is. Van die 14 karakteristieken zijn er een hele hoop gesloten. In Nederland hebben we trouwens ook een open source model, genaamd GEITje. Een grappige naam toch? GEIT met hoofdletters en je, Met kleine letters. GEITje. En dat is een geweldig initiatief. Maar omdat het gebouwd is bovenop deze Mistral7B modellen, en wel getraind op 10 miljard tokens en Nederlandse tekst, blijft het, dat hoewel dan die bovenliggende lagen van Geitje open source zijn, dus daar kan je ook echt de data van inzien en dat soort dingen, is dat dus in de basis niet. Omdat het dus bovenop Mistral7B getraind is. Dat betekent dat er nog steeds een gebrek aan volledige transparantie is. En dat maakt het controleren van deze claims behoorlijk lastig. Daarnaast is er een groeiende trend van wat we open washing noemen. Net als wat je met de greenwashing hebt. Het open washing houdt in dat bedrijven beweren open source te zijn zonder daadwerkelijk volledige transparantie te bieden. Ze publiceren bijvoorbeeld een blogpost waarin ze hun model zelf als open source bestempelen maar bieden geen volledige toegang tot de data of de training methodologie. Dit kan best verwarrend zijn en de wetenschappelijke integriteit ondermijnen. Een opvallend voorbeeld is OpenIR's JGPT, kennen we allemaal. Oorspronkelijk opgericht met als ideologie van juist vanuit de open source. Maar nu is het model zo gesloten als een oester. Van de 40 onderzochte modellen hebben slechts 2 een wetenschappelijk paper beschikbaar gesteld en JGPT is de meest gesloten van deze allemaal. Minder dan de helft van de 40 onderzochte modellen heeft de broncode open source gemaakt en slechts een kwart is open over de data waarmee ze zijn getraind. De EU AI Act die naar verwachting in 2026 van kracht gaat stelt strenge eisen aan AI modellen die als hoog risico worden beschouwd. Leveranciers van large language models zoals OpenAI, Google, Meta, HuggingFace moeten dan transparant zijn over hun data, trainingsmethode en het energieverbruik van de modellen. De Act, de wet, vereist ook dat deze leveranciers risico's identificeren en beperken. Dat betekent dat het niet naleven van deze verplichtingen kan leiden tot hoge boetes. En dan is duidelijk dat het term open source binnen de context van AI niet altijd betekent wat we denken en dat dat dus grote betekenis kan hebben ten opzichte van die wet. Dus terwijl open source software in de traditionele zin eenvoudig te begrijpen en te controleren is, brengt de complexiteit van AI modellen juist nieuwe uitdagingen met zich mee. Zelfs als bedrijven beweren open source te zijn, is het vaak onmogelijk om de volledige reproduceerbaarheid van een model te garanderen zonder enorme middelen. Het trainen van dit soort modellen vergt zoveel rekenkracht, energie, dat het maar de vraag is wie dat kan controleren. Wat betekent dit dan voor de toekomst van open source modellen? Ik denk dat we naar een situatie gaan waar de term open source wellicht opnieuw moet worden geïdentificeerd of waar nieuwe termen worden geïntroduceerd die de mate van openheid en transparantie van AI modellen juist beter weergeven. Tot die tijd is het wel cruciaal dat we kritisch blijven kijken naar de claims van bedrijven en streven naar echte transparantie en verantwoordelijke AI. De onderzoekers benadrukken trouwens de betekenisvolle bijdrage van kleinere spelers en juist niet commerciële producenten. Dit zijn verborgen kampioenen in de wereld van de generatieve AI. En dat zijn juist de plekken waar de vooruitgang richting meer open systemen het meest waarschijnlijk is. En het vervelende is, ik heb het al eens eerder gehad over de giftigheid van benchmarks rondom AI modellen en de logica van 'groter is altijd beter'. Als het daar nou is van afstappen kunnen deze kleine maar open modellen net zo nuttig zijn voor heel veel eindgebruikers. Gewone use cases vereisen vaak helemaal niet die gigantische modellen. Dankjewel weer voor het luisteren. Vergeet je niet te abonneren via je favoriete podcast app en blijf op de hoogte van de laatste ontwikkelingen in de wereld van AI. Tot de volgende keer! [Muziek] [Muziek]