LengaGPT: uitdagingen van taalmodellen bouwen zonder Big Tech-middelen

In deze aflevering hoor je Gabi Ras, data scientist bij biotechbedrijf K-Gene, over haar project om een taalmodel voor Papiamento te ontwikkelen. Een uniek initiatief dat digitale inclusie bevordert voor minderheidstalen. Gabi deelt haar expertise over de technische uitdagingen bij het bouwen van taalmodellen voor kleinere talen en analyseert kritisch hoe AI in taaltechnologie als biotechnologie nieuwe mogelijkheden creëren voor voorheen onoplosbare vraagstukken. Veel plezier met deze aflevering! Hoi, leuk dat je weer luistert naar een nieuwe aflevering van AIToday Live. Mijn naam Joop Snijder, CTO bij Aigency. Mijn naam Niels Naglé, Area Lead, Data & AI bij Info Support. En vandaag een buitengewoon interessante gast. Want we gaan het hebben over taalmodellen, maar niet de taalmodellen zomaar ChatGPT waar we het vaak over hebben. Maar iets heel anders, dus blijf daar vooral naar luisteren. Maar voordat we daarin duiken, Gabi hebben wij in de studio, Gabi Ras. Zou je jezelf eerst willen voorstellen aan de luisteraars? Ja, hallo iedereen. Ik ben Gabi Ras. Ik ben op Curaçao geboren en toen ik 18 was verhuisde ik naar Nederland. Ik heb veel plekken op Nederland gewoond omdat ik best veel studies heb gedaan. Het begon eerst in Eindhoven met de industrieel ontwerpen. Daarin deed ik een vak over AI en daar wist ik eerst niks van. Maar dat vond ik geweldig en ik zag meteen de potentie voor de toekomst en hoe belangrijk dat kan zijn. En toen dacht ik na een jaartje van nee, ik wil niet doorgaan met industrieel ontwerpen. Dus ik ben toen naar Maastricht verhuisd. Daar heb ik kennistechnologie gedaan als bachelor. En daar heb ik wel vier jaar over gedaan. En toen, ja, dat is wat wij misschien tegenwoordig echt hardcore machine learning zouden noemen. Maar heel weinig neurale netwerken. En dat vond ik op zich wel interessant. Want ik wil daar meer over weten. Dus toen ben ik daar niet de master AI gaan doen. Maar ben ik naar Nijmegen verhuisd. Naar de Radboud Universiteit. Want daar specialiseerden ze zich in een soort van brain-inspired artificial intelligence. En ja, dat was ook gelijk een hit. Vond ik hartstikke leuk. En zo leuk dat ik daarna nog eventjes op de uni wou blijven rondspoken. Dus ik heb wat rondgekeken voor PhD's. Uiteindelijk een PhD bij het Radboud zelf gevonden. Het was eerst in effective computing. Dus hoe ga je met AI emoties detecteren? Ja, op een of andere manier werd het hem toch niet. Na het eerste jaar dacht ik van, ja, dit is interessant, maar er kwam ook wat andere dingen op mijn pad, waaronder explainable AI. Dat vond ik veel leuker. En toen heb ik samen met mijn promoters en co-promoters afgesproken dat ik dan van onderwerp switch. En ja, het eindproduct is een thesis geworden op explainable deep learning. En ja, dat duurde vier jaar. En dat is het zo'n beetje voor mijn achtergrond. Tegenwoordig werk ik als data scientist bij een biotechbedrijf in Wageningen, dat KeyGene heet. En daar hoor ik me veel bezig met vooral data, maar ook AI-modellen trainen op agrarische datasets. Voornamelijk voor de veredeling van gewassen. Gaaf. Wat triggerde je zo in het stukje explainable AI? Mijn promotor kwam een keertje langs van... ik heb een opdracht gekregen om een boekhoofdstuk te schrijven daarover. Ik heb daar geen tijd voor. Vind jij dat misschien wat? Dan dacht ik van ja, maar ik weet daar niks over. Dat geeft niet. Je hebt alle tijd om wat te doen. Toen dacht ik, oké. Dus het werd een soort van introductieverkenning. Ook voor mezelf ook. Maar vooral dat resultaten ervan opschrijven als een boekhoofdstuk. En ook een beetje vanuit de user perspective kijken. Naar wat het eigenlijk betekent om explainable AI te hebben. Een van mijn promoters is een filosoof, Pim Haselager. Hij heeft best wel invloed gehad op de manier waarop ik denk. Dat het niet allemaal heel technisch is, maar dat het vooral ook gaat om de juiste vragen stellen. De interactie met de samenleving goed in de gaten te houden. En over nadenken van wat betekent het als we bepaalde technologieën ontwikkelen. En hoe gaan ze zich in de realiteit instantiëren. Dat heb je niet altijd in de handen, vaak niet. En dat vond ik wel belangrijk om dat soort vragen te stellen. Ja, op zo'n manier, AI was niet meer nieuw tijdens mijn PhD. Maar dat soort vragen stellen vanuit niet een puur technisch perspectief, dat was wel nieuw en dat vond ik heel, hoe zeg je dat, het geeft je een andere kijk op de wereld en waar je je mee bezig bent. Dus dat vond ik wat mij het meeste eraan aantrok. Je bent ook bezig met taalmodellen. Kan je daar iets over vertellen? Ja, dus taalmodellen. Het was een tijdje geleden begonnen. Toen ik nog in het laatste jaar van mijn PhD zat. Toen kwam ik een wetenschappelijk artikel tegen over het vertalen van een Afrikaanse taal. Volgens mij was dat de taal Bimbe. Het ging mij niet per se om het vertalen zelf, maar dat er iets werd gedaan met AI en een kleine taal. Omdat ik uit Curaçao kom, ik spreek Papiamento, dat is mijn moedertaal. Ik werd ook ooit door een masterstudent benaderd die vroeg van, zijn jullie met AI bezig op Curaçao en kan ik daar een stageplek vinden? Kan je dat voor me regelen? Dus toen ging ik in mijn netwerk vragen en niemand hield zich bezig met AI. Dus door die ervaringen kwam op een gegeven moment de vraag in me op van, oké, maar wat zou het kosten? niet alleen maar qua geld, maar hoe ziet de pad naar AI voor Papiomintu uit? En dat was eerst gewoon een idee. En toen leerde ik ondertussen wel mensen kennen die iets met AI deden op het eiland. En kwamen we samen op het idee van laten we dit echt proberen te doen. En dit was nog voor ChatGPT. Dus het was een veel groter vraagstuk dan het nu is. Hoe zou je dat voor elkaar kunnen krijgen? En wat waren dan de eerste hobbels waar je tegen aan liep? Oh, de eerste hobbels? Die hobbels heb ik nog steeds. Dat gaat vooral om de resources eigenlijk. Vooral de data, maar ook mensen die zich mee bezig kunnen houden. Mensen die de modellen kunnen trainen. evaluatie kunnen doen. Want ik doe dit naast mijn baan. Naast mijn fulltime baan. Dus ik heb er niet heel veel tijd voor. Ik vind het wel super leuk. Heel interessant. Heel waardevol. Betekenisvol. Maar ja, het begon eerst met de data. Ja, dat was gelijk al een dingetje. Dus we hebben eerst data die we konden vinden op het internet. We hebben een heleboel gescraped. dat was niet super ethisch maar het ging ons meer om te kijken niet om een commercieel product te maken maar om te kijken van oké, hoe ver kunnen we komen met wat we nu kunnen ophalen vanuit het internet wat er beschikbaar is en was er dan vrij weinig gedigitaliseerd want het lijkt me dat er toch wel heel veel teksten geschreven zijn en beschikbaar zijn in de bibliotheken, maar was het dan niet digitaal of wat was de uitdaging daarin ja dus Dus in vergelijking met bijvoorbeeld Engels is papimento een minderheidsstaal. En je hebt dan heel weinig bestaande teksten op het internet. Omdat, zoals je het al zegt, heel veel boeken zijn fysiek beschikbaar in een bibliotheek. Of zitten in een privécollectie van iemand thuis. Of in een privébibliotheek. Dus dat was ook onderdeel van het probleem. is dat we niet goed wisten waar we moeten kijken. Dus we weten wel van het bestaat. Maar waar is het? En hoe krijgen we er toegang tot? Dat is ook een van de grote problemen waar we tegenaan botsten. Kan je iets vertellen over, want je zegt van... ik vind het heel betekenisvol en het heeft heel veel waarde voor me. Waar dat in zit? Waar zit die waarde voor jou in om zo'n kleine taal een model van te maken? Ten eerste, het is heel subjectief, maar heel dicht bij mijn hart. Omdat ik ben opgevoed in het papiamento. Dus het is niet gek, maar niet standaard om die taal tegen te komen. Misschien op het internet of tijdens het gebruik van allerlei digitale tools. En ik vind dat toch interessant om waar te maken. Want het geeft je dan een andere interactieervaring met de tools waar je mee bezig bent. En daarnaast zijn er ook andere vraagstukken die belangrijk zijn. Maar ze geven mij geen hele grote motivatie, maar ze zijn wel belangrijk. Eentje daarvan is de behoud van de taal natuurlijk. Als je met AI bezig bent, ben je ook als bijproduct bezig met het digitaliseren, met het maken van infrastructuur, aan het nadenken over hoe dit past binnen de samenleving op Curaçao. Wat zijn dingen die misschien wat meer automatisch kunnen, meer streamlined. Dus ik zag vooral ook de meerwaarde van de activiteiten die je dan zou moeten doen om tot AI voor papiemento te komen. En hoe ver zijn jullie nu? Als je erover nadenkt als een soort van iteratief proces, dan hebben we de eerste iteratie voltooid. En dat is gewoon vanuit het niks beginnen. En dan kijken van waar kunnen we data vinden. Wat voor modellen zijn er beschikbaar. Wat voor hardware hebben we nodig. En wat is het resultaat als je dat allemaal samenbrengt. Dan hebben we daar nu het product van. Dat heet Linga GPT. En dat is een GPT-2 model. En die is dan getraind op de dataset die wij hebben. Sorry dat ik je interumpeer, maar heb je dan alleen de data uit het papiamento? Of heb je daar nog meer talen onder? Nee, laat ik het anders zeggen. Ben je met een basismodel begonnen? Of is het echt helemaal vanaf scratch? Ik snap wat je bedoelt. Het idee was om ze te vergelijken. om te kijken naar de... Wat is het verschil als je begint van scratch versus met een basismodel beginnen? Dus je pakt een bestaand model dat al kennis in zich heeft en je traint dat verder op je Papiamento-corpus, je dataset. Uiteindelijk was de MVP van dit initiële project, dat was gewoon een taalmodel. Ik werkte ook samen met mensen die het meer interessant vonden om het van scratch te trainen. Dus de voorkeur ging daarnaartoe. Dus we hebben nu een van scratch. Maar dat is inderdaad een van de grootste vragen die je krijgt. Maar waarom heb je het niet met een basismodel gedaan? Dat staat nog steeds op de to-do-lijstje. Maar in principe hebben we een MVP binnen het project geleverd. Het moet wel aankomen, maar we zijn er daar nog niet. Nee, precies. En kan je iets zeggen over de infrastructuur? Ik krijg best wel eens regelmatig vragen van... Wat moet je eigenlijk allemaal doen om een eigen taalmodel te maken? Ja, eigenlijk niet zo superveel. Het grootste zit hem in de dataset. Ja, stel je handelt in een taal of een subdomein waarbij je een goede kwaliteit, redelijk grote dataset hebt. Dan ben je al meer dan de helft van de weg daar. En daarnaast heb je ook nog wat hardware nodig. Tegenwoordig is het niet echt meer noodzakelijk om iets per se te kopen. Wij hebben dat wel gedaan, omdat wij dachten van oké, als wij de hardware zelf hebben, dan hebben we er wat meer controle over. Dan hebben we niet te maken met subscriptions en we weten niet precies hoe lang dit gaat duren en uiteindelijk hoeveel het gaat kosten. Dus het investeren in hardware, dat was een keuze die we hebben gemaakt, omdat die keuze dan, ja het is een one time cost. Het is niet iets wat blijvend is. Daar hebben we nu bijvoorbeeld baat bij, want die Linger GPT draait gewoon op die server. Dat staat gewoon eigenlijk in mijn kantoortje thuis. Het vreet wel elektriciteit, maar dat wel. Maar als de zon schijnt is dat niet zo erg. Wat heb je nog meer verder? Je hebt ook mensen nodig, developers. We hebben het geluk gehad dat we zelf mee zijn begonnen. Maar het grootste deel van het werk werd gedaan door een stel freelancers eigenlijk. En die hebben de software-infrastructuur gemaakt. Maar het was eigenlijk heel erg simpel. Gebruik maken van heel veel functionaliteit vanuit de Hugging Face. En dat maakte het eigenlijk heel simpel om een model te trainen en ook later te fine-tunen. En het trainen zelf. Dus dan heb je je hardware, je hebt je data, je hebt je software infrastructure. En dan moet je nog alles gaan inladen en gaan kijken. Dus iteratief spelen met de... In dit geval niet, want ze had dan de stagiaire vanuit de Radboud Universiteit. en die heeft dan met een automatische hyperparameter tuning, dat heeft ze dus in elkaar gezet, dus daarbij gezet. En dan een beetje dat model gebabysit tijdens het trainen, kijken naar de resultaten, iets veranderen. Ik ben wel nieuwsgierig, je had ook een studie gedaan Een explainable AI voor neural networks. Heb je dat ook toegepast op deze oplossing? Nee. Staat die nog op de to-do-lijst? Ik denk later, want we zijn nu nog steeds niet in een toepassingsgebied. Ook een dingetje van explainable AI is dat je model wel een beetje moet werken voordat je ermee kan beginnen. En als je heel experimenteel bezig bent, is dat niet zo heel handig. Je kan het wel gebruiken, maar het vertrouwen in je resultaten, dat heb je dan niet. Als je model niet goed werkt. En hoe goed werkt het model nu dan? Als je dat zou moeten uitdrukken. Ja, niet zo goed. Qua spelling is het wel perfect. Want hij kent alleen maar de woorden in de dataset. Die zijn heel goed gespeld. Heel goed opgeschreven met de accenten op de juiste plek. Maar de zinnen, het is een soort van spaghetti. En omdat die heel veel op kranten... Het grootste deel van de dataset zijn toch krantenartikelen geworden. Dus het is nu gewoon een soort van mengelmoes van woorden die je in een typische Curaçaoze krant zou vinden. Maar er is weinig structuur. Wat is daarvoor nodig om dat beter te maken? Dus het fine-tunen zou enorm helpen. Het heeft voornamelijk te maken met de manier waarop we het hebben getraind. Dus vanaf scratch. Dus als ik nu een paar jaar geleden terug zou gaan naar de Gabi in 2023, zou ik zeggen van, luister niet naar je collega. Doe gewoon een fine tuning. Want daar leer je eigenlijk meer van. Maar goed. En wat leer je daar meer van dan? Want wat is dat inzicht dat je hebt opgedaan nu, dat je terug zou willen geven aan de Gabi van twee jaar geleden? Ja, dus er is gewoon puur genoeg niet de data die wij hebben, de kwaliteit en de hoeveelheid is gewoon niet genoeg om tot een goede basismodel te komen. Als je dat vanaf scratch wil trainen. Als je begint met bijvoorbeeld een model in het Portugees of Spaans, dan is dat getraind op veel meer data. En de zinsstructuren zijn veel beter geleerd en gecodeerd in dat model. En daar kan je direct op bouwen. Dus dan is je model minder bezig met wat is taal, Wat is de juiste volgorde van een zin? Maar dat bestaat al zo'n beetje in dat model. En dan kan hij zich meer focussen op... Oké, de woorden zijn soortgelijk, maar net anders. Dus ik moet nu gewoon nieuwe regels leren... waarbij we de huidige PapiMintu-dataset beter kunnen mappen... in het model die al getraind is op een soort van verwante taal. Dus eigenlijk een taal bijleren in plaats van scratch een taal helemaal leren. Dat is in die zin makkelijker omdat je de contexten weet. Je weet hoe een zin zo bouwen moet. Je weet bepaalde structuren. En dat is makkelijker te vertalen naar een andere taal. Dus daar heb je eigenlijk een boost van. Zeker. En wat je denk ik ook niet moet vergeten is. We zijn nu zo gewend aan de werking van de huidige taalmodellen. Dat is niet alleen maar het model zelf. Je hebt het hele laag eromheen van reinforcement learning with human feedback. Dat er een alignment is tussen wat uit het model komt en hoe wij graag de output zien. Er zit nu zoveel meer omheen rondom dat model. En jullie hebben eigenlijk vooral het model. Wat doe je daarmee? Dus dat er omheen zit, dat hebben wij niet? Nee. Dat klopt, ja. Dat wordt ons ook vaag gevraagd. Maar kan ik jullie niet gewoon helpen door met dat model te spreken? En te zeggen van dit is goed of dat is fout. En dan moet ik altijd uitleggen van ja, dat kan als het bestaat. Maar het bestaat niet. Dus eigenlijk wat wij willen bereiken is best wel ambitieus. Niet omdat het heel innovatief is, maar omdat je meer mensen nodig hebt. En aan de andere kant heeft dat ook direct te maken met dat wij dit niet als komende. commercieel project benaderen. Dus dan heb je eigenlijk vrijwilligers nodig. En daar zit het probleem eigenlijk, want iedereen is heel erg druk. Ik denk dat het heel mooi is wat je zegt, want er is een belevenis dat het maken van dit soort modellen eigenlijk vrij eenvoudig is. Er zit zoveel mensenwerk in, uren, energie, tijd, dat dat wordt heel erg vergeten. Ja, nee, inderdaad. Want Het is niet moeilijk, omdat er juist aan de andere kant van de wereld, overal eigenlijk, mensen mee bezig zijn. Dus wij bouwen daarop voort. Je moet je bewust zijn van wat er bestaat, zodat je gewoon werkt met de beste technologie die jou het beste boost geeft. Ja, om inderdaad mee het mogelijk te maken wat je wil met de minimale resources die er zijn. Omdat dat gewoon beperkte resources zijn. Dus op dit moment is de feedback van de gebruikers nog niet mogelijk. Maar dat zou wel een enorme boost kunnen geven aan het model. Uiteindelijk wel, ja. Je bent data scientist, wat je dagelijks doet. Wat heb je meegenomen uit wat je geleerd hebt uit het project rondom het maken van een taalmodel? in je dagelijkse werk? Ja, het is wel, dat vraag ik mezelf ook af. Maar, ja, ik denk, het is gewoon puur, ik weet nog tijdens mijn interview daar, mijn eerste gesprek daar, stelde een nieuwe collega, die vroeg dan, ben je bekend met large language mods? Ja. Dan kon ik wel ja zeggen. Dus misschien was dat ook een van de redenen dat ik werd aangenomen. Maar het geeft je gewoon heel veel algemene kennis over dit gebied eigenlijk. Het toepassingsgebied binnen KeyGene is natuurlijk heel erg anders. Ik weet niet of jullie het daar nu over willen hebben. We gaan het zo direct. Ik ben namelijk wel benieuwd. Wat is nou eigenlijk een misverstand met de kennis die jij hebt opgedaan die mensen hebben over taalmodellen? Ja, want het ontwikkelt zich heel erg snel. Maar wat ik nog steeds vaak zie is dat mensen blindelings vertrouwen op de output van die taalmodellen. Het is inmiddels wel bekend dat je dat niet moet doen. Dus vergeleken met bijvoorbeeld twee jaar geleden, er is gewoon veel meer kennis over. En ook bij, hoe zeg je dat, gewoon de normale persoon. Ja, brede doelgroep inderdaad in de maatschappij, die weten er nu meer van. Inderdaad, het zit nu niet meer alleen maar bij mensen die zich mee bezighouden. Dus ja, mijn moeder en al haar vriendinnen gebruiken ook JTBT. Als ik mijn moeder vraag van hoe werkt, dit kan ze het een beetje uitleggen. Dus ja, maar ik lees wel dagelijks artikelen waarbij iemand die misschien mentaal niet super sterk is, die vertrouwen nog steeds wel blindelings in de output van deze LLMs. Maar het ligt ook niet helemaal bij de gebruiker zelf. Want de LLM's geven ook best wel vaak iets terug waarbij je denkt van... Oh ja, die zeggen zo van... Oh, that's a great question. Dat was echt een geweldige vraag. Of oh, wat een goede inzicht. En dan merk ik bij mezelf dat ik ook denk van... Ja, ja. Ammer op. Ja, ja. I get it. Maar ja, als je daar vatbaar voor bent, dan kan ik me heel goed voorstellen... dat het dan juist... Het vormt een soort van vicieuze cirkel. Dat je dan in een loop terechtkomt waarbij je bepaalde dingen denkt. En dat de LLM dat reinforced, dat versterkt. Ik merk ook soms dat als je... Het gebeurt ook bij mezelf. Als ik een vraag stel waarbij ik zelf niet echt kan controleren of het antwoord goed is. Dat ik het op zich wel vertrouw. Dus als ik denk van, ja, dit ziet er een beetje logisch uit. Ja, oké. Ik probeer heel vaak dat juist te checken. Door gewoon even heel snel op Wikipedia kijken. Maar ik kan me wel voorstellen dat er mensen zijn die denken van, oké, dit ziet er gewoon heel goed uit. Ik gebruik het meteen. Kan je vanuit de techniek aangeven waarom het zo lastig is dat het taalmodel niet onzeker kan zijn? Volgens mij heeft dat te maken met de manier waarop het getraind is. Het doel van het taalmodel is om een bepaald cijfertje omhoog te halen. en dat cijfertje heeft heel veel te maken met wat er in je dataset wordt gezegd stel wordt er in je dataset gezegd van de lucht is rood dan wordt dat heel vaak gezegd heel erg vaak, en soms staat er wel de lucht is blauw maar de taalmodel wordt beloond als die ook zei van Ja, inderdaad, de lucht is rood. En dan zit er eigenlijk heel weinig ruimte dat die kan zeggen van de lucht is rood. Maar er zijn ook mensen die zeggen dat die blauw is. Dus ik weet het eigenlijk niet. En om dat ook te formuleren, want in een taalmodel is gewoon heel erg veel wiskunde. Dus alles wat je eigenlijk aan een taalmodel geeft, moet vervormd worden tot iets wat wiskunde voorstelt. En als je nou wilt zeggen van, ik wil dat jij meer onzeker bent, maar toch dat je goed kan oppakken wat er in je dataset zit, dat is ook lastig. En ik denk wel dat men mee bezig is, of er zijn zeker mensen die mee bezig zijn, Maar ik weet ook niet vanuit een commerciële perspectief of dat iets is dat interessant is. Oh ja. Dat is wel een interessante gedachte, dat het commercieel niet wenselijk wordt. Als ik dan als gebruiker iets vraag aan, dat wordt het geval van voorbeeld ChatGPT zeggen. Als ik de hele tijd iets aan ChatGPT vraag en die zegt van, Oh ja, nee, misschien is het dit of dat. Op een gegeven moment denk ik ook van, ja, maar die weet het gewoon niet. En dan kan ik het net zo goed ook zelf gokken. Wat moet ik ermee? Dus het heeft ook denk ik te maken met de psychologie van de mens. Er zijn bepaalde verwachtingen. Ze hebben heel veel studies gedaan. Nu worden ze ook gedaan voor chatbox. Maar vooral ook op robots. Dat als je dan iets ziet wat heel slik eruit ziet. heel erg af, heel erg technologisch. Dat je vanzelf een soort van vertrouwen eraan geeft, zonder dat je daar bewust van bent. En dat je denkt van, oké, de algoritme, de computer, de robot, die weet het vast beter, want die is niet moe. Die heeft geen ruzie gehad met de partner. Ja, die is gewoon heel erg objectief. En objectief is goed, objectief klopt. En kent geen twijfel, zeg je eigenlijk dan ook nog. Er is geen simpel antwoord op. Het is complex. Dus om het samen te vatten. Het heeft te maken met de psychologie van de mens. De commerciële interesses. En ook de technische challenges. Van hoe je dit eigenlijk überhaupt verhoort. Ik vind het wel een hele interessante gedachte. Vanuit het commerciële perspectief inderdaad. Hoeveel waarde zit er dan in om onzeker te zijn. Terwijl eigenlijk zou ik het wel fijn vinden. Als er twijfel is. En er zijn meerdere wegen naar Rome. in het taalmodel ook, allemaal verschillende regen om een antwoord te geven. Als er heel veel zijn en waar een bepaalde variatie zit in de wiskunde dan, dat ik daar in ieder geval verschillende smaken van krijg. Dat gevoel krijg ik nu niet van ChatGPT. Dit is het en zo moet het. In gesprekken zoals dit zijn er altijd meerdere wegen naar Rome. Ik zou eigenlijk wel AI willen die dat zou ondersteunen. Een twijfelende AI. Raar dat ik dat eigenlijk vraag. Ik had nog een vraag. Als we even mogen vooruitkijken. Hoe zie jij je taalmodel dadelijk gebruikt worden. Waar je nu mee bezig bent. En waar zou jij echt blij zijn. Als dit wordt toegepast in de praktijk. Dan denk ik van. Oh wauw. Eén plek. Waarbij er. Echt concreet vraag naar is. Is bij het gebruik in het overheid. Ik gok ook op Aruba en Bonaire. Maar ik heb concreet gesproken met mensen uit Curaçao. En die zeggen zeker iets te willen die samen kan vatten in het Papier Mintu. En ook gesprekken beluisteren en opschrijven. Dus dat is gewoon iets heel concreets. Maar bij het algemeen publiek zou het fijn zijn als men op hun telefoon, in plaats van dat ze naar de ChatGPT-app gaan, dat ze naar bijvoorbeeld LingardGPT gaan en daar hun vraag gewoon in het papiamento stellen. Dat zou heel mooi zijn. Ja, zeker heel mooi inderdaad. Want je raakt dan ook een gebied die misschien anders niet de tools kunnen gebruiken, die wat minder Engels of andere talen vaardig zijn. Dus bereikt eigenlijk het publiek. Ik denk dat het heel mooi is voor talen die niet zoveel data digitaal hebben, om dit als toepassing te zien. Zeker. We hebben ook een kaartspel met stellingen. En we willen graag ook een stelling aan jou voorleggen. Ja, oké. Leuk? De stapel werd steeds kleiner. Ja, maar tijd voor de volgende. De categorie van deze keer is gebruik en toepassingen. En de stelling luidt. Generatieve AI verrijkt menselijke creativiteit. Het kan Ik heb het ook gezien Bijvoorbeeld Een goede kennis van mij Die hebben jullie ook als gast Hier gehad, Jeroen van der Most Die gebruikt AI Dat is echt de core van zijn werk Die gebruikt het ook om tot nieuwe Kunstwerken te komen dus ja, het kan ook zeker ik heb ook zelf een project met hem gedaan enkele jaren terug en het heeft geleid tot een quote generating system die tot een jaar geleden dacht ik hangt bij de Radboud Universiteit als je binnenloopt maar ja, ik kom ook vaak de stem tegen die zegt van nee, dat is dat steelt alleen maar. Het is niet verrijken, want het is niet ethisch. Dus ik denk, het zit hem in hoe je het benadert, maar ook hoeveel je kennis is over dit soort systemen, wat ze kunnen, hoe ze werken. En waar kan je het eigenlijk? Want dat is ook even zoeken, even uitpuzzelen. Want ik denk dat Jeroen die begon niet gelijk op dag één met een LLM. Maar het is ook even uitpluizen van, ja, wat doe ik nou als kunstenaar? En waar gebruik ik de AI voor? Wat doet de AI? Hoe transformeert die de data? Of wat voegt de AI toe? Ik denk dat als je het benadert als een soort van samenwerking tussen mens en AI, Dat je echt hele interessante kunstwerken kan maken. Leuk. En Nielse, jij was ook nog heel erg geïnteresseerd natuurlijk vanuit jouw achtergrond. Vanuit de agri- en foodsector. Ik was wel nieuwsgierig van wat voor AI-toepassingen ben je zoal dagelijks mee bezig. En zie je daar ook al veel LLMs? Of is het met name echt de harde machine learning? Ja, ik heb collega's die zich bezighouden met de harde machine learning. Maar die houden zich meer... Er zijn binnen Kijgin, grof gezegd, misschien twee soorten projecten. Eén is een heel groot project dat misschien tien jaar duurt. En het is een cutting-edge project, want de technologie bestaat misschien gewoon niet. Of de technologie bestaat wel, maar het is niet heel duidelijk hoe je hem toepast. Daar werk ik voornamelijk aan. En ik heb ook collega's die werken aan een kort project met een heel concreet vraagstuk. van een andere agritechbedrijf. Die hebben dan een hele concrete vraagstuk. Dat leveren ze dan aan Keygene. En hij werkt dan met normale klassieke machine learning modellen. Om tot inzichten te komen. Kan je iets vertellen over wat voor toepassingen? Ik weet niet of je het kan zeggen. Maar wat is jouw beeld van wat er nu in de markt van agri en food met AI wordt ingevuld? En waar je eigenlijk nog zegt, waarom zijn we er daar nog niet mee bezig? Ik kan wel even vertellen heel globaal waar ik zelf mee bezig ben Ik besteed het grootste deel van mijn tijd nu om een het wordt wel heel biologisch, maar om te voorspellen of twee eiwitten met elkaar kunnen interacteren Waarom is dat belangrijk? Goeie vraag Ja, dus een eiwit is echt een heel breed concept eigenlijk. Maar eiwitten zijn structuren binnen onze lichaam die echt een heleboel dingen doen. En kern van waarom ze belangrijk zijn, is omdat ze gewoon helpen met heel veel cruciale processen in het lichaam. Dus bij ons, maar ook bij planten. Bijvoorbeeld de herkenning van een patogeen. Een patogeen is een soort van ziekte voor een plant. Dat is een virus of wat dan ook. En eigenlijk hoe die dingen met de plant interacteren, dat is heel erg biologisch. Dat zit echt op molecuulniveau. En dan heb je al gauw te maken met eiwitten. Dus de eiwitten moeten dan de eiwit van de virus herkennen. Als hij dat niet doet, dan drinkt de virus binnen en dan verstoort hij de werking van de plant. En in het algemeen, dus niet bij planten alleen maar, maar ook voor het ontwikkelen van medicijnen bijvoorbeeld, of kankeronderzoek, wat dan ook. Daar heb je in het algemeen ook te maken met eiwitten. Het zijn andere, misschien kortere eiwitten. Misschien hele specifieke soorten eiwitten, dan worden ze iets anders genoemd. Maar dan hebben die ook een bepaalde functie. En de kern is dat de vorm van de eiwit de functie bepaalt. En wij hebben lang niet, nu meer dan enkele jaar terug, maar voor een hele lange tijd wisten we niet zo goed hoe we van een beschrijving van het eiwit moesten gaan naar de structuur ervan. En zoals ik al eerder zei, structuur bepaalt functie. Dus als je van structuur naar functie kan gaan, kan je dan van beschrijving naar functie gaan. En dat is eigenlijk een idee wat heel erg innovatief is. Want de structuur is heel moeilijk. Dat was tot nu toe echt heel erg moeilijk om dat te voorspellen. Mensen die spenderen misschien iets van tien jaar om één eiwit, dat structuur, om dat erachter te komen. Dus dat was echt niet scalable. Maar nu heb je bijvoorbeeld AlphaVolt en een heleboel andere varianten. We zitten nu op AlphaVolt 3. En die zijn echt heel goed geworden in het voorspellen van structuren. Dus wij hebben nu ook een soort van golden moment in biologie. Omdat we nu echt heel veel... We zitten op een moment waar we heel veel data hebben. De AI-modellen zijn ook heel goed. En ik weet die cijfers eigenlijk niet zo heel goed, maar volgens mij waren er iets van meer dan 20 miljoen eiwitstructuren bijgekomen door Alphavolt. Dus ja, dat is één project waar ik me mee bezig ben. We maken ook gebruik van Alphavolt. Tot we het zover mogen gebruiken. Want we komen heel vaak tegen dat we modellen niet mogen gebruiken omdat ze dan de verkeerde licentie hebben. Niet de verkeerde, maar een soort van beperkende licentie hebben. Een niet-commerciële licentie. Dus dan moeten wij creatief zijn en hoe we daarmee omgaan. Oh ja. En de andere zaken in de agri-food, met deze kennis die eraan komt. Hoe zie jij over drie tot vijf jaar, wat doen we anders met behulp van AI? Dus ik beantwoord dat door te vergelijken met wat ik drie jaar geleden deed. Drie jaar geleden werkte ik zelf aan de modellen. Dus ging ik zelf aan de slag, bouwde ik zelf de modellen. Tegenwoordig doe ik dat niet meer. We houden gewoon goed in de gaten wat er ontwikkeld wordt in het publiek termijn. Wat wij mogen gebruiken. En dan gaan we die uittesten en kijken of we hiervan gebruik kunnen we afhankelijk van wat wij nodig hebben. En ik denk dat dat proces nog meer in die richting opgaat. Dat wij dan steeds minder zelf hoeven te doen qua het bouwen. Maar dat het dan meer gaat om de interessante vraagstukken. Om je gewoon goed in de gaten te houden van wat is het veld? Wat is er mogelijk? Wat waren de grote vraagstukken die we eerst totaal niet konden oplossen? En hebben we nu de tools om dat te doen? Zo ja, laten we daarmee beginnen. Dus ik denk dat we heel veel vooruitgang zullen boeken in de komende drie jaar. Omdat de tools er nu wel zijn. En nu is het gewoon een kwestie van even kijken. Hoe moeten we ze gebruiken? Waar hebben we nu heel veel baat aan? En wat zijn de nieuwe vraagstukken die we kunnen beantwoorden? Of waar we aan kunnen werken? Ja, ik hoor dan inderdaad het stukje van nieuwe toepassingen. Die worden nog wel gemaakt, maar er ligt wat binnen de focus. Dus we gaan eigenlijk beter uitnutten van de AI-modellen en de tools die er nu zijn. Om dat verder toe te gaan passen bij het juiste toepassingsgebied. Ja. En wat betekent dat voor mensen die hiermee aan de slag gaan? Hoe hou jij bijvoorbeeld bij? Want die modellen en ontwikkelingen gaan vrij hard. Maar hoe kunnen mensen bijblijven in dit vak dan? Ja, ik hou het bij door bijvoorbeeld, op Google Scholar kan je alerts zetten, maar je hebt ook systemen of programma's zoals Zeta-Alpha. Daar kan je ook gebaseerd op je likes en je interesses biedt het ook nieuwe papers aan die je dan interessant zou kunnen vinden. Ik heb meerdere newsletters die ik volg, ook specifiek op het gebied van biologie. Als ik naar congressen ga, dan ga ik ook naar biologische workshops en dat soort dingen. En wat eigenlijk heel veel helpt, is als je iemand binnen het bedrijf hebt die zich eigenlijk grotendeels mee bezighoudt. Ik heb letterlijk een collega binnen Kijgin en een groot deel van zijn werk is het volgen van dat nieuws. dus nog dichterbij dan ik. En hij zit in verschillende projecten. Bijvoorbeeld in de Teams-channels, dan dropt hij elke week van hé, dit zijn drie papers die interessant lijken voor ons. En dan is het mijn taak om dat echt door te lezen. En dan kijken van oké, is dit echt iets wat wij kunnen gebruiken? Hoe zit het met de licentie? Staat de code? Is dat op een fatsoenlijke manier beschikbaar? Is er support voor? En dan ga ik een lijstje af om te kijken van oké, En is dit überhaupt wat we nodig hebben? Wat is het verschil tussen dat paper en wat we nu aan het gebruiken zijn? En dan maak ik gewoon een soort van keuze, een overweging van... Oké, is dit het waard om nu meer tijd te gaan spenderen aan dit ding? Of moet ik gewoon blijven doorgaan met waar ik eerst mee bezig was? Ja. Heel goed de markt in de gaten houden met alle ontwikkelingen die er zijn. Als er luisteraars zijn die mee zouden willen werken aan jouw project rond het taalmodel, Lenga, GPT. Hoe zouden die dat kunnen doen? Ja, we hebben een website, papiamentu.ai. Dus papiamentu met een u.ai. We zullen hem in de show notes zetten. En als je daar gaat, dan heb je een contribute menu item. En dat brengt je naar een formulier. En die kan je dan invullen. We hebben daarop dan gespecificeerd wat de verschillende rollen zijn die we naar op zoek zijn. En je wordt dan ook gevraagd hoeveel tijd kan je dan per week aan spenderen. Dus als je dat invult, dan hebben wij gelijk een idee van deze persoon met deze skills en deze beschikbaarheid, die wil ons helpen. En dan nemen we contact op. Kijk aan. Mooi. Nou, het lijkt me mooi om mee af te sluiten. Ik vond het ontzettend interessant om een kijkje te krijgen in het ontwikkelen van die taalmodellen. Uiteindelijk is Big Tech daar vooral heel veel mee bezig. En jullie als een soort van smalltech. Dus geweldig dat je dat met ons wilde delen. En ook wat je doet in de Agri Food. Dank je wel. Ja, bedankt. Ook bedankt voor de uitnodiging en voor het gesprek. Zeker. Leuk dat je weer luisterde. we hebben een hele leuke nieuwsbrief dus daar kan je je op abonneren, krijg je eens in de maand krijg je ook exclusieve content, precies, kijk je achter de schermen, we hebben hele leuke content deze keer ook die link staat in de show notes en tot de volgende keer tot de volgende keer

LengaGPT: uitdagingen van taalmodellen bouwen zonder Big Tech-middelen

Wat leer je in deze aflevering?

Kernbegrippen

Wat gasten zeiden

Over de gast

Transcript

Meer afleveringen