Wat leer je in deze aflevering?
Joop Snijder bespreekt in deze aflevering van AIToday Live twee belangrijke technieken die moderne AI-taalmodellen helpen menselijke communicatie beter te begrijpen: Reinforcement Learning en Reinforcement Learning from Human Feedback. Deze methoden stellen AI in staat om niet alleen informatie te verwerken, maar ook de context en bedoeling van menselijke vragen te begrijpen.
De podcast belicht hoe deze technieken fungeren als onzichtbare leraren die AI-systemen constant bijsturen en verbeteren. Er wordt ook ingegaan op de uitdagingen die deze methoden met zich meebrengen, zoals mogelijke bias en culturele verschillen in AI-training.
Kernbegrippen
- Reinforcement Learning (RL)
- Leerproces waarbij machines door trial-and-error feedback krijgen en hun gedrag optimaliseren.
- Reinforcement Learning from Human Feedback (RLHF)
- Techniek waarbij menselijke beoordelaars AI-output evalueren om modellen beter af te stemmen op menselijke voorkeuren.
- Bias in AI-systemen
- Systematische vooroordelen in AI-output die ontstaan door niet-representatieve trainingsdata of beoordelaarsgroepen.
- Taalmodellen
- Machine learning-modellen die tekst genereren door patronen in grote hoeveelheden trainingsdata te leren.
Transcript
Hoi, welkom bij AIToday Live. De podcast waar we praten over de nieuwste ontwikkelingen in kunstmatige intelligentie en hoe jij ze kunt toepassen in je werk. Mijn naam is Joop Snijder, CTO bij Aigency. Vandaag leg ik twee technieken uit die achter de slimheid van moderne AI taalmodellen zoals ChatGPT zit. Want hoe leren deze machines om echt te begrijpen wat wij mensen bedoelen en wat gebeurt er als menselijke waarden, vooral vanuit een westerse perspectief, hun antwoorden sturen? Voor iedereen die AI tools gebruikt is het waardevol om te begrijpen waarom ze soms bepaalde antwoorden geven. Deze kennis helpt je namelijk bij het beter inschatten van de betrouwbaarheid en mogelijke vooroordelen in AI antwoorden. Dus blijf luisteren om te ontdekken hoe dit alles werkt en waarom het belangrijk is om juist dit te weten. Stel je voor je hebt net een gloednieuwe smartphone gekocht. Vol verwachting pak je hem uit, zet hem aan en begin te praten tegen de spraakassistent. "Hé" zeg je "wat wordt het weer morgen?" Tot je verbazing antwoordt de assistent "de wortel van 144 is 12". Vond je wenkbrauwen en probeerde het opnieuw. "Nee, ik vroeg naar het weer van morgen." De assistent zou reageren met "de hoofdstad van Frankrijk is Parijs". Nou, dat zou heel frustrerend zijn, nietwaar? Een AI die perfect in staat is om correcte informatie te geven, maar volledig de plank misslaat als het gaat om het begrijpen van jouw vraag. Dit scenario lijkt misschien wat vergezocht en met de komst van ChatGPT zijn we dit soort antwoorden ook helemaal niet meer gewend. Taalmodellen begrijpen nu veel beter wat we bedoelen. Maar de vraag is dan hoe leren we machines om niet alleen informatie te verwerken, maar juist ook om ons te begrijpen. Het antwoord op deze vraag ligt in een specifieke tak van machine learning. En die heet Reinforcement Learning en nog specifieker, in het geval van taalmodellen, Reinforcement Learning from Human Feedback. Zou je dit vertalen naar het Nederlands, dan zeg je eigenlijk "het versterkend leren door menselijke terugkoppeling". Deze technieken, Reinforcement Learning en Reinforcement Learning from Human Feedback, vormen de ruggengraat van moderne taalmodellen die wel snappen wat je bedoelt als je naar het weer vraagt. Maar hoe werken ze dan precies en waarom zijn ze zo belangrijk om ze te begrijpen? Laten we beginnen bij de basis, bij het begin, namelijk Reinforcement Learning. In essentie is dit een techniek, een manier om machines te leren door middel van trial-and-error, net zoals mensen en dieren leren. Kijk, ik heb een aantal jaren puppy les gegeven, hondentraining. En als je dan zo'n hond wil leren iets uit te voeren, als hij iets goed doet, geef je hem bijvoorbeeld dan een koekje, een aai, iets positiefs. Doet hij iets fout, dan corrigeer je dat gedrag. En na verloop van tijd leert de puppy welk gedrag beloond wordt en welk gedrag niet. Reinforcement Learning werkt op een vergelijkbare manier, maar dan in de digitale wereld. Een AI agent, je zou het even tussen aanhalingstekens het brein van het AI kunnen noemen, voert acties uit binnen een bepaalde omgeving. En voor elke actie krijgt die agent een beloning of een straf. En het doel van de agent is om zoveel mogelijk beloningen te verzamelen. Door dit proces steeds te herhalen, leert de agent welke acties het beste zijn om het doel te bereiken. Dit klinkt misschien simpel, maar Reinforcement Learning heeft geleid tot enkele van de meest indrukwekkende prestaties in de AI wereld. Denk aan Schaarcomputers of AlphaGo, dat programma dat wereldkampioen werd in het ontzettend complexe bordspel Go, waarbij hij de mens versloeg. AlphaGo gebruikte Reinforcement Learning om miljoenen potjes tegen zichzelf te spelen en zo te leren welke zetten het meest kansrijk waren. Maar hoe komen we dan van dit soort spelletjes naar taal? Hier wordt het interessant. Taalmodellen zoals Chedjipiti, Claude en Google Gemini worden in eerste instantie getraind op enorme hoeveelheden tekst. Ze leren patronen in taal te herkennen en kunnen op basis daarvan nieuwe, coherente tekst produceren. Maar alleen tekstpatronen herkennen is niet genoeg om echt te begrijpen wat mensen bedoelen. Hier komt Reinforcement Learning weer om de hoek kijken. Door Reinforcement Learning toe te passen, straffen en belonen op taalmodellen, kunnen we ze leren om niet alleen grammaticaal correcte zinnen te produceren, maar ook antwoorden te geven die daadwerkelijk nuttig en relevant zijn voor jou als gebruiker. Die omgeving waarin het model opereert is nu een conversatie. En de beloningen zijn gebaseerd op hoe goed het model de intentie van de gebruiker begrijpt en beantwoordt. Dat geeft een beetje de menselijke touch. Maar hier stuiten we wel op het probleem. Want hoe definieer je wat een goed antwoord is in een gesprek? Taal is immers subjectief en sterk afhankelijk van de context. Wat in de ene situatie een perfect antwoord is, kan in een andere situatie volledig ongepast zijn. Dat is waar Reinforcement Learning from Human Feedback in beeld komt. Deze techniek voegt een cruciale menselijke component toe aan het leerproces van AI. In plaats van dat het systeem zelf bepaalt wat een goed of slecht antwoord is, worden mensen ingeschakeld om de output van het model te beoordelen. Stel je voor, een team van menselijke beoordelaars krijgt verschillende antwoorden van het AI-model te zien op een bepaalde vraag die gesteld is. Ze beoordelen welk antwoord het beste is, welk antwoord beleefd is, of welk antwoord het meest behulpzaam is, enzovoort. Deze menselijke beoordelingen worden vervolgens gebruikt om het model verder te trainen. Het model leert zo niet alleen om feitelijk correcte antwoorden te geven, maar ook om antwoorden te geven die mensen als nuttig, beleefd en gepast ervaren. Het is alsof je een buitenaardse bezoeker niet alleen de grammatica van onze taal zou leren, maar ook de sociale regels en normen die bij de communicatie komen kijken. Het is wel cruciaal om te begrijpen dat Reinforcement Learning from Human Feedback niet zozeer het basismodel van een AI-systeem verandert, maar eerder fungeert als een extra laag die bovenop het ruwe, voorgetrainde model wordt aangebracht. Deze RLHF, ik kort het even af, laag, werkt als een verfijningsproces waarbij het basismodel wordt bijgestuurd op basis van de menselijke feedback. Het is in deze fase dat de AI-leverancier een aanzienlijke invloed uitoefent op het uiteindelijke gedrag en de output van het taalmodel. Door zorgvuldig te selecteren welke feedback wel gebruikt wordt, welke niet, en hoe deze wordt toegepast, kan de leverancier, OpenAI, Google en Anthropic, het model afstemmen op specifieke doelen, ethische richtlijnen of gebruikscenario's. Dit betekent dat twee identieke basismodellen na verschillende RLHF-trainingen radicaal verschillende outputs kunnen produceren. Deze kennis stelt je in staat om beter te beoordelen of een bepaald taalmodel aansluit bij specifieke behoeften, waarden en bedrijfsculturen en om potentiële vooringenomenheid of beperkingen in het taalmodel te identificeren. We moeten wel realiseren dat Reinforcement Learning from Human Feedback, RLHF, brengt ook uitdagingen met zich mee. Ten eerste is het verzamelen van menselijke feedback een tijdrovend en kostbaar proces. Het vereist grote teams van beoordelaars die duizenden interacties moeten beoordelen. Ten tweede kan menselijke feedback inconsistent zijn. Wat de ene persoon als een goed antwoord beschouwt kan voor een ander totaal onacceptabel zijn. Dit kan leiden tot verwarring in het leerproces van de AI. Daarnaast is er het risico van onbedoelde bias. Als de groep mensen die feedback geeft niet divers genoeg is, kan het AI-systeem vooroordelen overnemen die niet representatief zijn voor de hele samenleving. Dit is vooral problematisch omdat veel van de toonaangevende AI-bedrijven gevestigd zijn in het Westen, wat kan leiden tot een overwegend westerse blik in de training van AI-systemen. Om te begrijpen hoe lastig dit is, hoef je maar te kijken naar de volgende twee eenvoudige voorbeelden. De eerste kleur-associaties. Kleuren kunnen verschillende betekenissen hebben in verschillende culturen. Terwijl wit in onze westerse culturen wordt geassocieerd met zuiverheid en bruiloften, wordt het in sommige oosterse culturen vaak gekoppeld aan rouw. Of gebaren, een duim omhoog gebaar is over het algemeen positief in westerse culturen, maar kan in sommige landen in het Midden-Oosten juist heel beledigend zijn. Je kunt je voorstellen, afhankelijk van de herkomst van de data, dat er dan enorme culturele verschillen aanwezig zijn en dat deze doorsijpelen in de uitkomsten van het taalmodel. Zo zie je dat een onzichtbare leraar behoorlijke invloeden heeft op de taalmodellen die wij gebruiken. Dat is het voor deze aflevering waarin je twee begrippen geleerd hebt. Reinforcement Learning en Reinforcement Learning from Human Feedback. Die als onzichtbare leraren functioneren, die constant over de schouder van taalmodellen meekijken, ze bijsturen en verbeteren. Ze vormen de brug tussen de koude logica van computers en de warme, rommelige realiteit van menselijke communicatie. De volgende keer dat je met een digitale assistent praat, die je vragen perfect begrijpt of een chatbot gebruikt die verrassend menselijk aanvoelt, weet je dat er achter de schermen een complex systeem van beloning en feedback aan het werk is. Reinforcement Learning from Human Feedback is een techniek die als een geduldige leraar het taalmodel steeds weer leert om beter te luisteren, beter te begrijpen en beter te communiceren. [Muziek]