Uitlegbaarheid bij taalmodellen: wat kun je echt weten?

Leuk dat je luistert naar een korte aflevering van AIToday. Ik ben Joop Snijder, Head of AI bij Info Support. We gaan het vandaag hebben over uitlegbaarheid bij taalmodellen en wat betekent dat nu echt. Misschien ken je dit gevoel wel. Je stelt een vraag aan ChatGPT en krijgt een antwoord dat precies lijkt te kloppen. Het loopt lekker logisch, het klinkt overtuigend. Maar misschien dan eens een keer een gevoel van hoe weet ik eigenlijk of dit klopt. En hoe komt het model hier eigenlijk op? En dat gevoel is terecht. En dat heeft een naam, dat is namelijk uitlegbaarheid of in het Engels explainability. Vandaag ga ik je meenemen waarom uitlegbaarheid met taalmodellen zo anders is dan dat we gewend zijn vanuit de machine learning. En wat je ermee in de praktijk kan doen. Eigenlijk voor de komst van de taalmodellen. Voor de introductie van ChatGPT, was het in die zin de uitlegbaarheid was eenvoudiger. Je had dan een model dat bijvoorbeeld beslist of een lening wordt goedgekeurd. En met die machine learning van een paar jaar geleden, dan kon je vragen: waarom kreeg deze persoon een nee? Trouwens, we kunnen dit nog steeds met de huidige machine learning even positionering en doen we even na ChatGPT, generatieve AI en daarvoor klassieke machine learning, die we nog steeds kunnen doen. Maar goed, we hadden dan dat je kon zien: waarom kreeg deze persoon een nee op een vraag of de lening zou worden goedgekeurd. En dan kon je zien bijvoorbeeld inkomen te laag schulden te hoog. En drie jaar geleden een betalingsachterstand. Dus je kon het echt aanwijzen, wat de reden was en je kon het ook uitleggen. Je kon eventueel ook verdedigen als iemand het er niet mee eens was. Dat werkte omdat die modellen met duidelijke kenmerken werkte. Je moet echt denken aan misschien wel 100 en 150 inputvariabelen, leeftijd inkomen postcode. En je kon als het ware de rekensom je teruglezen. Maar bij taalmodellen werkt dat niet meer zo. Een taalmodel zoals ChatGPT of Claude, die heeft geen lijst met kenmerken. Het heeft miljarden kleine verbanden geleerd uit enorme hoeveelheden tekst en het heeft zoveel gelezen dat het een soort van gevoel heeft gekregen voor hoe taal werkt, hoe ideeën samenhangen en dat logisch klinkt. Maar dat betekent dus ook, er is geen simpele rekensom die je als het ware terug kan uitrekenen. Dus vergelijk het met iemand die duizenden boeken heeft gelezen en je vraagt diegene iets en ze geven je een goed antwoord. Maar als je vraagt op welke pagina van welke boek stond dat kan je dat niet meer vertellen. Ze weten het gewoon. Het is zo verweven geraakt in wat je weet zelf bij taalmodellen. Dat maakt dus uitlegbaarheid echt wel anders. Wat voor type uitlegbaarheid zouden we in zekere zin kunnen aangeven bij taalmodellen dan. Eerste stap die je steeds vaker ziet, is bronvermelding. Perplexity doet het tegenwoordig ChatGPT ook. Dus steeds meer zakelijke tools doen dit. Het model geeft aan waar informatie vandaan komt en dat helpt enorm. En dat kunnen ze vooral doen omdat er zoekacties worden uitgevoerd. Dus ze weten precies of ze wel of niet een stukje tekst hebben gebruikt op die zoekactie. In het model zelf, daar weten ze echt helemaal niet meer wat de bron was van die stukjes tekst die die geeft. In ieder geval die bronvermelding, geef je de mogelijkheid om te controleren. Dus klopt dit is deze bron betrouwbaar, past het bij de context waar ik het voor gebruik. Is bronvermelding dan hetzelfde als uitlegbaarheid? Niet helemaal. Want je ziet wel waar de informatie vandaan komt. Maar je ziet niet waarom het model precies die bron koos. Welke afweging erachter zat, wat het wegstreepte en wat het dan meewoog. Dus je ziet het resultaat maar niet hoe het taalmodel aan het resultaat is gekomen. Dus niet het denkproces. Of toch niet. Wat daarom kom ik ook bij iets dat me steeds bezig houdt. Sommige modellen leggen stap voor stap uit hoe ze tot een antwoord komen. Je ziet het tussen aanhalingstekens denken, zou je bijna zeggen. Ze schrijven, eerst kijk ik naar dit dan weeg ik dat af en dan kom ik tot deze en deze conclusie. En dat voelt best wel heel prettig, alsof je kan meekijken. Je kan het gewoon meelezen. Maar goed, onderzoek van Anthropic, het bedrijf achter Claude. Die zelf deze taalmodellen maken, die laat iets opvallend zien. Namelijk, modellen zijn niet altijd eerlijk over hun eigen redenering. Ze produceren een logisch verhaal, omdat wij dat verwachten. Maar het verhaal is niet per se wat er echt in het model gebeurt. En denk aan een mens die achteraf zijn keuze uitleggen. Dan klinkt het rationeel. Maar hoe de beslissing werkelijk tot stand is gekomen, dat weet je niet. Soms weten we het zelf niet eens. Dat maakt die stap voor stap uitleg niet waardeloos. Want het helpt je vaak wel om betere antwoorden te krijgen. Maar beschouw het niet als een echte blik achter de schermen. Wat wel helpt, is structuur toevoegen aan de informatie waarmee je model werkt. Laat me dat even concreet maken. Stel, je hebt een AI-assistent voor je klantenservice. En die moet vragen beantwoorden over producten, garanties, levertijden. En als die assistent alleen maar getraind is op losse tekst en e-mails. Dan weet je nooit helemaal zeker waar een antwoord op gebaseerd is. Maar stel, je koppelt die assistent aan een gestructureerde database. Product A heeft garantie B. Categorie C heeft levertijd D. Expliciete feiten in een vaste structuur. Dan heeft het model een anker, zou je kunnen zeggen. En kan het terugverwijzen naar concrete gegevens. Het kan zeggen: ik baseer het op feit X uit bron Y. Jij kan controleren of dat klopt. Dat is geen perfecte uitlegbaarheid. Maar dat is in ieder geval een heel stuk beter dan een black box, een zwarte doos. En het hoeft ook niet ingewikkeld te zijn. Soms is een goed georganiseerde lijst al genoeg. Je hoeft geen complexe technische infrastructuur te bouwen om dit effect te krijgen. Maar goed, bij agents kan het wel lastiger worden. Dat zijn AI-systemen die niet alleen antwoord geven, maar ook acties uitvoeren. E-mail versturen, formulier invullen, zoekopdrachten uitvoeren. En daar wordt de uitlegbaarheid nog wel ietsje uitdagender. Ook daar onderzoek laat zien dat agents soms andere dingen doen dan je op basis van een uitleg zou verwachten. Ze zeggen A, maar doen B. En dat kan komen doordat de context verandert, of dat de omschrijving van een taak net niet scherp genoeg is. En wat betekent dat voor jou? Als je met agents werkt, moet je niet alleen kijken naar wat ze zeggen dat ze doen, je moet ook daadwerkelijk kijken wat ze daadwerkelijk uitvoeren. Monitoring is dan geen luxe, maar het is echt een basisvereiste. Laten we alles nou even praktisch maken. Dus als je AI inzet voor iets met weinig risico, samenvatting, eerst de draft idee op doen, dan is bronvermelding vaak genoeg. Je kan snel zien waar het vandaan komt en checken als je twijfelt. Maar als je AI inzet voor iets met meer gewicht, een rapport voor een klant, een beslissing in een proces, informatie die mensen echt gaan gebruiken, dan wil je meer. En dan wil je dat het systeem kan terugwijzen naar concrete feiten. En dan is die structuur gewoon belangrijk. En als je met agents werkt die zelfstandig dingen doen, dan wil je altijd kunnen zien wat ze doen, niet alleen wat ze zeggen. Dus de kern is pas het niveau van uitlegbaarheid. Pas het niveau van uitlegbaarheid aan op het risico, laag risico, eenvoudige controle, hoog risico, meer structuur en toezicht. Waarom is het nou belangrijk? Nou ja, als we eerlijk zijn over wat we wel en niet weten over hoe een systeem werkt, dan kunnen we ook veel bewuster kiezen welke technieken we inzetten. Kijk, uiteindelijk draait het natuurlijk om vertrouwen. We hebben niet de volledige controle over het taalmodel. En dat vertrouwen bouw je dus stap voor stap op. En de vormen van uitlegbaarheid afhankelijk van je risico, kan je behelpen. Dat was het voor deze week. Belangrijk natuurlijk altijd. Maar onmisbaar waar het past. Dankjewel weer voor het luisteren. Tot maandag.

Uitlegbaarheid bij taalmodellen: wat kun je echt weten?

Wat leer je in deze aflevering?

Kernbegrippen

Wat kun je morgen doen?

Transcript

Meer afleveringen