Alle afleveringen
S07E54 - De illusie van begrip: wat taalmodellen echt missen
S07E54

De illusie van begrip: wat taalmodellen echt missen

Seizoen 7 13 min Hosts: Joop Snijder & Niels Naglé
0:00

Wat leer je in deze aflevering?

In een recente aflevering van AIToday Live staat het onderwerp taalmodellen en de illusie van begrip centraal. De podcast bespreekt twee publicaties die de beperkingen van taalmodellen onderzoeken, waaronder een artikel van neurowetenschapper professor Veena Dwivedi en een onderzoek van Apple-onderzoekers.

De aflevering gaat in op het verschil tussen menselijk taalgebruik en de manier waarop AI-modellen tekst verwerken. Er wordt uitgelegd waarom taalmodellen geen echt begrip hebben, maar slechts patronen herkennen in data.

De presentatoren bespreken ook de nieuwste redeneermodellen en hun beperkingen bij het oplossen van complexe puzzels. Deze inzichten zijn relevant voor organisaties die AI-technologie willen inzetten.

01
Beperkingen van taalmodellen
02
Verschil tussen tekst en natuurlijke taal
03
Context en emotie in communicatie
04
Misleidende terminologie in AI

Kernbegrippen

Taalmodellen
AI-systemen die tekstpatronen herkennen en genereren zonder werkelijk begrip van betekenis.
Patroonherkenning
Het vermogen van algoritmes om regelmatigheden in data te identificeren zonder semantisch inzicht.
Contextuele betekenis
De afhankelijkheid van woorden en zinnen van omgeving, toon en non-verbale signalen voor juiste interpretatie.
Redeneermodellen
Geavanceerde AI-systemen ontworpen voor complexe probleemoplossing, met inherente beperkingen bij toenemende complexiteit.
Neurale netwerken
Computeralgoritmes geïnspireerd op biologische hersenen, maar fundamenteel anders in werking en capaciteiten.

Wat er gezegd wordt

Wat als ik je vertel dat dit begrip een illusie is.

Joop Snijder

Wij begrijpen niet alleen de woorden, maar ook de intentie erachter, de emotionele lading, de sociale context.

Joop Snijder

Transcript

Hoi, leuk dat je weer luistert naar de korte aflevering van AIToday Live. Mijn naam is Joop Snijder, CTO bij Aigency. En vandaag gaan we het hebben over redeneren van taalmodellen. Want heb jij wel eens het gevoel gehad dat je met een geavanceerde chatbot spreekt die jou echt begrijpt? Die perfect lijkt aan te sluiten bij wat je bedoelt en antwoorden geeft die zo mensen klinken dat je even vergeet dat je tegen een machine praat? Ik snap dat gevoel heel goed. Want deze systemen worden steeds beter in het nabootsen van menselijke communicatie. Maar vandaag wil ik je meenemen in een verhaal dat misschien je perspectief op deze taalmodellen chatbots misschien zal veranderen. Want afgelopen week las ik twee publicaties die me echt aan het denken hebben gezet. Ten eerste een artikel van professor, en ik hoop dat ik het goed uitspreek, Veena Dwivedi. Niet heel erg makkelijk. aan de Brock University, waarin ze uitlegt waarom het onmogelijk is voor taalmodellen om taal echt te begrijpen. En daarnaast kwam er een interessant onderzoek van Apple-onderzoekers uit over de beperkingen van de nieuwste redeneermodellen. En wat me zo opviel is hoe deze twee publicaties vanuit compleet verschillende hoeken tot best wel vergelijkbare conclusies komen. Het ene perspectief is geredeneerd vanuit de biologie en de evolutie van onze taal, Terwijl het onderzoek van Apple gebaseerd is op juist de technische werking van taalmodellen. En toch komen beide tot dezelfde conclusie over namelijk de illusie van begrip bij taalmodellen. Want achter die indrukwekkende conversatie schuilt een misverstand. En een misverstand dat zo diep geworteld is dat zelfs Nobelprijswinnaar Geoffrey Hinton, hij is een van de grondleggers van de moderne AI, zich nog steeds verbaast over hoe goed neurale netwerken natuurlijke taal lijken te begrijpen. Waarbij begrijpen tussen aanhalingstekens is. Want wat als ik je vertel dat dit begrip een illusie is. Dat zelfs de meest geavanceerde taalmodellen van vandaag de dag niet werkelijk begrijpen wat ze zeggen. Laten we beginnen met het punt dat professor Dwivedi, die neurowetenschapper, wat ik al zei aan de Brock University, naar voren brengt in haar onderzoek. Ze legt uit dat we vaak een vergissing maken. We verwarren tekst op een scherm met natuurlijk taal zelf. En dat klinkt misschien als haarkloverij, maar het verschil is enorm. Neem bijvoorbeeld de talen Hindi en Urdu. De professor schrijft dat als je deze talen hoort in een gesprek, ze grotendeels wederzijds verstaanbaar zijn. En mensen die Hindi spreken, kunnen Urdu-sprekers prima verstaan en andersom. Maar zodra je naar de geschreven vorm kijkt, zie je compleet verschillende schriftsystemen. En hetzelfde geldt voor Servisch en Kroatisch zegt ze. Gesproken, bijna identiek, maar geschreven in verschillende alfabetten. En dit toont aan dat taal veel rijker en dieper is dan alleen de visuele representatie ervan. Taalmodellen werken echter uitsluitend met die visuele representatie. Met tekst, symbolen en patronen op een scherm. Ze hebben geen toegang tot de contextuele laag die menselijke communicatie zo krachtig maakt. Kijk, stel je voor dat je vrouw of vriendin tegen je zegt Ik ben zwanger Drie simpele woorden Voor een taalmodel zijn dit gewoon tokens Die statistisch gerelateerd zijn aan andere tokens Delen van woorden Maar voor jou als mens verandert de betekenis compleet Afhankelijk van de context Is het een tina die in paniek haar vriendje belt over een ongeplande zwangerschap? Dan roept de zin totaal andere emoties en reacties op dan wanneer het een echtpaar betreft dat een jaren van vruchtbaarheidsbehandelingen eindelijk goed nieuws heeft. Of misschien was het wel gezegd door een oude persoon als grap. Exact dezelfde woorden, maar drie compleet verschillende betekenissen en emotionele ladingen. Wij mensen begrijpen dit omdat onze hersenen nooit zonder emotionele context werken. Elke communicatie die we hebben is doordrengt van persoonlijke ervaringen, emoties en de complexe sociale omgeving waarin we leven. We lezen lichaamstaal, horen de stemtonen, zien gezichtsuitdrukkingen. Het blijkt dat zelfs baby's, die nog geen taalexperts zijn, kunnen deze textuele signalen oppikken en interpreteren. Taalmodellen missen al deze lagen volledig. Ze zien alleen de tekst, geen toon, geen emotie, geen gedeelde geschiedenis tussen gesprekspartners. En dan hebben we nog een ander probleem, de terminologie die we gebruiken. Als we praten over neurale netwerken in AI gebruiken we bewust of onbewust termen die ons doen denken aan de menselijke hersenen. En dit is een gevaarlijke vergissing. De professor waarschuwt voor deze verwarring. Taalmodellen hebben namelijk neurale netwerken die computeralgoritmes zijn. Wiskundige formules die patronen herkennen in data. Ze hebben niets te maken met de biologische neurale netwerken in onze hersenen. En de menselijke hersenen zijn biologische organische systemen. Die zijn geëvolueerd over miljoenen jaren heen. Ze werken met biochemische processen, hormonen, complexe interacties tussen miljarden neuronen. Taalmodellen zijn wiskundige berekeningen die draaien op siliciumchips. Ze kunnen indrukwekkende resultaten leveren, maar het onderliggende mechanisme is fundamenteel anders. Dit brengt me bij een interessant onderzoek van de Apple-onderzoekers. Want zij hebben gekeken naar de nieuwste generatie AI-modellen, de zogenaamde Large Reasoning Models of Redeneer-modellen. En deze systemen zoals OpenAI's 01 claimen dat ze kunnen nadenken en redeneren voordat ze antwoord geven. En om dit verschil te begrijpen, kijk gewone taalmodellen zoals GPT-4 geven direct antwoord op je vraag. Ze genereren meteen tekst gebaseerd op wat ze hebben geleerd. Redeneermodellen daaraan tegen nemen bewust meer tijd. Ze genereren eerst een interne soort van gedachtengang. Een werkgeheugen waar ze stap voor stap door een probleem heen lopen voordat ze hun antwoord geven. Het is alsof je iemand vraagt om hardop te denken voordat ze antwoord geven. In seizoen 6 aflevering 76 over O-1 Preview hebben we al besproken hoe verleidelijk het is om te denken dat deze modellen echt redeneren. Ze schrijven zelfs dat ze 40 seconden hebben nagedacht over een probleem. Maar zoals we toen al zeiden, dat betekent dat ze 40 seconden hebben gerekend. Helemaal niet hebben nagedacht. En het Apple onderzoek onthult nog diepere problemen. Ze testen deze redeneermodellen op controleerbare puzzels zoals de torens van Hanoi. Je kent ze wel met die schijven en dat je die op de juiste manier moet verplaatsen. Volgens specifieke regels. Dit soort puzzels is perfect omdat je precies kunt meten of het model de logische stappen correct uitvoert. De resultaten waren verrassend en misschien ook wel een klein beetje onthutsend. Ten eerste ondervonden deze geavanceerde redeneermodellen een complete instorting van hun nauwkeurigheid bij toenemende complexiteit. Zodra de puzzels iets moeilijker werden, storten de prestaties volledig in, ondanks alle geavanceerde zogenaamde denkprocessen. En ten tweede vertoonden ze toch wel verschillende prestatiepatronen. Bij eenvoudige problemen presteerden de gewone taalmodellen, dus die direct antwoord geven zonder interne redenering, juist vaak beter dan de redenermodellen die eerst een hele denkstap doorlopen. En bij matig complexe problemen hadden de redenermodellen voordeel, maar bij hoge complexiteit faalden beide types even hard. Het meest verrassende was misschien wel de derde bevinding. Wanneer onderzoekers het exacte algoritme voor de puzzel in de pont graven. En dus letterlijk stap voor stap uitlegden hoe ze het probleem moesten oplossen. Verbeterde de prestatie niet. Zelfs met een complete handleiding faalden de modellen met dezelfde complexiteit. Dit vond ik wel echt wel verrassend. Want je zou verwachten dat het volgen van duidelijke instructies veel makkelijker zou zijn dan zelf een oplossing bedenken. Als iemand je precies vertelt, z schrijf A op paal B, dan schrijf C op paal A, dan hoef je eigenlijk alleen maar die stappen uit te voeren. En dat zou veel eenvoudiger moeten zijn dan zelf uitzoeken hoe je die puzzel oplost. Maar de redeneermodellen presteerden niet beter, zelfs niet met deze expliciete handleiding. Dit toont aan dat deze modellen serieuze beperkingen hebben in logische redenering. Ze kunnen zelfs simpele instructies niet betrouwbaar opvolgen wanneer een probleem te complex wordt. Dit alles brengt ons terug naar het centrale punt. Menselijk begrip is toch echt wel anders dan wat taalmodellen doen. En wij begrijpen niet alleen de woorden, maar ook de intentie erachter, de emotionele lading, de sociale context. Wij kunnen het tussen de regels doorlezen en aannames maken gebaseerd op onze levenservaring. In aflevering 16 van seizoen 6 hebben we zelfs gezien dat menselijke besluitvorming heel erg complex en soms heel irrationeel is. En dat onze eigen denkprocessen al heel erg lastig zijn te begrijpen. Want emoties spelen een cruciale rol in onze besluitvorming. En vaak rechtvaardigen we emotionele keuzes achteraf met logische redeneringen. En het maakt ons misschien niet altijd consistent, maar wel rijker en genuanceerder in ons begrip van de wereld. Taalmodellen missen deze emotionele component volledig. Ze kunnen emoties simuleren in hun output, maar ze voelen niks. En ze hebben geen persoonlijke ervaringen, geen angsten, geen hoop. Ze zijn in de woorden van professor Dwivedi sophisticated pattern matching machines. Oftewel hele geavanceerde patroonherkenningsmachines. Niet meer, maar ook niet minder. Wat betekent het allemaal voor hoe we taalmodellen in onze organisatie inzetten? Daarvoor is het belangrijk om te begrijpen wat ze wel en niet kunnen. Taalmodellen zijn uitstekend in het herkennen van patronen. Het genereren van coherente tekst en het uitvoeren van repetitieve taken. Ze kunnen ons helpen met onderzoek, eerste versies van teksten schrijven en complexe datasets analyseren. Maar ze begrijpen niet wat ze doen in de menselijke zin van het woord. Dit betekent dat we voorzichtig moeten zijn met het toeschrijven van menselijke eigenschappen aan deze systemen. Ze denken niet, ze begrijpen niet en ze hebben geen echte intenties. Ze zijn krachtige tools die patronen kunnen herkennen, manipuleren, maar ze missen echt het diepere begrip dat menselijke communicatie zo rijk maakt. Betekent dit dat taalmodellen waardeloos zijn? Zeker niet. Maar het probleem ontstaat wanneer we hun capaciteiten overschatten of verwachten dat ze dingen kunnen die ze fundamenteel niet kunnen. Dus, de volgende keer dat je in gesprek bent met een geavanceerd taalmodel en het lijkt alsof het systeem je echt begrijpt, onthoud dan wat je vandaag hebt gehoord. Het is een indrukwekkende imitatie van begrip, maar echte begrip, dat blijft iets puur menselijk. de gebruikte bronnen vind je in de show notes en bedenk AI is niet de oplossing voor elk probleem maar onmisbaar waar het past tot de volgende keer