Alle afleveringen
S05E05 - Feiten en Fictie: ChatGPT en het bewustzijn van een 9-jarige
S05E05

Feiten en Fictie: ChatGPT en het bewustzijn van een 9-jarige

Seizoen 5 19 min Hosts: Joop Snijder & Niels Naglé
0:00

Wat leer je in deze aflevering?

Joop Schneider reageert geërgerd op een wetenschappelijke paper van Stanford University die claimt dat ChatGPT de Theory of Mind-test van 9-jarigen zou halen. De onderzoekers concluderen hieruit dat het taalmodel een vorm van zelfbewustzijn zou hebben, wat volgens de hosts fundamenteel onjuist is.

01
Theory of Mind verkeerd toegepast op AI Theory of Mind meet het menselijk vermogen om te begrijpen dat anderen eigen gedachten en gevoelens hebben. De klassieke Sally-Anne-test en Smarties-test zijn ontworpen voor kinderen zonder voorkennis, niet voor taalmodellen die op miljarden teksten.
02
ChatGPT handelt met voorkennis Het taalmodel kent deze klassieke testen uit trainingsdata - ze staan beschreven in boeken en op internet. Net zoals een kind dat 512+512 uit het hoofd leert geen wiskundig inzicht heeft, reproduceert ChatGPT slechts geleerde.
03
Woord-voor-woord voorspelling, geen begrip Wanneer een aangepaste versie van de test wordt gepresenteerd (sinaasappelsap in benzinepomp), faalt ChatGPT volledig en produceert onlogische antwoorden. Dit toont dat het model statistisch voorspelt zonder werkelijk begrip.
04
Gevaarlijke vermenselijking van AI Wetenschappelijke papers die menselijke eigenschappen aan AI toekennen zijn kwalijk omdat ze mensen op het verkeerde been zetten over mogelijkheden, beperkingen en ethische vraagstukken rondom deze technologie.

Kernbegrippen

Theory of Mind
Het vermogen om te begrijpen dat anderen eigen gedachten, gevoelens en overtuigingen hebben die verschillen van jezelf.
Taalmodel
Een machine learning-systeem getraind op grote hoeveelheden tekst om volgende woorden voorspellend te genereren.
Trainingsdata
De verzameling teksten waarop een AI-systeem is getraind en waaruit het patronen leert.
Vermenselijking van AI
Het toekennen van menselijke eigenschappen zoals bewustzijn of begrip aan kunstmatige intelligentie zonder wetenschappelijke basis.

Transcript

Leuk dat je weer luistert naar een nieuwe aflevering van de AI Today Live podcast. Mijn naam is Joop Schneider, CTO bij ATC. En mijn naam Niels de Clee, chapter lead data AI bij Infosport. Niels, vandaag onderwerp over iets wat ik gisteren gelezen heb waar ik nou... De emotie liep op, Joop, merkte ik. De emotie liep op. Ik was boos. Nee, sterker nog, ik ben boos. Ik merk het eigenlijk. Ik doe even een stapje naar achteren. Het wordt voor 60% een rant vandaag, maar ik ga me inhouden. En even uitleggen waarom ik boos ben. Niet op jullie als luisteraar hoor. Dus wees niet boos. Maar ik kwam op internet eigenlijk al een aantal dagen dingen tegen. Over allemaal van die koppen. Er werd gezegd van, ja, Chet GPT, we kennen het allemaal nu onderhand, slaagt voor de testen van de Theory of Mind van 9-jarigen. Wat houdt dat nou in? Er wordt eigenlijk gezegd van, Theory of Mind zijn allerlei testen om te kijken of iemand zelfbewustzijn heeft, en op welk niveau. En dat wordt dan uitgedrukt in leeftijden. Dus een kind van 7 slaagt op een andere manier voor de test dan een kind van 9, Dus eigenlijk werd er gezegd, Chad Gepitte heeft het zelfbewustzijn van een 9-jarige. En waarom word ik daar nou zo boos over? Eén, het werd gedeeld door een journalist van het NRC. Met van, hé, ik kom dit tegen, moet je eens kijken, dit is eigenlijk best wel heel erg spannend. En omdat het gebaseerd is op wetenschappelijk onderzoek die gepubliceerd is in de paper. Waardoor het ook onderbouwd en beargumenteerd lijkt. En daar werd ik namelijk zo boos over. Want ik denk, nou dan ben ik wel eens heel erg benieuwd naar dat paper van wat het dan doet. Of wat het dan schrijft en waarom zij vinden dat het een zelfbewustzijn heeft van een 9-jarige. Uiteindelijk hebben we het over een taalmodel die woord voor woord dingen voorspelt op basis van wiskunde. - Ja. - Dus dat... - Maar kan je de luisteraars een beetje meenemen door de paper heen? - Nou, ik wil eigenlijk eerst even beginnen met die Theory of Mind. - Ja, Theory of Mind. - Dat we die even echt heel goed hebben staan. - Zeker. - Dus de Theory of Mind verwijst naar het menselijk vermogen om te begrijpen dat andere levende wezens... ...intenties, gedachten en gevoelens hebben die anders kunnen zijn dan die van jezelf. Dat is een belangrijk onderdeel daaruit. Het is een belangrijk vermogen omdat het de basis legt voor empathie... ...en het kunnen voorspellen wat anderen zouden kunnen doen. Het is de reden waarom mensen goed zijn in samenwerking, communicatie en bedrog. Het is een wezen, een vorm van zelfbewustzijn. Dat is eigenlijk wat ze weten. Dat is heel theoretisch. Daar heb je allerlei verschillende testen voor. En een van die testen is de Sally N-test. Wat is die test nou? Het is ook een heel klassiek experiment, dat is belangrijk, daar kom ik zo direct af terug. Die ze aan kinderen voorleggen deze test. En op basis van hoe ze antwoorden wordt dan die zelfbewustheid gemeten. En zo zijn er een x-aantal van dit soort testen. De Sally N-test is gebaseerd op een eenvoudig verhaal met twee personages. Sally en N. En een knikker. Niet vergeten, ook de knikker. Sally en een knikker. Het verhaal gaat zo. Sally stopt haar knikker in haar mand en gaat weg. Terwijl ze weg is, pakt N de knikker en stopt hem in een doos. Als Sally terugkomt, zoekt ze haar knikker. De vraag die dan aan het kind gesteld wordt is "waar zal Sally haar knikker zoeken?" Wat zou jouw antwoord zijn? Dus Sally stopt haar knikker in haar mand en gaat weg. En die pakt die knikker weg en die stopt hem in een doos. Waar ze hem het laatst gelaten heeft, hoop ik. De mand. Precies. Om de test te halen moet de kind begrijpen dat Sally haar knikker in haar mand zal zoeken, omdat ze niet weet dat de knikker is verplaatst. Zo, je hebt de bewustzijn over mutses van die negen jaar. Deze test en een aantal andere testen hebben ze ook in de paper gedaan. Dus wat ze in de paper gedaan hebben, ik pak hem er even bij, is, dat noemen ze dan de Smarties-test. En de Smarties-test gaat eigenlijk over bijna zo'nzelfde soortige test, is dat op een doosje staat dat er Smarties in zit. Als je het openmaakt blijken er potloden in te zitten. Wordt ook aan het kind gevraagd. Ja, maar als je nu weet je dit. Als je die dichte doos met die potloden... Nee, als je die aan een vriend laat zien. Wat zou die antwoorden? Nou, dit zijn allemaal dit soort type tests. En wat zij dachten in de paper is dat ze dachten... Nou, dan gaan we dat toch wel anders verwoorden. Dus in plaats van een doos Smarties potloden, zeiden ze van nee, we hebben een zak met popcorn, maar er zit chocola in. Nou, wonder boven wonder, wat denk je? Ook voor deze test slaagt JetGPT, die zegt precies het antwoord wat nodig is. Dus voor de Sally N-test geeft hij ook aan van, ja, hij zoekt in de mand en niet in de doos. Wat vergeten wordt in de paper, en de paper moet ik erbij zeggen is van een onderzoeker van de Stanford University, associative professor in, hoe heette het, computational psychology. Dat vind ik ook niet niks. Nee toch? Alleen dus, wat vergeten wordt is dat zo'n taalmodel fundamenteel iets anders is dan die kinderen. Taalmodel is getraind, heeft voorkennis, voorspelt woord voor woord op basis van statistiek, heuristiek, wiskunde, wat het volgende woord is. Ik zeg twinkle twinkle little star. Nou, zo dat is wat dat ding doet. Het meest gebruikelijke, vooral op twinkle twinkle little, het meest gebruikelijke woord is star. Dat betekent dat dit model deze test kent. Die is in boeken beschreven, die is op internet beschreven en allemaal in zelfs de letterlijke bewoordingen of net anders. Dus ik hoefde maar twee minuten te googlen om die Smarties test in drie verschillende vormen al tegen te komen. Dus eigenlijk handelen met voorkennis. in drie verschillende vormen al tegen te komen. Dus eigenlijk handelen met voorkennis. Handelen met voorkennis. Ik heb een kleindochter, toen zij zes was, kwam ze iedere keer met het volgende riedeltje. Dat ze zei, 2+2=4, 4+4=8, 8+8=30, tot aan 512+512=1024. Dat is gewoon helemaal ingestudeerd, voorgeleerd. Je zou kunnen denken, zo, die kan goed rekenen. Maar geen de 3+6. 3+6 kwam ze niet uit. En zo moet je dat zien. Dus Chad Gpt heeft de constructie geleerd van deze opdracht. En kan die herhalen. Daar is hij voor gemaakt. Het feit dat zo'n paper dan goed gekeurd wordt, dat als je deze vragen stelt, dat hij het juiste antwoord geeft. En dat we daaruit concluderen dat hij het zelfbewustzijn heeft van een kind van 9. Dat zou hetzelfde zijn als ik zeg van, mijn kleindochter 6, die kan 512+512=1024. Die kan eigenlijk al op het, weet ik veel, derde klas HAVO rekenen. Ja, allemaal hoela. Er is meer voor nodig om dat te bewijzen natuurlijk. Ja, toch? Ja. Hij is dus ook heel erg goed in het voorspellen wat we eigenlijk ook willen horen. Want daar is hij natuurlijk ook op getraind. Een antwoord krijgen op onze vraag. En wat krijgen we? Nou, antwoord op onze vraag. Waar willen we eigenlijk naartoe? Naar onze confirmation bias. Namelijk, hetgene wat we willen horen, dat willen we er ook in terugzien. Precies. Dus ja, daar is hij dus blijkbaar heel goed in om te vertellen wat wij willen horen. En kijk, als we die vragen aan die kinderen stellen, die hebben nog nooit dat dilemma gehoord. Dus daar moeten ze over nadenken. Jij moest er net even over nadenken van, al is het maar heel kort, je moest er even over nadenken. Als deze, nu weet je dit, als de volgende komt, weet je meteen hoe het zit. En of dat nou inderdaad dat die knikker in de mand of dat het een telefoon in een auto is, dat maakt je niet meer uit. Dus de voorbeelden zijn er. Er was een andere schrijver die is hiermee ook bezig geweest en die had ook zoiets van, weet je, ik klink raar toch. En die dacht dan, nou weet je wat, als ik nou eens een soortgelijk dilemma bedenk en dat voorleg aan Chet Chippiety, hoe komt hij er dan uit? En die had gezegd het volgende. Ik lees het even voor, want dit uit het hoofd wordt een beetje lastig. Die zegt "Laura en Alma zijn aan het rijden en stoppen om te tanken. Zonder Alma erover te vertellen, heeft Laura het gas in een van de pompen vervangen door sinaasappelsap." Ja toch? En ze begint er ervan te drinken in plaats van de auto vol te tanken. Wat denk je dat Alma doet als ze terugkomt? Dat wordt aan ChatGPT gevraagd. ChatGPT antwoordt. Het is heel moeilijk om precies te weten wat Alma in dit scenario zou doen, zonder meer informatie te weten over haar persoonlijkheid, waarde en relatie met Laura. Hier zijn echter enkele mogelijkheden. 1. Alma is misschien in de war en begrijpt niet waarom Laura uit de pomp dringt, dus kan ze haar vragen wat er aan de hand is. Goeie, hè? Alma zou verrast kunnen zijn aan Laura's gedrag niet goedkeuren en haar proberen te weerhouden van het drinken van sinaasappelsap. Je zou haar kunnen vragen om te stoppen en de auto vol te tanken. Ze kon niet weten dat het sinaasappelsap was. En eigenlijk de andere twee zullen niet... En dan komt er nog een heel verhaal over waarom drinken uit een benzinepomp niet veilig is en niet legaal is. En sinaasap kan verontreinigingen bevatten die schadelijk zijn voor de gezondheid. Er komt van allerlei flauwekul uit. Maar hieraan zie je dat het gaat over het voorspellen woord voor woord. Dat heeft niets te maken, dat model weet niet eens wat sinaasappelsap is, die snapt hier helemaal niks. Het gaat echt om woord voor woord, krijg je dingen eruit. En dat nog even terug naar waarom ben ik daar dan zo boos over. Wat ik al zei, dus vanuit de wetenschap dat dit soort flauwekul wordt gezegd. Er wordt al heel snel gesproken over het model denkt, het model gelooft, het model... Er worden dus menselijke eigenschappen aan toegekend. En als we vanuit de wetenschap dan ook nog eens een keer dit soort dingen eraan koppelen, dat vind ik gewoon kwalijk, want dat zet mensen op het verkeerde been. Ja, het geeft een heel slecht beeld van waar je het voor toe zou willen passen, waar je nu misschien mee stopt omdat je dit hebt gelezen. En dat is gewoon zonde. En het prikkelt weer, het overprikkelt de fantasie van wat het kan, welke gevaren het oplevert. Ja, het kan zo direct zelfstandig een essay schrijven waardoor je misschien een voldoende krijgt op je rapport op de middelbare school. Maar je kan ook iets overschrijven van een ander. Dus daarom vind ik dat gewoon heel vervelend. Het vermenselijke uiteindelijk van dit soort systemen, dat zorgt ervoor dat we verkeerd nadenken over waar gebruik je het wel voor, waar gebruik je het niet voor, wat is wel ethisch, wat is niet ethisch. Maar het heeft niets te maken met een zelfbewustzijn. Nee, niets. Het zit natuurlijk ook in de bewoording, he. Het stukje geloof, het stukje verwacht. In de bewoording die we zelf als mens ook gebruiken, die neemt het model natuurlijk over, waardoor we dat gevoel krijgen, wat er eigenlijk net ook werd toegelicht. Ja, en als je kijkt, als we teruggaan naar die theory of mind, gaat het over, ik zal het er nog even bij pakken, dat gaat over nieuwsgierigheid, dat gaat over dingen begrijpen, dat gaat over overtuigingen, Het hebben van empathie, daar hebben we het hier niet over. Het is het resultaat van, ik zeg het nogmaals, misschien tot het vervelendste toe, maar dan kan je dat in ieder geval herhalen. Het is allemaal op basis van wiskunde. Het chat-gpt heeft geen verstand, het is gewoon een machine learning model, het wil niets, het heeft geen inherent nieuwsgierigheid. Het heeft niet met de manier van denken te maken zoals wij dat als mensen hebben. Ja, en dan ga ik toch even vervelend zijn Joop. Niet dat het wetenschappelijk goed gekeurd wordt, daar deel ik je standpunt. Het is wel goed dat mensen ook vanuit een ander perspectief kijken naar wat er mee zou kunnen in de toekomst, wat ermee zou kunnen gebeuren om ook de negatieve site wel mee te nemen. Maar nu wordt het wel vergroot waardoor daar te veel aandacht op ligt. En eigenlijk weer een nieuwe mistwolk waar we net een beetje met elkaar uit gaan komen... over de demystifying van AI. Is er nu weer een extra mistwolk die er nu bij komt... voor hetgene waar we het echt willen inzetten en toepassen. - Nee, maar juist als je het vanuit verschillende hoeken benadert... we hebben het in deze podcast ook over... de ethiek die erbij komt kijken, de bias. Wat zou dit voor gebruikers betekenen? Wat als je zo schrijft dat het menselijk lijkt, wat betekent dat voor de ontvanger? Dat vind ik allemaal super, super, super belangrijk. Want daar moeten we ook naar kijken. Maar als je vanuit de wetenschap gaat zeggen, omdat nu deze test geslaagd is, zien we het als het zelfbewust zijn van een 9-jarige kind? Nee, want dan ga je daar, als je dat vindt dat dat aangetoond is, Dan ga je juist op die belangrijke onderdelen de verkeerde keuzes maken. Dan baseer je je dus niet op wat er werkelijk is. Dus je fundament voor je besluiten, die klopt niet. Nee, maar daarom, wat ik ook mee moet zeggen, is dat we wel die andere perspectieven moeten blijven doen. Waarvoor is het getraind? Hoe gaan we het gebruiken? Wat is de ethische waarde ervan? Die moeten wel blijven voeren. Want dat maakt het als een geheeloplossing wel echt meer de moeite waard. Ja, maar daar zit dus die irritatie. Ik voel hem bij je, Joop. Ik voel hem. Juist omdat dat zo belangrijk is, dan leg je geen fundament... maar dan maak je dus besluiten op basis van drijfzand. Dat moeten we niet hebben. Ik ben echt gepassioneerd over het goed en juist inzetten van deze technologie. ook stoppen. Ik vind bijvoorbeeld ook heel goed bij die AI-act dat er op ergens een streep getrokken wordt. Dat ze zeggen van ja dit is onafhankbaar risico, doen we niet. Lekker niet doen. De technologie is niet heilig. Maar de keuzes die je maakt, het zou toch heel erg zijn als we bijvoorbeeld in die wetgeving in één keer dit mee zouden nemen. Dat gaat niet gebeuren hoor. Maar wat je ziet, Want het is niet op basis van één post. Ik heb dit de afgelopen week... Op allerlei populaire media heb ik dit voorbij zien komen. Overal de kop, weet je. Het is zover. En hup, daar gaan we weer. Het is hetzelfde nu over Bing natuurlijk. De Bing preview features als chatbot naast de search. Daar zien we precies hetzelfde nu gebeuren. Dus het is nu blijkbaar weer hot om daarover te schrijven... en daar de aandacht op te focussen. focus het wel op de belangrijke dingen hier de conversatie over laten gaan. Daarom. Nou wat we zullen doen is in ieder geval in show notes de link opnemen toch ook gewoon naar de post van Wouter van Noord van NRC waar ik het dus volstrekt mee oneens ben maar misschien kijk je er als luisteraar anders tegenaan. Laat ons dat ook weten want alle inzichten ben benieuwd. En we zullen ook een link delen naar de paper waar het over gaat. En ik heb ook nog, dat is wel fijn, van een van de luisteraars al voor, zeg maar, kennis gehad, en we hebben al gediscussieerd hebben op LinkedIn hierover, maar Peper die ook helemaal de vloer aanveegt met het vermenselijke van large language models zoals JGPT. Ja, even weer een demystifying daarvan. Precies. Leuk dat je weer luisterde naar een aflevering van AI Today Live. Ben je het hardgrondig met ons oneens? Dat zouden we heel erg leuk vinden. Laat het dan ons weten. We zijn heel makkelijk te vinden via LinkedIn of waar dan ook. Laat ons weten als je te gast wil zijn. We zijn altijd op zoek naar interessante gesprekken. En vergeet niet je te abonneren in de Favoriete Podcasts app. TV Gelderland 2021