Shorts - Wordt ChatGPT steeds dommer?

Welkom terug bij een nieuwe aflevering van AIToday Live Short. Vandaag wil ik de uitkomsten vertellen van een recent onderzoek van wetenschappers aan Stanford en Berkeley dat een intrigerende vraag stelt. Hoe verandert het gedrag van ChatGPT in de loop der tijd? Je luistert naar AIToday Live Short waarin ik je in 5 minuten op de hoogte breng van actuele kwesties op het gebied van de wereld. Met de introductie van ChatGPT is er een nieuwe realiteit ontstaan en zijn er nieuwe gave mogelijkheden bijgekomen voor ons. Microsoft's nieuwe Bing en OpenAI's ChatGPT stonden natuurlijk aan de frontlinie, terwijl andere bedrijven zoals Google met Bart op de voet volgden met vergelijkbare modellen. Terwijl OpenAI druk bezig is met het uitbrengen van nieuwe updates en functies voor zijn chatbot, onderzoekers van Stanford een nieuwe ontdekking gedaan, namelijk "ChatGPT is de afgelopen maanden mogelijk domger worden". Dus dat is best interessant. Het paper "How is ChatGPT's behavior changing over time?" laat zien hoe de belangrijkste functionaliteiten van de chatbot in de afgelopen maanden zijn verslechterd. En om te bepalen of ChatGPT in de loop der tijd beter of slechter werd hebben de onderzoekers de volgende technieken gebruikt om de mogelijkheden ervan te beoordelen. Ze hebben gekeken naar het oplossen van wiskundige problemen, het beantwoorden van gevoelige, zeker gevaarlijke vragen en het genereren van code en visueel redenier. Ze konden indrukken dat de genoemde taken zoveel mogelijk waren geselecteerd om de diverse en nuttige mogelijkheden van deze large language models te vertegenwoordigen. Maar ze kwamen later tot de conclusie dat de prestaties en het gedrag volledig verschillend waren tussen de verschillende versies. Ze merkten ook op dat hun prestaties op bepaalde taken zelfs negatief werden beïnvloed. Wat is er nou veranderd? Kort gezegd zijn er veel interessante verschuivingen die je ziet in korte tijd waar ze naar gekeken hebben. Bijvoorbeeld als je kijkt naar de maart 2023 versie van GPT-4, die was bijvoorbeeld erg goed in het identificeren van primgetallen. Zelfs met een nauwkeurigheid van ruim boven de 97%. Maar dus diezelfde GPT-4, maar de juni versie, daar zitten we van maart naar juni, was zeer slecht in precies diezelfde vraag. Die had nog maar een nauwkeurigheid van 2,4%. En interessant genoeg was GPT 3.5 in juni veel beter dan de versie van GPT 3.5 in maart. Deze precies dezelfde taak. Heel bijzonder toch? Ik denk dat een van de redenen voor deze verandering in prestaties en gedrag kan liggen in wijzigingen of misschien zelfs het weglaten van trainingsgegevens. En mogelijk vanwege de auteursrechtelijke kwesties. In een eerdere aflevering sprak ik al over de class-action-rechtzaak die momenteel in de VS gaande is over het gebruik hiervan door OpenAI en Meta om hun modellen te trainen. En ja, je kan je voorstellen dat OpenAI al veranderingen aan het doorvoeren is vanwege een mogelijke uitspraak, dat auteursrechtelijk beschermd materiaal zodra ik niet meer gebruikt mag worden door ze. En nou ja, dat betekent dan uiteraard een significante verandering in de trainingsgegevens, verschillen in de prestaties van deze modellen kan verklagen wat mij betreft. Deze bevindingen hebben behoorlijk wat impact wanneer je large language models in je organisatie wilt gebruiken of al gebruikt. De bevindingen van de onderzoekers tonen aan dat het gedrag van GPT 3.5 en GPT 4 aanzienlijk is veranderd in relatief korte perioden. Dit zal zodracht ook gelden voor een BART en welke dan ook. Dit benadrukt wat mij betreft de noodzaak om het gedrag van large language models in producties voortdurend te evalueren en te beoordelen. Voordat we afsluiten is het belangrijk om enkele kanttekeningen bij de bevindingen te maken van deze onderzoekers. Het paper is gepubliceerd op archive.org. Ik zal trouwens een link even in de beschrijving zetten. archive.org is een platform dat bijna alle door gebruikers geschreven papers accepteert die voldoen aan hun richtlijnen. En zoals veel papers op die site is ook dit specifieke paper nog niet gepair-reviewed of gepubliceerd in een ander gerenommeerd wetenschappelijk tijdschrift. Nou heeft wel een van de auteurs, die heeft al aangegeven dat ze van plan zijn om het te beoordelen en in te dienen. Maar let op, Maar dit is dus wel een belangrijke kanttekening. Wat kunnen we sowieso concluderen is voor gebruikers of bedrijven die vertrouwen op chatgpt en andere large language models dat ja, weet je, ik raad in ieder geval aan om vergelijkbare monitoring en analyse te implementeren zoals je doet voor andere AI toepassingen, zodat je verandering van gedrag en performance altijd kan meten en opmerken. Blijf luisteren voor meer nieuws en onderzoek op het gebied van AI. Mis geen aflevering, abonneer je in je favoriete podcast app. Dankjewel voor het luisteren!

Shorts - Wordt ChatGPT steeds dommer?

Over deze aflevering

Beluister op

Bronnen

Transcript

Thema's

Gerelateerde afleveringen