Wat leer je in deze aflevering?
Joop Snijder en Niels Naglé bespreken in deze aflevering van AIToday Live negen hardnekkige mythes over large language models (LLMs). Ze belichten de complexiteit van deze AI-technologie en ontkrachten misvattingen over de capaciteiten en beperkingen van LLMs.
De hosts gaan in op onderwerpen zoals de veelzijdigheid van LLMs, het belang van menselijke input en de verschillen tussen diverse modellen. Ze behandelen ook de relatie tussen LLMs en menselijke creativiteit, en de noodzaak om modellen zorgvuldig te selecteren op basis van specifieke organisatiebehoeften.
Kernbegrippen
- Large Language Models (LLM's)
- AI-systemen die tekst genereren op basis van patronen in trainingsdata, bruikbaar voor diverse toepassingen.
- Fine-tuning
- Het aanpassen van een voorgetraind model met bedrijfsspecifieke data voor betere prestaties.
- AI-gegenereerde content detectie
- Het identificeren of tekst door een mens of AI is geschreven; technisch zeer uitdagend.
- Hallucination
- Wanneer een LLM vertrouwenswekking maar onjuiste of verzonden informatie genereert.
Wat er gezegd wordt
Het is wij als software ontwikkelaars gebruiken large language models... niet alleen bijvoorbeeld om code te schrijven, maar ook om bestaande code te analyseren, bugs op te sporen en documentatie te genereren.
Joop SnijderHistorisch gezien vervangen nieuwe technologieën zelden menselijke creativiteit; ze verrijken en transformeren haar eerder.
Joop SnijderTranscript
Hoi, welkom bij de korte aflevering van AIToday Live, de podcast die je helpt om AI beter te begrijpen en toe te passen. Vandaag gaan we in op mythes en misverstanden rondom large language models, oftewel LLMs. Mijn naam is Joop Snijder en ik ben CTO bij Aigency. Sinds de komst van ChatGPT hoor ik vaak verhalen over wat deze large language models, AI systemen wel en niet kunnen. Sommige kloppen, andere zijn pure fictie. En in deze aflevering ga ik negen best wel hardnekkige mythes ontkrachten, zodat je begrijpt wat deze technologie echt kan betekenen voor jou en je organisatie. Laten we starten met mythe nummer 1, waarbij LLMs, large language models, zijn gewoon geavanceerde chatbots. Als je denkt aan large language models, denk je waarschijnlijk meteen aan ChatGPT. Logisch, want voor de meeste mensen was dit namelijk hun eerste kennismaking met deze technologie. Maar LLMs reduceren tot chatbots is als zeggen dat een smartphone alleen een telefoon is. De werkelijkheid is veel rijker en complexer. Naast de chat kan het ontzettend veel meer. Het is wij als software ontwikkelaars gebruiken large language … niet alleen bijvoorbeeld om code te schrijven, maar ook om bestaande code te analyseren, bugs op te sporen en documentatie te genereren. In de marketing helpen deze modellen bij het analyseren van klantfeedback en het personaliseren van content voor verschillende doelgroepen. Je kan denken aan het vertalen van technische handleidingen in verschillende talen waarbij je specifieke vaktermen correct blijft behouden. Een andere bijzonder krachtige toepassing vind je ook in de klantenservice waarin large language models binnenkomende vragen automatisch categoriseren en routeren. Waardoor menselijke medewerkers zich kunnen concentreren op de meer complexe gevallen die echt menselijk inzicht vereisen. Dus het gaat heel veel verder dan alleen de chat. Dan naar mythe nummer 2. Large language models hebben geen menselijke input nodig. Deze mythe is misschien wel de gevaarlijkste omdat ze een volledig verkeerd beeld schets van hoe deze technologie werkt. Large language models zijn geen autonome breinen die zelfstandig opereren. Ze zijn juist diep verweven met menselijke input en sturing. Denk aan het trainen van een large language model als het schrijven van een encyclopedie. De kwaliteit van het eindresultaat hangt volledig af van welke bronnen je selecteert, hoe je ze organiseert en wie bij dat redactieproces de begeleiding uitvoert. Bij large language models is dit niet anders. Dus mensen selecteren, cureren de trainingsdata en bepalen welke bronnen betrouwbaar zijn en welke niet. En stellen de parameters in die bepalen hoe het model leert. Maar zelfs na die initiële training blijft menselijke input cruciaal. Tijdens het fine-tunen. Ik heb een aflevering gemaakt over reinforcement learning with human feedback. Waarbij uitgelegd is dat mensen met gegeven feedback op het output van het model en zo krijg je uiteindelijk een large language model die het veel beter begrijpt. Nummer 3. Alle large language models zijn hetzelfde. Nou, dit is absoluut niet waar. Dus ook weer hier in de vorige aflevering, de onzichtbare leraar, besprak ik al hoe reinforcement learning with human feedback werkt bij het trainen van AI-modellen. En wat daar duidelijk werd, is dat elke AI-aanbieder zijn eigen unieke aanpak heeft in dit proces. En dit verklaart waarom JetGPT, Claude, Gemini, ook al zijn ze getraind op vergelijkbare databronnen, toch heel verschillende persoonlijkheden, eigenlijk capaciteiten ontwikkelen. Dus het hangt er helemaal van af hoe uiteindelijk het toplaagje erbij getraind is wat het large language model als goede output ziet. Het is vergelijkbaar met hoe verschillende autofabrikanten allemaal toegang hebben tot dezelfde basistechnologie, maar toch heel verschillende voertuigen kunnen produceren. Deze verschillen zijn niet toevallig. Ze zijn het resultaat van bewuste keuzes in het ontwerpproces. Sommige modellen zijn geoptimaliseerd voor snelheid, andere voor nauwkeurigheid en weer andere, hele specifieke toepassingen zoals codering of wetenschappelijke analyse. Dat betekent dat de keuze van een large language model sterk zou moeten afhangen van jouw specifieke gebruik en jouw specifieke behoeftes. Nummer 4. LLMs vervangen menselijke creativiteit. Deze mythe raakt natuurlijk aan een diepgewortelde angst die we bij elke technologische revolutie zien terugkomen. Maar de geschiedenis leert ons best wel iets belangrijks. Namelijk nieuwe technologieën vervangen zelden menselijke creativiteit. Ze verrijken en transformeren haar eerder. Dit komt omdat menselijke creativiteit denk ik iets bijzonders en constant in ontwikkeling is. Als soort zijn we niet alleen handig in het gebruik van gereedschap, maar ook meestelijk in het vinden van nieuwe manieren om juist deze nieuwe gereedschappen in te zetten. En voor mij zijn large language models simpelweg nieuwe gereedschappen, nieuwe tools. En het is nu aan ons om te leren hoe we ze kunnen gebruiken om juist onze creativiteit te vergroten. Kijk naar de geschiedenis. Elke keer dat er een nieuwe technologie verscheen was er angst dat deze menselijke vaardigheden zou vervangen. Toen fotografie werd uitgevonden vreesde schilders dat een kunst overbodig zou worden. Maar in plaats daarvan ontstonden juist nieuwe kunstvormen, nieuwe expressievormen. Toen synthesizers werden geïntroduceerd was er angst dat ze traditionele muziekinstrumenten totaal zouden vervangen. In plaats daarvan hebben ze het muzikale landschap juist verrijkt met nieuwe mogelijkheden. Dus LLM zijn het nieuwste gereedschap in onze creatieve gereedschapskist. Ze kunnen ons helpen bij het genereren van ideeën en het verkennen van nieuwe perspectieven. Ze zijn geen vervanging van menselijke creativiteit, maar juist een katalysator die ons helpt nieuwe creatieve hoogtes te bereiken, wat mij betreft in ieder geval. De laatste mythe voor vandaag gaat over dat je altijd het beste topmodel nodig hebt voor je bedrijf. In de wereld van AI-modellen zijn er constant nieuwe releases en updates. En elke keer als er een nieuw model uitkomt, zien we indrukwekkende scores op allerlei leaderboards. Over metrieken, alles is dan beter, mooier, sneller. Maar deze scores zijn als laptop recensies in een technologieblog en ze vertellen maar een deel van het verhaal. De werkelijkheid is dat het tussen aanhalingstekens beste model een relatief begrip is. Een model dat uitblinkt in het schrijven van poëzie is mogelijk niet het beste voor het analyseren van financiële data, toch? En een model dat perfect is in het genereren van code is misschien niet het meest kosteneffectief voor het beantwoorden van eenvoudige klantvragen. Het is belangrijk om te kijken naar de specifieke behoeften van je organisatie. Wat zijn je gebruikerscenario's? Wat is je budget? Hoe zit het met integratiebehoeften, beveiligingseisen? Een klein gespecialiseerd model dat perfect aansluit bij jouw behoeften is vaak een betere keuze dan het nieuwste, grootste, duurste model dat op de markt is. En dit leidt ons naar mythe nummer zes. Large language models weten alles. Deze mythe komt voort uit de indrukwekkende prestaties van large language models op het gebied van algemene kennis. Ze kunnen inderdaad gedetailleerd vertellen over historische gebeurtenissen, wetenschappelijke concepten en culturele fenomenen. Maar er is een belangrijke kanttekening. Ze kennen alleen wat publiekelijk beschikbaar is en wat ze tijdens hun training hebben gezien. Dus wat ze geleerd hebben. En de specifieke kennis van jouw organisatie, jouw bedrijfsprocessen, je klantrelatie, je interne documentatie, die is normaal gesproken niet publiek beschikbaar, mag ik hopen voor je. En dus een large language model weet dus niets over de unieke manier waarop jouw team samenwerkt, de specifieke uitdagingen van je projecten of de bijzondere behoeften van je klanten. En dat betekent niet dat large language models waardeloos zijn voor organisatiespecifieke taken. Het betekent wel dat je extra stappen moet zetten om ze effectief te maken. Dit kan door ze te trainen met je eigen data, door ze te integreren met je bestaande systemen of door ze te voorzien van de juiste context in prompts. Over prompten gesproken, een mythe die ik ook veel zie, hoor en lees, gaat over beleefdheid. Of beleefdheid de kwaliteit van je antwoorden beïnvloedt. Er bestaat best wel een interessant debat of je beleefd moet zijn tegen AI-systemen, tegen large language models. Sommige mensen behandelen hun large language model als een digitale assistent en zijn zeer beleefd in een communicatie. Anderen gaan er zakelijker mee om en focussen puur op de taak. Er is best wel wat onderzoek uitgevoerd op dit gebied en die is niet eenduidig, moet ik zeggen. Sommige studies suggereren dat extreem onbeleefde of agressieve taal kan leiden tot minder coherente antwoorden. Maar dit heeft waarschijnlijk meer te maken met hoe deze modellen zijn getraind dan überhaupt met aanhalingstekens gevoelens van het large language model. Dat heeft hij sowieso niet. Andere studies vinden geen significant verschil in de kwaliteit van antwoorden tussen beleefde en directe communicatie. De realiteit is dat large language models geen emotie hebben. En niet beïnvloed worden door sociale beleefdheid zoals mensen dat wel zijn. Het belangrijkste is dat je duidelijk en precies bent in je communicatie. Als je een beleefd antwoord wilt, dan wees dan ook beleefd in je vraag. Als je een zakelijk antwoord wilt, stel dan een zakelijke vraag. Eigenlijk zo eenvoudig is het. Mythe nummer acht. Je kunt gegenereerde content altijd detecteren. En dit is vast iets wat voor wat reuring gaat zorgen. Maar dit is echt een hele hardnekkige mythe die maar stand houdt. Ondanks echt overweldigend bewijs van het tegendeel. Er is recent onderzoek geweest met 805 testen die werden uitgevoerd. En die toonde aan dat de huidige detectietools dramatisch tekortschieten. Dan moet je even op je inlaten werken. Terwijl 76% van juist de AI gegenereerde content, juist door de mazen van het net glipte. Dus die werd gewoon gezien als menselijke content. Deze resultaten zijn wat mij betreft helemaal niet verrassend. Als je juist begrijpt hoe large language models werken. En ze genereren tekst die statistisch waarschijnlijk is gebaseerd op de trainingsdata. En daarmee dezelfde patronen heeft die mensen gebruiken wanneer ze schrijven. Het idee dat er een duidelijk onderscheid is tussen menselijke en AI gegenereerde tekst. Is daarom fundamenteel problematisch. Nog zorgwekkender is dat deze detectietools vaak tegelijkertijd. discrimineren tegen wat je dan niet zegt. Niet moedertaalsprekers. Dus als ik Engels schrijf is het eerder geneigd om te zeggen dat het door AI geschreven is. Komen we bij de laatste uit. Nummer 9. Large language models leren continu bij. De laatste mythe die ik vandaag wil behandelen is het idee dat large language models net als mensen continu bijleren van nieuwe ervaringen. Maar dit is niet het geval. Anders dan het menselijk brein dat zich constant aanpast naar nieuwe informatie zijn large language models statistische systemen na hun training. Wat we wel zien is dat large language models steeds beter worden in het herkennen van patronen in hun bestaande trainingsdata en het maken van nieuwe verbindingen. Maar nieuwe informatie gebeurtenissen die na de trainingsdata bijvoorbeeld plaatsvonden, nieuwe ontdekkingen, veranderende omstandigheden kennen ze niet. Tenzij ze opnieuw getraind worden. En dit heeft belangrijke implicaties voor organisaties die met large language models werken. Als je wilt dat je AI systeem up-to-date blijft met de laatste ontwikkelingen in jouw vakgebied of jouw organisatie moet je een strategie hebben om dus regelmatig updates aan te leveren. Dus eigen data en een vorm van hertraining uit te voeren. Deze negen mythes laten zien hoe complex en wat mij betreft echt ook wel fascinerend de wereld van large language models is. Ze zijn geen wondermiddel, heb je denk ik al gehoord, begrijp je wel dat al onze problemen oplost. Maar het zijn ook geen simpele chatbots. Krachtige tools waar het belangrijk voor is dat je begrijpt hoe ze ingezet kunnen worden, waar ze waarde kunnen toevoegen aan je werk en jouw organisatie. Ik hoop door deze mythes te doorbreken en dat je de realiteit begrijpt dat je betere beslissingen kunt nemen hoe je large language models kunt inzetten, juist in jouw context. Vond je deze aflevering nuttig? Deel hem dan met je collega's en blijf volgende week luisteren voor meer AI-kennis. Dit was AIToday Live. Tot de volgende keer! [Muziek] [Muziek]