Wat leer je in deze aflevering?
Anthropic stelt zijn nieuwste ontwikkeling, Claude 3, voor als directe concurrentie voor OpenAI's GPT-4 en Google’s Gemini 1.0 Ultra. Met drie varianten, waarvan Opus zich richt op het verwerken van complexe teksten tot 150.000 woorden, belooft Anthropic een aanzienlijke vooruitgang in probleemoplossing en redeneringsvermogen in AI. Deze aflevering onderzoekt niet alleen de plaats van Claude 3 in het spectrum van Large Language Models, maar waagt zich ook aan de bredere discussie over de rol en betrouwbaarheid van benchmarks in de prestatie-evaluatie van dergelijke modellen. Daarbij worden vragen gesteld over de effectiviteit van deze benchmarks, de invloed van modelselectie op basis van context en de duurzaamheidseffecten van verschillende modellen. Met deze diepe duik in de complexe wereld van AI-modellering biedt deze aflevering een kritische blik op de toekomstige richting van AI-technologieën en de keuzes die daarbij komen kijken.
Kernbegrippen
- Taalmodel
- Een AI-systeem getraind op grote hoeveelheden tekstdata om menselijke taal te begrijpen en genereren.
- Benchmark
- Gestandaardiseerde test die AI-modellen vergelijkt op prestaties in specifieke taken zoals redenering en kennis.
- Model-selectie
- Proces van kiezen welk AI-model past bij organisatorische doelstellingen, kosten en technische vereisten.
- Inferentiekosten
- Financiële en computationele uitgaven voor het draaien van een AI-model in productie.
Transcript
Hoi, leuk dat je weer luistert naar een korte, actuele aflevering van AIToday Live met vandaag "Is OpenAI's ChatGPT verslagen door een nieuwe winnaar?" Je hoort er alles over in deze aflevering. In het recente speelveld van Large Language Models heeft Anthropic, een startup opgericht door voormalige OpenAI medewerkers, een flinke stap voorwaarts gezet met de lancering van Claude 3. Deze derde generatie van hun AI-model is er in drie varianten, waarbij Opus, de naam van de variant, de kroon spant als het meest geavanceerde en duurste model, met capaciteiten om uitgebreide teksten tot wel 150.000 woorden te verwerken. Daarmee stelt Anthropic dat Opus superieure resultaten levert in vergelijking met toonaangevende concurrenten zoals OpenAI's GPT-4 en Google's Gemini 1.0 Ultra. Vooral op gebieden als redenering, programmeren en wiskundige probleemoplossing. Zij claimen dit vanwege de uitslagen in vergelijkende testen en dat ze daar het beste in scoren. In de wereld van taalmodellen lijken vergelijkende testen, benchmarks, vaak de heilige graal van prestatie-evaluatie. Volgens mij schuilt de ware waarde van een taalmodel niet in de meest indrukwekkende cijfers van vergelijkende testen, maar in de specifieke use-cases waarvoor het model ingezet wordt. Wat mij betreft is het een misvatting te denken dat het hoogstscorende model in benchmark-tests automatisch de beste keuze is voor elke situatie. Laten we eens kijken naar de benchmarks. Large Language Models, die benchmarks daarvoor zijn ontworpen om de prestaties en de bekwaamheden van AI modellen zoals GPT, Claude en Gemini te meten. Deze benchmarks omvatten een reeks test die zijn ontworpen om verschillende aspecten van taalbegrip, redeneringsvermogen en domeinspecifieke kennis te beoordelen. Zo heb je bijvoorbeeld de… Ja, het zijn een beetje rare afkortingen en titels, maar zo heb je bijvoorbeeld de ML… MMLU, de Massive Multitask Language Understanding. Deze benchmark meet het begrip op kennisniveau door het model te testen op een reeks van meer dan 50 taken die betrekking hebben op onderwerpen zoals geschiedenis, literatuur en wetenschap. Het is ontworpen om te evalueren hoe goed modellen complexe vragen kunnen begrijpen en beantwoorden. Maar je hebt ook de Great School Math, de GSM8K. Deze benchmark evalueert de vaardigheid van modellen in het oplossen van wiskundige problemen die typisch zijn voor de basisschool. Deze benchmark bevat zo'n 8000 problemen en testen. En daarmee test het basisrekenen, algebra, geometrie en nog veel meer. Dit zijn er twee, er is een lijst van zo'n 8 benchmarks waar de meeste large language models tegen gescoord worden. En omdat deze uitkomsten steeds gepubliceerd worden, ontstaat er een race en misschien zelfs wel een obsessie wie de beste benchmarks heeft. De obsessie met benchmarks is niet nieuw. Mij herinnert het eraan aan eerdere technologische wedlopen zoals we die hebben gehad bij de digitale camera's waar de focus lag op het aantal megapixels als maatstaf voor beeldkwaliteit. Deze benadering leidde tot een vernauwde focus waarbij andere belangrijke aspecten van beeldvorming zoals lenskwaliteit, kleurweergave en lichtgevoeligheid juist onderbelicht bleven. Een ander treffend voorbeeld dat de gevaren van een eenzijdige focus op benchmarks belicht is het Volkswagen-dieselschandaal. In een poging om te voldoen aan emissiestandaarden manipuleerde Volkswagen de uitstootgegevens van hun voertuigen tijdens laboratoriumtests. Dit schandaal onthulde niet alleen de ethische tekortkomingen binnen het bedrijf, maar ook wel de fundamentele gebreken in een benchmarksysteem dat deze manipulatie mogelijk maakte. Het benadrukt hoe een overmatige nadruk op het behalen van specifieke meetbare resultaten kan leiden tot gedrag dat afwijkt van de beoogde doelstelling van de technologische ontwikkeling. Dus benchmarks, hoe nuttig ook voor verder ontwikkeling en verbetering van large language models, zijn slechts 1 deel van het verhaal. Ze bieden een momentopname van de models capaciteiten onder gecontroleerde omstandigheden, maar vertellen ons weinig over de toepasbaarheid van deze modellen binnen je organisatie waar je natuurlijk ook te maken hebt met kaders en voorkeuren. De ware uitdaging ligt in het kiezen van AI modellen die niet alleen uitblinken in gestandaardiseerde tests, maar juist passend zijn voor jouw use-case. Zo bieden leveranciers een breed scala aan opties, bijvoorbeeld in de kostenstructuur van de verschillende modellen, van Anthropics Sonnet en Haiku tot het meer robuuste Opus in hun geval. De prijsverschillen daartussen zijn significant. Het instapmodel Haiku is bijvoorbeeld 60 keer goedkoper dan het vlaggenschip Opus. 60 keer! Dat is toch nogal wat? Maar kosten zijn slechts 1 facet. Het belangrijke is hoe een model presteert binnen specifieke contexten. Niet elk model excelleert op dezelfde wijze. Sommige zijn gespecialiseerd en leveren in bepaalde scenario's betere resultaten. Daarnaast spelen leveranciersvoorwaarden en garanties een cruciale rol. Vragen over privacy, beveiliging, schaalbaarheid, duurzaamheid zijn ook essentieel. Het is ook van belang te weten hoe lang een model ondersteund wordt door de leverancier. Dit om de continuïteit van je toepassingen te waarborgen. Dus oftewel blijven je prompt werken. Heel simpel. Maar ook organisatorische beperkingen, zoals een verplichting aan een bepaalde cloud provider of een voorkeur voor open source, beïnvloeden eveneens deze keuzevrijheid. Hierdoor kan de selectie van een taalmodel beperkter zijn dan aanvankelijk gedacht. Tegen de achtergrond van deze complexiteit is het belangrijk te begrijpen dat een groter model, ondanks een hogere score op benchmarks, niet altijd de beste optie is. Kleinere modellen kunnen voor bepaalde toepassingen toereikend zijn, juist minder energie verbruiken en zodoende ook milieuvriendelijker zijn. De beslissing voor een specifiek model moet daarom niet lichtvaardig genomen worden, vind ik. Nog moet deze louter gebaseerd zijn op de nieuwheid of de populariteit van een model. Een zorgvuldige afweging van de doelstellingen, randvoorwaarden en de specifieke eisen van je project leidt tot een meer gefundeerde keuze. Benchmarks zijn daarbij slechts één van de vele overwegingen en dienen met een flinke korrelzout bekeken te worden. Leuk dat je weer luisterde. Vergeet je niet te abonneren via je favoriete podcast app en mis geen aflevering. Tot de volgende keer! [Muziek] [Muziek]