De kracht en beperkingen van o1-preview ontrafeld

In de aflevering 72 van dit seizoen hebben we het gehad over de prompttechniek Chain of Thought. En wat denk je? Komt o1-preview het nieuwe model van OpenAI uit? Een model dat hevig leunt op deze techniek. Is het baanbrekend? Zijn we op weg naar AGI, Artificial General Intelligence? Of moeten we onze verwachtingen temperen? Je hoort het in deze aflevering. Hoi, leuk dat je weer luistert naar een korte aflevering van AIToday Live, de Nederlandse podcast over AI. Mijn naam is Joop Snijder, CTO bij Aigency. Allereerst, o1 is eigenlijk niet o1, maar o1-preview. Het is dus nog niet de uiteindelijke versie die we gaan zien. En misschien ook nog belangrijker, het is geen ChatGPT 5. Die laat nog op zich wachten om redenen die wat mij betreft een eigen analyse verdienen, maar niet nu. Wat maakt O1 dan wel bijzonder? Er is een hele hoop gedoe over, misschien heb je dat al gezien op de socials. Behalve dat het weer een vreemde keuze voor een modelnaam is. Het antwoord ligt in de integratie van de Chain of Thought techniek in het model zelf. En dus hebben ze nu in het model zelf die techniek ingebracht. En deze techniek die we eerder bespraken, stelt AI in staat om stapsgewijs door problemen heen te ridderen. Zelf vind ik het minder spectaculair dat er nu woordraadsels opgelost kunnen worden, of dat het model correct letters kan tellen in woorden. Wat wel interessant is hoe het beter kan zijn met programmeren, datavalidatie en vooral taken die een vorm van planning vereisen. En voor plantaken is er vaak een soort van gedachtenketen nodig, die Chain of Thought. En het innovatieve aan O1 is dat deze, tussen aanhalingstekens, gedachtenketen nu is ingebakken in het model. En dus gebruikers hoeven niet langer zelf complexe prompts te schrijven om het model tot diepgaande analyse aan te zetten. Er is wel een keerzijde, en dat is dat we deze tussentijdse denkstappen dan ook niet meer zien wat ten koste gaat van de transparantie. Bij OpenAI schrijven ze zelf dat o1 een nieuwe serie aan AI-modellen is die speciaal zijn ontwikkeld om complexe problemen beter op te lossen door meer tijd te nemen voor hun redeneerproces. In tegenstelling tot eerdere modellen zoals GPT-4 is o1 ontworpen om diepgaander te denken voordat het antwoorden geeft. Dit maakt het bijzonder geschikt voor ingewikkelde taken in vakgebieden zoals wetenschap, wiskunde en programmeren. Deze model is in ogen getraind om zichzelf te verbeteren door fouten te herkennen en verschillende strategieën uit te proberen. Belangrijk om te beseffen, deze aanpak is niet voor elke taak een verbetering. Zelfs de CEO van OpenAI, Sam Altman, erkende dit in een tweet waarbij hij o1 heeft aangekondigd. De kracht lijkt vooral te liggen in het oplossen van complexe problemen en het genereren van code. Moeten we wel opletten, er is een cruciaal misverstand die we uit de weg moeten ruimen. Large language models zoals O1 denken of redeneren niet echt. Ondanks de terminologie die wordt gebruikt, zowel in de aankondiging van OpenAI als in een chatinterface, zijn ze ongelofelijk goed in het genereren van coherente tekst, maar begrijpen niets in de menselijke zin. Deze modellen blijven patronen herkennen in data en interpoleren die binnen een complexe ruimte. Ze missen fundamenteel begrip en zijn beperkt door hun trainingsdata. Dus ondanks dat o1 schrijft dat het 40 seconden heeft nagedacht, betekent het dat het 40 seconden heeft gerekend aan het antwoord. En heeft dus niets met ons menselijk brein te maken en al helemaal niets met Artificial General Intelligence. Het blijft natuurlijk verleidelijk om het menselijk denken te vergelijken met large language models, maar doet echt geen recht aan de unieke aard van onze menselijke cognitie. Wat betekent het model van O1 dan wel voor de toekomst van AI? Want ze kunnen op zich indrukwekkend presteren op specifieke gebieden. We hebben het gehad over programmeren, wetenschap, dat soort zaken. Maar we moeten wel voorzichtig zijn met het overschatten van hun capaciteiten. Ik denk zelf namelijk dat de echte vooruitgang, dus in de toekomst, waarschijnlijk niet zal komen van het eindeloos vergroten van modellen of weer nieuwe benaderingen, maar veel meer vanuit de innovatieve benadering die we zelf hebben om juist beperkingen te adresseren. De doorbraak in toepassingen zal niet liggen in de kracht van een model, maar in de kracht van onze verbeelding wat we met deze modellen kunnen maken. Het mooie is wel dat we juist meer keuze krijgen in type modellen. Onze gereedschapskist wordt groter en we kunnen steeds beter het gereedschap kiezen dat past bij de klus. Dus bij elke nieuwe AI-doorbraak is een kritische blik essentieel. Dus grondige, onafhankelijke evaluatie blijft noodzakelijk. We moeten waakzaam zijn voor overenthuosiaste claims en wat mij betreft ook meer vragen naar transparantie en reproduceerbaarheid van resultaten. Daarbij komt dat het gebruik van dit nieuwe model echt wel behoorlijk prijzig is. Hij is redelijk traag en met nog een heel erg laag limiet voor het gebruik wat je ermee kan doen. Dat maakt het best moeilijk om de verandering echt op waarde te schatten. Ik wil toch altijd wel even iets verder kijken dan alle demo's op internet. Dus wat mij betreft gaat het erom hoe we deze tools inzetten om menselijke capaciteiten te versterken en niet te vervangen. Laten we ons niet verblinden door beloftes van AGI, artificial general intelligence, maar juist focussen op het creëren van AI-systemen die complementair zijn aan menselijke intelligentie. Wil jij op de hoogte blijven van de nieuwste ontwikkelingen? Schrijf je dan eens in voor onze maandelijkse nieuwsbrief en krijg toegang tot exclusieve content en een blik achter de schermen van de podcast. Dankjewel voor het luisteren en tot de volgende aflevering! [Muziek]

De kracht en beperkingen van o1-preview ontrafeld

Wat leer je in deze aflevering?

Kernbegrippen

Transcript