Wat leer je in deze aflevering?
In deze aflevering van AIToday Live staat de Chain of Draft techniek centraal. Deze innovatieve methode zorgt voor efficiëntere antwoorden uit taalmodellen zoals ChatGPT of Claude.
De techniek moedigt AI aan om korte, krachtige notities te maken in plaats van uitgebreide redeneerstappen. Dit leidt tot dezelfde nauwkeurigheid als traditionele methoden, maar met 90% minder tekst.
Voor bedrijven die AI op grote schaal inzetten, kan Chain of Draft aanzienlijke kostenbesparingen opleveren. De techniek werkt het beste met grote taalmodellen en vereist goede voorbeelden in de prompt.
Kernbegrippen
- Chain of Draft
- Techniek waarbij taalmodellen elke denkstap tot vijf woorden beperken voor efficiëntere antwoorden.
- Chain of Thought
- Methode die modellen aanmoedigt stap voor stap te redeneren, resulterend in uitgebreide antwoorden.
- Token-optimalisatie
- Reductie van verwerkingseenheden in AI-modellen voor snellere en goedkopere uitvoering.
- Prompt engineering
- Het ontwerpen van instructies met voorbeelden om gewenst AI-modelgedrag te bereiken.
Wat er gezegd wordt
We geven AI-modellen de verkeerde menselijke eigenschappen.
Joop SnijderEfficiëntie is hier de stille held van een praktische AI toepassing.
Joop SnijderTranscript
Hoi, leuk dat je weer luistert naar een nieuwe aflevering van AIToday Live. Mijn naam is Joop Snijder, CTO bij Aigency en dit is de korte aflevering. En we gaan het vandaag hebben over de techniek Chain of Draft. Daar heb je waarschijnlijk nog nooit over gehoord, maar die zorgt ervoor dat je betere antwoorden krijgt uit taalmodellen zoals ChatGPT of CLOT. Ik ga het je uitleggen. Stel je voor, je stelt ChatGPT een simpele vraag. Hoeveel is 20 min 12? En in plaats van gewoon 8 te antwoorden krijg je een uitgebreide uitleg over hoe Jason zijn appels heeft verdeeld, waarom we aftrekken gebruiken en een stap voor stap analyse van het rekenproces. Compleet met een conclusie waarin nog een keer wordt herhaald dat het antwoord 8 is. Herkenbaar? Nou, dan ben je niet de enige. Want die breedspraakigheid is niet alleen vermoeiend om te lezen. Het verklaart ook waarom taalmodellen zo vaak hallucineren. Als je honderden woorden produceert waar tien vol staan. Ja, creëer simpelweg meer kansen om onzin uit te kramen. Nou, Chain of Draft klinkt een beetje als Chain of Thought Prompting. Want in aflevering 72 van het vorige seizoen hebben we het gehad. Namelijk over deze techniek, Chain of Thought Prompting. Deze techniek zorgt ervoor dat AI-modellen stap voor stap door problemen heen redeneren. Net zoals OpenAI's O-One model dat we bespraken in aflevering 76. Dus luister die eventjes terug. Kijk, het werkt fantastisch voor de nauwkeurigheid. Dus het stap voor stap dat het taalmodel er doorheen moet gaan. Het zorgt voor een verhoogde nauwkeurigheid, maar er zit een groot probleem al vast. De modellen worden namelijk ongelooflijk breedspraakig. Waar jij misschien snel op een papiertje zou schrijven. Produceert een AI-model gemakkelijk 200 woorden aan uitleg. Vol met overbodige details over Jason en Danny en hun appels. Het is niet alleen irritant, het kost ook gewoon handenvol geld. Want elke token die je model genereert, kost je geld. Dus iedere denkstap en iedere uitleg kost gewoon geld. Elke seconde rekentijd kost je geld. En als je AI op schaal wilt inzetten, tellen die kosten snel op. Maar goed, laten we eens even kijken van hoe lossen wij eigenlijk een probleem als dit op. Dus als je een wiskundige som maakt, schrijf je dan ook zo'n uitgebreide uitleg. Ja, natuurlijk niet toch? Je krabbelt misschien op een papiertje. Hetzelfde geldt voor complexere problemen. Dus als je een presentatie moet voorbereiden, maak je eerst een lijstje met kernpunten. Korte steekwoorden. Probleem, oplossing, budget, tijdlijn. Pas daarna werk je de details uit. De onderzoekers van Zoom Communications hebben zich afgevraagd. Maar waarom leren we AI-modellen niet om net zo te werken? We geven AI-modellen de verkeerde menselijke eigenschappen. We leren ze om beleefd te zijn, uitgebreid te formuleren en alles tot in detail uit te leggen. Alsof ze een overijverige stagiair zijn die indruk wil maken. Maar de echte menselijke kracht zit in het vermogen om te filteren, prioriteren en juist bondig te communiceren. Een expert legt niet alles uit, maar weet precies wat relevant is. Dat is dan wat we de AI zouden moeten bijbrengen volgens hen. En zo ontstond Chain of Draft. In plaats van uitgebreide redeneerstappen van 50 woorden of meer worden AI modellen aangemoedigd om korte, krachtige notities te maken. Maximaal 5 woorden per denkstap. En het verschil is best wel dramatisch. Want waar Chain of Thought zou schrijven, laten we dit stap voor stap doordenken. Aanvankelijk had Jason 20 appels. Na het geven van enkele aan Danny heeft Jason er nu nog 12 over. Om uit te vinden hoeveel Jason aan Danny heeft gegeven, moeten we het verschil berekenen tussen het oorspronkelijke aantal en van wat er over is. Nou, dat is behoorlijk uitgebreid. En Chain of Draft schrijft simpelweg 20 min x is 12, dus x is 8. Punt. Klaar. Geen Jason, geen Danny, geen uitleg over waarom we optellen, aftrekken. Gewoon de kern van het probleem. En de resultaten spreken best wel het boekdelen. De onderzoekers testen dit namelijk op verschillende taken. Rekenopgaven, logische puzzels, datumberekeningen. En wat bleek, Chain of Draft behaalt dezelfde nauwkeurigheid als die traditionele Chain of Thought Prompting. Maar gebruikt zo'n 8% van de tokens. Laat dat even tot je doordringen. Dus meer dan 90% minder tekst. Maar dezelfde resultaten. Bij sommige taken was de besparing nog extremer. GPT-4O daalde het tokengebruik van 205 tokens naar 44 tokens per antwoord. En bij Claude van 190 naar 40 tokens. De economische impact wordt nog wel eens over het hoofd gezien van de taalmodellen. De kosten van taalmodellen dalen weliswaar. Maar het gebruik neemt juist exponentieel toe. Hoe meer we de kracht van de technologie zien, hoe meer we het gaan gebruiken. En anders dan bij traditionele systemen zijn de kosten op voorhand moeilijk in te schatten. Je weet niet hoeveel tokens een gesprek gaat kosten totdat het voorbij is. Daarom is deze kostenefficiëntie niet zomaar nice to have. Maar echt wel, als je een duurzame AI implementatie wil maken, noodzakelijk. En het gaat niet alleen om die tokens. Namelijk door minder tekst te genereren, wordt de AI ook veel sneller. Waar je eerder vier seconden moest wachten op een antwoord, krijg je nu een één seconde. En dat geeft ons een bepaald inzicht. Want een snelle antwoord betekent dat het model namelijk minder lang hoeft te rekenen. En rekenen kost energie. Dus je bespaart niet alleen tijd, maar vermindert ze ook gewoon energieverbruik. Voor bedrijven die AI op grote schaal inzetten betekent dit letterlijk dat je misschien wel duizenden, nog wel meer tienduizenden euro's besparing per jaar kan opleveren. We zijn soms zo gefocust op wat AI allemaal kan, complexe redeneringen, creatieve teksten, technische analyses, dat we vergeten te kijken naar hoe het die dingen doet. Chain of Draft laat dus zien dat een doorbraak niet alleen maar hoeft te zitten in nog slimmere modellen, maar het slim gebruiken van wat we al hebben. Voor de dagelijkse praktijk maakt het namelijk niet uit of je AI een Nobel prijswaardige antwoord kan geven als het te lang duurt en te veel kost. Efficiëntie is hier de stille held van een praktische AI toepassing. Is het perfect? Nou, denk ik niet. Zo'n chain of draft heeft namelijk ook beperkingen. En de grootste beperking is dat het niet werkt zonder goede voorbeelden. Voorbeelden in de prompt. In de studie, je kan het nalezen trouwens in de show notes, testen ze de chain of draft ook zonder voorbeelden. Wat we dan zero shot learning noemen. Dus je geeft gewoon aan van, je mag maar vijf woorden gebruiken voor je uitleg. En daar ging het mis. Bij Claude 3.5 Sonnet verbeterde deze techniek de prestatie dan maar met zo'n 3 tot 4 procent ten opzichte van directe antwoorden. Dat is vrijwel verwaarloosbaar. Het model heeft dus echt voorbeelden nodig van hoe ze zo'n korte chain of draft eruit moet zien. Anders valt het terug op gewoon oude uitgebreide manieren van redeneren. Een ander nadeel of beperking zou je eigenlijk moeten zeggen, is dat ook kleinere modellen met 3 miljard parameters of minder, die hebben grote moeite met deze techniek van die chain of draft. Bij die modellen zakt de nauwkeurigheid echt drastisch in. Ze zijn gewoon niet goed genoeg getraind om deze compacte manier van tussen aanhalingstekens redeneren om die te beheersen. Maar voor de grote modellen die we dagelijks gebruiken, GPT-4, Cloth, Gemini, werkt het echt uitstekend. Wat betekent dit nou voor jou? In de praktijk kun je Chain of Draft al gebruiken. Maar let op, je kunt niet zomaar aan ChatGPT vragen om kort te antwoorden. Dat werkt niet. Je moet voorbeelden geven van hoe je wilt dat het antwoordt. Hier is een concrete prompt die je kunt gebruiken. Denk stap voor stap, maar houd elke stap kort. Maximaal vijf woorden per denkstap. En dan komt het. Voorbeeld dubbele punt. Vraag dubbele punt. Een trein vertrekt om 14 uur 15 en rijdt 2 uur en 45 minuten. Dan geef je de vraag hoe laat komt hij aan? Antwoord dubbele punt. Start 14 uur 15 duur 2 uur 45 minuten. Aankomst 5 uur. Nog een voorbeeld. Vraag dubbele punt. Je koopt 3 t-shirts van 25 euro per stuk met 20% korting. Wat betaal je? Antwoord dubbele punt. Drie keer 25 euro is 75 euro. Korting 20% betalen 60 euro. Nu jouw vraag dubbele punt. En dan kan je gewoon je vraag erin gooien. Dus het geheim zit in die voorbeelden. Zonder voorbeelden valt de AI terug op zijn standaard manier van antwoorden. En dat is juist die breedsprakige chain of fault waar we juist vanaf willen. Door concrete voorbeelden te geven van korte bondige antwoorden. Snap dat model wat je bedoelt. Het is vooral handig voor taken waar je veel herhalende analyses doet. Overal waar je normaal gesproken een stappenplan zou maken. Wat mij betreft laat Chain of Draft zien dat de toekomst van AI niet per se ligt in steeds complexere modellen. Maar juist in slimmere manieren om ze te gebruiken. Efficiëntie wordt net zo belangrijk als intelligentie. Misschien moeten we daar een les uit trekken in een wereld vol informatie. constante communicatie, is het vermogen om kort en krachtig te zijn, waardevoller dan nooit. En als je experimenten doet met AI in je werk, kijk dan niet alleen naar wat mogelijk is, maar ook naar wat efficiënt is. Soms is minder gewoon echt meer. Nou, super bedankt weer voor het luisteren naar deze aflevering van AIToday Live. Vergeet je niet te abonneren voor meer inzichten over praktische AI toepassingen en bedenk, AI is niet de oplossing voor elk probleem, maar onmisbaar waar het past.