Van hallucinaties naar betrouwbaarheid: meerdere modellen combineren

``` Leuk dat je weer luistert naar een nieuwe aflevering van AIToday Live. None Mijn naam is Joop Snijder en ik neem je vandaag mee in hoe je ChatGPT, Claude en Gemini laat stemmen over het beste antwoord. None Vorige week vertelde ik je over meta-prompting. None AI laten nadenken over zijn eigen instructies voordat het aan de slag gaat. None Vandaag gaan we een stap verder. None Want wat als je niet één model laat antwoorden, maar meerdere. None En wat als die modellen vervolgens stemmen over het beste antwoord. None Dat heet ensemble voting. None Dat is een techniek die oorspronkelijk uit de wereld van machine learning komt. None Het traditionele AI, voor de generatieve AI. None Maar die je ook kunt toepassen op de AI-tools die je dagelijks gebruikt, zoals ChatGPT, Claude en Gemini. None En het mooie is: je hebt er geen technische kennis voor nodig. None Laten we eens even heel kort beginnen. None Wat was meta-prompting ook alweer? None Voor wie de vorige aflevering heeft gemist hier een korte samenvatting. None Meta-prompting betekent dat je AI vraagt om eerst na te denken over de beste aanpak voordat het een antwoord geeft. None Je geeft een doel, laat het model mogelijke aanpakken bedenken, evalueren en dan pas uitvoeren. None Het resultaat: betere outputs, omdat het model begrijpt wat je nodig hebt. None Vandaag bouwen we daarop voort met een tweede techniek. None Wat is dan ensemble voting? None Het woord ensemble ken je misschien uit de muziek. None Een groep muzikanten die samenspelen. None En bij ensemble voting is het idee vergelijkbaar. None Je laat meerdere modellen samenwerken aan één vraagstuk. None Stel je een jury voor, en niet één rechter die beslist, maar vijf mensen die elk hun oordeel geven. None Ze discussiëren niet, ze stemmen, en het eindoordeel komt tot stand door de stemmen te tellen. None De meerderheid wint. None Eigenlijk is dat de kern van ensemble voting. None Je stelt dezelfde vraag aan meerdere modellen. None Elk model geeft een antwoord. None En dan wordt bepaald welk antwoord het beste is door te kijken naar wat de meerderheid zegt. None Je zou kunnen denken: waarom zou ik drie keer dezelfde vraag stellen? None Dat kost tijd en geld. None Maar hier zit de kracht. None Elk model maakt fouten. None Dat weten we. None AI-modellen hallucineren soms. None Ze verzinnen dingen die niet kloppen, geven onvolledige antwoorden of slaan de plank gewoon mis. None Maar hier is het interessante: die fouten zijn vaak verschillend. None Model A maakt andere fouten dan model B. None En model C maakt weer andere fouten. None Dus door meerdere modellen te combineren, middel je deze fouten uit. None De fouten van het ene model worden gecorrigeerd door de juiste antwoorden van het andere model. None En daardoor krijg je als resultaat een hogere betrouwbaarheid. None Dit is geen theorie. None In de wereld van machine learning is ensemble voting al jaren een bewezen techniek. None Fraudedetectiesystemen gebruiken het. None Aanbevelingsalgoritmes van streamingdiensten zoals Netflix, die gebruiken het. None Nu kun jij het ook gebruiken met AI-taalmodellen. None Dan zijn er wel verschillende manieren om ensemble voting toe te passen. None Laat me de drie belangrijkste daarvan uitleggen. None De eerste is wat heet hard voting. None Simpel en direct. None Elk model geeft één antwoord. None Je telt de stemmen. None Het antwoord met de meeste stemmen wint. None Als twee van de drie modellen zeggen dat optie A de beste keuze is, dan kies je optie A. None Recht en recht aan. None De tweede is soft voting. None Hier kijk je niet alleen naar het antwoord, maar ook naar de zekerheid. None Sommige modellen geven aan hoe zeker ze zijn van hun antwoord. None En bij soft voting neem je het gewogen gemiddelde. None Een model dat heel zeker is, telt zwaarder mee dan een model dat twijfelt. None En de derde is gewogen voting. None Hier geef je sommige modellen meer gewicht dan anderen. None Niet omdat ze zeker zijn, maar omdat je weet dat ze beter presteren op dit type vraag. None Als je weet dat model A historisch betere juridische analyses geeft, geef je model A meer gewicht bij juridische vragen. None Laat me het met een voorbeeld concreet maken dat goed te begrijpen is. None Je hebt een klantenservice en je wilt binnenkomende e-mails automatisch classificeren. None Is dit een klacht, een vraag om informatie, een verzoek tot annulering, een compliment. None Met één model kun je dit doen. None Je geeft de e-mail aan dat model en vraagt: in welke categorie valt dit? Meestal gaat dat goed. None Maar soms twijfelt het model of maakt het een fout die een mens direct zou zien. None Met ensemble voting pak je het anders aan. None Dus je laat drie modellen dezelfde e-mail classificeren. None Model A zegt: dit is een klacht. None Model B zegt: dit is een klacht. None Model C zegt: dit is een vraag om informatie. None Twee tegen één. None De meerderheid zegt klacht, dus je classificeert het als klacht. None Het mooie is: je kunt ook kijken naar de gevallen waar de modellen het niet eens zijn. None Als alle drie de modellen hetzelfde zeggen, heb je een hogere zekerheid. None Juist als ze verdeeld zijn, weet je dat deze e-mail misschien menselijke aandacht nodig heeft. None En dan is die oneenigheid in één keer informatie waar je mogelijk wat mee kan doen. None Ik kan me voorstellen dat je gedurende wat ik nu verteld heb denkt: None ja, leuk, drie modellen, maar daar heb ik helemaal geen toegang toe. None En ik ga ook geen drie abonnementen betalen op ChatGPT, Claude en Gemini. None Dat lijkt me ook een goed punt. None Het mooie is dat je dit ook met één model kunt doen. None En de truc zit dan in de instellingen. None Taalmodellen hebben parameters die je kunt aanpassen. None En de belangrijkste is de temperatuurinstelling. None En die kun je zetten als je tegen deze modellen via een programmeertaal praat. None En dan kun je namelijk een lage temperatuur instellen, richting 0, en dat maakt het model heel voorspelbaar en consistent. None Een hoge temperatuur, richting 1, maakt het creatiever en gevarieerder. None En door dezelfde vraag drie keer te stellen met verschillende temperatuurinstellingen, krijg je verschillende perspectieven van hetzelfde model. None Je zit wel een maar. None Dus in de standaard chat interface kun je die temperatuur niet instellen. ``` Je moet toegang hebben tot de API, de zogenaamde programmeerinterface van het model. Dat betekent je moet kunnen programmeren of iemand hebben die dat voor je doet. Kijk, meer over temperatuur en andere modelinstellingen. Daarvoor hebben we een eerdere aflevering gemaakt. Daarvan vind je de link in de shownotes. Maar ook zonder te programmeren kun je variatie creëren. Je kunt dezelfde vraag op verschillende manieren formuleren of je kunt het model verschillende rollen geven, beantwoord dit als een optimist, beantwoord het als een criticus, beantwoord het als een pragmaticus, drie perspectieven en één model. En hier kun je natuurlijk allerlei verschillende varianten van bedenken die nodig zijn om deze techniek toe te passen. Het leuke van deze ensemble voting techniek is dat je die ook kunt toepassen met gespecialiseerde agents. Stel, je wilt een risicoanalyse maken voor een nieuw AI-project. En in plaats van één model alles te laten doen, creëer je drie gespecialiseerde agents. Eén focust bijvoorbeeld op technische risico's, een ander focust op juridische en compliance risico's en een ander op de organisatorische risico's zoals adoptie en weerstand. En je geeft elk dezelfde informatie over het project, maar je vraagt elk om vanuit hun specialisme het project te analyseren: drie analyses, drie perspectieven. En dan komt er een scheidsrechter. Waar we het eigenlijk al iedere keer over hebben gehad. Dus die krijgt de drie analyses en de opdracht: integreer deze perspectieven tot één risicoanalyse. Waar overlappen de risico's? Waar spreken ze elkaar tegen? Wat is de prioritering? Je hebt nu een analyse die breder en dieper is dan wat één model alleen had kunnen leveren. Want je kunt dit namelijk gaan combineren met meta-prompting. Want hier wordt het interessant. Je kunt dus ensemble voting combineren met de meta-prompting techniek uit de vorige aflevering. Een combinatie werkt dan zo. Eerst gebruik je meta-prompting om elk model te laten nadenken over de beste aanpak voor zijn specialisme. De technische agent denkt na over hoe het technische risico's het best in kaart brengt. De juridische agent denkt na over zijn aanpak. En elk model optimaliseert zichzelf, elk model optimaliseert zichzelf voordat het aan de slag gaat en dan voeren ze uit. Elk vanuit een geoptimaliseerde aanpak. En dan komt de scheidsrechter die ook weer meta-prompting gebruikt en die zegt dan bijvoorbeeld aan: bedenk eerst. Wat is de beste manier om deze drie analyses te integreren, samen te voegen. Welke structuur werkt het beste voor het eindrapport, formuleer je aanpak en voer het dan uit. En je krijgt dus zo'n systeem waarin elk onderdeel eerst nadenkt, dan uitvoert en waarin het geheel meer is dan de som der delen. Maar er zijn wel een paar praktische waarschuwingen. Kijk, ensemble voting werkt het best als de antwoorden echt verschillend zijn. Als je drie keer exact dezelfde vraag stelt aan hetzelfde model met dezelfde instellingen, krijg je waarschijnlijk drie keer ongeveer hetzelfde antwoord. Dus zorg voor variatie. Verschillende modellen of verschillende instellingen of verschillende invalshoeken in je prompt. En het kost natuurlijk meer tijd en meer tokens. Dus voor een simpele vraag is het echt overkill. Dus gebruik het voor beslissingen die je echt toe doen: strategische keuzes, belangrijke communicatie. Analyses waar je op bouwt. Of voor geautomatiseerde processen waar betrouwbaarheid ontzettend telt, zoals bijvoorbeeld de e-mailclassificatie waar ik het over had. En documenteer wat je doet. Welke modellen of instellingen heb je gebruikt? Wat waren de individuele antwoorden? Hoe kwam het eindoordeel tot stand? Die transparantie helpt je om te leren wat werkt en om je keuzes te verantwoorden. Ensemble voting is dus meerdere modellen of meerdere runs van hetzelfde model laten stemmen over het beste antwoord. Hard voting telt simpelweg de stemmen. Soft voting weegt mee hoe zeker elk model is, gewogen voting geeft betere modellen meer invloed. Het resultaat: betrouwbaardere AI-antwoorden, minder hallucinaties en meer vertrouwen in je output. Of je nu ChatGPT, Claude, Gemini of een ander model gebruikt. Op naar betere uitkomsten. Maar bedenk: AI is niet de oplossing voor elk probleem, maar onmisbaar waar het past. Tot de volgende keer.

Van hallucinaties naar betrouwbaarheid: meerdere modellen combineren

Wat leer je in deze aflevering?

Kernbegrippen

Wat er gezegd wordt

Wat kun je morgen doen?

Transcript

Meer afleveringen