Alle afleveringen
S07E22 - Wat leren mislukte AI-experimenten ons?
S07E22

Wat leren mislukte AI-experimenten ons?

Seizoen 7 13 min Hosts: Joop Snijder & Niels Naglé
0:00

Wat leer je in deze aflevering?

Gast Joop Snijder bespreekt in deze aflevering van AIToday Live het belang van AI-experimenten voor organisaties. Hij legt uit waarom deze experimenten niet slechts een tussenstap zijn, maar juist een strategisch startpunt vormen.

Snijder deelt praktijkvoorbeelden van AI-experimenten en de lessen die daaruit getrokken kunnen worden. Hij benadrukt dat het bij deze experimenten niet alleen gaat om technische mogelijkheden, maar ook om de juiste balans tussen automatisering en menselijke inbreng.

De podcast biedt inzichten in hoe organisaties kunnen leren van zowel succesvolle als mislukte AI-projecten. Snijder moedigt luisteraars aan om open te zijn over experimenten en de opgedane kennis te delen.

01
Het belang van AI-experimenten
02
Strategische vraagstukken door experimenten
03
Leren van mislukkingen
04
Praktijkvoorbeelden van AI-experimenten

Kernbegrippen

AI-experiment
Gericht onderzoek naar toepasbaarheid van AI-oplossingen in praktische bedrijfsprocessen.
Technisch succes
AI-systeem functioneert correct volgens specificaties, maar levert geen praktische waarde op.
Human-in-the-loop
Menselijke beoordeling en inbreng blijft onderdeel van AI-gestuurde processen.
Proof of concept
Kleinschalige test om haalbaarheid en waarde van een AI-idee aan te tonen.

Transcript

Hoi, welkom bij een nieuwe aflevering van AIToday Live, de podcast die AI begrijpelijk maakt met verhalen uit de praktijk. Ik ben Joop Snijder, CTO van Aigency en vandaag wil ik dieper ingaan op het thema van AI-experimenten. In deel 1 van onze serie over AI-leiderschap sprak ik over waarom AI fundamenteel anders is dan eerdere technologische innovaties. En dat uit ons onderzoek, marktonderzoek onder 414 Nederlandse organisaties, blijkt dat 36% in de verkennende fase zit. Ze kijken rond, experimenteren wat, maar er is vaak geen concrete richting. Dit is eigenlijk precies waar het misgaat. Want veel organisaties zien experimenten als een tussenstap, iets wat je doet voordat je tussen aanhalingstekens echt begint. Maar bij AI werkt dat volgens mij anders. Juist die experimenten brengen de echte strategische vraagstukken naar boven. Neem bijvoorbeeld datakwaliteit. Het 23% gaf aan in dat onderzoek die worstelt met datakwaliteit. Maar weet je wanneer organisaties meestal beseffen welke data ze echt nodig hebben? Ja precies, als ze midden in hun eerste AI-project of experiment zitten en tegen kwaliteitsproblemen aanlopen. Maar juist de organisaties die al experimenteren met AI weten veel beter welke data ze missen. Welke misschien van mindere kwaliteit is en waarom die data waardevol is. En ze hebben een concreet doel voor ogen. Dus experimenteren is een belangrijke strategische start van AI. Maar wat we in de praktijk zien is dat organisaties vergeten dat experimenten mogen, nee ik zou moeten zeggen, moeten falen. Maar we zien ook dat organisaties heel teleurgesteld kunnen zijn over niet geslaagde experimenten. Ze zien het als een mislukking in plaats van een waardevol leermoment. Het is net als leren fietsen. Je leert het niet door handleidingen te lezen, maar door vallen en opstaan. Die pijnlijke knie die je krijgt na het vallen is een les die je nooit meer vergeet. En bij AI-experimenten werkt dat net zo. Je moet een omgeving creëren waarin falen een optie is, mits je ervan leert. En dat falen, dat mag je vieren. En niet door het onder het tapijt te vegen, maar juist door er open over te zijn. En vooral door de geleerde lessen goed te documenteren. Want alleen zo help je niet alleen jezelf, maar ook anderen om niet dezelfde fouten te maken. Het is als het ontdekken van een nieuwe stad. Je kunt eindeloos kaarten bestuderen, maar pas als je er rondloopt ontdek je waar de echte uitdagingen liggen. En om te laten zien hoe je van gefaalde experimenten kan leren, wil ik een aantal van onze eigen experimenten met AI die we gebruiken in deze podcast, die wil ik openhartig met je delen. En die liepen niet helemaal volgens plan, maar hebben ons wel waardevolle lessen geleerd. Dus laat maar beginnen met een interessant experiment dat we recent uitvoerden. We wilden AI laten meeluisteren met onze podcast opnames om automatisch interessante vervolgvragen te genereren. Het idee was eigenlijk heel simpel. Na elke vijf minuten zou het systeem drie mogelijke vragen voorstellen. Technisch gezien was het een uitdaging, want we wilden dit doen zonder internetverbinding. Kijk, tijdens opnames hebben we immers alles uitstaan om verstoring te voorkomen met allerlei piepjes en dat soort dingen die er doorheen kunnen komen. Dus we bouwden een systeem waarbij een laptop direct gekoppeld was aan onze opnamemixer. De audio werd omgezet naar tekst en een lokaal AI model analyseerde deze tekst om vragen te genereren. Na verschillende tests bleek Lama 3.2 van Meta, het taalmodel, de beste resultaten te geven. De vragen waren inhoudelijk prima, maar de formulering was, laten we zeggen, behoorlijk Amerikaans. En hier kwam de praktische realiteit om de hoek. Kijk, als interviewer moest ik tijdens het gesprek drie vragen lezen, er één uitkiezen, deze herformuleren naar natuurlijk Nederlands en dan nog een geschikt moment vinden om de vraag te stellen. Het werd al snel duidelijk, dit leidde veel te veel af waar het echt om gaat. Een goed gesprek voeren en echt luisteren naar onze gast. Dit sluit perfect aan bij wat we de vorige keer bespraken over AI transformatie. En soms lijkt een technische oplossing perfect op papier, maar blijkt de praktijk een heel stuk weerbarstiger. Een tweede experiment ging nog een stap verder. We ontwikkelden een AI agent die mij volledig zou ondersteunen bij het schrijven van podcast scripts. De agent kreeg een enorme hoeveelheid context mee, onze huisstijl, toon van spreken, eerdere afleveringen, onderzoeksnotities en best practices voor podcast. Het systeem beoordeelde scripts op vier criteria. Toon, volledigheid, begrijpbaarheid en structuur. Voor elk criterium gaf het een score tussen 1 en 100, veel verfijnder dan een schaal van 1 tot 10. En als een score onder de 85 kwam, voerde de agent automatisch verbeteringen door, net zo lang tot de score boven de 85% of boven de 85% kwam. En dat voor die vier criteria. Toon, volledigheid, begrijpbaarheid en structuur. Technisch gezien was het een groot succes. De agent produceerde foutloze scripts die perfect voldeden aan onze criteria. De toon was consistent, de structuur helder, alle belangrijke punten werden behandeld. Het systeem verfijnde teksten net zo lang tot ze een score van 85 of hoge haalden op elk criterium. En toch was ik niet tevreden met het resultaat. Ten eerste lijkt een score een goede meting van een script, maar er miste iets fundamenteels. Als ik zeg dat het zielloos was, klinkt dat misschien wat pathetisch. Maar dat was het wel, platgeslagen, keurige tekst zonder karakter. Daarnaast miste ik de inspanning om tot de tekst te komen. En dat klinkt misschien vreemd voor een podcast over AI en technologische vooruitgang, maar juist die inspanning leert mij ontzettend veel. En door zelf een tekst begrijpbaar te maken, blijft de inhoud beter hangen. Door tekst te kneden, door het vaker door te lezen, door zelf voorbeelden toe te voegen, wordt het echt van mij. Daardoor kan ik het niet alleen in deze aflevering uitleggen, maar ook daarbuiten met overtuiging overbrengen. Betekent dit dat ik helemaal geen AI gebruik bij het schrijven? Natuurlijk niet. Ik gebruik AI wel degelijk, maar dan als een kritische redacteur. Bijvoorbeeld voor deze serie afleveringen over de AI leiderschap en AI transformatie. Daar vraag ik AI om feedback over de consistentie tussen afleveringen of onderwerpen zijn onderbelicht of dat de tekst wel logisch is opgebouwd. En dan krijg ik bruikbare suggesties waarbij ik zelf bepaal wat ik ermee doe. Want als ik alles klakkeloos zou overnemen, kan ik net zo goed de route van volledige automatisering kiezen. Laat me nog een derde experiment delen dat op het eerste gezicht mislukt lijkt, maar eigenlijk een groot succes was. Jaren geleden, voor de intrede van de huidige taalmodellen, werkte we aan een experiment voor een Nederlandse verzekeraar. Ze wilde een chatbot ontwikkelen die niet alleen verzekeringen kon stopzetten, maar ook slimme suggesties kon doen. Bijvoorbeeld als iemand zijn bromfietsverzekering opzegde, zou de chatbot kunnen voorstellen om eens naar autoverzekeringen te kijken. Een logische volgende stap in iemands leven. Technisch gezien was het experiment weer een succes. De chatbot werkte, de logica klopte, de gebruikerservaring was prima. Maar tijdens de presentatie van de resultaten gebeurde er iets interessants. De realiteit van wat zo'n systeem zou betekenen, daalde bij de verzekeraar in. De onderhoudskosten, continu beheer, menselijk werk dat nog steeds nodig zou zijn, ook na de implementatie. Het plaatje werd steeds completer. Het resultaat? De verzekeraar besloot om niet door te gaan met het project. De verwachte kostenreductie, opbrengst en productiviteitwinst wogen niet op tegen wat de oplossing zou kosten. Veel mensen zouden dit een mislukt experiment noemen. Maar het tegendeel is waar. Het experiment was juist enorm succesvol. Door klein te beginnen en goed te kijken naar de totale impact, heeft deze organisatie zichzelf veel kosten en frustratie bespaard. Ze hadden precies geleerd wat ze moesten leren, voordat ze grote investeringen deden. Dit brengt mij bij een cruciale les over AI-experimenten die ik wil delen. Het gaat niet om wat werkt of niet werkt op technisch vlak. Het gaat om het vinden van de juiste balans tussen automatisering en menselijke inbreng. Tegenwoordig gebruik ik AI nog steeds bij het schrijven van scripts, maar op een andere manier. Ik gebruik het als een kritische redacteur, wat ik had gezegd, die meedenkt, suggesties doet voor verbetering en checkt op consistentie. Maar de kern, het vormen van ideeën, het kiezen van voorbeelden, het structureren van het verhaal, dat doe ik zelf. Want laten we eerlijk zijn, de verleiding om alles te automatiseren is groot. Een aflevering, zo'n aflevering als dit, van plus minus 10 minuten, kost ongeveer 3 uur productietijd. Een uur tot 2 uur voor het schrijven van script en het onderzoek wat ik daarvoor doe. Nou laten we zeggen een minuut of 12, 15 voor de opname en nog eens 45 minuten voor de productie en social media. En dan tel ik de vele uren leeswerk, experimenten, jarenlange ervaring nog niet eens mee, maar goed. En dit brengt ons terug bij wat we de vorige keren bespraken over leiderschap in AI transformatie. Het gaat niet om het blind automatiseren van processen omdat het kan. Het gaat om het maken van bewuste keuzes over waar AI waarde toevoegt en waar menselijke input onmisbaar is. En vooral, het gaat om de bereidheid om te experimenteren en te accepteren dat sommige experimenten zullen mislukken. Soms betekent dat je een technisch perfect werkende oplossing toch niet implementeert, omdat je beseft dat de menselijke component, in ons geval het doorleven en eigen maken van de content, belangrijker is. En die les hadden we nooit geleerd zonder de ruimte te nemen om te experimenteren en te falen. Nou, als je na deze aflevering één ding onthoudt, wees niet bang om te experimenteren met AI, maar wees ook niet bang om een technisch werkende oplossing terzijde te schuiven als het niet bijdraagt aan je echte doel. Begin klein, evalueer kritisch en focus op de waarde die je toevoegt aan je proces, niet alleen op wat technisch mogelijk is. Natuurlijk is het belangrijk om te benadrukken dat veel AI-experimenten wel leiden tot succesvolle implementaties. Maar we zien dagelijks hoe organisaties hun ideeën omzetten in waardevolle AI-toepassingen. Daar gaat het niet om. Kijk, experimenten tonen juist vaak aan hoeveel belovende ideeën van een organisatie zijn. Maar het punt is of een experiment nu leidt tot implementatie of niet, de waarde zit in wat je ervan leert. Dit was AIToday Live. Dank je wel weer voor het luisteren. Vergeet je niet te abonneren via je favoriete podcast app. Tot volgende week. [Muziek]