Praktijkverhaal: Van stemverlies naar AI-oplossing

Vandaag in de korte aflevering van AIToday Live neem ik je mee in een heel persoonlijk verhaal. Een verhaal dat eigenlijk begon als een noodoplossing, maar uitgroeide tot best wel een opwindend experiment met AI-technologie. En deze aflevering maak ik naar aanleiding van een vraag van een van onze luisteraars en gast, vroeger gast, Dr. Marc Jacobs. Die wilde weten hoe ik een van de vorige afleveringen heb gemaakt met een gekloonde stem van mezelf. Maar het verhaal gaat eigenlijk over veel meer dan alleen technologie. Het gaat over de waarde van je stem, over innovatie uit noodzaak en over hoe AI ons kan helpen op momenten dat we het het hardst nodig hebben. Maar voordat ik verder ga wil ik iedereen bedanken voor de lieve en opbeurende berichten die ik gekregen heb naar aanleiding van die aflevering. Laten we eens kijken naar de aanleiding. Het begon allemaal met een spoedopname in het ziekenhuis. Een longontsteking en influenza hadden mijn stem al behoorlijk aangetast. Maar de keelontsteking die daar bovenop kwam gaf echt het laatste zetje. En ineens was ik mijn stem compleet kwijt. Niet schoor, niet rauw of extra diep. Nee, gewoon volledig verdwenen. En als podcast host is dat wel een van je grootste nachtmerries. En voor wie onze podcast kent, weet dat we elke donderdag een nieuwe aflevering uitbrengen. Met een korte aflevering. En het is een ritme waar onze luisteraars op rekenen. En waar ik zelf ook echt wel trots op ben. Dat we dat ook gewoon iedere keer leveren. Maar op de bewuste dinsdag dat ik dan de opname maak. Werd pijnlijk duidelijk dat het deze keer niet zou lukken. Geen stem betekent geen podcast toch? Of misschien toch wel? Het was op dat moment dat ik me herinnerde. Dat ik al eerder had geëxperimenteerd met stemkloontechnologie. Elevenlabs.io kende ik al. Dat is een platform dat zich richt op het maken van natuurlijk klinkende synthetische stemmen. Ze worden gebruikt. Deze stemmen voor verschillende doeleinden. Voor het inspreken van audioboeken. Tot het nasynchroniseren van films. En zelfs voor het teruggeven van stemmen aan mensen die ze zijn verloren. Eerder had ik het platform al eens geprobeerd voor Nederlands spraakgebruik. Maar toen was ik nog niet overtuigd van de kwaliteit. Nu gedwongen door omstandigheden besloot ik het toch nog maar eens een keer te proberen. Ik koos voor de starterlicentie van 5 dollar per maand. Waarmee je dan 30 minuten spraak per maand kunt genereren. In die zin een bescheiden investering voor wat mogelijk een oplossing zou kunnen zijn voor mijn probleem. En dat proces bleek, laten we zeggen, enerverend en uitdagend tegelijkertijd. Met mijn jarenlange ervaring als podcasthost had ik gelukkig veel opnamen, audio opnames beschikbaar. Want die heb je dan nodig om je stem te kunnen klonen. Ik begon met twee recente opnames om mijn stem te klonen. En het initiële resultaat was best wel verrassend goed. Maar toen begon het echte werk. Het script voor de aflevering bestond uit ongeveer 2500 woorden vergelijkbaar met twee A4'tjes tekst. Want ik moest het natuurlijk helemaal uitschrijven omdat uiteindelijk de stem gegenereerd moest worden. In theorie kun je 5000 karakters in één keer omzetten naar spraak. Maar in de praktijk bleek dat niet verstandig. Kijk, elk stukje gegenereerde spraak kost credits bij ze. Bij Eleven Labs. En, maar, er waren genoeg uitdagingen die meerdere pogingen vereisten. De grootste frustratie, de afkorting AI. En uitgerekend die twee letters, zo cruciaal voor onze podcast, bleken een struikelblok voor de technologie. De ene keer was het AI. Of kreeg je het ervoor als bij een AI project. Nou, dat is niet handig als die de afkorting AI niet goed kan uitspreken. Ik experimenteerde met verschillende schrijfwijzen. Met punten ertussen tussen de A en de I. Met streepjes. Maar het resultaat bleef onvoorspelbaar. De ene keer werkte het perfect. Dan weer niet. Zonder duidelijke logica. Daarnaast ontdekte ik hoe genadeloos AI is voor typefouten. Waar ik tijdens het gewoon inspreken onbewust fouten corrigeer, werden ze nu pijnlijk blootgelegd door de technologie. Elk woord, elke letter moest perfect zijn. Het betekende dat ik ieder stukje tekst meerdere keren moest controleren voordat ik het durfde om te zetten naar spraak. En wat ik vooraf niet had ingeschat was hoeveel tijd het hele proces zou kosten. Het steeds opnieuw genereren van spraak. Het kritisch beluisteren van elk fragment. En het maken van keuzes voor de beste versie. Er kostte veel meer tijd dan verwacht. In totaal ben ik zo'n anderhalf uur bezig geweest met het krijgen van goede stukjes. En deze allemaal aan elkaar te zetten tot een goed lopende aflevering. En dat dus voor een aflevering van 10 minuten. Elk fragment moest niet alleen technisch correct zijn. Maar ook natuurlijk klinken. En goed aansluiten op het vorige stuk. Het was een puzzel waarbij elk stukje precies moest passen. Om een vloeiend geheel te creëren. Maar al die moeite en tijd waren uiteindelijk best wel waard. Want het eindresultaat verraste zelfs mezelf. Met deze licentie had je dus een snelle manier. Dus met relatief weinig audio. Kon je snel een kloon maken. Maar ik had ook voor een andere licentie kunnen kiezen. Wat bij ElevenLabs een professionele voice kloon noemen. Daar heb je dan een duurder abonnement. En meer audio voor nodig. Zo'n drie uur voor het beste resultaat. Wat gelukkig in mijn geval geen probleem is. Maar je moet je stem verifiëren door een gegeven zin in te spreken. Zo vergelijken ze dus wat je dan live inspreekt. Jouw stem met die van de geüploade audio. Best een mooi proces. Ik snap ook dat ze dat willen. Maar ja, als je geen stem hebt. Dan valt er ook niets te verifiëren. Geen optie dus. Wat voor mij verrassend was. Is hoeveel invloed je hebt. Eigenlijk moet ik zeggen hoeveel invloed je moet uitoefenen. Om het eindresultaat zoals gewenst te krijgen. Want net als bij ChatGPT. Waar je verschillende antwoorden krijgt op dezelfde vraag. produceert de stemkloon verschillende versies van dezelfde tekst. Het tempo, de intonatie, de natuurlijkheid. Dat verschilt per generatie. En door te experimenteren met verschillende instellingen die zij hebben. Je kan een stijl een beetje aanpassen. Er zijn drie opties die je kan aanpassen. Ik zal er niet te diep op ingaan. Kan je de output beïnvloeden. Wat in ieder geval hielp om de aflevering levender te maken. Anders wordt het toch best wel heel erg monotoon. Maar goed, ondanks alle verschillende versies, instellingen en aanpassingen. Bleven kleine foutjes aanwezig. Die ik uiteindelijk zo heb gelaten in die aflevering. Voor perfectie was meer inspanning nodig. Dan de energie die ik op dat moment had. Zo is dat ook wel weer. Maar goed, na het samenstellen van alle fragmenten. Had ik nog één best wel noodzakelijke aanpassing gemaakt. Het tempo. In mijn audio applicatie heb ik de complete aflevering met 9% versneld. De originele spraak vond ik wat te traag. En hoewel deze versnelling de gelijkenis met mijn natuurlijke stem verminderde. Koos ik bewust voor een toch vlottere luisterervaring. Het resultaat was misschien iets minder. Joop, ik. Maar wel prettiger, denk ik, om naar te luisteren. In ieder geval, nou ja, de reacties waren op z'n minst fascinerend. Een van de luisteraars gaf aan dat als ik niets gezegd had, dat hij ook niets gemerkt zou hebben. Terwijl mijn broertje, die mijn stem waarschijnlijk beter kent dan wie dan ook, stuurde me het volgende eerlijke bericht. Oh, podcast viel niet tegen. Wel een beetje vreemd. Soms hoorde je bijna jou en voor de rest iemand anders met dezelfde woordkeuze. Wel tof dat dit allemaal kan. Maar het waren de emotionele reacties die me het meest raakten. Een luisteraar deelde een verhaal over ALS patiënten die hun stem verliezen. Dat deed me beseffen hoe waardevol sprake is en ik voelde ook hoe isolerend het kan zijn als je die kwijtraakt. En voor mij was het gelukkig tijdelijk, maar voor veel mensen is dit een dagelijkse realiteit. Ik heb een aantal lessen geleerd uit dit experiment. Een van de dingen is dat het me aan het denken heeft gezet over eerdere discussies die we in de podcast hebben gehad over stemklonen. We hebben al eerdere afleveringen gemaakt over dit onderwerp, zoals die over Wisp. Dat is echt een geweldige applicatie die ontwikkeld is voor mensen die stotteren. Het principe is even simpel als briljant. Wanneer mensen fluisteren, stotteren ze vaak niet. En Wisp zet dat gefluister om naar een gekloonde versie van je eigen stem. Waardoor mensen die stotteren weer vloeiend kunnen communiceren. Wat mij betreft is dat een prachtig voorbeeld van hoe AI stemtechnologie levens positief kan veranderen. Aan de andere kant van het spectrum hadden we een gesprek met DJ Angelique Houtveen. Naar aanleiding van een controversiële beslissing van Aldi. Uit de supermarktketen die had besloten om haar stemacteur te vervangen door een AI stem. Voor Angelique die haar stem als belangrijkste werkgereedschap beschouwt, was dit een gevoelige kwestie. Dus zij sprak zich duidelijk uit tegen het klonen van stemmen, in ieder geval haar stem, als dit wordt ingezet om menselijke stemacteurs te vervangen. En een jaar geleden zei ik nog in aflevering 34 van seizoen 6, zei ik zelf, zou ik mijn stem willen klonen? Nou, als het me helpt, absoluut. Maar ben ik bereid om mijn stem te klonen, zodat het podcast zonder mijn aanwezigheid kan doorgaan? Nee, liever niet. En nu sta ik er toch wel wat genuanceerder in. Het klonen van mijn stem maakt het mogelijk om kennis te blijven delen, zelfs toen ik fysiek niet kon spreken. Wat me wel een beetje zorgen baart, is dat mijn stem nu alleen in de cloud staat. Ik heb geen lokale toegang of controle. Als ik het abonnement op zeg, ben ik die stem kwijt. Dus ja, dat vind ik wel jammer. Kijk, er zijn opties om dit te veranderen. En die wil ik uiteindelijk wel gaan onderzoeken, om te kijken of ik ook mijn stem lokaal kan krijgen. Maar dat is voor later. Want hoewel ik nu positiever sta tegenover stemklonen, vind ik het cruciaal dat ik zelf de controle hou. Het idee dat andere uitspraken zouden kunnen doen met mijn stem, zonder mijn toestemming. En daar moet ik eerlijk gezegd niet aan denken. Nou, laat ik afsluiten met een praktische tip die ik iedereen zou willen meegeven. Klinkt misschien raar, maar maak een backup van je stem. Het kost je maar een paar minuten om een heldere audioopname te maken, zonder achtergrondgeluid. En bewaar dat veilig. Je weet namelijk nooit wanneer je het nodig hebt. Dus ik zeg niet dat je meteen je stem moet gaan klonen. Nee, gewoon audioopname maken en die veilig stellen. Want zoals ik heb geleerd, je mis je stem pas echt als je hem kwijt bent. Nou, deze ervaring heeft me niet alleen geleerd hoe waardevol onze stem is, maar ook hoe AI technologie ons kan helpen op onverwachte momenten. Het is geen vervanging van menselijk contact. Ik zou niet zomaar even delen van de podcast nou willen gaan genereren. Maar het is wel een waardevol vang net als je het nodig hebt. Ik ben ook wel benieuwd, hoe sta jij eigenlijk tegenover het klonen van jouw stem? En ga je na deze aflevering ook daadwerkelijk een backup maken? Nou, laat het me even weten via de gebruikelijke kanalen. En vergeet niet, soms moet je iets verliezen om de waarde ervan echt te begrijpen. Dit was AIToday Live. Ik ben Joop Snijder, CTO bij Aigency. Met mijn eigen stem gelukkig. En tot de volgende keer. [Muziek]

Praktijkverhaal: Van stemverlies naar AI-oplossing

Wat leer je in deze aflevering?

Kernbegrippen

Wat er gezegd wordt

Transcript