Alle afleveringen
S05E10 - Sociale impact door AI: Hoe het annotatielab levens verandert
S05E10

Sociale impact door AI: Hoe het annotatielab levens verandert

Seizoen 5 26 min Hosts: Joop Snijder & Niels Naglé
0:00

Wat leer je in deze aflevering?

In deze aflevering bespreken Daan Odijk (RTL) en Muriël Serrurier Schepper het AI Annotatielab, een initiatief op het Mediapark in Hilversum. Dit lab biedt mensen met een afstand tot de arbeidsmarkt de kans om data te labelen voor mediabedrijven, waarbij zowel sociale impact als kwalitatieve AI-trainingsdata worden gerealiseerd.

01
Win-win voor mens en bedrijf Het Annotatielab helpt kwetsbare mensen werkervaring op te doen en steviger in de maatschappij te staan, terwijl bedrijven zoals RTL hoogwaardige gelabelde data krijgen voor hun AI-modellen.
02
Diversiteit levert betere data op De diverse groep annotatoren kijkt met een consumentenblik naar content, wat complementaire en soms zelfs betere data oplevert dan wanneer hoogopgeleide professionals dit zouden doen.
03
Ontstaan vanuit samenwerking Het lab is in 2021 gestart vanuit Media Perspectives, in samenwerking met RTL, NPO, Beeld en Geluid en de gemeente Hilversum, oorspronkelijk om gezamenlijk AI-uitdagingen zoals kijkwijzer-detectie aan te pakken.
04
Breed inzetbaar voor annotatie Het lab is niet exclusief voor mediabedrijven; ook verzekeraars, energiebedrijven of andere sectoren kunnen er terecht voor het labelen van tekst, audio, video of complexere datataken zoals IoT-sensordata.

Kernbegrippen

Data labeling
Het handmatig markeren en categoriseren van data zodat AI-modellen hiervan kunnen leren.
Crowdsourcing
Het uitbesteden van taken aan een groot aantal mensen, vaak via online platforms.
Trainingsdata
Gelabelde datasets waarmee machine learning-modellen worden getraind en gevalideerd.
Inclusieve werkgelegenheid
Werkgelegenheid voor mensen met afstand tot de arbeidsmarkt, gericht op maatschappelijke integratie.

Transcript

Hoi, leuk dat je weer luistert naar een nieuwe aflevering van de Air Today Live. We zitten vandaag met twee gasten. Dat is voor het eerst. Hartstikke leuk. Daan Oudijk, Muriel. Oh, wat erg. Ja, ja, ja. Serrurier Schepper. Dank je wel Muriel. En we gaan het echt vandaag over een heel speciaal initiatief hebben. Toen Niels en ik ervan hoorden, hadden we echt zoiets van, ja, maar hier willen we meer van weten. Dit is echt, normaal gesproken zeggen we altijd, Het is inspirerend, maar volgens mij maken wij nu zo direct echt een hele belangrijke aflevering. Dus blijf vooral luisteren. Ik dank jullie wel dat jullie aanwezig zijn bij ons in de podcast. Misschien willen jullie eerst even voorstellen aan de luisteraars. Daan, zou jij willen beginnen? Ja, prima. Ik ben Daan Odijk. Ik leid het data science en AI team bij RTL. Mijn eigen achtergrond is in de AI. Gestudeerd in Amsterdam en gepromoveerd in de zoekmachine technologie. Nu een jaar of vijf werkzaam bij RTL en ik leid een team van acht data scientists waarmee wij werken aan data science toepassingen voor heel RTL. Ja, mooi, dankjewel. En jullie hebben een speciale band met wat we hier zo direct gaan bespreken, het annotatielab. Murielle wil jij je even voorstellen? Ja, ik ben Murielle dus en ik werk nu vijf jaar als zelfstandige. En ik leid allerlei projecten op het gebied van data en artificial intelligence in allerlei sectoren. Bij Niels wij kennen elkaar ook bij Heineken hebben wij samen projecten gedaan. Dat deed ik niet AI, maar wel in de data. Zeker. En nu bijvoorbeeld in de scheepvaart, maar ook sinds 2019 al in de mediasector bij Media Perspectives. En daar hebben wij allerlei initiatieven gedaan, waaronder het AI Annotatielab, waarover we vandaag komen vertellen. Ja, en dat is echt het hoofdthema vandaag, het AI-Annotatielab. Kun je daar iets meer over vertellen? Ja, dat kan ik. Wil je een stukje historie of wil je eerst weten wat het is? Laten we beginnen met wat het is. Dan hebben mensen denk ik een beeld. En dan is het denk ik handig om de historie en waarom je hiermee begonnen bent. Het AI-Annotatielab is een plek waar mensen met een afstand tot de arbeidsmarkt bij elkaar komen. En daar zijn zij bezig met het labelen van data, waaronder de data van RTL. En enerzijds doen zij dus werkervaring op... waarmee ze straks weer makkelijker op de arbeidsmarkt komen... of vervolgtrajecten kunnen krijgen. En anderzijds krijgen de mediabedrijven hele mooie data... waarmee ze hun AI kunnen trainen. En ook die die heel divers is, omdat we hier een hele diverse groep mensen hebben. Het zijn kwetsbare mensen en we hebben daar een fantastische jobcoach op zitten die hen enerzijds helpt het werk te doen, maar anderzijds ook op allerlei vlakken in hun leven weer verder helpt, zodat ze daarna wat steviger in de maatschappij terug kan. Ja, want dat is het primaire doel, toch? Als ik dat goed begrepen had. Ja, het is én de mensen helpen én de bedrijven helpen. Dus het is echt een win-win. Het is niet het een of het ander wat belangrijker is, het is alle twee. En Daan, wat betekent dat voor jullie? Want jullie maken er gebruik van als RTL. Wat betekent dat voor jullie? Ja, dus we hebben een aantal taken waarbij we data gelabeld krijgen door deze mensen. Dat is bijvoorbeeld, kijken we naar de kwaliteit van de omtiteling voor tv-programma's, we kijken naar dingen als, welke plaatjes zijn er aantrekkelijk om als thumbnail te laten zien op Videoland. We kijken nu bijvoorbeeld ook naar welke categorie hoort er bij een video, zodat we daar voor personalisatie en voor advertenties ons verder op kunnen richten. Dus dat is voor ons hele nuttige data waar we AI-modellen op kunnen trainen. En vooral gebruiken we het ook om veel van onze AI-modellen te corrigeren... en te controleren, kijken hoe goed dat gaat. Wat interessant is aan deze doelgroep... is dat we eigenlijk een heel ander soort data krijgen... dan als we dit door een professioneel iemand bij RTL bijvoorbeeld zouden laten doen. Dus we krijgen denk ik daarmee heel veel rijkere data daardoor. Heb je een voorbeeld van wat voor verschillen moeten we dan aan denken? Nou, bij RTL werken natuurlijk veel al theoretisch gescholden, geloof ik dat ik moet zeggen, nu maar hogeropgeleiden bedoel ik, voor een deel, die heel diep in de materie zitten. Als we die een vraag stellen over van welke categorie gaat het over, dan krijgen we daar een heel praktisch antwoord open of een heel duidelijk antwoord op. deze mensen kijken veel meer met een blik van een gemiddelde consument of een ander soort consument naar onze data. Waardoor we denk ik zeker complementaire data hebben, maar misschien ook wel betere data dan als we dat zelf zouden doen. - Ja, dat is wel grappig, want dat is niet het eerste wat dan in je opkomt. Maar nu dat je het uitlegt, denk ik, oh ja, dat is eigenlijk wel heel logisch. - Ja, precies. En ik denk dat het voor ons ook heel goed is om daar juist een externe blik op te hebben en van tevoren ook goed over na te denken. Welke vragen stellen we en wat kunnen we Ja, grappig is ook dat ik recent veel gesproken met mensen die conversational writers zijn voor chatbots. En ja, dan moet je natuurlijk ook een chatbot intent vragen om te trainen zodat hij de intent herkent. En ja, die zeggen ook van, joh, het is eigenlijk al heel interessant om deze doelgroep de vragen te laten stellen. Want vraag je dat aan de mensen op kantoor, die zitten toch met een bepaalde opleiding en een achtergrond stellesvragen. vragen. Maar als je straks dit maakt voor je klantenpopulatie, ja, dat zijn niet allemaal de hoogopgeleide mensen. En dat zijn misschien wel juist de mensen die wij hier hebben zitten, zijn misschien wel gewoon je doelgroep. Dus die gaan juist de vragen stellen. De grootste groepen zijn juist niet hoogopgeleide, toch? Juist. Ja. Dus ook daar zien we heel erg de potentie van het AEA Notatiedat. Kun je ook wat vertellen over de historie dan? Ja, nou ja, het is eigenlijk hoe is het ontstaan. In 2019 toen gingen we met verschillende media partijen hier op het Media Park, want daar zijn we dan vandaag, vanuit mediaperspecties zagen we dat ze allemaal met AI en data science bezig waren. En toen hebben we meerdere bedrijven uitgenodigd en gezegd van "Goh, zou het een idee zijn om eens dingen samen te ontwikkelen, in plaats van ieder met zijn kleine team het wiel opnieuw uit te vinden." Nou, toen zijn we een aantal projecten begonnen, Dus we hebben ook een intentieverklaring voor ethisch verantwoord gebruik van AI gecreëerd en door mediapartnerijen laten ondertekenen. Zij hebben met een tool om spraakherkenners te benchmarken een oplossing gemaakt. En een van de andere dingen die we wilden doen was kijken van, goh, kunnen we het videodata bijvoorbeeld halen, is hier geweld of is hier humor, verraadt het hier over seks? om met name de kijkwijze te kijken, kan je die kijkwijzer misschien met een model trainen. Oh ja. En nou, heel leuk, een paar soort van sessies gehad met allemaal data scientists van allerlei bedrijven bij elkaar. Uiteindelijk was de conclusie, ja, we hebben gewoon niet genoeg voorbeelddata om bijvoorbeeld geweld te detecteren in al die scènes. Dus dat hield op. Op de gelijkheid was ik veel in contact met de gemeente Hilversum, die ook natuurlijk veel betrokken is bij wat er gebeurt op mediagebied. En daar was een ambtenaar en die zei van, we hebben natuurlijk heel veel mensen die niet aan de bak komen. Ik heb wel eens iets gehoord van annoteren van data en kunnen we daar niet iets mee? En toen zijn we eigenlijk, die gesprekken zijn heel snel gegaan. En toen zijn we met RTL, maar ook toen met NPO en Stichting Beeld en Geluid bij elkaar gegaan en hebben gezegd, nou, laten we dit gaan doen. En dat hebben we opgezet op 1 maart 2021, start midden in de COVID nog. Maar wij hadden hier een hele grote ruimte waar mensen heel ver uit elkaar konden zitten. En toen zijn we met allerlei taken van die partijen begonnen. En met de begeleiding erbij. En zo is dat eigenlijk ontstaan. Wat mooi. En nu gaan we het derde jaar in, dus we hebben weer net financiering gekregen voor het derde jaar. Oh, gefeliciteerd. Kijk. Ja. En als je dan vanuit jouw perspectief kijkt, wat maakt het nou, want er waren natuurlijk denk ik meerdere opties... om uiteindelijk aan deze gelabelde data te komen. Er zijn ook allerlei hele goedkope opties via het buitenland en dat soort zaken. Wat was de reden voor RTL om juist hiervoor te kiezen? Ja, inderdaad. Ik denk dat heel veel van dit soort annotatiewerk gebeurt veelal soort van anoniem. Op Amazon Mechanical Turk bijvoorbeeld, of Crowdflower, dat soort platformen. Wat ik denk dat het heel mooi aan is, is dat het op het mediapark gebeurt en ook sociale impact heeft, maatschappelijke impact heeft. En ik denk ook dat we een heel kort lijntje hebben aan deze groep, dat we ook kwalitatief veel hoogwaardigere data krijgen. Dus ik kom zelf hier geregeld langs om even te kijken hoe het gaat, wat te vertellen over wat we met de data aan het doen zijn, en wat vragen te beantwoorden. En ik denk dat dat ook heel goed werkt om veel betere data te krijgen hieruit. Dus ja, dit was aan alle kanten een grote winst voor ons eigenlijk. Ja, snap ik. Mooi. En je had het over dat het nu voor mediabedrijven is. Is het exclusief voor mediabedrijven om gebruik te maken van het annotatielab? Nee, absoluut niet. Dus wij zijn op zoek naar andere bedrijven die ook denken van... 'Goh, we hebben ook van al die data, maar daar moeten we nog iets mee... maar we hebben niet de tijd om dat zelf met onze dure data science resources te doen.' Dus we zijn op zoek naar andere bedrijven ook die denken van... 'Nou, daar zie ik wel wat in en dat levert ons rijkere data op, zoals Daan vertelt.' En ze kunnen verzekeraars zijn, maar ook in de energiesector... Er wordt ook veel met fotomateriaal gedaan, wat gelabeld moet worden. Maar ook, nou wat ik zei, chat... De training van die chatbots. Dus eigenlijk van alles kan het zijn. Dus het kan en beeldmateriaal zijn, maar het is ook tekstmateriaal. Ja, we hebben ook in het verleden bijvoorbeeld voor een bedrijf... moesten er mensen teksten lezen en uiteindelijk aangeven... welke emotie roepte dit stukje tekst op. En dat was bijvoorbeeld omdat zij bezig waren om te kijken... Geautomatiseerd wilden ze advertenties plaatsen bij artikelen op de website. En dan wilden ze natuurlijk wel hebben dat als je een mooie advertentie ergens over hebt... dat dat niet bijvoorbeeld van een BMW of een Audi... dat dat niet naast een autocrash verhaal stond. Dus op die manier moesten mensen dus dingen lezen en emoties daaraan geven. Oh, wat goed. Dus tekst, maar ook audio, video's. Eigenlijk maakt het qua type data niet zo veel uit. Nee, en ook complexere dingen. Ze zijn er niet theoretisch geschold, maar veel van de mensen zijn wel slimme mensen. Alleen ze hebben ergens op hun pad, is het anders gelopen dan ze misschien hadden gewild of dan dat kon. Er zijn ook ook regelmatig autistische mensen die hier zitten. Dus ze zijn niet dom. Ze vinden juist een beetje complexere taken heel leuk. En ik werk nu ook voor een scheepvaartbedrijf waar we met IoT-data bezig zijn. En op een gegeven moment hebben we ook een taak gedaan waar wij echt moesten kijken naar de tags van zo'n sensor. Bij wat voor omschrijving hoort dat nou van het schip? Dat vonden ze hartstikke leuk, want het was heel erg puzzelen tussen drie verschillende bestanden... en daarin zoeken en dan uiteindelijk het juiste uitkiezen. Dus ook dat soort dingen, als je gewoon een bak met data hebt waar gewoon iets mee moet gebeuren... maar waar je zelf gewoon geen tijd voor hebt, ja, kom maar door. En met 'kom maar door', hoe gaat dat in zijn werk? Dus er luistert nu iemand en die zegt, ja, maar dit is echt wat voor ons. Ja. Hoe, wat is de eerste stap voor zo iemand? Ja, nou dan om, nou ga eerst sowieso eens even op onze website opkijken, he. De annotatielab.nl. Ja. En daar vind je ook allerlei contactgegevens, dan kom je bij mij terecht. Dus ik hoop dat jullie de shownoten mijn e-mailadres willen zetten. En de website en je e-mailadres. Alles, heel vaak. En wat we dan doen is, we gaan met elkaar in gesprek. En dan kunnen we gewoon met elkaar een proef gaan doen. En de bedoeling is dus dat je als bedrijf zelf de taak maakt. En dat je ook je eigen annotatietool meeneemt. En dat kan dus de ene keer een productie zijn, andere keer een labelbox. Maar er zijn ook zelfgemaakte tools. En dan gaan de mensen hier, die krijgen gewoon een username en een password van de opdrachtgever. en die gaan dan daarin en gaan in die tool van het bedrijf zelf zitten labelen. Dus op die manier blijft de data ook gewoon waar die vandaan komt. En we hebben daar wel gezegd, we doen niks met privacygevoelige data. Want dan moet je weer allerlei complexiteit met allerlei overeenkomsten. En daar willen we gewoon vanaf blijven. Maar verder eigenlijk alle soorten data natuurlijk wel binnen het normale. Je hoort natuurlijk wel eens met dat chat-gpt dat er van alles in Kenia is geoutsourced... waar mensen de meest ik wat voor vreselijke video's ofzo hebben moeten kijken. Nou, dat soort werk doen we niet. Nee. Dus er zit wel... - Dus er vindt wel iets van een intake plaats. Ja, er zit wel... Het moet wel gewoon normale data zijn. En deze is gewoon in te en dan maken we gewoon een contract met elkaar... en dan gaan we gewoon aan de bak. En wanneer kunnen ze dan de eerste resultaten verwachten? Nou ja, zodra de taak klaar is en de mensen aan de bak gaan, een uur later heb je al de eerste tax. Wat is jouw ervaring, Daan? Ja, het gaat relatief snel om dat op te zetten. Ik denk dat inderdaad een inteken is een goed idee en ik denk ook dat directe betrokkenheid ook handig is om te hebben, om ook gewoon een betere kwaliteit data te krijgen dan ook daarmee. Maar ja, als wij een nieuwe taak hebben en we leggen dat 's morgens uit, Dan hebben we 's middags de eerste berg data binnen. En ja, er wordt hier nu op dit moment drie dagen in de week gelabeld. Dus dat betekent dat het behoorlijk snel doorloopt. En we hebben allemaal taken waar we niet direct tijdsdruk op zitten... waarbij het ook even kan duren als de data komt. Dus wij proberen een soort van vanuit RTL de gaten te vullen... zodat we andere klusjes tussendoor kunnen doen... voor mensen die meer data hebben. En wij kunnen wel wachten even op die data. En Muriel had het net over verschillende tools. Wat hebben jullie aangeleverd aan het lab? Mag je daar iets over zeggen? - Ja hoor, je kan daar prima wat over zeggen. Wij gebruiken onder andere Labelbox, een annotatietool waar we een aantal taken in hebben opgezet. En daar kijken we bijvoorbeeld naar een taak als herkennen van muziek in Videlandcontent. Zodat we een idee hebben van waar zitten er muziekstukken, zodat we dat kunnen gebruiken zowel voor dingen als automatisch hoofdstukken maken voor videocontent, maar ook om te kijken of we de juiste rechte afdracht doen. Controleren daarvan. Dat is een relatief simpel taakje waarbij gewoon vijf minuten geluisterd werd. En de vraag was, hoor je je muziek ja of nee? -Oké, dus niet eens welke muziek? Nee, gewoon echt heel simpel. Is de muziek ja of nee? En dat hebben we gebruikt om daarmee automatische modellen te benchmarken en te calibreren eigenlijk, zodat we nu goed weten waar muziek zit. Wat was de impact daarvan voor jullie? Nou, specifiek in dit geval, we gebruikten daarvoor al automatische modellen en we weten nu veel beter hoe goed die werken. Dus we vertrouwen die modellen nu heel veel beter doordat we menselijke data hebben. En we hebben uiteindelijk dat gebruikt ook om dat met Buma's camera te controleren en kijken of we daar verschillende van meningen hebben. Dus daarvoor was het hele nuttige data om een gedeelde waarheid te creëren eigenlijk. Dat hebben we gebruikt tot aan de presentatoren zelf die het hebben laten zien. Dat is ook een heel belangrijk onderdeel. Dat is ook een heel belangrijk onderdeel. Dat is ook een heel belangrijk onderdeel. Dat is ook een heel belangrijk onderdeel. Dat is ook een heel belangrijk onderdeel. Dat is ook een heel belangrijk onderdeel. Dat is ook een heel belangrijk onderdeel. Dat is ook een heel belangrijk onderdeel. Dat is ook een heel belangrijk onderdeel. Dat is ook een heel belangrijk onderdeel. Dat is ook een heel belangrijk onderdeel. Dat is ook een heel belangrijk onderdeel. die een idee kregen van hoe divers we eigenlijk mensen uit bij ons gaan voor bij de toxia zoals je nek en bo en rent ze en belangrijk absoluut hele mooie data voor keren en de mensen vond het ook heel leuk om te horen dat het werk wat zij gedaan hadden dat dat nou ja besproken werd daar en en op een hoog niveau binnen rtl en dat daar dus ook naar tot tot effecten heeft mogelijk geleid dat dat dus dus ja dat merk je ook wel dat dat Dat je de feedback aan de jager geeft om hier gewoon over vloer te komen als je hier wat laat labelen. En dat weer terug te geven van wat hebben we daar mee gedaan, wat is de waarde ervan om het circuit rond te maken. Heel mooi. Geldt dat ook, jij zei net over dat scheepvaartmaatschappij. Kan je dat dan ook vertellen wat dat voor impact heeft aan de labelhaars? Ja, dus ik kan het wel uitleggen waar we dat voor doen. Maar dat staat zelf nog. We zijn blij dat we eindelijk gestandardiseerde data hebben. Dat is nu de grootste uitdaging. Dus om er waarde uit te halen. Dat zijn andere uitdagingen. - Andere werk. Ja, zomaar zeggen. Want de media, RTL, dat kijken we natuurlijk allemaal. Dus daar kunnen we ons iets bij voorstellen. Ik kan me ook wel voorstellen dat je misschien iets aan het labelen bent... waarbij je echt geen idee hebt wat het betekent. Wat voor effect dat heeft. Lopen ze daar tegenaan? Nou, de meeste data die ze krijgen is gewoon mediadata, dus daar tot nu toe. Dus ja, kan ik niet... Nee, weet ik niet precies, maar ik weet wel dat ze die taak wel heel leuk vonden, en er wel af en toe vroegen van 'komt er nog meer?' Dat is een goed teken, ja. We waren klaar. Ik merk wel dat er vaak wel vraag naar is om te begrijpen van waarom doen we dit eigenlijk? Wat hebben we nu nou aan? Wat gebeurt er als ik iets verkeerd label? Hoe erg is dat? Dat soort vragen ook wel. En voor ons natuurlijk hele herkenbare data, maar er zijn ook andere mediapartijen die niet alleen Nederlandstalige content hebben, ook uit andere landen. Dus dan kan ik me voorstellen dat ze wat minder hebben met die content wellicht, maar dat gaat met net zoveel enthousiasme. Maar je ziet ook wel dat we hebben ook wel met een van andere partijen gehad dat een taak niet goed was opgezet. En nou ja, mensen gingen daarmee aan de slag. En eigenlijk na een dag kwam er dus ook de feedback van ja, maar het werkt gewoon niet op deze manier. Omdat je, ja eigenlijk komen ze altijd op de werkvloer om het de eerste keer uit te leggen. En doordat het niet band is, konden we ook heel snel weer schakelen. En nou ja, moest inderdaad het bedrijf opnieuw aan de slag om de taak zodanig te maken dat het wel werkte. Maar daardoor kregen ze dus ook wel weer betere data. Dus er wordt ook wel nagedacht over wat we aan het doen zijn. Ja, precies. En is er een soort van kaders die je nu geleerd hebt van ja, dit is een goede taak. Het is lastig om te zeggen. Het is denk ik ook wel heel anders bij het annotatielab dan wat ik bijvoorbeeld uit mijn academische geschiedenis gewend ben met dingen als Mechanical Turk of andere crowdsourcing platformen, waar het veel meer ging over taakjes zo klein mogelijk maken, zorgen dat je goed controleert. Ik stelde mezelf altijd iemand voor die aan de Dat is hier echt heel anders, omdat deze mensen doen dit met heel veel aandacht. Denken er goed over na, overleggen ook af en toe met elkaar als er dingen misgaan. Ik krijg ook vaak genoeg hele terechte vragen terug over van hoezo is dit opgezet en wat zou ik hier moeten antwoorden. Dus daardoor maakt het ontwerp van de taak ook heel erg anders eigenlijk. Het is meer een dialoog dan dat het is bij een crowdsourcing platform. heel erg anders eigenlijk. Het is meer een dialoog dan dat het is bij een crowdsourcing platform. Ja mooi. En ik heb het idee dat bij ons dat wij onze taken eigenlijk steeds een beetje complexer zijn gemaakt. Waar ik eerder zei, want het was gewoon de vraag van muziek of niet? Hoe mooi vind je dit plaatje? Kijk deze drie minuten video en beantwoord daarna deze dertig vragen ongeveer. En dan krijgen we daar ook gewoon prima data uit. We hebben net even een korte rondleiding gehad en een van de jongens liet natuurlijk zien wat hij voor jullie aan het doen was. En ik vond het inderdaad, dat zag er echt wel serieus complex uit. Dus ik zeg maar toen we hier naartoe kwamen, dacht ik eigenlijk ook van dat zijn een soort van ja, nee labels. Ik was erg onder de indruk inderdaad van hoe complex de taak was dat dat wordt uitgevoerd. Ja, en wij onder de indruk van wat we aan data kunnen krijgen daaruit ook. In het begin hebben we ook heel veel soort van dubbele data opgevraagd... om te kijken van hoe betrouwbaar is dit, hoeveel consensus krijgen. En ook dat doen we eigenlijk nu wat minder... omdat we zien dat we veel diversere data kunnen krijgen... en het signaal behoorlijk goed is ook. Heel mooi. Ja, ik had gewild dat ik hier iets eerder van wist. Ik heb eind vorig jaar zelf nog even 10.000 plaatsjes moeten annoteren... Omdat er toch zoveel problemen in zaten met wat we aangeboden hadden gekregen. Dat ik mijn eigen label heb gemaakt. En precies wat jij zei, ik zat wel ergens in een vakantiehuisje bij een open haard. Maar ik heb wel 10.000 keer echt gedrukt van het is dit, het is dat. Dus dat, ja, ik had het wel eerder willen weten. Ja, het is zonde van jouw tijd. En je vindt het niet leuk. En hier maak je er mensen blij mee. Ja, geweldig. Wat wel is, we leveren goede kwalitatieve data, maar we maken geen afspraken over zoveel doen we er per uur. Want wat ik al zei, het is een speciale doelgroep en de druk wordt eigenlijk door de jobcoach bepaald hoeveel iemand aan kan. En daar houden we ons ook aan. Maar tot nu toe is er genoeg ruimte om genoeg taken te doen. Dat is wel echt iets waar we niet op sturen. Ik denk dat het goed is, plus in de machine learning. Meestal komt het niet op een uurtje aan. Het mag een paar dagen duren. Dus ik denk dat het ook heel verstandig is. Ik denk ook dat het heel goed is. We hebben natuurlijk hele gedetailleerde data over... allerlei kwaliteitsmaten, tijd, duur die mensen daar aan besteden. Dat is data waar we nooit naar kijken, omdat dat niet van belang is. Dat is niet waarvoor ze hier zitten. Het gaat erom dat ze van hier verder komen en wellicht uitstromen naar andere banen. En daar zijn ook een aantal hele mooie voorbeelden van. En dat is veel belangrijker dan dat we precies weten... hoeveel output we hebben van iedere deelnemer. Nou, en ik vond het ook mooi net in de rondleiding van, dat werd gezegd, 50 minuten. Daarna gaat er gewoon een zoomer en dan ligt gewoon alles, alles, alles stil. Maar dat moet natuurlijk ook bij dit soort werkzaamheden, hè? Dat je ook gewoon ruimte en tijd hebt om weer gewoon geconcentreerd later verder te kunnen. Ja, echt heel mooi. Ja, en ik vond het ook een mooi verhaal van de personen die binnenkomen, echt hun groei doormaken en vervolgens weer ergens anders hun werk kunnen verrichten. Dus echt een stap de maatschappij weer in. Dat vond ik ook heel mooi om te horen. Ja, ze zitten in principe zes maanden bij ons. En ze beginnen dan ook vaak ook heel schuw, moeten echt weer aan het werkproces gaan wennen. En na die zes maanden, dan trainen ze ook gewoon de nieuwelingen die komen. Want het is de hele tijd een wisseling. En dan zijn ze ook senior geworden. Dus ze maken echt hele mooie stappen in die korte tijd. Ja, dat is echt iedereen oproepen, denk ik. Ik wil jou eigenlijk wel het laatste woord geven, Muriel. Juist, want dit is echt zo belangrijk. Een beetje geven je op. Nou ja. Ja, dus ja, echt. Ik vind het een fantastisch project. Binnen de hele data AI-wereld gebeurt zoveel. We hebben het over maatschappelijk verantwoorden, modellen trainen. Nou, laten we dan helemaal bij de bron beginnen. Kom je data hier gewoon brengen. Wij gaan ermee aan de slag. En zoals je van Daan hoort, je krijgt top data. Dus ga het niet meer zelf doen, maar neem contact met mij op. Hele mooie afsluiter. Dank je wel. Goed dat je luisterde weer naar een aflevering. Je hebt Muriel en Daan gehoord, dus geef je op ons bedrijf of win informatie in. Doe dat, supermooi project. [Muziek]

Over de gasten

Muriël Serrurier Schepper
Muriël Serrurier Schepper
AI Programmamanager bij AI Annotatielab

Muriël Serrurier Schepper is een zelfstandige professional met vijf jaar ervaring in het leiden van projecten op het gebied van data en artificial intelligence in diverse sectoren. Ze heeft een sterke focus op het creëren van maatschappelijke impact door het verbinden van mensen met een afstand tot de arbeidsmarkt aan relevante data-annotatietaken. Haar werk omvat onder andere het opzetten van het AI Annotatielab, waar kwetsbare groepen waardevolle werkervaring opdoen terwijl ze bijdragen aan de ontwikkeling van AI-modellen.

Bekijk gastprofiel
Daan Odijk
Daan Odijk
Data Science Manager bij RTL Nederland

Daan Odijk leidt het data science en AI-team bij RTL en heeft een achtergrond in kunstmatige intelligentie, met een studie en promotie in zoekmachine technologie. Hij heeft meer dan vijf jaar ervaring in het werken met data science-toepassingen binnen de media. Daan is betrokken bij het ontwikkelen van AI-modellen en het verbeteren van datakwaliteit door middel van samenwerking met diverse teams.

Bekijk gastprofiel
Bekijk alle gasten →