Alle afleveringen
S06E12 - Is jouw project geschikt voor machine learning?
S06E12

Is jouw project geschikt voor machine learning?

Seizoen 6 8 min Hosts: Joop Snijder & Niels Naglé
0:00

Wat leer je in deze aflevering?

In deze aflevering van AIToday Live staat de rol van machine learning binnen het brede spectrum van kunstmatige intelligentie centraal. We verkennen wanneer de inzet van machine learning niet alleen wenselijk, maar ook haalbaar is. Dit gesprek voert ons langs de veelzijdigheid van machine learning, de uitdagingen bij afwijkende data en situaties waarin andere methodes de voorkeur krijgen. We duiken ook in de humoristische kant van data-analyse met voorbeelden van Spurious Correlations om de valkuilen van valse correlaties te illustreren. Dit biedt niet alleen inzicht in de potentie van machine learning, maar ook in de momenten waarop een stap terug noodzakelijk is.

Transcript

Hey, leuk dat je weer luistert naar een korte aflevering van de AIToday Live. Met vandaag; Hoe herken je situaties waar AI je kan helpen? Deze vraag krijg ik steeds vaker en in deze aflevering kijken we vooral naar machine learning. Zoals je misschien weet, binnen de paraplu-term van AI heb je verschillende categorieën. Machine learning is al geruime tijd een bekende technologie en tegenwoordig gaat het ook vaak over generatieve AI. Vandaag wil ik het hebben over machine learning. Dus hoe herken je in het goed Nederlands use cases die geschikt zijn voor machine learning en ik ga ze onderverdelen in goed uitvoerbare cases, moeilijk uitvoerbare cases en cases waar je het eigenlijk beter niet kan toepassen. Laten we beginnen bij die goede cases. Voordat ik begin moet ik zeggen dat dit geen checklist is. We kijken naar de kenmerken van de situatie en zeggen dan; hey dit is een heel veelbelovende oplossing met machine learning voor deze situatie en eerlijk gezegd komt dit voornamelijk voor het uit ervaring. Oké, wat zijn dan die typische kenmerken? Een daarvan is wanneer je voorspellingen wilt maken. Je verwacht dat er voorspellende gaven in je data zit waarbij je hoopt dat je een klein beetje vooruit kan kijken. Je kan bijvoorbeeld voorspellen of klanten snel bij je weg gaan. Er zijn veel websites die voorspellen hoe grote de kans is dat je op een website een aankoop doet terwijl je nog aan het browsen bent. Je moet wel genoeg historische data hebben om een goede voorspelling te kunnen doen. Het kunnen indelen van gegevens is een andere karakteristiek, classificatie geheten. En daar zou je kunnen denken aan taalherkenning. Met sentimentanalyse kun je teksten classificeren als positief, neutraal of negatief. Of denk aan e-mail classificatie. Deze e-mail gaat bijvoorbeeld over loginproblemen en daar moet je het volgende voor doen. Deze e-mail gaat over iets heel anders en daar moeten we uiteraard iets anders voor doen. classificatie hebben we natuurlijk ook op het gebied van computer vision. Een bekende app, SkinVision, kan bijvoorbeeld plekjes op je huid classificeren naar een mogelijke risico, zelfs op huidkanker. Maar ook objectherkenning is ook zo'n karakteristiek. Daar is de machine ontzettend goed in. Gezichtsherkenning, objecten herkennen, zelfs augmented reality. Repetitief handmatig werk is ook zo'n karakteristiek waarbij de machine learning je ontzettend goed kan helpen. Dus we hebben het over voorspellen, classificatie, helpen met natuurlijke taal, dat de computer kan kijken, luisteren, zelfs spreken. Dat zijn best wel hele goede cases. Wat is nou best wel moeilijk? Als je hier tegenaan loopt en je denkt van, misschien kan het, maar daar moeten we wel op letten. En een van de dingen is bijvoorbeeld bij computer vision is dat wat ze noemen situaties met out of distribution data. Ik zal uitleggen wat dat betekent. Machine learning modellen worden getraind met heel veel data, maar dat de situatie die zich voordoet buiten het bereik ligt van die trainingsdata. Laat ik een voorbeeld geven. Stel je kan huisdieren herkennen. En dat doet de machine hartstikke goed. Vervolgens heb je een loslopende kangaroo en die springt in je tuin en die herkent de machine niet. Daarvan heb je geen trainingsdata. Het model is getraind op huisdieren. En toch zal het model proberen om dat onbekende beest te classificeren in een van de klassen die het wel kent. Dus misschien zegt het wel het is een hond of wat anders. Met dit soort situaties kan de machine moeilijk mee omgaan. Een ander voorbeeld, deze kan je ook vinden op social media, is een filmpje van Tesla waarbij de auto op de snelweg rijdt, waarbij de objectherkenning van de auto stoplichten overvliegen. Tesla rijders hebben van die schermen en daar zien ze de objecten die voor hen op de weg staan daarop verschijnen. Dus er kunnen stoplichten zijn, dat kunnen medeweggebruikers zijn en die zien zij op hun scherm. Dus nogmaals, er rijdt iemand op de snelweg en er vliegen allemaal stoplichten over en die vliegen als het ware over de auto heen. Ik weet niet hoe het bij jou zit, maar het is niet heel erg gebruikelijk dat er veel stoplichten zijn op de snelweg. Wat was er nou aan de hand? Voor de auto rijdt een vrachtwagen waarop stoplichten staan. Die worden vervoerd. Dus het model herkent vrachtwagens, stoplichten, maar rijdende vrachtwagens waarop stoplichten worden vervoerd, die kent hij niet. Dus dan heb je ook weer out-of-distribution data, zoals dat zo moeilijk heet. Daar kan machine learning heel slecht mee omgaan. Wat ook al lastig is, is als je weinig historische data hebt. Startups lopen hier vrij snel tegenaan. Wat machine learning doet, is het vinden van patronen in gegevens. En als je weinig gegevens hebt, zullen er ook weinig patronen in zitten. Of erger, dat als die wel patronen vindt, dat het niet sterke patronen zijn of zelfs valse patronen zijn. Dan vind je correlaties die er eigenlijk niet zijn. En als je daarmee zou gaan werken, ja, dan ga je daar besluiten op nemen die helemaal niet correct zijn. Je hebt hier zelfs een speciale website voor. Geweldig vind ik die. Ik vind het vaak leuk om daarin te neuzen. Die heet Spurious Correlations. Dat is Engels voor 'valse correlaties'. Ik zal de link opnemen in de show note. En een van mijn favorieten, die gebruik ik ook wel in mijn presentaties, is dat er een hele sterke correlatie is van de kaasconsumptie in Amerika en de hoeveelheid mensen die komen te overlijden omdat ze verstrikt raken in hun bedlakens. Als dat een oorzakelijk verband zou hebben, dan zouden wij de Nederlandse kranten daar vol van hebben staan. Als laatste rest dan nog de categorie waarvan je zegt 'dat kan je eigenlijk beter niet met machine gaan oplossen'. En een heel duidelijk signaal is dat je iets regelgebaseerd kan oplossen. Dat is uiteindelijk altijd een handigere manier. Dat is goedkoper, beter onderhoudbaar, beter te begrijpen. En uiteindelijk heb je daar ook altijd een hele duidelijke 100% ja of 100% nee antwoord. Dat is ook een van die karakteristieken. Als je dat tegenkomt en je vindt dat belangrijk, een 100% ja of een nee, dan is machine learning niet de beste oplossing. Waar machine learning ook heel erg slecht in is, is als je hele snelle veranderingen hebt die je real-time zou moeten voorspellen. Dan heb ik het bijvoorbeeld over het voorspellen van aandelenprijzen. Zou je dat kunnen? Dan word je er wel heel rijk van. Maar het is wel een heel belangrijke karakteristiek dat als je hiermee te maken hebt dat het heel erg lastig wordt. En eentje die natuurlijk ook daaronder valt zijn ethisch zeer gevoelige gebieden. Dus als je bijvoorbeeld je medewerkers gaat scoren of dat je tegen discriminerende besluiten aan gaat komen, dan is er een hele categorie waar machine learning misschien wel kan, maar waar je dat niet zou willen. Uiteraard is dit geen volledige lijst, maar dit is wel een manier waarop je een beetje kan inschatten of machine learning je kan helpen in jouw situatie. Dankjewel voor het luisteren. Mijn naam is Joop Snijder, ik ben CTO bij ETC. Tot de volgende keer! [Muziek]