Wat leer je in deze aflevering?
Harm Bodewes, 55 jaar en co-host van de Dataloog podcast, deelt zijn persoonlijke verhaal over de overstap van management naar data science. Na twintig jaar bij Transfer Solutions en vijf jaar als director Data Analytics bij Vanderlande, besloot hij ontslag te nemen om zich om te scholen via het JATS in Den Bosch.
Kernbegrippen
- Carrièretransitie
- Bewuste overstap van managementfunctie naar inhoudelijk specialistische rol in data science.
- Machine learning technieken
- Algoritmen zoals lineaire regressie, random forest en XGBoost voor voorspellende analyses.
- Clusteranalyse
- Statistische methode om gelijksoortige gegevenspunten in groepen in te delen.
- ZZP-model
- Zelfstandige zonder personeel die diensten aanbiedt aan meerdere opdrachtgevers.
Interview: Harm Bodewes
Kun je jezelf even voorstellen aan onze luisteraars?
Mijn naam is Harm Bodewes en ik ben 55 jaar jong. Ik heb lang geleden bestuurlijke informatiekunde gestudeerd in Tilburg. Wat misschien wel leuk is om te vertellen, is dat ik in de jaren 80 al een vak gedaan heb dat AI heette, Artificiële Intelligentie. We mochten toen programmeren in Prolog. Dat heeft ervoor gezorgd dat ik zoveel jaren later uiteindelijk weer het vuurtje van AI heb opgepikt. Ik vond dat toen zo cool. Het was helemaal gebaseerd op predicate-logica en was een declaratieve vorm van programmeren, totaal anders dan Turbo Pascal wat we in die tijd ook moesten leren. Daarna ben ik, net zoals de meeste mensen, gaan werken. Ik ben in het Oracle vak terechtgekomen. Mijn eerste werkgever was Oracle Nederland, waar ik docent was. Dus ik gaf cursussen SQL, PL/SQL en datamodellering. Eigenlijk over de hele wereld stond ik als jong baroekie toen nog cursus te geven.
Wat heb je na je tijd bij Oracle gedaan?
In 1995 zijn we met een aantal mensen het bedrijf Transfer Solutions gestart, een Oracle spin-off zou je kunnen zeggen in Leerdam of all places. Daar heb ik uiteindelijk exact 20 jaar gewerkt. Toen ben ik in dienst getreden van Van der Landen, een groot bedrijf in Veghel dat gespecialiseerd is in warehouse automatisering en bagage afhandelingssystemen. Iedereen die wel eens op Schiphol is geweest, heeft er gebruik van gemaakt. Als je je koffertje van die band afhaalt, is die koffer over systemen van Van der Landen heen gegaan. Daar heb ik ook Niels leren kennen, want daar heb ik toen Infosupport ingehuurd. Na een jaar of vijf dacht ik: nou weet je, ik vind dit vak heel erg leuk, maar ik vind het eigenlijk nog veel leuker om dit voor mezelf te gaan doen. Dus toen heb ik eerst een korte break ingelast, ben ik gaan studeren, Data Science. En daarna ben ik voor mezelf begonnen als ZZP'er. Dat doe ik nog steeds en kan ik iedereen aanraden.
Wat deed je precies bij Van der Landen op het gebied van data?
Binnen Van der Landen was ik al met het vakgebied bezig. Ik was de eerste director van die afdeling Data Analytics. Het was ook een nieuwe afdeling. Het omvatte binnen Van der Landen zowel Business Intelligence als Master Data Management en een heel klein beetje Data Science. Dat is nu ongeveer zes jaar geleden. Daar hebben we de eerste stapjes gemaakt met voorspelmodellen van bijvoorbeeld het voorspellen van de kosten of het voorspellen van de omzet. Eigenlijk redelijk eenvoudige modellen, nog niet eens met machine learning technieken.
Wat heeft jou uiteindelijk bewogen om de stap naar zelfstandig ondernemerschap te maken?
Het was ten eerste een persoonlijke afweging dat ik er op een gegeven moment achterkwam dat ik gewoon veel beter bij een wat kleiner bedrijf pas dan bij een heel groot bolwerk met alle politiek en noem maar op wat daarbij hoort. Dus ik dacht: ik moet echt weer bij een kleiner bedrijf gaan werken. Uiteindelijk ben ik dus bij een eenmansbedrijf gaan werken. Kleiner kan niet. Een andere overweging was dat ik op een gegeven moment vond dat ik managers aan het managen was, die op hun beurt weer managers aan het managen waren. Ik stond zo ver van de inhoud af. En ik dacht: ja wacht eens even, wat vind ik nou echt leuk? Ik was inmiddels de vijftig gepasseerd, misschien zat ik midden in de midlife crisis, weet ik veel. Maar ik dacht: ik moet weer de inhoud induiken.
Hoe ben je tot de keuze gekomen om Data Science te gaan studeren?
Ik had inmiddels al met een aantal collega's van Van der Landen een summer course of iets dergelijks gevolgd. Vier keer een vrijdag een college op het JATS, de Jheronimus Academy of Data Science in Den Bosch. Toen dacht ik: nou weet je, ik neem ontslag bij Van der Landen en ik ga gewoon weer lekker studeren. Dus ik heb me ingeschreven bij Professional Education aan het JATS. En dat is een hele goede keuze geweest.
Wat sprak je zo aan in AI en machine learning om je juist daarin te verdiepen?
Ik kom eigenlijk oorspronkelijk al uit die wereld, want ik studeerde in Tilburg, maar ik was daar ook studentassistent. Ik was daar het hulpje van professor Meersman, die hoogleraar was in datamodellering en kennisrepresentatie. Ik ben ook afgestudeerd op een vergelijking tussen twee datamodelleringsmethoden. Dus dat data, ik ben eigenlijk wel de softwarewereld in gerold, maar data en software zijn eigenlijk hele verschillende gebieden. Het vakgebied van datamodellering, kijk in essentie is datamodellering het maken van een model, een vereenvoudiging van de werkelijkheid. En de meeste datamodellen veranderen ook helemaal niet in de loop der tijd. Het hoeft ook helemaal niet. Als je op een flexibele manier modelleert, hoeft het helemaal niet. Dat data-vak sprak mij vanaf toen ik heel jong was al aan. Ik wilde dus meer met de inhoud gaan doen. Ik wilde af van dat manager van managers van managers. En ik was al enthousiast geraakt over het JATS. Dus ik dacht: als ik het nu niet doe, dan komt het er niet meer van.
Hoe ben je uiteindelijk toegelaten tot de studie?
Ik ben gaan bellen naar Den Bosch. Ze zeiden: jammer meneer Bodewes, we zijn net met een groep gestart. Ik vroeg: is er geen mogelijkheid om toch nog aan te sluiten? En toen heb ik in de kerstvakantie, ongeveer drie jaar geleden inmiddels denk ik, alle colleges die al geweest waren op film, op mp4, gezet te kijken. Het werd toen al allemaal opgenomen, het was al net coronatijd. Ik moest een programmeertest doen in Python. Nou, wonder boven wonder, ik was ervoor geslaagd. Toen ben ik aangesloten bij een groep van 25 studenten of zo. Eerst was ik nog even bang: straks kom ik dus allemaal van die hele jonge mensen tegen die allemaal veel sneller en handiger zijn. Maar dat viel dus heel erg tegen of mee, net hoe je het bekijkt. Het waren heel veel mensen juist die ook op bepaalde perioden in hun carrière waren en iets anders wilden gaan doen. Echt hartstikke leuk. Dus voor mij persoonlijk is dit een hele goede keuze geweest. Het heeft me heel veel nieuws gebracht.
Hoe was de studie georganiseerd en wat heb je ervan geleerd?
Iedere vrijdagochtend kreeg je college in Den Bosch. Tijdens de coronaperiode was dat dan online helaas, maar goed, dat moest even. Dat waren in het algemeen echt goede hoogleraren, of uit Tilburg of uit Eindhoven. Want JATS is een samenwerking tussen TU Eindhoven en Tilburg University. In de middag werkte je dan in een klein groepje aan een opdracht. Ik had de meest technische variant gekozen, dus je moest ook zelf programmeren in Python. En dat was hartstikke leuk. Om je een voorbeeld te geven: we hebben een voorspelmodel voor een supermarkt gebouwd. Daarin hebben we alle klassieke machine learning technieken toegepast. Dus lineaire regressie, random forest, XGBoost, die hele rits methodes hebben we gebruikt. Het is hartstikke leuk om daar eens wat mee te oefenen en om daar gevoel bij te krijgen. Lineaire regressie is een techniek waarbij je de relatie tussen variabelen beschrijft met een rechte lijn om voorspellingen te doen. Random forest is een verzameling van beslisbomen die samen voorspellingen maken, waarbij elke boom een 'stem' heeft. XGBoost is een geavanceerde vorm van boosting, waarbij meerdere zwakke modellen worden gecombineerd tot één sterk model door steeds te leren van de fouten van eerdere modellen.
Waar ben je uiteindelijk op afgestudeerd?
Ik ben uiteindelijk afgestudeerd bij een bedrijf waar een vriend van me directeur was, Aldi Press. Daar moest een model gemaakt worden om de verkoop van tijdschriften, papieren tijdschriften want die bestaan nog steeds in 2023, te voorspellen. Daar moest ik een soort clusteranalyse op loslaten. Dat was wel heel leuk. Clusteranalyse is een techniek waarbij je data in groepen verdeelt op basis van overeenkomsten, zonder dat je van tevoren weet welke groepen er zijn. Het algoritme zoekt zelf naar patronen en verbanden in de data. Ik heb bijvoorbeeld achtergekomen dat er een sterke correlatie is tussen de verkoop van roddelbladen en tv-gidsen. Ik vertel het nu als grapje, maar het was wel echt serieus, want Aldi Press is dus verantwoordelijk voor de distributie van tijdschriften in supermarkten, bij benzinestations, ziekenhuizen, noem maar op. Zij wilden eigenlijk met minder titels, dus een kleiner arsenaal aan titels, meer geld verdienen. Daarvoor wilden ze die clusteranalyse aanvoeren.
Wat maakte de studie zo waardevol voor je?
Het is de combinatie van praktijk en theorie die mij heel goed beviel. Ik had een beetje een luxe situatie, want ik heb een korte sabbatical gehad. Uiteindelijk was het maar drie maanden volgens mij. Dus ik had ook de rest van de tijd wel tijd om aan opdrachten te besteden.
Kun je iets vertellen over de eerste keer dat je een model had dat werkte?
Dat is zo'n geweldig gevoel, zeker als je daar ook nog zo'n hele mooie visualisatie in Matplotlib, Plotly of Seaborn van maakt. Dan denk je: wauw, dat heb ik gemaakt. Het model, ik weet niet of het ook in productie is genomen, want dat is de frustratie bij veel data scientists. Die laatste stap, deployment, vaak stokt het ergens. Deployment betekent het in productie nemen van een model, dus het daadwerkelijk inzetten in de praktijk waar het echte data gaat verwerken en voorspellingen gaat doen. Matplotlib, Plotly en Seaborn zijn tools waarmee je data kunt visualiseren in grafieken en diagrammen.
Waarom denk je dat zoveel data science projecten niet in productie komen?
Een van de hoogleraren, Daniel Kapitan, zijn statement was dan altijd: oké, daar hebben we weer een project dat sneuvelt op het kerkhof van data science projecten. Dat is zeker jammer. Wat belangrijk is, is dat je kijkt naar meer dan techniek. Dat je zo vroeg mogelijk in het traject met de klant erom gaat zitten van: wat is je doel, wat ga je veranderen, wat gaat het je opleveren? En wil je ook dit tijd, geld en energie erin steken?
Hoe pak je dit aan in je huidige werk?
Ik doe op dit moment een interim klus bij Binder, waar ik al een jaar zit. Daar proberen we de methode CRISP-DM te volgen. Dat betekent eigenlijk dat je altijd moet beginnen met business understanding en data understanding. Eerst business understanding, echt begrijpen welk probleem ga je nu oplossen. Als dat helemaal duidelijk is, en dat heb je ook helemaal afgestemd met je opdrachtgever, dan ga je naar data understanding, dan ga je kijken naar de databronnen die je tot je beschikking hebt. CRISP-DM staat voor Cross-Industry Standard Process for Data Mining. Het is een stapsgewijze methode voor data science projecten met zes fases: business understanding (begrijpen van het businessprobleem), data understanding (verkennen van beschikbare data), data preparation (data schoonmaken en klaarmaken), modeling (modellen bouwen en trainen), evaluation (beoordelen van resultaten) en deployment (in productie nemen).
Wat gebeurt er in de volgende fasen van CRISP-DM?
Als je data understanding klaar hebt, dan begin je met data preparation. Dan ga je de data zo klaarstomen, als je in Python werkt bijvoorbeeld in DataFrames, pandas DataFrames, dat je ermee kunt werken. Als je dat klaar hebt, dan kom je bij modeling natuurlijk. Dan ga je je model ontwikkelen, dan ga je je model trainen. Want een machine learning model moet eerst getraind worden. Dan kun je natuurlijk altijd nog iets doen met optimalisatie van hyperparameters enzovoort. En uiteindelijk ga je je model deployen, dus een model in een werkelijke omgeving zetten. Meestal is dat een cloudomgeving tegenwoordig. Pandas DataFrames zijn gestructureerde tabellen in Python waarin je data kunt opslaan en bewerken, vergelijkbaar met Excel-sheets maar dan voor programmeren. Hyperparameters zijn instellingen die je aan een machine learning model meegeeft die bepalen hoe het model leert, bijvoorbeeld hoe snel het leert of hoe complex het mag zijn.
Welke fase krijgt volgens jou vaak te weinig aandacht?
Eigenlijk, op het punt van die business understanding, die allereerste fase, die krijgt vaak te weinig aandacht. Vaak is het een technologisch ingestoken feestje. Ze zeggen: dit is hip en cool, we willen iets met AI machine learning. Het zit in de innovatiehoek. En uiteindelijk wordt er dan te weinig aandacht besteed aan dat het uiteindelijk iets strategisch in je kernprocessen moet zitten om daadwerkelijk het geld eruit te halen wat erin zit. Maar het doet altijd goed, hè, als je ergens in de directiekamer binnenkomt en zegt: ik ga iets met AI doen. Nou dan scoor je al een paar punten. Maar als ze vragen wat ga je dan doen, en je zegt ik ga efficiënter leren werken of ik ga de klanttevredenheid verhogen, en we hebben veel data dus daar moet iets mee te doen zijn, toch? Maak dat maar eens concreet, maak dat tastbaar. En volgens mij is dat een beetje de kern van die business understanding fase.
Stopt het na deployment of is er nog meer?
Het stopt niet bij deployment. Je moet ook monitoring blijven doen en continu blijven doorontwikkelen en weer tegen de business value aanhouden. Dat is eigenlijk een cycle die wel door moet. En ook daar zie je nog wel vaak dat het daar stopt, alleen de data gaat nog gewoon door en verandert, de maatschappij gaat door. Dus het is continu in ontwikkeling.
Waarom stopt het vaak wel bij deployment?
Dat hangt af van verschillende dingen. Is het budget op? Dat kan zeker een reden zijn. Maar het is belangrijk om in het begin te weten wat is die business value, welke onderdelen van het bedrijf zijn erbij betrokken, is het R&D, wat is het doel en de purpose ervan? Als het is voor die business value, dan is het belangrijk om het verhaal mee te nemen. Het is niet alleen een techniek, het is veel meer dan dat. Het is een procesverandering, het is een aanpassing in de data, het is een werkwijze. Je moet mensen erin meenemen dat dat er ook bij hoort. Je moet niet alle tijd stoppen, want als het niet feasible is en het komt na een week eruit dat het toch niet te doen is, dan moet je ook gewoon stoppen. Dan moet je ook durven stoppen.
Loop je ook wel eens tegen obstakels aan vanuit de IT-afdeling?
Waar je ook wel eens mee te maken hebt is de IT-afdeling. Dat vind ik trouwens wel altijd grappig, want ik heb, jullie eigenlijk allebei ook, de IT-wereld, daar liggen eigenlijk onze roots. En tegenwoordig in mijn huidige job heb ik soms wel een beetje last van IT-afdelingen. Ten eerste toegang krijgen tot de data. Dan krijg je het hele riedeltje met security en AVG en noem maar op. Allemaal belangrijk, maar ik vind dat heel vaak AVG als een oneigenlijk argument wordt gebruikt. Want als je iets wil bereiken, zeker in een wetenschappelijke context, Daniel Kapitan kan daar ook helemaal op los gaan, iedere patiënt wil in principe echt wel zijn medische data delen als hij of zij weet dat de medische wetenschap daarmee een stapje hoger komt en dat het veilig is. Toch is het overal moeilijk, moeilijk, moeilijk.
Hoe komt het dat IT-afdelingen soms een blokkade vormen voor data science projecten?
IT'ers, software developers, van nature ben ik dat zelf, die zijn vaak meteen, als er een idee of een experiment ligt, dat in hun hoofd aan het oplossen. Dus die denken regelgebaseerd. En dat is nou typisch niet zoals we dat oplossen met de technologie van AI. Dus daar loop je als het ware meteen tegen drempels aan. Terwijl als je niet gehinderd wordt door enige kennis, IT-kennis, en dat is vaak in de business, dan ben je dus vooral bezig met welke problemen heb ik, wat wil ik opgelost zien, en hoe verlevert me dat op? En dat helpt bij het voortbrengen uiteindelijk van het experiment. Uiteindelijk moeten we natuurlijk naar IT en hebben we dat ook nodig en willen we daar heel graag mee samenwerken. Maar het begin is eigenlijk wel handig om in ieder geval niet al die drempels te hebben van ja, maar hoe gaat dat dan werken?
Waarom beginnen data science projecten vaak in een sandbox-omgeving?
Om deze reden volgens mij beginnen data science projecten vaak in een soort sandbox of een zandbakomgeving, een afgeschermde omgeving met een kleine dataset, een kopie van de productiedata van een jaar geleden ofzo. En dan gaat het nog allemaal goed. Maar op het moment dat jij dus wilt deployen, en het moet allemaal achter de firewall, en het moet helemaal dicht in het zijn, dan wordt het vaak lastig. Dat is eigenlijk voor mij nog een heel groot vraagstuk. Dan wordt het lastig, maar dan wordt het ook leuk.
Wat zou jouw tip zijn voor mensen die de stap willen maken van IT of data naar data science?
Eén tip is sowieso: hou ook je IT-kennis bij. Want die werelden kunnen uiteraard helemaal niet zonder elkaar. Om een machine learning model bijvoorbeeld succesvol te laten draaien, heb je gewoon een IT-infrastructuur nodig. Je hebt software nodig, je hebt data nodig. Wat ik ook heb gemerkt, ik ben de vijftig gepasseerd, en dan op een gegeven moment heeft iedereen denk ik wel eens het gevoel: ik word links en rechts ingehaald door allemaal van die jonge gastjes in korte broeken, met paardenstaarten, die alles veel sneller en beter kunnen. Dat is helemaal niet zo, dat is een waanidee, wat in je hoofd zit, zat in ieder geval in mijn hoofd. Je hebt in al die jaren zoveel ervaring opgedaan, je hebt zoveel gezien van de wereld, van de IT-wereld. Ik merk dat waar ik goed in ben, ik heb ook heel veel slechte eigenschappen overigens, waar ik goed in ben is precies de juiste vragen op het juiste moment stellen. En noem dat ervaring.
Heb je nog concrete adviezen voor luisteraars die deze stap willen maken?
Hou je IT-kennis bij. En om die stap te zetten van IT naar Data Science: neem bijvoorbeeld een paar keer een proefcollege, of op JATS of op een ander instituut. Luister naar deze podcast, of luister naar die andere hele goede podcast, de Dataloog. Er is gewoon nog zoveel te leren in deze wereld. En het is echt een heel leuk vak. Kernpunten en praktische adviezen Het is nooit te laat om te leren: Harm maakte na zijn vijftigste nog de overstap naar Data Science. Leeftijd is geen belemmering, ervaring is juist een troef. Combineer theorie en praktijk: De studie aan het JATS combineerde colleges van hoogleraren met praktische opdrachten in kleine groepen, wat zeer effectief bleek. Begin met business understanding: De eerste fase van CRISP-DM krijgt vaak te weinig aandacht. Begrijp eerst het probleem voordat je aan techniek begint. Hou je IT-kennis bij: Data science en IT kunnen niet zonder elkaar. Een stevige IT-basis blijft waardevol. Deployment is cruciaal: Veel data science projecten sneuvelen omdat ze niet in productie komen. Denk hier vanaf het begin over na. Monitor en optimaliseer continu: Het werk stopt niet na deployment. Continue monitoring en doorontwikkeling zijn essentieel. Durf te stoppen: Als een project niet feasible blijkt, durf dan te stoppen voordat je te veel tijd en geld hebt geïnvesteerd. Betrek de business vroeg: Zorg dat niet-IT'ers betrokken zijn bij de ideefase om te voorkomen dat je te snel in technische beperkingen denkt. Volg een proefcollege: Wil je de stap maken? Volg eerst een proefcollege of summer course om te ervaren of het bij je past. Ervaring is waardevol: Je vermogen om de juiste vragen op het juiste moment te stellen is gebaseerd op jarenlange ervaring en kan niet zo snel worden ingehaald door jongere collega's. Start klein in een sandbox: Begin data science projecten in een afgeschermde omgeving met een beperkte dataset voordat je naar productie gaat. AVG is geen excuus: Laat privacy- en security-overwegingen geen oneigenlijke blokkade zijn. Met de juiste maatregelen is veilig datagebruik mogelijk. AIToday Live is een podcast die zich richt op de nieuwste ontwikkelingen in AI en de impact ervan op verschillende sectoren. In elke aflevering spreken hosts Niels Naglé en Joop Snijder met experts uit het veld om inzicht te krijgen in de mogelijkheden en uitdagingen van AI-technologie. Luister via je favoriete podcast app: Spotify, Apple podcasts, YouTube Music, en meer.
Over de gast
Harm Bodewes is een ervaren professional met een achtergrond in bestuurlijke informatiekunde en een lange carrière in de IT- en datadomeinen. Hij heeft in de jaren '80 al kennisgemaakt met kunstmatige intelligentie en heeft sindsdien diverse rollen vervuld, waaronder docent en consultant, voordat hij zich richtte op data science. Momenteel werkt hij als zelfstandig ondernemer en deelt hij zijn expertise in data-analyse en machine learning.
Bekijk gastprofielTranscript
[Muziek] Hoi, welkom bij een nieuwe aflevering van de AI Today Live. Leuk dat je weer luistert. Mijn naam is Joop Snijder, CTO bij Aigency. Mijn naam Niels Naglé, chapter lead, data en AI bij Info Support. En te gast is Harm Bodewes En Harm is eigenlijk meer ervaren dan wij met de podcast. Want Harm, jij bent ook co-host van de Dataloog. We vinden het een enorme eer dat we jou in de show hebben. Maar zou je je eerst even willen voorstellen wat je buiten dataloog nog meer doet? Ik vind het zelf ook een eer om hier te mogen verschijnen, heren. Kijk. Ja, wat willen jullie van me weten? Nou, gewoon een klein beetje achtergrond, wie je bent. Dat de luisteraar een beetje een, nou niet misschien een beeld heeft, maar wel dat ze wat van je gehoord hebben. Oké. Nou, mijn naam is Harm Bodewes. Ik ben 55 jaar jong. Ik heb lang geleden bestuurlijke informatiekunde gestudeerd in Tilburg. En misschien wel leuk om te vertellen is dat ik in de jaren 80 al een vak gedaan heb. En dat heette AI. - Geweldig. Artificiële intelligentie. - Ja. En wij mochten programmeren in Prolog. Kennen jullie dat heren? Ja, dat heb ik ook gehad. - Nee, sorry jongens. Ja, ik ben 51. Prologue, dat heeft ervoor gezorgd dat ik zoveel jaren later uiteindelijk weer het vuurtje van AI heb opgepikt. Ik vond dat toen zo cool, ook dat Prologue, stel er niet zoveel voor, maar was wel cool. Nou ja, en het was, ik weet niet of alle luisteraars dit interessant vinden hoor, maar goed, we gaan er door met praten. Het was helemaal gebaseerd op predicate-logica. Het was een declaratieve vorm van programmeren, totaal anders dan Turbo Pascal. Wat we in die tijd ook moesten leren. Ik kijk naar Niels, ik denk waar hebben die heren het over? Ik krijg even een geschiedenislesje. Dit is een soort van pondskaart, maar dan over het gebied van... Maar goed, daarna ben ik, net zoals de meeste mensen, gaan werken. Ik ben in het Oracle vak terechtgekomen. Mijn eerste werkgever was ook Oracle Nederland. Daar was ik docent. Dus ik gaf cursussen SQL, PL/SQL, datamodellering. Eigenlijk over de hele wereld stond ik als jong baroekie toen nog cursus te geven. 1995 zijn we met een aantal mensen het bedrijf Transfer Solutions gestart. Een Oracle spin-off zou je kunnen zeggen in Leerdam of all places. Daar heb ik uiteindelijk exact 20 jaar gewerkt. Toen ben ik in dienst getreden van Van der Landen, een groot bedrijf in Veghel. Specialiseerd in warehouse automatisering en bagage afhandelingssystemen. Iedereen die wel eens op Schiphol is geweest, die heeft er gebruik van gemaakt. Dus als je je koffertje van die band afhaalt... Die koffer is over systemen van Van der Landen heen gegaan. En daar heb ik de andere host Niels ook leren kennen, want daar heb ik toen Infosport ingehuurd. En na een jaar of vijf toen dacht ik, nou weet je, ik vind dit vak heel erg leuk, maar ik vind het eigenlijk nog veel leuker om dit voor mezelf te gaan doen. Dus toen heb ik eerst een korte break ingelast. Ben ik gaan studeren, Data Science. En ja, daarna ben ik weer naar de universiteit gegaan. Data Science. En daarna ben ik voor mezelf begonnen als ZZP'er. En dat doe ik nog steeds. Kan ik iedereen aanraden. - Nou, waar we je voor hebben uitgenodigd. Misschien Niels, want dit kwam echt uit jouw koken. - Ja, ik was wel geïnspireerd door jouw harm dat je inderdaad... Data Analytics, daar zit ik ook in. Dat doe ik ook al jaren. We hadden het net over een beetje historie. is toch wel oudere leeftijd, als ik dat mag zeggen. Zo niet, ik heb het net gezegd. En dan toch inderdaad de stap maakt, inderdaad van een studie volgen en het vakgebied AI weer en Data Science weer verder inrollen. En ik was benieuwd, wat heb je daar aan meegekregen? Wat heb je overwogen om die stap te maken en hoe is het bevallen? Heb je net een klein beetje door laten slijmen? Ja ja ja, natuurlijk. Nou eigenlijk was ik binnen Van Landen al met het vakgebied bezig, Ik was de eerste director van die afdeling. Het was ook een nieuwe afdeling, Data Analytics. En het omvat binnen Van Landen zowel Business Intelligence... als Master Data Management en een heel klein beetje Data Science. En wat ik nu vertel is, nou, zes jaar geleden, denk ik. Ja, zoiets, ja. Dus daar hebben we de eerste stapjes gemaakt. Voorspelmodellen van, nou, bijvoorbeeld het voorspellen van de kosten... of het voorspellen van de omzet. Eigenlijk redelijk eenvoudige modellen, nog niet eens met machine learning technieken. En jouw vraag, wat heeft jou bewogen? Nou het was ten eerste een persoonlijke afweging dat ik er op een gegeven moment achterkwam dat ik gewoon veel beter bij een wat kleiner bedrijf pas dan bij een heel groot bolwerk met alle politiek en noem maar op wat daarbij hoort. Dus ik dacht ik moet echt weer bij een kleiner bedrijf gaan werken. Uiteindelijk ben ik dus bij een eenmansbedrijf gaan werken. Kleiner kan niet. Dus dat was een overweging. En een andere overweging was, ik vond op een gegeven moment dat dat op zich niks met Van der Landen te maken had. Maar ik was managers aan het managen, die op hun beurt weer managers aan het managen waren. En ik stond zo ver van de inhoud af. En ik dacht, ja wacht eens even, wat vind ik nou echt leuk. leuk. Ik was inmiddels de vijftige gepasseerd. Misschien zat ik midden in de midlife, weet ik veel. Maar ik dacht ik moet weer de inhoud induiken en toen had ik inmiddels al met een aantal collega's van Van der Lande een summer course of iets dergelijks gevolgd. Vier keer een vrijdag een college op het JATS. Het JATS is de Jheronimus Academy of Data Science in Den Bosch. Ik zie Ik wil niet heel erg in eens klikken, je kent het. Toen dacht ik, nou weet je, ik neem ontslag bij Van der Landen. En ik ga gewoon weer lekker studeren. Dus ik heb me ingeschreven bij Professional Education aan het JATS. En dat is een hele goede keuze geweest. Wat sprak je nou zo aan in de AI machine learning om je juist daarin te verdiepen? Want je zegt, je komt uit de software development. Je bent de data analytics, BI hoek ingegaan. Wat heeft je nou getriggerd om juist dit te kiezen? Ik kom eigenlijk oorspronkelijk al uit die wereld, want ik studeerde in Tilburg, maar ik was daar ook studentassistent. En ik was daar het hulpje van professor Meersman. Die was hoogleraar in datamodellering en kennisrepresentatie. En ik ben ook afgestudeerd op een vergelijking tussen twee datamodelleringsmethoden. Dus dat data, ik ben het eigenlijk wel de softwarewereld in gerold. Data en software zijn eigenlijk hele verschillende gebieden, vind je niet? Zeker. - Vind ik wel in ieder geval. Ik ga jullie nu even een vraag stellen. Ja, zeker. Het ligt er een beetje aan op welk vlak. Dus als je robuuste systemen wil maken, kan je heel goed software development technieken gebruiken. binnen data en 99 van de 100 keer heb je ook data nodig als je softwareontwikkeling aan het doen bent. Dus het heeft zeker overlap, maar als je het als vakgebieden ziet, denk ik dat het twee vakgebieden zijn. Ja, nou zo denk ik het dus ook over. En het vakgebied van datamodellering, kijk in essentie is datamodellering het maken van een model, Een vereenvoudiging van de werkelijkheid. En de meeste datamodellen veranderen ook helemaal niet in de loop der tijd. Het hoeft ook helemaal niet. Als je op een flexibele manier modelleert, hoeft het helemaal niet. Dus om nu even terug te komen op jouw vraag, wat heeft jou bewogen? Dat data-vak sprak mij vanaf toen ik heel jong was al aan. Ik wilde dus meer met de inhoud gaan doen. Ik wilde af van dat manager van managers van managers van managers, et cetera. En ik was al enthousiast geraakt over het JATS. Dus ik dacht, als ik het nu niet doe, dan komt het er niet meer van. Dus toen ben ik gaan bellen naar Den Bosch. Nou, jammer meneer Boudet, we zijn net met een groep gestart. Is er geen mogelijkheid om toch nog aan te sluiten? En toen heb ik in de kerstvakantie, ik weet het niet, veel jaar of vier geleden inmiddels denk ik, het werd toen al allemaal opgenomen, het was al net, Ja, het was coronatijd. Dat is drie jaar geleden trouwens, bedenk ik me nu. En toen heb ik alle colleges die al geweest waren, heb ik even op film, op mp4, gezet te kijken. Ik moest een programmeertest doen in Python. Nou, wonder boven wonder. Ik was ervoor geslaagd. Toen ben ik aangesloten bij een groep van 25 studenten of zo. En eerst was ik nog even bang, Straks kom ik dus allemaal van die hele jonge mensen die allemaal veel sneller en handiger zijn. Maar dat viel dus heel erg tegen of mee, net hoe je het bekijkt. Het waren heel veel mensen juist die ook op bepaalde perioden in hun carrière waren en iets anders wilden gaan doen. Echt hartstikke leuk. Dus voor mij persoonlijk is dit een hele goede keuze geweest. Het heeft me heel veel nieuws gebracht. Ja, nou en dat is ook denk ik de reden waarom we juist je hebben uitgenodigd. De technologie wordt steeds bekender en ik denk dat mensen best wel aan het twijfelen zijn. Ga ik me daar nou wel of niet in verdiepen? Kan ik dat nog wel? Wij zien bij sommige mensen, laten we het koud watervrees noemen. Het is juist zo mooi om iemand te zien die dit gewoon gedaan heeft, het aangepakt heeft. Je bent gewoon het gaan doen. Als je er nu op terugkijkt, hoe is zo'n studie bevallen? Ik heb er heel veel van geleerd en wat ik vooral geleerd heb... Dan moet ik eerst even vertellen hoe die studie ongeveer georganiseerd was. Iedere vrijdagochtend kreeg je college in Den Bosch. Tijdens de coronaperiode was dat dan online helaas, maar goed, dat moest even. Dat waren in het algemeen echt goede hoogleraren, of uit Tilburg of uit Eindhoven. Want JATS is een samenwerking tussen TU Eindhoven en Tilburg University. 's Middags werkte je dan in een klein groepje aan een opdracht. Ik had de meest technische variant gekozen, dus je moest ook zelf programmeren in Python. En dat was hartstikke leuk. Dus om je een voorbeeld te geven, we hebben een voorspelmodel voor een supermarkt gebouwd. En daarin hebben we alle klassieke machine learning technieken toegepast. Dus lineaire regressie, random forest, XGBoost, ik zie jullie al knikken, die hele RITS methodes hebben gebruikt. Het is hartstikke leuk om daar eens wat mee te oefenen en om daar gevoel bij te krijgen. En toen ben ik uiteindelijk afgestudeerd bij een bedrijf waar een vriend van me directeur was. Dat is Aldi Press. En daar moest een model gemaakt worden om de verkoop van tijdschriften, papieren tijdschriften, want die bestaan nog steeds, 2023. - Ik geloofde niet. - Daar moest ik een soort clusteranalyse op loslaten. Dat was wel heel leuk. Ik heb bijvoorbeeld achtergekomen dat er een sterke correlatie is tussen de verkoop van rollenbladen en tv-gidsen. Dat is moeilijk hè? Ja, met die rollenbladen koop ik ook tv-gidsen. Oh zo, grappig. Ik moet aantonen met de data. En ik vertel het nu als schapje, maar het was wel echt serieus, want Aldi Press is dus verantwoordelijk voor de distributie van tijdschriften in supermarkten, bij benzinestations, ziekenhuizen, noem maar op. En zij wilden eigenlijk met minder titels, dus een kleiner arsenaal aan titels, meer geld verdienen. Daarvoor wilden ze die clusteranalyse aanvoeren. Dus om terug te komen op jouw vraag, het is de combinatie van praktijk en theorie die mij heel goed beviel. - En voor mij was één dag in de week dan? Was dan de vrijdag, was dan alles... - Ja, en ik had een beetje een luxe situatie, want ik heb een korte sabbatical gehad, Uiteindelijk was het maar drie maanden volgens mij. Dus ik had ook de rest van de tijd wel tijd om aan opdrachten te besteden. De eerste keer dat je een model had en die deed het. Kan je daar iets over vertellen? Dat is zo'n geweldig gevoel. Zeker als je daar ook nog zo'n hele mooie visualisatie in... Mat, plot, lip of plotly of seaborn make-up maken. Dan denk je, wauw, dat heb ik gemaakt. Ik herken dat ook nog wel. Ik kom dan helemaal uit de software development kant. Ik herhaal de data. Niels data, dus in die zin vullen wij elkaar aan. Maar de eerste keer inderdaad, ja, eigenlijk is dat bizar. Je kan programmeren, je kan eigenlijk voor je gevoel alles maken wat er bestaat. En toch was er in één keer een andere dimensie. En als je dan een model hebt dat werkt, ja dat is een heel bijzonder gevoel. Ja, ja. En het model, ik weet niet of het ook in productie is genomen, want dat is de frustratie bij veel data scientists. Van die laatste stap, deployment, vaak stokt het ergens. Ik weet niet wat jullie ervaring daarin is. Ja, nee, dat zien we nog steeds. En dat doet ons pijn aan het hart inderdaad. We hebben ook allemaal processen ervoor met MLOps, om dat echt wel te gaan ondersteunen en dat doen we op dit moment ook. Maar we zien nog te vaak inderdaad dat het op de laptop van de data scientist blijft. Daar zit nog wel een slag in die gemaakt moet worden. En een van de hoogleraren, of het juist, Daniel Kapitan, leuk om die naam even te noemen. Kennen jullie hem of niet? Ja, we hebben hem te gast gehad in de podcast. Is Daniel hier ook geweest? Zeker. Nou eigenlijk nog beter, wij zijn naar Daniel geweest in Rotterdam. Dat was een hele mooie locatie. Naast Centraal, Zuid-Zondag. Ja, nou ja grappig, ik ken hem dus heel goed. En een van zijn statements was dan zo altijd... "Oké, daar hebben we weer een project dat sneuvelt op het kerkhof van data science projecten." Zoiets. [GELACH] Ja, nee dat is zeker jammer. Wat wij daar wel voor doen, is dat we kijken naar meer dan techniek. Dus dat we proberen om zo vroeg mogelijk in het traject met de klant erom te gaan zitten van... ...wat is je doel, wat ga je veranderen, wat gaat het je opleveren? En wil je ook dit tijd, geld en energie erin steken? Dat we heel vroeg dit soort dingen eigenlijk afgedekt hebben. Zorgt dat ervoor dat alles in productie komt? Nee. Maar daarmee verhogen we wel de kansen op dat het inderdaad in productie gaat... ...en dat je er ook echt waarde uit haalt. Ik doe op dit moment een interim klus. Ik zit al een jaar bij Binder. En daar proberen we de methode CRISPDM te volgen. Ik zie jullie weer erom, allebei knikken, dus jullie kennen de methode. Misschien kun je me heel kort even voor de luisteraar uitleggen. Dat betekent eigenlijk precies wat jij net zei Joop. Je moet altijd beginnen met business understanding en data understanding. Eerst business understanding. Echt begrijpen welk probleem ga je nu oplossen. Dus als dat helemaal duidelijk is, en dat heb je ook helemaal afgestemd met je opdrachtgever, dan ga je naar data understanding, dan ga je kijken naar de data bronnen die je tot je beschikking hebt. Data warehouse of andere gestructureerde data of ongestructureerde data. Als je dat klaar hebt, dan begin je met data preparation, dan ga je de data zo klaarstomen Als je in Python werkt, bijvoorbeeld in DataFrames, pandas DataFrames, dat je ermee kunt werken. Als je dat klaar hebt, even kijken waar komen we dan door. Dan kom je bij modeling natuurlijk. Dan ga je je model ontwikkelen. Dan ga je je model trainen. Want een machine learning model moet eerst getraind worden. Dan ga je je model, moet ik even uit mijn hoofd denken, Daar kun je natuurlijk altijd nog iets doen met optimalisatie van hyperparameters enzo. En uiteindelijk, daar hadden we het net over, ga je model deployen. Dus een model in een werkelijke omgeving. Meestal is dat een cloudomgeving, tegenwoordig hoeft dat niet natuurlijk. Dan willen we veel uitrollen. En eigenlijk, op het punt van die business understanding, die allereerste fase, die krijgt vaak te weinig aandacht. Waarom zou dat zijn, denk je? Vaak is het een technologisch ingestoken feestje. En dat maakt het heel erg lastig dat ze zeggen van dit is hip en cool. We willen iets met AI machine learning. Het zit in de innovatiehoek. En uiteindelijk wordt er dan te weinig aandacht besteed aan. Het moet uiteindelijk iets strategisch in je kernprocessen zitten. Om daadwerkelijk het geld eruit te halen wat erin zit. Maar doet het altijd goed hè, als je ergens in de directiekamer binnenkomt en zegt... "Ik ga iets met AI doen." Nou dan scoor je al een paar punten. "Wat ga je dan doen?" "Ja, ik ga efficiënter leren werken." "Ik ga de klanttevredenheid vogelen." En we hebben veel data, dus daar moet iets mee te doen zijn, toch? Maar maak dat maar eens concreet, maak dat tastbaar. En volgens mij is dat een beetje de kern van die business understanding fase. Dat is eigenlijk het begin. Dus het is ook je monitoring en continu blijven doorontwikkelen... en weer tegen de business value aanhouden. Dat is eigenlijk een cycle die wel door moet. En ook daar zie je nog wel vaak... Dat doet mijn data hart dan altijd al pijn, dat het dan daar stopt. Alleen de data gaat dan niet meer naar de business value. Dus dat is eigenlijk het begin. En dan heb je ook nog een andere loop. En dat is eigenlijk de loop die je moet doen. En dat is eigenlijk de loop die je moet doen. En dat is eigenlijk de loop die je moet doen. En dat is eigenlijk de loop die je moet doen. En dat is eigenlijk de loop die je moet doen. dat het dan daar stopt, alleen de data gaat nog gewoon door, verandert, de maatschappij gaat door. Dus het is continu in ontwikkeling en ja, dus het stopt niet bij deployment. Maar waarom, ja nou ga ik een beetje de vraag stellen, waarom stopt dat daar? Is dan het budget op of zoiets banaals? Ja, dat hangt dus heel vanaf inderdaad en dat is ook waarom we in het begin willen weten wat is die business value, welke onderdelen van het bedrijf zijn erbij betrokken? Is het een R&D, is dat het doel? Wat is het doel en de purpose ervan? Als het is voor die business value, dan is het belangrijk om het verhaal mee te nemen. Het is niet alleen een techniek, het is veel meer dan dat. Het is een procesverandering, het is een aanpassing in de data, het is een werkwijze. En het is meer dan dat. Dat moet je meenemen in de transitie. Ik wil niet zeggen dat je daar gelijk op moet focussen, maar je moet mensen erin meenemen dat dat er ook bij hoort. Je moet niet alle tijden stoppen, want als het niet feasible is en het komt na een week eruit dat het toch niet te doen is, dan moet je ook gewoon stoppen. Dan moet je ook durven stoppen. En waar je ook wel eens mee te maken hebt is IT-afdeling. Dat vind ik trouwens wel altijd grappig, want ik heb, jullie eigenlijk allebei ook, de IT-wereld, daar liggen eigenlijk onze roots. En tegenwoordig in mijn huidige job heb ik soms wel een beetje last van IT-afdelingen. Kennen jullie dat? Welke vorm bedoel je? Nou ja, ten eerste toegang krijgen tot de data. Dan krijg je het hele riedeltje met security en AVG en noem maar op. Ja allemaal belangrijk, maar beste luisteraars, ik vind dat heel vaak AVG als een oneigelijk argument wordt gebruikt. Want als je iets wil bereiken, zeker in een wetenschappelijke context, diezelfde Daniel Kapitan kan daar ook helemaal op los gaan. Iedere patiënt wil in principe echt wel zijn medische data delen als hij of zij weet dat de medische wetenschap daarmee een stapje hoger komt. En dat het veilig is. Toch is het overal moeilijk, moeilijk, moeilijk. Even terug te komen op wat jij zegt, de IT afdeling. Ik doe heel veel workshops rondom juist dat idee naar boven halen en pas het bij je business goals en waarom niet. En dan vraag ik ook om zoveel mogelijk niet-IT'ers in die workshop te hebben. En niet omdat ik wat tegen IT'ers heb, software developers. Van nature ben ik dat zelf. Het probleem is vaak dat die meteen, als er een idee of een experiment ligt, dat ze dat in hun hoofd opgelost willen zien hebben. Dus die denken regelgebaseerd. En dat is nou typisch niet zoals we dat oplossen met de technologie van AI. Dus daar loop je als het ware meteen tegen drempels aan. Terwijl als je niet gehinderd wordt door enige kennis, IT-kennis, en dat is vaak in de business, dan ben je dus vooral bezig met welke problemen heb ik, en wat wil ik opgelost zien, en hoe verlevert me dat op? En dat helpt bij het voortbrengen uiteindelijk van het experiment. Uiteindelijk moeten we natuurlijk naar IT en hebben we dat ook nodig... en willen we daar heel graag mee samenwerken. Maar het begin is eigenlijk wel handig om in ieder geval niet al die drempels te hebben van... ja, maar hoe gaat dat dan werken? Ja. En om deze reden volgens mij beginnen data science projecten... vaak in een soort sandbox of een zandbakomgeving. Van een afgeschermde omgeving, een kleine dataset... Een kopie van de productiedata van een jaar geleden ofzo. En dan gaat het nog allemaal goed. Maar op het moment dat jij dus wilt deployen, en het moet allemaal achter de firewall, en het moet helemaal dicht in het zijn, dan wordt het vaak lastig. Dat is eigenlijk voor mij nog een heel groot vraagstuk. Dan wordt het lastig, maar dan wordt het ook leuk. En dan wordt het leuk. Ja zeker, dan wordt het leuk. Nou, en als jij nou kijkt, want er zijn mensen zeg maar uit de softwarehoek, datahoek, die misschien juist die data science in willen, meer willen weten van machine learning. Dat is eigenlijk de stap die jij ook gemaakt hebt. Wat zou jouw tip zijn voor een luisteraar die niet zoiets heeft van ja, maar ik zou ook heel graag die stap willen maken, want het is gewoon een hele leuke dynamische vakgebied. Wat zou je voor tips geven? Dat vind ik een leuke vraag. Moet ik heel even over nadenken. Eén tip is sowieso, hou ook je IT-kennis bij. Want die werelden kunnen uiteraard helemaal niet zonder elkaar. Waarom kunnen die niet zonder elkaar? Omdat je uiteindelijk, nou ja eigenlijk hebben we het hier al over gehad, om een machine learning model bijvoorbeeld succesvol te laten draaien, draaien, heb je gewoon een IT-infrastructuur nodig. Ja, heb je software nodig, je hebt data nodig. Dus dat is iets. En wat ik ook heb gemerkt, van, nou ja, ik ben de vijftig gepasseerd, en dan op een gegeven moment, iedereen heeft denk ik wel eens het gevoel, ik word links en rechts ingehaald, door allemaal van die jonge gastjes in korte broeken, met paardenstaarten, en weet je, die alles veel sneller en beter kunnen. Dat is helemaal niet zo, dat is een waanidee, wat in je hoofd zit, zat in ieder geval in mijn hoofd. Je hebt in al die jaren zoveel ervaring opgedaan, je hebt zoveel gezien van de wereld, van de IT-wereld. Ik merk dat het waar ik goed in ben, ik heb ook heel veel slechte eigenschappen overigens, waar ik goed in ben is precies de juiste vragen op het juiste moment stellen. En noem dat ervaring, ik weet niet. Ja, dat denk ik wel, dat is een sluiting. Een tip, ik wil even terugkomen op jouw vraag, Hou ook je IT-kennis bij en om die stap te zetten, voor de luisteraars die dit willen, van IT naar Data Science, neem bijvoorbeeld een paar keer een proefcollege, of op JATS of op een ander instituut. Luister naar deze podcast, of luister naar die andere hele goede podcast, de Dataloog. En er is gewoon nog zoveel te leren in deze wereld. En het is echt een heel leuk vak. Ja, dat denk ik ook. Ja, absoluut. Dank je wel. Ik denk dat dit hele nuttige tips zijn. Heel mooi om te horen van hoe je daar doorheen bent gegaan. Niels tevreden? Ja, zeker. Ja toch? Ja, en zeker die... Ik wil altijd meer weten over wat heeft die theorie met je gedaan in de praktijk. Maar goed. Dat is mooi voor een volgende keer. Dank je wel Harm voor dit inspirerende gesprek. Heel erg leuk. Graag gedaan. En nou, vergeet geen... Ik ben het even kwijt. Vergeet je niet te abonneren op Spotify. Soms heb je dat. Vergeet je niet te abonneren via je favoriete podcast app. En je zou ons kunnen helpen als je hem een paar keer geluisterd hebt op Spotify... om even een rating te geven. Dat geeft een bepaalde boost aan de podcast. En daar help je ons enorm mee. Dank je wel voor het luisteren en tot de volgende keer. *gekracht*