Van experimenteren naar professionaliseren in AI met Rik van Bruggen (Hopsworks)

Hoi, leuk dat je weer luistert naar een nieuwe aflevering van AIToday Live. Met vandaag een gast van onze zuiderburen, Rik van Bruggen. Helemaal vanuit België naar de studio gekomen. Geweldig. Voordat we beginnen, eerst eventjes. Mijn naam is Joop Snijder, CTO bij Aigency. Mijn naam Niels Naglé Area Lead Data & AI bij Info Support. Rik, welkom in onze studio.… Ik ben zo blij om hier te zijn. Het is fantastisch. Echt een leuke plek. Dank je wel voor de uitnodiging. Ja, uiteraard. We gaan het vandaag over een iets technischer onderwerp hebben voor onze luisteraars. Maar blijf vooral luisteren, want het wordt ontzettend interessant. We gaan het dit keer hebben over machine learning en wat je daarvoor nodig hebt. Ik weet dat de meesten nu met hun hoofd in de generatieve AI zitten. In de taalmodellen en het creëren van plaatjes, misschien video's en dat soort zaken. Maar we gaan eigenlijk terug naar de basis van waar AI heel krachtig in is. Dat is de machine learning, dat je daar hele krachtige use cases mee kan maken. Maar voordat we daar verder in gaan, Rik, zou je je voor willen stellen aan de luisteraar? Met heel veel plezier. Alvast mijn excuses voor het Vlaamse accent. Klinkt lekker hoor. Hopelijk gaan mensen mij kunnen begrijpen. Ik ben Rik van Bruggen. Ik kom helemaal uit Antwerpen. Vroeg opgestaan om hier op tijd te zijn. Wie ben ik? Ik ben 50 jaar, ik heb drie kinderen. Ik loop al een tijdje rond in de industrie. Ik ben 15 jaar geleden in de data-industrie terechtgekomen. Een aantal omzwervingen voor die uiteraard. Ik heb met heel veel plezier in de data-industrie bij Neo4j gewerkt. Graf databases, daarna bij datamodelering tools. En nu sinds een klein jaartje bij een ander Zweedse bedrijfje. En dat is Hopsworks. Die klein bedrijf, veel technologie, veel heel technische mensen. En ik mag proberen om klanten met die software, met die infrastructuur software te helpen. Dat vind ik heel erg leuk. Dat zijn met heel veel passie en plezier. En zoals ik daar zachts eigenlijk aan Niels al voor deze opname vertelde. Ik haat eigenlijk verkopen, maar ik hoop dat ik wel heel veel mensen kan helpen. Dat betekent ook dat ik heel graag zelf tinker. Dat ik met de software wil werken, dat ik het wil voelen, dat ik het wil begrijpen. En dus ook de techniek wil begrijpen. Ik denk dat dat heel belangrijk is in de hedendaagse omstandigheden. Je kan een klant eigenlijk moeilijk helpen. Ten eerste als je zijn probleem niet begrijpt. En ten tweede als je ook een klein beetje de map kan maken met de oplossing. Ja, dat is waarom we ook zeggen inderdaad. Ben je zelf nog niet aan de slag met Gen AI en andere toepassingen? Ga ermee aan de slag, want je moet het zelf ervaren om te kunnen bekijken wat voor problemen los te stoppen. En dat is mooi om te horen hoe je dat ook dan voor de commerciële kant invult. Ja, helemaal mee eens. Ik denk, ik zeg het, klanten willen nooit dat je hen iets verkoopt. Vandaag zitten we met heel recht geïnformeerde mensen aan de andere kant van de tafel. En je moet gewoon proberen om hun problemen op te lossen. En dat is ook heel fijn bij bedrijven zoals Hopsworks, een piepklein technologiebedrijfje. Maar uiteindelijk is dat ook een open source model, een subscription model. Eigenlijk heb je alle incentives op de juiste plaats om ervoor te zorgen dat de klant effectief geholpen wordt. Dat vind ik heel fijn. Ja, laten we zo direct eens kijken van wat voor cases dat zijn. Maar voordat we daarnaar kijken, kun je uitleggen hoe machine learning zich verhoudt tot AI in het algemeen? Ja, ik denk dat daar waarschijnlijk verschillende meningen over zijn. Maar ik ga je proberen mijn visie daarop te delen. Ik denk eigenlijk dat generative AI of AI in het algemeen, dat het eigenlijk een toepassing is van machine learning. Dat je eigenlijk de fundamenten van de mechanismes die we met machine learning hebben ontwikkeld voorbij, Maar dat we die eigenlijk hebben toegepast op zo'n manier zodanig dat we nu bijvoorbeeld taal heel erg goed kunnen begrijpen. We hebben een heel goed begrip ontwikkeld van de patronen en de mechanismes die in taal gebruikt worden. Zodanig dat we een model daarvan kunnen maken en dat we met dat model dingen kunnen beginnen doen. Dus ik denk dat machine learning eigenlijk het fundament is. Eigenlijk de onderliggende technologieën en mechanismes die gebruikt worden om die large language models, om die generative AI toepassingen te maken. En dat wordt niet alleen voor large language models gebruikt, dat wordt voor heel veel andere dingen ook gebruikt. Veel meer dan dat hè? Ja, dat is toch zo. Eigenlijk een van de meest fundamentele dingen die daarin zitten is patroonherkenning. Dat je een machine, een computer, als je die op de juiste manier laat werken, dus met al die moderne machine learning technieken, neural netwerken, dat soort dingen, die zijn gewoon waanzinnig goed om verbanden te zien. Veel beter dan wij dat als mensen kunnen zien, bij wijze van spreken. Ik heb dat ook bij Neo4j in de tijd heel erg mooi kunnen ervaren. Als je een graaf van geconnecteerde data kan maken, dan kan je verbanden zien, waarvan je zelf nooit had kunnen denken dat ze er waren. En dat is enorm krachtig. Daarmee kan je gewoon problemen oplossen die wij met ons... Met ons verstand hè? Met ons reptielenbrein wou ik zeggen. Met ons menselijk brein, we zijn daar gewoon een klein beetje in beperkt. Wij hebben fantastische capaciteiten uiteraard, maar als je het hebt over de schaal van informatie en de schaal van de problemen die we vandaag ook proberen op te lossen, dan gaan we dat soort van technologie willen gebruiken denk ik. Ja, want als mens zijn wij eigenlijk ook geprogrammeerd bijna, biologisch geprogrammeerd, om ook patronen te herkennen. Overal zien wij patronen. Alleen wij hebben maar een beperkte set aan inputgegevens, variabelen, die wij in ons hoofd kunnen processen om daar een patroon in te zien. Terwijl die machine kan wel honderden van dit soort variabelen aan om daar patronen in te vinden. Ja, absoluut. En dat is ook niet zonder kosten. Dat weten we ook allemaal. Als we de energierekening van AI momenteel bekijken of als we de compute power of weet ik wat nog allemaal bekijken, allemaal niet zonder kosten. Maar het is wel zo dat je daarmee dingen kan doen die wij gewoon moeilijker zouden kunnen doen met onze biologische manier van werken. Er zijn andere dingen die wij veel beter doen. Zeker in wat is vandaag. Ik bedoel, ik heb vanmorgen met mijn wagen naar hier proberen te rijden op automatische piloot. Dat ging dus niet. Echt niet. Dat was een compleet drama op verschillende momenten. Maar er zijn andere dingen die, er zijn veel voorbeelden ondertussen van machine learning en AI die wij nooit zouden kunnen opgelost krijgen. Nee, en zeker niet met de efficiëntie en de doorlooptijd die als je dat met de hand zou moeten doen, met meerdere mensen bij elkaar moet doen, die efficiëntie die hebben we gewoon nodig. Die slagkracht hebben we nodig en daar hebben we dit soort technieken gewoon voor te gaan gebruiken. We hebben een aantal problemen die we proberen op te lossen vandaag in de wereld. Denk maar aan de klimaatcrisis, denk maar aan allerlei medische problemen. Die gaan wij veel minder efficiënt oplossen als we geen machine learning en AI kunnen gebruiken. Dus denk ik dus om nog eens terug te komen op jouw vraag, machine learning is het fundament waarmee we die problemen gaan kunnen oplossen. En ja, daarom ook veel hogoestingesting zeggen wij in Vlaanderen. Heel veel zin aan die nieuwe uitdaging bij Hopsworks ben begonnen. Omdat ik denk dat ik daarmee een heel boel mensen en klanten en bedrijven en individuen ga kunnen helpen. Zou je een aantal typische use cases kunnen noemen waar machine learning eigenlijk in excelleert? Ja, ik begrijp dat je die vraag stelt en ik wil het zeker en vast proberen. Maar het zijn eigenlijk altijd de traditionele data analyse use cases. We kunnen het over recommendations hebben, nogmaals. We kunnen het nogmaals over fraude detectie hebben. We kunnen het nogmaals over allerlei andere medische of healthcare toepassingen hebben. Maar ik denk gewoon dat het gaat over het feit dat we daarin een soort van nieuwe vormen van analyse techniek gaan gebruiken. Ik denk dat heel vaak de voorafgaande analyse techniek die vaak gebaseerd waren op geaggregeerde data. Of die vaak gebruik maakte van allerlei gemiddeldes en statistische data. Daar kunnen we eigenlijk dankzij machine learning van afwijken. We kunnen eigenlijk die niet geaggregeerde data veel beter gaan analyseren en daarin de patronen gaan herkennen. En dan heb je het over use cases zoals bijvoorbeeld fraude detectie. Dat is gewoon zo. De fraude en de criminaliteitsstatistieken die spreken voor zich denk ik. Die worden veel meer en meer gesofisticeerd. Die worden meer en meer een kat en muis spelletje. Die proberen altijd maar de autoriteiten voor te blijven. Dat betekent ook dat ze altijd die edge cases gaan beginnen opzoeken. En dat wij gesofisticeerde moeten worden om die edge cases te gaan opsporen. Dat gaat niet anders zijn. Een van de mooiste voorbeelden die ik bij Neo4j ooit ben tegengekomen ging over de Panama Papers. Dat is toen heel vaak in het nieuws geweest. Waarbij het individuele bedrijfje helemaal geen belastingfraude heeft. Dat is gewoon niet zo. Die doen niets verkeerd. Maar die zitten wel met een ander bedrijfje en een ander bedrijfje. Samen zitten die een ketting van bedrijven op te richten waarmee ze wel een fraudeleuze constructiesysteem hebben opgebouwd. Dat soort dingen kan je met traditionele, geregeerde statistische technieken veel moeilijker opsporen. Ik denk dat machine learning ons gaat in staat stellen om bijvoorbeeld als het gaat over fraude detectie, om gewoon dingen te doen die we voordien niet konden. En patronen te herkennen waarvan wij geen vermoeden hadden dat ze bestonden. Ja, dan denk ik ook juist de afwijking op een patroon. Want als we een patroon hebben, dan zijn we ook juist geïnteresseerd waar de afwijking erin zit. Waarvoor je misschien niet zou bedenken dat je die afwijking zou opzoeken in de traditionele analyses. Ja, ik denk dat dat waar is. Heel vaak, bijvoorbeeld in fraudedetectie, is de benadering geweest om te werken op basis van hypotheses. Dat mensen zeggen, ik denk dat er deze en deze en die fraude aan de gang is. Dus laat me eens nakijken of dit werkelijk zo is of niet. Maar wie zegt dat jouw hypothese juist is? Dat weet je toch niet? Jij komt ook maar op aan draven met een of ander idee. Dus het komt er eigenlijk op neer dat je eigenlijk misschien wel wat hulp kan gebruiken om deze te formuleren. En patronen op te zoeken waarvan jij, misschien met jou, of in ieder geval mijn beperkte verstandelijk vermogen, dat je daar niet op zou gekomen zijn. Ja, dus echt de ondersteuning daarin. Want ik denk wel dat ook de waarde zit in de mensen die de ervaring hebben opgedaan, echt de samenwerking tussen machine learning en de ervaring van de mensen in het veld. Dat daar echt de kracht ligt. Want door die hypotheses te kunnen formuleren en te toetsen, dat kunnen we sneller, daar kunnen we hulp bij gebruiken. Maar ik denk dat de menselijke input en de ervaring wel van essentieel belang is daarin. Helemaal met je eens. Ja, en met patronen, dat denk ik ook meteen aan predictive maintenance. Dat je gaat voorspellen of iets onderhoud nodig heeft of iets kapot aan het gaan is. Dat zijn typische use cases voor machine learning. Dus ik denk dat we nu best wel een beeld hebben, hopelijk voor de luisteraar, van waar hebben we het over. Wat doet het product Hopsworks in deze markt? Kan je daar een heel lange powerpoint slides over laten zien, maar dat ga ik misschien toch niet doen. Ik ga misschien even proberen uit te leggen welke problemen wij proberen op te lossen. Want ik denk dat dat toch het belangrijkste is. En als ik daarover nadenk, dan zijn er eigenlijk drie problemen. Het eerste denk ik is een soort van professionaliseringsslag. Dat er in de wereld van machine learning, maar ook in bredere data science en dergelijke, heel veel geëxperimenteerd is. Dat is ook fantastisch, dat is ook een heel goede zaak. Dat mensen eigenlijk veel meer agile methodiek hebben ontwikkeld. Waarbij ze snel itereren, vaak dingen proberen, kijken of het werkt, kijken of het niet werkt. En dan op basis daarvan eigenlijk hun methode verfijnen. Top, iedereen blij. Maar er komt natuurlijk een moment waarbij je dat moet professionaliseren. Waarbij je niet iedereen alles kan laten doen en gewoon maar kan losgaan en kijken waar het eindigt. Dat werkt op den duur gewoon niet meer. Dat wordt ten eerste enorm kostelijk. Ik denk dat mensen aan het einde van de maand misschien liever niet naar hun OpenAI-billet gaan kijken, dan naar hun AWS-billet of weet ik wat. Die dingen kosten gewoon een handvol geld als je dat in productie wil gaan inzetten. Maar ten tweede ook denk ik naar een soort van governance toe. Ik bedoel, als je terecht ziet, de regulatoren, maar ook overheden, interne audits ook, mensen die bezorgd beginnen te worden over wat er gebeurt met die data, wie ziet die data, wie mag wat doen met die data. Dat dat terecht is en dat daar ook een extra aandacht aan mag komen. Ik noem dat professionalisering, niet op een negatieve manier. Ik vind dat heel goed en normaal dat we daar gebootstrapped zijn. Als ik aan bootstraps denk, dan denk ik altijd aan iemand die met zijn laarzen in de modder staat. Je moet je voeten vuil maken, je moet in de modder staan, je moet dingen proberen, je moet het aan de lijve ondervinden. En dan met de straps van die boots ga je proberen om jezelf eruit te trekken. Mooi beeld. Dat is het beeld van bootstrapping, waarbij je echt zegt, ik ga mezelf proberen door mijn handen vuil te maken, door mijn botten zeggen we in Vlaanderen ook, we gaan hem vuil maken. Laarzen en botten zijn hetzelfde. We gaan die vuil maken en we gaan proberen om daarvan te leren en op basis daarvan onze methodiek te verfijnen en op die manier beter te worden, te professionaliseren. Dat is denk ik de kern van het probleem dat we met Hopsworks proberen op te lossen. Ik denk dat er heel veel bedrijven zijn die dat proberen te doen. Zeker. We zijn er zeker en vast niet alleen in. Ik denk in de industrie wordt dat meer en meer benoemd als MLOps, Machine Learning Operations. Wat eigenlijk de verzamelnaam is van technieken die mensen gaan gebruiken om die professionaliseringsslag tot een goed einde te brengen. Dus ik zou ons eigenlijk in die categorie van technologieën indelen, MLOps technologie. Daar is denk ik een enorme groeimarkt voor. Zeker. Wat zijn nou kernactiviteiten binnen MLOps die ondersteund moeten worden met een tool? Ook daar zijn de meningen nog een beetje over verdeeld denk ik. Ik denk dat dat zeker en vast neerkomt op een aantal van de dingen die we ook in DevOps hebben gezien. In developer operations waarbij mensen die professionaliseringsslag hebben gemaakt rond software development en agile software development. Dat spreekt wel van 15, 20 jaar geleden dat dat gebeurd is. Maar die professionaliseringsslag gaan we nu proberen toe te passen op machine learning. Dan hebben we het over automatic testing, automatic deployments, infrastructure as code. Dat soort van concepten willen we eigenlijk ook toepassen op machine learning. Zodat je het niet meer moet hebben over een of andere scriptje dat ik moet draaien of een of andere pipeline die ik moet draaien. Maar je het kan hebben over een systeem, over een software systeem dat bepaalde data neemt, daar bepaalde dingen mee doet en daar een model van maakt dat gedeployed wordt op een semi-automatische manier. Ja precies, zodat je niet een stukje code hebt die je onder je experiment hebt zitten en waarvan je denkt die werkt nu wel en die breng ik in productie door het ergens neer te zetten en mensen kunnen het gebruiken. En wat wij helaas ook normaal in de praktijk zien is dat als er dan foutjes zijn dat die dan ook in productie worden aangepast. Dan zeg je nee, daar zit eigenlijk een heel systeem aan van aanpak, geautomatiseerd, uitrollen, dat je dat op een hele veilige gecontroleerde manier doet. Dat je zeker weet wat in productie draait, dat dat klopt. Helemaal, ik denk dat je het heel goed op samenvat daar. Dat is precies wat ik bedoel met professionalisering. Ik wil dat niet als een negatief woord herhalen, ik denk dat het heel goed is dat we experimenteren en dergelijke. Zeker. Maar er komt een bepaald moment, omwille van kosten, omwille van governance, dat we moeten professionaliseren en dat we moeten systematiseren. Dus dat we die dingen eigenlijk op een geautomatiseerde manier in productie kunnen brengen. Ik denk dat we op het punt zijn dat we dat eigenlijk overal op den duur moeten doen. Na experiment moet die slag gedaan worden, het liefst voordat het naar productie is. Je hoopt je zoenen erover te komen dat het in productie vaak ook nog wel gebeurt en dat aangepast wordt. Maar dat is niet meer van deze tijd, dat moet echt aangepast worden. En daar heb je dus tools voor, zoals Hopsworks, om je daarbij te ondersteunen. En ook denk ik een stukje standaardisatie om te monitoren. Want mijn beleving in de praktijk is dat het vaak gezien wordt als het experiment is klaar, het product is af en we kunnen naar het volgende product. En volgens mij is dat niet waar, want er verandert continu nog wat. Het verandert in de data, het verandert in de organisatie, het verandert in het proces. En ja, MLOps betekent ook het stukje monitoren ervan. Dat is dan ook denk ik waar Hopsworks dan ook in ondersteunt om dat inzicht te bieden. Ja zonder meer, Hopsworks niet alleen. Ik ben hier niet om over Hopsworks te praten, maar ik denk dat er in die professionaliseringstools heel goede opties zijn vandaag. Zowel in de cloud als on-premise om dat soort dingen te doen. En bovendien, het gaat ook moeten. Ik heb me gisteren nog eens bezig gehouden met het inlezen op de laatste publicaties rond de EU AI Act. De AI Act van de Europese Unie. Ja, we gaan moeten, het gaat geen keuze meer hebben. Dus we gaan moeten kunnen monitoren, we gaan moeten kunnen uitleggen hoe we tot een bepaalde conclusie zijn gekomen. En terecht denk ik. Ik bedoel, als er een AI systeem beslist, we gaan naar links of naar rechts. En we gaan naar rechts en er gebeurt iets fout, dan gaan we toch moeten kunnen uitleggen waarom we naar rechts zijn gegaan. Dat lijkt me redelijk normaal. Hoe komt dat, denk jij, dat we dat minder vragen van AI en machine learning? Ja, ik denk dat er een stukje onervarenheid in speelt. De nieuwheid van de technologie is ook het potentieel. Iedereen zit in een soort van gold rush mentaal. Iedereen zo snel mogelijk naar het AI. Ik heb ook het voordeel van de jaren een beetje, waarbij ik wel denk van, kalm aan mannen. Doe eens een beetje gewoon. Maar ik denk wel dat die onervarenheid dat meespeelt, die nieuwheid, de druk naar voren. Je wil zo snel mogelijk er is geraken. Ja, dan pakken mensen shortcuts. En ik denk dat dat ook echt niet negatief is. Ik bedoel, als je in een maturiteitscurve kijkt, en je zit aan het begin van die maturiteitscurve, dan zou ik ook willen van 'Let's go!' Dan moeten we gewoon een storm naar voren doen. En zo snel mogelijk uit die modder en zo snel mogelijk naar voren. Want daar gaan we ook het meeste leren. Daar gaan we ook het meeste kunnen oppikken eruit. Maar ja, als we dan een klein beetje verder zijn. En in de EU-AI-Act hebben we het over risico's. Dan gaat het heel vaak over de risicogevoeligheid van een bepaald AI-systeem. Als het over een bepaald risiconiveau gaat, dan mogen we dan een klein beetje professioneler gaan. Toch? Ja, zeker. Dat vind ik ook. Ja, absoluut. Dat lijkt me toch heel normaal. Als we het hebben over de recommendations van appels en appelsienen, dan kan mij zo niet verschillen. Maar als jij vandaag bij je dokter zou komen, bij je huisarts. En die zou hebben gezegd dan, nou ik heb hier achter in het kamertje net wat stofjes bij elkaar zitten roeren. En dat lijkt eigenlijk best wel goed te zijn. Hier Rik, neem dit even. Liever niet denk ik dan. Of als er, ik bedoel dat is pas nog in het nieuws geweest, een dokter die een patiëntendossier aan OpenAI doorstuurt. En zegt, wat denk jij ervan? Hallo, kunnen we daar even mee ophalen? Ja, precies. Dat soort van dingen vind ik, professionaliseren. Laat ons gewoon dat op een goede manier doen. Dat zou 10, 15 jaar geleden nooit hebben gedaan met een statistisch gebaseerd systeem. Dus waarom doen we dat dan nu met een machine learning gebaseerd systeem? Precies. There is no good reason. We moeten dat gewoon professioneel beter doen. We kunnen dat ook. Er zijn genoeg technologieën voor handen. Onder andere Hopsworks. We hebben die mogelijkheden. Explainability, dat is zo'n topic. Ik vind dat echt fantastisch. Als jij een model vraagt om een voorspelling te doen van iets, fijn. Maar dan moet je wel kunnen uitleggen waar die voorspelling vandaan komt. Het is niet meer dan normaal dat je dat kan. Toch? Ja, ik vind dat ook de normaalste zaak van de wereld. Maar daar staan wij toch wel redelijk alleen in hoor. Ik denk dat we daar ook een functie in hebben in onze industrie. Als je begint, je staat aan het begin van die maturiteitscurve. Je bent al blij dat je een model gemaakt hebt. Je bent al blij dat je iets hebt gerealiseerd. Dat kon ik vroeger niet en ik ben zo blij dat ik dat nu heb. Dan is het normaal. Je hoeft niet nadenkt over, ik moet dit embedden in een volledig systeem. Dat is echt zonde. In stap 2 mag je dat wel eens over nadenken. Ja, helemaal meteen. Ik denk dat dat een mooi bruggetje is naar ons kaartspel. Want dat gaat natuurlijk over uiteindelijk professionalisering. In ieder geval nadenken over vraagstukken die professionalisering vragen. Dus we willen jou ook eens een stelling voorleggen. Het koud zweten brengt me uit. [Muziek] Dit is een mooie Rik. Uit de categorie technologie en innovatie is de stelling AI gestuurde klantenservice zal menselijke interactie en de meeste klantgerichte industrieën overbodig maken. Zal ik hem herhalen? De mensen zien het natuurlijk niet, maar ik kijk jullie aan met van die ogen van 'dat meen je toch niet'. Ik denk dat ik daar wel een mening over heb. Ja, nou kom maar op. Er zijn veel dingen, dat merk je vandaag al, die chatbots zijn overal. En sommige van die dingen zijn fantastisch. Ik heb al een situatie gehad bij Expedia, de travelreisagent. Ik moest een vlucht omboeken en normaal gezien doe je dat ofwel online ofwel lig je een paar uur te wachten om iemand aan de lijn te krijgen. Nu heeft die chatbot dat voor mij op vijf minuten gedaan. Top. Ik blij. Maar er zijn natuurlijk ook heel veel cases waarin je zegt van 'ik krijg dit niet gelegd aan die chatbot. De chatbot stelt mij toch niet helemaal de juiste vragen. Misschien is het efficiënter zowel voor het bedrijf als voor mij om even met iemand te spreken. Ik denk aan dingen zoals verzekeringscases of bestellen. Je hebt altijd van die cases die te gesofisticeerd zijn en te specifiek zijn. Of soms te gevoelig. Het gaat over overlijden, ziekte, dat soort dingen. Als je dat met een bedrijf te maken krijgt dan heb je geen zin om dat met een chatbot af te laten handelen. En dan zal dus de persoonlijke interactie helemaal overbodig zijn. Dat is de reden van de grote ogen die ik er net trok. Ik dacht dat gaat gewoon niet gebeuren. Er is wel heel veel research over wat ik heb meegemaakt rond call avoidance. Als je een utility bent, een energieleverancier of een verzekeringsbedrijf, een call center is een enorme kostenpost. Dat kost enorm veel geld. Gewoon de telefoon oppikken kost 100 euro. Dat is echt duur. Dat is gewoon heel erg duur om zo'n dingen te doen. En als je die calls kan vermijden, als bedrijf zijnde, dan spreek je direct over enorme besparingen. Dat is gewoon zeer zeer nuttig voor het bedrijf om minder calls binnen te krijgen. Je snapt het wel hoor. Ik ben er helemaal mee. Dat gaat snel, dat gaat enorm snel. En voor de klant ook. Als ik op zaterdagnacht in een zin heb om te kijken wat ik een reis kan boeken, dan is het prima dat ik dat kan en dat ik niet moet wachten tot maandagochtend. Dat is toch fijn. Dus er zijn voordelen aan de twee kanten. Maar de vraag op het kaartje was, gaat het overbodig zijn? Daar geloof ik echt geen snars van. We hebben dit gepakt als die klantenservice, omdat dat iedereen zich hier aan kan relateren. Maar de vraag is iedere keer, haal je menselijke interactie uit je proces ja of nee? Dus dat je daar heel goed over nadenkt. Net wat jij zegt, die kosten kant laat je misschien heel snel denken van laten we dat doen. Maar je moet heel goed nadenken van wat betekent het? Wat betekent het voor jezelf? Wat betekent het voor je klant? Wat betekent het voor je business proces? Dat je daar goed over nadenkt. Wanneer wel, wanneer niet. Past dat ook bij de identiteit van de organisatie voor dit proces? Ja. *muziek speelt* Leuke muziek die jullie hebben trouwens. Hij is volledig gegenereerd door AI. We zijn natuurlijk een AI podcast, dus we gebruiken ook, we zijn natuurlijk zelf ook, willen ook met de voeten in de klei. En dat maakt het ook wel leuk, want we doen dat natuurlijk voor klanten. En dan zijn we bezig met data, is het vaak toch iets, laten we zeggen wat abstracter, wat droger. En dan is het ook heel erg leuk om hier mee bezig te zijn. Super tof gedaan. Ja, dankjewel. Waar ik nog wel benieuwd naar ben, Rik, is dat waar zie jij nou voor de aankomende periode eigenlijk de grootste stappen die genomen kunnen worden in de professionalisering? Ja, dan ga ik toch denk ik even terugkomen bij het verhaal van Hopsworks. Ja, tuurlijk. En ik zeg het, wij zijn daar zeker en we was niet de enige leverancier in ofzo. Maar de visie die wij hebben rond die MLOps beweging, dus als ik MLOps even als het mechanisme mag, de verzamelnaam van mechanismes mag noemen die tot die professionalisering leiden. Dan is de volgende vraag natuurlijk van ja, hoe ga je MLOps implementeren? En hoe kom je daar toe? En dan is de visie van Hopsworks en de hoop en de toekomstrichting waar wij naar toe werken, dat is toch wel om een data-infrastructuur te bouwen die mensen samenbrengt rond machine learning operations. Oké, dat moet je even uitleggen. Kijk, als je in machine learning process kijkt, zijn er heel veel verschillende stappen. Dus je krijgt bijvoorbeeld mensen die de data gaan verzamelen en die de data gaan manipuleren en die in een bepaalde vorm gaan gieten. Typische ETL-achtige processen, extract, transform, load. Dat is vaak de eerste stap. Dan heb je een tweede stap waarin je die data gaat analyseren, dat je gaat trainen, dat je het model gaat maken. Dan heb je een derde stap waarbij je het model gaat deployen, dat je het ergens gaat ter beschikking stellen van een toepassing en dergelijke. En dat wordt allemaal overzien, bewaakt door een of andere governance-systeem. De these die wij voorop staan met Hopsworks is dat als je dat allemaal wil doen en je wil dat allemaal doen op basis van een soort van gedistribueerde data-platform, waarbij iedereen zijn eigen data en zijn eigen bronnetjes en zijn eigen systemen heeft, dat is quasi onmogelijk. Heel erg moeilijk om te doen. Ik zeg niet dat het volledig onmogelijk is, maar het is gewoon heel erg moeilijk. Omdat je met die spaghetti van allerlei bron- en targetsystemen, code- en scripts, weet ik wat nog allemaal, zit, die heel erg moeilijk te beheren valt. Dus de thees en de toekomstvisie die wij voorop staan is van, kijk, laten we nu proberen om die machine learning processen samen te brengen rond een geshared data-infrastructuur. En dan hebben we het over feature stores. Je hebt het straks al heel even aangehaald denk ik, maar feature store is eigenlijk het kloppend hart waar rond je MLOps kan samenbrengen. En dat is niet iedereen het mee eens trouwens. Er zijn heel veel mensen die zeggen van feature store, why do I need that? Misschien moeten we heel even uitleggen wat een feature is, want ik denk dat de meesten denken een feature is iets van de functionaliteit van een word bijvoorbeeld. Dat is een feature, maar wij praten hier in de machine learning over iets anders. Het gaat over de variabelen waar je op traint. Dat noemen we een feature eventjes voor het gebak, toch? Inderdaad, we gaan het hebben over de features van de feature store. Inderdaad, de variabelen waar je op traint, de data structuur die je gebruikt om een model te maken, om een model te bouwen. Heel veel van die machine learning systemen hebben bepaalde voorwaarden aan voor. Je hebt bepaalde structuren die je nodig hebt om die analyses te doen, om die modellen te bouwen. Dus dat betekent dat je heel vaak vanuit een bronsysteem, stel je hebt een rationele databank of je hebt een graven databank of je hebt een of andere CSV-file of weet ik wat nog dat je allemaal hebt als bronsysteem. Je moet die dingen gaan manipuleren in een bepaalde vorm, zodanig dat je daarop je training kan loslaten en dan met die training een model kan maken en met dat model een inference pipeline kan maken. Die features zijn een heel belangrijke bron van tijd en moeite en kosten. Mensen spenderen heel veel tijd in het maken van features. Garbage in, garbage out. Dus als je dat niet goed doet, krijg je ook vaak een heel problematisch probleem achteraf. Maar het is ook heel belangrijk dat je precies weet wat zo'n feature, wat zo'n variabele betekent. Wat dat niet alleen technisch betekent, maar vooral ook in je business betekent. Er zijn natuurlijk zoveel ambigue termen waarvan de een denkt van deze variabele betekent dit, terwijl het eigenlijk iets anders was. Heel simpel, we hebben het over een product en een productvraag. In de ene afdeling dan betekent dat heel wat anders dan dat je dat aan de klant service vraagt. Of de klant, wat betekent dat? We hebben allemaal de know your customer programma's toch? Er zijn heel veel concepten in elk bedrijfsproces die best wel genuanceerd zijn en die heel specifiek zijn. Waar tegen als je het aan de individuele goed menende welwillende programmeur overlaat, dat er wel eens fouten tegen gemaakt worden. Een stukje van de professionalisering, van de transparantie, de governance die je wil introduceren is ook door daarin professionalisering aan te brengen. Dat betekent natuurlijk dat je met die features door een soort van centralisatie van data gaat proberen in te bouwen. Dat volgens mij, en ik ben hier uiteraard bevooroordeeld, maar ik denk dat je daarmee zowel naar die governance, zowel naar die professionaliseringsslagje kan maken. Maar dus ook kosten kan besparen. Er is heel veel onderzoek naar. Het is niet alleen over machine learning engineering, maar ook over DevOps en al soort van dingen. Mensen en programmeurs spenderen heel veel tijd in infrastructuur en heel weinig tijd in het oplossen van het eigenlijke probleem. En dus daar is een soort van eeuwig spanningsveld waarbij we gaan moeten proberen om als onderdeel van die professionalisering ervoor zorgen dat die mensen meer tijd kunnen spenderen aan hun eigenlijke probleem. En minder tijd aan infrastructuur, aan data wrangling, aan ETL, dat soort van dingen. Dus een feature store is een centraal punt in die MLOps, maar is vooral ook een manier om zowel governance als kostenbesparingen te doen. Zodat niet elke pipeline zijn eigen features moet gaan definiëren. Dat je dat gewoon één keer kan doen en kan delen en re-usen over alle pipelines heen. Dus dat we niet die ambiguïteit weer in de code laten komen, maar dat we dat centraal stellen. Maar ook een stukje contextualisatie denk ik. Van waar hebben we het over? De beschrijving eromheen. Ja, ik denk dat je tegenwoordig heel veel van die systemen, data catalogues en dergelijke, waarin je ook veel beter beschreven en gedocumenteerd ziet wat een bepaald concept, een bepaald feature precies betekent. Ik denk dat feature stores daar in de context van machine learning een belangrijke toegevoegde waarde kunnen betekenen. Niet iedereen heeft dat nodig. Niet iedereen is het daar zelfs mee eens. Maar ja, dat is een beetje de visie die wij voor de toekomst hebben. Dat is eigenlijk de twee vliegen die we mee inklappen. Beter governance en betere kostenefficiëntie door professionele vereniging. Ik deel dat beeld wel, want ik denk dat zelf kom ik in de praktijk vaak problemen tegen dat het niet goed beschreven is waar we het nou precies over hebben in zo'n catalog van de data. En dat we dat nu invullen wanneer we het noodzaak hebben. Maar nu is het een noodzaak als we met GenAI los willen laten op onze systemen en met machine learning aan de slag willen. Is dit eigenlijk een stap die we moeten maken om te kunnen automatiseren? Ja, niet alleen dat. Kijk waar het over gaat is dat die features, daar zit vaak een heel traject aan voordat je zo'n variabele zodanige gekneed hebt dat de machine daarmee om kan gaan. Dus daar zit heel veel tijd, geld, effort in. En dat kan je dan binnen één project hebben gedaan. En als je het daar binnen laat, dat is heel mooi. Maar als het volgende project hetzelfde gaat doen, hopelijk ook op hetzelfde uitkomt, want in het slechtste geval maken ze er net even wat anders van. Dat is juist wat je wil delen. Het is die effort die ervoor gezorgd heeft dat je precies die variabelen, die input, die machine nodig heeft om die patronen te leren. Dat wil je volgens mij vastleggen, toch? Dat is de kern van het. Dus bouwblokken. Ja, bouwblokken die je gaat hergebruiken in plaats van iedere keer weer een nieuw blokje maken. Dat beeld en dat concept is helemaal niet nieuw. Mensen die al een klein beetje langer meegaan, die hebben dat nogal wel eens gezien. Ik maak daar straks ook meteen de link tussen MLOps en DevOps. Ik denk dat heel veel van die concepts gewoon heel erg gelijkaardig zijn. En ik denk dat machine learning ook voor een belangrijk stuk code is, software. Dus als we de lessen uit software engineering leren, dan gaan we ook betere MLOps krijgen. Mooi, mooi statement. Wat zouden de luisteraars volgens jou moeten doen? Want die sluiten dit af, die hebben dit geluisterd. Wat gaan ze doen? Ik hoop dat ze genieten van de rest van hun dag. Of dat ze niet te veel file hebben als ze het in de wagen aan het luisteren zijn. Maar ik nodig ze natuurlijk uit om in te lezen in dit topic. Ik denk dat MLops echt een heel boeiende wereld is. Feature stores als component daarin zijn enorm leuk. Wij hebben daar met Hopsworks natuurlijk ook heel veel materiaal rond. Een van de tofste dingen die wij hebben op onze website is de machine learning dictionary. Dat is eigenlijk een deel van onze website waarin we eigenlijk al die concepten proberen te definiëren. We hebben dat ook niet voor niks gemaakt, dat is ook een enorm belangrijke bron van website traffic voor ons. Maar het is een heel leuke resource om je in te lezen in bepaalde topics. Als je zegt wat is MLops nu precies? Of wat is een feature store precies? Of wat zijn die dingen nu precies? Dat zijn goede definities. Ik zeg niet dat ze allemaal zaligmakend zijn, maar ze zijn denk ik heel erg goed. En als ze dat dan leuk vinden dan kunnen ze het natuurlijk zelf ook eens testen. Als ze een technisch achtergrond hebben dan nodig ik ze warm uit. Als je naar app.hopsworks.ai gaat dan kan je gewoon een gratis account maken, no credit card, whatever. En je mag het gewoon eens testen en eens kijken wat je ervan vindt. Ik ben ook lekker actief op sociale media, op Twitter en op LinkedIn. Dus als je mij even een boodschapje wilt sturen dan probeer ik daar met heel veel plezier om naar de top te komen. Kijk, wij zullen in ieder geval een linkje opnemen naar die dictionary. Ik denk dat zo'n woordenboek zeker altijd heel erg handig is. Ik begrijp ook wel dat als je af en toe dit soort dingen luistert dat de termen voorbij komen waarvan je denkt van oe, wat is dat? Dat is een mooie toevoeging, ga maar doen. Dankjewel Rik, dankjewel voor al je inzichten. Ik heb weer een hoop gehoord. Ik ook, en weer veel geleerd. Leuk dat je weer luisterde naar een aflevering van AIToday Live. Wil je nou op de hoogte blijven van alle ontwikkelingen rondom kunstmatige intelligentie, generatieve AI, maar dus ook machine learning? Schrijf je dan eens in voor onze nieuwsbrief. De link vind je ook in de show notes. Dan krijg je maandelijks een mooie achtergrond van over de podcast en wat er allemaal te doen is op het gebied van kunstmatige intelligentie. En sneak previews van bepaalde afleveringen en gasten. Ook leuk. Zelfs leuk. Tot de volgende keer. [Muziek]

Van experimenteren naar professionaliseren in AI met Rik van Bruggen (Hopsworks)

Wat leer je in deze aflevering?

Kernbegrippen

Transcript

Over de gast

Meer afleveringen