Wat leer je in deze aflevering?
In deze aflevering van AIToday Live, opgenomen tijdens het Dutch Data Forum in Den Bosch, spreekt Madeleine Schellaars over haar rol als product owner data kwaliteit bij NS. Ze deelt haar visie op het verbeteren van datakwaliteit binnen een grote organisatie met legacy-systemen en 6 miljoen klanten.
Kernbegrippen
- Datakwaliteit
- Mate waarin data volledig, actueel, accuraat en geschikt is voor het beoogde gebruiksdoel.
- Diamantmodel
- Implementatieframework dat datakwaliteit stapsgewijs verbetert via dimensies mens, proces en technologie.
- Metadata
- Gestructureerde informatie over data, inclusief definities, eigenaarschap en herkomst van datasets.
- Data profiling
- Technisch proces dat datasets analyseert om kwaliteitsproblemen, patronen en afwijkingen op te sporen.
- Legacy-systemen
- Oudere IT-infrastructuur en databases die organisaties blijven gebruiken ondanks technologische veroudering.
Interview: Madeleine Schellaars
Madeleine, kun je vertellen wat je huidige rol is bij NS en hoe je in de wereld van data terecht bent gekomen?
Ik ben ongeveer twintig jaar werkzaam bij NS in diverse functies, van projectmanagement tot IT. De laatste vijf jaar werk ik in wat ik de wonderenwereld van data noem. Je ziet dat data steeds meer hip en happening wordt. In mijn vorige rol was ik product owner van het datateam dat alle producten maakt rondom reisinformatie. Een van onze hoofdverantwoordelijkheden is het leveren van tijdige en juiste reisinformatie aan onze klanten, zodat ze tijdig een goed handelingsperspectief hebben. Al deze gegevens rapporteren wij aan de concessieverlener. Wat bijzonder is, is dat wij dit voor alle vervoerders in Nederland doen. NS voert deze dienstverlening non-conformitoir uit, wat betekent dat we voor alle vervoerders dezelfde dienst leveren. Dit geeft ons als datateam natuurlijk een status aparte, omdat we de beschikking hebben over data van meerdere vervoerders. Dat brengt weer allerlei zaken met zich mee rondom awareness op geheimhouding en dergelijke. Het is een zorgvuldige maar zeer gave job.
Je hebt onlangs een stap gemaakt binnen de organisatie. Wat doe je nu precies?
Afgelopen maart heb ik de stap gemaakt naar data management, specifiek enterprise data management. Daar ben ik product owner van het datakwaliteitsteam. Daarnaast heb ik nog wat andere rollen in de visie die wij hebben op de NS Data Valley. We maken eigenlijk een plek waar we alle data over data - dus metadata - beschikbaar maken binnen het bedrijf. Dat is natuurlijk vaak zoeken voor collega's. Wat is nou eigenlijk de echte omschrijving van een trein? Of van een dienstregelpunt? In ons bedrijf, in onze sector, willen we woorden wel eens verschillend definiëren. Het eerste plateau wat we doen is via de Power BI dashboards. Via een informatieknopje kunnen collega's terechtkomen op die echte vastgestelde definitie. Daarbij kunnen ze ook zien wie de eigenaar is van het domein waar die definitie in zit, en welke andere definities, KPIs en objecten daar nog meer bij horen.
Hoe diep gaat die metadata-structuur? Daal je daarin af richting het data fundament?
Ja, absoluut. Je daalt eigenlijk af richting je data fundament, waarbij je natuurlijk ook een heleboel metadata beschikbaar wilt hebben. Datasets moeten makkelijk toegankelijk zijn voor experts. En datakwaliteit - dat is iets wat ook als fundament onder AI en machine learning ligt. Datakwaliteit is een ontzettend interessant onderwerp.
Hoe hebben jullie datakwaliteit vormgegeven? Gebruiken jullie een bestaand systeem of hebben jullie iets zelf ontwikkeld?
We hebben datakwaliteit als thema op de kaart gezet met twee modellen. Het eerste model is eigenlijk ons implementatiemodel, en dat hebben we de vorm gegeven van een diamant. We zien datakwaliteit als een soort groeibriljant, want je kunt niet alles tegelijk aanpakken. Je hebt op het gebied van mens, proces en technologie echt al een aantal dingen te doen voordat je kunt zeggen dat je de datakwaliteit in de grip hebt. Belangrijk hierbij is dat de kwaliteit ook niet altijd honderd procent hoeft te zijn. Je moet ook kijken waarvoor je de data wilt gebruiken en wat dan de eis daarbij is. Dat is ons implementatie framework.
En jullie tweede model, hoe werkt dat?
Meer inhoudelijk hebben we een dimensiemodel waarmee we op zes manieren kijken naar datakwaliteit. We kijken naar volledigheid, tijdigheid, accuraatheid, of er dubbelingen in zitten, of het klopt met de taxonomie die je hebt afgesproken. Dat is meer de inhoudelijke bril die je opzet. Met die twee platen ga je aan de slag met datakwaliteit. Je kunt een dataset door een wasmachine halen - dat noemen wij een profiling. Dan krijg je te zien wat voor rariteiten deze dataset vertoont. Dat brengt je op het vaststellen van je eisen en het maken van een scorecard. Dat is eigenlijk een beetje ons productieproces.
Jullie bedienen met een relatief klein team het hele NS-bedrijf. Hoe pakken jullie dat aan?
We zijn met een team van zeven mensen en we bedienen heel NS. Daarom doen wij niet aan gedwongen winkelnering - we zouden nooit voor iedereen dashboards kunnen maken. Dus we leren onze collega's diezelfde tools te gebruiken om ze zelf een scorecard te laten maken. Maar we zien ook collega's die een kwaliteitstabblad bijvoorbeeld in een Power BI dashboard zelf maken, en dat is ook helemaal prima. Het gaat ons er echt om dat we weten dat het bedrijf bezig is met datakwaliteit. Dat vinden we veel belangrijker dan het hoe. Met de kanttekening dat we uiteindelijk wel graag al die eisen die er overal leven, willen kunnen optellen. Uiteindelijk willen we antwoord kunnen geven op die allergrootste vraag: wat is de datakwaliteit van NS?
Dat optelbaar maken vraagt toch ook wel eenduidige definities?
Ja, dat klopt. Dat is wel ons ultieme doel. We zijn bezig met het implementeren van datakwaliteitstooling waarmee we ook eigenlijk al die quality checks kunnen gaan aggregeren. Dat is natuurlijk nu nog in theorie, maar het begint bij ambitie toch?
Er was een interessante vraag tijdens je presentatie over big data en datakwaliteit. Wordt datakwaliteit eigenlijk niet minder belangrijk nu we zoveel data hebben?
Wat een vraag! Gelukkig zat mijn collega uit het team, onze solution architect, in de zaal en mocht ik de vraag aan haar doorspelen. Zij zei: het wordt juist veel belangrijker. De kwaliteit wordt juist zó belangrijk in de wereld van big data. Je gaat eigenlijk stapelen als het ware. Je hebt je toepassing die data levert, die ga je weer hergebruiken. Wij zitten dan in AI en machine learning, dan ga je ook weer diezelfde data gebruiken. De uitkomsten daarvan worden misschien weer in volgende rapportages gebruikt, die weer ergens anders worden gebruikt. Je krijgt een opeenstapeling. Als je een lerend systeem gaat gebruiken, dan moet het dus gewoon echt heel goed zijn. Je maakt er bijna ketens van, dataketens. Als er in het begin al gewoon troep, rotzooi in zit, vervuiling, dan wordt het alleen maar erger.
Hoe kijken jullie naar analytics data, bijvoorbeeld van jullie website?
We hebben bijvoorbeeld Google Analytics voor NS.nl, waar je kunt kijken naar het gedrag van gebruikers. Waar wordt er geklikt en hoe wordt er geklikt? Daar heb je heel veel analytics data van. We willen graag gaan kijken van: wat zit daar nou allemaal in? Kunnen we dat eigenlijk ook ontleden? En wat is daar dan de kwaliteit van? Hoe beoordeel je dat? Dat is er eentje die op de wensenlijst staat.
Wat was de belangrijkste boodschap die je je publiek wilde meegeven vanuit je presentatie?
Eenvoud. Eenvoud en het over de zaken hebben waar het om gaat. Je ziet woorden als AI, data quality, machine learning, process mining - het zijn allemaal van die begrippen die ergens ook nog heel abstract zijn. Voor heel veel collega's, want wij denken allemaal: data, dat is al wel gemeengoed. Dat is echt niet zo. Dus die kijken je toch wel glazig aan: waar heb je het in hemelsnaam over? Dan vind ik het gewoon echt heel fijn om het te hebben over de échte dingen. Dus wat ik in mijn presentatie ook vertelde: wij hebben een klantendatabase van zes miljoen klanten. En die is echt niet vorig jaar begonnen. Nu heb je IT waarin je een controle doet op postcode en huisnummer, zodat je een bestaand adres hebt. Nu stuur je een mail naar het mailadres wat is ingevuld, zodat je het kunt valideren. Maar onze klantendatabase komt uit een heel ander tijdperk, waarin je misschien wel IT had, maar geen controle. En daarvoor had je gewoon een handmatige administratie. We hebben ontbrekende velden, maar we hebben ook gewoon vervelende dingen zoals adressen met 'huisnummer 1' - zulke rare dingen staan in die database. Ga het maar eens opruimen! Als je het daarover hebt met collega's: "oh, dáár heb je het over, o ja!"
Hoe zorg je ervoor dat mensen datakwaliteitsproblemen met een positieve houding benaderen?
Je moet het ook een beetje lollig maken, want wij komen natuurlijk toch met de rosse handschoenen en de poetstoep. We komen vertellen wat er allemaal niet klopt, dan zijn we toch een vervelend groepje. Daarom hebben we een topper-flopper dashboard gemaakt. Daar zie je dan de treintjes en kun je zien welke er gehaperd hebben in het communiceren naar de walsystemen. We moeten het vooral ook zelf heel leuk vinden, want we komen echt wel eens in trajecten die hardnekkig zijn. Dan denk je: daar zit een quality issue, maar waar is dat dan ontstaan? Vaak moet je zoveel stappen terug, en ondertussen zijn er bewerkingen in de data geweest. Dan is het best wel een speltunnel.
Kun je een voorbeeld geven van een datakwaliteitsprobleem waar je tegenaan bent gelopen dat lastig was om op te lossen?
Ja, en wat eigenlijk geen datakwaliteit bleek te zijn! Het zat in opbrengsten van treinkaartjes. Verkoopdatum versus reisdatum liep helemaal scheef in systemen. Na even doorzoeken bleek het een een of andere Kruidvat-actie te zijn. Mensen kopen het kaartje, leggen het onder de kerstboom en gaan in de zomer een keer met de trein. Dan komen er soms rare dingen uit de data, onverklaarbaar op het eerste gezicht. Als je het later bij dit antwoord bent, denk je: hè, natuurlijk hebben we dat soort acties! Maar je moet wel eerst helemaal terug om te begrijpen hoe het zit.
Loop je wel eens tegen weerstand aan als je datakwaliteitsproblemen aan de kaak stelt?
In mijn vorige functie, waar we veel meer met business dashboards bezig waren voor besturing, als je ergens een keer iets in hebt staan wat niet klopt, dan is gelijk de hele afdeling neer. Dan wordt het natuurlijk snel: zie je wel, het is niet betrouwbaar, je kunt helemaal niet sturen met data. Dus er is natuurlijk toch wel een groep die niet iedereen is fan. Wij zitten in de briljante positie dat onze financial directeur de grote sponsor is van datagedreven werken. Hij zegt altijd: hoeveel wielstellen liggen er in dat magazijn uit het noorden van Utrecht? Hij zegt: daar krijg ik zoveel verschillende antwoorden en ik wil één antwoord. Dat is altijd de anekdote die hij gebruikt intern. Dat is natuurlijk heel fijn, maar ik spreek ook echt wel collega's die zeggen: nou, is er niet veel te veel aandacht voor al die data?
Hoe werk je samen met IT-afdelingen rondom datakwaliteit?
In mijn beginjaren in die datawereld kwam ik uit de IT, dus ben ik heel veel op pad geweest met IT-collega's. Die worden natuurlijk heel erg geleefd door de operationele werking van de systemen, en dat is hartstikke belangrijk. Maar dat er ook nog een afslag is richting je data fundament, dat die data daar naartoe wordt gebracht en dat ze bij een change die ze doorvoeren ook echt die check even moeten doen van: joh, zitten daar ook KPI's of producten achter waar deze data wordt gebruikt? Dat is iets wat bij IT-collega's wel steeds meer op de radar komt, maar dat is echt wel een weg geweest. We hadden bijvoorbeeld op een gegeven moment een change in de telefoonnummers van onze collega's. Daar stonden 06-nummers en dat was +31 6 geworden. Daarmee was dat veld langer, een aantal karakters meer, en daardoor waren een aantal informatieproducten kapot. Gewoon heel basaal, omdat het aantal karakters meer was geworden. Dat is vooral waar je echt in die IT-dataketen gewoon echt samen moet werken, elkaar moet leren kennen en ook je IT-collega's vertellen van: joh, die KPI die we elke maand rapporteren aan BV Nederland, dat maken we van dat wat jij daar hebt gedaan. "Oh echt?" Er zitten elf bronsystemen in zo'n KPI. Dus het is heel belangrijk dat je IT-collega's dat weten.
Je noemde metadata. Hoe pakken jullie dat aan?
We hebben nu al een aanpak staan. Van een heleboel bedrijfsbegrippen, KPI's en objecten hebben wij al heel veel metadata verzameld. Dat noemen wij de glossary data - dat is alles wat je handmatig invoert. Dus wie is eigenaar, wat is de beschrijving, wat is de klassificatie, beschikbaarheid, integriteit, vertrouwelijkheid, wat is je bewaartermijn. Dat is allemaal al verzameld. Dat is de categorie handmatige metadata. We gaan nu aan de slag met het implementeren van tooling die ook technische metadata ophaalt. Die gaat echt als een soort sniffer door het datalandschap en haalt op: welke route legt een data object of een regel af, van waar komt die vandaan, waar gaat die naartoe, wanneer is dat gebeurd. Allerlei technische metadata die dan bovenkomt en die willen we gaan combineren.
Speelt AI een rol bij het combineren van die verschillende soorten metadata?
Ja, zeker. Dan kom je ook op AI, want alle begrippen die je eigenlijk in je glossary hebt staan, die wil je natuurlijk relateren aan alles wat in die fysieke wereld gebeurt. Daar zitten algoritmes in die tooling om dat ook te kunnen gaan combineren en dat steeds beter te gaan doen. Als je machine learning modellen wilt gaan trainen op de data die je hebt, is het heel belangrijk dat je metadata hebt zodat iedereen begrijpt: waar kijk ik naar, wat zou er in die data moeten zitten? Dat hoort bij het fundament van je data.
Wat willen jullie met die metadata bereiken qua databeschikbaarheid?
We willen datasets beschikbaar gaan stellen, criss-cross binnen het bedrijf. Collega's die van elkaar datasets willen gebruiken - dat komt natuurlijk heel veel voor. Daar is regelgeving op om op basis van de doelbinding wel of niet nog langs een autorisatieproces te moeten. Maar daar willen we eigenlijk ook metadata van die sets neerzetten: hoe vaak wordt het geüpdatet, wat is de frequentie van het updaten, waar moet je het vooral niet voor gebruiken.
Waarom is dat laatste zo belangrijk?
Welke known errors zitten erin, bijvoorbeeld. We hebben ergens een dag - niet die befaamde 3 april, maar ergens anders in de keten - waar een ID-systeem heeft gehaperd. Daar ben je een dag kwijt. Super baal, maar dat is wel iets wat belangrijk is om te weten, zodat je daar als consument van die data rekening mee kunt houden.
Jullie hebben ook met streaming data te maken. Is daar een andere aanpak voor nodig qua datakwaliteit?
We proberen eigenlijk dat framework en die diamant universeel toepasbaar te maken. Maar wat ik bij die streaming dataketens zie, is dat het aantal rollen wat je daar hebt eigenlijk meer is. Bij je normale systemen die batchleveringen doen, heb je die data-eigenaar, data-steward, definitie-steward - daar ben je wel. Die eigenaar hebben we dan ook nog in een gedelegeerde variant. Dus dat zijn vier rollen, daar kom je echt wel heel end. In die ketens van streaming data heb je zoveel IT-overdrachtsmomenten dat je eigenlijk meerdere rollen nodig hebt. Dat zijn gewoon complexere ketens. Het gaat vooral over welke rollen je hebt en wie dan waarvoor verantwoordelijk is in die keten - dat is groter.
Zijn die rollen die je noemt echte functies binnen de organisatie?
Nee, dat zijn echt rollen, geen functies. Je hebt bijvoorbeeld onze directeur van de planning - die heeft als rol dat hij data-eigenaar is van de content in het planningsysteem. Het is altijd een rol. Ik hou ook niet van namen in zo'n overzicht. Ik zeg: doe mij maar gewoon hoofd dit of manager dat. Die vlieger gaat gewoon niet zo goed op, zeker bij data-stewards is dat lastig. Je hebt experts in je organisatie. Wat je met data management doet: je maakt heel veel impliciet expliciet. Als er ergens klantensystemen op straat liggen, dan weet je wel dat Charlie, onze directeur, daar verantwoordelijk voor is. Dat is vrij duidelijk. Maar je ziet ook gewoon in het werk van collega's dat ze hun verantwoordelijkheid dragen dat er iets goed in elkaar zit, of op tijd af is. Een dienstregeling die voor de volgende dag van uitvoering op tijd klaar moet staan voor de overdracht naar het volgende systeem. Dat zijn verantwoordelijkheden die in functies zitten, en daar zit vaak impliciet een data-stewardschap bij. Want dat zijn vaak ook de collega's die heel goed snappen wat daar staat, wat er mis kan zijn, als het mis is, hoe je het moet oplossen. Dan zie je dat het stewardschap niet per se aan een functie kan worden gekoppeld. Je zit heel vaak op expertise van collega's - experts of procesexperts die vaak bij betrokken worden in de processen.
Als mensen in andere organisaties nu luisteren en ook willen starten met datakwaliteit, wat is dan jouw advies?
Dat begint eigenlijk met een been-op-tafel sessie, om gewoon het onderwerp eens te laten neerdalen. Als ik zeg "datakwaliteit" - vind ik dat mijn datakwaliteit goed genoeg is om mijn bedrijf mee te besturen? En als ik dan twijfel, als ik zeg: dat weet ik niet zeker, hoe kom ik daar dan achter? Hoe kom ik erachter of mijn data van voldoende kwaliteit is om beslissingen op te nemen? Als je die vraag een beetje laat indalen en daar het gesprek met elkaar over voert, dan kom je tot de essentie. Dan kom je echt wel binnen anderhalf, twee uur tot de vraag: waar moeten we dan eens een keer een thermometer insteken? Waar moeten we eens een meting doen? Misschien hebben we wel ketenmonitoring draaien, gewoon in de operatie. Wat zijn de punten in die ketenmonitoring waar je zegt: kunnen we daar niet een vlaggetje hangen?
Denk je dat het risico- en kostengedreven moet zijn?
Ja, ik denk dat het heel vaak risico en kosten is. We willen natuurlijk ook agile werken, we willen ook allemaal businesswaarde leveren. Maar ik zie dat datakwaliteit vaak aan de kant zit van risico's en kosten. Heel plat, weet je wel. Ik vertelde over die klantendatabase - als een incassobureau daar zeg ik lekker niet nummer één in ziet staan, dat schrikt natuurlijk niet af. Daar kom je dan op uit.
Wat is het allerbelangrijkste om mee te nemen als je met datakwaliteit aan de slag gaat?
Bewustzijn van people, process and technology. De mensen in die hele keten en de awareness - de presentatie ging ook over datageletterdheid. Het is voor heel veel collega's nog zo abstract dat het goed is om het gesprek te voeren: waar hebben we het nou echt over? Wat is er in onze organisatie? Wat miskomt ons als we dit niet doen? Je kunt de vraag gewoon echt ook omdraaien. Soms kan het antwoord dan zijn: nou, er gaat niks kapot. Waarschijnlijk gaat er vandaag niks kapot, maar er gaat over een jaar ook niks beter. Dat is in de data-analytics-wereld natuurlijk ook vaak zo. Een businessanalist bij ons gaf een keer die quote, die zei: als ik nu niks doe, gaat er morgen niks slechter, maar er gaat volgend jaar ook niks beter. AIToday Live is een podcast die zich richt op de nieuwste ontwikkelingen in AI en de impact ervan op verschillende sectoren. In elke aflevering spreken hosts Niels Naglé en Joop Snijder met experts uit het veld om inzicht te krijgen in de mogelijkheden en uitdagingen van AI-technologie. Luister via je favoriete podcast app: Spotify, Apple podcasts, YouTube Music, en meer.
Over de gast
Madeleine Schellaars heeft ruim 20 jaar ervaring bij NS, waar ze verschillende functies heeft vervuld, van projectmanagement tot IT. De afgelopen vijf jaar heeft ze zich gespecialiseerd in data, met een focus op datakwaliteit en enterprise data management. Momenteel is ze product owner van het data kwaliteits team, waar ze werkt aan het verbeteren van de datakwaliteit en het toegankelijk maken van data binnen de organisatie.
Bekijk gastprofielTranscript
We zijn vandaag te gast bij Dutch Data Forum, georganiseerd door Heliview.
Diverse experts en ervaringswetenskundigen komen langs in onze pop-up studio van AIToday Live.
We zitten in een mooie locatie in Den Bosch, het Conferentiecentrum.
Mijn naam is Joop Snijder, CTO bij Aigency.
En mijn naam is Niels Naglé, chapter lead Data AI bij Info Support.
En hij haakt vandaag helaas remote aan, dus niet in het mooie settting bos, maar in het mooie Pieterhof.
Dus niet in het mooie zettige bos, maar in het mooie Pieter-esk middelharnis.
Dus het klinkt iets anders, maar we hebben dezelfde persoon voor ons.
Hartstikke goed. En te gast is Madeleine Schellaars van NS.
Madeleine, welkom in de podcast. Zou jij je eerst willen voorstellen aan de luisteraars?
Jazeker. Madeleine Schijlaars, zo'n 20 jaar werkzaam bij NS in diverse functies van projectmanagement tot IT.
En de laatste vijf jaar in de wereld, de wonderenwereld van de data.
Waarbij je natuurlijk ziet dat dat steeds meer hip-hop en happening wordt.
In mijn vorige rol was ik product owner van het datateam die alle producten maakt rondom reisinformatie.
Dus ook een van onze hoofdreelnet KPIs leveren wij onze klanten tijdig juist reisinformatie.
Geven ze tijdig een goed handelingsperspectief.
Al dat soort zaken rapporteren wij aan de concessieverlener.
Dat doen wij voor alle vervoerders in Nederland.
Dus daar zijn wij, dat noemen ze dan non-conformitoir volgens mij.
Dat je dan Greenfield voor alle vervoerders dezelfde dienst levert.
En dat maakt ook dat je in je data gebruik natuurlijk een status aparte hebt als datateam.
Omdat je de beschikking hebt over data van meerdere vervoerders.
Wat weer allerlei zaken met zich meebrengt rondom awareness op geheimhouding en dergelijke.
Dus dat is een zorgvuldige baan.
Een hele gave job.
En ik ben in afgelopen maart heb ik de stap gemaakt naar data management.
Enterprise data management.
En daar ben ik product owner van het data kwaliteits team.
En ik heb daar nog wat andere rollen.
Ook in de visie die wij hebben op de NS Data Bali.
Waarbij wij eigenlijk een plek maken waar we alle data over data beschikbaar maken binnen het bedrijf.
Dat is natuurlijk vaak zoeken voor collega's.
Wat is nou eigenlijk de echte omschrijving van een trein?
Of van een dienstregelpunt.
Dat in ons bedrijf, in ons sector.
Nou willen we woorden wel eens verschillend definiëren.
En dat is het eerste plateau wat we doen.
Is ook via de Power BI dashboards.
Via een i'tje terecht komen op die echte vastgestelde definitie.
Maar daarbij ook te kunnen zien van wie is nou eigenlijk de eigenaar van het domein waar die definitie in zit.
Welke definities leveren daar nog meer bedrijfsbegrippen, KPIs, objecten.
Dan daal je eigenlijk africhting je data fundament.
Waarbij je natuurlijk ook een heleboel metadata beschikbaar wil hebben.
Omdat je ook datasets makkelijk toegankelijk wil hebben voor experts.
Nou ja en data kwaliteit dat is iets wat ook als een fundament onder het AI machine learning ligt.
Dat is een data kwaliteit is een ontzettend interessant onderwerp.
Als jij zegt dat dat hebben we beschreven.
Heb je dat in een bestaand systeem?
Heb je een bestaande applicatie daarvoor genomen?
Of hebben jullie dat zelf ontwikkeld?
Nee we hebben data kwaliteit eigenlijk als thema zetten wij dat op de kaart met twee modellen.
Eén model is eigenlijk je implementatie model.
En dat hebben we de vorm gegeven van een diamant.
Dat we al zien van data kwaliteit is ook wel echt een groei briljant.
Want je kan niet alles tegelijk.
Daar zit natuurlijk op mens, proces en technologie heb je echt al een aantal dingen te doen.
Wil je kunnen zeggen van ik heb de data kwaliteit in de grip.
Want de kwaliteit hoeft ook niet altijd 100% te zijn.
Want je moet ook kijken waar wil je je data voor gebruiken.
En wat is dan de eis daarbij?
Dus dat is mijn implementatie framework.
En meer inhoudelijk hebben we een dimensie model.
Dat we op zes manieren kijken naar data kwaliteit.
Dus op volledigheid, tijdigheid, accuraat.
Zitten er geen dubbelingen in?
Klopt het met de taxonomie die je hebt afgesproken?
Dus dat is meer de inhoudelijke bril die je opzet.
En met die twee platen ga je aan de slag met data kwaliteit.
Dat kan hè.
Dan kan je je een dataset door een wasmachine halen.
Dat noemen wij een profiling.
En dan krijg je eigenlijk te zien van wat voor rariteiten vertoont deze dataset.
En dat brengt je op het vaststellen van je eisen.
En het maken van een scorecard.
Dat is eigenlijk een beetje ons productieproces.
Maar weten dat wij heel NS bedienen met een team van zeven.
Doen wij niet aan gedwongen winkelnering.
Want wij zouden nooit voor iedereen dashboards kunnen maken.
Dus wij leren onze collega's diezelfde tools te gebruiken.
Om ze op een scorecard te maken.
Maar we zien ook collega's die een kwaliteitstabblad...
bijvoorbeeld in een power-bejaardashboard zelf maken.
En dat is ook helemaal prima.
Het gaat ons er echt om dat we weten dat het bedrijf bezig is met data kwaliteit.
Dat vinden we veel belangrijker dan het hoe.
Met de kanttekening dat we uiteindelijk wel graag al die eisen die er overal leven...
dat we die graag willen kunnen optellen.
En uiteindelijk antwoord kunnen geven op die allergrootste vraag.
Wat is de data kwaliteit van NS?
How do you think you can boil the ocean?
Dat optelbaar maken, dat vraagt ook wel eenduidige definities.
Maar dat zeggen wij wel. Dat is wel ons ultieme doel.
En we zijn bezig met implementeren van data kwaliteitstooling.
Waarmee we ook eigenlijk al die quality checks ook kunnen gaan agregeren.
Dat is natuurlijk nu nog in theorie.
Maar het begint bij ambitie toch?
Ja, precies. Het was ook wel leuk.
Net in de afsluiting van de presentatie vroeg de dagvoorzitter...
we leven in een tijd van big data en wordt data kwaliteit eigenlijk helemaal niet meer belangrijk.
Want we hebben zoveel.
Toen dacht ik, wat vind ik nou eigenlijk van die sterren?
Zo!
Gelukkig zat mijn collega uit het team, onze solution architect, in de zaal.
Mag ik hem even doorspelen?
Toen zei zij, het wordt juist veel belangrijker.
Dat de kwaliteit juist zo belangrijk wordt in de wereld van big data.
Ja, toch? Je gaat eigenlijk stapelen als het ware.
Dus je hebt je toepassing die data levert. Die ga je weer hergebruiken.
Wij zitten dan in AI machine learning.
Dan ga je ook weer diezelfde data gebruiken.
De uitkomsten daarvan worden misschien weer in volgende rapportages gebruikt.
Die weer gebruikt worden. Je krijgt een opeen stapeling van.
Ja, zeker. Als je een lerend systeem gaat gebruiken, dan moet het dus gewoon echt heel goed zijn.
Ja. Maar ook dat je er bijna ketens, data ketens van maakt.
Dus als er in het begin al gewoon troep, rotzooi in zit, vervuiling.
Dan wordt het alleen maar erger. Spannende stelling.
We hebben ook bijvoorbeeld Google Analytics.
Volgens mij, als je gaat kijken naar het gedrag van ons op NS.nl.
Waar wordt er nou geklikt en hoe wordt er geklikt?
Daar heb je heel veel analytics data van.
Ja, willen we ook graag gaan kijken van. Wat zit daar nou allemaal in?
Kunnen we dat eigenlijk ook ontleden? En wat is daar dan de kwaliteit van?
Hoe beoordeel je dat? Dat is er eentje die je op de wensenlijst staat.
Ja, precies. En wat was eigenlijk de takeaway die je aan je publiek mee wilde geven vanuit je presentatie?
Eenvoud. Eenvoud en het over de zaken hebben waar het om gaat.
Je ziet woorden als AI of data quality, machine learning, process mining.
Het zijn allemaal van die begrippen die ergens ook nog heel abstract zijn.
Zeker.
En voor heel veel collega's, want wij denken allemaal data, dat is al wel gemeengoed.
Dat is echt niet zo. Dus die kijken je toch wel glazig aan.
Waar heb je het in hemelsnaam over? Dan vind ik het gewoon echt heel fijn om het te hebben over de echte dingen.
Dus wat ik in mijn presentatie ook vertelde, wij hebben een klanten database van 6 miljoen klanten.
En die is echt niet vorig jaar begonnen.
Kijk, want nu heb je IT waarin je een controle doet op postcode, huisnummer, zodat je een bestaand adres hebt.
Nu stuur je een mail naar het mailtje, mailadres wat is ingevuld, zodat je het kan valideren.
Maar onze klanten database komt uit een heel ander tijdperk, waarin je misschien wel IT had, maar geen controle.
En daarvoor had je gewoon een handmatige administratie.
En we hebben ontbrekende velden, maar we hebben ook gewoon vervelende dingen als adressen, zeg ik niet huisnummer 1.
Weet je, zulke vrouwen dingen staan in die database. Ga het maar eens opruimen.
En als je het daarover hebt met collega's, oh daar heb je het over.
O ja, dus dat. En ook wel een beetje de lolligheid.
We hebben dan een topper-flopper dashboard gemaakt.
En je moet het ook een beetje lollig maken, want wij komen natuurlijk toch met de rosse handschoenen de poets toe.
Want wij komen vertellen wat er allemaal niet klopt.
Dan is hij wel een vervelend groepje.
En wat staat er dan in zo'n topper-flopper?
Ja, daar zie je dan de treintjes en daar zie je dan welke er gehaperd hebben in het communiceren naar de walsysteem.
Geweldig. Dat je er inderdaad lol in blijft houden.
Ja, we moeten het vooral ook zelf heel leuk vinden.
Want we komen echt wel eens in trajecten die zijn hardnekkig.
En dan denk je van daar zit een quality issue, maar waar is dat dan ontstaan?
Vaak moet je zoveel stappen terug en dan zijn er bewerkingen ondertussen in de data.
Dan is het best wel een speltuneuber.
Heb je een voorbeeld die je mag noemen van een data kwaliteit waar je echt wel tegenaan bent gelopen?
Wat lastig was om op te lossen.
Ja, en wat eigenlijk geen data kwaliteit bleek.
En dat was, ik weet hem niet helemaal exact, maar het zat hem in opbrengsten van treinkaartjes.
En verkoopdatum versus reisdatum, wat helemaal scheef liep in systemen.
Wat na even doorzoeken bleek een een of andere kruidvatactie.
En mensen kopen het kaartje, gelegd onder een kerstboom en die gaan in de zomer een keer met de trein.
En dan komen er soms rare dingen uit de data, onverklaarbaar op het eerste gezicht.
En als je het later bij dit antwoord bent, dan denk je, he he he, tjuh.
Tuurlijk hebben we dat soort acties.
Maar je moet wel eerst helemaal terug om...
Hoe zit dit dan?
Ik heb er zelf ook nog wel eentje van, dat is echt al wel heel lang geleden hoor.
Daar kwamen uit de mainframesystemen, werden er dan exports getrokken.
En dat was met alles wat in, hoe noem je dat, op vaste plekken de data.
En ik was dan met een collega aan het doen.
En dan ga je ook allerlei crosschecks gaan doen.
En toen zagen we op een gegeven moment, zeiden we van ja, maar als je dit optelt, dat kan haast niet.
Want er was namelijk, er was een internationale bank.
En de US dollar was maar geloof ik, nou even uit mijn hoofd,
zat ergens onder de top 10 aan transacties die gedaan werden.
Nou dat kon gewoon niet.
En uiteindelijk bleek ook dat er dus een verkeerde positie gekozen werd.
Dus er was net één verschuiving in de valutaeenheid.
Maar dat zeg ik ook, hoe langer IT-ketens en bewerkingen, hoe meer risico op datakwaliteit.
Want ook in ESB's en stations onderweg kan je data verliezen, blijven hangen,
het kan corrupt raken, er kan inderdaad een kommaatje verkeerd.
En de grap was dat wij dat aangaven en dat we eerst tegen heel veel weerstand aanliepen.
Dat zeiden we, dat kan niet, want dit rapport wordt al zo lang gebruikt.
Dit kan niet waar zijn.
En we hebben heel veel moeten overtuigen, laten zien.
Herken je dat? Loop je tegen dat soort dingen ook aan?
Nou ja, dat ook wel in mijn vorige plek, weet je wel,
waar we veel meer met Business Dashboard bezig waren voor besturing.
Als je ergens een keer iets in hebt staan wat niet klopt, dan is gelijk de hele afdeling neer.
Dan wordt het natuurlijk snel, zie je wel, het is niet betrouwbaar, je kan helemaal niet sturen met data.
Dus er is natuurlijk toch wel een, niet iedereen is fan.
Nee.
Wij zitten in de briljante positie dat onze financial directeur de grote sponsors van data gedreven werkt.
Want hij zegt, hoeveel wielstellen liggen er in dat magazijn uit het noorden van Utrecht?
Hij zegt, daar krijg ik zoveel verschillende antwoorden en ik wil één antwoord.
Dat is altijd de anekdote die hij gebruikt intern.
Dat is natuurlijk heel fijn, maar ik spreek ook echt wel collega's die zeggen, nou, nou, nou,
is er niet veel te veel aandacht voor al die data?
Ja, terwijl het zo belangrijk is.
Ja, maar ook in mijn beginjaren dat ik in die data wereld zat, ik kwam uit de IT,
ben ik heel veel op pad geweest met de IT-collega's,
want die worden natuurlijk heel erg geleefd door de operationele werking van de systemen.
En dat is natuurlijk hartstikke belangrijk.
Maar dat er ook nog een afslag is richting je data fundament,
dat die data daar naartoe wordt gebracht en dat ze bij een change die ze doorvoeren,
ook echt die check even moeten doen van, joh, zitten daar ook KPIs of producten achter waar deze data wordt gebruikt?
Dat is iets wat bij IT-collega's wel steeds meer op de radar komt, maar dat is dus echt wel een weg geweest.
En we hadden bijvoorbeeld op een gegeven moment een change in de telefoonnummers van onze collega's,
en daar stonden maar nog 06 nummers en dat was plus 31 6 geworden.
Daarmee was dat veld langer, een aantal karakters, en daardoor waren een aantal informatieproducten kapot.
Gewoon heel bazaal, omdat het aantal karakters was meer geworden.
En ja, dat is vooral waar je echt in die IT-dataketen gewoon echt samen moet werken,
elkaar moet leren kennen en ook je IT-collega's vertellen van, joh, zit dat schans in de spits,
wat we elke maand rapporteren aan de BV Nederland, dat maken we van dat wat jij daar hebt gedaan.
Oh echt? Er zitten elf bron-systemen in zo'n KPI. Dus het is heel belangrijk dat je IT-collega's dat weten.
En volgens mij hoorde ik je in het begin ook iets over metadata zeggen, dus de beschrijving over de data.
Hoe wordt dat aangepakt?
Daar hebben we nu al een aanpak staan, dus we hebben eigenlijk van een heleboel bedrijfsbegrippen,
KPIs en objecten, hebben wij al heel veel metadata verzameld.
En dat is eigenlijk, dat noemen wij de glossary data, dat is alles wat je handmatig invoert.
Dus wie is eigenaar, wat is de beschrijving, wat is de klassificatie, beschikbaarheid, integriteit, vertrouwelijkheid,
wat is je bewaartermijn, dat is allemaal al verzameld. Dat is de categorie handmatige metadata.
En we gaan nu aan de slag met het implementeren van tooling die ook technische metadata ophaalt.
Dus die gaat echt als een soort sniffer door het datalandschap en die haalt op van welke route legt een data object,
of een regel af, van waar komt die vandaan, waar gaat die naartoe.
Wanneer is dat gebeurd, allerlei technische metadata die dan boven komt en die willen we gaan combineren.
En dan kom je ook op AI, want dan ga je ook alle begrippen die je eigenlijk in je glossary hebt staan,
die wil je natuurlijk relateren aan alles wat in die fysieke wereld gebeurt.
En daar zitten algoritmes in die tooling om dat ook te kunnen gaan combineren en dat steeds beter te gaan doen.
Ja, nou sowieso als je machine learning modellen wil gaan trainen op de data die je dan hebt,
is het heel belangrijk dat je metadata hebt dat iedereen begrijpt van waar kijk ik naar,
wat zou er in die data moeten zitten. Dus dat is wel een hele mooie, nou ja eigenlijk noem je het ook,
dat hoort bij het fundament van je data.
Ja, we willen ook een soort datasets ook beschikbaar gaan stellen, criss-cross binnen het bedrijf.
Collega's die van elkaar datasets willen gebruiken, dat komt natuurlijk heel veel voor.
En daar is natuurlijk regelgeving op om op de basis van de doelbinding wel of niet nog langs een autorisatieproces te moeten.
Maar daar willen we eigenlijk ook metadata van die sets neerzetten.
Van hoe vaak wordt het, wat is de frequentie van het updaten, waar moet je het vooral niet voor gebruiken.
Ja, dat is heel belangrijk.
Ja, precies. Welke known errors zitten er bijvoorbeeld ook in.
We hebben ergens een dag, we hebben ID-systemen gehaperd.
Niet die befaamde 3 april, maar ergens anders in de keten.
En daar ben je een dag kwijt. Super baal, maar dat is wel iets wat belangrijk is om te weten.
Ja, dat je dat inderdaad beschrijft, dat je daar rekening mee kan houden als consument van die data.
Ja, interessant.
Je hebt ook veel financiële HR-systemen, dat beschrijf je ook in wat er in de sessie wordt besproken.
Maar je hebt ook over streaming.
Is daar nou een andere aanpak bij die jullie hanteren om daar de datakwaliteit te monitoren?
Ja, nou we proberen eigenlijk dat dat framework en die diamant proberen wij gewoon wel universeel toepasbaar te maken.
Maar wat ik bij die streaming-dataketens zie, is dat het aantal rollen wat je daar hebt eigenlijk, dat zijn er meer.
Dus bij je normale systemen, die de batch leveringen doen, heb je die data-eigenaar, data-steward, definitie-steward, daar ben je wel.
Die eigenaar hebben we dan ook nog in een gedelegeerde variant.
Dus dat zijn vier rollen, daar kom je echt wel heel end.
En in die ketens van streaming-data heb je zoveel IT-overdrachtsmomenten, dat je eigenlijk, ja, dan heb je meerdere rollen nodig.
Dat zijn gewoon complexere ketens.
Dus dat is het vooral.
Ja, als het gaat over welke rollen heb je en wie is dan waarvoor verantwoordelijk in die keten, dat dat groter is.
Ja, en die rollen, dat zijn dus ook echt gewoon functies die je bekleedt binnen de organisatie.
Dat je verantwoordelijk bent voor een stukje data of een stukje kwaliteit van die data?
Nee, dat zijn echt rollen. Dat zijn geen functies.
Dus je hebt bijvoorbeeld ons directeur van de planning, die heeft als rol dat hij data-eigenaar is van de content in de planning-systeem.
Dus het is altijd een rol.
En het is ook niet, ik hou niet van namen in zo'n overzicht.
Ik zeg, doe mij maar gewoon hoofd dit of manager dat.
En die vlieger die gaat gewoon niet zo goed op, zeker bij data-stewards is dat lastig.
Omdat je experts hebt in je organisatie, want wat je met data-management maakt, je heel veel impliciet maakt je expliciet.
Je weet echt wel als er ergens klantsysteem op straat liggen, dan gaat echt Charlie, onze directeur, die is daarvan.
Dat is vrij duidelijk.
Maar je ziet ook gewoon in het werk van collega's dat ze hun verantwoordelijkheid dragen dat er iets goed in elkaar zit.
Of op tijd af is, een dienstregeling die voor de volgende dag van uitvoering op tijd klaar moet staan voor de overtracht naar het volgende systeem.
Dat zijn verantwoordelijkheden, die zitten in functies.
En daar zit vaak impliciet een data-stewardschap bij.
Want dat zijn vaak ook de collega's die heel goed snappen wat daar staat, wat er mis kan zijn, als het mis is, hoe je het moet oplossen.
En dan zie je dat het stewardschap niet per se aan een functie kan worden gekoppeld.
Dus je zit heel vaak op expertise van collega's.
Ja, ook mijn expert of proces-expert die daar vaak bij betrokken is en aan wordt gehaakt in de processen, is mijn persoonlijke ervaring inderdaad.
Ja, en zeker in zo'n groot bedrijf als waar wij werken, kom je vaak dezelfde collega's tegen die hier ook echt affiniteit mee hebben.
Ja, mooi.
Als er nu mensen in de organisatie luisteren die denken van ja, maar wij willen dit beter, meer professioneel gaan aanpakken, dat van de data-kwaliteit.
Wat zou je ze dan mee willen geven? Hoe start je met dat je dit breder in de organisatie inzet?
Binnen onze eigen organisatie?
Nee, dus mensen die nu luisteren en die denken van, eigenlijk moeten wij ook wat met data-kwaliteit in onze organisatie, willen daar een initiatief voor starten.
Zou je daar een tip voor hebben vanuit de ervaring die je nu hebt?
Eigenlijk begint dat met een been-op-tafel sessie, om gewoon het onderwerp eens te laten neerdalen.
Als ik dat nou zeg, data-kwaliteit, vind ik dat mijn data-kwaliteit goed genoeg is om mijn bedrijf mee te besturen.
En als ik dan twijfel, dan zeg ik ja, dat weet ik niet zeker, hoe kom ik daar dan achter?
Hoe kom ik erachter of mijn data van voldoende kwaliteit is om beslissingen op te nemen?
En als je die vraag een beetje laat indalen en daar het gesprek met elkaar over voelt, dan kom je er tot de essentie.
En dan kom je echt wel binnen anderhalf, twee uur, heb je echt wel boven tafel van waar moeten we dan eens een keer een thermometer insteken?
Waar moeten we eens een meting doen? Misschien hebben we wel ketenmonitoring draaien, gewoon in de operatie.
Wat zijn de punten in die ketenmonitoring waar je zegt, kunnen we daar niet een vlaggetje hangen?
Misschien ook wel risico gedreven, denk ik.
Hier voelen we intuïtief een probleem, dus laten we dat eens bekijken.
Dat denk ik wel, ja. Ik denk dat het heel vaak risico en kosten is.
We willen natuurlijk ook agile werken, we willen ook allemaal businesswaarde leveren.
Maar ik zie dat datakwaliteit vaak aan de kant zit van risico's en kosten.
En heel plat, weet je wel. Ik vertelde over die klanten database.
Als een incassobureau, daar zeg ik lekker niet nummer één in.
Dat schrikt natuurlijk niet op. Dus daar kom je dan op uit.
Ja, mooie tip.
Dus ook been op tafel, goed kijken waar je wilt beginnen, doorspreken.
Ja, en je bewustzijn van people-projected knowledge.
Dat de mensen in die hele keten en de awareness, de presentatie ging over datageletterdheid ook.
Het is voor heel veel collega's nog zo abstract, dat het goed is om het gesprek te voeren.
Waar hebben we het nou echt over? En wat is er in onze organisatie?
Wat miskomt ons als we dit niet doen? Je kan de vraag gewoon echt ook omdraaien.
Ja, dat vind ik ook wel mooi. Wat als je het inderdaad niet doet?
Want soms kan het antwoord dan ook zijn, nou, er gaat niks kapot.
Nee, waarschijnlijk gaat er vandaag niks kapot, maar er gaat over een jaar ook niks beter.
En dat is vaak in de data-analytics-wereld, is dat natuurlijk ook wel vaak.
Een businessanalyst bij ons die gaf een keer die quote, die zei,
als ik nu niks doe, gaat er morgen niks slechter, maar er gaat volgend jaar ook niks beter.
Mooi.
En dat vond ik wel echt heel goed van hem gezegd.
Ja.
Niels?
Nee, ik had hem even opgeschreven. Ik vond het wel een mooie quote, als ik wel zeg.
Mooie uitschrijver toch?
Ik was hem even aan het opschrijven.
Mag, we copyright.
Ja, ik had je af en toe dichtgezet vanwege het achtergrondgeluid.
Dus ik wist niet of je nog misschien wat te vragen had.
Nee?
Maar niet? Nee? Oké.
Nou, ik denk dat het inderdaad een hele mooie uitschrijver is.
Dank je wel, Marlène, dat je de gast wilde zijn.
Dat je ons dit wilde vertellen.
Ik denk dat we weer een hoop geleerd hebben, geïnspireerd.
Ja.
Dank je wel.
Leuk om met jullie in gesprek te zijn. Dank je wel voor de uitnodiging.
Ja, graag gedaan.
Dank je wel, graag gedaan.
Leuk dat je weer luisterde naar een aflevering van EETD Live.
Mis geen aflevering, abonneer je via je favoriete podcast app.
En tot de volgende keer.
[Muziek]