Wat leer je in deze aflevering?
In deze aflevering bespreken Joop Snijder en Niels Naglé de verschillende dimensies van transparantie in AI-systemen. Als vervolg op een eerdere aflevering over uitlegbaarheid maken zij duidelijk dat transparantie veel breder is dan alleen interpreteerbare modellen en onderscheiden zij vijf concrete pijlers.
Kernbegrippen
- Datatransparantie
- Documentatie van trainingsgegevens, hun herkomst en gebruikte kenmerken in AI-systemen.
- Algoritmetransparantie
- Registratie van algoritmetypes, hun doeleinden en toepassingen binnen organisaties.
- Outputtransparantie
- Begrijpelijkheid en interpreteerbaarheid van AI-systeemuitkomsten voor gebruikers.
- Ethische transparantie
- Openheid over wanneer AI wordt ingezet en de organisatorische intentie daarachter.
- Procestransparantie
- Documentatie van dataverzameling, gebruikersrechten en bezwaarprocedures.
Transcript
[Muziek] Hoi, leuk dat je weer luistert naar een nieuwe aflevering van de AIToday Live. Mijn naam is Joop Snijder, CTO bij Aigency. Mijn naam Niels Naglé, chapter lead Data & AI bij Info Support. En we gaan het vandaag hebben over transparantie Niels. In aflevering 6 hebben we een aflevering gemaakt over uitlegbaarheid. En in het kort gaat het vooral over interpreteerbare modellen, uitlegbare modellen. Nou daar hebben we het wel vaker over in deze podcast. En als vervolg op die aflevering wil ik het heel graag hebben over vijf vormen van transparantie. Vooral omdat dat heel vaak bij elkaar wordt genomen. Bij transparantie wordt heel snel gedacht aan uitlegbaar en interpreteerbaar. Maar transparantie is best wel op heel veel verschillende plekken te zien... binnen de kunstmatige intelligentie. En om daar eens duidelijkheid in te scherpen... wil ik dat eens even met je doornemen. En ik hoop dat dat voor onze luisteraars ook helpt... dat je af en toe eens kan vragen... Hoe zit het bij ons op dit aspect van transparantie? Ja, want er wordt heel snel gezegd van... ja, weet je, we willen een transparant AI-systeem. Daar wil ik het dan ook over hebben. Dan kan je gaan vragen stellen van... "Oh ja, en transparantie hierop, daarop, daarop." Nou, er zijn er vijf die ik vandaag wil behandelen. Ik wil niet zeggen dat dat volledig is, maar ik denk dat dit vijf hele belangrijke zijn. Dat is namelijk de transparantie van de input van je data. Nummer twee wordt zo direct de transparantie van je algoritme. Drie is de output transparantie. Dus een model die geeft uiteindelijk een uitkomst. Hoe transparant is die? Vier is je ethische transparantie. En nummer vijf is je proces transparantie. En wat dat allemaal is. Je voelt al van... Er is van alles over te zeggen. Dus even data, algoritme, output, ethiek. En de vijfde? - Proces. Proces, oké. Nou, dan gaan we beginnen bovenaan. Data transparantie. Dat is AI wordt getraind op data en dat is echt de input van je algoritme. Datatransparantie of inputtransparantie worden vaak door elkaar gebruikt. Je geeft een mate van inzicht in de gebruikte data. En dat kan tweeledig zijn. Dus aan de ene kant kan je denken aan de begrijpelijkheid van de data. En hoe transparant is dat? Dan kan je bijvoorbeeld denken aan audits en dat soort zaken. En dan gaat het er vooral over de beschrijving van de data. Dus welk veldje wordt gebruikt? Waar komt het vandaan? Wat voor type? Ja, precies. Dan is er zelfs nog herkomst. Maar je hebt natuurlijk ook, als we bijvoorbeeld OpenAI als voorbeeld geven voor ChatGPT, die zeggen waar ze op trainen. En ze zeggen van, nou, zoveel procent van de data bestond uit boeken, zoveel procent uit internet. Maar dat zegt helemaal niets. Dat is geen inputtransparantie, want je hebt helemaal geen idee welke data... Welke boeken, wat van het internet, wat wel, wat niet en hoe ga je daar dan mee om? Dus daar zit echt wel een enorm verschil in. En dat maakt het dus ook, is het dan wel of niet duidelijk wat ermee gedaan wordt? Eigenlijk hoe ver transparant ben je dan? - Ja. En als je dat zou plotten op een organisatie, wat zou jouw beeld dan zijn wat een organisatie toch minimaal wel moet beschrijven voor zichzelf? Hoever ze dat dan naar buiten openzetten qua transparantie is even een tweede, maar wat zou ze dan minimaal wel vast moeten leggen om die transparantie mogelijk te maken? Nou, ik denk dat je voor jezelf inderdaad heel duidelijk moet hebben, wat zijn je traininggegevens? Dat je echt vastlegt dan, oh ja, maar als ik afbeeldingen binnenhaal, dat je weet waar komen die vandaan? Maar ook, wat gebruik je dan van die afbeeldingen? Dus gebruik je dingen als geslacht, leeftijd, die je bijvoorbeeld uit zo'n afbeelding probeert te halen? Wat voor kenmerken? Dus dat je dat allemaal in ieder geval voor jezelf duidelijk hebt, waar komt de data vandaan en wat gebruik je van de data? Ja. Ja, want je kan meer data erin hebben zitten, maar niet alle karakteristieken van de data gebruiken voor het model of voor je oplossing. Ja, precies. Dus ik denk dat dat een beetje beeld geeft van... Ja, ik denk dat het ook direct alweer een ander stukje transparantie raakt. Of in ieder geval een brugje is ook naar het stukje algoritme transparantie. Want we hebben het al over welke data gebruik je dan. In het model ga je ook data gebruiken. Maar ik denk dat daar ook juist verwarring in de markt vandaan komt. Wat is nu transparantie en op welke vlakken en welke perspectieven heb je? Dus... - Precies. Ja, en ik had nog een voorbeeld. Want waarom het zo belangrijk is, dat je deze datatransparantie hebt, niet alleen voor jezelf, maar ook voor mensen om het te kunnen controleren. Een van de problemen is, we hebben het wel eens gehad over Coded Bias. Dat is een hele goede documentaire op Netflix. Als mensen dat nog niet gezien hebben, doe dat. Daar was het probleem namelijk dat de vrouw die de grondlegger is, waar deze documentaire ook over gemaakt is, die wilde inloggen aan de hand van gezichtsherkenning. Ik zat even te zoeken naar de term. En wat bleek is dat zij niet herkend werd. Haar gezicht werd niet herkend. Pas toen zij een wit masker op zette, werd ze herkend. Wat zij voor elkaar gekregen heeft trouwens is dat Microsoft, Amazon, al dat soort grote giganten... hebben uiteindelijk hun data aangepast om ervoor te zorgen dat die modellen beter gingen presteren. Maar er was dus geen datatransparantie over hoeveel foto's van vrouwen zijn er gebruikt. Hoeveel foto's van mensen van kleur zijn er gebruikt. Ja interessant, moet ik gelijk terugdenken aan een eerdere opname die we ook hebben gemaakt over het beschrijven van bias die je misschien zelf niet door hebt, maar door de beredenering duidelijk te maken, dus uitleggen van het model, komt die bias pas naar boven. Dus het logisch is dat je misschien in het begin niet beschrijft, maar eigenlijk is het iets dat je continu moet aanvullen, Naarmate je ook leert van het model en hoe je het gebruikt. Dat er dus inderdaad maar zo'n procent bijvoorbeeld gekleurde mensen waren... of bepaalde andere karakteristieken die je zelf niet doorhad. Als je het nou juist wel van tevoren beschrijft... Ja, maar daar hebben we het probleempje met bias natuurlijk. Dat je niet altijd door hebt dat je daar niet op let. Ja. -Dat maakt wel een dilemma. Ja, dat is waar. Maar ook als je daar dan transparant over bent... dan is het ook veel makkelijker om uiteindelijk die fouten te vinden. Dan heb je nog algoritme transparantie. En dan denk ik natuurlijk meteen aan de afleveringen die we gehad hebben over het algoritme register van de digitale overheid. En daar kun je beschrijven met je algoritme transparantie. Zeg je van, oh ja, we gebruiken dit type algoritme. Deze data gebruiken we. Voor dit doel. Voor dit doel. Daar leg je dat in vast. Dan weet je in ieder geval meer. Want je weet inderdaad de velden... en ook wat voor soorten algoritmes er worden gebruikt. Het is dus een ander type van transparantie... dan dat je exact weet wat de trainingsset geweest is, bijvoorbeeld. Ja, en ik sta er echt achter. Ik hoop echt dat heel veel organisaties ook beginnen aan hun eigen algoritmeregister... om gewoon het besef te hebben waar zetten we het in. en willen we het daarvoor inzetten en weten we genoeg van wat we gebruiken en hoe we het inzetten. Precies. Dus ik denk dat het heel belangrijk is. We zien het natuurlijk ook steeds meer ontstaan in de maatschappij en vragen ernaar. Maar wat jij zegt, bedrijven, weet je, er staat niets in de weg om juist je eigen algoritmeregister alvast aan te leggen. Ja, zeker. Heel belangrijk. Nummer drie was outputtransparantie. Een uittrans... Moeilijk woord zeg. Outputtransparantie in AI verwijst naar de mate waarin de output of beslissingen van een AI-systeem... begrijpelijk en interpreteerbaar zijn voor mensen, waar we het zo vaak over hebben. Dus dat omvat de uitleg over hoe het systeem tot zijn voorspellingen of beslissingen is gekomen. Zodanig dat wij die redenering achter de uitkomst... dat we die echt ook daadwerkelijk kunnen begrijpen, dus uit de output. Kijk, wij hebben het hier natuurlijk zo vaak over gehad, maar toch nog even een voorbeeld. Stel, je hebt een AI-systeem die wordt gebruikt om fraudeleuze transacties op te sporen. Het systeem kan dan transactiegegevens analyseren, genereert dan een lijst met transacties die het als risicovol beschouwt. Maar je moet dat natuurlijk dan transparant maken, zodat je uiteindelijk ook kan beoordelen van, is het ook fraudeleus ja of nee? Het betekent nogal wat. En hoe kom je daar toe, zodat je daar ook weer van kunt leren? Precies. En dan heb je nog de ethische transparantie. En de ethische transparantie gaat erom dat je laten weten dat je AI gebruikt. Er is bij, als je een customer support ding opent, dat er wordt gezegd van je praat met een chatbot. Dat zijn een van de dingen die we al zien. Daar wil je niet zelf achter komen, want huidige chatbots kom je dat heel snel achter. Maar je wil wel inderdaad weten dat je geholpen wordt door een bot in plaats van door een mens. En dat is dan bij iets... De Hollands on... Hoe zeg je dat eigenlijk in het Nederlands? Customers support, weet je? Nou ja, weet je, dat valt misschien nog mee. Maar er zijn natuurlijk, als jij onderwerp bent... waar een model voor wordt gebruikt... dat zou ook kunnen zijn in het opsporen... in bijstandsefraude van de overheid, dat soort zaken. Wil je echt wel weten dat je onderwerp bent... van een EHI-systeem. Dat is ethische transparantie. Dat je heel duidelijk aan degene die daar aan wordt onderworpen... dat je daar duidelijk over bent, dat je onderdeel bent van zo'n model. Ja, ik denk nog wel meer dan onderdeel bent van. Want dat is maar denk ik een klein deel van de ethische vraagstukken. Dat is ook maar waarom je dit doet, waarom je dat op deze manier doet. Dus ik denk dat er wel meer bij komt kijken over ethische transparantie... dan alleen je bent onderdeel van het systeem en het systeem is een AI-model. Ik denk dat daar wel een brede vraagstuk ligt over waar je transparant over kan zijn. Je intent, noem het dan maar op. Precies. - Dus je bedoeling, ja. Ja, dus die doel waar je het al eerder over had, dat gaat hier natuurlijk ook over. En in een dusdanige manier beschreven dat je dat ook zelf begrijpt. Ja. - Als je daar deel van bent. Ja, zonder begrip geen vertrouwen. Nee, precies. Ja. Dus dat is een hele belangrijke manier van transparantie. En de laatste is procestransparantie. En dat gaat erover hoe je data verzamelt. Eigenlijk van voor tot achter, hoe ziet dat eruit. Maar ook, hoe ziet het proces eruit van, kan jij bijvoorbeeld uit de data gehaald worden? Welke rechten heb je daartoe? Hoe ben je erin gekomen? Waar kan ik bezwaar aantekenen? Waar kan ik meer informatie krijgen? Al dat soort zaken, dan hebben we het over procestransparantie. Dus het is niet zo dat als we het hebben over het begrip transparantie, dat we daarmee alles hebben afgedekt. Er wordt heel snel gesproken, waar ik al de podcast over begon, iets moet transparant zijn, wat houdt dat dan in? Voor welke ga je? En het heeft ook impact, want soms wil je misschien niet transparant zijn, Maar dan kan je die keuze bewust maken. Creditcard maatschappijen zullen niet heel erg transparant zijn in hoe ze de fraude voor jou opsporen. Met een reden, want hun intent is dan hopelijk zodat ze niet de fraudeurs zorgen dat ze begrijpen om dat weer te kunnen omzeilen. Precies. - Dat is dan weer de intent. Maar ik denk dat voor heel veel organisaties het belangrijk is om zo transparant mogelijk te zijn. en dat je in ieder geval deze vijf afloopt en gaat bedenken van... ja, weet je, wat doen we ermee? Welke keuze maken we? Hoe leggen we het vast? En ja, weet je, hoe ontwikkel je je hier vooral op? Ja, dit is niet iets wat je achteraf moet doen natuurlijk. Dit is iets wat je in design, in wat voor oplossing moeten we eigenlijk gaan ontwikkelen, neerzetten. Zijn dit al vraagstukken die je daarin meeneemt bij je design? Precies. Ik hoop dat het een heel stuk duidelijker is geworden. Transparantie, het ligt wat... Het is niet complex, het is breder dan het weten wat voor model er gebruikt wordt. Ja. Misschien moet ik dat nog even aan toevoegen. Ik heb training gehad. En bij die training zaten ook heel veel mensen uit de omgeving van AI. Transparantie betekent bijvoorbeeld ook dat we de code in moeten kunnen zien van het model. En iets wat nou typisch namelijk totaal oninteressant is, is die code, want dat zijn vaak maar 100, 200 regels code om uiteindelijk een machine learning model te maken. Daar zit het probleem niet in. En de transparantie zit dus niet in de code, maar zit in die vijf elementen waar we het net over hebben gehad. Ja. Ja, ik denk voor sommige add-its nog wel interessant om toch naar de code te gaan, maar dat is dan met een bepaald doel om validatie te doen. Ja, maar dat is meer of je model goed in elkaar zit. Ja, het zegt niet iets over die transparantie. Het zegt helemaal niets over transparantie. Over die paarregels code, daar kan je echt helemaal niks mee. Dat ziet er vaak ook zelfs hetzelfde uit. Op dezelfde manier is dat opgebouwd. Het is de data... - Zou fijn zijn wel, ja. Dat is nog niet altijd het geval, maar het zal wel steeds meer gaan gebeuren. We zijn natuurlijk bezig met patronen vinden in data... en daar doe je wat mee. En dus, ja, dat stukje code... dat is wel bezig met het vinden van de patronen. Maar die data, dat is waar het allemaal over gaat. Dat hoor ik graag, de data. Dat is wel waar het om gaat. Ja, toch? Nou, ik hoop dat het duidelijk was en dat je dus met deze vijf datatransparantie, algoritmetransparantie, outputtransparantie, ethische transparantie, procestransparantie aan de gang gaat. Dank je wel weer voor het luisteren. Dank je wel weer voor het luisteren naar deze aflevering van EYTD Live. Mis geen aflevering. Vind je deze aflevering nou leuk? Beveel dus een collega, vrienden, familie. Of wie je dit dan ook gunt om naar ons te luisteren. Vergeet je niet te abonneren in je favoriete podcast app. En hopelijk tot de volgende keer. Tot de volgende keer.