Alle afleveringen
S08E38 - Waarom wantrouwen de sleutel is tot vertrouwen in AI-agents
S08E38

Waarom wantrouwen de sleutel is tot vertrouwen in AI-agents

Seizoen 8 11 min Hosts: Joop Snijder & Niels Naglé
0:00

Wat leer je in deze aflevering?

Waarom wantrouwen de basis is van AI-vertrouwen blijkt uit een beveiligingslek bij McKinsey. Een AI-agent kreeg binnen twee uur toegang tot 46,5 miljoen chatberichten en kon systeemprompts herschrijven die alle AI-adviezen zouden vergiftigen. Het probleem: McKinsey bouwde relationeel vertrouwen zonder technische basis - 22 van 200 API-eindpunten hadden geen authenticatie.

Joop laat zien hoe wantrouwen en vertrouwen verschillende lagen zijn die samen AI-veiligheid creëren. Van infrastructuur met zero trust tot transparantie over wat agents doen tot relationeel vertrouwen dat groeit door ervaring.

Morgen kun je een infrastructuur-audit doen van je AI-systemen: check authenticatie op alle eindpunten, logging van agentacties en automatische sessieverlopen in 15 minuten.

01
Twee soorten vertrouwen Technisch vertrouwen (binair: geautoriseerd of niet) versus relationeel vertrouwen (gradueel: groeit door ervaring). McKinsey had hoog relationeel vertrouwen in hun AI-platform Lilli, maar technische beveiliging faalde compleet.
02
McKinsey-incident details AI-agent kraakte binnen 2 uur het interne platform via SQL-injectie uit 1998. Toegang tot 46,5 miljoen chatberichten, 730.000 bestanden en systeemprompts. 22 van 200 API-eindpunten waren onbeveiligd.
03
Orkest-metafoor Concertzaal heeft strikte bouwnormen (zero trust infrastructuur) zodat muzikanten elkaar kunnen vertrouwen (relationele samenwerking). Veilige basis maakt vertrouwensvolle samenwerking mogelijk.
04
Drie-lagen architectuur Infrastructuurlaag (zero trust, alle calls geverifieerd), transparantielaag (begrijpbare uitleg wat agent doet) en samenwerkingslaag (relationeel vertrouwen groeit geleidelijk).

Kernbegrippen

Technisch vertrouwen
Binair autorisatiemodel waarbij toegang wordt verleend of geweigerd op basis van verificatie.
Relationeel vertrouwen
Gradueel opgebouwd vertrouwen dat groeit door positieve ervaringen en transparante interactie over tijd.
Zero trust architectuur
Beveiligingsmodel waarbij alle toegang wordt geverifieerd, ongeacht locatie of eerdere autorisatie.
AI-agent autonomie
Zelfstandige uitvoering van taken door AI-systemen zonder directe menselijke sturing of controle.
SQL-injectie
Cyberaanval waarbij kwaadwillenden onveilige invoervelden misbruiken om ongeautoriseerde databasetoegang te krijgen.

Wat er gezegd wordt

Een aanvaller had de AI-adviezen van al deze McKinsey-consultants kunnen vergiftigen zonder dat iemand het merkte.

Joop Snijder

Wanneer AI-agents zowel je verdediging als je aanvallers zijn, is de infrastructuurlaag geen bijzaak meer.

Joop Snijder

Wat kun je morgen doen?

  1. 1 Audit je API-eindpunten: controleer of alle toegangspunten authenticatie vereisen (voorkomt 90% van inbraken)
  2. 2 Implementeer automatische logging van alle agent-acties voor transparantie en detectie van afwijkend gedrag
  3. 3 Bouw vertrouwen geleidelijk op: start met beperkte autonomie en breid uit op basis van prestaties

Transcript

Welkom bij de korte aflevering van AIToday Live. Mijn naam is Joop Snijder, CTO bij Aigency. En vandaag gaan we het hebben over een vertrouwensparadox: waarom wantrouwen de basis is van vertrouwen. Klinkt heel apart, ik ga je alles over vertellen. Ik begin eerst even bij het begin. Op 28 februari liet een beveiligingsstartup een AI-agent los op het interne AI-platform van McKinsey zonder menselijke begeleiding. En deze agent zocht zelfstandig naar kwetsbaarheden, vond ze en brak in. En binnen twee uur had deze agent volledige toegang tot de productiedatabase. En dat betekende toegang tot 46,5 miljoen chatberichten. Bijna 730.000 bestanden en 57.000 werknemersaccounts. En het ergste: schrijftoegang tot de systeemprompts die het gedrag van het platform aansturen. Dus een aanvaller had de AI-adviezen van al deze McKinsey-consultants kunnen vergiftigen zonder dat iemand het merkte. De kwetsbaarheid was SQL-injectie. En voor de niet-technische onder ons. SQL is de taal waarmee software met databases praat. Bij SQL-injectie type je als gebruiker iets in een zoekveld. Maar in plaats van een zoekopdracht stuur je een stukje databasetaal mee. En het systeem voert dat dan braaf uit alsof het een legitiem verzoek is. En het is een techniek die in 1998 is ontdekt. En standaard beveiligingstools hadden deze variant niet gevonden. De AI-agent wel. Wat ik ga vertellen, is geen verhaal over hackers. Maar dit wordt een verhaal namelijk over vertrouwen. Namelijk over de vraag: wanneer mag je een AI-systeem vertrouwen en wanneer absoluut niet. Want er zit een tegenstrijdigheid in hoe we over vertrouwen en AI praten. En over die tegenstrijdigheid ga ik je alles vertellen vandaag. In mijn boek Doeltreffend met AI-agents pleit ik in het beveiligingshoofdstuk voor zero trust. Fundamenteel wantrouwen. Geen enkele agent gaan we automatisch vertrouwen. Ook niet als die gisteren perfect functioneerden. En in een ander hoofdstuk later pleit ik voor vertrouwen als fundament van mens-machinesamenwerking. Acceptatie groeit, namelijk door transparantie, positieve ervaringen en geleidelijke uitbreiding van autonomie. Hoe kan dat allebei dan waar zijn? Wantrouwen als basis en vertrouwen als fundament. Dat klinkt dan als tegenstelling. Maar dat is het niet. Want het zijn twee verschillende soorten van vertrouwen. Het onderscheid is best wel cruciaal, zeker naar wat er bij McKinsey is gebeurd. Want kijk, de verwarring ontstaat doordat we hetzelfde woord gebruiken voor twee echt verschillende dingen. Het eerste type noem ik dan ook voor nu technisch vertrouwen. Dit is de vraag. Kan ik erop rekenen dat dit systeem doet wat het moet doen binnen de kaders die we hebben gesteld zonder ongeautoriseerde acties. Het gaat over authenticatie, autorisatie, logging, verificatie. En dat is binair. Je bent geautoriseerd of niet, een actie is geverifieerd of niet. Het is het één of het ander. Het tweede type is relationeel vertrouwen. Dit is de vraag: geloof ik dat samenwerking met het systeem mij beter maakt in mijn werk. Het gaat over begrijpen wat een agent doet, waarom het bepaalde keuzes maakt en het gevoel dat je als mens de regie houdt. Dit vertrouwen. Dat is gradueel, geleidelijk. Het groeit door ervaring en krimpt door teleurstelling. Die zero trust. Gaat over het eerste type. Mens-machinesamenwerking gaat over het tweede type. Laten we even teruggaan naar het geval van McKinsey. Want dat incident maakt het onderscheid pijnlijk concreet. Kijk, McKinsey bouwde Lilli. Een intern AI-platform dat zij sinds 2023 gebruiken. Het heeft een hele hoge adoptiegraad. Ze verwerken een half miljoen prompts per maand. En de consultants vertrouwen dat systeem behoorlijk, of volledig zou je kunnen zeggen. Daarin deelden ze dan strategische analyses en uploaden vertrouwelijke klantdocumenten. Dat is dan het relationele vertrouwen. En het is logisch. Want McKinsey is een van de meest geavanceerde organisaties ter wereld, zou je kunnen zeggen. Maar op de infrastructuurlaag, technisch vertrouwen, daar zat een gat. Er waren 200 API-eindpunten. Dat zijn dus punten waar de programma's en agents dat kunnen gebruiken, geprogrammeerd kunnen gebruiken. En 22 daarvan waren dus zonder authenticatie. En één daarvan verwerkte de zoekopdrachten van gebruikers en plakte de invoer rechtstreeks in zo'n SQL-query zonder controle. En dat is het equivalent van een ultramodern kantoor met gezichtsherkenning bij de hoofdingang, pasjes, alles. Je kent het wel als je ergens binnen moet komen. Maar met een achterdeur die gewoon niet op een kier staat, maar wagenwijd open staat. De consultants die in het gebouw werken, voelden zich veilig. Ze vertrouwden het systeem. Maar dat vertrouwen was gebouwd op een fundament met een scheur, zou je kunnen zeggen. En dan komt het meest verontrustende detail. De AI-agent die het systeem kraakte, was namelijk autonoom. Dus geen mens achter het stuur. De agent vond de kwetsbaarheden zelf, koos zelf zijn aanvalsroute en werkte zelfstandig toe naar de productiedatabase. En de CEO van CodeWall, dat is dan degene van die startup die dit gemaakt heeft, Paul Price. Die zei het zo. De agent werkt volledig autonoom. Vanaf research tot het doel en het analyseren, aanvallen, rapporten genereren, alles deed hij zelf. En waarschuwde: kwaadwillenden zullen dit niet netjes melden. Zij hebben dit netjes gemeld als organisatie. Maar zegt terecht, kwaadwillenden zullen dit natuurlijk niet doen. Die gaan voor financiële chantage, ransomware, noem alles maar op. En de systeemprompts, de instructies die bepalen hoe Lilli zich gedraagt, stonden in diezelfde kwetsbare database. Overschrijfbaar met één enkel commando. Dit is precies de reden waarom het onderscheid tussen technisch en relationeel vertrouwen niet theoretisch is. Het is praktisch. Wanneer AI-agents zowel je verdediging als je aanvallers zijn, is de infrastructuurlaag geen bijzaak meer. In mijn boek gebruik ik voor sommige delen een orkest als metafoor voor de mens-machinesamenwerking. Laat me daar dan een laag aan toevoegen die deze paradox in zekere zin oplost. Een orkest speelt in een concertzaal en die zaal is gebouwd volgens strikte bouwnormen: brandveiligheid, nooduitgangen, constructieve integriteit, alles. En geen van die normen is gebaseerd op vertrouwen. Ze zijn gebaseerd op wantrouwen. Het gebouw gaat ervan uit dat er brand kan uitbreken, dat de constructie kan falen en dat bezoekers in paniek kunnen raken. 100 Maar de muzikanten op het podium vertrouwen elkaar volledig. 101 Ze luisteren, anticiperen, geven en nemen ruimte in. 102 En niemand ervaart dat als tegenstelling. 103 En niemand zegt: hoe kunnen muzici elkaar vertrouwen in een gebouw dat ontworpen is vanuit wantrouwen. 104 Het antwoord is vanzelfsprekend. 105 Het is juist omdat het gebouw veilig is, kunnen de muzici zich richten op de muziek. 106 Bij McKinsey stond het gebouw in brand terwijl het orkest speelde. 107 Hoe voorkom je nou wat McKinsey is overkomen? 108 Dat kun je doen door bewust drie lagen te ontwerpen die elke eigen vertrouwenslogica volgen. 109 Laag 1, de infrastructuurlaag. 110 Dus hier geldt zero trust zonder compromis. 111 Elke API-call wordt geverifieerd, elke agentactie wordt gelogd, authenticaties verlopen, rechten worden per sessie toegekend en zijn niet permanent. 112 Laag 2, de transparantielaag. 113 Deze laag maakt zichtbaar wat de agent doet en waarom. 114 Niet in technische logs, maar in begrijpelijke taal voor de gebruiker. 115 Je krijgt dus ook automatisch meldingen als er gedrag plaatsvindt wat niet hoort. 116 Dit kan je gewoon automatiseren. 117 Laag 3, dat is de samenwerkingslaag. 118 Hier geldt die relationele vertrouwen. 119 De medewerker leert wanneer de agent betrouwbaar is en wanneer niet. 120 De agent krijgt dan geleidelijk meer autonomie. 121 Maar de mens kan dan wel ingrijpen. 122 Deze drie lagen zijn op elkaar gestapeld. 123 Dus laag 3 kan niet functioneren zonder laag 2, en laag 2 kan niet functioneren zonder laag 1. 124 Nou, we hebben het gehad over de paradox tussen wantrouwen zero trust en vertrouwen. 125 Maar ja, uiteindelijk is dat helemaal geen tegenstelling. 126 Maar McKinsey liet zien wat er gebeurt als je het gebouw verwaarloost. 127 Kijk deze week eens naar je eigen AI-implementaties. 128 Dan niet naar de samenwerkingslaag. 129 Die voelt waarschijnlijk wel goed. 130 Maar kijk eens naar die infrastructuurlaag. 131 Zijn al je API-eindpunten geauthenticeerd, worden agentacties gelogd verlopen authenticaties automatisch. 132 Consultants van McKinsey vertrouwden Lilli en dat is terecht. 133 Maar het gebouw waarin Lilli woonde had een achterdeur die op een kier stond. 134 En een autonome agent vond die deur binnen twee uur. 135 Wil je meer hierover lezen? 136 Je vindt de links in de shownotes. 137 En bedenk zoals altijd: AI is niet de oplossing voor elk probleem, onmisbaar waar het past. 138 Tot de volgende keer.