Alle afleveringen
S07E10 - Meta: geef me al je data, want anders ...
S07E10

Meta: geef me al je data, want anders ...

Seizoen 7 11 min Hosts: Joop Snijder & Niels Naglé
0:00

Wat leer je in deze aflevering?

In de nieuwste aflevering van AI Today Live staat Meta's strategie voor dataverzameling centraal. Het bedrijf stelt zijn geavanceerde taalmodel Llama open source beschikbaar, ogenschijnlijk een genereus gebaar.

Achter deze vrijgevigheid schuilt echter een verborgen agenda gericht op het verzamelen van meer data. Meta's chief AI scientist Jan LeChun pleit voor het breed delen van culturele content voor AI-training.

Deze benadering roept vragen op over privacy en de motieven van techbedrijven. De podcast belicht kritisch hoe Meta's strategie past in een breder patroon van probleemcreatie en zelfpresentatie als oplossing.

01
Meta's strategie voor dataverzameling
02
Open source taalmodel Llama
03
Kritische benadering van gratis technologie
04
Europa's positie in AI-ontwikkeling

Kernbegrippen

Dataverzameling
Het systematisch inzamelen van grote hoeveelheden informatie, vaak onder het voorkomen van innovatie of maatschappelijk nut.
Trojaans paard
Een strategie waarbij gratis of aantrekkelijke technologie wordt aangeboden om vervolgens toegang tot waardevolle data of systemen te verkrijgen.
Verantwoorde AI
AI-ontwikkeling die rekening houdt met ethische principes, privacybescherming en fundamentele rechten van gebruikers.
Datakwaliteit
Het belang van nauwkeurigheid, relevantie en diversiteit van data boven louter kwantitatieve omvang voor betrouwbare AI-modellen.

Wat er gezegd wordt

Ik heb een hekel aan dit bedrijf. [...] Het is een bedrijf dat wat mij betreft een dubieuze reputatie heeft opgebouwd.

Joop Snijder

Het gaat niet om wie de meeste data heeft, maar om wie die data het meest verantwoord inzet.

Joop Snijder

Transcript

Hoi, welkom bij een korte aflevering van AIToday Live. Mijn naam is Joop Snijder, CTO bij Aigency. En vandaag duiken we in een ontwikkeling die me zorgen baart. Namelijk Meta's slimme, maar verontrustende strategie om nog meer data te verzamelen. En ze doen dit onder het mom van innovatie en vooruitgang. Maar er zit ook een addertje onder het gras. In deze aflevering leg ik uit waarom we hier kritisch naar moeten kijken. Nou, laat ik beginnen met volledige transparantie. Ik ben bevooroordeeld als het gaat om Meta, Facebook. Sterker nog, ik heb een hekel aan dit bedrijf. En dat zijn woorden die ik niet snel gebruik. Het is een bedrijf dat wat mij betreft een dubieuze reputatie heeft opgebouwd. Door mensen verslaafd te maken aan social media. Desinformatie te verspreiden en democratieën te ontwrichten. Zoals bijvoorbeeld met het Cambridge Analytica schandaal. En het meest storende vind ik nog wel dat ze consequent weigeren hier verantwoordelijkheid voor te nemen. Er zijn altijd wel excuses waarom zij er niets aan kunnen doen. Zo, dat is eruit. Nou, wat me recent opvalt is Meta's sterke lobby voor het verkrijgen van nog meer data voor het trainen van een taalmodel. Ze verpakken dit slim in een verhaal over het belang voor de mensheid, voor Europa en voor jou persoonlijk. En ze koppelen er zelfs een dreiging aan. Als we deze data niet delen, lopen we onherroepelijk achter. Hun strategie is uitgekiend. Ze hebben een succesvol taalmodel ontwikkeld, namelijk LAMA. Dat ze gratis als open source beschikbaar stellen. Nou, en op het eerste gezicht de nobele data. Ze gaan niet de commerciële strijd aan met partijen als OpenAI of Entropic, maar delen hun kennis met de wereld. Jan LeChun, een chief AI scientist, verwoordt het zo op social media. Elke instelling, bibliotheek, stichting, culturele groep en overheid ter wereld die culturele content bezit, zou deze beschikbaar moeten stellen voor het trainen van vrije en open AI-modellen. En deze uitspraak van LeChun is veelzeggend. Hij presenteert het alsof het delen van data een soort van morele plicht is, menselijke bijdrage aan het collectieve menselijke erfgoed. Maar dit is dezelfde retoriek die we steeds van Meta horen. Ze maken iets wat commercieel is tot iets dat zogenaamd voor het algemeen belang is. En ze gaan nog een stap verder. Want naast deze morele druk om data te delen, zien we nog een andere tactiek opkomen die we steeds vaker zien. En niet alleen van Meta, maar van alle grote techbedrijven. Is het dreigen dat de nieuwste modellen niet beschikbaar komen voor de Europese markt. Het is een argument dat bedoeld is om ons bang te maken, maar laten we dit eens kritisch bekijken. Ja, het klopt dat we in Europa vaak wat later aan de beurt zijn bij de introductie van nieuwe AI-technologie. De advanced voice mode van ChatGPT kwam later beschikbaar. Apples AI intelligence laat nog even op zich wachten. En ongetwijfeld volgen er meer voorbeelden. Maar laten we eerlijk zijn, tot nu toe betekende dit meestal een vertraging van hooguit enkele weken, maanden. En in die tussenliggende periode heb ik geen baanbrekende innovaties of diensten gemist die het argument van onherroepelijke achterstand rechtvaardigen. Sterker nog, ik ben juist trots op hoe Europa haar waarden verdedigt en vastlegt in wetgeving waar big tech zich aan moet houden. Als deze bedrijven niet kunnen of willen voldoen aan de bescherming van onze fundamentele rechten, dan zegt dat meer over hun bedrijfsmodel dan over onze regelgeving. Het is een bewuste keuze van Europa om niet klakkeloos mee te gaan in de move fast and break things mentaliteit die we zo vaak zien in Silicon Valley. En dit brengt me terug bij Meta's open source strategie. Want wat ze eigenlijk zeggen is, geef ons je data, anders loop je achter. Maar achterop wat precies? Op het vermogen om nog gerichtere advertenties te tonen, om nog meer tijd door te brengen op social media platforms, of om nog meer persoonlijke informatie te verzamelen onder het mom van innovatie. En we moeten ons realiseren dat Meta's vraag om data niet voortkomt uit altruïsme of zorg om Europese innovatie. Het komt voort uit een fundamentele bedrijfsmodel. Hoe meer ze over ons weten, hoe beter ze ons kunnen targeten met advertenties, hoe meer winst ze meten te maken. Het gratis beschikbaar stellen van Lama is geen cadeau. Het is een investering in hun eigen toekomst. Maar waarom zou een commercieel Meta bedrijf toch een model gratis aan onze beschikbaar stellen? Ten eerste gebruiken ze het model zelf. Daar zijn ze open over. De feedback die ze krijgen helpt bij het verbeteren van hun diensten. Maar er zit meer achter. Dit is in essentie, vind ik, een Trojaans paard. Meta gebruikt het open source argument om hun onverzadigbare honger naar data te legitimeren. Des te meer data ze hebben, des te beter ze ons gedrag kunnen voorspellen en beïnvloeden. Het patroon dat we hier zien is typerend hoe grote techbedrijven opereren. Ze creëren eerst een probleem. In dit geval een vermeende innovatieachterstand. Om vervolgens zichzelf als de oplossing te presenteren. Het is een bekende marketingstrategie. Maar in dit geval staat er veel meer op het spel dan alleen commercieel succes. Wat Meta's strategie zo verontrustend maakt is de schaal waarop ze opereren. Door hun taalmodel open source aan te bieden, positioneren ze zichzelf als de goede partij die democratiseert en deelt. Maar ondertussen bouwen ze aan een infrastructuur waarbij ze toegang krijgen tot ongekende hoeveelheid data van culturele instellingen zoals ze willen, bibliotheken, alles wat gezegd wordt. Maar ook dus andere organisaties die allemaal onder druk worden gezet om zogenaamd mee te doen aan innovatie. We moeten ons ook afvragen wat er gebeurt met al die data die wordt verzameld. En Meta heeft een historie van datamisbruik die we niet mogen vergeten. Het Cambridge Analytica schandaal was geen incident, maar het was een symptoom van een bedrijfscultuur die data ziet als handelswaar en niet als iets wat beschermd moet worden. Wat mij betreft weet je is het niet de vraag in Europa of we willen innoveren, maar hoe we dat willen doen. En laten we daar eens goed naar kijken, want Europa loopt juist voorop als het gaat om verantwoorde AI. Terwijl andere regio's zich blind staren op snelheid en schaal, kiezen wij voor een doordachte aanpak waarbij ethiek en innovatie hand in hand gaan. We zien dit terug in de opkomst van Europese AI bedrijven zoals bijvoorbeeld Mistral AI. Die bewijst dat je ook zonder massale dataverzameling echt wel vooruit kan boeken. Maar nog belangrijker is onze wetenschappelijke bijdrage aan het veld van verantwoorde AI. Op universiteiten door heel Europa wordt baanbrekend onderzoek gedaan naar fairness in AI, naar privacy behoudende technieken en naar manieren om AI systemen transparanter en verklaarbaar te maken. En laten we eerlijk zijn over dat meer data is beter argument dat we steeds horen. Het is een oversimplificatie die voorbij gaat aan waar het echt om gaat. Meer data betekent niet automatisch betere resultaten. Het gaat om de kwaliteit, de diversiteit en de representativiteit van die data. Het is als koken en meer ingrediënten maken niet automatisch een beter gerecht. Het gaat om de juiste ingrediënten, zorgvuldig geselecteerd en met aandacht bereid. Sterker nog, teveel data kan zelfs contraproductief zijn. Het kan modellen zo complex maken dat ze moeilijk nog te begrijpen zijn of te controleren. En dit zijn precies de uitdagingen waar Europees onderzoek zich op richt. Hoe bouwen we AI systemen die niet alleen krachtig zijn, maar ook betrouwbaar, eerlijk en transparant. Europas kracht ligt niet in het blind verzamelen van zoveel mogelijk data, maar in het slim en verantwoord ontwikkelen van AI technologie die werkt voor iedereen. Onze waarden zijn geen beperking, ze zijn juist onze grootste innovatiekracht. En innovatie is belangrijk, maar niet tegen elke prijs. Als we niet oppassen, ruilen we onze druk van angst voor achterlopen, onze data soevereiniteit in voor een korte termijn voordeel. En we moeten het grotere plaatje zien. Dit gaat niet alleen om AI modellen of innovatie, dit gaat om de vraag wie er controle heeft over onze digitale toekomst. Dus laten we niet in de gladde lobbypraatjes van Meta trappen. Ja, het beschikbaar stellen van Lama als open source model is waardevol voor de AI community. Kijk, ik ben daar zeker niet op tegen. Het stelt ontwikkelaars en onderzoekers in staat om te experimenteren en te innoveren en dat is positief. Maar laten we wel nuchter blijven. Medita is niet plotseling getransformeerd tot een altruïstisch bedrijf dat ons welzijn vooropstelt. Het blijft een commerciële gigant die primair winst nastreeft en data ziet als handelswaar. Een strategie is subtiel, maar duidelijk. Ze gebruiken open source als lokkertje om toegang te krijgen tot nog meer data. Het is als een café dat gratis drankjes uitdeelt, niet omdat ze zo vrijgevig zijn, maar omdat ze willen dat je blijft hangen en meer gaat bestellen. En Medita's bedrijfsmodel is niet veranderd. Ze zijn nog steeds uit op jou en mijn data. Alleen de verpakking is anders. Dus daarmee roep ik alle organisaties op die overwegen hun data te delen met Medita om eerst drie cruciale vragen te stellen. Wat gebeurt er echt met deze data? Welke garanties zijn er voor verantwoord gebruik? En vooral is deze uitruil, onze data voor hun model, wel zo eerlijk als het lijkt. Gebruik het taalmodel Lama gerust als het waardevol is voor jouw doeleinden, natuurlijk. Maar wees je vooral bewust van de bredere context. Laten we het gesprek hierover aangaan, niet vanuit de angst voor wat we missen, maar vanuit een heldere visie op wat we willen bereiken. Want uiteindelijk gaat het niet om wie de meeste data heeft, maar om wie die data het meest verantwoord inzet. Dit was AIToday Live. Dankjewel weer voor het luisteren. Tot de volgende keer! [Muziek]