Wat leer je in deze aflevering?
Deze korte aflevering bespreekt hoe grote taalmodellen (LLMs) van bekende aanbieders presteren ten opzichte van de EU AI Act. Op basis van onderzoek van Stanford University worden OpenAI, Google, Meta en Hugging Face beoordeeld op 12 categorieën van verplichtingen uit de wetgeving.
Kernbegrippen
- EU AI Act
- Europese regelgeving die verplichtingen stelt aan ontwikkelaars van grote taalmodellen op transparantie, veiligheid en auteursrechten.
- Transparantie over trainingsdata
- Het openbaar maken van bronnen en datasets waarmee een taalmodel is getraind.
- Auteursrechtinbreuk
- Ongeautoriseerd gebruik van beschermd creatief werk in trainingsgegevens van AI-modellen.
- Energieverbruik
- De hoeveelheid elektriciteit die nodig is voor het trainen en uitvoeren van grote taalmodellen.
- Risicobestrijding
- Maatregelen tegen discriminatie, bias en illegale inhoud in AI-systemen.
Transcript
Dit is AIToday Live Shorts met de actualiteit van AI in 5 minuten. Met in deze aflevering in hoeverre de taalmodellen van grote leveranciers in overeenstemming zijn met de EU AI Act. Vorige week heb ik het gehad over de algemene impact van de aangenomen wettext door het Europees Parlement. Vandaag wil ik juist ingaan op de aanbieders van large language models en hoe zij momenteel nu wel of niet voldoen aan de voorgestelde wet. Grote taalmodellen zullen als hoog risico worden beschouwd en daarom moeten aanbieders van deze modellen mogelijke risico's beoordelen en beperken. Het niet naleven van deze verplichtingen kan leiden tot hoge boetes. Dit zijn slechts enkele van de verplichtingen die voortvloeien uit het aangenomen voorstel voor Large Language Models. Wat interessant is, is dat onderzoekers van Stanford University die hebben die wettekst hebben ze doorgespit en hebben daar 12 categorieën uit geïdentificeerd van verplichtingen die van toepassing zijn juist op large language models. Laten we naar de vier belangrijkste aanbieders kijken en dat zijn OpenAI in combinatie met Microsoft, Google, Meta en Hugging Face. En ik pak vier onderscheidende categorieën eruit om daar dieper naar te kijken. Aan het eind kijken we naar de aanbieder en model die het best voltoet aan de AI Act. Dus wie is de nummer 1? Blijf We beginnen met de categorie databronnen. Meta en Hugging Face scoren de volle 5 van de 5 punten. Zij zijn open over hun databronnen. Open AI scoort hier het laagst met slechts 1 punt omdat zij niet transparant zijn over hun data. Wat betreft het trainen op auteursrechtelijk beschermd materiaal krijgt alleen Hugging Face 4 punten. De overige leveranciers moeten hier nog grote stappen maken aangezien hun modellen hoogstwaarschijnlijk data bevatten waarop auteursrecht rust. de rust. Hoogstwaarschijnlijk, ik denk wel, bijna wel zeker. En de Washington Post die heeft namelijk gekeken naar Google's C4 dataset en dat is een dataset met erin een snapshot van de inhoud van zo'n 15 miljoen websites en waarschijnlijk hebben deze taalmodellen er allemaal gebruik van gemaakt. gemaakt. En heel hoog op deze lijst staat een website waar illegale boeken op staan. Dus de kans is heel groot dat er is getraind op al het content van deze illegale boeken. Sterker nog, bij het analyseren zag de Washington Post ook dat het copyright teken zo'n 200 miljoen keer voorkwam in die C4 dataset. Het energieverbruik is ook een belangrijk aspect. Hier hebben OpenAI en Google vooral grote uitdagingen. Zij scoren echt slecht op dit gebied, terwijl Meta en Hugging Face hier goed scoren, blijkbaar uit het onderzoek van Stanford. De laatste categorie voor vandaag is risicobestrijding. De leveranciers dienen de risico's te identificeren die redelijke wijze te voorzien zijn en daarop dan passende maatregelen te nemen om deze risico's te beperken en de maatregelen te documenteren. Meta scoort hier het laagst met heel opvallend slechts één punt en vooral gezien het feit dat het verminderen van discriminatie en het voorkomen van illegale content belangrijke aspecten in de wet zo direct zijn. Meta heeft duidelijk nog een inhaalslag te maken op dit gebied. In een bedrijfsmatige setting zal dit wat mij betreft een enorm probleem zijn. Er zullen altijd risico's verbonden zijn aan het gebruik van de uitkomsten van large language models, maar deze moeten wel, deze risico's moeten wel aanvaardbaar en beheersbaar zijn. En zoals Meta nu scoort, hoei! Laten we alles bij elkaar optellen en eens kijken wie is er nu de nummer 1. Wie heeft de meeste overeenstemming met de AI-act? We gaan van plek 4 naar nummer 1. Als we naar de Als we naar de totaalscoren kijken, scoort Meta met een model Lama, het laagst, namelijk 21 van de maximaal 48 punten. Ze staan het verst af van het voldoen aan de EU-act. Text. Net daarboven eindigt OpenAI's ChadGPT met 4 punten meer, namelijk 25 punten. OpenAI scoort vooral slecht op het gebied van energieverbruik en het beschermen van auteursrechten. Op de tweede plaats met bijna dezelfde uitdaging op het gebied van energieverbruik en auteursrechten vinden we Google's PAM 2 met 27 punten. De duidelijke nummer 1 die momenteel het meest in overeenstemming is met de AI Act is Huggings Face Blue. Zij behalen 36 punten van de maximale 48. Dit komt vooral door het open karakter van hun oplossing waarbij duidelijk wordt aangegeven welke data is gebruikt. Belangrijk is om te weten dat de wet na verwachting pas in 2026 van kracht zal gaan. Het is echter van belang om je nu alvast voor te bereiden op deze wetgeving. Voor meer details en het volledige rapport verwijs ik graag naar de show notes en links die ik beschikbaar zal stellen in de beschrijving van deze podcast aflevering. Hopelijk ben je heel veel wijzer geworden. Vergeet je niet te abonneren via je favoriete podcast app en mis geen aflevering. Dankjewel! [Muziek]