BREIN Haalt Groot AI Taalmodel Offline
Afgelopen week heeft BREIN een belangrijk Nederlands generatief AI-taalmodel, genaamd GEITje-7B, van het internet gehaald. Dit model was getraind op de grootste Nederlandstalige trainingsdataset, die BREIN eerder deze zomer al offline heeft gehaald. De reden voor deze actie is de illegale oorsprong van de data waarop het model was getraind, met name tienduizenden kopieën van Nederlandstalige boeken afkomstig uit illegale bronnen zoals Library Genesis. Deze dienst is door de Nederlandse rechter als onrechtmatig beoordeeld en wordt, op verzoek van BREIN, geblokkeerd door Nederlandse internetproviders. Daarnaast is het model ook getraind op teksten die zonder toestemming van nieuwssites zijn gekopieerd.
Wereldwijd zien we een zorgwekkende trend waarbij ontwikkelaars van AI-modellen weinig tot geen respect tonen voor auteursrechten. Het lijkt erop dat de aanzienlijke investeringen van makers en media in auteursrechtelijk beschermde werken als minder belangrijk worden beschouwd in vergelijking met de ontwikkeling van AI-modellen. Of het nu gaat om muziek, teksten, foto’s of video’s, het internet wordt zonder toestemming gekopieerd om generatieve AI-modellen te trainen, zonder dat de oorspronkelijke makers en rechthebbenden daarvoor worden gecompenseerd. Dit is een ernstige kwestie die dringend moet worden aangepakt.
BREIN is niet tegen het trainen van AI, maar benadrukt dat de auteurs van muziek, boeken en andere creatieve werken een eerlijke vergoeding verdienen. Bovendien moet het recht van de oorspronkelijke makers om te bepalen of hun materiaal voor AI-training mag worden gebruikt, gerespecteerd worden.
Een verweer van de aanbieder van het offline gehaald model was dat tekst- en datamining voor wetenschappelijke doeleinden is toegestaan en dat het model door wetenschappers wordt gebruikt. Echter, het model werd ook publiekelijk aangeboden voor commercieel gebruik op Huggingface.co, een platform voor AI-ontwikkelaars. De AI Act stelt dat wetenschappers rechtmatige toegang moeten hebben tot materialen voor tekst- en datamining, maar dit is niet het geval wanneer het trainen van een model gebeurt met evident illegale bronnen.
In de Verenigde Staten zijn er al tientallen rechtszaken aangespannen tegen aanbieders van AI-modellen, en ook in Europa beginnen de eerste zaken voor de rechter te komen. Het besef dat auteursrecht gerespecteerd moet worden, begint langzaam door te dringen, en we zien de eerste licentieafspraken ontstaan, zoals die tussen OpenAI en de Financial Times, en recentelijk ook een voorlopige overeenkomst tussen grote muziekmaatschappijen en Claude AI.
Uiteindelijk is het van cruciaal belang dat de technologiesector zich aan de wet houdt en auteursrechten respecteert. Makers en producenten moeten een eerlijke boterham kunnen verdienen, en (big) tech moet voor het gebruik van andermans materiaal gewoon betalen, net zoals ieder ander. Dit is de boodschap van BREIN-directeur Bastiaan van Ramshorst.