Spring naar bijdragen

  • Nadere verklaring over brein actie tegen GEITje

     Delen


    LLM Offline Gehaald Onder Druk van Anti-Piraterijgroep

    GEITje-7B-LLM-Banned-775x436.jpgDe inzet van auteursrechtelijk beschermd materiaal voor het trainen van grote taalmodellen (LLM's) heeft geleid tot juridische geschillen en verwijderverzoeken. In Nederland heeft de anti-piraterijorganisatie BREIN de eer om de populaire 'GEITje' LLM offline te hebben gehaald, die gedeeltelijk was getraind op auteursrechtelijke teksten. De ontwikkelaar stond niet noodzakelijkerwijs achter de acties van BREIN, maar had simpelweg niet de middelen om zich te verzetten.

    De Voortgang van AI

    De ontwikkeling van kunstmatige intelligentie (AI) gaat razendsnel. Dit omvat ook de voortgang van grote taalmodellen (LLM's), die doorgaans worden getraind op uitgebreide datasets van teksten. Deze technologieën beloven ongekende vooruitgang die de samenleving als geheel ten goede kan komen. Ondanks het breed erkende potentieel blijven er echter aanzienlijke zorgen bestaan.

    Het is inmiddels algemeen bekend dat veel LLM's zijn getraind op datasets die auteursrechtelijk beschermd materiaal bevatten. Dit heeft geleid tot talloze klachten en spraakmakende rechtszaken, waarbij bedrijven zoals OpenAI, Google, Meta, Microsoft en NVIDIA worden beschuldigd van schending van auteursrechten. De rechtbanken zullen uiteindelijk bepalen of rechthebbenden legitieme auteursrechtclaims hebben, of dat technologiebedrijven zich kunnen beroepen op een ‘fair use’-verdediging. Het kan jaren duren voordat er een definitieve uitspraak komt, en tot die tijd doen rechthebbenden er alles aan om toekomstige inbreuken te voorkomen.

    Books3 en de Reactie van de Rechthebbendengoat-geitje-300x300.jpg.webp

    De Books3-dataset, die werd gebruikt om vele populaire LLM's te trainen, trok aanvankelijk veel aandacht. Deze dataset werd in 2020 samengesteld door AI-onderzoeker Shawn Presser, met behulp van de bibliotheek van de ‘pirate’ site Bibliotik. Books3 werd wijdverspreid online gedeeld en opgenomen in andere databases, waaronder ‘The Pile,’ een AI-trainingsdataset samengesteld door EleutherAI. Deze praktijk bleef jarenlang grotendeels onbetwist, maar toen AI mainstream werd, stegen de auteursrechtklachten aanzienlijk.

    Door druk van rechthebbenden en anti-piraterijgroepen werd Books3 van verschillende online platforms verwijderd vanwege auteursrechtelijke bezorgdheid. De Deense anti-piraterijgroep Rights Alliance leidde verschillende van deze verwijderacties en beschreef inbreuken op het gebied van AI als een groot probleem. "We hebben een grote taak voor ons in het opsporen en verwijderen van illegale trainingsdatasets zoals Books3, maar ook in het omgaan met AI die al is getraind op illegale inhoud en nu op het internet wordt verspreid," aldus Maria Fredenslund, directeur van Rights Alliance.

    De Strijd Tegen Inbreuk

    In de maanden die volgden, bleven de verwijderinspanningen aanhouden. Deze inspanningen breidden zich niet alleen uit naar datasets die volledige boeken bevatten, maar richtten zich ook op de modellen die op deze data waren getraind. De Nederlandse anti-piraterijgroep BREIN heeft zich actief ingezet op dit front en maakte bekend dat als gevolg van hun inspanningen een van de grootste Nederlandse LLM's, ‘GEITje-7B’, offline is gehaald.

    Dit LLM was getraind op ‘Gigacorpus’, een dataset van boeken en teksten die eerder door BREIN was aangepakt, inclusief een uitgebreide collectie Nederlandse teksten en boeken, waarvan sommige auteursrechtelijk beschermd materiaal bevatten afkomstig van de schaduwbibliotheek LibGen. "We zien een wereldwijde trend dat makers van AI-modellen weinig of geen respect hebben voor auteursrechten," schrijft BREIN. "Blijkbaar wordt gedacht dat alle aandacht, tijd en geld die in auteursrechtelijk beschermde werken zijn gestoken door makers en media bedrijven minder belangrijk zijn dan de AI-modellen."

    De Verdediging van de Ontwikkelaar

    In hun verdediging citeerde de ontwikkelaar van de LLM auteursrechtelijke uitzonderingen voor tekst- en datamining voor wetenschappelijke doeleinden. BREIN daarentegen stelde dat de Europese AI-wetgeving vereist dat alleen wettelijk verkregen inhoud als input voor AI-modellen wordt gebruikt. Deze onenigheid werd echter niet in de rechtbank getest, aangezien de ontwikkelaars van de LLM niet de middelen hadden om de zaak juridisch aan te vechten. Daarom besloten ze GEITje vrijwillig offline te halen.

    Vrijwillige Stopzetting

    Machine learning-engineer Edwin Rijgersberg ontwikkelde de GEITje LLM als hobby. Hoewel het model met 7 miljard parameters behoorlijk populair werd, was hij niet in staat om een juridische strijd aan te gaan. Rijgersberg raadpleegde eerder auteursrecht-experts die hem vertelden dat de kwestie niet zo zwart-wit was als door sommige rechthebbenden werd voorgesteld. Desondanks zou een juridische strijd kostbaar zijn. "Ik kan het me niet veroorloven om me in een langdurige en kostbare juridische strijd te storten om deze kwesties op te lossen. Uiteindelijk was GEITje een niet-commercieel, wetenschappelijk hobbyproject. Om deze reden volg ik het verzoek van BREIN op," aldus Rijgersberg.

    De Toekomst van GEITje

    Hoewel BREIN het belang van auteursrechten benadrukt, heeft de ontwikkelaar van GEITje nog steeds hoop voor een open-source AI-landschap in de Nederlandse taal. "Naar mijn mening ligt de toekomst van Europese AI in open-source AI. Pas wanneer AI vrij te gebruiken is, door iedereen kan worden bestudeerd en vrij beschikbaar is om te modificeren en te delen voor elk doel, kunnen we echt spreken van soevereine AI."

    Hoewel GEITje niet zal terugkeren, benadrukt Rijgersberg dat er nu veel andere Nederlandse LLM's beschikbaar zijn voor het publiek. Deze modellen zijn getraind op verschillende datasets, die al dan niet auteursrechtelijk beschermd materiaal bevatten.



    Eater
     Delen


    Terugkoppeling

    Aanbevolen reactie



    Doe je mee?

    Je kunt nu een bericht plaatsen en je later registeren. Als je al een account hebt, kun je je hier aanmelden.
    Note: Your post will require moderator approval before it will be visible.

    Gast
    Voeg een reactie toe...

    ×   Je hebt opgemaakte inhoud geplakt.   Opmaak verwijderen

      Only 75 emoji are allowed.

    ×   Jouw link is automatisch embedded.   Toon als een normale link

    ×   Je vorige inhoud is hersteld.   Schoon editor

    ×   You cannot paste images directly. Upload or insert images from URL.


Mededelingen

×
×
  • Nieuwe aanmaken...