
Is DeepSeek's AI een nieuwe tweedehands versie van ChatGPT? Een "unanimous jury" concludeert dat de AI-gegenereerde teksten 74% overeenkomen met de modellen van OpenAI
Een recent onderzoek onthult dat de AI-gegenereerde inhoud van DeepSeek in maar liefst 74,2% van de gevallen lijkt op de schrijfstijl van OpenAI's modellen, waaronder ChatGPT. Heeft het Chinese bedrijf gebruikgemaakt van distillatie om de trainingskosten te verlagen?
DeepSeek's Opkomst in de AI-wereld
De Chinese AI-startup DeepSeek heeft dit jaar de AI-scene veroverd met zijn uiterst kosteneffectieve AI-model, aangedreven door R1 V3. Dit heeft geleid tot bezorgdheid onder investeerders, vooral nadat het bedrijf OpenAI's o1 redeneermodel op verschillende benchmarks, waaronder wiskunde, wetenschap en codering, overtrof tegen een fractie van de kosten. Terwijl DeepSeek beweert ongeveer $6 miljoen te hebben besteed aan de training van zijn model, suggereren meerdere rapporten dat het bedrijf mogelijk inbreuk heeft gemaakt op auteursrechten door gebruik te maken van inhoud van Microsoft en OpenAI om zijn model te trainen.
Een ander rapport beweert dat de startup tot $1,6 miljard heeft uitgegeven aan hardware, waaronder 50.000 NVIDIA Hopper GPU's. OpenAI heeft een klacht ingediend, waarin wordt gesteld dat DeepSeek de modellen van OpenAI heeft gebruikt om zijn kosteneffectieve AI-model te trainen. De maker van ChatGPT beweert dat DeepSeek "distillatie" heeft toegepast bij de training van zijn R1-model. Dit proces houdt in dat een bedrijf, in dit geval DeepSeek, de output van bestaande modellen (zoals die van OpenAI) gebruikt om een nieuw model te trainen. Op deze manier worden de exorbitante kosten voor de ontwikkeling en training van een AI-model aanzienlijk verlaagd. De beschuldigingen van OpenAI lijken dus enige grond te hebben.
Onderzoek naar de Overeenkomsten
Een nieuw onderzoek van het AI-detectiebedrijf Copyleaks onthult dat de AI-gegenereerde output van DeepSeek sterk lijkt op die van OpenAI's ChatGPT. De bevindingen van het onderzoek wijzen op een zorgwekkende 74,2% overeenkomst. Heeft DeepSeek zijn AI-model getraind met gebruik van auteursrechtelijk beschermde inhoud van OpenAI? De tekenen wijzen in die richting.
Copyleaks maakt gebruik van screeningstechnologie en algoritmische classifiers om teksten te identificeren die door AI-modellen zijn gegenereerd. Voor dit specifieke onderzoek stemden de classifiers unaniem dat de output van DeepSeek was gegenereerd met behulp van OpenAI-modellen. Shai Nisan, hoofd datawetenschap bij Copyleaks, verklaarde: "Ons onderzoek maakte gebruik van een 'unanimous jury'-benadering en identificeerde een sterke stilistische overeenkomst tussen DeepSeek en de modellen van OpenAI, die niet werd aangetroffen bij andere onderzochte modellen."
Vragen over Transparantie en Ontwikkeling
Terwijl investeerders zich zorgen maakten over de grote bedragen die in de ontwikkeling en training van AI-modellen zijn geïnvesteerd, roept de uitkomst van het onderzoek vragen op over de training en ontwikkeling van DeepSeek's AI-model en of de aanpak werkelijk kosteneffectief was. Nisan benadrukte: "Hoewel deze overeenkomst niet definitief bewijst dat DeepSeek een afgeleide is, roept het wel vragen op over de ontwikkeling ervan. Ons onderzoek richt zich specifiek op schrijfstijl; binnen dat domein is de overeenkomst met OpenAI significant. Gezien de marktpositie van OpenAI, suggereren onze bevindingen dat verder onderzoek naar de architectuur, trainingsdata en ontwikkelingsprocessen van DeepSeek noodzakelijk is."
Wat Nu voor DeepSeek?
Wat gebeurt er met DeepSeek als het wordt beschuldigd van inbreuk op auteursrechten? Terwijl de bevindingen van het onderzoek suggereren dat de AI-gegenereerde teksten van DeepSeek 74,2% overeenkomen met die van OpenAI's ChatGPT, sluit dit niet uit dat het AI-model een exacte kopie is. Echter, het kan wel leiden tot juridische problemen voor de AI-startup, met kwesties rondom intellectuele eigendomsrechten en auteursrechtschendingen.
Dat DeepSeek niet expliciet heeft aangegeven dat het OpenAI-modellen heeft gebruikt voor de training van zijn model, verergert de situatie, met aanzienlijke juridische en financiële gevolgen. Volgens de hoofd datawetenschap van Copyleaks: "Het onderzoek suggereert sterk dat transparantie en sterke bescherming van intellectuele eigendomsrechten cruciaal zijn voor de toekomst van AI-ontwikkeling en -regulering. Regelgevers zullen waarschijnlijk overwegen om bedrijven te verplichten gedetailleerde informatie te verstrekken over de datasets en modeloutputs die zijn gebruikt bij de training van hun modellen."
OpenAI's Eerdere Problemen met Auteursrechten
OpenAI is geen onbekende in de juridische wereld, vooral als het gaat om kwesties van auteursrechtschending. Eerder dit jaar dienden acht nieuwsuitgevers rechtszaken in tegen Microsoft en OpenAI wegens inbreuk op auteursrechten. OpenAI CEO Sam Altman heeft betoogd dat de auteurswetgeving niet categorisch het gebruik van auteursrechtelijk beschermde inhoud voor de training van AI-modellen verbiedt. Hij gaf echter toe dat het vrijwel onmogelijk is om tools zoals ChatGPT te ontwikkelen zonder gebruik te maken van auteursrechtelijk beschermde inhoud.
Met de snelle opkomst van AI-gestuurde tools lijkt de kwestie van auteursrechtschending gevangen te zitten in een grijs gebied, waardoor het moeilijk is om de fijne lijn vast te stellen wanneer AI-bedrijven inhoud van uitgevers en andere internetbronnen daadwerkelijk stelen.
Conclusie
De situatie rondom DeepSeek en de beschuldigingen van auteursrechtschendingen werpt een schaduw over de toekomst van AI-ontwikkeling. Terwijl de technologie zich razendsnel ontwikkelt, is het van cruciaal belang dat bedrijven transparant zijn over hun trainingsmethoden en dat er strikte regels worden opgesteld om de intellectuele eigendomsrechten te beschermen. De komende tijd zal cruciaal zijn voor zowel DeepSeek als de bredere AI-gemeenschap, terwijl de gevolgen van deze ontdekkingen zich ontvouwen.
Aanbevolen reactie
Doe je mee?
Je kunt nu een bericht plaatsen en je later registeren. Als je al een account hebt, kun je je hier aanmelden.
Note: Your post will require moderator approval before it will be visible.