DeepSeek introduceert krachtige nieuwe AI-model: DeepSeek V3
Een opmerkelijke ontwikkeling in de wereld van kunstmatige intelligentie gerapporteerd. Een Chinees laboratorium heeft een van de meest geavanceerde 'open' AI-modellen tot nu toe gecreëerd: DeepSeek V3. Dit model, ontwikkeld door het AI-bedrijf DeepSeek, werd onlangs vrijgegeven onder een permissieve licentie, waardoor ontwikkelaars het kunnen downloaden en aanpassen voor een breed scala aan toepassingen, inclusief commerciële doeleinden.
DeepSeek V3 is ontworpen om een verscheidenheid aan tekstgebaseerde taken aan te kunnen, zoals coderen, vertalen en het schrijven van essays en e-mails op basis van beschrijvende prompts. Volgens interne benchmarktests van DeepSeek overtreft V3 zowel de beschikbare 'open' modellen als de 'sluitende' AI-modellen die alleen via een API toegankelijk zijn. In een reeks coderingswedstrijden op Codeforces, een platform voor programmeerwedstrijden, blijkt DeepSeek V3 andere modellen te overtreffen, waaronder Meta's Llama 3.1 405B, OpenAI's GPT-4o en Alibaba's Qwen 2.5 72B. Bovendien excelleert DeepSeek V3 in de Aider Polyglot-test, die onder andere meet of een model succesvol nieuwe code kan schrijven die integreert met bestaande code.
DeepSeek beweert dat DeepSeek V3 is getraind op een dataset van maar liefst 14,8 biljoen tokens. In de datascience vertegenwoordigen tokens stukjes ruwe data; 1 miljoen tokens komt overeen met ongeveer 750.000 woorden. Niet alleen de trainingsset is enorm, maar ook het model zelf is van indrukwekkende omvang: met 671 miljard parameters (of 685 miljard op het AI-ontwikkelingsplatform Hugging Face) is het ongeveer 1,6 keer zo groot als Llama 3.1 405B, dat 405 miljard parameters heeft.
Het aantal parameters correleert vaak (maar niet altijd) met de vaardigheid van een model; modellen met meer parameters presteren doorgaans beter dan modellen met minder parameters. Echter, grote modellen vereisen ook krachtige hardware om goed te functioneren. Een niet-geoptimaliseerde versie van DeepSeek V3 zou een bank van high-end GPU's nodig hebben om vragen met redelijke snelheid te beantwoorden.
Hoewel DeepSeek V3 niet het meest praktische model is, vertegenwoordigt het wel een significante prestatie. DeepSeek slaagde erin het model te trainen met behulp van een datacenter van Nvidia H800 GPU's in slechts twee maanden — GPU's die onlangs door het Amerikaanse ministerie van Handel aan Chinese bedrijven zijn ontzegd. De kosten voor de training van DeepSeek V3 bedragen naar eigen zeggen slechts $5,5 miljoen, een fractie van de ontwikkelingskosten van modellen zoals OpenAI's GPT-4.
Een kanttekening is dat de politieke opvattingen van het model enigszins… beperkt zijn. Wanneer je DeepSeek V3 vraagt naar het Tiananmen-plein, krijg je bijvoorbeeld geen antwoord. Aangezien DeepSeek een Chinees bedrijf is, moet het voldoen aan de richtlijnen van de Chinese internetregulator, die ervoor zorgt dat de reacties van de modellen "de kernwaarden van het socialisme belichamen." Veel Chinese AI-systemen weigeren te reageren op onderwerpen die de woede van de regulators kunnen oproepen, zoals speculaties over het regime van Xi Jinping.
DeepSeek, dat eind november DeepSeek-R1 onthulde als antwoord op OpenAI's o1 "redeneringsmodel", is een intrigerende organisatie. Het bedrijf wordt ondersteund door High-Flyer Capital Management, een Chinese kwantitatieve hedgefonds dat AI gebruikt om zijn handelsbeslissingen te onderbouwen. High-Flyer bouwt zijn eigen serverclusters voor modeltraining, waarvan de meest recente naar verluidt 10.000 Nvidia A100 GPU's bevat en 1 miljard yen (ongeveer $138 miljoen) heeft gekost. Opgericht door Liang Wenfeng, een afgestudeerde in de computerwetenschappen, streeft High-Flyer ernaar "superintelligente" AI te bereiken via zijn DeepSeek-organisatie.
In een interview eerder dit jaar karakteriseerde Wenfeng gesloten AI zoals die van OpenAI als een "tijdelijke" barrière. "[Het] heeft anderen niet tegengehouden om in te halen," merkte hij op.
Met de introductie van DeepSeek V3 lijkt het erop dat de concurrentie in de wereld van open AI-modellen een nieuwe dimensie heeft gekregen. De combinatie van geavanceerde technologie, een indrukwekkende trainingsset en een strategische benadering van ontwikkeling positioneert DeepSeek als een serieuze speler in het AI-landschap.
-
Bron: https://www.duken.nl
Terugkoppeling
Aanbevolen reactie
Doe je mee?
Je kunt nu een bericht plaatsen en je later registeren. Als je al een account hebt, kun je je hier aanmelden.
Note: Your post will require moderator approval before it will be visible.