
OpenThinker-32B heeft opmerkelijke prestaties geleverd door benchmarkrecords te verbreken met slechts 14% van de data die zijn Chinese concurrent nodig had, een waar resultaat voor open source AI.
Op 13 februari 2025 schokte een team van internationale onderzoekers, afkomstig van vooraanstaande academische instellingen en technologiebedrijven, de wereld van AI-redenering met de introductie van een nieuw model dat de prestaties van een van de meest geavanceerde AI-systemen van China, DeepSeek, evenaart en soms zelfs overtreft.
Met maar liefst 90,6% nauwkeurigheid op de MATH500 benchmark heeft OpenThinker-32B DeepSeek, dat een score van 89,4% behaalde, achter zich gelaten. Het nieuwe model blonk ook uit in algemene probleemoplossingstaken, met een score van 61,6 op de GPQA-Diamond benchmark, in tegenstelling tot DeepSeek's 57,6 punten. De LCBv2 benchmark leverde een solide score van 68,9 op, wat getuigt van sterke prestaties in diverse testscenario's. Dit betekent dat OpenThinker-32B niet alleen beter is in algemene wetenschappelijke kennis, maar ook een voorsprong heeft op MATH500, al zijn er gebieden zoals bij de AIME benchmarks waar het nog achterblijft.
Bij het coderen presteerde OpenThinker-32B iets minder goed met 68,9 punten vergeleken met DeepSeek's 71,2. Echter, aangezien het model open source is, verhoogt dit de kans dat deze scores aanzienlijk verbeteren zodra ontwikkelaars het verder verfijnen.
Wat deze prestatie echt bijzonder maakt, is de efficiëntie: OpenThinker had slechts 114.000 trainingsvoorbeelden nodig om deze resultaten te behalen, terwijl DeepSeek 800.000 gebruikte. De dataset, OpenThoughts-114k, was rijk aan gedetailleerde metadata voor elk probleem, waaronder oplossingen, testgevallen voor codeproblemen, startcode waar nodig en domein-specifieke informatie. Het aangepaste Curator-framework valideerde codes tegen de testgevallen, terwijl een AI-rechter de wiskunde verifieerde.
Ondertussen heeft de Chinese AI-lab niet alleen een voordeliger AI-model ontwikkeld; het heeft de inefficiëntie van de gehele industrie aan het licht gebracht. DeepSeek's doorbraak bewees dat een klein team, in een poging om kosten te besparen, in staat was om de opbouw van AI-modellen opnieuw te overwegen. Terwijl technologie-giganten zoals OpenAI en Anthropic miljarden dollars investeren in rekenkracht, is DeepSeek er in geslaagd om soortgelijke resultaten te behalen voor net iets meer dan 5 miljoen dollar.
Het team dat OpenThinker ontwikkelde, rapporteerde dat ze vier nodes gebruikten met elk acht H100 GPU's, wat resulteerde in een verwerkingstijd van ongeveer 90 uur. Een aparte dataset met 137.000 niet-geverifieerde voorbeelden, getraind op de Leonardo Supercomputer in Italië, verbruikte 11.520 A100 uren in slechts 30 uur. In hun documentatie merkten ze op: "Verificatie helpt de kwaliteit te waarborgen terwijl de diversiteit en omvang van trainingsinput wordt vergroot." Het onderzoek toonde aan dat zelfs niet-geverifieerde versies goed presteerden, hoewel ze niet konden tippen aan de piekresultaten van de geverifieerde modellen.
Dit model is gebaseerd op Alibaba’s Qwen2.5-32B-Instruct LLM, en biedt een contextvenster van 16.000 tokens—voldoende om complexe wiskundige bewijzen en lange programmeerproblemen aan te kunnen, maar minder dan de huidige standaarden vereisen.
Deze release komt op een moment van toenemende concurrentie in de AI-redeneringscapaciteiten, die zich in sneltreinvaart lijken te ontwikkelen. OpenAI kondigde op 12 februari aan dat alle modellen na GPT-5 redeneringscapaciteiten zullen bevatten. Een dag later prees Elon Musk de verbeterde probleemoplossingsvaardigheden van xAI’s Grok-3, en onlangs heeft Nous Research een ander open-source redeneringsmodel, DeepHermes, gelanceerd, gebaseerd op Meta’s Llama 3.1.
De sector kreeg een flinke boost nadat DeepSeek vergelijkbare prestaties aantoont vergeleken met OpenAI's modellen tegen aanzienlijk lagere kosten. DeepSeek R1 is vrij te downloaden, te gebruiken en te modificeren, terwijl ook de trainingsmethoden openbaar zijn gemaakt.
Elon Musk kondigde aan dat de volgende generatie van zijn AI-chatbot Grok misschien al binnen enkele weken beschikbaar is, en beschreef het als "angstaanjagend slim". Hij claimde dat het de prestaties van andere AI-modellen in tests al had overtroffen. Dit deed hij tijdens de World Governments Summit in Dubai op 13 februari.
In tegenstelling tot Open Thoughts, dat besloot alles open source te maken, hield het DeepSeek ontwikkelingsteam zijn trainingsdata privé. Dit belangrijke verschil betekent dat ontwikkelaars wellicht beter begrijpen hoe OpenThinker werkt en deze resultaten vanaf nul kunnen reproduceren, omdat ze toegang hebben tot alle onderdelen van de puzzel.
Voor de bredere AI-gemeenschap toont deze release opnieuw de haalbaarheid aan van het bouwen van concurrerende modellen zonder enorme propriëtaire datasets. Bovendien kan dit een betrouwbaardere concurrent zijn voor westerse ontwikkelaars die nog twijfelen over het gebruik van een Chinees model—ongeacht of het open source is of niet.
OpenThinker is te downloaden op HuggingFace, en er is ook een kleinere, minder krachtige 7B parameter versie beschikbaar voor minder krachtige apparaten. Het team van Open Thoughts verzamelde onderzoekers van verschillende Amerikaanse universiteiten, waaronder Stanford, Berkeley en UCLA, evenals het Juelich Supercomputing Center in Duitsland. Ook het Toyota Research Institute uit de VS en andere belangrijke spelers in de EU AI-scene ondersteunen deze ambitieuze onderneming.
Aanbevolen reactie
Doe je mee?
Je kunt nu een bericht plaatsen en je later registeren. Als je al een account hebt, kun je je hier aanmelden.
Note: Your post will require moderator approval before it will be visible.