
Achtergrond
7 vragen en antwoorden over DeepSeek
van Samuel Buchmann
Een nieuw open source taalmodel uit Zwitserland ondersteunt meer dan 1000 talen en biedt 70 miljard parameters. Daarmee is het qua omvang vergelijkbaar met Llama 3 van Meta en is het bedoeld als alternatief voor propriëtaire LLM's.
ETH Zürich en EPFL hebben een volledig open Large Language Model (LLM) ontwikkeld. Het wordt in de nazomer van 2025 uitgebracht. Volgens de media release ondersteunt het model meer dan 1000 talen. Het is getraind op de supercomputer «Alps» van het Zwitserse Supercomputer Centrum CSCS.
In tegenstelling tot propriëtaire LLM's, zoals die van OpenAI of Anthropic, is het Zwitserse model gebaseerd op transparantie. Broncode, modelgewichten en trainingsgegevens zijn allemaal beschikbaar. Dit is zeldzaam in de industrie. Hoewel LLM's van Meta en DeepSeek «Open Weight» zijn, zijn ze niet volledig «Open Source». Dit betekent dat de algoritmen en trainingsgegevens achter slot en grendel blijven.
Het ETH-model wordt uitgebracht in twee versies - met acht en 70 miljard parameters. De laatste is vergelijkbaar met Meta's Llama 3, terwijl OpenAI's GPT-4 naar schatting ongeveer 1.800 miljard parameters heeft en Anthropic's Claude 4 Opus ongeveer 300 miljard. Het aantal parameters is niet de enige maatstaf voor de prestaties van een LLM, maar het is wel een indicatie. Propriëtaire modellen behalen momenteel de hoogste scores in benchmarks. Open source modellen bieden echter voordelen op het gebied van traceerbaarheid, aanpasbaarheid en gegevenscontrole.
Bij de ontwikkeling van de LLM wordt rekening gehouden met de Zwitserse wetgeving inzake gegevensbescherming, het Zwitserse auteursrecht en de transparantieverplichtingen onder de AI-wet van de EU. Volgens een recent onderzoek van de projectmanagers is er praktisch geen prestatieverlies voor alledaagse taken als de opt-outs voor webcrawling worden gerespecteerd tijdens het verzamelen van gegevens - en de training dus bepaalde webinhoud negeert.
Het model is gepubliceerd onder de Apache 2.0 licentie. Dit zou het toegankelijk moeten maken voor zowel wetenschappelijke als industriële toepassingen. Het is een resultaat van het Zwitserse AI-initiatief, dat in december 2023 werd gelanceerd door EPFL en ETH Zürich. Met meer dan 800 betrokken onderzoekers en toegang tot meer dan 20 miljoen GPU-uren per jaar op de supercomputer van CSCS, is het 's werelds grootste open science en open source project op het gebied van AI-basismodellen.
Mijn vingerafdruk verandert vaak zo drastisch dat mijn MacBook hem niet meer herkent. De reden? Als ik me niet vastklamp aan een beeldscherm of camera, dan klamp ik me waarschijnlijk aan mijn vingertoppen vast aan een rotswand.