China hat einen großen Durchbruch auf dem Gebiet der künstlichen Intelligenz geschafft! DeepSeek hat DeepSeek V3 veröffentlicht, ein großes Open-Source-Sprachmodell mit einer Parametergröße von 671 Milliarden. Seine Leistung übertrifft viele gängige Closed-Source-Modelle, einschließlich GPT-4. DeepSeek V3 schnitt nicht nur bei Programmierwettbewerben und Code-Integrationstests gut ab, sondern fiel auch durch seine effizienten Entwicklungskosten auf – nur zwei Monate und 5,5 Millionen US-Dollar –, die in scharfem Kontrast zu den Entwicklungsinvestitionen ähnlicher Produkte stehen. Hinter dieser Leistung steht die starke Unterstützung des quantitativen Hedgefonds High-Flyer Capital Management, der in den Aufbau leistungsstarker Servercluster investiert hat.
Das chinesische Unternehmen für künstliche Intelligenz DeepSeek hat kürzlich ein bahnbrechendes Open-Source-Großsprachenmodell DeepSeek V3 veröffentlicht. Dieses Modell mit 671 Milliarden Parametern übertrifft nicht nur Metas Llama3.1 in der Größenordnung, sondern übertrifft auch gängige Closed-Source-Modelle, einschließlich GPT-4, in mehreren Benchmark-Tests.
Die herausragenden Merkmale von DeepSeek V3 sind seine starke Leistung und sein effizienter Entwicklungsprozess. Das Modell schnitt bei Wettbewerben auf der Programmierplattform Codeforces gut ab und führte seine Konkurrenten im Aider Polyglot-Test an, bei dem Code-Integrationsfunktionen getestet werden. Das Modelltraining verwendet einen riesigen Datensatz von 14,8 Billionen Token und die Parametergröße erreicht das 1,6-fache der von Llama3.1.
Noch auffälliger ist, dass DeepSeek die Modellschulung in nur zwei Monaten und zu Kosten von 5,5 Millionen US-Dollar abgeschlossen hat, was weitaus weniger ist als die Entwicklungsinvestitionen ähnlicher Produkte.
Der Unterstützer von DeepSeek ist der chinesische quantitative Hedgefonds High-Flyer Capital Management. Der Fonds investierte in einen Servercluster mit 10.000 Nvidia A100-GPUs im Wert von rund 138 Millionen US-Dollar. Liang Wenfeng, Gründer von High-Flyer, sagte, dass Open-Source-KI letztendlich den Monopolvorteil des aktuellen geschlossenen Modells brechen werde.
DeepSeek V3 wird unter einer freizügigen Lizenz veröffentlicht, die es Entwicklern ermöglicht, es für verschiedene Anwendungen, einschließlich kommerzieller Zwecke, herunterzuladen, zu ändern und zu verwenden. Obwohl für die Ausführung der Vollversion weiterhin leistungsstarke Hardwareunterstützung erforderlich ist, markiert die Veröffentlichung dieses Open-Source-Modells einen wichtigen Schritt für offene Innovation im Bereich KI.
Die Open-Source-Veröffentlichung von DeepSeek V3 fördert nicht nur die Weiterentwicklung der Technologie der künstlichen Intelligenz, sondern bietet auch mehr Möglichkeiten für globale Entwickler, was darauf hindeutet, dass die zukünftige Entwicklung des Bereichs der künstlichen Intelligenz offener und vielfältiger sein wird. Der kostengünstige und hocheffiziente Schulungsprozess bietet auch anderen Forschungseinrichtungen und Unternehmen wertvolle Erfahrungen und Referenzen und es lohnt sich, auf die weitere Entwicklung zu blicken.