Défier l'IA open source vers de nouveaux sommets : DeepSeek V3 surpasse Llama3.1, avec des données d'entraînement atteignant 14 800 milliards de jetons

Auteur：Eve Cole Date de mise à jour：2024-12-30 17:48:02

La Chine a fait une percée majeure dans le domaine de l’intelligence artificielle ! DeepSeek a publié DeepSeek V3, un grand modèle de langage open source avec une taille de paramètres de 671 milliards. Ses performances surpassent de nombreux modèles fermés traditionnels, y compris GPT-4. DeepSeek V3 a non seulement obtenu de bons résultats lors des concours de programmation et des tests d'intégration de code, mais a également été accrocheur par son coût de développement efficace (seulement deux mois et 5,5 millions de dollars), ce qui contraste fortement avec l'investissement de développement de produits similaires. Derrière cette réussite se cache le fort soutien du fonds spéculatif quantitatif High-Flyer Capital Management, qui a investi dans la construction de puissants clusters de serveurs.

La société chinoise d’intelligence artificielle DeepSeek a récemment publié un grand modèle de langage open source historique DeepSeek V3. Ce modèle avec 671 milliards de paramètres dépasse non seulement l'échelle Llama3.1 de Meta, mais surpasse également les modèles traditionnels à source fermée, y compris GPT-4, dans plusieurs tests de référence.

Les caractéristiques exceptionnelles de DeepSeek V3 sont ses performances puissantes et son processus de développement efficace. Le modèle s'est bien comporté lors des compétitions sur la plateforme de programmation Codeforces et a devancé ses concurrents dans le test Aider Polyglot, qui teste les capacités d'intégration de code. La formation du modèle utilise un énorme ensemble de données de 14,8 billions de jetons et la taille des paramètres atteint 1,6 fois celle de Llama3.1.

AI 机器人人工智能 (2)

Ce qui est encore plus frappant, c’est que DeepSeek a achevé la formation du modèle en seulement deux mois et pour un coût de 5,5 millions de dollars, ce qui est bien inférieur à l’investissement dans le développement de produits similaires.

Le bailleur de fonds derrière DeepSeek est le fonds spéculatif quantitatif chinois High-Flyer Capital Management. Le fonds a investi dans un cluster de serveurs doté de 10 000 GPU Nvidia A100 d'une valeur d'environ 138 millions de dollars. Liang Wenfeng, fondateur de High-Flyer, a déclaré que l'IA open source finirait par briser l'avantage monopolistique du modèle fermé actuel.

DeepSeek V3 est publié sous une licence permissive, permettant aux développeurs de le télécharger, de le modifier et de l'utiliser pour diverses applications, y compris à des fins commerciales. Bien qu’un support matériel puissant soit toujours nécessaire pour exécuter la version complète, la sortie de ce modèle open source marque une étape importante pour l’innovation ouverte dans le domaine de l’IA.

La version open source de DeepSeek V3 favorise non seulement l'avancement de la technologie de l'intelligence artificielle, mais offre également davantage d'opportunités aux développeurs mondiaux, indiquant que le développement futur du domaine de l'intelligence artificielle sera plus ouvert et diversifié. Son processus de formation peu coûteux et hautement efficace fournit également une expérience et des références précieuses à d'autres instituts de recherche et entreprises, et il vaut la peine d'attendre avec impatience son développement ultérieur.