Desafiando la IA de código abierto a nuevas alturas: DeepSeek V3 supera a Llama3.1, con datos de entrenamiento que alcanzan los 14,8 billones de tokens

Autor：Eve Cole Fecha de actualización：2024-12-30 17:48:02

¡China ha logrado un gran avance en el campo de la inteligencia artificial! DeepSeek ha lanzado DeepSeek V3, un modelo de lenguaje grande de código abierto con un tamaño de parámetros de 671 mil millones. Su rendimiento supera a muchos modelos convencionales de código cerrado, incluido GPT-4. DeepSeek V3 no solo tuvo un buen desempeño en competencias de programación y pruebas de integración de código, sino que también llamó la atención por su costo de desarrollo eficiente (sólo dos meses y 5,5 millones de dólares), lo que contrasta marcadamente con la inversión en desarrollo de productos similares. Detrás de este logro se encuentra el firme apoyo del fondo de cobertura cuantitativo High-Flyer Capital Management, que invirtió en la construcción de potentes clústeres de servidores.

La empresa china de inteligencia artificial DeepSeek lanzó recientemente un modelo histórico de lenguaje grande de código abierto, DeepSeek V3. Este modelo con 671 mil millones de parámetros no solo supera en escala al Llama3.1 de Meta, sino que también supera a los modelos convencionales de código cerrado, incluido GPT-4, en múltiples pruebas comparativas.

Las características destacadas de DeepSeek V3 son su potente rendimiento y su eficiente proceso de desarrollo. El modelo obtuvo buenos resultados en competiciones en la plataforma de programación Codeforces y lideró a sus competidores en la prueba Aider Polyglot, que prueba las capacidades de integración de código. El entrenamiento del modelo utiliza un enorme conjunto de datos de 14,8 billones de tokens y el tamaño del parámetro alcanza 1,6 veces el de Llama3.1.

AI 机器人人工智能 (2)

Lo que es aún más sorprendente es que DeepSeek completó la capacitación del modelo en solo dos meses y a un costo de 5,5 millones de dólares, una cifra muy inferior a la inversión en desarrollo de productos similares.

El patrocinador de DeepSeek es el fondo de cobertura cuantitativo chino High-Flyer Capital Management. El fondo invirtió en un clúster de servidores con 10.000 GPU Nvidia A100 por un valor aproximado de 138 millones de dólares. Liang Wenfeng, fundador de High-Flyer, dijo que la IA de código abierto eventualmente romperá la ventaja de monopolio del modelo cerrado actual.

DeepSeek V3 se lanza bajo una licencia permisiva, lo que permite a los desarrolladores descargarlo, modificarlo y utilizarlo para diversas aplicaciones, incluidos fines comerciales. Aunque todavía se requiere un potente soporte de hardware para ejecutar la versión completa, el lanzamiento de este modelo de código abierto marca un paso importante para la innovación abierta en el campo de la IA.

El lanzamiento de código abierto de DeepSeek V3 no solo promueve el avance de la tecnología de inteligencia artificial, sino que también brinda más oportunidades para los desarrolladores globales, lo que indica que el desarrollo futuro del campo de la inteligencia artificial será más abierto y diversificado. Su proceso de formación de bajo costo y alta eficiencia también proporciona valiosa experiencia y referencia para otras instituciones y empresas de investigación, y vale la pena esperar su desarrollo posterior.