Desafiando novos patamares de IA de código aberto: DeepSeek V3 ultrapassa Llama3.1, com dados de treinamento atingindo 14,8 trilhões de tokens

Autor：Eve Cole Data da Última Atualização：2024-12-30 17:48:02

A China fez um grande avanço no campo da inteligência artificial! DeepSeek lançou DeepSeek V3, um modelo de linguagem grande de código aberto com um tamanho de parâmetro de 671 bilhões. Seu desempenho supera muitos modelos de código fechado convencionais, incluindo GPT-4. O DeepSeek V3 não apenas teve um bom desempenho em competições de programação e testes de integração de código, mas também chamou a atenção com seu custo de desenvolvimento eficiente – apenas dois meses e US$ 5,5 milhões – o que contrasta fortemente com o investimento no desenvolvimento de produtos similares. Por trás dessa conquista está o forte apoio do fundo de hedge quantitativo High-Flyer Capital Management, que investiu na construção de poderosos clusters de servidores.

A empresa chinesa de inteligência artificial DeepSeek lançou recentemente um modelo de linguagem grande de código aberto, DeepSeek V3. Este modelo com 671 bilhões de parâmetros não apenas excede o Llama3.1 da Meta em escala, mas também supera os principais modelos de código fechado, incluindo GPT-4, em vários testes de benchmark.

Os recursos marcantes do DeepSeek V3 são seu desempenho poderoso e processo de desenvolvimento eficiente. O modelo teve bom desempenho nas competições da plataforma de programação Codeforces e liderou seus concorrentes no teste Aider Polyglot, que testa capacidades de integração de código. O treinamento do modelo usa um enorme conjunto de dados de 14,8 trilhões de tokens, e o tamanho do parâmetro atinge 1,6 vezes o do Llama3.1.

AI 机器人人工智能 (2)

O que é ainda mais surpreendente é que a DeepSeek concluiu o treinamento do modelo em apenas dois meses e a um custo de US$ 5,5 milhões, o que é muito inferior ao investimento no desenvolvimento de produtos similares.

O patrocinador por trás do DeepSeek é o fundo de hedge quantitativo chinês High-Flyer Capital Management. O fundo investiu em um cluster de servidores com 10.000 GPUs Nvidia A100 no valor de aproximadamente US$ 138 milhões. Liang Wenfeng, fundador da High-Flyer, disse que a IA de código aberto acabará por quebrar a vantagem de monopólio do atual modelo fechado.

DeepSeek V3 é lançado sob uma licença permissiva, permitindo que os desenvolvedores baixem, modifiquem e usem-no para vários aplicativos, inclusive para fins comerciais. Embora a execução da versão completa ainda exija um suporte de hardware poderoso, o lançamento deste modelo de código aberto marca um passo importante para a inovação aberta no campo da IA.

O lançamento de código aberto do DeepSeek V3 não apenas promove o avanço da tecnologia de inteligência artificial, mas também oferece mais oportunidades para desenvolvedores globais, indicando que o desenvolvimento futuro do campo da inteligência artificial será mais aberto e diversificado. Seu processo de treinamento de baixo custo e alta eficiência também proporciona experiência valiosa e referência para outras instituições e empresas de pesquisa, e vale a pena esperar pelo desenvolvimento subsequente.