Os modelos Deepseek lançou os modelos Deepseek-V3 e Deepseek-R1 causaram uma grande resposta no campo da inteligência artificial. Em particular, o modelo de código aberto Deepseek-R1 pesos e divulga todas as tecnologias de treinamento, que atraiu atenção generalizada no setor e também trouxe grande pressão para empresas como a Meta. Os meta -engenheiros até declararam publicamente que a equipe estava em pânico e tentou replicar a tecnologia da Deepseek.
A série de modelos lançados recentemente pela Deepseek causou choque no círculo global da IA. O Deepseek-V3 alcança o alto desempenho a baixo custo e é comparável ao modelo de código fechado em muitas revisões; Também é de código aberto.
Deepseek também divulga todas as técnicas de treinamento. O R1 é comparado com o modelo O1 da OpenAI e a tecnologia de aprendizado de reforço é usada extensivamente no estágio pós-treinamento. Deepseek disse que o R1 é comparável ao O1 em tarefas como matemática, código, raciocínio de linguagem natural e o preço da API é inferior a 4% do O1.
Recentemente, o Teamblind, um post anônimo de um funcionário da Meta na comunidade anônima de trabalho no exterior, era particularmente popular. O lançamento do Deepseek V3 coloca o Llama 4 por trás em benchmarks, e a equipe de IA meta generativa está em pânico. Uma "empresa chinesa desconhecida" tem um orçamento de US $ 5,5 milhões para concluir o treinamento e dar um tapa no grande modelo existente.
Os meta -engenheiros desmontam freneticamente o Deepseek e tentam copiar, enquanto a gerência está ansiosa sobre como explicar altos custos para a gerência sênior. O surgimento do Deepseek R1 piora a situação e, embora algumas informações ainda não possam ser divulgadas, elas serão divulgadas em breve, e a situação poderá ser ainda mais desfavorável até então.
A tradução do posto anônimo de funcionários da Meta é o seguinte (traduzido por Deepseek R1):
Departamento de IA meta generativa entra em um estado de emergência
Tudo começou com o Deepseek V3 - fez com que a pontuação de referência da LLAMA 4 parecesse instantaneamente datada. O que é ainda mais embaraçoso é que "uma empresa chinesa desconhecida alcançou um avanço com apenas US $ 5 milhões em orçamento de treinamento".
A equipe de engenheiros está desmontando freneticamente a arquitetura Deepseek, tentando replicar todos os seus detalhes técnicos. Isso não é de forma alguma um exagero, nossa base de código está passando por uma pesquisa no estilo de tapete.
A administração está morrendo sobre a racionalidade das enormes despesas do departamento. Quando o salário anual de cada "líder" no departamento generativo de IA excede todo o custo de treinamento da Deepseek V3, e temos dezenas de "líderes", como eles devem explicar à gerência sênior?
Deepseek R1 torna a situação ainda mais séria. Embora as informações confidenciais não possam ser divulgadas, os dados relevantes serão divulgados em breve.
Deve ser uma equipe capaz, mas a estrutura organizacional foi deliberadamente expandida devido ao influxo de um grande número de pessoas para influência. O resultado deste Game of Thrones? No final, todos se tornaram perdedores.
Introdução aos modelos da série DeepseekDeepseek-V3: é um modelo de idioma de especialista híbrido (MOE) com uma quantidade de parâmetro de 671b e cada token ativa 37b. Ele adota a atenção latente de várias cabeças (MLA) e a arquitetura Deepseekmoe, pré-treinada em 14,8 trilhões de tokens de alta qualidade. -4o e Claude 3,5 Modelos de código fechado superior, como o Sonnet, têm desempenho comparável. O custo de treinamento é baixo, apenas 2,788 milhões de horas de GPU de H800, cerca de 5,576 milhões de dólares, e o processo de treinamento é estável.
Deepseek-R1: inclui Deepseek-R1-Zero e Deepseek-R1. Através de treinamento de aprendizado de reforço em larga escala, o Deepseek-R1-Zero demonstra auto-verificação, reflexão e outras habilidades por meio de treinamento de aprendizado de reforço em larga escala e não depende de ajustes finos supervisionados (SFT), mas há problemas como os ruins, legibilidade e confusão da linguagem. DeepSeek-R1 在DeepSeek-R1-Zero 基础上,引入多阶段训练和冷启动数据,解决了部分问题,在数学、代码、自然语言推理等任务上性能比肩OpenAI o1 正式版。 Ao mesmo tempo, vários modelos com diferentes escalas de parâmetros foram abertos para promover o desenvolvimento da comunidade de código aberto.
Excelente desempenho: Deepseek-V3 e Deepseek-R1 tiveram um bom desempenho em vários benchmarks. Por exemplo, o Deepseek-V3 alcançou excelentes resultados em MMLU, Drop e outras avaliações; .
Treinando inovação:
O Deepseek-V3 adota estratégias de balanceamento de carga sem perdas auxiliares e metas de previsão com vários toques (MTP) para reduzir a degradação do desempenho e melhorar o desempenho do modelo;
O Deepseek-R1-Zero usa treinamento de aprendizado de reforço puro e confia apenas em sinais simples de recompensa e punição para otimizar o modelo, o que prova que o aprendizado de reforço pode melhorar a capacidade de inferência do modelo; estabilidade e legibilidade.
Compartilhamento de código aberto: Os modelos da série Deepseek aderem ao conceito de código aberto e aos pesos do modelo de código aberto, como Deepseek-V3 e Deepseek-R1 e seus pequenos modelos destilados, permitindo que os usuários treinem outros modelos através da tecnologia de destilação para promover a comunicação e a inovação em Tecnologia da IA.
Vantagens de vários domínios: Deepseek-R1 demonstra seus poderosos recursos em vários campos. e tarefas de geração.
Desempenho de alto custo: a API do modelo Deepseek Series é acessível. Por exemplo, o preço de entrada e saída da API Deepseek-V3 é muito menor que os modelos semelhantes;
Tarefas de processamento de linguagem natural: incluindo geração de texto, sistema de perguntas e respostas, tradução da máquina, resumo do texto, etc. Por exemplo, em um sistema de perguntas e respostas, o Deepseek-R1 pode entender o problema e usar a capacidade de raciocínio para fornecer respostas precisas;
Desenvolvimento de código: ajude os desenvolvedores a escrever código, depurar programas e entender a lógica do código.比如开发者遇到代码问题时,DeepSeek-R1 可分析代码并提供解决方案;还能根据功能描述生成代码框架或具体代码片段。
Resolvendo problemas matemáticos: resolva problemas matemáticos complexos na educação matemática, pesquisa científica e outros cenários. Como o Deepseek-R1, ele tem um bom desempenho em perguntas relacionadas à competição na AIM e pode ser usado para ajudar os alunos a aprender matemática e pesquisadores a lidar com problemas de matemática.
Pesquisa e desenvolvimento de modelos: fornece referência e ferramentas para os pesquisadores de IA estudarem a destilação do modelo, a estrutura do modelo aprimorada e os métodos de treinamento. Os pesquisadores podem realizar experimentos com base no modelo de código aberto Deepseek para explorar novas direções tecnológicas.
Tomada de decisão auxiliar: Processar dados e informações e fornecer conselhos de tomada de decisão nos campos de negócios, finanças, etc. Por exemplo, analisar dados do mercado para fornecer referência para as empresas formularem estratégias de marketing;
Visite a plataforma: os usuários podem fazer login no site oficial da Deepseek (https://www.deepseek.com/) para inserir a plataforma.
Selecione um modelo: no site ou aplicativo oficial, o diálogo padrão é conduzido pelo Deepseek-V3. Se chamado através da API, defina os parâmetros de modelo correspondentes no código de acordo com os requisitos, como o Setting Model = 'Deepseek-Reluner' ao usar Deepseek-R1.
Tarefas de entrada: insira tarefas descritas na linguagem natural na interface de diálogo, como "Writing a Love Novel", "explicando a função desse código", "Solução de equações matemáticas", etc. às especificações da API e adicione as informações relacionadas à tarefa passadas como parâmetros de entrada.
Obtenha resultados: depois que o modelo processa a tarefa, retorne os resultados, visualize o texto gerado, as perguntas respondidas etc. na interface;
ConclusãoOs modelos da série Deepseek alcançaram resultados notáveis no campo da IA, com seu excelente desempenho, métodos inovadores de treinamento, espírito de compartilhamento de código aberto e vantagens econômicas.
Se você estiver interessado na tecnologia de IA, também pode gostar, comentar e compartilhar suas opiniões sobre a série de modelos Deepseek. Ao mesmo tempo, continuamos a prestar atenção ao desenvolvimento subsequente da Deepseek e esperamos trazer mais surpresas e avanços ao campo da IA, promovendo o progresso contínuo da tecnologia de IA e trazendo mais mudanças e oportunidades a vários Indústrias.
O surgimento da Deepseek trouxe nova vitalidade e competição ao campo da inteligência artificial, e seu espírito de código aberto é ainda mais louvável. No futuro, os modelos da série Deepseek mostrarão suas habilidades poderosas em mais campos, vamos esperar e ver!