Este artigo analisa os oito principais estágios de desenvolvimento do modelo Beanbao desde seu lançamento em 15 de maio de 2024, demonstrando seu notável desempenho em reconhecimento de fala, criação musical, geração de vídeo, edição de imagens, capacidades de programação, compreensão de texto, percepção visual, etc. progresso. Desde o avanço inicial no reconhecimento de fala até a realização final do modelo universal Doubao-pro alinhado com as capacidades do GPT-4, o modelo Doubao alcançou resultados notáveis em apenas 230 dias, demonstrando forte força técnica e potencial de desenvolvimento. O artigo detalha os avanços tecnológicos e os cenários de aplicação em cada etapa e ilustra algumas de suas funções com imagens.
1. Avanços no reconhecimento de fala e expressão emocionalO modelo Doubao alcançou um grande avanço no campo do reconhecimento de fala em julho: pode compreender conversas mistas em mais de 20 dialetos e tem a capacidade de pensar enquanto ouve. Além disso, aprendeu a expressar emoções em conversas, pode intervir livremente nas interações e até mantém hábitos de linguagem humana, como engolir e sotaque. A tecnologia central por trás disso é o modelo de reconhecimento de fala Seed-ASR e o modelo básico de geração de fala Seed-TTS. Esses modelos integram uma gama mais ampla de dados e cadeias de raciocínio, proporcionando-lhes capacidades de generalização extremamente fortes.
2. O nascimento da banda AIEm setembro, o grande modelo Doubao realizou criativamente o conceito de “banda AI”. Da composição à geração de performance e canto vocal, Doubao Master dominou mais de 10 habilidades de criação musical e pode trazer inspiração inesperada para a criação musical. A tecnologia por trás disso é a estrutura Seed-Music, que combina as vantagens dos modelos de linguagem e modelos de difusão para implementar uma estrutura universal para geração de música e possui controlabilidade de edição extremamente alta.
3. Geração de vídeo precisa e controle de lenteNo mesmo mês, o modelo do pufe rompeu ainda mais os limites da criação, sendo capaz de seguir instruções complexas, gerar vídeos de alta definição com vários assuntos e controlar com precisão o ângulo da câmera. Com a ajuda de dois modelos de geração de vídeo, PixelDance e Seaweed, Doubao Big Model pode obter geração simultânea de vídeo e efeitos sonoros de alta qualidade, proporcionando aos criadores uma experiência visual mais realista e onírica.
4. Atualização dos recursos de edição e criação de imagensEm novembro, Doubao Big Model dominou os recursos de "imagem P de uma frase" e "geração de pôster com um clique". Os usuários só precisam de comandos de texto simples para realizar edição precisa de imagens e geração de texto. Por meio do modelo gráfico Vincent continuamente iterativo, SeedEdit, Doubao pode apresentar cenas complexas com precisão e fornecer edição de imagens baseada em linguagem natural.
5. Um salto na capacidade de programaçãoNo início de dezembro, as capacidades de programação de Doubao foram bastante aprimoradas e ele se tornou um programador de IA e analista de dados. Através do Doubao MarsCode, os usuários podem implementar facilmente a escrita de código, processamento de dados e análise visual. O grande modelo de código Doubao, Doubao-coder, suporta profundamente 16 linguagens de programação e pode atender às necessidades de programação full-stack, como desenvolvimento front-end e back-end e aprendizado de máquina.
6. Capacidades extremas de compreensão e processamento de textoO modelo grande Doubao também rompe o limite da janela de contexto, aumentando-a para 3 milhões de palavras, capaz de processar textos maiores e com atraso de processamento de apenas 15 segundos por milhão de tokens. Por meio de algoritmos de dados vinculados, como STRING, o grande modelo Beanbao pode adquirir rapidamente grande conhecimento externo e fornecer recursos de compreensão mais precisos.
7. Avanços na percepção visual e pensamento profundoEm meados de dezembro, o modelo de pufe grande alcançou a percepção visual e foi capaz de integrar múltiplos sentidos para um pensamento aprofundado. Ele pode não apenas compreender imagens com precisão, mas também realizar operações complexas, como tirar uma foto de um problema de cálculo matemático, demonstrando suas excelentes capacidades de aprendizagem e raciocínio intermodal.
8. Modelo geral totalmente atualizado Doubao-proEm meados de dezembro, o modelo geral Doubao Doubao-pro foi totalmente atualizado, suas capacidades foram totalmente alinhadas com o GPT-4 e ele aprendeu a “refletir” durante o processo de resposta. Esta atualização melhora a precisão de compreensão e a qualidade de geração do Doubao-pro, tornando-o um “guerreiro hexagonal” eficiente com desempenho equilibrado em diversas habilidades e tornando-se outra referência no campo da IA.
Este ano, a equipe Doubao Big Model fez progressos significativos na pesquisa básica de IA. A equipe publicou 57 artigos e apareceu em conferências importantes como ICLR, CVPR e NeurIPS. Além disso, a equipe Doubao Big Model tem uma cooperação profunda com muitas universidades importantes e estabeleceu laboratórios conjuntos para promover o desenvolvimento da tecnologia de IA.
O modelo de saco de feijão grande não é apenas um avanço em tecnologia, mas também amplamente utilizado em muitos setores. Através do Volcano Engine, o Doubao Big Model atende mais de 30 indústrias, e a média diária de chamadas de tokens excede 4 trilhões, um aumento de 33 vezes desde o lançamento em maio.
Endereço oficial: https://mp.weixin.qq.com/s/KVfu86njzyK2iK4j6VJONw
Em suma, o rápido desenvolvimento e a ampla aplicação do modelo do saco de feijão indicam o enorme potencial da tecnologia de inteligência artificial em vários campos, e vale a pena esperar pelo seu desenvolvimento futuro.