A grande família de modelos Doubao foi totalmente atualizada e o modelo de compreensão visual e o modelo musical 4.0 foram lançados.

Autor：Eve Cole Data da Última Atualização：2024-12-25 13:00:02

Na Conferência FORCE Motive Power em 18 de dezembro de 2024, o Volcano Engine lançou uma atualização abrangente da família de modelos grandes de beanbag. O mais atraente é o lançamento de um novo modelo de compreensão visual. O modelo suporta entrada simultânea de texto e imagens, possui maior capacidade de reconhecimento, compreensão e raciocínio e fornece serviços aos usuários a um preço muito competitivo. Esta atualização não apenas melhora os recursos de aplicação do grande modelo Beanbao em vários campos, mas também marca que a tecnologia de compreensão visual entrou em um novo estágio de desenvolvimento, trazendo soluções de IA mais convenientes e eficientes para empresas e desenvolvedores.

Na Volcano Engine FORCE Motive Power Conference em 18 de dezembro de 2024, a Volcano Engine anunciou uma atualização abrangente da família de modelos grandes de bean bag e lançou um novo modelo de compreensão visual.

Tan Dai, presidente da Volcano Engine, disse que o uso médio diário de tokens do modelo Doubao cresceu rapidamente nos últimos meses, atingindo mais de 4 trilhões, um aumento de 33 vezes em comparação com o lançamento em maio. Essa tendência crescente mostra o uso generalizado de modelos grandes de beanbags em vários cenários de aplicação.

Desta vez, o Volcano Engine lançou um modelo de compreensão visual, permitindo aos usuários inserir perguntas de texto e imagem ao mesmo tempo, e o modelo pode compreender de forma abrangente e dar respostas precisas. Esta inovação simplificará enormemente o processo de desenvolvimento de aplicações e ativará o potencial de grandes modelos em mais cenários.

O modelo de compreensão visual tem capacidades de reconhecimento de conteúdo mais fortes. Ele pode não apenas identificar elementos básicos, como categorias de objetos e formas em imagens, mas também compreender a relação entre objetos, o layout espacial e o significado geral da cena. Por exemplo, identificar sombras, identificar conhecimento natural, etc.

O modelo de compreensão visual tem capacidades de compreensão e raciocínio mais fortes. Ele pode não apenas identificar melhor o conteúdo, mas também realizar cálculos lógicos complexos com base nas informações reconhecidas de texto e imagem, como raciocínio gráfico e raciocínio físico.

Além disso, também possui uma capacidade de descrição visual mais delicada, que pode descrever o conteúdo da imagem com mais detalhes com base nas informações da imagem, e também pode criar uma variedade de estilos literários, como criação de imagens, criação de poesia de imagens, etc.

O modelo de compreensão visual Doubao mostra amplas perspectivas de aplicação em muitos campos, como educação, turismo e comércio eletrônico. Por exemplo, na educação, o modelo pode ajudar os alunos a optimizar as suas composições e conhecimentos científicos populares no turismo, o modelo pode fornecer aos turistas traduções de menus estrangeiros e explicações sobre conhecimentos arquitectónicos no marketing de comércio electrónico, pode ajudar os comerciantes a descrever; características do produto em detalhes, melhorando assim a eficácia da publicidade.

O custo de utilização do modelo de compreensão visual também é muito acessível. O preço por mil tokens é de 0,003 yuans, o que é 85% inferior ao preço médio da indústria. Esse nível de preço permite que cada dólar processe até 284 imagens 720P, marcando a entrada da tecnologia de compreensão visual na “era centi”. Além disso, o Volcano Engine também fornece às empresas e desenvolvedores suporte de tráfego inicial de até 15.000 para ajudá-los a utilizar melhor essa tecnologia.

Nesta conferência, o Volcano Engine não apenas lançou um modelo de compreensão visual, mas também atualizou vários outros modelos. A capacidade abrangente de processamento de tarefas do Doubao Universal Model Pro aumentou 32% em comparação com maio, e também houve melhorias significativas em áreas como raciocínio, seguimento de instruções, codificação e matemática. Paralelamente, o modelo de pufe e geração de vídeo será aberto ao público em janeiro de 2025, podendo as empresas fazer reservas para utilização.

A fim de melhorar as capacidades de aquisição de informações e recomendação de pesquisa das empresas, o Volcano Engine também lançou um serviço global de pesquisa de IA para ajudar as empresas a conectar melhor as informações e as necessidades dos usuários e facilitar a transformação inteligente de vários setores.

Destaque:

O uso médio diário de tokens do Doubao Big Model atingiu 4 trilhões, um aumento de 33 vezes em comparação com maio.

O modelo de compreensão visual recém-lançado suporta entrada simultânea de texto e imagens e é adequado para áreas como educação, turismo e comércio eletrônico.

O custo de uso por mil tokens é de apenas 0,003 yuans, o que é significativamente inferior ao preço médio da indústria.

Em suma, a atualização do modelo de grande saco de feijão e o novo modelo de compreensão visual lançado pela Volcano Engine desta vez demonstram a sua inovação contínua no campo da inteligência artificial e a sua profunda compreensão das necessidades dos utilizadores, fornecendo um forte suporte técnico para a transformação inteligente de diversas indústrias.