A empresa doméstica de IA Deepseek divulgou o modelo multimodal Janus-Pro, entrando oficialmente no campo dos gráficos literários e biográficos e alcançando resultados notáveis. Este produto, com base na atualização do modelo Janusflow, superou modelos conhecidos, como o Dall-E3 do OpenAI em vários benchmarks. O movimento de Deepseek marca um avanço significativo na tecnologia multimodal de IA e injeta nova vitalidade no desenvolvimento da IA doméstica.
A grande modelo doméstica Deepseek lançou o novo modelo multimodal Janus-Pro, entrando oficialmente no campo dos gráficos literários e biográficos. Esse movimento marca um grande avanço na Deepseek na tecnologia multimodal de IA.
Nos benchmarks Geneval e DPG-Bench, Janus-Pro-7b não apenas supera o Dall-E3 do Openai, mas também supera modelos populares como difusão estável e eMu3-gener. Janus-Pro adota o protocolo de código aberto do MIT, o que significa que ele pode ser usado em cenários comerciais sem limitações. Deepseek disse que Janus-Pro é uma versão premium do Mockup Janusflow lançado em 13 de novembro de 2024.
Comparado aos modelos de geração anterior, Janus-Pro otimizou a estratégia de treinamento, expandiu os dados de treinamento e a escala do modelo foi maior. Essas melhorias permitiram que Janus-Pro fizesse um progresso significativo no entendimento multimodal e nos recursos de rastreamento de instruções de texto para imagem, enquanto aumentam a estabilidade da geração de texto para imagem.
Embora o Janus-Pro possa processar apenas imagens com resolução de 384x384, já é incrível poder atingir esse nível, dado o tamanho do modelo compacto.
Como modelo multimodal, Janus-Pro pode não apenas gerar imagens, mas também descrever imagens, identificar atrações marcantes, identificar o texto nas imagens e introduzir conhecimento em imagens.
Pontos:
A Deepseek lança um modelo multimodal Janus-Pro para entrar no campo dos gráficos literários e biográficos.
Em Benchmarks, o desempenho Janus-Pro-7B supera modelos populares como o Dall-E3 do Openai.
Janus-Pro usa o protocolo de código aberto do MIT e pode ser usado em cenários comerciais sem restrições.
O surgimento de Janus-Pro indica que a força tecnológica dos grandes modelos domésticos no campo das imagens literárias e biográficas está aumentando rapidamente. para!