Salesforce lança modelo de IA multimodal de código aberto xGen-MM para ajudar na compreensão visual

Autor：Eve Cole Data da Última Atualização：2024-12-22 13:16:01

A Salesforce criou um código aberto inovador para seu modelo de IA multimodal xGen-MM, uma ferramenta poderosa que pode compreender e gerar simultaneamente vários tipos de dados, como texto e imagens. O modelo tem 4 mil milhões de parâmetros e teve um bom desempenho em vários benchmarks. A sua natureza de código aberto contrasta com as tendências atuais da indústria e reflete o compromisso da Salesforce em promover a investigação aberta no campo da IA. O xGen-MM é único na sua capacidade de processar “dados intercalados”, o que lhe permite realizar tarefas mais complexas, como responder a perguntas sobre múltiplas imagens simultaneamente, com enorme potencial de aplicação em áreas como diagnóstico médico e condução autónoma.

A Salesforce lançou um conjunto de modelos de IA multimodais de código aberto chamado xGen-MM. Esse conjunto de modelos pode compreender e gerar simultaneamente vários tipos de dados, como texto e imagens, e pode mudar completamente a maneira como pesquisamos e aplicamos IA.

A equipe de pesquisa da Salesforce AI publicou um artigo sobre o arXiv detalhando a estrutura xGen-MM. Esta estrutura não inclui apenas modelos pré-treinados, mas também conjuntos de dados e código de ajuste fino. Vale ressaltar que este maior modelo possui 4 bilhões de parâmetros, e seu desempenho teve um bom desempenho em diversos testes de benchmark, não inferior a modelos similares de código aberto.

Este movimento de código aberto é completamente diferente da tendência atual de muitos gigantes da tecnologia que optam por manter em segredo os modelos avançados de IA. A Salesforce afirma que espera promover pesquisa e desenvolvimento mais amplos, abrindo modelos e conjuntos de dados. Na verdade, esta decisão também visa dar a mais investigadores e programadores a oportunidade de participar no avanço da tecnologia de IA multimodal.

Uma das inovações do xGen-MM é a capacidade de lidar com “dados intercalados”, ou seja, pode processar múltiplas imagens e textos simultaneamente. Essa capacidade permite que o modelo execute tarefas mais complexas, como responder perguntas sobre múltiplas imagens ao mesmo tempo, o que é realmente incrível. Esses cenários de aplicação podem ser de grande utilidade em áreas como diagnóstico médico e direção autônoma!

O lançamento também inclui várias versões otimizadas do modelo, como um modelo básico pré-treinado, um modelo ajustado para seguir as instruções e um modelo “ajustado para segurança” projetado para reduzir resultados prejudiciais. Esta seleção diversificada reflete a crescente ênfase da comunidade de IA no equilíbrio entre capacidades e ética de segurança.

No entanto, o lançamento de modelos poderosos também desencadeou discussões sobre os potenciais riscos e impactos sociais de sistemas de IA mais avançados. Embora a Salesforce tenha feito ajustes de segurança para reduzir riscos, como equilibrar inovação e segurança ainda é uma questão que vale a pena ponderar.

Esta versão de código aberto da Salesforce oferece aos pesquisadores ferramentas valiosas para melhor compreender e melhorar essas tecnologias poderosas. Ao mesmo tempo, isto também estabelece um novo padrão de transparência no domínio da IA, o que pode levar outros gigantes tecnológicos a serem mais abertos relativamente à sua investigação.

Entrada do modelo: https://huggingface.co/collections/Salesforce/xgen-mm-1-models-662971d6cecbf3a7f80ecc2e

Destaque:

xGen-MM é um conjunto de modelos de IA multimodais de código aberto lançado pela Salesforce que oferece suporte à compreensão e geração abrangente de texto e imagens.

O modelo tem a capacidade de processar dados intercalados e pode responder perguntas sobre múltiplas imagens ao mesmo tempo, por isso tem amplas perspectivas de aplicação.

? Esta versão inclui uma variedade de versões otimizadas, presta atenção a questões éticas e de segurança e fornece recursos valiosos para pesquisadores.

Em suma, o xGen-MM de código aberto da Salesforce é um grande progresso no campo da IA. Ele não apenas fornece ferramentas poderosas, mas também dá um exemplo para uma direção de pesquisa e desenvolvimento de IA mais aberta e responsável. suas futuras aplicações e desenvolvimento em vários campos.