A equipe de LeCun e Xie Senin lançou o impressionante modelo de linguagem multimodal em grande escala Cambrian-1, que é um trabalho inovador que coloca a visão em primeiro lugar. Não é apenas um avanço tecnológico, mas também representa um novo pensamento sobre a investigação em aprendizagem multimodal. A sua natureza de código aberto fornece recursos valiosos para investigadores e desenvolvedores. O design do Cambrian-1 gira em torno de cinco elementos principais: aprendizagem de representação visual, design de conector, dados de ajuste fino de instruções, estratégia de ajuste fino de instruções e testes de benchmark. Ele tem um bom desempenho em tarefas de linguagem visual e é até comparável a alguns modelos proprietários de ponta. . No entanto, a equipa de investigação também apontou francamente as deficiências do modelo nas capacidades de diálogo e respondeu activamente melhorando os métodos de formação.
No mundo da IA, acabamos de dar as boas-vindas a um novo membro atraente - Cambrian-1, um modelo multimodal de linguagem grande (MLLM) criado em conjunto por gigantes da indústria como LeCun e Xie Saining. O surgimento deste modelo não é apenas um salto tecnológico, mas também uma profunda reflexão sobre a investigação em aprendizagem multimodal.
A filosofia de design do Cambrian-1 coloca a visão em primeiro lugar, o que é especialmente valioso na pesquisa atual de IA centrada na linguagem. Isso nos lembra que a linguagem não é a única forma de os humanos adquirirem conhecimento, e experiências sensoriais como visão, audição e tato são igualmente importantes. O código aberto do Cambrian-1 fornece um recurso valioso para todos os pesquisadores e desenvolvedores interessados na aprendizagem multimodal.
A construção deste modelo gira em torno de cinco elementos principais: aprendizagem de representação visual, design de conector, dados de ajuste fino de instruções, estratégia de ajuste fino de instruções e testes de benchmark. Cada elemento é uma exploração aprofundada do espaço de design do MLLM e reflete os insights exclusivos da equipe de pesquisa sobre os problemas existentes.
Vale ressaltar que o desempenho do Cambrian-1 em tarefas de linguagem visual é impressionante. Ele não apenas supera outros modelos de código aberto, mas também se iguala aos principais modelos proprietários do setor em alguns benchmarks. Por trás dessa conquista está o pensamento inovador da equipe de pesquisa sobre o ajuste fino de instruções e design de conectores.
No entanto, o caminho de pesquisa do Cambrian-1 não tem sido tranquilo. Os pesquisadores descobriram que mesmo MLLMs bem treinados podem ter deficiências nas habilidades de conversação, um fenômeno conhecido como “fenômeno da secretária eletrônica”. Para resolver esse problema, eles adicionaram avisos de sistema ao treinamento para incentivar o modelo a se envolver em conversas mais ricas.
O sucesso do Cambrian-1 é inseparável da forte equipe de pesquisa por trás dele. Entre eles, Shengbang Tong é um dos autores do artigo e sua contribuição não pode ser ignorada. Atualmente, ele está cursando doutorado na Universidade de Nova York, sob a supervisão do Professor Yann LeCun e do Professor Xie Saining. Os seus interesses de investigação abrangem modelos mundiais, aprendizagem não supervisionada/auto-supervisionada, modelos generativos e modelos multimodais.
O código aberto do Cambrian-1 traz uma lufada de ar fresco para a comunidade de IA. Ele não apenas fornece uma poderosa ferramenta de aprendizagem multimodal, mas também inspira as pessoas a pensar profundamente sobre a pesquisa em aprendizagem multimodal. À medida que mais e mais investigadores e programadores se juntam à exploração do Cambriano-1, temos razões para acreditar que este se tornará uma força importante na promoção do desenvolvimento da tecnologia de IA.
Endereço do projeto: https://github.com/cambrian-mllm/cambrian
Artigo: https://arxiv.org/abs/2406.16860
O surgimento do Cambrian-1 trouxe novas possibilidades ao campo da IA multimodal, e a sua natureza de código aberto também incentiva uma cooperação e inovação mais amplas. Esperamos que o Cambrian-1 seja capaz de demonstrar suas poderosas capacidades em mais campos no futuro e promover o avanço contínuo da tecnologia de IA.