A equipe de Li Feifei divulgou recentemente um resultado de pesquisa inovador: um novo modelo multimodal que pode compreender e gerar ações humanas e combina de forma inteligente modelos de linguagem para alcançar o processamento unificado da linguagem verbal e não verbal. Esta inovação não só permite que as máquinas compreendam as instruções humanas, mas também interpretem as emoções por trás das ações, conseguindo assim uma interação homem-computador mais natural e suave. O núcleo do modelo está em sua estrutura de modelo de linguagem multimodal, que pode integrar múltiplas entradas, como áudio, movimento e texto, e gerar dados modais correspondentes. Ele funciona bem em tarefas como geração colaborativa de gestos de fala, reduz significativamente a quantidade de dados necessários para o treinamento do modelo e expande novos cenários de aplicação, como geração de gestos editáveis e previsão de emoções por meio de ações.
A equipe de Li Feifei lançou um novo modelo multimodal que pode compreender e gerar ações humanas e, ao combinar modelos de linguagem, consegue um processamento unificado da linguagem verbal e não verbal. Esta investigação inovadora permite que as máquinas não só compreendam as instruções humanas, mas também leiam as emoções contidas nas ações, permitindo uma interação mais natural entre o homem e o computador.
O núcleo do modelo está em sua estrutura de modelo de linguagem multimodal, que pode receber múltiplas formas de entrada, como áudio, movimento e texto, e gerar os dados modais necessários. Combinado com uma estratégia generativa de pré-treinamento, o modelo apresenta excelente desempenho em múltiplas tarefas. Por exemplo, na geração colaborativa de gestos de fala, o modelo não apenas supera o estado da arte, mas também reduz significativamente a quantidade de dados necessários para o treinamento. Além disso, o modelo também desbloqueia novos cenários de aplicação, como geração de gestos editáveis e previsão de emoções por meio de ações.
A comunicação humana é de natureza multimodal e inclui pistas verbais e não verbais, como fala, expressões faciais e postura corporal. A capacidade deste modelo de compreender esses comportamentos multimodais é crítica para a criação de personagens virtuais que se comunicam naturalmente em aplicações como jogos, filmes e realidade virtual. No entanto, os modelos existentes de geração de ações são muitas vezes limitados a modalidades de entrada específicas (fala, texto ou dados de ação) e não conseguem explorar plenamente a diversidade de dados disponíveis.
Este modelo utiliza modelos de linguagem para unificar a linguagem verbal e não verbal por três razões principais:
Os modelos de linguagem conectam naturalmente diferentes modalidades.
A fala é altamente semântica e tarefas como modelar respostas a piadas exigem fortes capacidades de raciocínio semântico.
O modelo de linguagem adquire fortes capacidades de compreensão semântica através de extenso pré-treinamento.
Para conseguir isso, a equipe de pesquisa primeiro dividiu o corpo em diferentes partes (rosto, mãos, parte superior do corpo, parte inferior do corpo) e rotulou cada parte individualmente para movimento. Combinando tokenizadores de texto e fala, a entrada em qualquer modalidade pode ser representada como uma série de tokens para uso por modelos de linguagem. O modelo adota um processo de treinamento em duas etapas: primeiro o pré-treinamento para conseguir o alinhamento das diversas modalidades com movimentos corporais combinados, bem como o alinhamento de áudio e texto. Posteriormente, as tarefas posteriores são convertidas em instruções e o modelo é treinado nessas instruções para que possa seguir várias instruções de tarefas.
O modelo teve um bom desempenho no benchmark de geração de gestos de fala colaborativos BEATv2, superando em muito os modelos existentes. O efeito da estratégia de pré-treinamento também foi verificado, principalmente quando os dados são escassos, demonstrando forte capacidade de generalização. Ao pós-treinamento em tarefas de ação de fala e ação de texto, o modelo pode não apenas seguir instruções de áudio e texto, mas também alcançar novas funções, como prever emoções a partir de dados de ação.
Em detalhes técnicos, o modelo emprega tokenizadores específicos de modalidade para lidar com diversas modalidades de entrada. Especificamente, o modelo treina um movimento corporal combinado VQ-VAE que converte movimentos faciais, das mãos, da parte superior e inferior do corpo em marcadores discretos. Esses vocabulários específicos da modalidade (áudio e texto) são combinados em um vocabulário multimodal unificado. Durante o treinamento, tokens mistos de diferentes modalidades são usados como entrada e a saída é gerada por um modelo de linguagem codificador-decodificador.
O modelo também utiliza um vocabulário multimodal para converter diferentes dados modais em um formato unificado para processamento. Na fase de pré-treinamento, o modelo aprende a correspondência entre as diferentes modalidades realizando tarefas de conversão entre modalidades. Por exemplo, um modelo pode aprender a traduzir movimentos da parte superior do corpo em movimentos da parte inferior ou converter áudio em texto. Além disso, o modelo aprende a evolução temporal das ações mascarando aleatoriamente certos quadros de ação.
Na fase pós-treinamento, o modelo é ajustado usando dados emparelhados para realizar tarefas posteriores, como geração colaborativa de gestos de fala ou geração de texto para ação. Para permitir que o modelo siga instruções humanas naturais, os pesquisadores construíram um modelo de instrução multitarefa que converte tarefas como áudio em ação, texto em ação e emoção em ação em instruções. O modelo também tem a capacidade de editar gestos para gerar movimentos coordenados de corpo inteiro com base em sinais de texto e áudio.
Finalmente, o modelo também abre novas capacidades para prever emoções a partir de ações. Isto tem implicações importantes para áreas como a saúde mental ou a psiquiatria. Este modelo é capaz de prever com mais precisão as emoções expressas nas ações do que outros modelos, mostrando fortes capacidades de compreensão da linguagem corporal.
A pesquisa mostra que unificar a linguagem verbal e não verbal das ações humanas é fundamental para aplicações práticas, e os modelos de linguagem fornecem uma estrutura poderosa para isso.
Endereço do artigo: https://arxiv.org/pdf/2412.10523v1
Em suma, esta investigação trouxe progressos significativos ao campo da inteligência artificial multimodal. O seu potencial de aplicação na interação humano-computador, na criação de personagens virtuais e no reconhecimento de emoções é enorme e merece mais atenção e investigação. No futuro, espera-se que este modelo desempenhe um papel em mais campos e promova o desenvolvimento da tecnologia de inteligência artificial.