Modelo de mundo grande: IA gera vídeos e imagens e interpreta 1 milhão de dados por vez

Autor：Eve Cole Data da Última Atualização：2025-02-04 04:32:01

Pesquisadores da Universidade da Califórnia, Berkeley, abriram recentemente o código-fonte de um poderoso modelo de IA chamado Large World Model (LWM), que pode processar milhões de dados por vez e tem a incrível capacidade de gerar vídeos e imagens a partir de texto. Isto marca um progresso significativo no processamento multimodal de informações no domínio da IA. O principal avanço do LWM está em sua tecnologia exclusiva Ring Attention, que resolve efetivamente o problema de cálculo de atenção de sequência longa e fornece suporte fundamental para o processamento eficiente de dados massivos. Após treinamento rigoroso em dois estágios de pré-treinamento de modelo de linguagem e pré-treinamento multimodal, o LWM mostrou resultados impressionantes e abriu um novo capítulo para futuras aplicações de IA.

Recentemente, pesquisadores da Universidade da Califórnia, Berkeley, abriram o código do Large World Model (LWM), que pode interpretar 1 milhão de dados por vez e tem a capacidade de gerar vídeos e imagens a partir de texto. Este modelo resolve o problema de cálculo de atenção de sequência longa por meio da tecnologia Ring Attention e alcança processamento eficiente de informações multimodais. Depois de passar por duas etapas de pré-treinamento do modelo de linguagem e pré-treinamento multimodal, resultados notáveis foram alcançados.

O código aberto do LWM fornece recursos valiosos para a academia e a indústria e promoverá ainda mais o rápido desenvolvimento de modelos de linguagem em larga escala e tecnologia de IA multimodal. Acredita-se que no futuro surgirão mais aplicações inovadoras baseadas em LWM, trazendo mais comodidade e surpresas para a vida das pessoas. Este é sem dúvida um marco emocionante no campo da inteligência artificial.