Récemment, le domaine de l’intelligence artificielle a fait des progrès significatifs. Le développement continu de grands modèles de langage (LLM) apporte de nouvelles possibilités pour le traitement du texte et de la vidéo. Cet article se concentrera sur le nouveau « Big World Model » (LWM) développé à l'Université de Californie à Berkeley, et sur ses progrès révolutionnaires dans le traitement de vidéos longues et de textes longs, et le comparera avec d'autres modèles leaders pour explorer ses avantages et ses limites. montrant les tendances de pointe de la technologie de l’intelligence artificielle.
Récemment, des chercheurs de l'UC Berkeley ont lancé le Large World Model (LWM), qui équivaut au Gemini 1.5 Pro de Google pour le traitement de longues vidéos et de séquences linguistiques. LWM est formé grâce à la technologie RingAttention et prend en charge le traitement de textes et de vidéos ultra-longs avec d'excellentes performances. Bien que des modèles tels que Gemini 1.5 et Sora aient suscité de vives discussions, ils présentent encore des limites et nécessitent davantage de recherche et d’exploration.
L’émergence de LWM marque un progrès important dans le traitement de textes et de vidéos ultra-longs, ouvrant une nouvelle direction aux futures applications de l’intelligence artificielle. Cependant, le développement technologique ne s’arrête jamais et nécessite une innovation et des percées continues pour mieux répondre aux besoins des individus. Nous attendons avec impatience l’émergence d’autres modèles excellents comme LWM à l’avenir pour promouvoir l’avancement de la technologie de l’intelligence artificielle.