L'éditeur de Downcodes a appris que Zhipu AI a récemment annoncé une mise à niveau open source de son modèle CogVLM2-Video. Ce modèle a réalisé une avancée majeure dans le domaine de la compréhension vidéo, résolvant efficacement les lacunes des modèles existants dans le traitement des informations temporelles. En introduisant des images vidéo multi-images et des informations d'horodatage, et en utilisant des méthodes automatisées de construction de données de positionnement temporel, CogVLM2-Video démontre d'excellentes performances en matière de génération de sous-titres vidéo et de positionnement temporel, fournissant un outil puissant pour des tâches telles que la génération et le résumé de vidéos. Le modèle a obtenu des résultats de pointe dans les tests de compréhension de vidéos publiques, et son processus efficace de génération de données automatisée réduit également le coût de formation du modèle.
Zhipu AI a annoncé une mise à niveau open source du modèle CogVLM2-Video, un modèle qui a fait des progrès significatifs dans le domaine de la compréhension vidéo. CogVLM2-Video résout les limites des modèles de compréhension vidéo existants en matière de gestion de la perte d'informations temporelles en introduisant des images vidéo multi-images et des horodatages comme entrées d'encodeur. Le modèle utilise une méthode automatisée de construction de données de positionnement temporel pour générer 30 000 données de questions et réponses vidéo liées au temps, formant ainsi un modèle qui atteint les dernières performances sur les références de compréhension de vidéos publiques. CogVLM2-Video excelle dans la génération de sous-titres vidéo et le positionnement temporel, fournissant un outil puissant pour des tâches telles que la génération et le résumé vidéo.
CogVLM2-Video extrait les images de la vidéo d'entrée et annote les informations d'horodatage, de sorte que le modèle de langage puisse connaître avec précision l'heure correspondante de chaque image, réalisant ainsi le positionnement temporel et les questions et réponses associées.
Pour la formation à grande échelle, un processus automatisé de génération de données vidéo de questions et réponses a été développé, ce qui réduit les coûts d'annotation et améliore la qualité des données grâce à l'utilisation combinée de modèles de compréhension d'image et de grands modèles de langage. L'ensemble de données de questions et réponses temporelles (TQA) finalement construit contient 30 000 enregistrements, fournissant de riches données de positionnement temporel pour la formation du modèle.
CogVLM2-Video a démontré d'excellentes performances sur plusieurs ensembles d'évaluation publics, y compris d'excellentes performances sur des indicateurs d'évaluation quantitative tels que VideoChatGPT-Bench et Zero-shot QA et MVBench.
Code : https://github.com/THUDM/CogVLM2
Site Web du projet : https://cogvlm2-video.github.io
Essai en ligne : http://36.103.203.44:7868/
Dans l’ensemble, la mise à niveau open source du modèle CogVLM2-Video apporte de nouvelles possibilités dans le domaine de la compréhension vidéo, et son efficacité et sa précision favoriseront le développement ultérieur des technologies associées. Les développeurs intéressés peuvent visiter le lien fourni pour le voir et l’essayer. L'éditeur de Downcodes attend avec impatience des applications plus innovantes basées sur ce modèle !