Downcodes小编获悉,智谱AI近期宣布其CogVLM2-Video模型开源升级。该模型在视频理解领域取得重大突破,有效解决了现有模型在处理时间信息方面存在的不足。通过引入多帧视频图像和时间戳信息,并利用自动化的时间定位数据构建方法,CogVLM2-Video在视频字幕生成和时间定位方面展现出卓越性能,为视频生成和摘要等任务提供了强有力的工具。该模型在公共视频理解基准测试中取得了最先进的成果,其高效的自动化数据生成流程也降低了模型训练的成本。
智谱AI宣布CogVLM2-Video模型开源升级,这是一个在视频理解领域取得显着进展的模型。 CogVLM2-Video通过引入多帧视频图像和时间戳作为编码器输入,解决了现有视频理解模型在处理时间信息丢失问题上的局限。模型利用自动化的时间定位数据构建方法,生成了3万条与时间相关的视频问答数据,从而训练出在公共视频理解基准上达到最新性能的模型。 CogVLM2-Video在视频字幕生成和时间定位方面表现出色,为视频生成和摘要等任务提供了强大工具。
CogVLM2-Video通过从输入视频中提取帧并注释时间戳信息,使语言模型能准确知道每一帧的对应时间,从而实现时间定位和相关问答。
为了大规模训练,开发了自动化的视频问答数据生成流程,通过图像理解模型和大型语言模型的结合使用,减少了标注成本并提高了数据质量。最终构造的Temporal Grounding Question and Answer (TQA)数据集包含3万条记录,为模型训练提供了丰富的时间定位数据。
在多个公开评测集上,CogVLM2-Video展现了卓越的性能,包括在VideoChatGPT-Bench和Zero-shot QA以及MVBench等量化评估指标上的优异表现。
代码: https://github.com/THUDM/CogVLM2
项目网站: https://cogvlm2-video.github.io
在线试用: http://36.103.203.44:7868/
总而言之,CogVLM2-Video模型的开源升级为视频理解领域带来了新的可能性,其高效性和准确性将推动相关技术的进一步发展。感兴趣的开发者可以访问提供的链接进行查看和试用。 Downcodes小编期待更多基于该模型的创新应用出现!