O editor do Downcodes soube que a Zhipu AI anunciou recentemente uma atualização de código aberto de seu modelo CogVLM2-Video. Este modelo fez um grande avanço no campo da compreensão de vídeo, resolvendo efetivamente as deficiências dos modelos existentes no processamento de informações temporais. Ao introduzir imagens de vídeo multiquadro e informações de carimbo de data / hora e utilizar métodos automatizados de construção de dados de posicionamento de tempo, o CogVLM2-Video demonstra excelente desempenho na geração de legendas de vídeo e posicionamento de tempo, fornecendo uma ferramenta poderosa para tarefas como geração e resumo de vídeo. O modelo alcançou resultados de última geração em benchmarks de compreensão de vídeo público, e seu eficiente processo automatizado de geração de dados também reduz o custo de treinamento do modelo.
Zhipu AI anunciou uma atualização de código aberto do modelo CogVLM2-Video, um modelo que fez progressos significativos no campo da compreensão de vídeo. O CogVLM2-Video resolve as limitações dos modelos de compreensão de vídeo existentes ao lidar com a perda de informações temporais, introduzindo imagens de vídeo multiquadro e carimbos de data/hora como entradas do codificador. O modelo usa um método automatizado de construção de dados de posicionamento de tempo para gerar 30.000 dados de perguntas e respostas de vídeo relacionados ao tempo, treinando assim um modelo que atinge o desempenho mais recente em benchmarks de compreensão de vídeo público. CogVLM2-Video se destaca na geração de legendas de vídeo e posicionamento temporal, fornecendo uma ferramenta poderosa para tarefas como geração e resumo de vídeo.
CogVLM2-Video extrai quadros do vídeo de entrada e anota as informações do carimbo de data / hora, para que o modelo de linguagem possa saber com precisão o tempo correspondente de cada quadro, obtendo assim o posicionamento do tempo e as perguntas e respostas relacionadas.
Para treinamento em larga escala, foi desenvolvido um processo automatizado de geração de dados de perguntas e respostas em vídeo, que reduz custos de anotação e melhora a qualidade dos dados por meio do uso combinado de modelos de compreensão de imagens e modelos de linguagem grande. O conjunto de dados de perguntas e respostas de aterramento temporal (TQA) finalmente construído contém 30.000 registros, fornecendo dados ricos de posicionamento temporal para treinamento de modelo.
O CogVLM2-Video demonstrou excelente desempenho em vários conjuntos de avaliação pública, incluindo excelente desempenho em indicadores de avaliação quantitativa, como VideoChatGPT-Bench e Zero-shot QA e MVBench.
Código: https://github.com/THUDM/CogVLM2
Site do projeto: https://cogvlm2-video.github.io
Teste on-line: http://36.103.203.44:7868/
Em suma, a atualização de código aberto do modelo CogVLM2-Video traz novas possibilidades para o campo da compreensão de vídeo, e sua eficiência e precisão promoverão o desenvolvimento de tecnologias relacionadas. Os desenvolvedores interessados podem visitar o link fornecido para visualizar e experimentar. O editor de Downcodes espera aplicações mais inovadoras baseadas neste modelo!