Descarga de ShareGPT4Video - Descarga del código fuente ShareGPT4Video

ShareGPT4Video

Otro código fuente

1.0.0

Descargar

ShareGPT4Video: Mejorar la comprensión y generación de videos con mejores subtítulos

️ Nuestra serie funciona: [ MMStar ] [ ShareGPT4V ] [ ShareGPT4Omni ]

Implementación oficial de ShareGPT4Video: mejora de la comprensión y generación de videos con mejores subtítulos .

Aquí hay un video para presentar ShareGPT4Video claramente:

demo_clip_v2.mp4

Autores : Lin Chen*, Xilin Wei* Jinsong Li*, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Zehui Chen, Haodong Duan, Bin Lin, Zhenyu Tang, Li Yuan, Yu Qiao, Dahua Lin, Feng Zhao?, Jiaqi Wang?
Institutos : Universidad de Ciencia y Tecnología de China; La Universidad China de Hong Kong; Universidad de Pekín; Laboratorio de IA de Shanghai
Recursos : [Documento] [Página del proyecto] [ShareGPT4Video Dataset] [Colab]
Modelos : [?ShareGPT4Video-8B] [?ShareCaptioner-Video]
Demostración : [?ShareGPT4Video-8B] [?ShareCaptioner-Video]

Reflejos

Un conjunto de datos de texto y vídeo altamente descriptivo a gran escala , 40.000 subtítulos de vídeo generados por GPT4-Vision y alrededor de 400.000 subtítulos divididos de vídeo implícitos.
Un subtitulado de vídeo general para diversas duraciones, resoluciones y relaciones de aspecto de vídeo , que se acerca a la capacidad de subtítulos de GPT4-Vision y presenta dos modos de inferencia orientados a la calidad y la eficiencia, por separado.
Un modelo superior de lenguaje de vídeo de gran tamaño ShareGPT4Video-8B , que dura 5 horas en 8xA100 GPU de entrenamiento respectivamente.
Mejora del rendimiento de texto a video con subtítulos de video de alta calidad generados por nuestro ShareCaptioner-Video. Gracias a Open-Sora-Plan.

Noticias

[2024/10/1] ¡ShareGPT4Video fue aceptado por la pista NeurIPS 2024 D&B!

[2024/7/1] ¡ El código sobre la inferencia por lotes de ShareCaptioner-Video ya está disponible!

[2024/6/11] ¡ La demostración web y la demostración local de ShareCaptioner-Video ya están disponibles!

[2024/6/11] ¡ La demostración web y la demostración local de ShareGPT4Video-8B ya están disponibles!

[2024/6/7] Nuestro periódico apareció como HuggingFace Daily Papers y ocupó el primer lugar en 6.7.

[2024/5/27] ¡Se lanza el modelo ShareGPT4Video-8B!

[2024/5/26] ¡Se publican el conjunto de datos ShareGPT4Video y la página del proyecto!

?hacer

Código de entrenamiento para ShareGPT4Video-8B
Código de inferencia por lotes para ShareCaptioner-Video
Demostración web y demostración local de ShareCaptioner-Video
Demostración web y demostración local de ShareGPT4Video-8B
Puntos de control de ShareGPT4Video-8B

Uso rápido

Puede usar directamente nuestro modelo ShareGPT4Video para conversar con su propio video con el siguiente comando:

 python run.py --model-path Lin-Chen/sharegpt4video-8b --video examples/yoga.mp4 --query Describe this video in detail.

O puede crear su demostración local para disfrutar de nuestro ShareGPT4Video-8B con el siguiente comando:

 python app.py

Puede crear su demostración local para disfrutar de nuestro ShareCaptioner-Video con el siguiente comando:

 cd captioner

python app.py

Instalar

git clone https://github.com/ShareGPT4Omni/ShareGPT4Video
conda create -n share4video python=3.10 -y
conda activate share4video

cd ShareGPT4Video
pip install --upgrade pip
pip install -e .
pip install -e " .[train] "
pip install flash-attn --no-build-isolation

Tren

Validar la eficacia de los subtítulos de vídeo de alta calidad para ayudar a mejorar las capacidades de comprensión de los LVLM. Elegimos los modelos VideoLLaVA y LLaMA-VID como base. Los datos SFT utilizados para ambos modelos son datos de imagen LLaVA-mix665K más datos de video VideoChatGPT-100K. Reemplazamos datos de subtítulos de 28K en VideoChatGPT-100K con datos de subtítulos de alta calidad de 28K de ShareGPT4Video. A continuación, tomamos VideoLLaVA como ejemplo.

Primero debe seguir las instrucciones en VideoLLaVA para preparar las imágenes y los videos, luego descargar los videos de 28K utilizados en ShareGPT4Video desde HuggingFace (solo involucra bdd100k, ego4d y panda).

Finalmente, puede especificar el archivo llava_v1_5_mix665k_with_video_chatgpt72k_share4video28k.json en finetune.sh para realizar el SFT y reproducir los resultados en el documento.

✒️ Cita

Si encuentra útil nuestro trabajo para su investigación, considere otorgar una estrella y una cita.

 @article { chen2024sharegpt4video ,
  title = { ShareGPT4Video: Improving Video Understanding and Generation with Better Captions } ,
  author = { Chen, Lin and Wei, Xilin and Li, Jinsong and Dong, Xiaoyi and Zhang, Pan and Zang, Yuhang and Chen, Zehui and Duan, Haodong and Lin, Bin and Tang, Zhenyu and others } ,
  journal = { arXiv preprint arXiv:2406.04325 } ,
  year = { 2024 }
}

@article { chen2023sharegpt4v ,
  title = { ShareGPT4V: Improving Large Multi-Modal Models with Better Captions } ,
  author = { Chen, Lin and Li, Jisong and Dong, Xiaoyi and Zhang, Pan and He, Conghui and Wang, Jiaqi and Zhao, Feng and Lin, Dahua } ,
  journal = { arXiv preprint arXiv:2311.12793 } ,
  year = { 2023 }
}

@article { chen2024we ,
  title = { Are We on the Right Way for Evaluating Large Vision-Language Models? } ,
  author = { Chen, Lin and Li, Jinsong and Dong, Xiaoyi and Zhang, Pan and Zang, Yuhang and Chen, Zehui and Duan, Haodong and Wang, Jiaqi and Qiao, Yu and Lin, Dahua and others } ,
  journal = { arXiv preprint arXiv:2403.20330 } ,
  year = { 2024 }
}

❤️Agradecimientos

LLaVA: el código base sobre el que construimos. Gracias por su maravilloso trabajo.
Open-Sora-Plan: una excelente base de código de código abierto para la implementación de texto a video similar a Sora. Gracias por su maravilloso trabajo.
Open-LLaVA-NeXT: una base de código de código abierto para reproducir el procedimiento de capacitación de la serie LLaVA-NeXT.

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2024-12-06
tamaño 7.91MB
Proviene de Github

Aplicaciones relacionadas

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
waymo open dataset

Otro código fuente

December 2023 Update
SmartTube

Otro código fuente

24.71 Stable
Sunamu

Otro código fuente

Release 2.2.0
waymo open dataset

Otro código fuente

December 2023 Update
wp functions

Otras categorias

1.0.0
termwind

Otras categorias

v2.3.0

Información relacionada Todo