️ Unsere Serie funktioniert: [ MMStar ] [ ShareGPT4V ] [ ShareGPT4Omni ]
Offizielle Implementierung von ShareGPT4Video: Verbesserung des Videoverständnisses und der Videogenerierung durch bessere Untertitel .
Hier ist ein Video zur klaren Einführung von ShareGPT4Video:
[1.10.2024] ShareGPT4Video wurde vom NeurIPS 2024 D&B-Track akzeptiert!
[01.07.2024] Der Code zur Batch-Inferenz von ShareCaptioner-Video ist jetzt verfügbar!
[11.06.2024] Die Web-Demo und die lokale Demo von ShareCaptioner-Video sind jetzt verfügbar!
[11.06.2024] Die Web-Demo und die lokale Demo von ShareGPT4Video-8B sind jetzt verfügbar!
[07.06.2024] Unsere Zeitung wurde als HuggingFace Daily Papers vorgestellt und belegte mit 6,7 den 1. Platz.
[27.05.2024] Das ShareGPT4Video-8B-Modell ist veröffentlicht!
[26.05.2024] Der ShareGPT4Video-Datensatz und die Projektseite sind veröffentlicht!
Mit dem folgenden Befehl können Sie unser ShareGPT4Video-Modell direkt für die Konversation mit Ihrem eigenen Video verwenden:
python run.py --model-path Lin-Chen/sharegpt4video-8b --video examples/yoga.mp4 --query Describe this video in detail.
Oder Sie können mit dem folgenden Befehl Ihre lokale Demo erstellen, um unser ShareGPT4Video-8B zu genießen:
python app.py
Mit dem folgenden Befehl können Sie Ihre lokale Demo zum Genießen unseres ShareCaptioner-Videos erstellen:
cd captioner
python app.py
git clone https://github.com/ShareGPT4Omni/ShareGPT4Video
conda create -n share4video python=3.10 -y
conda activate share4video
cd ShareGPT4Video
pip install --upgrade pip
pip install -e .
pip install -e " .[train] "
pip install flash-attn --no-build-isolation
Validierung der Wirksamkeit hochwertiger Videountertitel zur Verbesserung der Verständnisfähigkeit der LVLMs. Als Basis wählen wir die Modelle VideoLLaVA und LLaMA-VID. Die für beide Modelle verwendeten SFT-Daten sind LLaVA-mix665K-Bilddaten plus VideoChatGPT-100K-Videodaten. Wir ersetzen 28K-Untertiteldaten in VideoChatGPT-100K durch 28K-Untertiteldaten in hoher Qualität von ShareGPT4Video. Als nächstes nehmen wir VideoLLaVA als Beispiel.
Sie müssen zuerst den Anweisungen in VideoLLaVA folgen, um die Bilder und Videos vorzubereiten, und dann die in ShareGPT4Video verwendeten 28K-Videos von HuggingFace herunterladen (betrifft nur bdd100k, ego4d und panda).
Schließlich können Sie die Datei llava_v1_5_mix665k_with_video_chatgpt72k_share4video28k.json in der Datei „finetune.sh“ angeben, um die SFT durchzuführen und die Ergebnisse im Papier zu reproduzieren.
Wenn Sie unsere Arbeit für Ihre Forschung hilfreich finden, denken Sie bitte darüber nach, einen Stern zu vergeben und zu zitieren
@article { chen2024sharegpt4video ,
title = { ShareGPT4Video: Improving Video Understanding and Generation with Better Captions } ,
author = { Chen, Lin and Wei, Xilin and Li, Jinsong and Dong, Xiaoyi and Zhang, Pan and Zang, Yuhang and Chen, Zehui and Duan, Haodong and Lin, Bin and Tang, Zhenyu and others } ,
journal = { arXiv preprint arXiv:2406.04325 } ,
year = { 2024 }
}
@article { chen2023sharegpt4v ,
title = { ShareGPT4V: Improving Large Multi-Modal Models with Better Captions } ,
author = { Chen, Lin and Li, Jisong and Dong, Xiaoyi and Zhang, Pan and He, Conghui and Wang, Jiaqi and Zhao, Feng and Lin, Dahua } ,
journal = { arXiv preprint arXiv:2311.12793 } ,
year = { 2023 }
}
@article { chen2024we ,
title = { Are We on the Right Way for Evaluating Large Vision-Language Models? } ,
author = { Chen, Lin and Li, Jinsong and Dong, Xiaoyi and Zhang, Pan and Zang, Yuhang and Chen, Zehui and Duan, Haodong and Wang, Jiaqi and Qiao, Yu and Lin, Dahua and others } ,
journal = { arXiv preprint arXiv:2403.20330 } ,
year = { 2024 }
}