️ Seri kami berfungsi: [ MMStar ] [ ShareGPT4V ] [ ShareGPT4Omni ]
Penerapan resmi ShareGPT4Video: Meningkatkan Pemahaman dan Pembuatan Video dengan Teks yang Lebih Baik .
Berikut video pengenalan ShareGPT4Video dengan jelas:
[2024/10/1] ShareGPT4Video diterima oleh trek D&B NeurIPS 2024!
[2024/7/1] Kode tentang inferensi batch ShareCaptioner-Video telah tersedia sekarang!
[2024/6/11] Demo web dan demo lokal ShareCaptioner-Video telah tersedia sekarang!
[2024/6/11] Demo web dan demo lokal ShareGPT4Video-8B telah tersedia sekarang!
[2024/6/7] Makalah kami telah ditampilkan sebagai Makalah Harian HuggingFace dan menduduki peringkat 1 di 6.7.
[2024/5/27] Model ShareGPT4Video-8B dirilis!
[2024/5/26] Kumpulan data dan halaman proyek ShareGPT4Video telah dirilis!
Anda dapat langsung menggunakan model ShareGPT4Video kami untuk percakapan dengan video Anda sendiri dengan perintah berikut:
python run.py --model-path Lin-Chen/sharegpt4video-8b --video examples/yoga.mp4 --query Describe this video in detail.
Atau Anda dapat membuat demo lokal untuk menikmati ShareGPT4Video-8B kami dengan perintah berikut:
python app.py
Anda dapat membuat demo lokal untuk menikmati Video ShareCaptioner kami dengan perintah berikut:
cd captioner
python app.py
git clone https://github.com/ShareGPT4Omni/ShareGPT4Video
conda create -n share4video python=3.10 -y
conda activate share4video
cd ShareGPT4Video
pip install --upgrade pip
pip install -e .
pip install -e " .[train] "
pip install flash-attn --no-build-isolation
Untuk memvalidasi efektivitas teks video berkualitas tinggi dalam membantu meningkatkan kemampuan pemahaman LVLM. Kami memilih model VideoLLaVA dan LLaMA-VID sebagai dasar kami. Data SFT yang digunakan untuk kedua model adalah data gambar LLaVA-mix665K ditambah data video VideoChatGPT-100K. Kami mengganti data teks 28K di VideoChatGPT-100K dengan data teks berkualitas tinggi 28K dari ShareGPT4Video. Selanjutnya kita ambil VideoLLaVA sebagai contoh.
Anda harus mengikuti petunjuk di VideoLLaVA untuk menyiapkan gambar dan video terlebih dahulu, lalu mengunduh 28K video yang digunakan di ShareGPT4Video dari HuggingFace (hanya melibatkan bdd100k, ego4d, dan panda).
Terakhir, Anda dapat menentukan file llava_v1_5_mix665k_with_video_chatgpt72k_share4video28k.json di finetune.sh untuk melakukan SFT guna mereproduksi hasil di kertas.
Jika menurut Anda pekerjaan kami bermanfaat untuk penelitian Anda, mohon pertimbangkan untuk memberikan bintang dan kutipan
@article { chen2024sharegpt4video ,
title = { ShareGPT4Video: Improving Video Understanding and Generation with Better Captions } ,
author = { Chen, Lin and Wei, Xilin and Li, Jinsong and Dong, Xiaoyi and Zhang, Pan and Zang, Yuhang and Chen, Zehui and Duan, Haodong and Lin, Bin and Tang, Zhenyu and others } ,
journal = { arXiv preprint arXiv:2406.04325 } ,
year = { 2024 }
}
@article { chen2023sharegpt4v ,
title = { ShareGPT4V: Improving Large Multi-Modal Models with Better Captions } ,
author = { Chen, Lin and Li, Jisong and Dong, Xiaoyi and Zhang, Pan and He, Conghui and Wang, Jiaqi and Zhao, Feng and Lin, Dahua } ,
journal = { arXiv preprint arXiv:2311.12793 } ,
year = { 2023 }
}
@article { chen2024we ,
title = { Are We on the Right Way for Evaluating Large Vision-Language Models? } ,
author = { Chen, Lin and Li, Jinsong and Dong, Xiaoyi and Zhang, Pan and Zang, Yuhang and Chen, Zehui and Duan, Haodong and Wang, Jiaqi and Qiao, Yu and Lin, Dahua and others } ,
journal = { arXiv preprint arXiv:2403.20330 } ,
year = { 2024 }
}