[2024/10/04] ? LLaVA-Video (sebelumnya LLaVA-NeXT-Video) telah mengalami peningkatan besar! Kami sangat antusias untuk merilis LLaVA-Video-178K , kumpulan data sintetis berkualitas tinggi untuk penyetelan instruksi video. Kumpulan data ini meliputi:
Bersamaan dengan ini, kami juga merilis model LLaVA-Video 7B/72B , yang memberikan kinerja kompetitif pada tolok ukur video terbaru, termasuk Video-MME, LongVideoBench, dan Dream-1K.
Jelajahi lebih lanjut :
Kumpulan Data LLaVA-Video-178K: Unduh kumpulan data.
Model Video-LLaVA: Mengakses pos pemeriksaan model.
Makalah: Informasi rinci tentang LLaVA-Video.
Dokumentasi Video-LLaVA: Panduan pelatihan, inferensi dan evaluasi.
178.510 entri teks
960.792 pasangan tanya jawab terbuka
196.198 item tanya jawab pilihan ganda
[2024/09/13] ? ? LLaVA-OneVision-Obrolan . LLaVA-OV-Chat baru (7B/72B) secara signifikan meningkatkan pengalaman obrolan LLaVA-OV. ?
[2024/08/06] ? ? LLaVA-OneVision (OV)! Model LLaVA-OV baru (0,5B/7B/72B) mencapai performa tercanggih baru pada benchmark gambar tunggal, multi-gambar, dan video, terkadang menyaingi model komersial teratas pada 47 benchmark yang berbeda. ? Jelajahi Lebih Lanjut:
[Makalah]: Wawasan mendalam, skenario baru yang muncul, yaitu pemahaman video yang kuat melalui transfer tugas dari gambar.
[LLaVA-OV Doc]: Inferensi model dan panduan evaluasi.
[Skrip]: Mulai model pelatihan pada data gambar tunggal/multi-gambar/video Anda.
[2024/07/16] ? LLaVA-NeXT-Video telah ditingkatkan. Model 32B baru mencapai kinerja sumber terbuka terbaik pada beberapa tolok ukur video, termasuk Video-MME. Silakan merujuk ke halaman ini untuk detailnya, lihat llava_next-video_demo untuk demo.
[2024/06/23] ? LLaVA-NeXT-Interleave dirilis. Kami menggunakan format interleaved gambar-teks untuk menyatukan tugas multi-gambar, video, dan 3D dalam satu LLM dan mencapai kinerja SoTA pada berbagai tolok ukur. Lihat makalah, blog, dan pos pemeriksaan untuk melihat kemampuan baru dan peningkatan kinerja! Kami telah merilis model 0,5b, 7b, dan 7b-dpo.
LLM serba bisa untuk multi-gambar, video, dan 3D dengan kinerja kuat [demo]
Buatlah data pelatihan interleave M4-Instruct
Buatlah benchmark multi-gambar LLaVA-Interleave Bench
[2024/05/25] ? Ingin tahu "Apa Lagi yang Mempengaruhi Penyetelan Instruksi Visual Selain Data?" Blog baru kami merangkum eksplorasi empiris untuk menghilangkan berbagai pilihan desain dalam meningkatkan LMM kecuali menginstruksikan data itu sendiri. Sementara itu, data berkualitas tinggi direkap secara open source menggunakan LLaVA-NeXT-34B di [COCO] [LCS] [CC3M].
Arsitektur (LMM & Vision Encoder)
Representasi Visual (Resolusi & # Token)
Strategi Pelatihan (Data berkualitas tinggi & modul yang dapat dilatih)
[2024/05/10] ? Model LLaVA-NeXT (Lebih Kuat) dirilis, dengan dukungan LMM yang lebih kuat termasuk LLama-3 (8B) dan Qwen-1.5 (72B/110B) Lihat [blog] dan [pos pemeriksaan] untuk melihat peningkatan kinerja!
[2024/05/10] ? LLaVA-NeXT (Video) dirilis. Model LLaVA-NeXT yang dilatih hanya gambar ternyata sangat kuat dalam tugas video dengan transfer modalitas zero-shot. Pelatihan DPO dengan umpan balik AI pada video dapat menghasilkan peningkatan yang signifikan. [Blog], [pos pemeriksaan] dan [sglang]
[2024/01/30] ? LLaVA-NeXT sudah keluar! Dengan penskalaan tambahan ke LLaVA-1.5, LLaVA-NeXT-34B mengungguli Gemini Pro pada beberapa benchmark. Sekarang dapat memproses piksel 4x lebih banyak dan melakukan lebih banyak tugas/aplikasi daripada sebelumnya. Lihat postingan blog, dan jelajahi demonya! Model tersedia di Model Zoo. Data dan skrip pelatihan/evaluasi segera hadir.
[2024/03/10] ? Merilis LMMs-Eval , jalur evaluasi yang sangat efisien yang kami gunakan saat mengembangkan LLaVA-NeXT. Ini mendukung evaluasi LMM pada lusinan kumpulan data publik dan memungkinkan orientasi kumpulan data baru, membuat pengembangan LMM baru jauh lebih cepat. [Blog] [Basis Kode]
[2023/11/10] LLaVA-Plus dirilis: Belajar Menggunakan Alat untuk Membuat Agen Multimodal, dengan LLaVA-Plus (LLaVA yang Memasang dan Belajar Menggunakan Keterampilan). [Halaman Proyek] [Demo] [Kode] [Kertas]
[2023/11/02] LLaVA-Interactive dirilis: Rasakan masa depan interaksi multimodal manusia-AI dengan demo lengkap untuk Obrolan Gambar, Segmentasi, Pembuatan, dan Pengeditan. [Halaman Proyek] [Demo] [Kode] [Kertas]
[2023/10/26] ? LLaVA-1.5 dengan LoRA mencapai kinerja yang sebanding dengan penyempurnaan model penuh, dengan pengurangan kebutuhan RAM GPU (ckpts, skrip). Kami juga menyediakan dokumen tentang cara menyempurnakan LLaVA-1.5 pada kumpulan data Anda sendiri dengan LoRA.
[2023/10/12] Lihat LLaVA Korea (Ko-LLaVA), yang dibuat oleh ETRI, yang dengan murah hati mendukung penelitian kami! [? Demo]
[2023/10/05] ? LLaVA-1.5 sudah keluar! Mencapai SoTA pada 11 tolok ukur, hanya dengan modifikasi sederhana pada LLaVA asli, menggunakan semua data publik, menyelesaikan pelatihan dalam ~1 hari pada satu node 8-A100, dan melampaui metode seperti Qwen-VL-Chat yang menggunakan data berskala miliaran. Lihat laporan teknisnya, dan jelajahi demonya! Model tersedia di Model Zoo. Data pelatihan dan skrip LLaVA-1.5 dirilis di sini, dan skrip evaluasi dirilis di sini!
[2023/09/26] LLaVA ditingkatkan dengan pembelajaran penguatan dari umpan balik manusia (RLHF) untuk meningkatkan landasan fakta dan mengurangi halusinasi. Lihat pos pemeriksaan SFT dan RLHF baru di proyek [LLavA-RLHF]
[2023/09/22] LLaVA diterima oleh NeurIPS 2023 sebagai presentasi lisan , dan LLaVA-Med diterima oleh Kumpulan Data dan Jalur Tolok Ukur NeurIPS 2023 sebagai presentasi sorotan .
[2023/11/06] Mendukung platform Intel dGPU dan CPU. Lebih detailnya di sini.
[2023/10/12] LLaVA sekarang didukung di llama.cpp dengan dukungan kuantisasi 4-bit / 5-bit!
[2023/10/11] Data pelatihan dan skrip LLaVA-1.5 dirilis di sini, dan skrip evaluasi dirilis di sini!
[2023/10/10] Roboflow Deep Dive: Kesan Pertama dengan LLaVA-1.5.
[2023/09/20] Kami merangkum studi empiris kami tentang pelatihan model LLaVA 33B dan 65B dalam sebuah catatan. Selanjutnya, jika Anda tertarik dengan tinjauan komprehensif, evolusi dan tren model landasan multimodal, silakan lihat makalah survei terbaru kami ``Model Landasan Multimodal: Dari Spesialis hingga Asisten Tujuan Umum''.
[2023/07/19] ? Kami merilis peningkatan besar, termasuk dukungan untuk LLaMA-2, pelatihan LoRA, inferensi 4-/8-bit, resolusi lebih tinggi (336x336), dan banyak lagi. Kami merilis LLaVA Bench untuk membandingkan obrolan visual terbuka dengan hasil dari Bard dan Bing-Chat. Kami juga mendukung dan memverifikasi pelatihan dengan RTX 3090 dan RTX A6000. Lihat LLaVA-dari-LLaMA-2, dan kebun binatang model kami!
[2023/06/26] Tutorial CVPR 2023 tentang Model Multimodal Besar: Menuju Membangun dan Melampaui Multimodal GPT-4 ! Silakan lihat [Slide] [Catatan] [YouTube] [Bilibli].
[2023/06/11] Kami merilis pratinjau untuk fitur yang paling banyak diminta: dukungan DeepSpeed dan LoRA! Silakan lihat dokumentasi di sini.
[2023/06/01] Kami merilis LLaVA-Med: Asisten Bahasa dan Penglihatan Besar untuk Biomedis , sebuah langkah menuju pembangunan model bahasa dan penglihatan besar domain biomedis dengan kemampuan tingkat GPT-4. Periksa kertas dan halamannya.
[2023/05/06] Kami merilis pratinjau LLaVA-Lighting-MPT-7B, berdasarkan MPT-7B-Chat! Lihat di sini untuk lebih jelasnya.
[2023/05/02] ? Kami merilis LLaVA-Lighting! Latih GPT-4 multimodal yang ringan hanya dengan $40 dalam 3 jam! Lihat di sini untuk lebih jelasnya.
[2023/04/27] Berkat upaya komunitas, LLaVA-13B dengan kuantisasi 4-bit memungkinkan Anda berjalan pada GPU dengan VRAM sedikitnya 12 GB! Cobalah di sini.
[2023/04/17] ? Kami merilis LLaVA: Asisten Bahasa dan Penglihatan Besar . Kami mengusulkan penyesuaian instruksi visual, untuk membangun model bahasa dan visi yang besar dengan kemampuan tingkat GPT-4. Lihat makalah dan demonya.
Pemberitahuan Penggunaan dan Lisensi : Proyek ini menggunakan kumpulan data dan pos pemeriksaan tertentu yang tunduk pada lisensi aslinya masing-masing. Pengguna harus mematuhi semua syarat dan ketentuan lisensi asli ini, termasuk namun tidak terbatas pada Ketentuan Penggunaan OpenAI untuk kumpulan data dan lisensi khusus untuk model bahasa dasar untuk pos pemeriksaan yang dilatih menggunakan kumpulan data tersebut (misalnya lisensi komunitas Llama-1/2 untuk LLaMA-2 dan Vicuna-v1.5, PERJANJIAN LISENSI PENELITIAN Tongyi Qianwen dan Lisensi Penelitian Llama-3). Proyek ini tidak menerapkan batasan tambahan apa pun di luar yang ditetapkan dalam izin awal. Selain itu, pengguna diingatkan untuk memastikan bahwa penggunaan dataset dan pos pemeriksaan mematuhi semua undang-undang dan peraturan yang berlaku.
git klon https://github.com/LLaVA-VL/LLaVA-NeXTcd LLaVA-NeXT
conda buat -n llava python=3.10 -y conda mengaktifkan llava pip install --upgrade pip # Aktifkan dukungan PEP 660.pip install -e ".[train]"
Silakan periksa halaman berikut untuk inferensi & detail evaluasi lebih lanjut.
LLaVA-OneVision: untuk inferensi demo. Kode evaluasi ada di lmms-eval.
LLaVA-NeXT-Image: untuk inferensi demo gambar dan evaluasi LMM yang lebih kuat menggunakan lmms-eval.
LLaVA-NeXT-Video: untuk inferensi video dan skrip evaluasi. Kami merekomendasikan untuk menggunakan video LMM untuk evaluasi.
LLaVA-NeXT-Interleave: untuk demo multi-gambar dan skrip evaluasi.
Kami menggunakan SGLang untuk mempercepat inferensi dan penerapan LLaVA-NeXT. Anda dapat menjadikan LLaVA-NeXT sebagai layanan API backend dengan SGLang.
Siapkan Lingkungan : Mengikuti instruksi dalam bahasa gaul
Periksa penggunaan HTTP Post/Get dan SRT di sglang/examples/runtime/llava_onevision
Luncurkan dan Jalankan pada (K) Node :
Pergi ke proyek sglang
cd PATH_TO/sglang
simpul pertama:
contoh bash/penggunaan/llava_video/srt_example_llava_v.sh K 0 YOUR_VIDEO_PATH YOUR_MODEL_PATH FRAMES_PER_VIDEO (misalnya bash contoh/penggunaan/llava_video/srt_example_llava_v.sh K 0 contoh/penggunaan/llava_video/videos/Q98Z4OTh8RwmDonc.mp4 lmms-lab/LLaVA-NeXT-Video-7B-DPO 16)
Node kedua:
contoh bash/penggunaan/llava_video/srt_example_llava_v.sh K 1 YOUR_VIDEO_PATH YOUR_MODEL_PATH FRAMES_PER_VIDEO
simpul K:
contoh bash/penggunaan/llava_video/srt_example_llava_v.sh K K-1 YOUR_VIDEO_PATH YOUR_MODEL_PATH FRAMES_PER_VIDEO
Jika Anda merasa berguna untuk penelitian dan aplikasi Anda, silakan kutip makalah/blog terkait yang menggunakan BibTeX ini:
@article{li2024llava, title={LLaVA-NeXT-Interleave: Menangani Multi-gambar, Video, dan 3D dalam Model Multimodal Besar}, author={Li, Feng dan Zhang, Renrui dan Zhang, Hao dan Zhang, Yuanhan dan Li, Bo dan Li, Wei dan Ma, Zejun dan Li, Chunyuan}, journal={arXiv preprint arXiv:2407.07895}, year={2024}}@misc{li2024llavanext-ablations, title={LLaVA-NeXT: Apa Lagi yang Mempengaruhi Penyetelan Instruksi Visual Melampaui Data?}, url={https://llava-vl.github.io/blog/2024- 05-25-llava-next-ablations/}, author={Li, Bo dan Zhang, Hao dan Zhang, Kaichen dan Guo, Dong dan Zhang, Yuanhan dan Zhang, Renrui dan Li, Feng dan Liu, Ziwei dan Li, Chunyuan}, bulan={Mei}, tahun={2024}}@misc{li2024llavanext-strong,title={LLaVA-NeXT: LLM yang Lebih Kuat Meningkatkan Kemampuan Multimoda di itu Wild},url={https://llava-vl.github.io/blog/2024-05-10-llava-next-stronger-llms/},author={Li, Bo dan Zhang, Kaichen dan Zhang, Hao dan Guo, Dong dan Zhang, Renrui dan Li, Feng dan Zhang, Yuanhan dan Liu, Ziwei dan Li, Chunyuan},bulan={Mei},tahun={2024}}@misc{zhang2024llavanext-video, title={LLaVA-NeXT: Model Pemahaman Video Zero-shot yang Kuat}, url={https://llava-vl. github.io/blog/2024-04-30-llava-next-video/}, author={Zhang, Yuanhan dan Li, Bo dan Liu, haotian dan Lee, Yong jae dan Gui, Liangke dan Fu, Di dan Feng, Jiashi dan Liu, Ziwei dan Li, Chunyuan}, bulan={April}, tahun={2024}}@misc{liu2024llavanext,title={LLaVA-NeXT: Peningkatan penalaran, OCR, dan dunia pengetahuan},url={https://llava-vl.github.io/blog/2024-01-30-llava-next/},author={Liu, Haotian dan Li, Chunyuan dan Li, Yuheng dan Li, Bo dan Zhang, Yuanhan dan Shen, Sheng dan Lee, Yong Jae},bulan={Januari},tahun={2024}}@lain-lain{liu2023improvedllava, title={Peningkatan Garis Dasar dengan Penyetelan Instruksi Visual}, author={Liu, Haotian dan Li, Chunyuan dan Li, Yuheng dan Lee, Yong Jae}, penerbit={arXiv:2310.03744}, tahun={2023}, }@misc{liu2023llava, title={Penyetelan Instruksi Visual}, author={Liu, Haotian dan Li, Chunyuan dan Wu, Qingyang dan Lee, Yong Jae}, penerbit={NeurIPS}, tahun={2023}, }
Vicuna: basis kode yang kami bangun, dan model dasar kami Vicuna-13B yang memiliki kemampuan bahasa luar biasa!
Proyek LLaVA-NeXT saat ini dikelola oleh tim bersama dengan kontributor kami (diurutkan menurut abjad berdasarkan nama depan): Bo Li, Dong Guo, Feng Li, Hao Zhang, Kaichen Zhang, Renrui Zhang, Yuanhan Zhang, dipimpin oleh Chunyuan Li dan dengan bimbingan dan bantuan dari Haotian Liu.
Kerangka kerjalmms-eval
dan kontributor intinya, termasuk Peiyuan Zhang, Fanyi Pu, Joshua Adrian Cahyono, dan Kairui Hu, atas dukungan mereka di sisi evaluasi.
Instruksi Tuning dengan GPT-4
LLaVA-Med: Melatih Asisten Bahasa dan Visi Besar untuk Biomedis dalam Satu Hari
Otter: Penyetelan Instruksi Multi-Modal Dalam Konteks
Untuk ide proyek masa depan, silakan lihat:
TAMPAKNYA: Segmentasikan Semuanya Di Mana Saja Sekaligus
Grounded-Segment-Anything untuk mendeteksi, mensegmentasi, dan menghasilkan apa pun dengan menggabungkan Grounding DINO dan Segment-Anything.