[2024/10/04] ? LLaVA-Video (เดิมชื่อ LLaVA-NeXT-Video) ได้รับการอัปเกรดครั้งใหญ่! เรารู้สึกตื่นเต้นที่จะเปิดตัว LLaVA-Video-178K ซึ่งเป็นชุดข้อมูลสังเคราะห์คุณภาพสูงสำหรับการปรับแต่งคำสั่งวิดีโอ ชุดข้อมูลนี้ประกอบด้วย:
นอกจากนี้เรายังเปิด ตัวรุ่น LLaVA-Video 7B/72B ซึ่งมอบประสิทธิภาพที่แข่งขันได้ในการวัดประสิทธิภาพวิดีโอล่าสุด รวมถึง Video-MME, LongVideoBench และ Dream-1K
สำรวจเพิ่มเติม :
ชุดข้อมูล LLaVA-Video-178K: ดาวน์โหลดชุดข้อมูล
โมเดล LLaVA-Video: เข้าถึงจุดตรวจสอบโมเดล
เอกสาร: ข้อมูลโดยละเอียดเกี่ยวกับ LLaVA-Video
เอกสารวิดีโอ LLaVA: คำแนะนำเกี่ยวกับการฝึกอบรม การอนุมาน และการประเมินผล
178,510 รายการคำบรรยาย
คู่ถามตอบปลายเปิด 960,792 คู่
รายการถามตอบแบบปรนัย 196,198 รายการ
[2024/09/13] ? - LLaVA-OneVision-แชท LLaVA-OV-Chat ใหม่ (7B/72B) ปรับปรุงประสบการณ์การแชทของ LLaVA-OV อย่างมีนัยสำคัญ -
[2024/08/06] ? - ลาวา-วันวิชั่น (OV)! รุ่น LLaVA-OV ใหม่ (0.5B/7B/72B) บรรลุประสิทธิภาพที่ล้ำสมัยในการวัดประสิทธิภาพแบบภาพเดียว หลายภาพ และวิดีโอ ซึ่งบางครั้งสามารถเทียบเคียงกับรุ่นเชิงพาณิชย์ชั้นนำที่มีการวัดประสิทธิภาพที่หลากหลาย 47 รายการ - สำรวจเพิ่มเติม:
[กระดาษ]: ข้อมูลเชิงลึก สถานการณ์ใหม่ๆ ที่เกิดขึ้น เช่น วิดีโอที่เข้าใจง่ายผ่านการถ่ายโอนงานจากรูปภาพ
[LLaVA-OV Doc]: แนวทางการอนุมานแบบจำลองและการประเมินผล
[สคริปต์]: เริ่มฝึกโมเดลเกี่ยวกับข้อมูลภาพเดียว/หลายภาพ/วิดีโอของคุณ
[2024/07/59] ? LLaVA-NeXT-Video ได้รับการอัปเกรดแล้ว รุ่น 32B ใหม่บรรลุประสิทธิภาพโอเพ่นซอร์สที่ดีที่สุดในการวัดประสิทธิภาพวิดีโอหลายรายการ รวมถึง Video-MME โปรดดูหน้านี้สำหรับรายละเอียด โปรดดูที่ llava_next-video_demo สำหรับการสาธิต
[2024/06/23] ? LLaVA-NeXT-Interleave เปิดตัวแล้ว เราใช้รูปแบบการแทรกภาพและข้อความเพื่อรวมงานหลายภาพ วิดีโอ และ 3 มิติไว้ใน LLM เดียว และบรรลุประสิทธิภาพ ของ SoTA ในการวัดประสิทธิภาพที่หลากหลาย ลองอ่านบทความ บล็อก และจุดตรวจสอบเพื่อดูความสามารถใหม่ๆ และประสิทธิภาพที่ได้รับการปรับปรุง! เราได้เปิดตัวรุ่น 0.5b, 7b และ 7b-dpo
LLM ครบวงจรสำหรับหลายภาพ วิดีโอ และ 3 มิติพร้อมประสิทธิภาพอันยอดเยี่ยม [สาธิต]
สร้างข้อมูลการฝึกอบรมแบบแทรกสลับ M4-คำสั่ง
สร้างเกณฑ์มาตรฐานหลายภาพ LLaVA-Interleave Bench
[2024/05/25] ? สงสัยว่า "อะไรอีกที่มีอิทธิพลต่อการปรับแต่งคำสั่งด้วยภาพนอกเหนือจากข้อมูล" บล็อกใหม่ของเราจะสรุปการสำรวจเชิงประจักษ์เพื่อบรรเทาตัวเลือกการออกแบบต่างๆ ในการปรับปรุง LMM ยกเว้นการสั่งสอนข้อมูลเอง ในขณะเดียวกัน ให้โอเพ่นซอร์สข้อมูลคุณภาพสูงที่สรุปสาระสำคัญโดยใช้ LLaVA-NeXT-34B บน [COCO] [LCS] [CC3M]
สถาปัตยกรรม (LMM และตัวเข้ารหัสการมองเห็น)
การแสดงภาพ (ความละเอียด & # โทเค็น)
กลยุทธ์การฝึกอบรม (ข้อมูลคุณภาพสูงและโมดูลที่สามารถฝึกอบรมได้)
[2024/05/10] ? รุ่น LLaVA-NeXT (Stronger) เปิดตัวแล้ว โดยรองรับ LMM ที่แข็งแกร่งกว่า รวมถึง LLama-3 (8B) และ Qwen-1.5 (72B/110B) ลองดู [บล็อก] และ [จุดตรวจสอบ] เพื่อดูประสิทธิภาพที่ได้รับการปรับปรุง!
[2024/05/10] ? LLaVA-NeXT (วิดีโอ) เปิดตัวแล้ว โมเดล LLaVA-NeXT ที่ได้รับการฝึกเฉพาะรูปภาพนั้นแข็งแกร่งอย่างน่าประหลาดใจในงานวิดีโอด้วยการถ่ายโอนรูปแบบ Zero-shot การฝึกอบรม DPO พร้อมคำติชมของ AI ในวิดีโอสามารถให้การปรับปรุงที่สำคัญได้ [บล็อก], [จุดตรวจ] และ [sglang]
[2024/01/30] ? LLaVA-NeXT ออกแล้ว! ด้วยการปรับขนาดเพิ่มเติมเป็น LLaVA-1.5 ทำให้ LLaVA-NeXT-34B มีประสิทธิภาพเหนือกว่า Gemini Pro ในบางการวัดประสิทธิภาพ ขณะนี้สามารถประมวลผลพิกเซลได้มากขึ้น 4 เท่าและทำงาน/แอปพลิเคชันได้มากกว่าเดิม ดูโพสต์บนบล็อก และสำรวจการสาธิต! โมเดลมีอยู่ใน Model Zoo ข้อมูลการฝึกอบรม/ประเมินผลและสคริปต์จะมาในเร็วๆ นี้
[2024/03/10] ? การเปิดตัว LMMs-Eval ซึ่งเป็นไปป์ไลน์การประเมินผลที่มีประสิทธิภาพสูงที่เราใช้ในการพัฒนา LLaVA-NeXT รองรับการประเมิน LMM บนชุดข้อมูลสาธารณะหลายสิบชุด และช่วยให้ชุดข้อมูลใหม่เริ่มต้นใช้งานได้ ทำให้การพัฒนา LMM ใหม่เร็วขึ้นมาก [บล็อก] [โค้ดเบส]
[10/11/2566] เปิดตัว LLaVA-Plus: การเรียนรู้การใช้เครื่องมือสำหรับการสร้างตัวแทนหลายรูปแบบ พร้อมด้วย LLaVA-Plus (LLaVA ที่เสียบปลั๊กและเรียนรู้การใช้ทักษะ) [หน้าโครงการ] [สาธิต] [รหัส] [กระดาษ]
[2023/11/02] เปิดตัว LLaVA-Interactive: สัมผัสอนาคตของการโต้ตอบหลายรูปแบบระหว่างมนุษย์กับ AI ด้วยการสาธิตแบบออลอินวันสำหรับการแชทด้วยรูปภาพ การแบ่งส่วน การสร้าง และการแก้ไข [หน้าโครงการ] [สาธิต] [รหัส] [กระดาษ]
[26/10/2023] ? LLaVA-1.5 พร้อม LoRA ให้ประสิทธิภาพที่เทียบเคียงได้กับการปรับแต่งโมเดลเต็มรูปแบบ โดยมีความต้องการ RAM ของ GPU ที่ลดลง (ckpts, สคริปต์) นอกจากนี้เรายังจัดเตรียมเอกสารเกี่ยวกับวิธีการปรับแต่ง LLaVA-1.5 บนชุดข้อมูลของคุณเองด้วย LoRA
[10/12/2023] ลองดู LLaVA ของเกาหลี (Ko-LLaVA) ที่สร้างโดย ETRI ผู้ซึ่งสนับสนุนการวิจัยของเราอย่างไม่เห็นแก่ตัว! - สาธิต]
[2023/10/05] ? LLaVA-1.5 ออกแล้ว! การบรรลุ SoTA บนเกณฑ์มาตรฐาน 11 รายการ ด้วยการปรับเปลี่ยน LLaVA ดั้งเดิมเพียงเล็กน้อย ใช้ข้อมูลสาธารณะทั้งหมด ฝึกอบรมให้เสร็จสิ้นภายใน ~1 วันบนโหนด 8-A100 เดียว และเหนือกว่าวิธีการอย่าง Qwen-VL-Chat ที่ใช้ข้อมูลขนาดพันล้าน ตรวจสอบรายงานทางเทคนิค และสำรวจการสาธิต! โมเดลมีอยู่ใน Model Zoo ข้อมูลการฝึกอบรมและสคริปต์ของ LLaVA-1.5 ได้รับการเผยแพร่ที่นี่ และสคริปต์การประเมินผลได้รับการเผยแพร่ที่นี่!
[2023/09/26] LLaVA ได้รับการปรับปรุงด้วยการเรียนรู้แบบเสริมแรงจากผลตอบรับของมนุษย์ (RLHF) เพื่อปรับปรุงพื้นฐานข้อเท็จจริงและลดอาการประสาทหลอน ตรวจสอบจุดตรวจ SFT และ RLHF ใหม่ที่โครงการ [LLavaA-RLHF]
[2023/09/2023] LLaVA ได้รับการยอมรับจาก NeurIPS 2023 ว่าเป็น การนำเสนอแบบปากเปล่า และ LLaVA-Med ได้รับการยอมรับจากชุดข้อมูล NeurIPS 2023 และ Benchmarks Track ว่าเป็น การนำเสนอที่โดดเด่น
[2023/11/06] รองรับแพลตฟอร์ม Intel dGPU และ CPU รายละเอียดเพิ่มเติมที่นี่
[10/2023/12] ขณะนี้ LLaVA ได้รับการสนับสนุนใน llama.cpp ด้วยการสนับสนุนการหาปริมาณ 4 บิต / 5 บิต!
[10/10/2023] ข้อมูลการฝึกอบรมและสคริปต์ของ LLaVA-1.5 ได้รับการเผยแพร่ที่นี่ และสคริปต์การประเมินผลได้รับการเผยแพร่ที่นี่!
[10/10/2023] เจาะลึก Roboflow: ความประทับใจครั้งแรกด้วย LLaVA-1.5
[2023/09/20] เราสรุปการศึกษาเชิงประจักษ์เกี่ยวกับการฝึกอบรมโมเดล LLaVA 33B และ 65B ไว้ในหมายเหตุ นอกจากนี้ หากคุณสนใจในการทบทวน วิวัฒนาการ และแนวโน้มของแบบจำลองฐานรากหลายรูปแบบอย่างครอบคลุม โปรดอ่านรายงานการสำรวจล่าสุดของเรา ``แบบจำลองฐานรากหลายรูปแบบ: จากผู้เชี่ยวชาญไปจนถึงผู้ช่วยทั่วไป''
[2023/07/19] ? เราออกการอัปเกรดครั้งใหญ่ ซึ่งรวมถึงการรองรับ LLaMA-2, การฝึกอบรม LoRA, การอนุมาน 4-/8 บิต, ความละเอียดสูงกว่า (336x336) และอื่นๆ อีกมากมาย เราเปิดตัว LLaVA Bench สำหรับการเปรียบเทียบการแชทด้วยภาพปลายเปิดด้วยผลลัพธ์จาก Bard และ Bing-Chat นอกจากนี้เรายังสนับสนุนและตรวจสอบการฝึกอบรมด้วย RTX 3090 และ RTX A6000 ลองดู LLaVA-from-LLaMA-2 และสวนสัตว์จำลองของเรา!
[26/06/2023] CVPR 2023 บทช่วยสอนเกี่ยวกับ โมเดลหลายรูปแบบขนาดใหญ่: สู่การสร้างและการก้าวข้าม Multimodal GPT-4 ! โปรดดู [สไลด์] [หมายเหตุ] [YouTube] [Bilibli]
[2023/06/11] เราเปิดตัวตัวอย่างสำหรับฟีเจอร์ที่ได้รับการร้องขอมากที่สุด: รองรับ DeepSpeed และ LoRA! โปรดดูเอกสารที่นี่
[06/01/2023] เราได้เปิดตัว LLaVA-Med: Large Language and Vision Assistant for Biomedicine ซึ่งเป็นก้าวหนึ่งของการสร้างโดเมนชีวการแพทย์โมเดลภาษาและการมองเห็นขนาดใหญ่ที่มีความสามารถระดับ GPT-4 ชำระเงินกระดาษและหน้า
[2023/05/06] เรากำลังเปิดตัว LLaVA-Lighting-MPT-7B-ตัวอย่าง โดยอิงจาก MPT-7B-Chat! ดูที่นี่สำหรับรายละเอียดเพิ่มเติม
[2023/05/02] ? เรากำลังเปิดตัว LLaVA-Lighting! ฝึกฝน GPT-4 ต่อเนื่องหลายรูปแบบขนาดเล็กด้วยเงินเพียง $40 ใน 3 ชั่วโมง! ดูที่นี่สำหรับรายละเอียดเพิ่มเติม
[2023/04/27] ด้วยความพยายามของชุมชน LLaVA-13B พร้อมการวัดปริมาณ 4 บิตช่วยให้คุณสามารถทำงานบน GPU ที่มี VRAM ขั้นต่ำเพียง 12GB! ลองที่นี่
[2023/04/17] ? เราเปิดตัว LLaVA: ตัวช่วยภาษาและการมองเห็นขนาดใหญ่ เราเสนอการปรับแต่งการสอนด้วยภาพ เพื่อสร้างโมเดลภาษาและการมองเห็นขนาดใหญ่ที่มีความสามารถระดับ GPT-4 ชำระเงินกระดาษและการสาธิต
ประกาศการใช้งานและใบอนุญาต : โครงการนี้ใช้ชุดข้อมูลและจุดตรวจสอบบางอย่างที่อยู่ภายใต้ใบอนุญาตดั้งเดิมที่เกี่ยวข้อง ผู้ใช้จะต้องปฏิบัติตามข้อกำหนดและเงื่อนไขทั้งหมดของใบอนุญาตดั้งเดิมเหล่านี้ รวมถึงแต่ไม่จำกัดเพียงข้อกำหนดการใช้งาน OpenAI สำหรับชุดข้อมูลและใบอนุญาตเฉพาะสำหรับโมเดลภาษาพื้นฐานสำหรับจุดตรวจสอบที่ได้รับการฝึกอบรมโดยใช้ชุดข้อมูล (เช่น ใบอนุญาตชุมชน Llama-1/2 สำหรับ LLaMA-2 และ Vicuna-v1.5, ข้อตกลงใบอนุญาตการวิจัย Tongyi Qianwen และใบอนุญาตการวิจัย Llama-3) โครงการนี้ไม่ได้กำหนดข้อจำกัดเพิ่มเติมใดๆ นอกเหนือจากที่กำหนดไว้ในใบอนุญาตดั้งเดิม นอกจากนี้ ผู้ใช้จะได้รับการเตือนเพื่อให้แน่ใจว่าการใช้ชุดข้อมูลและจุดตรวจสอบเป็นไปตามกฎหมายและข้อบังคับที่เกี่ยวข้องทั้งหมด
โคลนคอมไพล์ https://github.com/LLaVA-VL/LLaVA-NeXTcd LLaVA-NeXT
conda create -n llava python=3.10 -y conda เปิดใช้งาน llava pip install --upgrade pip # เปิดใช้งาน PEP 660 support.pip install -e "[train]"
โปรดตรวจสอบหน้าต่อไปนี้สำหรับรายละเอียดการอนุมานและการประเมินผลเพิ่มเติม
LLaVA-OneVision: สำหรับการอนุมานแบบสาธิต รหัสการประเมินผลอยู่ในรูปแบบ lmms-eval
LLaVA-NeXT-Image: สำหรับการอนุมานการสาธิตรูปภาพและการประเมิน LMM ที่แข็งแกร่งกว่าโดยใช้ lmms-eval
LLaVA-NeXT-Video: สำหรับการอนุมานวิดีโอและสคริปต์การประเมินผล เราแนะนำให้ใช้วิดีโอ LMM สำหรับการประเมินผล
LLaVA-NeXT-Interleave: สำหรับการสาธิตหลายภาพและสคริปต์การประเมินผล
เราใช้ SGLang เพื่อเร่งความเร็วในการอนุมานและการใช้งาน LLaVA-NeXT คุณสามารถสร้าง LLaVA-NeXT เป็นบริการ API แบ็กเอนด์ด้วย SGLang
เตรียมสภาพแวดล้อม : ปฏิบัติตามคำแนะนำในคำสแลง
ชำระเงินการใช้งาน HTTP Post/Get และ SRT ที่ sglang/examples/runtime/llava_onevision
เรียกใช้และรันบน (K) โหนด :
ไปที่โครงการสแลง
cd PATH_TO/sglang
โหนดแรก:
ตัวอย่างทุบตี / การใช้งาน / llava_video/srt_example_llava_v.sh K 0 YOUR_VIDEO_PATH YOUR_MODEL_PATH FRAMES_PER_VIDEO (เช่น bash examples/usage/llava_video/srt_example_llava_v.sh K 0 examples/usage/llava_video/videos/Q98Z4OTh8RwmDonc.mp4 lmms-lab/LLaVA-NeXT-Video-7B-DPO 16)
โหนดที่สอง:
ตัวอย่างทุบตี / การใช้งาน / llava_video/srt_example_llava_v.sh K 1 YOUR_VIDEO_PATH YOUR_MODEL_PATH FRAMES_PER_VIDEO
โหนด K:
ตัวอย่างทุบตี / การใช้งาน / llava_video/srt_example_llava_v.sh K K-1 YOUR_VIDEO_PATH YOUR_MODEL_PATH FRAMES_PER_VIDEO
หากคุณพบว่ามีประโยชน์สำหรับการวิจัยและการสมัครของคุณ โปรดอ้างอิงเอกสาร/บล็อกที่เกี่ยวข้องโดยใช้ BibTeX นี้:
@article{li2024llava, title={LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models}, author={Li, Feng และ Zhang, Renrui และ Zhang, Hao และ Zhang, Yuanhan และ Li, Bo และ Li, Wei และ Ma, Zejun และ Li, Chunyuan}, Journal={arXiv preprint arXiv:2407.07895}, year={2024}}@misc{li2024llavanext-ablations, title={LLaVA-NeXT: What Else Influences Visual Instructions Tuning Beyond Data?}, url={https://llava-vl.github.io/blog/2024-05-25-llava-next-ablations/, author={Li, Bo และ Zhang, Hao และ Zhang, Kaichen และ Guo, Dong และ Zhang, Yuanhan และ Zhang, Renrui และ Li, Feng และ Liu, Ziwei และ Li, Chunyuan}, เดือน={พฤษภาคม}, ปี={2024}}@misc{li2024llavanext-strong,title={LLaVA -ถัดไป: LLM ที่แข็งแกร่งขึ้น ช่วยเพิ่มความสามารถหลายรูปแบบในป่า},url={https://llava-vl.github.io/blog/2024-05-10-llava-next-stronger-llms/,author={Li , Bo และ Zhang, Kaichen และ Zhang, Hao และ Guo, Dong และ Zhang, Renrui และ Li, Feng และ Zhang, Yuanhan และ Liu, Ziwei และ Li, Chunyuan},เดือน={พฤษภาคม},ปี={2024}}@misc {zhang2024llavanext-video, title={LLaVA-NeXT: โมเดลการทำความเข้าใจวิดีโอ Zero-shot ที่แข็งแกร่ง}, url={https://llava-vl.github.io/blog/2024-04-30-llava-next-video /}, ผู้แต่ง={Zhang, Yuanhan และ Li, Bo และ Liu, Haotian และ Lee, Yong Jae และ Gui, Liangke และ Fu, Di และ Feng, Jiashi และ Liu, Ziwei และ Li, Chunyuan}, เดือน={เมษายน}, year={2024}}@misc{liu2024llavanext,title={LLaVA-NeXT: ปรับปรุงการใช้เหตุผล, OCR และความรู้ทางโลก},url={https://llava-vl.github.io/blog/2024-01-30 -llava-next/},author={Liu, Haotian และ Li, Chunyuan และ Li, Yuheng และ Li, Bo และ Zhang, Yuanhan และ Shen, Sheng และ Lee, Yong Jae},เดือน={มกราคม},ปี={2024 }}@misc{liu2023improvedllava, title={เส้นฐานที่ได้รับการปรับปรุงพร้อมการปรับแต่งคำสั่งด้วยภาพ}, author={Liu, Haotian และ Li, Chunyuan และ Li, Yuheng และ Lee, Yong Jae}, ผู้จัดพิมพ์={arXiv:2310.03744}, ปี={2023}, }@misc{liu2023llava, title={การปรับแต่งคำสั่งด้วยภาพ}, author={Liu, Haotian และ Li, Chunyuan และ Wu, Qingyang และ Lee, Yong Jae}, ผู้จัดพิมพ์={NeurIPS}, ปี={2023}, -
Vicuna: โค้ดเบสที่เราสร้างขึ้น และโมเดลพื้นฐานของเรา Vicuna-13B ที่มีความสามารถด้านภาษาที่น่าทึ่ง!
ขณะนี้โครงการ LLaVA-NeXT ได้รับการดูแลโดยทีมงานพร้อมกับผู้ร่วมให้ข้อมูลของเรา (เรียงตามตัวอักษรตามชื่อจริง): Bo Li, Dong Guo, Feng Li, Hao Zhang, Kaichen Zhang, Renrui Zhang, Yuanhan Zhang นำโดย Chunyuan Li และ ด้วยคำแนะนำและความช่วยเหลือจาก Haotian Liu
กรอบlmms-eval
และผู้มีส่วนร่วมหลัก รวมถึง Peiyuan Zhang, Fanyi Pu, Joshua Adrian Cahyono และ Kairui Hu สำหรับการสนับสนุนในด้านการประเมิน
การปรับแต่งคำสั่งด้วย GPT-4
LLaVA-Med: ฝึกอบรมผู้ช่วยด้านภาษาและการมองเห็นขนาดใหญ่สำหรับชีวเวชศาสตร์ในหนึ่งวัน
Otter: การปรับแต่งคำสั่งหลายรูปแบบในบริบท
สำหรับแนวคิดโครงการในอนาคต โปรดดูที่:
ดูเหมือน: แบ่งส่วนทุกสิ่งทุกที่พร้อมกัน
Grounded-Segment-Anything เพื่อตรวจจับ แบ่งส่วน และสร้างสิ่งใดๆ โดยการผสาน Grounding DINO และ Segment-Anything