[2024/10/04] ؟ لقد خضع LLaVA-Video (المعروف سابقًا باسم LLaVA-NeXT-Video) لترقية كبيرة! نحن متحمسون لإصدار LLaVA-Video-178K ، وهي مجموعة بيانات تركيبية عالية الجودة لضبط تعليمات الفيديو. تتضمن مجموعة البيانات هذه:
بالإضافة إلى ذلك، نقوم أيضًا بإصدار نماذج LLaVA-Video 7B/72B ، والتي تقدم أداءً تنافسيًا وفقًا لأحدث معايير الفيديو، بما في ذلك Video-MME وLongVideoBench وDream-1K.
اكتشف المزيد :
مجموعة بيانات LLaVA-Video-178K: قم بتنزيل مجموعة البيانات.
نماذج LLaVA-Video: الوصول إلى نقاط التفتيش النموذجية.
الورق: معلومات تفصيلية حول LLaVA-Video.
LLaVA-وثائق الفيديو: إرشادات بشأن التدريب والاستدلال والتقييم.
178,510 إدخالات توضيحية
960,792 زوجًا من الأسئلة والأجوبة المفتوحة
196,198 سؤال وجواب متعدد الخيارات
[2024/09/13] ؟ ؟ LLaVA-OneVision-دردشة . تعمل LLaVA-OV-Chat (7B/72B) الجديدة على تحسين تجربة الدردشة في LLaVA-OV بشكل كبير. ؟
[2024/08/06] ؟ ؟ LLaVA-OneVision (OV)! تحقق نماذج LLaVA-OV الجديدة (0.5B/7B/72B) أداءً جديدًا متطورًا عبر معايير الصورة الواحدة والصور المتعددة والفيديو، وتنافس أحيانًا أفضل النماذج التجارية في 47 معيارًا متنوعًا. ؟ اكتشف المزيد:
[الورقة]: رؤى متعمقة وسيناريوهات ناشئة جديدة، أي فهم فيديو قوي من خلال نقل المهام من الصور.
[LLaVA-OV Doc]: الاستدلال النموذجي وإرشادات التقييم.
[البرامج النصية]: ابدأ نماذج التدريب على بيانات الصورة الفردية/المتعددة الصور/الفيديو.
[2024/07/16] ؟ تمت ترقية LLaVA-NeXT-Video . يحقق الطراز 32B الجديد أفضل أداء مفتوح المصدر في العديد من معايير الفيديو، بما في ذلك Video-MME. يرجى الرجوع إلى هذه الصفحة للحصول على التفاصيل، والرجوع إلى llava_next-video_demo للحصول على العرض التوضيحي.
[2024/06/23] ؟ تم إصدار LLaVA-NeXT-Interleave . نحن نستخدم تنسيق الصورة والنص المشذّب لتوحيد مهام الصور المتعددة والفيديو والمهام ثلاثية الأبعاد في LLM واحد وتحقيق أداء SoTA على مجموعة واسعة من المعايير. قم بمراجعة الأبحاث والمدونات ونقاط التفتيش لرؤية القدرات الجديدة والأداء المحسن! لقد أصدرنا نماذج 0.5b و7b و7b-dpo.
ماجستير إدارة أعمال شامل للصور المتعددة والفيديو وثلاثية الأبعاد مع أداء قوي [عرض توضيحي]
إنشاء بيانات التدريب المتداخلة M4-Instruct
بناء معيار متعدد الصور LLaVA-Interleave Bench
[2024/05/25] ؟ هل تتساءل "ما الذي يؤثر أيضًا على ضبط التعليمات المرئية بما يتجاوز البيانات؟" تلخص مدونتنا الجديدة الاستكشافات التجريبية لتقليص خيارات التصميم المختلفة في تحسين LMMs باستثناء بيانات التوجيه نفسها. وفي الوقت نفسه، افتح المصدر المفتوح للبيانات عالية الجودة باستخدام LLaVA-NeXT-34B على [COCO] [LCS] [CC3M].
البنيات (LMM وVision Encoder)
التمثيلات المرئية (الدقة والرموز المميزة)
استراتيجيات التدريب (بيانات عالية الجودة ووحدات قابلة للتدريب)
[2024/05/10] ؟ تم إصدار نماذج LLaVA-NeXT (الأقوى)، مع دعم LMM الأقوى، بما في ذلك LLama-3 (8B) وQwen-1.5 (72B/110B) راجع [المدونة] و[نقاط التفتيش] لرؤية الأداء المحسن!
[2024/05/10] ؟ تم إصدار LLaVA-NeXT (فيديو). يعد نموذج LLaVA-NeXT المدرّب على الصور فقط قويًا بشكل مدهش في مهام الفيديو مع نقل طريقة عدم التصوير. يمكن أن يؤدي تدريب DPO باستخدام تعليقات الذكاء الاصطناعي على مقاطع الفيديو إلى تحسين كبير. [المدونة]، [نقاط التفتيش] و [sglang]
[2024/01/30] ؟ LLaVA-NeXT صدرت! مع التوسع الإضافي إلى LLaVA-1.5، يتفوق LLaVA-NeXT-34B على Gemini Pro في بعض المعايير. يمكنه الآن معالجة 4 أضعاف عدد البكسلات وتنفيذ المزيد من المهام/التطبيقات أكثر من ذي قبل. قم بإلقاء نظرة على منشور المدونة، واستكشف العرض التوضيحي! النماذج متوفرة في Model Zoo. ستتوفر بيانات ونصوص التدريب/التقييم قريبًا.
[2024/03/10] ؟ إطلاق LMMs-Eval ، وهو مسار تقييم عالي الكفاءة استخدمناه عند تطوير LLaVA-NeXT. وهو يدعم تقييم LMMs على العشرات من مجموعات البيانات العامة ويسمح بضم مجموعة بيانات جديدة، مما يجعل تطوير LMMs الجديدة أسرع بكثير. [مدونة] [قاعدة التعليمات البرمجية]
[2023/11/10] تم إصدار LLaVA-Plus: تعلم كيفية استخدام الأدوات لإنشاء وكلاء متعددي الوسائط، باستخدام LLaVA-Plus (LLaVA الذي يقوم بتوصيل المهارات وتعلم كيفية استخدامها). [صفحة المشروع] [عرض توضيحي] [الكود] [الورقة]
[2023/11/02] تم إصدار LLaVA-Interactive: اختبر مستقبل التفاعل متعدد الوسائط بين الإنسان والذكاء الاصطناعي من خلال عرض توضيحي شامل للدردشة الصورية والتجزئة والإنشاء والتحرير. [صفحة المشروع] [عرض توضيحي] [الكود] [الورقة]
[2023/10/26] ؟ يحقق LLaVA-1.5 مع LoRA أداءً مشابهًا مثل الضبط الدقيق للنموذج الكامل، مع انخفاض متطلبات ذاكرة الوصول العشوائي GPU (ckpts، script). نوفر أيضًا مستندًا حول كيفية ضبط LLaVA-1.5 على مجموعة البيانات الخاصة بك باستخدام LoRA.
[2023/10/12] اطلع على LLaVA الكورية (Ko-LLaVA)، التي أنشأتها ETRI، والتي دعمت بحثنا بسخاء! [؟ تجريبي]
[2023/10/05] ؟ LLaVA-1.5 خارج! تحقيق SoTA على 11 معيارًا، مع تعديلات بسيطة فقط على LLaVA الأصلي، يستخدم جميع البيانات العامة، ويكمل التدريب في يوم واحد تقريبًا على عقدة 8-A100 واحدة، ويتفوق على أساليب مثل Qwen-VL-Chat التي تستخدم بيانات مليار مقياس. تحقق من التقرير الفني، واستكشف العرض التوضيحي! النماذج متوفرة في Model Zoo. تم إصدار بيانات التدريب والبرامج النصية لـ LLaVA-1.5 هنا، وتم إصدار البرامج النصية للتقييم هنا!
[2023/09/26] تم تحسين LLaVA من خلال التعلم المعزز من ردود الفعل البشرية (RLHF) لتحسين أسس الحقائق وتقليل الهلوسة. تحقق من نقاط التفتيش الجديدة SFT وRLHF في المشروع [LLavA-RLHF]
[2023/09/22] تم قبول LLaVA من قبل NeurIPS 2023 كعرض تقديمي شفهي ، وتم قبول LLaVA-Med من قبل NeurIPS 2023 Datasets and Benchmarks Track كعرض تقديمي بارز .
[2023/11/06] دعم منصات Intel dGPU ووحدة المعالجة المركزية. مزيد من التفاصيل هنا.
[2023/10/12] LLaVA مدعوم الآن في llama.cpp مع دعم تكميم 4 بت / 5 بت!
[2023/10/11] تم إصدار بيانات التدريب والبرامج النصية لـ LLaVA-1.5 هنا، وتم إصدار البرامج النصية للتقييم هنا!
[2023/10/10] الغوص العميق في Roboflow: الانطباعات الأولى مع LLaVA-1.5.
[2023/09/20] نلخص دراستنا التجريبية لتدريب نماذج LLaVA 33B و65B في مذكرة. علاوة على ذلك، إذا كنت مهتمًا بالمراجعة الشاملة والتطور والاتجاه لنماذج الأساس متعدد الوسائط، فيرجى مراجعة ورقة الاستبيان التي قمنا بها مؤخرًا بعنوان "نماذج الأساس متعدد الوسائط: من المتخصصين إلى مساعدي الأغراض العامة".
[2023/07/19] ؟ قمنا بإصدار ترقية رئيسية، بما في ذلك دعم LLaMA-2، وتدريب LoRA، واستدلال 4/8 بت، ودقة أعلى (336 × 336)، وغير ذلك الكثير. قمنا بإصدار LLaVA Bench لقياس أداء الدردشة المرئية المفتوحة مع نتائج من Bard وBing-Chat. نحن ندعم أيضًا التدريب ونتحقق منه باستخدام RTX 3090 وRTX A6000. اطلع على LLaVA-from-LLaMA-2 وحديقة الحيوانات النموذجية الخاصة بنا!
[2023/06/26] البرنامج التعليمي CVPR 2023 حول النماذج الكبيرة متعددة الوسائط: نحو بناء GPT-4 متعدد الوسائط وتجاوزه ! يرجى الاطلاع على [الشرائح] [الملاحظات] [يوتيوب] [بيليبلي].
[2023/06/11] أصدرنا المعاينة للميزة الأكثر طلبًا: دعم DeepSpeed وLoRA! يرجى الاطلاع على الوثائق هنا.
[2023/06/01] أصدرنا LLaVA-Med: مساعد اللغة والرؤية الكبير للطب الحيوي ، وهي خطوة نحو بناء نماذج لغة ورؤية كبيرة في مجال الطب الحيوي بقدرات مستوى GPT-4. الخروج من الورقة والصفحة.
[2023/05/06] نحن نصدر معاينة LLaVA-Lighting-MPT-7B، استنادًا إلى MPT-7B-Chat! انظر هنا لمزيد من التفاصيل.
[2023/05/02] ؟ نحن نطلق LLaVA-Lighting! قم بتدريب GPT-4 الخفيف والمتعدد الوسائط مقابل 40 دولارًا فقط في 3 ساعات! انظر هنا لمزيد من التفاصيل.
[2023/04/27] بفضل جهود المجتمع، يسمح لك LLaVA-13B مع تكميم 4 بت بالعمل على وحدة معالجة الرسومات مع ما لا يقل عن 12 جيجابايت من VRAM! جربه هنا.
[2023/04/17] ؟ أصدرنا LLaVA: مساعد اللغة والرؤية الكبير . نقترح ضبط التعليمات المرئية من أجل بناء نماذج لغة ورؤية كبيرة بقدرات مستوى GPT-4. الخروج من الورقة والعرض التوضيحي.
إشعارات الاستخدام والترخيص : يستخدم هذا المشروع مجموعات بيانات ونقاط تفتيش معينة تخضع للتراخيص الأصلية الخاصة بها. يجب على المستخدمين الالتزام بجميع شروط وأحكام هذه التراخيص الأصلية، بما في ذلك، على سبيل المثال لا الحصر، شروط استخدام OpenAI لمجموعة البيانات والتراخيص المحددة لنماذج اللغة الأساسية لنقاط التفتيش التي تم تدريبها باستخدام مجموعة البيانات (على سبيل المثال ترخيص مجتمع Llama-1/2 لـ LLaMA-2 وVicuna-v1.5 واتفاقية ترخيص بحث Tongyi Qianwen ورخصة بحث Llama-3). ولا يفرض هذا المشروع أي قيود إضافية غير تلك المنصوص عليها في التراخيص الأصلية. علاوة على ذلك، يتم تذكير المستخدمين بالتأكد من أن استخدامهم لمجموعة البيانات ونقاط التفتيش يتوافق مع جميع القوانين واللوائح المعمول بها.
استنساخ البوابة https://github.com/LLaVA-VL/LLaVA-NeXTcd LLaVA-NeXT
conda create -n llava python=3.10 -y كوندا تفعيل اللافا تثبيت النقطة - ترقية النقطة # تمكين PEP 660 support.pip install -e ".[train]"
يرجى الخروج من الصفحة التالية لمزيد من تفاصيل الاستدلال والتقييم.
LLaVA-OneVision: للاستدلال التجريبي. رمز التقييم موجود في lmms-eval.
LLaVA-NeXT-Image: للاستدلال التجريبي للصور وتقييم LMMs الأقوى باستخدام تقييم lmms.
LLaVA-NeXT-Video: لاستدلال الفيديو ونصوص التقييم. نوصي باستخدام فيديو LMMs للتقييم.
LLaVA-NeXT-Interleave: للنصوص التجريبية والتقييمية متعددة الصور.
نحن نستخدم SGLang لتسريع الاستدلال ونشر LLaVA-NeXT. يمكنك جعل LLaVA-NeXT بمثابة خدمة API خلفية باستخدام SGLang.
إعداد البيئة : اتباع التعليمات الواردة في sglang
تحقق من استخدام HTTP Post/Get وSRT على sglang/examples/runtime/llava_onevision
الإطلاق والتشغيل على العقد (K) :
انتقل إلى مشروع sglang
cd PATH_TO/sglang
العقدة الأولى:
أمثلة باش/usage/llava_video/srt_example_llava_v.sh K 0 YOUR_VIDEO_PATH YOUR_MODEL_PATH FRAMES_PER_VIDEO (على سبيل المثال أمثلة bash/usage/llava_video/srt_example_llava_v.sh K 0 أمثلة/usage/llava_video/videos/Q98Z4OTh8RwmDonc.mp4 lmms-lab/LLaVA-NeXT-Video-7B-DPO 16)
العقدة الثانية:
أمثلة باش/usage/llava_video/srt_example_llava_v.sh K 1 YOUR_VIDEO_PATH YOUR_MODEL_PATH FRAMES_PER_VIDEO
العقدة K:
أمثلة باش/usage/llava_video/srt_example_llava_v.sh K K-1 YOUR_VIDEO_PATH YOUR_MODEL_PATH FRAMES_PER_VIDEO
إذا وجدت أنه مفيد لأبحاثك وتطبيقاتك، يرجى الاستشهاد بالأبحاث/المدونات ذات الصلة باستخدام BibTeX:
@article{li2024llava, title={LLaVA-NeXT-Interleave: التعامل مع الصور المتعددة والفيديو والثلاثية الأبعاد في النماذج الكبيرة متعددة الوسائط}، المؤلف={Li, Feng and Zhang, Renrui and Zhang, Hao and Zhang, Yuanhan and Li, Bo and Li, Wei and Ma, Zejun and Li, Chunyuan}, Journal={arXiv preprint arXiv:2407.07895}, year={2024}}@misc{li2024llavanext-ablations, title={LLaVA-NeXT: ما الذي يؤثر أيضًا على التعليمات المرئية ضبط ما وراء البيانات؟}، url={https://llava-vl.github.io/blog/2024-05-25-llava-next-ablations/}، Author={Li, Bo and Zhang, Hao and Zhang, Kaichen and Guo، Dong and Zhang، Yuanhan and Zhang، Renrui and Li، Feng and Liu، Ziwei and Li، Chunyuan}، شهر={مايو}، سنة={2024}}@misc{li2024llavanext-strong,title={LLaVA -NeXT: دورات LLM الأقوى تعزز قدرات الوسائط المتعددة في الحياة},url={https://llava-vl.github.io/blog/2024-05-10-llava-next-stronger-llms/},author={Li , Bo and Zhang, Kaichen and Zhang, Hao and Guo, Dong and Zhang, Renrui and Li, Feng and Zhang, Yuanhan and Liu, Ziwei and Li, Chunyuan},month={May},year={2024}}@misc {zhang2024llavanext-video، title={LLaVA-NeXT: نموذج قوي لفهم الفيديو بدون لقطة}، url={https://llava-vl.github.io/blog/2024-04-30-llava-next-video /}، المؤلف={Zhang, Yuanhan and Li, Bo and Liu, Haotian and Lee, Yong jae and Gui, Liangke and Fu, Di and Feng, Jiashi and Liu, Ziwei and Li, Chunyuan}، الشهر={أبريل}، year={2024}}@misc{liu2024llavanext,title={LLaVA-NeXT: تحسين التفكير والتعرف الضوئي على الحروف والمعرفة العالمية},url={https://llava-vl.github.io/blog/2024-01-30 -llava-next/},author={Liu, Haotian and Li, Chunyuan and Li, Yuheng and Li, Bo and Zhang, Yuanhan and Shen, Sheng and Lee, Yong Jae},الشهر={يناير},العام={2024 }}@misc{liu2023improvedllava, title={خطوط الأساس المحسنة مع ضبط التعليمات المرئية}, المؤلف={Liu, Haotian and Li, Chunyuan and Li, Yuheng and Lee, Yong Jae}، الناشر={arXiv:2310.03744}، السنة={2023}، }@misc{liu2023llava, title={ضبط التعليمات المرئية}, المؤلف={Liu, Haotian and Li, Chunyuan and Wu, Qingyang and Lee, Yong Jae}، الناشر={NeurIPS}، السنة={2023}، }
Vicuna: قاعدة التعليمات البرمجية التي بنينا عليها، ونموذجنا الأساسي Vicuna-13B الذي يتمتع بقدرات لغوية مذهلة!
تتم صيانة مشروع LLaVA-NeXT حاليًا من قبل الفريق جنبًا إلى جنب مع المساهمين لدينا (مدرجين أبجديًا حسب الأسماء الأولى): Bo Li، Dong Guo، Feng Li، Hao Zhang، Kaichen Zhang، Renrui Zhang، Yuanhan Zhang، بقيادة Chunyuan Li و بتوجيه ومساعدة من Haotian Liu.
إطارlmms-eval
والمساهمين الأساسيين فيه، بما في ذلك Peiyuan Zhang وFanyi Pu وJoshua Adrian Cahyono وKairui Hu، لدعمهم في جانب التقييم.
ضبط التعليمات باستخدام GPT-4
LLaVA-Med: تدريب مساعد كبير في اللغة والرؤية للطب الحيوي في يوم واحد
قضاعة: ضبط التعليمات متعددة الوسائط في السياق
للحصول على أفكار المشاريع المستقبلية، يرجى مراجعة:
SEEM: قم بتقسيم كل شيء في كل مكان مرة واحدة
شريحة مؤرضة - أي شيء لاكتشاف أي شيء وتقسيمه وتوليده عن طريق الزواج من DINO الأرضي وقطعة - أي شيء.