[04.10.2024] ? LLaVA-Video (ehemals LLaVA-NeXT-Video) hat ein großes Upgrade erfahren! Wir freuen uns , LLaVA-Video-178K zu veröffentlichen, einen hochwertigen synthetischen Datensatz für die Optimierung von Videoanweisungen. Dieser Datensatz umfasst:
Darüber hinaus bringen wir auch die LLaVA-Video 7B/72B-Modelle auf den Markt, die eine wettbewerbsfähige Leistung bei den neuesten Video-Benchmarks liefern, darunter Video-MME, LongVideoBench und Dream-1K.
Entdecken Sie mehr :
LLaVA-Video-178K-Datensatz: Laden Sie den Datensatz herunter.
LLaVA-Video-Modelle: Zugriff auf Modellkontrollpunkte.
Paper: Detaillierte Informationen zum LLaVA-Video.
LLaVA-Videodokumentation: Anleitung zu Training, Inferenz und Bewertung.
178.510 Untertiteleinträge
960.792 offene Frage-und-Antwort-Paare
196.198 Multiple-Choice-Fragen und Antworten
[13.09.2024] ? ? LLaVA-OneVision-Chat . Der neue LLaVA-OV-Chat (7B/72B) verbessert das Chat-Erlebnis von LLaVA-OV deutlich. ?
[06.08.2024] ? ? LLaVA-OneVision (OV)! Die neuen LLaVA-OV-Modelle (0,5B/7B/72B) erreichen eine neue, hochmoderne Leistung bei Einzelbild-, Mehrbild- und Video-Benchmarks und können bei 47 verschiedenen Benchmarks teilweise mit kommerziellen Spitzenmodellen mithalten. ? Entdecken Sie mehr:
[Papier]: Detaillierte Einblicke, neu entstehende Szenarien, dh starkes Videoverständnis durch Aufgabenübertragung aus Bildern.
[LLaVA-OV Doc]: Anleitung zur Modellinferenz und -bewertung.
[Skripte]: Beginnen Sie mit dem Training von Modellen für Ihre Einzelbild-/Mehrbild-/Videodaten.
[16.07.2024] ? LLaVA-NeXT-Video wurde aktualisiert. Das neue 32B-Modell erreicht die beste Open-Source-Leistung bei mehreren Video-Benchmarks, einschließlich Video-MME. Weitere Informationen finden Sie auf dieser Seite. Eine Demo finden Sie unter llava_next-video_demo.
[23.06.2024] ? LLaVA-NeXT-Interleave wird veröffentlicht. Wir nutzen das Bild-Text-Interleaved-Format, um Multibild-, Video- und 3D-Aufgaben in einem LLM zu vereinen und SoTA- Leistung bei einer Vielzahl von Benchmarks zu erreichen. Sehen Sie sich Papier, Blog und Checkpoints an, um neue Funktionen und verbesserte Leistung zu sehen! Wir haben 0,5b-, 7b- und 7b-dpo-Modelle veröffentlicht.
Ein Allround-LLM für Multibilder, Videos und 3D mit starker Leistung [Demo]
Konstruieren Sie Interleave-Trainingsdaten M4-Instruct
Konstruieren Sie den Multi-Image-Benchmark LLaVA-Interleave Bench
[25.05.2024] ? Sie fragen sich: „Was beeinflusst außer den Daten noch die visuelle Instruktionsoptimierung?“ Unser neuer Blog fasst empirische Untersuchungen zusammen, um die verschiedenen Designoptionen zur Verbesserung von LMMs mit Ausnahme der Befehlsdaten selbst zu berücksichtigen. In der Zwischenzeit können Sie die rekapitulierten hochwertigen Daten mit LLaVA-NeXT-34B auf [COCO] [LCS] [CC3M] als Open-Source-Quelle veröffentlichen.
Architekturen (LMM & Vision Encoder)
Visuelle Darstellungen (Auflösung und # Token)
Trainingsstrategien (hochwertige Daten und trainierbare Module)
[10.05.2024] ? LLaVA-NeXT (stärkere) Modelle werden veröffentlicht, mit Unterstützung für stärkere LMM, einschließlich LLama-3 (8B) und Qwen-1.5 (72B/110B). Schauen Sie sich [Blog] und [Checkpoints] an, um die verbesserte Leistung zu sehen!
[10.05.2024] ? LLaVA-NeXT (Video) wird veröffentlicht. Das nur auf Bildern trainierte LLaVA-NeXT-Modell ist bei Videoaufgaben mit Zero-Shot-Modalitätsübertragung überraschend stark. DPO-Schulungen mit KI-Feedback zu Videos können zu erheblichen Verbesserungen führen. [Blog], [Checkpoints] und [Sglang]
[30.01.2024] ? LLaVA-NeXT ist da! Mit zusätzlicher Skalierung auf LLaVA-1.5 übertrifft LLaVA-NeXT-34B Gemini Pro in einigen Benchmarks. Es kann jetzt viermal mehr Pixel verarbeiten und mehr Aufgaben/Anwendungen ausführen als zuvor. Schauen Sie sich den Blogbeitrag an und erkunden Sie die Demo! Modelle sind im Model Zoo erhältlich. Trainings-/Evaluierungsdaten und Skripte folgen in Kürze.
[10.03.2024] ? Veröffentlichung von LMMs-Eval , einer hocheffizienten Evaluierungspipeline, die wir bei der Entwicklung von LLaVA-NeXT verwendet haben. Es unterstützt die Evaluierung von LMMs anhand Dutzender öffentlicher Datensätze und ermöglicht das Onboarding neuer Datensätze, wodurch die Entwicklung neuer LMMs erheblich beschleunigt wird. [Blog] [Codebasis]
[10.11.2023] LLaVA-Plus wird veröffentlicht: Lernen, Tools zum Erstellen multimodaler Agenten zu verwenden, mit LLaVA-Plus (LLaVA that Plug and Learn to Use Skills). [Projektseite] [Demo] [Code] [Papier]
[02.11.2023] LLaVA-Interactive wird veröffentlicht: Erleben Sie die Zukunft der multimodalen Interaktion zwischen Mensch und KI mit einer All-in-One-Demo für Bild-Chat, Segmentierung, Generierung und Bearbeitung. [Projektseite] [Demo] [Code] [Papier]
[26.10.2023] ? LLaVA-1.5 mit LoRA erreicht eine vergleichbare Leistung wie die Feinabstimmung des vollständigen Modells, bei reduziertem GPU-RAM-Anforderungen (ckpts, Skript). Wir stellen auch ein Dokument zur Feinabstimmung von LLaVA-1.5 an Ihrem eigenen Datensatz mit LoRA zur Verfügung.
[12.10.2023] Schauen Sie sich die koreanische LLaVA (Ko-LLaVA) an, erstellt von ETRI, das unsere Forschung großzügig unterstützt hat! [? Demo]
[05.10.2023] ? LLaVA-1.5 ist da! Das Erreichen von SoTA auf 11 Benchmarks mit nur einfachen Änderungen am ursprünglichen LLaVA nutzt alle öffentlichen Daten, schließt das Training in etwa einem Tag auf einem einzelnen 8-A100-Knoten ab und übertrifft Methoden wie Qwen-VL-Chat, die Daten im Milliardenmaßstab verwenden. Schauen Sie sich den technischen Bericht an und erkunden Sie die Demo! Modelle sind im Model Zoo erhältlich. Die Trainingsdaten und Skripte von LLaVA-1.5 werden hier veröffentlicht, und Evaluierungsskripte werden hier veröffentlicht!
[26.09.2023] LLaVA wurde durch verstärkendes Lernen aus menschlichem Feedback (RLHF) verbessert, um die Faktenerdung zu verbessern und Halluzinationen zu reduzieren. Schauen Sie sich die neuen SFT- und RLHF-Kontrollpunkte im Projekt [LLavA-RLHF] an.
[22.09.2023] LLaVA wird von NeurIPS 2023 als mündliche Präsentation akzeptiert, und LLaVA-Med wird von NeurIPS 2023 Datasets and Benchmarks Track als Spotlight-Präsentation akzeptiert.
[06.11.2023] Unterstützt Intel dGPU- und CPU-Plattformen. Weitere Details hier.
[12.10.2023] LLaVA wird jetzt in llama.cpp mit 4-Bit-/5-Bit-Quantisierungsunterstützung unterstützt!
[11.10.2023] Die Trainingsdaten und Skripte von LLaVA-1.5 werden hier veröffentlicht, und Evaluierungsskripte werden hier veröffentlicht!
[10.10.2023] Roboflow Deep Dive: Erste Eindrücke mit LLaVA-1.5.
[20.09.2023] Wir fassen unsere empirische Studie zum Training der 33B- und 65B-LLaVA-Modelle in einer Notiz zusammen. Wenn Sie sich außerdem für die umfassende Überprüfung, Entwicklung und Entwicklung multimodaler Grundlagenmodelle interessieren, lesen Sie bitte unseren aktuellen Umfrageartikel „Multimodale Grundlagenmodelle: Von Spezialisten zu Allzweckassistenten“.
[19.07.2023] ? Wir veröffentlichen ein großes Upgrade, einschließlich Unterstützung für LLaMA-2, LoRA-Training, 4-/8-Bit-Inferenz, höherer Auflösung (336 x 336) und vielem mehr. Wir veröffentlichen LLaVA Bench zum Benchmarking von offenem visuellen Chat mit Ergebnissen von Bard und Bing-Chat. Wir unterstützen und verifizieren auch das Training mit RTX 3090 und RTX A6000. Schauen Sie sich LLaVA-von-LLaMA-2 und unseren Modellzoo an!
[26.06.2023] CVPR 2023-Tutorial zu großen multimodalen Modellen: Auf dem Weg zum Aufbau und zur Überwindung des multimodalen GPT-4 ! Bitte schauen Sie sich [Folien] [Notizen] [YouTube] [Bilibli] an.
[11.06.2023] Wir haben die Vorschau für die am häufigsten nachgefragte Funktion veröffentlicht: DeepSpeed- und LoRA-Unterstützung! Bitte sehen Sie sich die Dokumentationen hier an.
[01.06.2023] Wir haben LLaVA-Med: Large Language and Vision Assistant for Biomedicine veröffentlicht, einen Schritt zum Aufbau großer Sprach- und Visionsmodelle im biomedizinischen Bereich mit GPT-4-Level-Fähigkeiten. Schauen Sie sich das Papier und die Seite an.
[06.05.2023] Wir veröffentlichen LLaVA-Lighting-MPT-7B-Vorschau, basierend auf MPT-7B-Chat! Weitere Einzelheiten finden Sie hier.
[02.05.2023] ? Wir veröffentlichen LLaVA-Lighting! Trainieren Sie ein leichtes, multimodales GPT-4 mit nur 40 $ in 3 Stunden! Weitere Einzelheiten finden Sie hier.
[27.04.2023] Dank der Gemeinschaftsarbeit können Sie mit LLaVA-13B mit 4-Bit-Quantisierung auf einer GPU mit nur 12 GB VRAM laufen! Probieren Sie es hier aus.
[17.04.2023] ? Wir haben LLaVA: Large Language and Vision Assistant veröffentlicht. Wir schlagen eine Optimierung der visuellen Anweisungen vor, um große Sprach- und Bildmodelle mit GPT-4-Level-Fähigkeiten zu erstellen. Schauen Sie sich das Papier und die Demo an.
Nutzungs- und Lizenzhinweise : Dieses Projekt nutzt bestimmte Datensätze und Kontrollpunkte, die ihren jeweiligen Originallizenzen unterliegen. Benutzer müssen alle Bedingungen dieser Originallizenzen einhalten, einschließlich, aber nicht beschränkt auf die OpenAI-Nutzungsbedingungen für den Datensatz und die spezifischen Lizenzen für Basissprachenmodelle für Kontrollpunkte, die mit dem Datensatz trainiert wurden (z. B. Llama-1/2-Community-Lizenz für LLaMA-2 und Vicuna-v1.5, Tongyi Qianwen FORSCHUNGSLIZENZVEREINBARUNG und Llama-3 Forschungslizenz). Dieses Projekt erlegt keine zusätzlichen Einschränkungen auf, die über die in den ursprünglichen Lizenzen festgelegten hinausgehen. Darüber hinaus werden Benutzer daran erinnert, sicherzustellen, dass die Nutzung des Datensatzes und der Kontrollpunkte im Einklang mit allen geltenden Gesetzen und Vorschriften erfolgt.
Git-Klon https://github.com/LLaVA-VL/LLaVA-NeXTcd LLaVA-NeXT
conda create -n llava python=3.10 -y Conda aktiviert Llava pip install --upgrade pip # PEP 660-Unterstützung aktivieren.pip install -e ".[train]"
Weitere Schlussfolgerungen und Bewertungsdetails finden Sie auf der folgenden Seite.
LLaVA-OneVision: für Demo-Inferenz. Der Evaluierungscode befindet sich in lmms-eval.
LLaVA-NeXT-Image: für Bilddemo-Inferenz und Bewertung stärkerer LMMs mithilfe von lmms-eval.
LLaVA-NeXT-Video: für Video-Inferenz- und Bewertungsskripte. Wir empfehlen zur Auswertung die Nutzung von LMMs-Video.
LLaVA-NeXT-Interleave: für Demo- und Evaluierungsskripte mit mehreren Bildern.
Wir verwenden SGLang, um die Inferenz und Bereitstellung von LLaVA-NeXT zu beschleunigen. Sie könnten LLaVA-NeXT als Backend-API-Dienst mit SGLang erstellen.
Umgebung vorbereiten : Befolgen Sie die Anweisungen im Sglang
Schauen Sie sich die Verwendung von HTTP Post/Get und SRT unter sglang/examples/runtime/llava_onevision an
Auf (K) Knoten starten und ausführen :
Gehen Sie zum Sglang-Projekt
cd PATH_TO/sglang
Erster Knoten:
bash examples/usage/llava_video/srt_example_llava_v.sh K 0 YOUR_VIDEO_PATH YOUR_MODEL_PATH FRAMES_PER_VIDEO (z. B. Bash-Beispiele/usage/llava_video/srt_example_llava_v.sh K 0 examples/usage/llava_video/videos/Q98Z4OTh8RwmDonc.mp4 lmms-lab/LLaVA-NeXT-Video-7B-DPO 16)
Zweiter Knoten:
bash examples/usage/llava_video/srt_example_llava_v.sh K 1 YOUR_VIDEO_PATH YOUR_MODEL_PATH FRAMES_PER_VIDEO
Der K-Knoten:
bash examples/usage/llava_video/srt_example_llava_v.sh K K-1 YOUR_VIDEO_PATH YOUR_MODEL_PATH FRAMES_PER_VIDEO
Wenn Sie es für Ihre Forschung und Anwendungen nützlich finden, zitieren Sie bitte verwandte Artikel/Blogs mit diesem BibTeX:
@article{li2024llava, title={LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models}, Autor={Li, Feng und Zhang, Renrui und Zhang, Hao und Zhang, Yuanhan und Li, Bo und Li, Wei und Ma, Zejun und Li, Chunyuan}, journal={arXiv preprint arXiv:2407.07895}, Jahr={2024}}@misc{li2024llavanext-ablations, title={LLaVA-NeXT: What Else Influences Visual Instruction Tuning über Daten hinaus?}, url={https://llava-vl.github.io/blog/2024-05-25-llava-next-ablations/}, Autor={Li, Bo und Zhang, Hao und Zhang, Kaichen und Guo, Dong und Zhang, Yuanhan und Zhang, Renrui und Li, Feng und Liu, Ziwei und Li, Chunyuan}, Monat={Mai}, Jahr={2024}}@misc{li2024llavanext-strong,title={LLaVA -NeXT: Stärkere LLMs steigern multimodale Fähigkeiten in der Wildnis},url={https://llava-vl.github.io/blog/2024-05-10-llava-next-stronger-llms/},author={Li , Bo und Zhang, Kaichen und Zhang, Hao und Guo, Dong und Zhang, Renrui und Li, Feng und Zhang, Yuanhan und Liu, Ziwei und Li, Chunyuan},month={May},year={2024}}@misc {zhang2024llavanext-video, title={LLaVA-NeXT: A Strong Zero-shot Video Understanding Model}, url={https://llava-vl.github.io/blog/2024-04-30-llava-next-video /}, Autor={Zhang, Yuanhan und Li, Bo und Liu, Haotian und Lee, Yong Jae und Gui, Liangke und Fu, Di und Feng, Jiashi und Liu, Ziwei und Li, Chunyuan}, Monat={April}, year={2024}}@misc{liu2024llavanext,title={LLaVA-NeXT: Verbesserte Argumentation, OCR und Weltwissen},url={https://llava-vl.github.io/blog/2024-01-30 -llava-next/},Autor={Liu, Haotian und Li, Chunyuan und Li, Yuheng und Li, Bo und Zhang, Yuanhan und Shen, Sheng und Lee, Yong Jae},Monat={Januar},Jahr={2024 }}@misc{liu2023improvedllava, title={Verbesserte Baselines mit Visual Instruction Tuning}, Autor={Liu, Haotian und Li, Chunyuan und Li, Yuheng und Lee, Yong Jae}, Herausgeber={arXiv:2310.03744}, Jahr={2023}, }@misc{liu2023llava, title={Visual Instruction Tuning}, Autor={Liu, Haotian und Li, Chunyuan und Wu, Qingyang und Lee, Yong Jae}, Herausgeber={NeurIPS}, Jahr={2023}, }
Vicuna: die Codebasis, auf der wir aufgebaut haben, und unser Basismodell Vicuna-13B, das über erstaunliche Sprachfähigkeiten verfügt!
Das LLaVA-NeXT-Projekt wird derzeit vom Team zusammen mit unseren Mitwirkenden (alphabetisch nach Vornamen aufgelistet) betreut: Bo Li, Dong Guo, Feng Li, Hao Zhang, Kaichen Zhang, Renrui Zhang, Yuanhan Zhang, geleitet von Chunyuan Li und mit der Anleitung und Hilfe von Haotian Liu.
Demlmms-eval
Framework und seinen wichtigsten Mitwirkenden, darunter Peiyuan Zhang, Fanyi Pu, Joshua Adrian Cahyono und Kairui Hu, für ihre Unterstützung auf der Evaluierungsseite.
Befehlsoptimierung mit GPT-4
LLaVA-Med: Ausbildung eines großen Sprach- und Sehassistenten für Biomedizin an einem Tag
Otter: Multimodale Befehlsoptimierung im Kontext
Für zukünftige Projektideen schauen Sie sich bitte an:
SEEM: Segmentieren Sie alles überall und auf einmal
Grounded-Segment-Anything zum Erkennen, Segmentieren und Generieren von Objekten durch die Verbindung von Grounding DINO und Segment-Anything.