[2024/10/04] ? LLaVA-Video (原LLaVA-NeXT-Video)進行了重大升級!我們很高興發布LLaVA-Video-178K ,這是一個用於視訊指令調整的高品質合成資料集。該數據集包括:
除此之外,我們還發布了LLaVA-Video 7B/72B 型號,它們在最新的視訊基準測試中提供具有競爭力的性能,包括 Video-MME、LongVideoBench 和 Dream-1K。
探索更多:
LLaVA-Video-178K 資料集:下載資料集。
LLaVA-視訊模型:存取模型檢查點。
論文:有關 LLaVA-Video 的詳細資訊。
LLaVA-視訊文件:培訓、推理和評估指南。
178,510 個字幕條目
960,792 個開放式問答對
196,198 項選擇題問答
[2024/09/13]? ? LLaVA-OneVision-聊天。新的LLaVA-OV-Chat (7B/72B)顯著改善了LLaVA-OV的聊天體驗。 ?
[2024/08/06] ? ? LLaVA-OneVision (OV)!新的 LLaVA-OV 模型 (0.5B/7B/72B) 在單圖像、多圖像和視訊基準測試中實現了最先進的性能,有時在 47 個不同的基準測試中可與頂級商業模型相媲美。 ?探索更多:
[論文]:深入的見解,新的新興場景,即透過圖像的任務轉移來增強視訊理解。
[LLaVA-OV Doc]:模型推理和評估指南。
[腳本]:開始在單一影像/多影像/視訊資料上訓練模型。
[2024/07/16]? LLaVA-NeXT-影片已升級。新的 32B 模型在包括 Video-MME 在內的多個視訊基準測試中實現了最佳開源性能。詳情請參考此頁面,示範請參考llava_next-video_demo。
[2024/06/23]? LLaVA-NeXT-Interleave發布。我們利用圖像-文字交錯格式將多圖像、視訊和 3D 任務統一在一個 LLM 中,並在各種基準上實現SoTA效能。查看論文、部落格和檢查點,了解新功能和改進的效能!我們已經發布了 0.5b、7b 和 7b-dpo 模型。
具有強大性能的多圖像、視頻和 3D 全方位法學碩士 [演示]
建構交錯訓練資料M4-Instruct
建構多影像基準LLaVA-Interleave Bench
[2024/05/25] ?想知道“除了數據之外還有什麼影響視覺指令調整?”我們的新部落格總結了經驗探索,以消除除指導資料本身之外的改進 LMM 的各種設計選擇。同時,在 [COCO] [LCS] [CC3M] 上使用 LLaVA-NeXT-34B 開源重述的高品質資料。
架構(LMM 和視覺編碼器)
視覺表示(解析度和#標記)
培訓策略(高品質數據和可培訓模組)
[2024/05/10] ? LLaVA-NeXT (更強)模型發布,支援更強的 LMM,包括 LLama-3 (8B) 和 Qwen-1.5 (72B/110B) 查看 [部落格] 和 [檢查點] 查看效能改進!
[2024/05/10] ? LLaVA-NeXT (影片)發布。僅影像訓練的 LLaVA-NeXT 模型在零樣本模態傳輸的視訊任務上出奇地強大。透過影片的 AI 回饋進行 DPO 培訓可以帶來顯著的改進。 [部落格]、[檢查點] 和 [俚語]
[2024/01/30]? LLaVA-NeXT已推出!透過額外擴展到 LLaVA-1.5,LLaVA-NeXT-34B 在某些基準測試中優於 Gemini Pro。現在它可以處理比以前多 4 倍的像素並執行更多的任務/應用程式。查看部落格文章並探索演示!模型可在模型動物園中找到。培訓/評估數據和腳本即將推出。
[2024/03/10]?發布LMMs-Eval ,這是我們在開發 LLaVA-NeXT 時所使用的高效評估流程。它支援在數十個公共資料集上評估 LMM,並允許新資料集加入,從而使新 LMM 的開發更快。 [部落格] [程式碼庫]
[2023/11/10] LLaVA-Plus 發佈:透過 LLaVA-Plus(LLaVA that Plug and Learn to Use Skills)學習使用創建多模式代理的工具(LLaVA that Plug and Learn to Use Skills)。 [專案頁] [示範] [程式碼] [論文]
[2023/11/02] LLaVA-Interactive 發布:透過影像聊天、分割、生成和編輯的一體化演示體驗人機互動的未來。 [專案頁] [示範] [程式碼] [論文]
[2023/10/26]?採用 LoRA 的 LLaVA-1.5 實現了與全模型微調相當的效能,同時降低了 GPU RAM 要求(ckpts、腳本)。我們還提供了有關如何使用 LoRA 在您自己的資料集上微調 LLaVA-1.5 的文件。
[2023/10/12] 看看ETRI創立的韓國LLaVA(Ko-LLaVA),ETRI慷慨支持我們的研究! [?演示]
[2023/10/05] ? LLaVA-1.5 已經出來了!只需對原始LLaVA 進行簡單修改,即可在11 個基準上實現SoTA,利用所有公共數據,在單個8-A100 節點上約1 天完成訓練,超越Qwen-VL-Chat 等使用十億級數據的方法。查看技術報告並探索演示!模型可在模型動物園中找到。 LLaVA-1.5的訓練資料和腳本在這裡發布,評估腳本在這裡發布!
[2023/09/26] LLaVA 透過人類回饋的強化學習 (RLHF) 進行了改進,以改善事實基礎並減少幻覺。查看項目 [LLavA-RLHF] 中的新 SFT 和 RLHF 檢查點
[2023/09/22] LLaVA 作為口頭報告被 NeurIPS 2023 接受,LLaVA-Med 作為聚光燈報告被 NeurIPS 2023 Datasets and Benchmarks Track 接受。
[2023/11/06] 支援Intel dGPU和CPU平台。更多詳細資訊請參閱此處。
[2023/10/12] llama.cpp 現已支援 LLaVA,並支援 4 位元/5 位元量化!
[2023/10/11] LLaVA-1.5的訓練資料和腳本在這裡發布,評估腳本在這裡發布!
[2023/10/10] Roboflow 深入探究:LLaVA-1.5 的第一印象。
[2023/09/20] 我們在筆記中總結了訓練 33B 和 65B LLaVA 模型的實證研究。此外,如果您對多模態基礎模型的全面回顧、演變和趨勢感興趣,請查看我們最近的調查論文「多模態基礎模型:從專家到通用助理」。
[2023/07/19]?我們發布了重大升級,包括支援 LLaMA-2、LoRA 訓練、4-/8 位元推理、更高解析度 (336x336) 等等。我們發布了 LLaVA Bench,用於根據 Bard 和 Bing-Chat 的結果對開放式視覺聊天進行基準測試。我們也支援並驗證 RTX 3090 和 RTX A6000 的訓練。看看 LLaVA-from-LLaMA-2 和我們的模型動物園!
[2023/06/26] CVPR 2023大型多模態模型教學:邁向建構與超越多模態 GPT-4 ! 請查看[幻燈片][筆記][YouTube][Bilibli]。
[2023/06/11] 我們發布了最需要的功能的預覽:DeepSpeed 和 LoRA 支援! 請參閱此處的文件。
[2023/06/01] 我們發布了LLaVA-Med:生物醫學大語言和視覺助手,朝著構建具有 GPT-4 級別功能的生物醫學領域大語言和視覺模型邁出了一步。 檢查紙張和頁面。
[2023/05/06] 我們正在發布基於 MPT-7B-Chat 的 LLaVA-Lighting-MPT-7B-preview! 請參閱此處以了解更多詳細資訊。
[2023/05/02]?我們正在發布 LLaVA-Lighting! 只需 40 美元即可在 3 小時內訓練一輛精簡版多模式 GPT-4! 請參閱此處以了解更多詳細資訊。
[2023/04/27] 感謝社群的努力,具有 4 位元量化功能的 LLaVA-13B 可讓您在具有低至 12GB VRAM 的 GPU 上運作! 在這裡嘗試一下。
[2023/04/17]?我們發布了LLaVA:大型語言和視覺助手。我們提出視覺指令調整,以建立具有 GPT-4 等級功能的大型語言和視覺模型。 查看論文和演示。
使用和許可聲明:該專案使用某些資料集和檢查點,這些資料集和檢查點受各自原始許可的約束。使用者必須遵守這些原始許可證的所有條款和條件,包括但不限於資料集的 OpenAI 使用條款以及使用資料集訓練的檢查點的基本語言模型的特定許可證(例如 Llama-1/2 社區許可證LLaMA -2 和Vicuna-v1.5、統一錢文研究許可協議和Llama-3 研究許可)。除了原始許可證中規定的限制之外,該項目沒有施加任何額外的限制。此外,提醒使用者確保他們對資料集和檢查點的使用符合所有適用的法律和法規。
git 克隆 https://github.com/LLaVA-VL/LLaVA-NeXTcd LLaVA-NeXT
conda 創建-n llava python=3.10 -y 康達激活拉瓦 pip install --upgrade pip # 啟用 PEP 660 支援.pip install -e ".[train]"
請查看以下頁面以獲取更多推理和評估詳細資訊。
LLaVA-OneVision:用於示範推理。評估代碼位於lmms-eval中。
LLaVA-NeXT-Image:用於使用 lmms-eval 進行影像示範推理和更強的 LMM 評估。
LLaVA-NeXT-Video:用於視訊推理和評估腳本。我們建議使用 LMMs-video 進行評估。
LLaVA-NeXT-Interleave:用於多影像示範和評估腳本。
我們使用 SGLang 來加速 LLaVA-NeXT 的推理和部署。您可以使用 SGLang 將 LLaVA-NeXT 作為後端 API 服務。
準備環境:按照 sglang 中的說明進行操作
在 sglang/examples/runtime/llava_onevision 中查看 HTTP Post/Get 和 SRT 的使用情況
在 (K) 個節點上啟動並執行:
轉到 sglang 項目
cd PATH_TO/sglang
第一個節點:
bash 範例/usage/llava_video/srt_example_llava_v.sh K 0 YOUR_VIDEO_PATH YOUR_MODEL_PATH FRAMES_PER_VIDEO (例如bash範例/usage/llava_video/srt_example_llava_v.sh K 0範例/usage/llava_video/videos/Q98Z4OTh8RwmDonc.mp4 lmms-lab/LLaVA-NeXT-Video-7B-DPO 16)
第二個節點:
bash 範例/usage/llava_video/srt_example_llava_v.sh K 1 YOUR_VIDEO_PATH YOUR_MODEL_PATH FRAMES_PER_VIDEO
K節點:
bash 範例/usage/llava_video/srt_example_llava_v.sh K K-1 YOUR_VIDEO_PATH YOUR_MODEL_PATH FRAMES_PER_VIDEO
如果您發現它對您的研究和應用有用,請使用此 BibTeX 引用相關論文/部落格:
@article{li2024llava,title={LLaVA-NeXT-Interleave:解決大型多模態模型中的多圖像、視頻和3D},作者={Li、Feng 和Zhang、Renrui 和Zhang、Hao 和Zhang、Yuanhan 和Li ,博和李、魏和馬、澤君和李、春媛},journal={arXiv preprint arXiv:2407.07895},year={2024}}@misc{li2024llavanext-ablations,title={LLaVA-NeXT:還有什麼影響視覺教學超越資料調整? Hao 和Zhang,凱辰和郭、董和張、袁涵和張、仁瑞和李、馮和劉、紫薇和李、春媛},月={May},年={2024}}@misc{ li2024llavanext-strong,title={LLaVA -NeXT:更強的法學碩士在野外增強多模式能力},url={https://llava-vl.github.io/blog/2024-05-10-llava-next -stronger-llms/},author={Li , 薄和張, 凱辰和張, 郝和郭, 董和張, 仁瑞和李, 馮和張, 遠瀚和劉, 紫薇和李, 春源} ,月={May},年={2024}}@misc {zhang2024llavanext-video, title={LLaVA-NeXT: 強大的零樣本視訊理解模型}, url={https://llava-vl.github.io /blog/2024-04-30-llava-next-video /},作者={張、遠瀚與李、薄與劉、浩田與李、永載與貴、良科與付、狄與馮、賈世與劉、紫微與李、春媛},月份={四月}, year={2024}}@misc{liu2024llavanext,title={LLaVA-NeXT:改進推理、OCR 與世界知識},url= {https://llava-vl.github.io/blog/2024-01-30 -llava-next/},作者={劉浩天和李、春園和李、宇恆和李、博和張、遠瀚和沈、盛和李、勇宰},月={一月},年={2024 }}@misc{liu2023improvedllava, title={透過視覺指令調整改進基線}, 作者={劉,浩田和李,春園和李,宇恆和李,Yong Jae},出版商={arXiv:2310.03744},年份={2023}, }@misc{liu2023llava, title={視覺指令調優}, 作者={劉,浩田和李,春園和吳,慶陽和李,Yong Jae},出版商={NeurIPS},年份={2023}, }
Vicuna:我們建立的程式碼庫,以及我們的基礎模型 Vicuna-13B,它具有令人驚嘆的語言功能!
LLaVA-NeXT 專案目前由團隊和我們的貢獻者(按名字字母順序排列)一起維護:Bo Li、DongGuo、Feng Li、HaoZhang、KaichenZhang、RenruiZhang、YuanhanZhang,由 ChunyuanLi 和在劉浩天的指導和幫助下。
lmms-eval
框架及其核心貢獻者,包括 Peiyuan 張、Fanyi Pu、Joshua Adrian Cahyono 和 Kairui Hu,感謝他們在評估方面的支持。
使用 GPT-4 進行指令調整
LLaVA-Med:一天內訓練生物醫學大型語言與視覺助理
Otter:上下文內多模式指令調優
對於未來的專案想法,請查看:
SEEM:一次分割各處的所有內容
Grounded-Segment-Anything 透過結合 Grounding DINO 和 Segment-Anything 來偵測、分割和產生任何東西。