[2024/10/04] ? LLaVA-Video (原LLaVA-NeXT-Video)进行了重大升级!我们很高兴发布LLaVA-Video-178K ,这是一个用于视频指令调整的高质量合成数据集。该数据集包括:
除此之外,我们还发布了LLaVA-Video 7B/72B 型号,它们在最新的视频基准测试中提供具有竞争力的性能,包括 Video-MME、LongVideoBench 和 Dream-1K。
探索更多:
LLaVA-Video-178K 数据集:下载数据集。
LLaVA-视频模型:访问模型检查点。
论文:有关 LLaVA-Video 的详细信息。
LLaVA-视频文档:培训、推理和评估指南。
178,510 个字幕条目
960,792 个开放式问答对
196,198 项多项选择题问答
[2024/09/13]? ? LLaVA-OneVision-聊天。新的LLaVA-OV-Chat (7B/72B)显着改善了LLaVA-OV的聊天体验。 ?
[2024/08/06] ? ? LLaVA-OneVision (OV)!新的 LLaVA-OV 模型 (0.5B/7B/72B) 在单图像、多图像和视频基准测试中实现了最先进的性能,有时在 47 个不同的基准测试中可与顶级商业模型相媲美。 ?探索更多:
[论文]:深入的见解,新的新兴场景,即通过图像的任务转移来增强视频理解。
[LLaVA-OV Doc]:模型推理和评估指南。
[脚本]:开始在单图像/多图像/视频数据上训练模型。
[2024/07/16]? LLaVA-NeXT-视频已升级。新的 32B 模型在包括 Video-MME 在内的多个视频基准测试中实现了最佳开源性能。详情请参考此页面,演示请参考llava_next-video_demo。
[2024/06/23]? LLaVA-NeXT-Interleave发布。我们利用图像-文本交错格式将多图像、视频和 3D 任务统一在一个 LLM 中,并在各种基准上实现SoTA性能。查看论文、博客和检查点,了解新功能和改进的性能!我们已经发布了 0.5b、7b 和 7b-dpo 模型。
具有强大性能的多图像、视频和 3D 全方位法学硕士 [演示]
构建交错训练数据M4-Instruct
构建多图像基准LLaVA-Interleave Bench
[2024/05/25] ?想知道“除了数据之外还有什么影响视觉指令调整?”我们的新博客总结了经验探索,以消除除指导数据本身之外的改进 LMM 的各种设计选择。同时,在 [COCO] [LCS] [CC3M] 上使用 LLaVA-NeXT-34B 开源重述的高质量数据。
架构(LMM 和视觉编码器)
视觉表示(分辨率和#标记)
培训策略(高质量数据和可培训模块)
[2024/05/10] ? LLaVA-NeXT (更强)模型发布,支持更强的 LMM,包括 LLama-3 (8B) 和 Qwen-1.5 (72B/110B) 查看 [博客] 和 [检查点] 查看性能改进!
[2024/05/10] ? LLaVA-NeXT (视频)发布。仅图像训练的 LLaVA-NeXT 模型在零样本模态传输的视频任务上出奇地强大。通过视频的 AI 反馈进行 DPO 培训可以带来显着的改进。 [博客]、[检查点] 和 [俚语]
[2024/01/30]? LLaVA-NeXT已推出!通过额外扩展到 LLaVA-1.5,LLaVA-NeXT-34B 在某些基准测试中优于 Gemini Pro。它现在可以处理比以前多 4 倍的像素并执行更多的任务/应用程序。查看博客文章并探索演示!模型可在模型动物园中找到。培训/评估数据和脚本即将推出。
[2024/03/10]?发布LMMs-Eval ,这是我们在开发 LLaVA-NeXT 时使用的高效评估流程。它支持在数十个公共数据集上评估 LMM,并允许新数据集加入,从而使新 LMM 的开发速度更快。 [博客] [代码库]
[2023/11/10] LLaVA-Plus 发布:通过 LLaVA-Plus(LLaVA that Plug and Learn to Use Skills)学习使用创建多模式代理的工具(LLaVA that Plug and Learn to Use Skills)。 [项目页面] [演示] [代码] [论文]
[2023/11/02] LLaVA-Interactive 发布:通过图像聊天、分割、生成和编辑的一体化演示体验人机交互的未来。 [项目页面] [演示] [代码] [论文]
[2023/10/26]?采用 LoRA 的 LLaVA-1.5 实现了与全模型微调相当的性能,同时降低了 GPU RAM 要求(ckpts、脚本)。我们还提供了有关如何使用 LoRA 在您自己的数据集上微调 LLaVA-1.5 的文档。
[2023/10/12] 看看由ETRI创建的韩国LLaVA(Ko-LLaVA),ETRI慷慨支持我们的研究! [?演示]
[2023/10/05] ? LLaVA-1.5 已经出来了!只需对原始 LLaVA 进行简单修改,即可在 11 个基准上实现 SoTA,利用所有公共数据,在单个 8-A100 节点上约 1 天完成训练,超越 Qwen-VL-Chat 等使用十亿级数据的方法。查看技术报告并探索演示!模型可在模型动物园中找到。 LLaVA-1.5的训练数据和脚本在这里发布,评估脚本在这里发布!
[2023/09/26] LLaVA 通过人类反馈的强化学习 (RLHF) 进行了改进,以改善事实基础并减少幻觉。查看项目 [LLavA-RLHF] 中的新 SFT 和 RLHF 检查点
[2023/09/22] LLaVA 作为口头报告被 NeurIPS 2023 接受,LLaVA-Med 作为聚光报告被 NeurIPS 2023 Datasets and Benchmarks Track 接受。
[2023/11/06] 支持Intel dGPU和CPU平台。更多详细信息请参见此处。
[2023/10/12] llama.cpp 现已支持 LLaVA,并支持 4 位/5 位量化!
[2023/10/11] LLaVA-1.5的训练数据和脚本在这里发布,评估脚本在这里发布!
[2023/10/10] Roboflow 深入探究:LLaVA-1.5 的第一印象。
[2023/09/20] 我们在笔记中总结了训练 33B 和 65B LLaVA 模型的实证研究。此外,如果您对多模态基础模型的全面回顾、演变和趋势感兴趣,请查看我们最近的调查论文“多模态基础模型:从专家到通用助理”。
[2023/07/19]?我们发布了重大升级,包括支持 LLaMA-2、LoRA 训练、4-/8 位推理、更高分辨率 (336x336) 等等。我们发布了 LLaVA Bench,用于根据 Bard 和 Bing-Chat 的结果对开放式视觉聊天进行基准测试。我们还支持并验证 RTX 3090 和 RTX A6000 的训练。查看 LLaVA-from-LLaMA-2 和我们的模型动物园!
[2023/06/26] CVPR 2023大型多模态模型教程:迈向构建和超越多模态 GPT-4 ! 请查看[幻灯片][笔记][YouTube][Bilibli]。
[2023/06/11] 我们发布了最需要的功能的预览:DeepSpeed 和 LoRA 支持! 请参阅此处的文档。
[2023/06/01] 我们发布了LLaVA-Med:生物医学大语言和视觉助手,朝着构建具有 GPT-4 级别功能的生物医学领域大语言和视觉模型迈出了一步。 检查纸张和页面。
[2023/05/06] 我们正在发布基于 MPT-7B-Chat 的 LLaVA-Lighting-MPT-7B-preview! 请参阅此处了解更多详细信息。
[2023/05/02]?我们正在发布 LLaVA-Lighting! 只需 40 美元即可在 3 小时内训练一辆精简版多模式 GPT-4! 请参阅此处了解更多详细信息。
[2023/04/27] 感谢社区的努力,具有 4 位量化功能的 LLaVA-13B 允许您在具有低至 12GB VRAM 的 GPU 上运行! 在这里尝试一下。
[2023/04/17]?我们发布了LLaVA:大型语言和视觉助手。我们提出视觉指令调整,以构建具有 GPT-4 级别功能的大型语言和视觉模型。 查看论文和演示。
使用和许可声明:该项目使用某些数据集和检查点,这些数据集和检查点受各自原始许可的约束。用户必须遵守这些原始许可证的所有条款和条件,包括但不限于数据集的 OpenAI 使用条款以及使用数据集训练的检查点的基本语言模型的特定许可证(例如 Llama-1/2 社区许可证LLaMA-2 和 Vicuna-v1.5、统一钱文研究许可协议和 Llama-3 研究许可)。除了原始许可证中规定的限制之外,该项目没有施加任何额外的限制。此外,提醒用户确保他们对数据集和检查点的使用符合所有适用的法律和法规。
git 克隆 https://github.com/LLaVA-VL/LLaVA-NeXTcd LLaVA-NeXT
conda 创建-n llava python=3.10 -y 康达激活拉瓦 pip install --upgrade pip # 启用 PEP 660 支持.pip install -e ".[train]"
请查看以下页面以获取更多推理和评估详细信息。
LLaVA-OneVision:用于演示推理。评估代码位于lmms-eval中。
LLaVA-NeXT-Image:用于使用 lmms-eval 进行图像演示推理和更强的 LMM 评估。
LLaVA-NeXT-Video:用于视频推理和评估脚本。我们建议使用 LMMs-video 进行评估。
LLaVA-NeXT-Interleave:用于多图像演示和评估脚本。
我们使用 SGLang 来加速 LLaVA-NeXT 的推理和部署。您可以使用 SGLang 将 LLaVA-NeXT 作为后端 API 服务。
准备环境:按照 sglang 中的说明进行操作
在 sglang/examples/runtime/llava_onevision 中查看 HTTP Post/Get 和 SRT 的使用情况
在 (K) 个节点上启动并运行:
转到 sglang 项目
cd PATH_TO/sglang
第一个节点:
bash 示例/usage/llava_video/srt_example_llava_v.sh K 0 YOUR_VIDEO_PATH YOUR_MODEL_PATH FRAMES_PER_VIDEO (例如bash示例/usage/llava_video/srt_example_llava_v.sh K 0示例/usage/llava_video/videos/Q98Z4OTh8RwmDonc.mp4 lmms-lab/LLaVA-NeXT-Video-7B-DPO 16)
第二个节点:
bash 示例/usage/llava_video/srt_example_llava_v.sh K 1 YOUR_VIDEO_PATH YOUR_MODEL_PATH FRAMES_PER_VIDEO
K节点:
bash 示例/usage/llava_video/srt_example_llava_v.sh K K-1 YOUR_VIDEO_PATH YOUR_MODEL_PATH FRAMES_PER_VIDEO
如果您发现它对您的研究和应用有用,请使用此 BibTeX 引用相关论文/博客:
@article{li2024llava,title={LLaVA-NeXT-Interleave:解决大型多模态模型中的多图像、视频和 3D},作者={Li、Feng 和Zhang、Renrui 和Zhang、Hao 和Zhang、Yuanhan 和Li,博和李、魏和马、泽君和李、春媛},journal={arXiv preprint arXiv:2407.07895},year={2024}}@misc{li2024llavanext-ablations,title={LLaVA-NeXT:还有什么影响视觉教学超越数据调整?},url={https://llava-vl.github.io/blog/2024-05-25-llava-next-ablations/},author={Li、Bo 和Zhang、Hao 和Zhang,凯辰和郭、董和张、袁涵和张、仁瑞和李、冯和刘、紫薇和李、春媛},月={May},年={2024}}@misc{li2024llavanext-strong,title={LLaVA -NeXT:更强的法学硕士在野外增强多模式能力},url={https://llava-vl.github.io/blog/2024-05-10-llava-next-stronger-llms/},author={Li , 薄和张, 凯辰和张, 郝和郭, 董和张, 仁瑞和李, 冯和张, 远瀚和刘, 紫薇和李, 春源},月={May},年={2024}}@misc {zhang2024llavanext-video, title={LLaVA-NeXT: 强大的零样本视频理解模型}, url={https://llava-vl.github.io/blog/2024-04-30-llava-next-video /},作者={张、远瀚与李、薄与刘、浩田与李、永载与贵、良科与付、狄与冯、贾世与刘、紫微与李、春媛},月份={四月}, year={2024}}@misc{liu2024llavanext,title={LLaVA-NeXT:改进推理、OCR 和世界知识},url={https://llava-vl.github.io/blog/2024-01-30 -llava-next/},作者={刘浩天和李、春园和李、宇恒和李、博和张、远瀚和沉、盛和李、勇宰},月={一月},年={2024 }}@misc{liu2023improvedllava, title={通过视觉指令调整改进基线}, 作者={刘,浩田和李,春园和李,宇恒和李,Yong Jae},出版商={arXiv:2310.03744},年份={2023}, }@misc{liu2023llava, title={视觉指令调优}, 作者={刘,浩田和李,春园和吴,庆阳和李,Yong Jae},出版商={NeurIPS},年份={2023}, }
Vicuna:我们构建的代码库,以及我们的基础模型 Vicuna-13B,它具有令人惊叹的语言功能!
LLaVA-NeXT 项目目前由团队和我们的贡献者(按名字字母顺序排列)一起维护:Bo Li、DongGuo、Feng Li、HaoZhang、KaichenZhang、RenruiZhang、YuanhanZhang,由 ChunyuanLi 和在刘浩天的指导和帮助下。
lmms-eval
框架及其核心贡献者,包括 Peiyuan 张、Fanyi Pu、Joshua Adrian Cahyono 和 Kairui Hu,感谢他们在评估方面的支持。
使用 GPT-4 进行指令调整
LLaVA-Med:一天内培训生物医学大型语言和视觉助理
Otter:上下文内多模式指令调优
对于未来的项目想法,请查看:
SEEM:一次性分割各处的所有内容
Grounded-Segment-Anything 通过结合 Grounding DINO 和 Segment-Anything 来检测、分割和生成任何东西。