[2024/10/04] ? LLaVA-Video (anteriormente LLaVA-NeXT-Video) passou por uma grande atualização! Temos o prazer de lançar o LLaVA-Video-178K , um conjunto de dados sintético de alta qualidade para ajuste de instruções de vídeo. Este conjunto de dados inclui:
Junto com isso, também estamos lançando os modelos LLaVA-Video 7B/72B , que oferecem desempenho competitivo nos mais recentes benchmarks de vídeo, incluindo Video-MME, LongVideoBench e Dream-1K.
Explorar mais :
Conjunto de dados LLaVA-Video-178K: Baixe o conjunto de dados.
Modelos LLaVA-Video: Acesse pontos de verificação do modelo.
Artigo: Informações detalhadas sobre LLaVA-Video.
Documentação LLaVA-Video: Orientação sobre treinamento, inferência e avaliação.
178.510 entradas de legenda
960.792 pares abertos de perguntas e respostas
196.198 itens de perguntas e respostas de múltipla escolha
[2024/09/13] ? ? LLaVA-OneVision-Chat . O novo LLaVA-OV-Chat (7B/72B) melhora significativamente a experiência de chat do LLaVA-OV. ?
[2024/08/06] ? ? LLaVA-OneVision (OV)! Os novos modelos LLaVA-OV (0,5B/7B/72B) alcançam um novo desempenho de última geração em benchmarks de imagem única, multiimagem e vídeo, às vezes rivalizando com os principais modelos comerciais em 47 benchmarks diversos. ? Explorar mais:
[Artigo]: Insights aprofundados, novos cenários emergentes, ou seja, forte compreensão de vídeo por meio da transferência de tarefas a partir de imagens.
[LLaVA-OV Doc]: Inferência de modelo e orientação de avaliação.
[Scripts]: comece a treinar modelos em seus dados de imagem única/multiimagem/vídeo.
[2024/07/16] ? LLaVA-NeXT-Video foi atualizado. O novo modelo 32B alcança o melhor desempenho de código aberto em vários benchmarks de vídeo, incluindo Video-MME. Consulte esta página para obter detalhes, consulte llava_next-video_demo para demonstração.
[2024/06/23] ? LLaVA-NeXT-Interleave é lançado. Utilizamos o formato intercalado de imagem-texto para unificar tarefas de múltiplas imagens, vídeo e 3D em um LLM e obter desempenho SoTA em uma ampla gama de benchmarks. Confira artigos, blogs e pontos de verificação para ver novos recursos e desempenho aprimorado! Lançamos modelos 0.5b, 7b e 7b-dpo.
Um LLM completo para múltiplas imagens, vídeo e 3D com forte desempenho [demo]
Construir dados de treinamento intercalados M4-Instruct
Construir benchmark de múltiplas imagens LLaVA-Interleave Bench
[2024/05/25] ? Quer saber "O que mais influencia o ajuste da instrução visual além dos dados?" Nosso novo blog resume explorações empíricas para eliminar as várias opções de design para melhorar LMMs, exceto instruir os próprios dados. Enquanto isso, abra o código-fonte dos dados recapitulados de alta qualidade usando LLaVA-NeXT-34B em [COCO] [LCS] [CC3M].
Arquiteturas (LMM e codificador de visão)
Representações Visuais (Resolução e # Tokens)
Estratégias de treinamento (dados de alta qualidade e módulos treináveis)
[2024/05/10] ? Os modelos LLaVA-NeXT (mais forte) são lançados, com suporte de LMM mais forte, incluindo LLama-3 (8B) e Qwen-1.5 (72B/110B) Confira [blog] e [checkpoints] para ver desempenho aprimorado!
[2024/05/10] ? LLaVA-NeXT (Vídeo) é lançado. O modelo LLaVA-NeXT treinado apenas em imagem é surpreendentemente forte em tarefas de vídeo com transferência de modalidade zero-shot. O treinamento de DPO com feedback de IA em vídeos pode gerar melhorias significativas. [Blog], [pontos de verificação] e [glang]
[2024/01/30] ? LLaVA-NeXT foi lançado! Com escala adicional para LLaVA-1.5, o LLaVA-NeXT-34B supera o Gemini Pro em alguns benchmarks. Agora ele pode processar 4x mais pixels e executar mais tarefas/aplicativos do que antes. Confira a postagem do blog e explore a demonstração! Os modelos estão disponíveis no Model Zoo. Dados e scripts de treinamento/avaliação em breve.
[2024/03/10] ? Lançamento do LMMs-Eval , um pipeline de avaliação altamente eficiente que usamos no desenvolvimento do LLaVA-NeXT. Ele suporta a avaliação de LMMs em dezenas de conjuntos de dados públicos e permite a integração de novos conjuntos de dados, tornando o desenvolvimento de novos LMMs muito mais rápido. [Blog] [Base de código]
[2023/11/10] É lançado LLaVA-Plus: Aprendendo a Usar Ferramentas para Criação de Agentes Multimodais, com LLaVA-Plus (LLaVA que Plug and Learn to Use Skills). [Página do projeto] [Demonstração] [Código] [Papel]
[2023/11/02] LLaVA-Interactive é lançado: Experimente o futuro da interação multimodal humano-IA com uma demonstração completa para bate-papo de imagens, segmentação, geração e edição. [Página do projeto] [Demonstração] [Código] [Papel]
[2023/10/26] ? LLaVA-1.5 com LoRA atinge desempenho comparável ao ajuste fino do modelo completo, com requisitos reduzidos de GPU RAM (ckpts, script). Também fornecemos um documento sobre como ajustar o LLaVA-1.5 em seu próprio conjunto de dados com LoRA.
[2023/10/12] Confira o LLaVA coreano (Ko-LLaVA), criado pelo ETRI, que apoiou generosamente nossa pesquisa! [? Demonstração]
[2023/10/05] ? LLaVA-1.5 foi lançado! Alcançar SoTA em 11 benchmarks, com apenas modificações simples no LLaVA original, utiliza todos os dados públicos, conclui o treinamento em aproximadamente 1 dia em um único nó 8-A100 e supera métodos como Qwen-VL-Chat que usam dados em escala de bilhões. Confira o relatório técnico e explore a demonstração! Os modelos estão disponíveis no Model Zoo. Os dados de treinamento e scripts do LLaVA-1.5 são divulgados aqui, e os scripts de avaliação são divulgados aqui!
[2023/09/26] LLaVA é melhorado com aprendizagem por reforço de feedback humano (RLHF) para melhorar o embasamento de fatos e reduzir alucinações. Confira os novos postos de controle SFT e RLHF no projeto [LLavA-RLHF]
[2023/09/22] LLaVA é aceito pelo NeurIPS 2023 como apresentação oral , e LLaVA-Med é aceito pelo NeurIPS 2023 Datasets and Benchmarks Track como apresentação de destaque .
[2023/11/06] Suporte para plataformas Intel dGPU e CPU. Mais detalhes aqui.
[2023/10/12] LLaVA agora é compatível com llama.cpp com suporte para quantização de 4/5 bits!
[2023/10/11] Os dados de treinamento e scripts do LLaVA-1.5 são divulgados aqui, e os scripts de avaliação são divulgados aqui!
[2023/10/10] Roboflow Deep Dive: Primeiras impressões com LLaVA-1.5.
[2023/09/20] Resumimos nosso estudo empírico de treinamento de modelos LLaVA 33B e 65B em uma nota. Além disso, se você estiver interessado na revisão abrangente, evolução e tendência dos modelos de fundações multimodais, confira nosso recente artigo de pesquisa ``Modelos de fundações multimodais: de especialistas a assistentes de uso geral''.
[2023/07/19] ? Lançamos uma grande atualização, incluindo suporte para LLaMA-2, treinamento LoRA, inferência de 4/8 bits, resolução mais alta (336x336) e muito mais. Lançamos o LLaVA Bench para benchmarking de bate-papo visual aberto com resultados do Bard e do Bing-Chat. Também oferecemos suporte e verificação de treinamento com RTX 3090 e RTX A6000. Confira LLaVA-from-LLaMA-2 e nosso zoológico modelo!
[2023/06/26] Tutorial CVPR 2023 sobre grandes modelos multimodais: rumo à construção e superação do GPT-4 multimodal ! Confira [Slides] [Notas] [YouTube] [Bilibli].
[2023/06/11] Lançamos a prévia do recurso mais solicitado: suporte DeepSpeed e LoRA! Por favor, veja as documentações aqui.
[2023/06/01] Lançamos LLaVA-Med: Large Language and Vision Assistant for Biomedicine , um passo em direção à construção de grandes modelos de linguagem e visão de domínio biomédico com recursos de nível GPT-4. Confira o papel e a página.
[2023/05/06] Estamos lançando LLaVA-Lighting-MPT-7B-preview, baseado em MPT-7B-Chat! Veja aqui para mais detalhes.
[2023/05/02] ? Estamos lançando LLaVA-Lighting! Treine um GPT-4 leve e multimodal com apenas US$ 40 em 3 horas! Veja aqui para mais detalhes.
[2023/04/27] Graças ao esforço da comunidade, LLaVA-13B com quantização de 4 bits permite que você rode em uma GPU com apenas 12 GB de VRAM! Experimente aqui.
[2023/04/17] ? Lançamos o LLaVA: Large Language and Vision Assistant . Propomos o ajuste de instruções visuais, para a construção de grandes modelos de linguagem e visão com capacidades de nível GPT-4. Confira o artigo e a demonstração.
Avisos de uso e licença : Este projeto utiliza determinados conjuntos de dados e pontos de verificação que estão sujeitos às suas respectivas licenças originais. Os usuários devem cumprir todos os termos e condições dessas licenças originais, incluindo, entre outros, os Termos de Uso da OpenAI para o conjunto de dados e as licenças específicas para modelos de linguagem base para pontos de verificação treinados usando o conjunto de dados (por exemplo, licença comunitária Llama-1/2 para LLaMA-2 e Vicuna-v1.5, CONTRATO DE LICENÇA DE PESQUISA Tongyi Qianwen e Licença de Pesquisa Llama-3). Este projecto não impõe quaisquer restrições adicionais além das estipuladas nas licenças originais. Além disso, os usuários são lembrados de garantir que o uso do conjunto de dados e dos pontos de verificação esteja em conformidade com todas as leis e regulamentos aplicáveis.
clone git https://github.com/LLaVA-VL/LLaVA-NeXTcd LLaVA-NeXT
conda criar -n llava python=3.10 -y conda ativar lava pip install --upgrade pip # Ativar suporte PEP 660.pip install -e ".[train]"
Por favor, verifique a página a seguir para mais detalhes de inferência e avaliação.
LLaVA-OneVision: para inferência de demonstração. O código de avaliação está em lmms-eval.
LLaVA-NeXT-Image: para inferência de demonstração de imagens e avaliação de LMMs mais fortes usando lmms-eval.
LLaVA-NeXT-Video: para scripts de inferência e avaliação de vídeos. Recomendamos usar LMMs-video para avaliação.
LLaVA-NeXT-Interleave: para demonstração de múltiplas imagens e scripts de avaliação.
Usamos SGLang para acelerar a inferência e implantação do LLaVA-NeXT. Você poderia fazer o LLaVA-NeXT como um serviço API de backend com SGLang.
Prepare o ambiente : seguindo as instruções da gíria
Verifique o uso de HTTP Post/Get e SRT em sglang/examples/runtime/llava_onevision
Iniciar e executar em (K) nós :
Vá para o projeto de gíria
cd PATH_TO/sglang
Primeiro nó:
bash exemplos/usage/llava_video/srt_example_llava_v.sh K 0 YOUR_VIDEO_PATH YOUR_MODEL_PATH FRAMES_PER_VIDEO (por exemplo, exemplos bash/usage/llava_video/srt_example_llava_v.sh K 0 exemplos/usage/llava_video/videos/Q98Z4OTh8RwmDonc.mp4 lmms-lab/LLaVA-NeXT-Video-7B-DPO 16)
Segundo nó:
bash exemplos/usage/llava_video/srt_example_llava_v.sh K 1 YOUR_VIDEO_PATH YOUR_MODEL_PATH FRAMES_PER_VIDEO
O nó K:
bash exemplos/usage/llava_video/srt_example_llava_v.sh K K-1 SEU_VIDEO_PATH SEU_MODEL_PATH FRAMES_PER_VIDEO
Se você achar útil para suas pesquisas e aplicações, cite artigos/blogs relacionados usando este BibTeX:
@artigo{li2024llava, title={LLaVA-NeXT-Interleave: Combatendo multiimagem, vídeo e 3D em grandes modelos multimodais}, autor={Li, Feng e Zhang, Renrui e Zhang, Hao e Zhang, Yuanhan e Li, Bo e Li, Wei e Ma, Zejun e Li, Chunyuan}, diário={arXiv preprint arXiv:2407.07895}, ano={2024}}@misc{li2024llavanext-ablations, title={LLaVA-NeXT: O que mais influencia a instrução visual Ajustando além dos dados?}, url={https://llava-vl.github.io/blog/2024-05-25-llava-next-ablations/}, autor={Li, Bo e Zhang, Hao e Zhang, Kaichen e Guo, Dong e Zhang, Yuanhan e Zhang, Renrui e Li, Feng e Liu, Ziwei e Li, Chunyuan}, mês={maio}, ano={2024}}@misc{li2024llavanext-strong,title={LLaVA -NeXT: LLMs mais fortes potencializam capacidades multimodais na natureza},url={https://llava-vl.github.io/blog/2024-05-10-llava-next-stronger-llms/},author={Li , Bo e Zhang, Kaichen e Zhang, Hao e Guo, Dong e Zhang, Renrui e Li, Feng e Zhang, Yuanhan e Liu, Ziwei e Li, Chunyuan},mês={maio},ano={2024}}@misc {zhang2024llavanext-video, title={LLaVA-NeXT: um forte modelo de compreensão de vídeo zero-shot}, url={https://llava-vl.github.io/blog/2024-04-30-llava-next-video /}, autor={Zhang, Yuanhan e Li, Bo e Liu, haotian e Lee, Yong jae e Gui, Liangke e Fu, Di e Feng, Jiashi e Liu, Ziwei e Li, Chunyuan}, mês={abril}, year={2024}}@misc{liu2024llavanext,title={LLaVA-NeXT: raciocínio, OCR e conhecimento de mundo aprimorados},url={https://llava-vl.github.io/blog/2024-01-30 -llava-next/},autor={Liu, Haotian e Li, Chunyuan e Li, Yuheng e Li, Bo e Zhang, Yuanhan e Shen, Sheng e Lee, Yong Jae},mês={janeiro},ano={2024 }}@misc{liu2023improvedllava, title={Linhas de base aprimoradas com ajuste de instrução visual}, autor={Liu, Haotian e Li, Chunyuan e Li, Yuheng e Lee, Yong Jae}, editor={arXiv:2310.03744}, ano={2023}, }@misc{liu2023llava, title={Ajuste de instrução visual}, autor={Liu, Haotian e Li, Chunyuan e Wu, Qingyang e Lee, Yong Jae}, editor={NeurIPS}, ano={2023}, }
Vicuna: a base de código sobre a qual construímos e nosso modelo básico Vicuna-13B que possui incríveis recursos de linguagem!
O projeto LLaVA-NeXT é atualmente mantido pela equipe junto com nossos colaboradores (listados em ordem alfabética pelos primeiros nomes): Bo Li, Dong Guo, Feng Li, Hao Zhang, Kaichen Zhang, Renrui Zhang, Yuanhan Zhang, liderados por Chunyuan Li e com a orientação e ajuda de Haotian Liu.
A estruturalmms-eval
e seus principais contribuidores, incluindo Peiyuan Zhang, Fanyi Pu, Joshua Adrian Cahyono e Kairui Hu, por seu apoio no lado da avaliação.
Ajuste de instrução com GPT-4
LLaVA-Med: treinando um grande assistente de linguagem e visão para biomedicina em um dia
Otter: Ajuste de instrução multimodal no contexto
Para ideias de projetos futuros, confira:
PARECER: segmente tudo em todos os lugares de uma só vez
Grounded-Segment-Anything para detectar, segmentar e gerar qualquer coisa combinando Grounding DINO e Segment-Anything.