[2024/10/04] ? ¡LLaVA-Video (anteriormente LLaVA-NeXT-Video) ha experimentado una importante actualización! Estamos entusiasmados de lanzar LLaVA-Video-178K , un conjunto de datos sintéticos de alta calidad para ajustar instrucciones en video. Este conjunto de datos incluye:
Junto con esto, también estamos lanzando los modelos LLaVA-Video 7B/72B , que ofrecen un rendimiento competitivo en las últimas pruebas de vídeo, incluidas Video-MME, LongVideoBench y Dream-1K.
Explora más :
Conjunto de datos LLaVA-Video-178K: descargue el conjunto de datos.
Modelos LLaVA-Video: Accede a los puntos de control del modelo.
Artículo: Información detallada sobre LLaVA-Video.
LLaVA-Video Documentación: Orientación sobre formación, inferencia y evaluación.
178.510 entradas de subtítulos
960.792 pares de preguntas y respuestas abiertas
196,198 preguntas y respuestas de opción múltiple
[2024/09/13] ? ? LLaVA-OneVision-Chat . El nuevo LLaVA-OV-Chat (7B/72B) mejora significativamente la experiencia de chat de LLaVA-OV. ?
[2024/08/06] ? ? LLaVA-OneVision (OV)! Los nuevos modelos LLaVA-OV (0.5B/7B/72B) logran un rendimiento de última generación en pruebas comparativas de una sola imagen, imágenes múltiples y video, y en ocasiones rivalizan con los mejores modelos comerciales en 47 pruebas comparativas diversas. ? Explora más:
[Artículo]: Conocimientos profundos, nuevos escenarios emergentes, es decir, una sólida comprensión del vídeo a través de la transferencia de tareas a partir de imágenes.
[LLaVA-OV Doc]: Guía de inferencia y evaluación de modelos.
[Scripts]: comience a entrenar modelos en sus datos de una sola imagen, varias imágenes o video.
[2024/07/16] ? LLaVA-NeXT-Video ha sido actualizado. El nuevo modelo 32B logra el mejor rendimiento de código abierto en varios puntos de referencia de vídeo, incluido Video-MME. Consulte esta página para obtener más detalles; consulte llava_next-video_demo para obtener una demostración.
[23/06/2024] ? Se lanza LLaVA-NeXT-Interleave . Utilizamos el formato entrelazado de imagen y texto para unificar tareas de múltiples imágenes, videos y 3D en un LLM y lograr el rendimiento SoTA en una amplia gama de puntos de referencia. Consulte el documento, el blog y los puntos de control para ver nuevas capacidades y un rendimiento mejorado. Hemos lanzado los modelos 0.5b, 7b y 7b-dpo.
Un LLM completo para múltiples imágenes, video y 3D con un sólido rendimiento [demostración]
Construir datos de entrenamiento entrelazados M4-Instruct
Construir banco de referencia de imágenes múltiples LLaVA-Interleave
[25/05/2024] ? Se pregunta "¿Qué más influye en el ajuste de las instrucciones visuales más allá de los datos?" Nuestro nuevo blog resume las exploraciones empíricas para eliminar las diversas opciones de diseño para mejorar los LMM, excepto los datos de instrucciones en sí. Mientras tanto, abra los datos de alta calidad recopilados utilizando LLaVA-NeXT-34B en [COCO] [LCS] [CC3M].
Arquitecturas (LMM y codificador de visión)
Representaciones visuales (resolución y # tokens)
Estrategias de capacitación (datos de alta calidad y módulos entrenables)
[2024/05/10] ? Se lanzan los modelos LLaVA-NeXT (más fuertes), con soporte para LMM más potentes, incluidos LLama-3 (8B) y Qwen-1.5 (72B/110B). ¡Consulte [blog] y [checkpoints] para ver un rendimiento mejorado!
[2024/05/10] ? Se estrena LLaVA-NeXT (Vídeo). El modelo LLaVA-NeXT entrenado solo con imágenes es sorprendentemente fuerte en tareas de video con transferencia de modalidad de disparo cero. La capacitación de DPO con comentarios de IA en videos puede generar mejoras significativas. [Blog], [puntos de control] y [argot]
[30/01/2024] ? ¡LLaVA-NeXT ya está disponible! Con escalado adicional a LLaVA-1.5, LLaVA-NeXT-34B supera a Gemini Pro en algunos puntos de referencia. Ahora puede procesar 4 veces más píxeles y realizar más tareas/aplicaciones que antes. ¡Consulte la publicación del blog y explore la demostración! Los modelos están disponibles en Model Zoo. Próximamente datos y scripts de capacitación/evaluación.
[2024/03/10] ? Lanzamiento de LMMs-Eval , un proceso de evaluación altamente eficiente que utilizamos al desarrollar LLaVA-NeXT. Admite la evaluación de LMM en docenas de conjuntos de datos públicos y permite la incorporación de nuevos conjuntos de datos, lo que hace que el desarrollo de nuevos LMM sea mucho más rápido. [Blog] [Código base]
[2023/11/10] Se lanza LLaVA-Plus: Aprendiendo a Usar Herramientas para la Creación de Agentes Multimodales, con LLaVA-Plus (LLaVA que Conecta y Aprende a Usar Habilidades). [Página del proyecto] [Demostración] [Código] [Papel]
[2023/11/02] Se lanza LLaVA-Interactive: experimente el futuro de la interacción multimodal entre humanos y IA con una demostración todo en uno para chat de imágenes, segmentación, generación y edición. [Página del proyecto] [Demostración] [Código] [Papel]
[2023/10/26] ? LLaVA-1.5 con LoRA logra un rendimiento comparable al ajuste fino del modelo completo, con un requisito reducido de RAM de GPU (ckpts, script). También proporcionamos un documento sobre cómo ajustar LLaVA-1.5 en su propio conjunto de datos con LoRA.
[2023/10/12] ¡Eche un vistazo al LLaVA coreano (Ko-LLaVA), creado por ETRI, que ha apoyado generosamente nuestra investigación! [? Manifestación]
[05/10/2023] ? ¡LLaVA-1.5 ya está disponible! Lograr SoTA en 11 puntos de referencia, con solo modificaciones simples al LLaVA original, utiliza todos los datos públicos, completa el entrenamiento en aproximadamente 1 día en un solo nodo 8-A100 y supera métodos como Qwen-VL-Chat que utilizan datos a escala de mil millones. ¡Consulte el informe técnico y explore la demostración! Los modelos están disponibles en Model Zoo. ¡Los datos de entrenamiento y los scripts de LLaVA-1.5 se publican aquí y los scripts de evaluación se publican aquí!
[2023/09/26] LLaVA se mejora con el aprendizaje reforzado a partir de la retroalimentación humana (RLHF) para mejorar la base de datos y reducir las alucinaciones. Consulte los nuevos puntos de control SFT y RLHF en el proyecto [LLavA-RLHF]
[22/09/2023] LLaVA es aceptado por NeurIPS 2023 como presentación oral , y LLaVA-Med es aceptado por NeurIPS 2023 Datasets and Benchmarks Track como presentación destacada .
[2023/11/06] Admite plataformas Intel dGPU y CPU. Más detalles aquí.
[2023/10/12] ¡LLaVA ahora es compatible con llama.cpp con soporte de cuantificación de 4 bits/5 bits!
[2023/10/11] ¡Los datos de entrenamiento y los scripts de LLaVA-1.5 se publican aquí, y los scripts de evaluación se publican aquí!
[10/10/2023] Roboflow Deep Dive: Primeras impresiones con LLaVA-1.5.
[20/09/2023] Resumimos nuestro estudio empírico sobre el entrenamiento de los modelos LLaVA 33B y 65B en una nota. Además, si está interesado en la revisión exhaustiva, la evolución y la tendencia de los modelos de cimentaciones multimodales, consulte nuestro reciente documento de encuesta "Modelos de cimentaciones multimodales: de especialistas a asistentes de uso general".
[2023/07/19] ? Lanzamos una actualización importante, que incluye soporte para LLaMA-2, entrenamiento LoRA, inferencia de 4/8 bits, mayor resolución (336x336) y mucho más. Lanzamos LLaVA Bench para realizar evaluaciones comparativas del chat visual abierto con resultados de Bard y Bing-Chat. También brindamos soporte y verificamos la capacitación con RTX 3090 y RTX A6000. ¡Echa un vistazo a LLaVA-from-LLaMA-2 y nuestro zoológico modelo!
[2023/06/26] Tutorial CVPR 2023 sobre grandes modelos multimodales: ¡Hacia la construcción y superación del GPT-4 multimodal ! Consulte [Diapositivas] [Notas] [YouTube] [Bilibli].
[2023/06/11] Publicamos la vista previa de la función más solicitada: ¡soporte para DeepSpeed y LoRA! Consulte la documentación aquí.
[01/06/2023] Lanzamos LLaVA-Med: Asistente de visión y lenguaje grande para biomedicina , un paso hacia la construcción de modelos de visión y lenguaje grande de dominio biomédico con capacidades de nivel GPT-4. Consulte el artículo y la página.
[2023/05/06] ¡Lanzamos la vista previa de LLaVA-Lighting-MPT-7B, basada en MPT-7B-Chat! Consulte aquí para obtener más detalles.
[2023/05/02] ? ¡Lanzamos LLaVA-Lighting! ¡Entrena un GPT-4 multimodal ligero con solo $40 en 3 horas! Consulte aquí para obtener más detalles.
[27/04/2023] Gracias al esfuerzo de la comunidad, LLaVA-13B con cuantificación de 4 bits le permite ejecutarse en una GPU con tan solo 12 GB de VRAM. Pruébelo aquí.
[2023/04/17] ? Lanzamos LLaVA: Asistente de visión y lenguaje grande . Proponemos un ajuste de la instrucción visual para construir grandes modelos de lenguaje y visión con capacidades de nivel GPT-4. Consulte el documento y la demostración.
Avisos de uso y licencia : este proyecto utiliza ciertos conjuntos de datos y puntos de control que están sujetos a sus respectivas licencias originales. Los usuarios deben cumplir con todos los términos y condiciones de estas licencias originales, incluidos, entre otros, los Términos de uso de OpenAI para el conjunto de datos y las licencias específicas para modelos de lenguaje base para puntos de control entrenados utilizando el conjunto de datos (por ejemplo, licencia comunitaria Llama-1/2 para LLaMA-2 y Vicuña-v1.5, ACUERDO DE LICENCIA DE INVESTIGACIÓN Tongyi Qianwen y Licencia de investigación Llama-3). Este proyecto no impone restricciones adicionales más allá de las estipuladas en las licencias originales. Además, se recuerda a los usuarios que se aseguren de que el uso del conjunto de datos y los puntos de control cumpla con todas las leyes y regulaciones aplicables.
clon de git https://github.com/LLaVA-VL/LLaVA-NeXTcd LLaVA-NeXT
conda crear -n llama python=3.10 -y conda activar llama pip install --upgrade pip # Habilitar soporte PEP 660.pip install -e ".[train]"
Consulte la siguiente página para obtener más detalles de inferencia y evaluación.
LLaVA-OneVision: para inferencia de demostración. El código de evaluación está en lmms-eval.
LLaVA-NeXT-Image: para inferencia de demostración de imágenes y evaluación de LMM más potentes utilizando lmms-eval.
LLaVA-NeXT-Video: para videoinferencias y guiones de evaluación. Recomendamos utilizar LMMs-video para la evaluación.
LLaVA-NeXT-Interleave: para guiones de evaluación y demostración de múltiples imágenes.
Usamos SGLang para acelerar la inferencia y el despliegue de LLaVA-NeXT. Podrías hacer de LLaVA-NeXT un servicio API backend con SGLang.
Prepare el entorno : siguiendo las instrucciones del sglang
Consulte el uso de HTTP Post/Get y SRT en sglang/examples/runtime/llava_onevision
Lanzar y ejecutar en nodos (K) :
Ir al proyecto sglang
cd PATH_TO/sglang
Primer nodo:
ejemplos de bash/usage/llava_video/srt_example_llava_v.sh K 0 YOUR_VIDEO_PATH YOUR_MODEL_PATH FRAMES_PER_VIDEO (por ejemplo, ejemplos de bash/usage/llava_video/srt_example_llava_v.sh K 0 ejemplos/usage/llava_video/videos/Q98Z4OTh8RwmDonc.mp4 lmms-lab/LLaVA-NeXT-Video-7B-DPO 16)
Segundo nodo:
ejemplos de bash/usage/llava_video/srt_example_llava_v.sh K 1 YOUR_VIDEO_PATH YOUR_MODEL_PATH FRAMES_PER_VIDEO
El nodo K:
ejemplos de bash/usage/llava_video/srt_example_llava_v.sh K K-1 YOUR_VIDEO_PATH YOUR_MODEL_PATH FRAMES_PER_VIDEO
Si lo encuentra útil para su investigación y aplicaciones, cite artículos/blogs relacionados utilizando este BibTeX:
@article{li2024llava, title={LLaVA-NeXT-Interleave: Abordar imágenes múltiples, vídeo y 3D en grandes modelos multimodales}, autor={Li, Feng y Zhang, Renrui y Zhang, Hao y Zhang, Yuanhan y Li, Bo y Li, Wei y Ma, Zejun y Li, Chunyuan}, journal={arXiv preprint arXiv:2407.07895}, año={2024}}@misc{li2024llavanext-ablations, title={LLaVA-NeXT: ¿Qué más influye en la instrucción visual? ¿Tuning Beyond Data?}, url={https://llava-vl.github.io/blog/2024-05-25-llava-next-ablations/}, autor={Li, Bo y Zhang, Hao y Zhang, Kaichen y Guo, Dong y Zhang, Yuanhan y Zhang, Renrui y Li, Feng y Liu, Ziwei y Li, Chunyuan}, mes={mayo}, año={2024}}@misc{li2024llavanext-strong,title={LLaVA -NeXT: LLM más potentes potencian las capacidades multimodales en la naturaleza},url={https://llava-vl.github.io/blog/2024-05-10-llava-next-stronger-llms/},author={Li , Bo y Zhang, Kaichen y Zhang, Hao y Guo, Dong y Zhang, Renrui y Li, Feng y Zhang, Yuanhan y Liu, Ziwei y Li, Chunyuan},mes={mayo},año={2024}}@misc {zhang2024llavanext-video, title={LLaVA-NeXT: un sólido modelo de comprensión de videos de toma cero}, url={https://llava-vl.github.io/blog/2024-04-30-llava-next-video /}, autor={Zhang, Yuanhan y Li, Bo y Liu, haotian y Lee, Yong jae y Gui, Liangke y Fu, Di y Feng, Jiashi y Liu, Ziwei y Li, Chunyuan}, mes={abril}, año={2024}}@misc{liu2024llavanext,title={LLaVA-NeXT: razonamiento mejorado, OCR y conocimiento del mundo},url={https://llava-vl.github.io/blog/2024-01-30 -llava-next/},autor={Liu, Haotian y Li, Chunyuan y Li, Yuheng y Li, Bo y Zhang, Yuanhan y Shen, Sheng y Lee, Yong Jae},mes={enero},año={2024 }}@misc{liu2023improvedllava, title={Líneas de base mejoradas con ajuste de instrucciones visuales}, autor={Liu, Haotian y Li, Chunyuan y Li, Yuheng y Lee, Yong Jae}, editor={arXiv:2310.03744}, año={2023}, }@misc{liu2023llava, title={Ajuste de instrucciones visuales}, autor={Liu, Haotian y Li, Chunyuan y Wu, Qingyang y Lee, Yong Jae}, editor={NeurIPS}, año={2023}, }
Vicuña: ¡el código base sobre el que construimos y nuestro modelo base Vicuña-13B que tiene increíbles capacidades de lenguaje!
El equipo mantiene actualmente el proyecto LLaVA-NeXT junto con nuestros colaboradores (enumerados alfabéticamente por nombre): Bo Li, Dong Guo, Feng Li, Hao Zhang, Kaichen Zhang, Renrui Zhang, Yuanhan Zhang, liderados por Chunyuan Li y con la orientación y ayuda de Haotian Liu.
El marcolmms-eval
y sus principales contribuyentes, incluidos Peiyuan Zhang, Fanyi Pu, Joshua Adrian Cahyono y Kairui Hu, por su apoyo en la parte de evaluación.
Ajuste de instrucciones con GPT-4
LLaVA-Med: Formación de un gran asistente de lenguaje y visión para biomedicina en un día
Otter: Ajuste de instrucciones multimodales en contexto
Para ideas de proyectos futuros, consulte:
SEEM: Segmente todo en todas partes, al mismo tiempo
Grounded-Segment-Anything para detectar, segmentar y generar cualquier cosa uniendo Grounding DINO y Segment-Anything.