Awesome Multimodal Assistant es una lista seleccionada de chatbots/asistentes conversacionales multimodales que utilizan varios modos de interacción, como texto, voz, imágenes y videos, para brindar una experiencia de usuario perfecta y versátil. Está diseñado para ayudar a los usuarios a realizar diversas tareas, desde la simple recuperación de información hasta el razonamiento multimedia complejo.
MultiInstruct: mejora del aprendizaje multimodal Zero-Shot mediante el ajuste de instrucciones
arXiv 2022/12
[artículo]
GPT-4
arXiv 2023/03
[artículo] [blog]
Ajuste de instrucciones visuales
arXiv 2023/04
[artículo] [código] [página del proyecto] [demostración]
MiniGPT-4: Mejora de la comprensión del lenguaje y la visión con modelos avanzados de lenguaje grande
arXiv 2023/04
[artículo] [código] [página del proyecto] [demostración]
mPLUG-Owl: la modularización potencia los modelos de lenguajes grandes con multimodalidad
arXiv 2023/04
[artículo] [código] [demostración]
LLaMA-Adapter V2: modelo de instrucción visual eficiente en parámetros
arXiv 2023/04
[artículo] [código] [demostración]
Video-LLaMA: un modelo de lenguaje visual perfeccionado con instrucciones para la comprensión de videos
[código]
LMEye: una red de percepción interactiva para modelos de lenguaje grandes
arXiv 2023/05
[documento] [código]
MultiModal-GPT: un modelo de visión y lenguaje para el diálogo con humanos
arXiv 2023/05
[artículo] [código] [demostración]
X-LLM: Arranque de modelos avanzados de lenguajes grandes al tratar las modalidades múltiples como lenguajes extranjeros
arXiv 2023/05
[artículo] [código] [página del proyecto]
Otter: un modelo multimodal con ajuste de instrucciones en contexto
arXiv 2023/05
[artículo] [código] [demostración]
InstructBLIP: Hacia modelos de visión y lenguaje de uso general con ajuste de instrucciones
arXiv 2023/05
[documento] [código]
InternGPT: resolución de tareas centradas en la visión interactuando con ChatGPT más allá del lenguaje
arXiv 2023/05
[artículo] [código] [demostración]
VisionLLM: el modelo de lenguaje grande también es un decodificador abierto para tareas centradas en la visión
arXiv 2023/05
[documento] [código]
Barato y rápido: ajuste eficiente de la instrucción visión-lenguaje para modelos de lenguaje grandes
arXiv 2023/05
[artículo] [código] [página del proyecto]
EmbodiedGPT: preentrenamiento de visión y lenguaje a través de una cadena de pensamiento incorporada
arXiv 2023/05
[artículo] [código] [página del proyecto]
DetGPT: detecta lo que necesitas mediante el razonamiento
arXiv 2023/05
[artículo] [código] [página del proyecto]
PathAsst: Redefiniendo la patología a través del asistente de IA de Fundación Generativa para patología
arXiv 2023/05
[documento] [código]
ChatBridge: modalidades puente con un modelo de lenguaje grande como catalizador del lenguaje
arXiv 2023/05
[artículo] [código] [página del proyecto]
Video-ChatGPT: hacia una comprensión detallada del vídeo a través de modelos de lenguaje y visión amplia
arXiv 2023/06
[documento] [código]
LAMM: conjunto de datos, marco y punto de referencia de ajuste de instrucciones multimodales asistidos por lenguaje
arXiv 2023/06
[artículo]
El chat textual-visual responsable aprende a rechazar instrucciones humanas en la recreación de imágenes
arXiv 2023/06
[artículo] [página del proyecto]
VALLEY: ASISTENTE DE VIDEO CON CAPACIDAD MEJORADA DEL MODELO DE IDIOMA GRANDE
arXiv 2023/06
[documento] [código]
Visual ChatGPT: hablar, dibujar y editar con modelos de Visual Foundation
arXiv 2023/03
[artículo] [código] [demostración]
ViperGPT: inferencia visual mediante ejecución de Python para razonamiento
arXiv 2023/03
[artículo] [código] [página del proyecto]
TaskMatrix.AI: completar tareas conectando modelos básicos con millones de API
arXiv 2023/03
[documento] [código]
Chatgpt pregunta, blip-2 responde: preguntas automáticas para descripciones visuales enriquecidas
arXiv 2023/03
[documento] [código]
MM-REACT: Impulsando ChatGPT para el razonamiento y la acción multimodal
arXiv 2023/03
[artículo] [código] [página del proyecto] [demostración]
Hugginggpt: Resolviendo tareas de inteligencia artificial con chatgpt y sus amigos en huggingface
arXiv 2023/03
[artículo] [código] [demostración]
VLog: vídeo como documento largo
[código] [demostración]
Video ChatCaptioner: hacia descripciones espaciotemporales enriquecidas
arXiv 2023/04
[documento] [código]
ChatVideo: un sistema de comprensión de vídeo versátil y multimodal centrado en tracklets
arXiv 2023/04
[artículo] [página del proyecto]
VideoChat: comprensión del vídeo centrado en el chat
arXiv 2023/05
[artículo] [código] [demostración]