Awesome Multimodal Assistant é uma lista selecionada de chatbots/assistentes de conversação multimodais que utilizam vários modos de interação, como texto, fala, imagens e vídeos, para fornecer uma experiência de usuário perfeita e versátil. Ele foi projetado para auxiliar os usuários na execução de diversas tarefas, desde a simples recuperação de informações até o raciocínio multimídia complexo.
MultiInstruct: Melhorando o aprendizado multimodal Zero-Shot por meio do ajuste de instruções
arXiv 2022/12
[artigo]
GPT-4
arXiv 2023/03
[artigo] [blog]
Ajuste de instrução visual
arXiv 2023/04
[artigo] [código] [página do projeto] [demonstração]
MiniGPT-4: Aprimorando a Compreensão da Visão-Linguagem com Modelos Avançados de Grandes Linguagens
arXiv 2023/04
[artigo] [código] [página do projeto] [demonstração]
mPLUG-Owl: Modularização capacita grandes modelos de linguagem com multimodalidade
arXiv 2023/04
[artigo] [código] [demonstração]
LLaMA-Adapter V2: Modelo de instrução visual com parâmetros eficientes
arXiv 2023/04
[artigo] [código] [demonstração]
Video-LLaMA: um modelo de linguagem visual aprimorado por instruções para compreensão de vídeo
[código]
LMEye: uma rede de percepção interativa para grandes modelos de linguagem
arXiv 2023/05
[artigo] [código]
MultiModal-GPT: Um Modelo de Visão e Linguagem para o Diálogo com Humanos
arXiv 2023/05
[artigo] [código] [demonstração]
X-LLM: Inicializando Modelos Avançados de Grandes Linguagens, Tratando Multimodalidades como Línguas Estrangeiras
arXiv 2023/05
[artigo] [código] [página do projeto]
Otter: um modelo multimodal com ajuste de instrução no contexto
arXiv 2023/05
[artigo] [código] [demonstração]
InstructBLIP: Rumo a modelos de linguagem visual de uso geral com ajuste de instrução
arXiv 2023/05
[artigo] [código]
InternGPT: Resolvendo tarefas centradas na visão interagindo com ChatGPT além da linguagem
arXiv 2023/05
[artigo] [código] [demonstração]
VisionLLM: Large Language Model também é um decodificador aberto para tarefas centradas na visão
arXiv 2023/05
[artigo] [código]
Barato e Rápido: Ajuste Eficiente de Instrução de Linguagem de Visão para Modelos de Linguagem Grande
arXiv 2023/05
[artigo] [código] [página do projeto]
EmposedGPT: pré-treinamento de visão-linguagem por meio da cadeia de pensamento incorporada
arXiv 2023/05
[artigo] [código] [página do projeto]
DetGPT: detecte o que você precisa por meio do raciocínio
arXiv 2023/05
[artigo] [código] [página do projeto]
PathAsst: Redefinindo a patologia por meio do Generative Foundation AI Assistant for Pathology
arXiv 2023/05
[artigo] [código]
ChatBridge: Unindo Modalidades com Modelo de Linguagem Grande como Catalisador de Linguagem
arXiv 2023/05
[artigo] [código] [página do projeto]
Video-ChatGPT: Rumo à compreensão detalhada do vídeo por meio de visão ampla e modelos de linguagem
arXiv 2023/06
[artigo] [código]
LAMM: conjunto de dados, estrutura e benchmark de ajuste de instrução multimodal assistido por linguagem
arXiv 2023/06
[artigo]
Bate-papo textual-visual responsável aprende a rejeitar instruções humanas na recriação de imagens
arXiv 2023/06
[artigo] [página do projeto]
VALLEY: ASSISTENTE DE VÍDEO COM CAPACIDADE MELHORADA DE MODELO DE GRANDE LÍNGUA
arXiv 2023/06
[artigo] [código]
Visual ChatGPT: conversando, desenhando e editando com modelos de base visual
arXiv 2023/03
[artigo] [código] [demonstração]
ViperGPT: Inferência Visual via Execução Python para Raciocínio
arXiv 2023/03
[artigo] [código] [página do projeto]
TaskMatrix.AI: Concluindo tarefas conectando modelos básicos com milhões de APIs
arXiv 2023/03
[artigo] [código]
Chatgpt pergunta, blip-2 responde: questionamento automático para descrições visuais enriquecidas
arXiv 2023/03
[artigo] [código]
MM-REACT: Solicitando ChatGPT para raciocínio e ação multimodal
arXiv 2023/03
[artigo] [código] [página do projeto] [demonstração]
Hugginggpt: Resolvendo tarefas de IA com chatgpt e seus amigos em huggingface
arXiv 2023/03
[artigo] [código] [demonstração]
VLog: vídeo como um documento longo
[código] [demonstração]
Video ChatCaptioner: Rumo a descrições espaço-temporais enriquecidas
arXiv 2023/04
[artigo] [código]
ChatVideo: um sistema de compreensão de vídeo multimodal e versátil centrado em Tracklet
arXiv 2023/04
[artigo] [página do projeto]
VideoChat: compreensão de vídeo centrada no chat
arXiv 2023/05
[artigo] [código] [demonstração]