Awesome Multimodal Assistant est une liste organisée de chatbots/assistants conversationnels multimodaux qui utilisent divers modes d'interaction, tels que le texte, la parole, les images et les vidéos, pour offrir une expérience utilisateur transparente et polyvalente. Il est conçu pour aider les utilisateurs à effectuer diverses tâches, de la simple recherche d'informations au raisonnement multimédia complexe.
MultiInstruct : amélioration de l'apprentissage multimodal Zero-Shot via le réglage des instructions
arXiv 2022/12
[papier]
GPT-4
arXiv 2023/03
[article] [blog]
Réglage des instructions visuelles
arXiv 2023/04
[papier] [code] [page du projet] [démo]
MiniGPT-4 : Amélioration de la compréhension vision-langage grâce à de grands modèles de langage avancés
arXiv 2023/04
[papier] [code] [page du projet] [démo]
mPLUG-Owl : la modularisation permet de développer de grands modèles de langage avec la multimodalité
arXiv 2023/04
[papier] [code] [démo]
LLaMA-Adapter V2 : modèle d'instruction visuelle efficace en termes de paramètres
arXiv 2023/04
[papier] [code] [démo]
Video-LLaMA : un modèle de langage visuel affiné par les instructions pour la compréhension de la vidéo
[code]
LMEye : un réseau de perception interactif pour les grands modèles de langage
arXiv 2023/05
[papier] [code]
MultiModal-GPT : une vision et un modèle linguistique pour le dialogue avec les humains
arXiv 2023/05
[papier] [code] [démo]
X-LLM : amorcer des modèles de langage étendus avancés en traitant les multimodalités comme des langues étrangères
arXiv 2023/05
[papier] [code] [page du projet]
Otter : un modèle multimodal avec réglage des instructions en contexte
arXiv 2023/05
[papier] [code] [démo]
InstructBLIP : vers des modèles de langage de vision à usage général avec réglage des instructions
arXiv 2023/05
[papier] [code]
InternGPT : résoudre des tâches centrées sur la vision en interagissant avec ChatGPT au-delà du langage
arXiv 2023/05
[papier] [code] [démo]
VisionLLM : Large Language Model est également un décodeur ouvert pour les tâches centrées sur la vision
arXiv 2023/05
[papier] [code]
Bon marché et rapide : réglage efficace des instructions de vision et de langage pour les grands modèles de langage
arXiv 2023/05
[papier] [code] [page du projet]
EmbodiedGPT : pré-formation vision-langage via une chaîne de pensée incarnée
arXiv 2023/05
[papier] [code] [page du projet]
DetGPT : détectez ce dont vous avez besoin via le raisonnement
arXiv 2023/05
[papier] [code] [page du projet]
PathAsst : redéfinir la pathologie grâce à l'assistant IA Generative Foundation pour la pathologie
arXiv 2023/05
[papier] [code]
ChatBridge : relier les modalités avec un grand modèle linguistique en tant que catalyseur linguistique
arXiv 2023/05
[papier] [code] [page du projet]
Video-ChatGPT : vers une compréhension détaillée de la vidéo via une vision large et des modèles linguistiques
arXiv 2023/06
[papier] [code]
LAMM : ensemble de données, cadre et référence de réglage des instructions multimodales assistées par le langage
arXiv 2023/06
[papier]
Un chat textuel-visuel responsable apprend à rejeter les instructions humaines dans la recréation d'images
arXiv 2023/06
[article] [page du projet]
VALLEY : ASSISTANT VIDÉO AVEC GRAND MODÈLE DE LANGAGE CAPACITÉ AMÉLIORÉE
arXiv 2023/06
[papier] [code]
Visual ChatGPT : parler, dessiner et éditer avec des modèles de base visuelle
arXiv 2023/03
[papier] [code] [démo]
ViperGPT : inférence visuelle via l'exécution de Python pour le raisonnement
arXiv 2023/03
[papier] [code] [page du projet]
TaskMatrix.AI : accomplir des tâches en connectant les modèles de base avec des millions d'API
arXiv 2023/03
[papier] [code]
Chatgpt demande, blip-2 répond : questionnement automatique vers des descriptions visuelles enrichies
arXiv 2023/03
[papier] [code]
MM-REACT : inciter ChatGPT à effectuer un raisonnement et une action multimodales
arXiv 2023/03
[papier] [code] [page du projet] [démo]
Hugginggpt : Résoudre des tâches d'IA avec chatgpt et ses amis dans huggingface
arXiv 2023/03
[papier] [code] [démo]
VLog : la vidéo sous forme de document long
[code] [démo]
Video ChatCaptioner : vers des descriptions spatio-temporelles enrichies
arXiv 2023/04
[papier] [code]
ChatVideo : un système de compréhension vidéo multimodal et polyvalent centré sur Tracklet
arXiv 2023/04
[article] [page du projet]
VideoChat : compréhension vidéo centrée sur le chat
arXiv 2023/05
[papier] [code] [démo]