Awesome Multimodal Assistant ist eine kuratierte Liste multimodaler Chatbots/Konversationsassistenten, die verschiedene Interaktionsmodi wie Text, Sprache, Bilder und Videos nutzen, um ein nahtloses und vielseitiges Benutzererlebnis zu bieten. Es soll Benutzer bei der Ausführung verschiedener Aufgaben unterstützen, vom einfachen Informationsabruf bis hin zu komplexen Multimedia-Schlussfolgerungen.
MultiInstruct: Verbesserung des multimodalen Zero-Shot-Lernens durch Befehlsoptimierung
arXiv 2022/12
[Papier]
GPT-4
arXiv 2023/03
[Papier] [Blog]
Visuelle Anweisungsoptimierung
arXiv 2023/04
[Papier] [Code] [Projektseite] [Demo]
MiniGPT-4: Verbesserung des Vision-Language-Verständnisses mit fortschrittlichen großen Sprachmodellen
arXiv 2023/04
[Papier] [Code] [Projektseite] [Demo]
mPLUG-Owl: Modularisierung ermöglicht großen Sprachmodellen Multimodalität
arXiv 2023/04
[Papier] [Code] [Demo]
LLaMA-Adapter V2: Parametereffizientes visuelles Instruktionsmodell
arXiv 2023/04
[Papier] [Code] [Demo]
Video-LLaMA: Ein auf Anweisungen abgestimmtes visuelles Sprachmodell für das Videoverständnis
[Code]
LMEye: Ein interaktives Wahrnehmungsnetzwerk für große Sprachmodelle
arXiv 2023/05
[Papier] [Code]
MultiModal-GPT: Ein Visions- und Sprachmodell für den Dialog mit Menschen
arXiv 2023/05
[Papier] [Code] [Demo]
X-LLM: Bootstrapping fortgeschrittener großer Sprachmodelle durch Behandlung von Multimodalitäten als Fremdsprachen
arXiv 2023/05
[Papier] [Code] [Projektseite]
Otter: Ein multimodales Modell mit kontextbezogener Befehlsoptimierung
arXiv 2023/05
[Papier] [Code] [Demo]
InstructBLIP: Auf dem Weg zu universellen Vision-Language-Modellen mit Instruction Tuning
arXiv 2023/05
[Papier] [Code]
InternGPT: Vision-zentrierte Aufgaben durch Interaktion mit ChatGPT Beyond Language lösen
arXiv 2023/05
[Papier] [Code] [Demo]
VisionLLM: Large Language Model ist auch ein Open-End-Decoder für visionszentrierte Aufgaben
arXiv 2023/05
[Papier] [Code]
Günstig und schnell: Effiziente Vision-Language-Anweisungsoptimierung für große Sprachmodelle
arXiv 2023/05
[Papier] [Code] [Projektseite]
EmbodiedGPT: Vision-Language-Vorschulung über die verkörperte Gedankenkette
arXiv 2023/05
[Papier] [Code] [Projektseite]
DetGPT: Erkennen Sie durch Argumentation, was Sie brauchen
arXiv 2023/05
[Papier] [Code] [Projektseite]
PathAsst: Pathologie neu definieren durch Generative Foundation AI Assistant for Pathology
arXiv 2023/05
[Papier] [Code]
ChatBridge: Überbrückung von Modalitäten mit einem großen Sprachmodell als Sprachkatalysator
arXiv 2023/05
[Papier] [Code] [Projektseite]
Video-ChatGPT: Auf dem Weg zu detailliertem Videoverständnis mithilfe großer Seh- und Sprachmodelle
arXiv 2023/06
[Papier] [Code]
LAMM: Sprachunterstützter multimodaler Befehlsoptimierungsdatensatz, Framework und Benchmark
arXiv 2023/06
[Papier]
Verantwortlicher textuell-visueller Chat lernt, menschliche Anweisungen bei der Bildwiederherstellung abzulehnen
arXiv 2023/06
[Papier] [Projektseite]
VALLEY: VIDEOASSISTENT MIT GROSSEM SPRACHMODELL, ERWEITERTEN FÄHIGKEITEN
arXiv 2023/06
[Papier] [Code]
Visual ChatGPT: Sprechen, Zeichnen und Bearbeiten mit Visual Foundation-Modellen
arXiv 2023/03
[Papier] [Code] [Demo]
ViperGPT: Visuelle Inferenz über Python-Ausführung für Reasoning
arXiv 2023/03
[Papier] [Code] [Projektseite]
TaskMatrix.AI: Erledigung von Aufgaben durch die Verbindung von Foundation-Modellen mit Millionen von APIs
arXiv 2023/03
[Papier] [Code]
Chatgpt fragt, Blip-2 antwortet: Automatische Befragung zu erweiterten visuellen Beschreibungen
arXiv 2023/03
[Papier] [Code]
MM-REACT: ChatGPT zum multimodalen Denken und Handeln auffordern
arXiv 2023/03
[Papier] [Code] [Projektseite] [Demo]
Hugginggpt: KI-Aufgaben mit Chatgpt und seinen Freunden in HuggingFace lösen
arXiv 2023/03
[Papier] [Code] [Demo]
VLog: Video als langes Dokument
[Code] [Demo]
Video ChatCaptioner: Auf dem Weg zu angereicherten raumzeitlichen Beschreibungen
arXiv 2023/04
[Papier] [Code]
ChatVideo: Ein Tracklet-zentriertes multimodales und vielseitiges Video-Verständnissystem
arXiv 2023/04
[Papier] [Projektseite]
VideoChat: Chat-zentriertes Videoverständnis
arXiv 2023/05
[Papier] [Code] [Demo]