Awesome Multimodal Assistant adalah daftar chatbot multimodal/asisten percakapan multimodal yang memanfaatkan berbagai mode interaksi, seperti teks, ucapan, gambar, dan video, untuk memberikan pengalaman pengguna yang lancar dan serbaguna. Hal ini dirancang untuk membantu pengguna dalam melakukan berbagai tugas, mulai dari pengambilan informasi sederhana hingga penalaran multimedia yang kompleks.
MultiInstruct: Meningkatkan Pembelajaran Zero-Shot Multi-Modal melalui Penyetelan Instruksi
arXiv 2022/12
[kertas]
GPT-4
arXiv 2023/03
[makalah] [blog]
Penyetelan Instruksi Visual
arXiv 2023/04
[kertas] [kode] [halaman proyek] [demo]
MiniGPT-4: Meningkatkan Pemahaman Bahasa Penglihatan dengan Model Bahasa Besar Tingkat Lanjut
arXiv 2023/04
[kertas] [kode] [halaman proyek] [demo]
mPLUG-Owl: Modularisasi Memberdayakan Model Bahasa Besar dengan Multimodalitas
arXiv 2023/04
[kertas] [kode] [demo]
LLaMA-Adapter V2: Model Instruksi Visual yang Efisien Parameter
arXiv 2023/04
[kertas] [kode] [demo]
Video-LLaMA: Model Bahasa Visual yang Diselesaikan dengan Instruksi untuk Pemahaman Video
[kode]
LMEye: Jaringan Persepsi Interaktif untuk Model Bahasa Besar
arXiv 2023/05
[kertas] [kode]
MultiModal-GPT: Visi dan Model Bahasa untuk Dialog dengan Manusia
arXiv 2023/05
[kertas] [kode] [demo]
X-LLM: Bootstrapping Model Bahasa Besar Tingkat Lanjut dengan Memperlakukan Multi-Modalitas sebagai Bahasa Asing
arXiv 2023/05
[kertas] [kode] [halaman proyek]
Otter: Model Multi-Modal dengan Penyetelan Instruksi Dalam Konteks
arXiv 2023/05
[kertas] [kode] [demo]
InstructBLIP: Menuju Model Bahasa Visi Tujuan Umum dengan Penyetelan Instruksi
arXiv 2023/05
[kertas] [kode]
InternGPT: Menyelesaikan Tugas Berpusat pada Visi dengan Berinteraksi dengan ChatGPT Melampaui Bahasa
arXiv 2023/05
[kertas] [kode] [demo]
VisionLLM: Model Bahasa Besar juga merupakan Dekoder Terbuka untuk Tugas Berpusat pada Visi
arXiv 2023/05
[kertas] [kode]
Murah dan Cepat: Penyetelan Instruksi Bahasa Penglihatan yang Efisien untuk Model Bahasa Besar
arXiv 2023/05
[kertas] [kode] [halaman proyek]
EmbodiedGPT: Pra-Pelatihan Bahasa Visi melalui Rantai Pemikiran yang Terwujud
arXiv 2023/05
[kertas] [kode] [halaman proyek]
DetGPT: Deteksi Apa yang Anda Butuhkan melalui Penalaran
arXiv 2023/05
[kertas] [kode] [halaman proyek]
PathAsst: Mendefinisikan Ulang Patologi melalui Generative Foundation AI Assistant for Pathology
arXiv 2023/05
[kertas] [kode]
ChatBridge: Menjembatani Modalitas dengan Model Bahasa Besar sebagai Katalis Bahasa
arXiv 2023/05
[kertas] [kode] [halaman proyek]
Video-ChatGPT: Menuju Pemahaman Video Mendetail melalui Visi Besar dan Model Bahasa
arXiv 2023/06
[kertas] [kode]
LAMM: Kumpulan Data, Kerangka Kerja, dan Tolok Ukur Penyetelan Instruksi Multi-Modal Berbantuan Bahasa
arXiv 2023/06
[kertas]
Obrolan Tekstual-Visual yang Bertanggung Jawab Belajar Menolak Instruksi Manusia dalam Penciptaan Ulang Gambar
arXiv 2023/06
[makalah] [halaman proyek]
VALLEY: ASISTEN VIDEO DENGAN MODEL BAHASA BESAR YANG MENINGKATKAN KEMAMPUAN
arXiv 2023/06
[kertas] [kode]
Visual ChatGPT: Berbicara, Menggambar dan Mengedit dengan Model Visual Foundation
arXiv 2023/03
[kertas] [kode] [demo]
ViperGPT: Inferensi Visual melalui Eksekusi Python untuk Penalaran
arXiv 2023/03
[kertas] [kode] [halaman proyek]
TaskMatrix.AI: Menyelesaikan Tugas dengan Menghubungkan Model Fondasi dengan Jutaan API
arXiv 2023/03
[kertas] [kode]
Chatgpt bertanya, jawaban blip-2: Pertanyaan otomatis menuju deskripsi visual yang diperkaya
arXiv 2023/03
[kertas] [kode]
MM-REACT: Mendorong ChatGPT untuk Penalaran dan Tindakan Multimodal
arXiv 2023/03
[kertas] [kode] [halaman proyek] [demo]
Hugginggpt: Menyelesaikan tugas ai dengan chatgpt dan teman-temannya di huggingface
arXiv 2023/03
[kertas] [kode] [demo]
VLog: Video sebagai Dokumen Panjang
[kode] [demo]
Video ChatCaptioner: Menuju Deskripsi Spatiotemporal yang Diperkaya
arXiv 2023/04
[kertas] [kode]
ChatVideo: Sistem Pemahaman Video Multimodal dan Serbaguna yang berpusat pada Tracklet
arXiv 2023/04
[makalah] [halaman proyek]
VideoChat: Pemahaman Video yang Berpusat pada Obrolan
arXiv 2023/05
[kertas] [kode] [demo]