Awesome Multimodal Assistant是一個精選的多模式聊天機器人/對話助理列表,它們利用文字、語音、圖像和視訊等各種互動模式來提供無縫且多功能的用戶體驗。它旨在幫助用戶執行各種任務,從簡單的資訊檢索到複雜的多媒體推理。
MultiInstruct:透過指令調優改進多模態零樣本學習
arXiv 2022/12
[論文]
GPT-4
arXiv 2023/03
[論文] [部落格]
視覺指令調整
arXiv 2023/04
[論文] [程式碼] [專案頁] [示範]
MiniGPT-4:利用先進的大語言模型增強視覺語言理解
arXiv 2023/04
[論文] [程式碼] [專案頁] [示範]
mPLUG-Owl:模組化賦予大型語言模型多模態能力
arXiv 2023/04
[論文] [程式碼] [示範]
LLaMA-Adapter V2:參數高效率的視覺指令模型
arXiv 2023/04
[論文] [程式碼] [示範]
Video-LLaMA:用於視訊理解的指令微調視覺語言模型
[代碼]
LMEye:大型語言模型的互動式感知網絡
arXiv 2023/05
[論文] [代碼]
MultiModal-GPT:與人類對話的視覺和語言模型
arXiv 2023/05
[論文] [程式碼] [示範]
X-LLM:透過將多模態視為外語來引導高階大語言模型
arXiv 2023/05
[論文] [程式碼] [專案頁]
Otter:具有上下文指令調整的多模態模型
arXiv 2023/05
[論文] [程式碼] [示範]
InstructBLIP:透過指令調整實現通用視覺語言模型
arXiv 2023/05
[論文] [代碼]
InternGPT:透過與超越語言的 ChatGPT 互動來解決以視覺為中心的任務
arXiv 2023/05
[論文] [程式碼] [示範]
VisionLLM:大型語言模型也是用於以視覺為中心的任務的開放式解碼器
arXiv 2023/05
[論文] [代碼]
便宜又快速:針對大型語言模型的高效視覺語言指令調整
arXiv 2023/05
[論文] [程式碼] [專案頁]
EmbodiedGPT:透過體現思想鏈進行視覺語言預訓練
arXiv 2023/05
[論文] [程式碼] [專案頁]
DetGPT:透過推理檢測您需要什麼
arXiv 2023/05
[論文] [程式碼] [專案頁]
PathAsst:透過產生基礎人工智慧病理學助理重新定義病理學
arXiv 2023/05
[論文] [代碼]
ChatBridge:以大型語言模型作為語言催化劑來橋接模式
arXiv 2023/05
[論文] [程式碼] [專案頁]
Video-ChatGPT:透過大視覺和語言模型實現詳細的視訊理解
arXiv 2023/06
[論文] [代碼]
LAMM:語言輔助多模式指令調優資料集、框架與基準
arXiv 2023/06
[論文]
負責任的文本視覺聊天學會在圖像重新創建中拒絕人類指令
arXiv 2023/06
[論文] [專案頁]
VALLEY:具有大語言模型增強能力的影片助手
arXiv 2023/06
[論文] [代碼]
Visual ChatGPT:使用 Visual Foundation 模型進行對話、繪圖與編輯
arXiv 2023/03
[論文] [程式碼] [示範]
ViperGPT:透過 Python 執行進行視覺推理以進行推理
arXiv 2023/03
[論文] [程式碼] [專案頁]
TaskMatrix.AI:透過連結基礎模型和數百萬個API來完成任務
arXiv 2023/03
[論文] [代碼]
Chatgpt 提出問題,blip-2 回答:針對豐富的視覺描述的自動提問
arXiv 2023/03
[論文] [代碼]
MM-REACT:提示 ChatGPT 進行多模態推理和操作
arXiv 2023/03
[論文] [程式碼] [專案頁] [示範]
Hugginggpt:與chatgpt及其朋友在huggingface中解決人工智慧任務
arXiv 2023/03
[論文] [程式碼] [示範]
VLog:視訊作為長文檔
[程式碼] [演示]
視訊聊天字幕:走向豐富的時空描述
arXiv 2023/04
[論文] [代碼]
ChatVideo:以 Tracklet 為中心的多模式多功能視訊理解系統
arXiv 2023/04
[論文] [專案頁]
VideoChat:以聊天為中心的視訊理解
arXiv 2023/05
[論文] [程式碼] [示範]