Awesome Multimodal Assistant是一个精选的多模式聊天机器人/会话助理列表,它们利用文本、语音、图像和视频等各种交互模式来提供无缝且多功能的用户体验。它旨在帮助用户执行各种任务,从简单的信息检索到复杂的多媒体推理。
MultiInstruct:通过指令调优改进多模态零样本学习
arXiv 2022/12
[论文]
GPT-4
arXiv 2023/03
[论文] [博客]
视觉指令调整
arXiv 2023/04
[论文] [代码] [项目页面] [演示]
MiniGPT-4:利用先进的大语言模型增强视觉语言理解
arXiv 2023/04
[论文] [代码] [项目页面] [演示]
mPLUG-Owl:模块化赋予大型语言模型多模态能力
arXiv 2023/04
[论文] [代码] [演示]
LLaMA-Adapter V2:参数高效的视觉指令模型
arXiv 2023/04
[论文] [代码] [演示]
Video-LLaMA:用于视频理解的指令微调视觉语言模型
[代码]
LMEye:大型语言模型的交互式感知网络
arXiv 2023/05
[论文] [代码]
MultiModal-GPT:与人类对话的视觉和语言模型
arXiv 2023/05
[论文] [代码] [演示]
X-LLM:通过将多模态视为外语来引导高级大语言模型
arXiv 2023/05
[论文] [代码] [项目页面]
Otter:具有上下文指令调整的多模态模型
arXiv 2023/05
[论文] [代码] [演示]
InstructBLIP:通过指令调整实现通用视觉语言模型
arXiv 2023/05
[论文] [代码]
InternGPT:通过与超越语言的 ChatGPT 交互来解决以视觉为中心的任务
arXiv 2023/05
[论文] [代码] [演示]
VisionLLM:大型语言模型也是用于以视觉为中心的任务的开放式解码器
arXiv 2023/05
[论文] [代码]
便宜又快速:针对大型语言模型的高效视觉语言指令调整
arXiv 2023/05
[论文] [代码] [项目页面]
EmbodiedGPT:通过体现思想链进行视觉语言预训练
arXiv 2023/05
[论文] [代码] [项目页面]
DetGPT:通过推理检测您需要什么
arXiv 2023/05
[论文] [代码] [项目页面]
PathAsst:通过生成基础人工智能病理学助手重新定义病理学
arXiv 2023/05
[论文] [代码]
ChatBridge:以大型语言模型作为语言催化剂桥接模式
arXiv 2023/05
[论文] [代码] [项目页面]
Video-ChatGPT:通过大视觉和语言模型实现详细的视频理解
arXiv 2023/06
[论文] [代码]
LAMM:语言辅助多模式指令调优数据集、框架和基准
arXiv 2023/06
[论文]
负责任的文本视觉聊天学会在图像重新创建中拒绝人类指令
arXiv 2023/06
[论文] [项目页面]
VALLEY:具有大语言模型增强能力的视频助手
arXiv 2023/06
[论文] [代码]
Visual ChatGPT:使用 Visual Foundation 模型进行对话、绘图和编辑
arXiv 2023/03
[论文] [代码] [演示]
ViperGPT:通过 Python 执行进行视觉推理以进行推理
arXiv 2023/03
[论文] [代码] [项目页面]
TaskMatrix.AI:通过连接基础模型和数百万个API来完成任务
arXiv 2023/03
[论文] [代码]
Chatgpt 提出问题,blip-2 回答:针对丰富的视觉描述的自动提问
arXiv 2023/03
[论文] [代码]
MM-REACT:提示 ChatGPT 进行多模态推理和操作
arXiv 2023/03
[论文] [代码] [项目页面] [演示]
Hugginggpt:与chatgpt及其朋友在huggingface中解决人工智能任务
arXiv 2023/03
[论文] [代码] [演示]
VLog:视频作为长文档
[代码] [演示]
视频聊天字幕:走向丰富的时空描述
arXiv 2023/04
[论文] [代码]
ChatVideo:以 Tracklet 为中心的多模式多功能视频理解系统
arXiv 2023/04
[论文] [项目页面]
VideoChat:以聊天为中心的视频理解
arXiv 2023/05
[论文] [代码] [演示]