Awesome Multimodal Assistant — это тщательно подобранный список мультимодальных чат-ботов/диалоговых помощников, которые используют различные режимы взаимодействия, такие как текст, речь, изображения и видео, для обеспечения удобного и универсального взаимодействия с пользователем. Он предназначен для помощи пользователям в выполнении различных задач: от простого поиска информации до сложных мультимедийных рассуждений.
MultiInstruct: улучшение мультимодального обучения с нулевым выстрелом посредством настройки инструкций
arXiv 2022/12
[бумага]
ГПТ-4
arXiv 2023/03
[документ] [блог]
Визуальная инструкция по настройке
arXiv 2023/04
[документ] [код] [страница проекта] [демо]
MiniGPT-4: улучшение понимания визуального языка с помощью усовершенствованных моделей большого языка
arXiv 2023/04
[документ] [код] [страница проекта] [демо]
mPLUG-Owl: модульность расширяет возможности мультимодальности больших языковых моделей
arXiv 2023/04
[бумага] [код] [демо]
LLaMA-Adapter V2: Модель визуальных инструкций с эффективным использованием параметров
arXiv 2023/04
[бумага] [код] [демо]
Video-LLaMA: модель визуального языка с точной настройкой для понимания видео
[код]
LMEye: интерактивная сеть восприятия больших языковых моделей
arXiv 2023/05
[бумага] [код]
MultiModal-GPT: видение и языковая модель для диалога с людьми
arXiv 2023/05
[бумага] [код] [демо]
X-LLM: начальная загрузка расширенных моделей больших языков путем рассмотрения мультимодальностей как иностранных языков
arXiv 2023/05
[документ] [код] [страница проекта]
Otter: мультимодальная модель с контекстной настройкой инструкций
arXiv 2023/05
[бумага] [код] [демо]
InstructBLIP: На пути к моделям общего назначения на языке видения с настройкой инструкций
arXiv 2023/05
[бумага] [код]
InternGPT: решение задач, ориентированных на зрение, путем взаимодействия с ChatGPT за пределами языка
arXiv 2023/05
[бумага] [код] [демо]
VisionLLM: большая языковая модель также является открытым декодером для задач, ориентированных на зрение.
arXiv 2023/05
[бумага] [код]
Дешево и быстро: эффективная настройка инструкций на визуальном языке для больших языковых моделей
arXiv 2023/05
[документ] [код] [страница проекта]
EmbodiedGPT: предварительное обучение языку видения с помощью воплощенной цепочки мыслей
arXiv 2023/05
[документ] [код] [страница проекта]
DetGPT: определите, что вам нужно, с помощью рассуждений
arXiv 2023/05
[документ] [код] [страница проекта]
PathAsst: новое определение патологии с помощью искусственного помощника Generative Foundation для патологии
arXiv 2023/05
[бумага] [код]
ChatBridge: объединение модальностей с помощью большой языковой модели в качестве языкового катализатора
arXiv 2023/05
[документ] [код] [страница проекта]
Video-ChatGPT: к детальному пониманию видео через широкое видение и языковые модели
arXiv 2023/06
[бумага] [код]
LAMM: набор данных, платформа и эталонный тест для многомодальной настройки инструкций с поддержкой языка
arXiv 2023/06
[бумага]
Подотчетный текстово-визуальный чат учится отвергать человеческие инструкции при воссоздании изображений
arXiv 2023/06
[документ] [страница проекта]
VALLEY: ВИДЕОПОМОЩНИК С БОЛЬШОЙ ЯЗЫКОВОЙ МОДЕЛЬ, РАСШИРЕННЫЕ ВОЗМОЖНОСТИ
arXiv 2023/06
[бумага] [код]
Visual ChatGPT: общение, рисование и редактирование с помощью моделей Visual Foundation
arXiv 2023/03
[бумага] [код] [демо]
ViperGPT: визуальный вывод посредством выполнения Python для рассуждения
arXiv 2023/03
[документ] [код] [страница проекта]
TaskMatrix.AI: выполнение задач путем соединения базовых моделей с миллионами API
arXiv 2023/03
[бумага] [код]
Chatgpt спрашивает, Blip-2 отвечает: автоматический опрос для обогащения визуальных описаний
arXiv 2023/03
[бумага] [код]
MM-REACT: побуждает ChatGPT к мультимодальному рассуждению и действию
arXiv 2023/03
[бумага] [код] [страница проекта] [демо]
Hugginggpt: решение задач искусственного интеллекта с помощью Chatgpt и его друзей в HuggingFace
arXiv 2023/03
[бумага] [код] [демо]
Влог: Видео как длинный документ
[код] [демо]
Video ChatCaptioner: На пути к расширению пространственно-временных описаний
arXiv 2023/04
[бумага] [код]
ChatVideo: мультимодальная и универсальная система понимания видео, ориентированная на треклеты
arXiv 2023/04
[документ] [страница проекта]
VideoChat: понимание видео, ориентированное на чат
arXiv 2023/05
[бумага] [код] [демо]