Awesome Multimodal Assistant は、テキスト、音声、画像、ビデオなどのさまざまな対話モードを利用して、シームレスで多用途のユーザー エクスペリエンスを提供する、マルチモーダル チャットボット/会話アシスタントの厳選されたリストです。単純な情報検索から複雑なマルチメディア推論まで、ユーザーがさまざまなタスクを実行できるように設計されています。
MultiInstruct: 命令チューニングによるマルチモーダル ゼロショット学習の改善
arXiv 2022/12
[論文]
GPT-4
arXiv 2023/03
[論文] [ブログ]
視覚的な指示のチューニング
arXiv 2023/04
[論文] [コード] [プロジェクトページ] [デモ]
MiniGPT-4: 高度な大規模言語モデルによる視覚言語理解の強化
arXiv 2023/04
[論文] [コード] [プロジェクトページ] [デモ]
mPLUG-Owl: モジュール化により大規模な言語モデルにマルチモダリティを強化
arXiv 2023/04
[論文] [コード] [デモ]
LLaMA-Adapter V2: パラメータ効率の高いビジュアル命令モデル
arXiv 2023/04
[論文] [コード] [デモ]
Video-LLaMA: ビデオを理解するための命令で微調整された視覚言語モデル
[コード]
LMEye: 大規模言語モデル用の対話型認識ネットワーク
arXiv 2023/05
[論文] [コード]
MultiModal-GPT: 人間との対話のための視覚と言語モデル
arXiv 2023/05
[論文] [コード] [デモ]
X-LLM: マルチモダリティを外国語として扱うことによる高度な大規模言語モデルのブートストラップ
arXiv 2023/05
[論文] [コード] [プロジェクトページ]
Otter: インコンテキスト命令チューニングを備えたマルチモーダル モデル
arXiv 2023/05
[論文] [コード] [デモ]
InstructBLIP: 命令チューニングによる汎用視覚言語モデルに向けて
arXiv 2023/05
[論文] [コード]
InternGPT: 言語を超えて ChatGPT と対話してビジョン中心のタスクを解決する
arXiv 2023/05
[論文] [コード] [デモ]
VisionLLM: 大規模言語モデルは、ビジョン中心のタスク用のオープンエンド デコーダーでもあります
arXiv 2023/05
[論文] [コード]
安価で迅速: 大規模な言語モデル向けの効率的な視覚言語命令チューニング
arXiv 2023/05
[論文] [コード] [プロジェクトページ]
EmbodiedGPT: 身体化された思考連鎖による視覚言語の事前トレーニング
arXiv 2023/05
[論文] [コード] [プロジェクトページ]
DetGPT: 推論によって必要なものを検出する
arXiv 2023/05
[論文] [コード] [プロジェクトページ]
PathAsst: 病理学のための生成基盤 AI アシスタントによる病理学の再定義
arXiv 2023/05
[論文] [コード]
ChatBridge: 言語触媒として大規模な言語モデルを使用してモダリティの橋渡しをする
arXiv 2023/05
[論文] [コード] [プロジェクトページ]
Video-ChatGPT: 大きなビジョンと言語モデルを介した詳細なビデオの理解に向けて
arXiv 2023/06
[論文] [コード]
LAMM: 言語支援マルチモーダル命令チューニング データセット、フレームワーク、およびベンチマーク
arXiv 2023/06
[論文]
説明責任のあるテキストとビジュアルのチャットは、画像の再作成における人間の指示を拒否することを学びます
arXiv 2023/06
[論文] [プロジェクトページ]
VALLEY: 大言語モデルの機能が強化されたビデオ アシスタント
arXiv 2023/06
[論文] [コード]
Visual ChatGPT: Visual Foundation モデルを使用した会話、描画、編集
arXiv 2023/03
[論文] [コード] [デモ]
ViperGPT: 推論のための Python 実行による視覚的推論
arXiv 2023/03
[論文] [コード] [プロジェクトページ]
TaskMatrix.AI: 基盤モデルを数百万の API に接続してタスクを完了する
arXiv 2023/03
[論文] [コード]
Chatgpt が質問し、blip-2 が回答: 視覚的な説明を強化するための自動質問
arXiv 2023/03
[論文] [コード]
MM-REACT: ChatGPT にマルチモーダルな推論とアクションを要求する
arXiv 2023/03
[論文] [コード] [プロジェクトページ] [デモ]
Hugginggpt: ハグフェイスの chatgpt とその友達を使って AI タスクを解決する
arXiv 2023/03
[論文] [コード] [デモ]
VLog: 長いドキュメントとしてのビデオ
[コード] [デモ]
Video ChatCaptioner: 時空間の豊かな説明に向けて
arXiv 2023/04
[論文] [コード]
ChatVideo: Tracklet 中心のマルチモーダルで多用途なビデオ理解システム
arXiv 2023/04
[論文] [プロジェクトページ]
VideoChat: チャット中心のビデオの理解
arXiv 2023/05
[論文] [コード] [デモ]