[2024/10/04] ? LLaVA-Video (旧LLaVA-NeXT-Video)が大幅にバージョンアップしました!私たちは、ビデオ命令チューニング用の高品質合成データセットであるLLaVA-Video-178Kをリリースできることを嬉しく思います。このデータセットには以下が含まれます。
これに加えて、Video-MME、LongVideoBench、Dream-1K などの最新のビデオ ベンチマークで競争力のあるパフォーマンスを提供するLLaVA-Video 7B/72B モデルもリリースします。
さらに詳しく見る:
LLaVA-Video-178K データセット: データセットをダウンロードします。
LLaVA-Video Models: モデルのチェックポイントにアクセスします。
論文:LLaVA-Videoの詳細情報。
LLaVA-ビデオドキュメント: トレーニング、推論、評価に関するガイダンス。
178,510 件のキャプション エントリ
960,792 自由回答型 Q&A ペア
196,198 の多肢選択式 Q&A 項目
[2024/09/13] ? ? LLaVA-OneVision-チャット。新しい LLaVA-OV-Chat (7B/72B) は、LLaVA-OV のチャット エクスペリエンスを大幅に向上させます。 ?
[2024/08/06] ? ? LLaVA-OneVision (OV)!新しい LLaVA-OV モデル (0.5B/7B/72B) は、単一画像、複数画像、およびビデオのベンチマーク全体で新しい最先端のパフォーマンスを実現し、47 の多様なベンチマークでトップの商用モデルに匹敵する場合もあります。 ?さらに詳しく見る:
[論文]: 深い洞察、新たなシナリオ、つまり、画像からのタスク転送による強力なビデオ理解。
[LLaVA-OV ドキュメント]: モデルの推論と評価のガイダンス。
[スクリプト]: 単一画像/複数画像/ビデオ データでモデルのトレーニングを開始します。
[2024/07/16] ? LLaVA-NeXT-Videoがバージョンアップされました。新しい 32B モデルは、Video-MME を含むいくつかのビデオ ベンチマークで最高のオープンソース パフォーマンスを実現します。詳細についてはこのページを参照してください。デモについては llava_next-video_demo を参照してください。
[2024/06/23] ? LLaVA-NeXT-Interleaveをリリースしました。画像とテキストのインターリーブ形式を利用して、複数の画像、ビデオ、および 3D タスクを 1 つの LLM に統合し、幅広いベンチマークでSoTA のパフォーマンスを実現します。論文、ブログ、チェックポイントをチェックして、新機能とパフォーマンスの向上を確認してください。 0.5b、7b、7b-dpoモデルをリリースしました。
強力なパフォーマンスを備えたマルチ画像、ビデオ、3D 用のオールラウンド LLM [デモ]
インターリーブトレーニングデータの構築M4-Instruct
マルチ画像ベンチマークLLaVA-Interleave Benchの構築
[2024/05/25] ? 「データ以外にビジュアル命令チューニングに影響を与えるものは何ですか?」私たちの新しいブログでは、LMM を改善する際の、データ自体を指示すること以外のさまざまな設計上の選択肢を取り除くための経験的な調査をまとめています。一方、[COCO] [LCS] [CC3M] の LLaVA-NeXT-34B を使用して回収された高品質データをオープンソース化します。
アーキテクチャ (LMM およびビジョン エンコーダー)
視覚的表現 (解像度とトークン数)
トレーニング戦略 (高品質のデータとトレーニング可能なモジュール)
[2024/05/10] ? LLama-3 (8B) および Qwen-1.5 (72B/110B) を含む、より強力な LMM をサポートするLLaVA-NeXT (Stronger) モデルがリリースされました。パフォーマンスの向上を確認するには、[ブログ] と [チェックポイント] をチェックしてください。
[2024/05/10] ? LLaVA-NeXT (動画)を公開しました。画像のみでトレーニングされた LLaVA-NeXT モデルは、ゼロショット モダリティ転送によるビデオ タスクに対して驚くほど強力です。ビデオに関する AI フィードバックを使用した DPO トレーニングは、大幅な改善をもたらす可能性があります。 [ブログ]、[チェックポイント]、[sglang]
[2024/01/30] ? LLaVA-NeXTが出ました! LLaVA-1.5 への追加スケーリングにより、LLaVA-NeXT-34B はいくつかのベンチマークで Gemini Pro を上回ります。以前よりも 4 倍多くのピクセルを処理し、より多くのタスク/アプリケーションを実行できるようになりました。ブログ投稿をチェックして、デモを探索してください。モデルは Model Zoo で入手できます。トレーニング/評価データとスクリプトは近日公開予定です。
[2024/03/10] ? LLaVA-NeXT の開発時に使用した高効率評価パイプラインであるLMMs-Eval をリリースします。数十の公開データセットでの LMM の評価をサポートし、新しいデータセットのオンボーディングを可能にして、新しい LMM の開発を大幅に高速化します。 [ブログ] [コードベース]
[2023/11/10] LLaVA-Plus をリリースしました: LLaVA-Plus でマルチモーダル エージェントを作成するためのツールの使い方を学習する (スキルをプラグインして学習する LLaVA)。 [プロジェクトページ] [デモ] [コード] [論文]
[2023/11/02] LLaVA-Interactive がリリースされました: 画像チャット、セグメンテーション、生成、編集のオールインワン デモで、人間と AI のマルチモーダル インタラクションの未来を体験してください。 [プロジェクトページ] [デモ] [コード] [論文]
[2023/10/26] ? LoRA を使用した LLaVA-1.5 は、GPU RAM 要件 (ckpts、スクリプト) を削減しながら、フルモデルの微調整と同等のパフォーマンスを実現します。 LoRA を使用して独自のデータセットで LLaVA-1.5 を微調整する方法に関するドキュメントも提供します。
[2023/10/12] 私たちの研究に多大なご支援をいただいたETRIが作成した韓国語LLaVA(Ko-LLaVA)をチェックしてください! [?デモ]
[2023/10/05] ? LLaVA-1.5がリリースされました!元の LLaVA に簡単な変更を加えるだけで 11 のベンチマークで SoTA を達成すると、すべての公開データが利用され、単一の 8-A100 ノードでのトレーニングが約 1 日で完了し、10 億規模のデータを使用する Qwen-VL-Chat のような手法を上回ります。技術レポートをチェックして、デモを試してください。モデルは Model Zoo で入手できます。 LLaVA-1.5の学習データとスクリプトはこちら、評価スクリプトはこちらで公開しています!
[2023/09/26] LLaVA は、ヒューマンフィードバックからの強化学習 (RLHF) によって改善され、事実の根拠を高め、幻覚を軽減します。プロジェクト [LLavA-RLHF] で新しい SFT および RLHF チェックポイントを確認してください。
[2023/09/22] LLaVA が NeurIPS 2023 に口頭発表として、LLaVA-Med が NeurIPS 2023 Datasets and Benchmarks Track にスポットライト発表として採択されました。
[2023/11/06] Intel dGPU および CPU プラットフォームをサポートします。詳細はこちら。
[2023/10/12] llama.cppでLLaVAが4ビット/5ビット量子化に対応しました!
[2023/10/11] LLaVA-1.5の学習データとスクリプトはこちら、評価スクリプトはこちらで公開しました!
[2023/10/10] Roboflow Deep Dive: LLaVA-1.5 のファーストインプレッション。
[2023/09/20] 33Bおよび65B LLaVAモデルの学習に関する実証研究をnoteにまとめました。さらに、マルチモーダル基礎モデルの包括的なレビュー、進化、傾向に興味がある場合は、最近の調査論文「マルチモーダル基礎モデル: スペシャリストから汎用アシスタントまで」をご覧ください。
[2023/07/19] ? LLaMA-2、LoRA トレーニング、4/8 ビット推論、高解像度 (336x336) などのサポートを含むメジャー アップグレードをリリースします。 Bard と Bing-Chat の結果を使用してオープンエンドのビジュアル チャットをベンチマークするための LLaVA Bench をリリースします。 RTX 3090 および RTX A6000 でのトレーニングもサポートおよび検証しています。 LLaMA-2 の LLaVA と動物園のモデルをチェックしてください。
[2023/06/26]大規模マルチモーダル モデルに関する CVPR 2023 チュートリアル: マルチモーダル GPT-4 の構築と克服に向けて! [スライド] [ノート] [YouTube] [Bilibl] をご覧ください。
[2023/06/11] 最もリクエストの多かった機能、DeepSpeed と LoRA のサポートのプレビューをリリースしました。 こちらのドキュメントをご覧ください。
[2023/06/01] GPT-4 レベルの機能を備えた生物医学領域の大規模言語および視覚モデルの構築に向けた一歩となるLLaVA-Med: Large Language and Vision Assistant for Biomedicine をリリースしました。 紙とページをチェックしてください。
[2023/05/06] MPT-7B-ChatをベースにしたLLaVA-Lighting-MPT-7B-プレビューを公開しました! 詳細については、こちらを参照してください。
[2023/05/02] ? LLaVA-Lightingをリリースします! わずか 40 ドルで軽量のマルチモーダル GPT-4 を 3 時間でトレーニングできます。 詳細については、こちらを参照してください。
[2023/04/27] コミュニティの努力のおかげで、4 ビット量子化を備えた LLaVA-13B は、わずか 12GB VRAM の GPU で実行できるようになりました。 ここで試してみてください。
[2023/04/17] ? LLaVA: Large Language and Vision Assistant をリリースしました。 GPT-4 レベルの機能を備えた大規模な言語および視覚モデルの構築に向けて、視覚的な命令のチューニングを提案します。 論文とデモをチェックしてください。
使用法とライセンスに関する通知: このプロジェクトは、それぞれの元のライセンスの対象となる特定のデータセットとチェックポイントを利用します。ユーザーは、データセットの OpenAI 利用規約と、データセットを使用してトレーニングされたチェックポイントの基本言語モデルの特定のライセンス (例: Llama-1/2 コミュニティ ライセンスLLaMA-2 および Vicuna-v1.5、Tongyi Qianwen 研究ライセンス契約および Llama-3 研究ライセンス)。このプロジェクトには、元のライセンスに規定されているものを超える追加の制約は課されません。さらに、ユーザーは、データセットとチェックポイントの使用が適用されるすべての法律および規制に準拠していることを確認するよう注意されます。
git clone https://github.com/LLaVA-VL/LLaVA-NeXTcd LLaVA-NeXT
conda create -n llava python=3.10 -y conda は lava をアクティブ化します pip install --upgrade pip # PEP 660 support を有効にする.pip install -e ".[train]"
推論と評価の詳細については、次のページをご覧ください。
LLaVA-OneVision: デモ推論用。評価コードは lmms-eval にあります。
LLaVA-NeXT-Image: lmms-eval を使用した画像デモの推論とより強力な LMM の評価用。
LLaVA-NeXT-Video: ビデオ推論および評価スクリプト用。評価には LMMs-video を使用することをお勧めします。
LLaVA-NeXT-Interleave: マルチイメージのデモおよび評価スクリプト用。
SGLang を使用して、LLaVA-NeXT の推論と展開を高速化します。 SGLang を使用して LLaVA-NeXT をバックエンド API サービスとして作成できます。
環境の準備: sglang の指示に従います。
sglang/examples/runtime/llava_onevision で HTTP Post/Get および SRT の使用状況を確認してください。
(K) ノードで起動して実行:
sglang プロジェクトに移動
cd PATH_TO/sglang
最初のノード:
bash 例/使用法/llava_video/srt_example_llava_v.sh K 0 YOUR_VIDEO_PATH YOUR_MODEL_PATH FRAMES_PER_VIDEO (例: bash 例/usage/llava_video/srt_example_llava_v.sh K 0 例/usage/llava_video/videos/Q98Z4OTh8RwmDonc.mp4 lmms-lab/LLaVA-NeXT-Video-7B-DPO 16)
2 番目のノード:
bash 例/使用法/llava_video/srt_example_llava_v.sh K 1 YOUR_VIDEO_PATH YOUR_MODEL_PATH FRAMES_PER_VIDEO
K ノード:
bash 例/使用法/llava_video/srt_example_llava_v.sh K K-1 YOUR_VIDEO_PATH YOUR_MODEL_PATH FRAMES_PER_VIDEO
研究や応用に役立つと思われる場合は、この BibTeX を使用して関連する論文/ブログを引用してください。
@article{li2024llava, title={LLaVA-NeXT-Interleave: 大規模マルチモーダル モデルにおけるマルチ画像、ビデオ、3D への取り組み}、author={Li、Feng、Zhang、Renrui、Zhang、Hao、Zhang、Yuanhan、Li、 Bo と Li、Wei と Ma、Zejun と Li、Chunyuan}、journal={arXiv preprint arXiv:2407.07895}、year={2024}}@misc{li2024llavanext-ablations、title={LLaVA-NeXT: 視覚的指導に影響を与えるその他の要素データを超えたチューニング?}、url={https://llava-vl.github.io/blog/2024-05-25-llava-next-ablations/}、著者={Li、Bo、Zhang、Hao、Zhang、カイチェンと郭、ドンとチャン、ユアンハンとチャン、レンルイとリー、フェンとリウ、紫微とリー、チュンユアン}、month={May}、year={2024}}@misc{li2024llavanext-strong,title={LLaVA -NeXT: より強力な LLM が実際のマルチモーダル機能を強化},url={https://llava-vl.github.io/blog/2024-05-10-llava-next-stronger-llms/},author={Li 、ボーとチャン、カイチェンとチャン、ハオとグオ、ドンとチャン、レンルイとリー、フェンとチャン、ユアンハンとリウ、紫微とリー、チュンユアン},month={May},year={2024}}@misc {zhang2024llavanext-video、title={LLaVA-NeXT: 強力なゼロショット ビデオ理解モデル}、url={https://llava-vl.github.io/blog/2024-04-30-llava-next-video /}、著者={Zhang、YuanhanとLi、BoとLiu、haotianとLee、YongjaeとGui、LiangkeとFu、DiとFeng、JiashiとLiu、ZiweiとLi、Chunyuan}、month={April}、 year={2024}}@misc{liu2024llavanext,title={LLaVA-NeXT: 推論、OCR、世界の知識の向上},url={https://llava-vl.github.io/blog/2024-01-30 -llava-next/},author={リウ、ハオティアンとリー、チュンユアンとリー、ユヘンとリー、ボーとチャン、ユアンハンとシェン、シェンとリー、ヨンジェ}、月={1月}、年={2024 }}@misc{liu2023improvedllava, title={ビジュアル命令チューニングによるベースラインの改善}, 著者={Liu、Haotian、Li、Chunyuan、Li、Yuheng、Lee、Yong Jae}、発行者={arXiv:2310.03744}、年={2023}、 }@misc{liu2023llava, title={ビジュアル指示チューニング}, 著者={Liu、Haotian、Li、Chunyuan、Wu、Qingyang、Lee、Yong Jae}、出版社={NeurIPS}、年={2023}、 }
Vicuna: 私たちが構築したコードベースと、驚くべき言語機能を備えたベース モデル Vicuna-13B です。
LLaVA-NeXT プロジェクトは現在、貢献者 (名前のアルファベット順にリスト): Bo Li、Dong Guo、Feng Li、Hao Zhang、Kaichen Zhang、Renrui Zhang、Yuanhan Zhang とともに、Chunyuan Li と Yuanhan Zhang が率いるチームによって維持されています。 Haotian Liu の指導と支援を受けて。
lmms-eval
フレームワークとその中心的貢献者 (Peiyuan Zhang、Fanyi Pu、Joshua Adrian Cahyono、Kairui Hu など) が評価面でサポートしてくれました。
GPT-4による命令チューニング
LLaVA-Med: 生物医学のための大規模な言語および視覚アシスタントを 1 日でトレーニング
Otter: インコンテキストマルチモーダル命令チューニング
今後のプロジェクトのアイデアについては、以下をご覧ください。
SEEM: あらゆる場所にあるすべてのものを一度にセグメント化する
Grounded-Segment-Anything は、Grounding DINO と Segment-Anything を組み合わせることで、あらゆるものを検出、セグメント化、生成します。