ManipLLM の公式コードベース: オブジェクト中心のロボット操作のための具体化されたマルチモーダル大規模言語モデル (CVPR 2024)
このリポジトリは、LLama_Adapter と Where2act の恩恵を受けています。彼らの素晴らしい作品に感謝します。
conda create --name manipllm python=3.8
conda は manipllm をアクティブ化します
pip install -r 要件.txt
./asset/original_sapien_dataset
├── 148
| └── mobility.urdf
├── 149
| └── mobility.urdf
├── ...
│ ...
└── ...
cd ./ManipLLM/data_collection/code
bash scripts/run_gen_offline_data.sh
このコマンドは、最初にトレーニング データセットを生成し、次にテスト データセットを生成します。
準備:
CLIP、LLaMa-Adapter のチェックポイントをダウンロードします。ダウンロードしたチェックポイントは、/ManipLLM/train/ckpts の下に配置する必要があります。このフォームを使用して LLaMA バックボーンの重みを取得します。非公式ソース (BitTorrent など) からのチェックポイントには悪意のあるコードが含まれている可能性があるため、注意して使用する必要があることに注意してください。ダウンロードしたチェックポイントを次の構造で整理します。
./ckpts/llama_model_weights
├── 7B
│ ├── checklist.chk
│ ├── consolidated.00.pth
│ └── params.json
└── tokenizer.model
./ckpts/BIAS_LORA_NORM-336-Chinese-7B.pth
./ckpts/ViT-L-14-336px.pt
モデルのトレーニング: トレーニングでは、サーバーに少なくとも 40g のメモリが必要です。このコマンドはまずトレーニング JSON を生成し、次にトレーニングを開始します。
cd ./ManipLLM/train
bash finetune.sh
公開コードは、思考連鎖を使わずに最終的なプロンプトのみを推論し、ポーズを直接予測します。
CLIP、[LLaMa](トレーニング時の処理と同じ)、LLaMa-Adapterのチェックポイントも/ManipLLM/test/ckpts配下に忘れずに追加してください。
チェックポイント「checkpoint-9-ori.pth」をリリースします。データ収集のランダム性により、提供されるテスト データセットは論文のものとは異なるため、論文の結果と比較すると、わずかに異なるものの同等の結果が得られる可能性があることに注意してください。リリースされたcheckpoint-9-oriをダウンロードするか、トレーニングされた独自のチェックポイントを使用してください。私たちが提供するリンクはbaiduyunのダウンロードリンクです。 Google ドライブのダウンロード リンクが必要な場合は、Google アカウントを電子メールで [email protected] に送信してください。リンクを共有します。 test.sh の line5 を、ckpts を配置したディレクトリに忘れずに変更してください。
弊社のテスト データをダウンロードするか、ご自身でテスト データを収集してください。ダウンロードした「test_data」フォルダーは、/ManipLLM/data_collection/data に解凍する必要があります。公式 Web サイトからpartnet Mobility urdf をダウンロードし、/ManipLLM/data_collection/asset の下に配置します。
テストでは、サーバーに少なくとも 40g のメモリが必要です。このコマンドは、最初にモデルを使用してすべてのテスト サンプルを推論し、次にシミュレーター (SAPIEN) でオブジェクトと対話します。
cd ./ManipLLM/test
bash test.sh