ManipLLM 的官方代码库:以对象为中心的机器人操作的具体多模态大型语言模型 (CVPR 2024)
该存储库受益于 LLama_Adapter 和Where2act。感谢他们的精彩作品。
conda 创建 --name manipllm python=3.8
conda 激活马尼普林
pip install -r 要求.txt
./asset/original_sapien_dataset
├── 148
| └── mobility.urdf
├── 149
| └── mobility.urdf
├── ...
│ ...
└── ...
cd ./ManipLLM/data_collection/code
bash scripts/run_gen_offline_data.sh
该命令将首先生成训练数据集,然后生成测试数据集。
准备:
下载 CLIP、LLaMa-Adapter 的检查点。下载的检查点应放置在 /ManipLLM/train/ckpts 下。使用此表格获取 LLaMA 主干权重。请注意,非官方来源(例如 BitTorrent)的检查点可能包含恶意代码,应谨慎使用。按以下结构组织下载的检查点:
./ckpts/llama_model_weights
├── 7B
│ ├── checklist.chk
│ ├── consolidated.00.pth
│ └── params.json
└── tokenizer.model
./ckpts/BIAS_LORA_NORM-336-Chinese-7B.pth
./ckpts/ViT-L-14-336px.pt
模型训练:训练要求服务器至少40g内存。该命令会先生成训练json,然后开始训练
cd ./ManipLLM/train
bash finetune.sh
公共代码只推断最终的提示,没有思路,直接预测姿势。
记得在 /ManipLLM/test/ckpts 下添加 CLIP、[LLaMa](与训练过程相同)和 LLaMa-Adapter 的检查点。
我们发布检查点:checkpoint-9-ori.pth。请注意,由于数据收集的随机性,提供的测试数据集与论文中的数据集不同,因此与论文中的结果相比,您可能会得到略有不同但具有可比性的结果。下载已发布的 checkpoint-9-ori 或使用您自己训练的检查点。我们提供的链接是百度云下载链接。如果您需要Google Drive下载链接,请将您的Google帐户通过电子邮件发送至[email protected],然后我们将与您分享该链接。请记住将 test.sh 中的第 5 行更改为放置 ckpts 的目录。
下载我们的测试数据或自行收集测试数据。下载的“test_data”文件夹应解压缩到 /ManipLLM/data_collection/data 下。从其官方网站下载partnet mobile urdf并将其放置在/ManipLLM/data_collection/asset下。
测试要求服务器至少有40g内存。该命令将首先使用模型来推断所有测试样本,然后与模拟器(SAPIEN)中的对象进行交互。
cd ./ManipLLM/test
bash test.sh