PointLLM下载 - PointLLM源代码下载

PointLLM：使大型语言模型能够理解点云

润森徐小龙王泰王以伦陈江苗庞* 林大华
香港中文大学上海人工智能实验室浙江大学

？关于

我们引入了PointLLM，一种能够理解物体的彩色点云的多模态大语言模型。它感知对象类型、几何结构和外观，而无需考虑模糊的深度、遮挡或视点依赖性。我们收集了一个新颖的数据集，其中包含 660K 简单和 70K 复杂点文本指令对，以实现两阶段训练策略。为了严格评估我们模型的感知能力及其泛化能力，我们建立了两个基准：生成 3D 对象分类和 3D 对象描述，通过三种不同的评估方法进行评估。

消息

[2024-09-06] 我们上传了适用于 ECCV 2024 的 PointLLM 的相机就绪版本，其中包括更清晰的文字和额外的实验结果。请检查这里的论文。
[2024-07-01] PointLLM已被ECCV 2024接受，全部为“强接受”推荐。？我们正在寻找有上进心的学生来进行有关 PointLLM 的研究。如果您有兴趣，请将您的简历发送至[email protected]！
[2023-12-29] 我们发布了在线 Gradio 演示的代码。
[2023-12-26] 我们发布了模型评估的代码，包括ChatGPT/GPT-4评估和传统指标评估。
[2023-12-08] 我们发布了训练代码和PointLLM-v1.2。在线演示也已升级至v1.2版本。请欣赏！？
[2023-12-01] 我们发布了论文的更新版本 (v2)，其中包括额外的基线比较、增强的人类评估指标、改进的模型性能 (PointLLM-v1.2) 和其他改进。请在此处检查更新的版本。
[2023-10-18] 我们发布了指令跟随数据，包括简单描述和复杂指令。在这里下载。
[2023-09-26] 我们发布了带有检查点的推理代码以及我们使用的 Objaverse 彩色点云文件。您可以使用自己的机器与 PointLLM 聊天。
[2023-08-31] 我们发布了PointLLM的论文和在线gradio演示。试试吧！？

？内容

？在线演示
对话范例
？概述
？培训与评估
待办事项列表
？引文
？执照
相关工作
？致谢

？在线演示

点LLM上线了！请在 http://101.230.144.196 或 OpenXLab/PointLLM 尝试。

您可以与 PointLLM 讨论 Objaverse 数据集的模型或您自己的点云！

如果您有任何反馈，请随时告诉我们！？

对话范例

对话1	对话2	对话3	对话4

？概述

模型

点编码器从输入点云中提取特征并将其投影到 LLM 主干的潜在空间。 LLM 主干处理点标记和文本标记序列，并生成预测标记作为输出。

实验结果

与基线的定量比较。

请参阅我们的论文了解更多结果。

注意：BLEU-1、ROUGE-L 和 METEOR 等传统指标倾向于较短的响应，并且可能无法有效捕获语义准确性。有关此问题的详细讨论，请参阅我们的论文。我们建议社区不要仅仅依赖这些指标进行评估。

与基线的定性比较。

请参阅我们的论文了解更多结果。

？培训与评估

安装

我们在以下环境下测试我们的代码：

乌班图20.04
NVIDIA 驱动程序：515.65.01
CUDA 11.7
Python 3.10.13
火炬2.0.1
变形金刚 4.28.0.dev(transformers.git@cae78c46)

开始：

克隆此存储库。

git clone [email protected]:OpenRobotLab/PointLLM.git
cd PointLLM

安装包

conda create -n pointllm python=3.10 -y
conda activate pointllm
pip install --upgrade pip  # enable PEP 660 support
pip install -e .

# * for training
pip install ninja
pip install flash-attn

数据准备

Objaverse 训练数据

在此处下载 660K Objaverse 彩色点云的两个压缩文件。它们需要大约 77GB 的存储空间。
运行以下命令将两个文件合并为一个并解压缩。这将生成一个名为8192_npy的文件夹，其中包含名为{Objaverse_ID}_8192.npy 660K 点云文件。每个文件都是一个维度为 (8192, 6) 的 numpy 数组，其中前三个维度是xyz ，后三个维度是 [0, 1] 范围内的rgb 。

cat Objaverse_660K_8192_npy_split_a * > Objaverse_660K_8192_npy.tar.gz
tar -xvf Objaverse_660K_8192_npy.tar.gz

在PointLLM文件夹中，创建一个文件夹data ，并在该目录下创建一个指向未压缩文件的软链接。

 cd PointLLM
mkdir data
ln -s /path/to/8192_npy data/objaverse_data

指令跟随数据

在PointLLM/data文件夹中，创建一个名为anno_data的目录。
我们的指令遵循数据，包括简单描述和复杂指令，可以在此处下载。如果您在下载数据时遇到困难（例如网络问题），请给作者发送电子邮件。

简单描述数据有 660K 样本，复杂指令有 70K 样本。
两个训练数据均基于 Objaverse 数据集。
复杂的指令是用 GPT-4 生成的。

将数据文件放在anno_data目录中。该目录应如下所示：

PointLLM/data/anno_data
├── PointLLM_brief_description_660K_filtered.json
├── PointLLM_brief_description_660K.json
└── PointLLM_complex_instruction_70K.json

请注意， PointLLM_brief_description_660K_filtered.json是通过删除我们保留作为验证集的 3000 个对象从PointLLM_brief_description_660K.json中过滤出来的。如果您想重现我们论文中的结果，您应该使用PointLLM_brief_description_660K_filtered.json进行训练。 PointLLM_complex_instruction_70K.json包含训练集中的对象。
如果您想自己生成复杂的指令，请参阅我们的论文了解其他详细信息。系统提示符位于pointllm/data/data_generation/system_prompt_gpt4_0613.txt 。

评估数据

下载我们用于 Objaverse 数据集基准测试的引用 GT PointLLM_brief_description_val_200_GT.json ，并将其放入PointLLM/data/anno_data 。我们还提供了我们在训练期间过滤的 3000 个对象 ID 以及它们相应的引用 GT，可用于对所有 3000 个对象进行评估。
在PointLLM/data中创建名为modelnet40_data的目录。在此处下载 ModelNet40 点云modelnet40_test_8192pts_fps.dat的测试分割并将其放入PointLLM/data/modelnet40_data中。

训练

下载初始 LLM 和点编码器权重

在PointLLM文件夹中，创建一个名为checkpoints的目录。
下载预训练的 LLM 和点编码器：PointLLM_7B_v1.1_init 或 PointLLM_13B_v1.1_init。将它们放在checkpoints目录中。
请注意，上面的“v1.1”表示我们使用Vicuna-v1.1检查点，您不需要再次下载原始的LLaMA权重。

开始训练

对于第一阶段训练，只需运行：

 cd PointLLM
scripts/PointLLM_train_stage1.sh

第一阶段训练结束后，开始第二阶段训练：

scripts/PointLLM_train_stage2.sh

PointLLM-v1.1 和 PointLLM-v1.2

通常情况下，您不必关心以下内容。它们仅用于重现我们 v1 论文 (PointLLM-v1.1) 中的结果。如果您想与我们的模型进行比较或使用我们的模型进行下游任务，请使用PointLLM-v1.2（参考我们的v2论文），它具有更好的性能。

以下步骤用于复制 PointLLM-v1.1（点击展开）

PointLLM v1.1 和 v1.2 使用略有不同的预训练点编码器和投影仪。如果要重现PointLLM v1.1，请编辑初始LLM和点编码器权重目录中的config.json文件，例如vim checkpoints/PointLLM_7B_v1.1_init/config.json 。

更改键"point_backbone_config_name"以指定另一个点编码器配置：

 # change from
" point_backbone_config_name " : " PointTransformer_8192point_2layer " # v1.2
# to
" point_backbone_config_name " : " PointTransformer_base_8192point " , # v1.1

在scripts/train_stage1.sh中编辑点编码器的检查点路径：

 # change from
point_backbone_ckpt= $model_name_or_path /point_bert_v1.2.pt # v1.2
# to
point_backbone_ckpt= $model_name_or_path /point_bert_v1.1.pt # v1.1

聊天

训练好的模型检查点可在此处获得（包括不同版本的 PointLLM）。
运行以下命令以使用torch.float32数据类型启动聊天机器人，以讨论 Objaverse 的 3D 模型。模型检查点将自动下载。您还可以手动下载模型检查点并指定其路径。这是一个例子：

 cd PointLLM
PYTHONPATH= $PWD python pointllm/eval/PointLLM_chat.py --model_name RunsenXu/PointLLM_7B_v1.2 --data_name data/objaverse_data --torch_dtype float32

您还可以轻松修改使用 Objaverse 以外的点云的代码，只要输入模型的点云具有维度 (N, 6)，其中前三个维度为xyz ，后三个维度为rgb (在 [0, 1] 范围内）。您可以对点云进行采样以获得 8192 个点，因为我们的模型是在此类点云上进行训练的。
下表显示了不同模型和数据类型的 GPU 要求。如果适用，我们建议使用torch.bfloat16 ，它在我们论文的实验中使用。
模型数据类型显存
点LLM-7B 火炬.float16 14GB
点LLM-7B 火炬.float32 28GB
PointLLM-13B 火炬.float16 26GB
PointLLM-13B 火炬.float32 52GB

模型	数据类型	显存
点LLM-7B	火炬.float16	14GB
点LLM-7B	火炬.float32	28GB
PointLLM-13B	火炬.float16	26GB
PointLLM-13B	火炬.float32	52GB

调音台演示

我们提供在线 Gradio 演示的代码。您可以运行以下命令在本地启动演示以进行聊天和可视化。

 cd PointLLM
PYTHONPATH= $PWD python pointllm/eval/chat_gradio.py --model_name RunsenXu/PointLLM_7B_v1.2 --data_name data/objaverse_data

温馨提示：如果您想公开发布演示，请参阅https://www.gradio.app/guides/sharing-your-app#security-and-file-access。

评估

推理

运行以下命令来推断结果。
用于在不同基准上进行推理的不同命令（以 PointLLM_7B_v1.2 为例）：

 cd PointLLM
export PYTHONPATH= $PWD

# Open Vocabulary Classification on Objaverse
python pointllm/eval/eval_objaverse.py --model_name RunsenXu/PointLLM_7B_v1.2 --task_type classification --prompt_index 0 # or --prompt_index 1

# Object captioning on Objaverse
python pointllm/eval/eval_objaverse.py --model_name RunsenXu/PointLLM_7B_v1.2 --task_type captioning --prompt_index 2

# Close-set Zero-shot Classification on ModelNet40
python pointllm/eval/eval_modelnet_cls.py --model_name RunsenXu/PointLLM_7B_v1.2 --prompt_index 0 # or --prompt_index 1

请检查这两个脚本的默认命令行参数。您可以指定不同的提示、数据路径和其他参数。
推理后，结果将作为字典保存在{model_name}/evaluation中，格式如下：

{
  " prompt " : " " ,
  " results " : [
    {
      " object_id " : " " ,
      " ground_truth " : " " , 
      " model_output " : " " ,
      " label_name " : " " # only for classification on modelnet40
    }
  ]
}

ChatGPT/GPT-4 评估

在 https://platform.openai.com/api-keys 获取您的 OpenAI API 密钥。
运行以下命令与 ChatGPT/GPT-4 并行评估模型输出（成本约为 1.5 至 2.2 美元）。

 cd PointLLM
export PYTHONPATH= $PWD
export OPENAI_API_KEY=sk- ****

# Open Vocabulary Classification on Objaverse
python pointllm/eval/evaluator.py --results_path /path/to/model_output --model_type gpt-4-0613 --eval_type open-free-form-classification --parallel --num_workers 15

# Object captioning on Objaverse
python pointllm/eval/evaluator.py --results_path /path/to/model_output --model_type gpt-4-0613 --eval_type object-captioning --parallel --num_workers 15

# Close-set Zero-shot Classification on ModelNet40
python pointllm/eval/evaluator.py --results_path /path/to/model_output --model_type gpt-3.5-turbo-0613 --eval_type modelnet-close-set-classification --parallel --num_workers 15

评估脚本支持中断和恢复。您可以随时使用Ctrl+C中断评估过程。这将保存临时结果。如果评估过程中发生错误，脚本也会保存当前状态。您可以通过再次运行相同的命令从中断处恢复评估。
评估结果将作为另一个字典保存在{model_name}/evaluation中。部分指标解释如下：

 " average_score " : The GPT-evaluated captioning score we report in our paper.
" accuracy " : The classification accuracy we report in our paper, including random choices made by ChatGPT when model outputs are vague or ambiguous and ChatGPT outputs " INVALID " .
" clean_accuracy " : The classification accuracy after removing those " INVALID " outputs.
" total_predictions " : The number of predictions.
" correct_predictions " : The number of correct predictions.
" invalid_responses " : The number of " INVALID " outputs by ChatGPT.

# Some other statistics for calling OpenAI API
" prompt_tokens " : The total number of tokens of the prompts for ChatGPT/GPT-4.
" completion_tokens " : The total number of tokens of the completion results from ChatGPT/GPT-4.
" GPT_cost " : The API cost of the whole evaluation process, in US Dollars ?.

开放式评估。您还可以通过传递--start_eval标志并指定--gpt_type在推理后立即开始评估。例如：

python pointllm/eval/eval_objaverse.py --model_name RunsenXu/PointLLM_7B_v1.2 --task_type classification --prompt_index 0 --start_eval --gpt_type gpt-4-0613

传统指标评估

对于对象字幕任务，运行以下命令以使用传统指标（包括 BLEU、ROUGE、METEOR、Sentence-BERT 和 SimCSE）评估模型输出。

python pointllm/eval/traditional_evaluator.py --results_path /path/to/model_captioning_output

请注意，我们建议不要使用 BLEU、ROUGE 和 METEOR 进行评估，因为它们偏向于短标题并且无法捕获语义准确性和多样性。

待办事项列表

添加带有检查点的推理代码。
释放指令跟随数据。
添加训练代码。
添加评估代码。
添加渐变演示代码。
发布PointLLM-V2，具有更好的模型和数据。

欢迎社区贡献！？如果您需要任何支持，请随时提出问题或联系我们。

支持 Phi-2 LLM，使 PointLLM 更容易为社区所接受。
支持像InternLM这样的中国法学硕士。

？引文

如果您发现我们的工作和此代码库有帮助，请考虑为该存储库加注星标？并引用：

 @inproceedings { xu2024pointllm ,
  title = { PointLLM: Empowering Large Language Models to Understand Point Clouds } ,
  author = { Xu, Runsen and Wang, Xiaolong and Wang, Tai and Chen, Yilun and Pang, Jiangmiao and Lin, Dahua } ,
  booktitle = { ECCV } ,
  year = { 2024 }
}