PointLLM 다운로드 - PointLLM 소스 코드 다운로드

PointLLM: 포인트 클라우드를 이해하기 위한 대규모 언어 모델 지원

Runsen Xu Xiaolong Wang Tai Wang Yilun Chen Jiangmiao Pang* Dahua Lin
홍콩중문대학교 상하이 AI 연구소 저장대학교

? 에 대한

객체의 컬러 포인트 클라우드를 이해할 수 있는 다중 모드 대형 언어 모델인 PointLLM을 소개합니다. 모호한 깊이, 폐색 또는 시점 의존성에 대한 걱정 없이 객체 유형, 기하학적 구조 및 모양을 인식합니다. 우리는 2단계 훈련 전략을 가능하게 하기 위해 660K 단순 및 70K 복잡한 포인트-텍스트 명령 쌍으로 구성된 새로운 데이터 세트를 수집합니다 . 모델의 지각 능력과 일반화 능력을 엄격하게 평가하기 위해 생성적 3D 객체 분류와 3D 객체 캡션이라는 두 가지 벤치마크를 설정하고 세 가지 다른 평가 방법을 통해 평가했습니다.

소식

[2024-09-06] 보다 명확한 글쓰기와 추가 실험 결과가 포함된 ECCV 2024용 PointLLM의 카메라 지원 버전을 업로드했습니다. 여기에서 논문을 확인해주세요.
[2024-07-01] PointLLM은 모든 "강력한 승인" 권장 사항과 함께 ECCV 2024에서 승인되었습니다. ? PointLLM에 관한 연구를 수행할 자발적인 학생을 찾고 있습니다. 관심이 있으시면 이력서와 함께[email protected]으로 이메일을 보내주세요!
[2023-12-29] 온라인 Gradio 데모 코드를 공개합니다.
[2023-12-26] ChatGPT/GPT-4 평가 및 기존 측정항목 평가를 포함한 모델 평가용 코드를 출시합니다.
[2023-12-08] 학습용 코드 및 PointLLM-v1.2를 출시합니다. 온라인 데모도 v1.2 버전으로 업그레이드되었습니다. 즐겨주세요! ?
[2023-12-01] 우리는 추가 기준 비교, 향상된 인간 평가 지표, 향상된 모델 성능(PointLLM-v1.2) 및 기타 개선 사항을 포함하는 업데이트된 버전의 문서(v2)를 출시했습니다. 업데이트된 버전은 여기에서 확인해주세요.
[2023-10-18] 간단한 설명과 복잡한 지침을 모두 포함하여 지침에 따른 데이터를 공개합니다. 여기에서 다운로드하세요.
[2023-09-26] 체크포인트가 포함된 추론 코드와 우리가 사용하는 Objaverse 컬러 포인트 클라우드 파일을 공개합니다. 자신의 컴퓨터로 PointLLM과 채팅할 수 있습니다.
[2023-08-31] PointLLM 논문과 온라인 그라디오 데모를 공개합니다. 시도해 보세요! ?

? 내용물

? 온라인 데모
대화의 예
? 개요
? 교육 및 평가
할 일 목록
? 소환
? 특허
관련 업무
? 감사의 말

? 온라인 데모

PointLLM이 온라인 상태입니다! http://101.230.144.196 또는 OpenXLab/PointLLM에서 사용해 보세요.

Objaverse 데이터 세트의 모델이나 자신의 포인트 클라우드에 대해 PointLLM과 대화할 수 있습니다!

피드백이 있으면 주저하지 말고 알려주시기 바랍니다! ?

대화의 예

대화 1	대화 2	대화 3	대화 4

? 개요

모델

포인트 인코더는 입력 포인트 클라우드에서 특징을 추출하여 LLM 백본의 잠재 공간에 투영합니다. LLM 백본은 포인트 토큰과 텍스트 토큰의 시퀀스를 처리하고 예측 토큰을 출력으로 생성합니다.

실험 결과

기준선과의 정량적 비교.

더 많은 결과를 보려면 우리의 논문을 참조하세요.

!!!참고: BLEU-1, ROUGE-L 및 METEOR와 같은 기존 측정항목은 더 짧은 응답을 선호하는 경향이 있으며 의미 체계의 정확성을 효과적으로 포착하지 못할 수 있습니다. 이에 대한 자세한 논의는 우리 논문을 참조하시기 바랍니다. 우리는 커뮤니티가 평가를 위해 이러한 지표에만 의존하지 말 것을 제안합니다.

기준선과의 정성적 비교.

더 많은 결과를 보려면 우리의 논문을 참조하세요.

? 교육 및 평가

설치

우리는 다음 환경에서 코드를 테스트합니다.

우분투 20.04
엔비디아 드라이버: 515.65.01
쿠다 11.7
파이썬 3.10.13
파이토치 2.0.1
트랜스포머 4.28.0.dev(transformers.git@cae78c46)

시작하려면:

이 저장소를 복제하세요.

git clone [email protected]:OpenRobotLab/PointLLM.git
cd PointLLM

패키지 설치

conda create -n pointllm python=3.10 -y
conda activate pointllm
pip install --upgrade pip  # enable PEP 660 support
pip install -e .

# * for training
pip install ninja
pip install flash-attn

데이터 준비

객체 훈련 데이터

여기에서 660K Objaverse 컬러 포인트 클라우드 압축 파일 2개를 다운로드하세요. 약 77GB의 저장 공간이 필요합니다.
다음 명령을 실행하여 두 파일을 하나로 병합하고 압축을 해제합니다. 그러면 {Objaverse_ID}_8192.npy 라는 660K 포인트 클라우드 파일이 포함된 8192_npy 라는 폴더가 생성됩니다. 각 파일은 차원(8192, 6)을 갖는 numpy 배열입니다. 여기서 처음 3개 차원은 xyz 이고 마지막 3개 차원은 [0, 1] 범위의 rgb 입니다.

cat Objaverse_660K_8192_npy_split_a * > Objaverse_660K_8192_npy.tar.gz
tar -xvf Objaverse_660K_8192_npy.tar.gz

PointLLM 폴더에서 data 폴더를 생성하고 디렉터리에 압축되지 않은 파일에 대한 소프트 링크를 생성합니다.

 cd PointLLM
mkdir data
ln -s /path/to/8192_npy data/objaverse_data

지시에 따른 데이터

PointLLM/data 폴더에 anno_data 라는 디렉터리를 만듭니다.
간단한 설명과 복잡한 지침을 모두 포함하는 지침 준수 데이터를 여기에서 다운로드할 수 있습니다. 데이터 다운로드에 어려움이 있는 경우(예: 네트워크 문제) 작성자에게 이메일을 보내주세요.

단순 설명 데이터에는 660K 샘플이 있고 복잡한 명령어에는 70K 샘플이 있습니다.
두 훈련 데이터 모두 Objaverse 데이터 세트를 기반으로 합니다.
복잡한 지침은 GPT-4로 생성됩니다.

anno_data 디렉터리에 데이터 파일을 넣습니다. 디렉토리는 다음과 같아야 합니다.

PointLLM/data/anno_data
├── PointLLM_brief_description_660K_filtered.json
├── PointLLM_brief_description_660K.json
└── PointLLM_complex_instruction_70K.json

PointLLM_brief_description_660K_filtered.json 유효성 검사 세트로 예약한 3000개 개체를 제거하여 PointLLM_brief_description_660K.json 에서 필터링됩니다. 우리 논문의 결과를 재현하려면 훈련에 PointLLM_brief_description_660K_filtered.json 을 사용해야 합니다. PointLLM_complex_instruction_70K.json 에는 훈련 세트의 개체가 포함되어 있습니다.
복잡한 지침을 직접 생성하려면 자세한 내용은 당사 문서를 참조하세요. 시스템 프롬프트는 pointllm/data/data_generation/system_prompt_gpt4_0613.txt 에 있습니다.

평가자료

여기 Objaverse 데이터 세트에 대한 벤치마크에 사용하는 참조 GT PointLLM_brief_description_val_200_GT.json 을 다운로드하여 PointLLM/data/anno_data 에 넣습니다. 또한 훈련 중에 필터링하는 3000개의 객체 ID와 여기에 해당하는 참조 GT를 제공합니다. 이는 모든 3000개의 객체를 평가하는 데 사용할 수 있습니다.
PointLLM/data 에 modelnet40_data 라는 디렉터리를 만듭니다. 여기에서 ModelNet40 포인트 클라우드 modelnet40_test_8192pts_fps.dat 의 테스트 분할을 다운로드하여 PointLLM/data/modelnet40_data 에 저장하세요.

훈련

초기 LLM 및 포인트 인코더 가중치 다운로드

PointLLM 폴더에 checkpoints 라는 디렉터리를 만듭니다.
사전 학습된 LLM 및 포인트 인코더(PointLLM_7B_v1.1_init 또는 PointLLM_13B_v1.1_init)를 다운로드하세요. checkpoints 디렉터리에 넣으세요.
위의 "v1.1"은 Vicuna-v1.1 체크포인트를 사용하므로 원래 LLaMA 가중치를 다시 다운로드할 필요가 없음 을 의미합니다.

훈련 시작

1단계 훈련의 경우 다음을 실행하면 됩니다.

 cd PointLLM
scripts/PointLLM_train_stage1.sh

1단계 훈련 후 2단계 훈련을 시작합니다.

scripts/PointLLM_train_stage2.sh

PointLLM-v1.1 및 PointLLM-v1.2

일반적으로 다음 내용은 신경쓰지 않으셔도 됩니다. 이는 v1 논문(PointLLM-v1.1)의 결과를 재현하기 위한 것입니다. 우리 모델과 비교하고 싶거나 다운스트림 작업에 우리 모델을 사용하려면 더 나은 성능을 제공하는 PointLLM-v1.2(v2 문서 참조)를 사용하세요.

다음 단계는 PointLLM-v1.1을 재현하기 위한 것입니다(확장하려면 클릭).

PointLLM v1.1과 v1.2는 약간 다른 사전 학습된 포인트 인코더와 프로젝터를 사용합니다. PointLLM v1.1을 재현하려면 초기 LLM 및 포인트 인코더 가중치 디렉터리에서 config.json 파일을 편집합니다(예: vim checkpoints/PointLLM_7B_v1.1_init/config.json .

다른 포인트 인코더 구성을 지정하려면 "point_backbone_config_name" 키를 변경하세요.

 # change from
" point_backbone_config_name " : " PointTransformer_8192point_2layer " # v1.2
# to
" point_backbone_config_name " : " PointTransformer_base_8192point " , # v1.1

scripts/train_stage1.sh 에서 포인트 인코더의 체크포인트 경로를 편집합니다.

 # change from
point_backbone_ckpt= $model_name_or_path /point_bert_v1.2.pt # v1.2
# to
point_backbone_ckpt= $model_name_or_path /point_bert_v1.1.pt # v1.1

채팅

학습된 모델 체크포인트는 여기에서 사용할 수 있습니다(다른 버전의 PointLLM 포함).
Objaverse의 3D 모델에 대해 채팅하기 위해 torch.float32 데이터 유형을 사용하여 챗봇을 시작하려면 다음 명령을 실행하십시오. 모델 체크포인트가 자동으로 다운로드됩니다. 모델 체크포인트를 수동으로 다운로드하고 해당 경로를 지정할 수도 있습니다. 예는 다음과 같습니다.

 cd PointLLM
PYTHONPATH= $PWD python pointllm/eval/PointLLM_chat.py --model_name RunsenXu/PointLLM_7B_v1.2 --data_name data/objaverse_data --torch_dtype float32

모델에 입력된 포인트 클라우드에 차원(N, 6)이 있는 한, Objaverse의 포인트 클라우드 이외의 포인트 클라우드를 사용하기 위한 코드를 쉽게 수정할 수도 있습니다. 여기서 처음 3차원은 xyz 이고 마지막 3차원은 rgb ( [0, 1] 범위). 우리 모델은 이러한 포인트 클라우드에 대해 훈련되었으므로 포인트 클라우드를 샘플링하여 8192개의 포인트를 가질 수 있습니다.
다음 표에는 다양한 모델 및 데이터 유형에 대한 GPU 요구 사항이 나와 있습니다. 해당되는 경우 우리 논문의 실험에 사용되는 torch.bfloat16 사용하는 것이 좋습니다.
모델 데이터 유형 GPU 메모리
포인트LLM-7B 토치.float16 14GB
포인트LLM-7B 토치.float32 28GB
포인트LLM-13B 토치.float16 26GB
포인트LLM-13B 토치.float32 52GB

모델	데이터 유형	GPU 메모리
포인트LLM-7B	토치.float16	14GB
포인트LLM-7B	토치.float32	28GB
포인트LLM-13B	토치.float16	26GB
포인트LLM-13B	토치.float32	52GB

그라디오 데모

우리는 온라인 Gradio 데모용 코드를 제공합니다. 다음 명령을 실행하여 채팅 및 시각화를 위해 로컬로 데모를 시작할 수 있습니다.

 cd PointLLM
PYTHONPATH= $PWD python pointllm/eval/chat_gradio.py --model_name RunsenXu/PointLLM_7B_v1.2 --data_name data/objaverse_data

참고하세요: 데모를 공개적으로 출시하려면 https://www.gradio.app/guides/sharing-your-app#security-and-file-access를 참조하세요.

평가

추론

다음 명령을 실행하여 결과를 추론하십시오.
다양한 벤치마크에서 추론하기 위한 다양한 명령(예: PointLLM_7B_v1.2):

 cd PointLLM
export PYTHONPATH= $PWD

# Open Vocabulary Classification on Objaverse
python pointllm/eval/eval_objaverse.py --model_name RunsenXu/PointLLM_7B_v1.2 --task_type classification --prompt_index 0 # or --prompt_index 1

# Object captioning on Objaverse
python pointllm/eval/eval_objaverse.py --model_name RunsenXu/PointLLM_7B_v1.2 --task_type captioning --prompt_index 2

# Close-set Zero-shot Classification on ModelNet40
python pointllm/eval/eval_modelnet_cls.py --model_name RunsenXu/PointLLM_7B_v1.2 --prompt_index 0 # or --prompt_index 1

이 두 스크립트의 기본 명령줄 인수를 확인하세요. 다양한 프롬프트, 데이터 경로 및 기타 매개변수를 지정할 수 있습니다.
추론 후 결과는 다음 형식의 사전으로 {model_name}/evaluation 에 저장됩니다.

{
  " prompt " : " " ,
  " results " : [
    {
      " object_id " : " " ,
      " ground_truth " : " " , 
      " model_output " : " " ,
      " label_name " : " " # only for classification on modelnet40
    }
  ]
}

ChatGPT/GPT-4 평가

https://platform.openai.com/api-keys에서 OpenAI API 키를 받으세요.
다음 명령을 실행하여 ChatGPT/GPT-4(약 $1.5~$2.2 USD 비용)와 동시에 모델 출력을 평가합니다.

 cd PointLLM
export PYTHONPATH= $PWD
export OPENAI_API_KEY=sk- ****

# Open Vocabulary Classification on Objaverse
python pointllm/eval/evaluator.py --results_path /path/to/model_output --model_type gpt-4-0613 --eval_type open-free-form-classification --parallel --num_workers 15

# Object captioning on Objaverse
python pointllm/eval/evaluator.py --results_path /path/to/model_output --model_type gpt-4-0613 --eval_type object-captioning --parallel --num_workers 15

# Close-set Zero-shot Classification on ModelNet40
python pointllm/eval/evaluator.py --results_path /path/to/model_output --model_type gpt-3.5-turbo-0613 --eval_type modelnet-close-set-classification --parallel --num_workers 15

평가 스크립트는 중단 및 재개를 지원합니다. Ctrl+C 사용하면 언제든지 평가 프로세스를 중단할 수 있습니다. 그러면 임시 결과가 저장됩니다. 평가 중에 오류가 발생하면 스크립트는 현재 상태도 저장합니다. 동일한 명령을 다시 실행하여 중단된 부분부터 평가를 재개할 수 있습니다.
평가 결과는 {model_name}/evaluation 에 또 다른 dict로 저장됩니다. 일부 측정항목은 다음과 같이 설명됩니다.

 " average_score " : The GPT-evaluated captioning score we report in our paper.
" accuracy " : The classification accuracy we report in our paper, including random choices made by ChatGPT when model outputs are vague or ambiguous and ChatGPT outputs " INVALID " .
" clean_accuracy " : The classification accuracy after removing those " INVALID " outputs.
" total_predictions " : The number of predictions.
" correct_predictions " : The number of correct predictions.
" invalid_responses " : The number of " INVALID " outputs by ChatGPT.

# Some other statistics for calling OpenAI API
" prompt_tokens " : The total number of tokens of the prompts for ChatGPT/GPT-4.
" completion_tokens " : The total number of tokens of the completion results from ChatGPT/GPT-4.
" GPT_cost " : The API cost of the whole evaluation process, in US Dollars ?.

개방형 평가. --start_eval 플래그를 전달하고 --gpt_type 을 지정하여 추론 후 즉시 평가를 시작할 수도 있습니다. 예를 들어:

python pointllm/eval/eval_objaverse.py --model_name RunsenXu/PointLLM_7B_v1.2 --task_type classification --prompt_index 0 --start_eval --gpt_type gpt-4-0613

전통적인 측정 평가

객체 캡션 작업의 경우 다음 명령을 실행하여 BLEU, ROUGE, METEOR, Sentence-BERT 및 SimCSE를 포함한 기존 측정항목을 사용하여 모델 출력을 평가합니다.

python pointllm/eval/traditional_evaluator.py --results_path /path/to/model_captioning_output

BLEU, ROUGE 및 METEOR는 짧은 캡션을 선호하고 의미 체계의 정확성과 다양성을 포착하지 못하므로 평가에 사용하지 않는 것이 좋습니다.

할 일 목록

체크포인트가 포함된 추론 코드를 추가합니다.
지시에 따른 데이터를 공개합니다.
훈련 코드를 추가하세요.
평가 코드를 추가합니다.
그라디오 데모 코드를 추가하세요.
더 나은 모델과 데이터를 갖춘 PointLLM-V2를 출시하세요.

커뮤니티 기여를 환영합니다!? 지원이 필요한 경우 언제든지 문제를 공개하거나 당사에 문의해 주세요.

커뮤니티에서 PointLLM에 더 쉽게 접근할 수 있도록 Phi-2 LLM을 지원합니다.
InternLM과 같은 중국어 LLM을 지원하세요.

? 소환

우리 작업과 이 코드베이스가 도움이 된다면 이 저장소에 별표를 표시해 보세요. 그리고 인용:

 @inproceedings { xu2024pointllm ,
  title = { PointLLM: Empowering Large Language Models to Understand Point Clouds } ,
  author = { Xu, Runsen and Wang, Xiaolong and Wang, Tai and Chen, Yilun and Pang, Jiangmiao and Lin, Dahua } ,
  booktitle = { ECCV } ,
  year = { 2024 }
}