Descarga PointLLM - Descarga del código fuente PointLLM

PointLLM: potenciar modelos de lenguaje grandes para comprender las nubes de puntos

Runsen Xu Xiaolong Wang Tai Wang Yilun Chen Jiangmiao Pang* Dahua Lin
Universidad China de Hong Kong Laboratorio de IA de Shanghai Universidad de Zhejiang

? Acerca de

Presentamos PointLLM, un modelo de lenguaje grande multimodal capaz de comprender nubes de puntos de objetos coloreados. Percibe tipos de objetos, estructuras geométricas y apariencias sin preocuparse por profundidades ambiguas, oclusión o dependencia del punto de vista. Recopilamos un nuevo conjunto de datos que comprende 660.000 pares de instrucciones de texto puntuales simples y 70.000 complejos para permitir una estrategia de entrenamiento en dos etapas. Para evaluar rigurosamente las capacidades de percepción de nuestro modelo y sus capacidades de generalización, establecemos dos puntos de referencia: Clasificación generativa de objetos 3D y subtítulos de objetos 3D, evaluados a través de tres métodos de evaluación diferentes.

Noticias

[2024-09-06] Hemos subido la versión lista para cámara de PointLLM para ECCV 2024, que incluye una escritura más clara y resultados experimentales adicionales. Por favor consulte el documento aquí.
[2024-07-01] PointLLM ha sido aceptado por ECCV 2024 con todas las recomendaciones de "aceptación fuerte". ? Buscamos estudiantes motivados para realizar investigaciones sobre PointLLM. ¡Envíe un correo electrónico a [email protected] con su CV si está interesado!
[2023-12-29] Liberamos los códigos de nuestra demo online de Gradio.
[2023-12-26] Publicamos los códigos para la evaluación de modelos, incluida la evaluación ChatGPT/GPT-4 y la evaluación de métricas tradicionales.
[2023-12-08] Liberamos los códigos para capacitación y PointLLM-v1.2. La demostración en línea también se actualizó a la versión v1.2. ¡Disfrútalo! ?
[2023-12-01] Hemos publicado una versión actualizada de nuestro documento (v2), que incluye comparaciones de referencia adicionales, métricas de evaluación humana mejoradas, rendimiento del modelo mejorado (PointLLM-v1.2) y otras mejoras. Por favor consulte la versión actualizada aquí.
[2023-10-18] Publicamos nuestros datos de seguimiento de instrucciones, incluidas tanto la descripción simple como las instrucciones complejas. Descargar aquí.
[2023-09-26] Publicamos los códigos de inferencia con puntos de control, así como los archivos de nubes de puntos de colores Objaverse que utilizamos. Puedes chatear con PointLLM con tus propias máquinas.
[2023-08-31] Publicamos el artículo de PointLLM y una demostración de gradio en línea. ¡Pruébalo! ?

? Contenido

? Demostración en línea
Ejemplos de diálogo
? Descripción general
? Capacitación y Evaluación
Lista de tareas pendientes
? Citación
? Licencia
Trabajo relacionado
? Expresiones de gratitud

? Demostración en línea

¡PointLLM está en línea! Pruébelo en http://101.230.144.196 o en OpenXLab/PointLLM.

¡Puedes chatear con PointLLM sobre los modelos del conjunto de datos Objaverse o sobre tus propias nubes de puntos!

¡No dude en contarnos si tiene algún comentario! ?

Ejemplos de diálogo

Diálogo 1	Diálogo 2	Diálogo 3	Diálogo 4

? Descripción general

Modelo

El codificador de puntos extrae características de la nube de puntos de entrada y las proyecta en el espacio latente de la columna vertebral de LLM. La red troncal de LLM procesa secuencias de tokens de puntos y tokens de texto, y genera los tokens previstos como resultado.

Resultados del experimento

Comparaciones cuantitativas con líneas de base.

Consulte nuestro artículo para obtener más resultados.

!!!Nota: Las métricas tradicionales como BLEU-1, ROUGE-L y METEOR tienden a favorecer respuestas más cortas y es posible que no capturen de manera efectiva la precisión semántica. Para una discusión detallada sobre esto, consulte nuestro artículo. Sugerimos a la comunidad no confiar únicamente en estas métricas para la evaluación.

Comparaciones cualitativas con líneas de base.

Consulte nuestro artículo para obtener más resultados.

? Capacitación y Evaluación

Instalación

Probamos nuestros códigos en el siguiente entorno:

ubuntu 20.04
Controlador NVIDIA: 515.65.01
CUDA 11.7
Pitón 3.10.13
PyTorch 2.0.1
Transformadores 4.28.0.dev(transformers.git@cae78c46)

Para empezar:

Clona este repositorio.

git clone [email protected]:OpenRobotLab/PointLLM.git
cd PointLLM

Instalar paquetes

conda create -n pointllm python=3.10 -y
conda activate pointllm
pip install --upgrade pip  # enable PEP 660 support
pip install -e .

# * for training
pip install ninja
pip install flash-attn

Preparación de datos

Datos de entrenamiento de Objaverse

Descargue aquí los dos archivos comprimidos de nubes de puntos de colores Objaverse de 660K. Requieren alrededor de 77 GB de espacio de almacenamiento.
Ejecute el siguiente comando para fusionar los dos archivos en uno y descomprimirlo. Esto producirá una carpeta llamada 8192_npy que contiene archivos de nube de puntos de 660K llamados {Objaverse_ID}_8192.npy . Cada archivo es una matriz numerosa con dimensiones (8192, 6), donde las primeras tres dimensiones son xyz y las últimas tres dimensiones son rgb en el rango [0, 1].

cat Objaverse_660K_8192_npy_split_a * > Objaverse_660K_8192_npy.tar.gz
tar -xvf Objaverse_660K_8192_npy.tar.gz

En la carpeta PointLLM , cree una carpeta data y cree un enlace suave al archivo sin comprimir en el directorio.

 cd PointLLM
mkdir data
ln -s /path/to/8192_npy data/objaverse_data

Datos de seguimiento de instrucciones

En la carpeta PointLLM/data , cree un directorio llamado anno_data .
Nuestros datos de seguimiento de instrucciones, incluidas tanto la descripción simple como las instrucciones complejas, se pueden descargar aquí. Si tiene dificultades para descargar los datos (por ejemplo, problema de red), envíe un correo electrónico a los autores.

Los datos de descripción simple tienen 660.000 muestras y las instrucciones complejas tienen 70.000 muestras.
Ambos datos de entrenamiento se basan en el conjunto de datos de Objaverse.
Las instrucciones complejas se generan con GPT-4.

Coloque los archivos de datos en el directorio anno_data . El directorio debería verse así:

PointLLM/data/anno_data
├── PointLLM_brief_description_660K_filtered.json
├── PointLLM_brief_description_660K.json
└── PointLLM_complex_instruction_70K.json

Tenga en cuenta que PointLLM_brief_description_660K_filtered.json se filtra de PointLLM_brief_description_660K.json eliminando los 3000 objetos que reservamos como conjunto de validación. Si desea reproducir los resultados de nuestro artículo, debe utilizar PointLLM_brief_description_660K_filtered.json para la capacitación. PointLLM_complex_instruction_70K.json contiene objetos del conjunto de entrenamiento.
Si desea generar instrucciones complejas usted mismo, consulte nuestro documento para obtener más detalles. El mensaje del sistema está en pointllm/data/data_generation/system_prompt_gpt4_0613.txt .

Datos de evaluación

Descargue aquí la referencia GT PointLLM_brief_description_val_200_GT.json que usamos para los puntos de referencia en el conjunto de datos Objaverse y colóquelo en PointLLM/data/anno_data . También proporcionamos aquí los 3000 identificadores de objetos que filtramos durante el entrenamiento y su correspondiente GT de referencia aquí, que se puede utilizar para evaluar los 3000 objetos.
Cree un directorio llamado modelnet40_data en PointLLM/data . Descargue la división de prueba de las nubes de puntos ModelNet40 modelnet40_test_8192pts_fps.dat aquí y colóquela en PointLLM/data/modelnet40_data .

Capacitación

Descargue el LLM inicial y los pesos del codificador de puntos

En la carpeta PointLLM , cree un directorio llamado checkpoints .
Descargue el LLM previamente entrenado y el codificador de puntos: PointLLM_7B_v1.1_init o PointLLM_13B_v1.1_init. Colóquelos en el directorio checkpoints .
Tenga en cuenta que la "v1.1" anterior significa que utilizamos los puntos de control Vicuña-v1.1 y no es necesario descargar los pesos originales de LLaMA nuevamente.

Empezar a entrenar

Para el entrenamiento de etapa 1, simplemente ejecute:

 cd PointLLM
scripts/PointLLM_train_stage1.sh

Después del entrenamiento de la etapa 1, comience el entrenamiento de la etapa 2:

scripts/PointLLM_train_stage2.sh

PointLLM-v1.1 y PointLLM-v1.2

Por lo general, no es necesario que se preocupe por los siguientes contenidos. Son solo para reproducir los resultados en nuestro artículo v1 (PointLLM-v1.1). Si desea comparar con nuestros modelos o utilizar nuestros modelos para tareas posteriores, utilice PointLLM-v1.2 (consulte nuestro documento v2), que tiene un mejor rendimiento.

Los siguientes pasos son para reproducir PointLLM-v1.1 (haga clic para expandir)

PointLLM v1.1 y v1.2 utilizan proyectores y codificadores de puntos previamente entrenados ligeramente diferentes. Si desea reproducir PointLLM v1.1, edite el archivo config.json en el directorio de LLM inicial y pesos del codificador de puntos, por ejemplo, vim checkpoints/PointLLM_7B_v1.1_init/config.json .

Cambie la clave "point_backbone_config_name" para especificar otra configuración del codificador de puntos:

 # change from
" point_backbone_config_name " : " PointTransformer_8192point_2layer " # v1.2
# to
" point_backbone_config_name " : " PointTransformer_base_8192point " , # v1.1

Edite la ruta del punto de control del codificador de puntos en scripts/train_stage1.sh :

 # change from
point_backbone_ckpt= $model_name_or_path /point_bert_v1.2.pt # v1.2
# to
point_backbone_ckpt= $model_name_or_path /point_bert_v1.1.pt # v1.1

Charlando

Los puntos de control del modelo entrenado están disponibles aquí (incluidas diferentes versiones de PointLLM).
Ejecute el siguiente comando para iniciar un chatbot utilizando el tipo de datos torch.float32 para conversar sobre modelos 3D de Objaverse. Los puntos de control del modelo se descargarán automáticamente. También puede descargar manualmente los puntos de control del modelo y especificar sus rutas. Aquí hay un ejemplo:

 cd PointLLM
PYTHONPATH= $PWD python pointllm/eval/PointLLM_chat.py --model_name RunsenXu/PointLLM_7B_v1.2 --data_name data/objaverse_data --torch_dtype float32

También puede modificar fácilmente los códigos para usar nubes de puntos distintas a las de Objaverse, siempre que las nubes de puntos ingresadas al modelo tengan dimensiones (N, 6), donde las primeras tres dimensiones sean xyz y las últimas tres dimensiones sean rgb ( en el rango [0, 1]). Puede tomar muestras de las nubes de puntos para obtener 8192 puntos, ya que nuestro modelo está entrenado en dichas nubes de puntos.
La siguiente tabla muestra los requisitos de GPU para diferentes modelos y tipos de datos. Recomendamos utilizar torch.bfloat16 si corresponde, que se utiliza en los experimentos de nuestro artículo.
Modelo Tipo de datos Memoria GPU
PuntoLLM-7B antorcha.float16 14GB
PuntoLLM-7B antorcha.float32 28GB
PuntoLLM-13B antorcha.float16 26GB
PuntoLLM-13B antorcha.float32 52GB

Modelo	Tipo de datos	Memoria GPU
PuntoLLM-7B	antorcha.float16	14GB
PuntoLLM-7B	antorcha.float32	28GB
PuntoLLM-13B	antorcha.float16	26GB
PuntoLLM-13B	antorcha.float32	52GB

Demostración de Gradio

Proporcionamos los códigos para nuestra demostración de Gradio en línea. Puede ejecutar los siguientes comandos para iniciar la demostración localmente para chatear y visualizar.

 cd PointLLM
PYTHONPATH= $PWD python pointllm/eval/chat_gradio.py --model_name RunsenXu/PointLLM_7B_v1.2 --data_name data/objaverse_data

Recuerde: si desea publicar la demostración en público, consulte https://www.gradio.app/guides/sharing-your-app#security-and-file-access.

Evaluación

Inferencia

Ejecute los siguientes comandos para inferir los resultados.
Diferentes comandos para inferir en diferentes puntos de referencia (PointLLM_7B_v1.2 como ejemplo):

 cd PointLLM
export PYTHONPATH= $PWD

# Open Vocabulary Classification on Objaverse
python pointllm/eval/eval_objaverse.py --model_name RunsenXu/PointLLM_7B_v1.2 --task_type classification --prompt_index 0 # or --prompt_index 1

# Object captioning on Objaverse
python pointllm/eval/eval_objaverse.py --model_name RunsenXu/PointLLM_7B_v1.2 --task_type captioning --prompt_index 2

# Close-set Zero-shot Classification on ModelNet40
python pointllm/eval/eval_modelnet_cls.py --model_name RunsenXu/PointLLM_7B_v1.2 --prompt_index 0 # or --prompt_index 1

Verifique los argumentos predeterminados de la línea de comandos de estos dos scripts. Puede especificar diferentes mensajes, rutas de datos y otros parámetros.
Después de la inferencia, los resultados se guardarán en {model_name}/evaluation como un dictado con el siguiente formato:

{
  " prompt " : " " ,
  " results " : [
    {
      " object_id " : " " ,
      " ground_truth " : " " , 
      " model_output " : " " ,
      " label_name " : " " # only for classification on modelnet40
    }
  ]
}

Evaluación de ChatGPT/GPT-4

Obtenga su clave API de OpenAI en https://platform.openai.com/api-keys.
Ejecute los siguientes comandos para evaluar los resultados del modelo en paralelo con ChatGPT/GPT-4 (que cuesta aproximadamente entre $1,5 y $2,2 USD).

 cd PointLLM
export PYTHONPATH= $PWD
export OPENAI_API_KEY=sk- ****

# Open Vocabulary Classification on Objaverse
python pointllm/eval/evaluator.py --results_path /path/to/model_output --model_type gpt-4-0613 --eval_type open-free-form-classification --parallel --num_workers 15

# Object captioning on Objaverse
python pointllm/eval/evaluator.py --results_path /path/to/model_output --model_type gpt-4-0613 --eval_type object-captioning --parallel --num_workers 15

# Close-set Zero-shot Classification on ModelNet40
python pointllm/eval/evaluator.py --results_path /path/to/model_output --model_type gpt-3.5-turbo-0613 --eval_type modelnet-close-set-classification --parallel --num_workers 15

El guión de evaluación admite la interrupción y la reanudación. Puede interrumpir el proceso de evaluación en cualquier momento usando Ctrl+C . Esto guardará los resultados temporales. Si ocurre un error durante la evaluación, el script también guardará el estado actual. Puede reanudar la evaluación desde donde la dejó ejecutando el mismo comando nuevamente.
Los resultados de la evaluación se guardarán en {model_name}/evaluation como otro dictado. Algunas de las métricas se explican a continuación:

 " average_score " : The GPT-evaluated captioning score we report in our paper.
" accuracy " : The classification accuracy we report in our paper, including random choices made by ChatGPT when model outputs are vague or ambiguous and ChatGPT outputs " INVALID " .
" clean_accuracy " : The classification accuracy after removing those " INVALID " outputs.
" total_predictions " : The number of predictions.
" correct_predictions " : The number of correct predictions.
" invalid_responses " : The number of " INVALID " outputs by ChatGPT.

# Some other statistics for calling OpenAI API
" prompt_tokens " : The total number of tokens of the prompts for ChatGPT/GPT-4.
" completion_tokens " : The total number of tokens of the completion results from ChatGPT/GPT-4.
" GPT_cost " : The API cost of the whole evaluation process, in US Dollars ?.

Evaluación de paso abierto. También puede iniciar la evaluación inmediatamente después de la inferencia pasando el indicador --start_eval y especificando --gpt_type . Por ejemplo:

python pointllm/eval/eval_objaverse.py --model_name RunsenXu/PointLLM_7B_v1.2 --task_type classification --prompt_index 0 --start_eval --gpt_type gpt-4-0613

Evaluación de métricas tradicionales

Para la tarea de subtitulado de objetos, ejecute el siguiente comando para evaluar los resultados del modelo con métricas tradicionales que incluyen BLEU, ROUGE, METEOR, Sentence-BERT y SimCSE.

python pointllm/eval/traditional_evaluator.py --results_path /path/to/model_captioning_output

Tenga en cuenta que recomendamos no utilizar BLEU, ROUGE y METEOR para la evaluación, ya que favorecen los subtítulos cortos y no logran capturar la precisión y diversidad semántica.

Lista de tareas pendientes

Agregue códigos de inferencia con puntos de control.
Liberar datos de seguimiento de instrucciones.
Añade códigos de entrenamiento.
Agregue códigos de evaluación.
Agregue códigos de demostración de gradio.
Lanzar PointLLM-V2 con un mejor modelo y datos.

¿¡Las contribuciones de la comunidad son bienvenidas!? Si necesita ayuda, no dude en abrir un problema o contactarnos.

Apoye a Phi-2 LLM para que PointLLM sea más accesible para la comunidad.
Apoye los LLM chinos como InternLM.

? Citación

Si encuentra útil nuestro trabajo y este código base, considere destacar este repositorio. y citar:

 @inproceedings { xu2024pointllm ,
  title = { PointLLM: Empowering Large Language Models to Understand Point Clouds } ,
  author = { Xu, Runsen and Wang, Xiaolong and Wang, Tai and Chen, Yilun and Pang, Jiangmiao and Lin, Dahua } ,
  booktitle = { ECCV } ,
  year = { 2024 }
}

? Licencia

Este trabajo se encuentra bajo la Licencia Internacional Creative Commons Atribución-No Comercial-CompartirIgual 4.0.

Trabajo relacionado

¡Juntos, hagamos que el LLM para 3D sea grandioso!

Point-Bind y Point-LLM: alinea las nubes de puntos con Image-Bind y aprovecha ImageBind-LLM para razonar la entrada multimodal sin entrenamiento de datos de instrucciones 3D.
3D-LLM: emplea modelos básicos 2D para codificar imágenes de múltiples vistas de nubes de puntos 3D.

? Expresiones de gratitud

LLaVA: Nuestro código base se basa en LLaVA.
Vicuña: Utilizamos los puntos de control Vicuña-7B y Vicuña-13B.
Objaverse: utilizamos modelos del conjunto de datos de Objaverse para entrenamiento y evaluación.
Cap3D: utilizamos los datos de subtítulos de Cap3D para nuestra generación de datos.
ULIP-2: utilizamos ULIP-2 para entrenar previamente nuestro codificador de nube de puntos.

Expandir