Descargar ROSGPT_Vision - Descargar el código fuente ROSGPT

ROSGPT_Vision

Código Fuente de IA

1.0.0

Descargar

ROSGPT_VISION: comandando robots utilizando solo las indicaciones de modelos de idioma

Bilel Benjdira, Anis Koubaa y Anas M. Ali

Robótica e Internet de las cosas Lab (laboratorio Riotu), Universidad Prince Sultan, Arabia Saudita

Inspirado en Rosgpt. Ambos proyectos tienen como objetivo cerrar la brecha entre la robótica, la comprensión del lenguaje natural y el análisis de imágenes.

Los colaboradores que desean participar en este proyecto son bienvenidos.

ROSGPT_VISION es un nuevo marco robótico Dsigned to Command Robots usando solo dos indicaciones:
- un aviso visual (para características semánticas visuales), y
- un aviso de LLM (para regular las reacciones robóticas).
Se basa en un nuevo patrón de diseño robótico: provocar modalidades robóticas (PRM) .
ROSGPT_VISION se utiliza para desarrollar Carmate , una aplicación robótica para monitorear las distracciones del conductor y proporcionar notificaciones vocales en tiempo real. Muestra un desarrollo rentable.
Demostramos cómo optimizar las estrategias de solicitación para mejorar la aplicación.
El marco Langchain es utilizado para personalizar fácilmente las indicaciones.
Se describen más detalles en el documento académico "ROSGPT_VISION: comandando robots utilizando solo las indicaciones de los modelos de idioma".

Demostración de video

Se proporciona una demostración de video ilustrativa de ROSGPT_VISION: Demostración de video de rosgpt

Tabla de contenido

Descripción general
Diagrama ROSGPT_VISION
Patrón de diseño de modalidades robóticas (PRM)
Solicitud de Carmate
Instalación
Uso
Citación
Licencia
Reconocimiento
Contribuir

Descripción general

ROSGPT_VISION ofrece una plataforma unificada que permite a los robots percibir, interpretar e interactuar con los datos visuales a través del lenguaje natural. El marco aprovecha los modelos de idiomas de última generación, incluidos Llava, Minigpt-4 y subtítulos, para facilitar el razonamiento avanzado sobre los datos de imágenes. Langchain se usa para una fácil personalización de las indicaciones. La implementación proporcionada incluye la aplicación CarMate , un sistema de monitoreo y asistencia de controladores diseñado para garantizar experiencias de manejo seguras y eficientes.

Diagrama ROSGPT_VISION

Patrón de diseño de modalidades robóticas (PRM)

Un nuevo enfoque de diseño que enfatiza las consultas sensoriales modulares e individualizadas.
Utiliza modelos de lenguaje de modalidad específicos (MLM) para interpretaciones textuales de entradas, como el modelo de lenguaje de visión (VLM) para datos visuales.
Asegura la recopilación precisa de datos tratando cada entrada sensorial por separado.
El papel de la modalidad de la tarea : sirve como coordinador central, sintetizando datos de varias modalidades.

** Para más información, vaya a

Solicitud de Carmate

CarMate es una aplicación completa para monitorear el comportamiento del conductor que se desarrolló con solo establecer dos indicaciones en el archivo YAML. Analiza automáticamente el video de entrada utilizando el aviso visual, analiza lo que debe hacerse utilizando el indicador LLM y ofrece una alerta instantánea al controlador cuando sea necesario.

Estas son las indicaciones utilizadas para desarrollar la aplicación, sin necesidad de código adicional:

El aviso visual:

 Visual prompt: "Describe the driver’s current level of focus 
on driving based on the visual cues, Answer with one short sentence."

El mensaje LLM:

 LLM prompt:"Consider the following ontology: You must write your Reply 
with one short sentence. Behave as a carmate that surveys the driver 
and gives him advice and instruction to drive safely. You will be given 
human language prompts describing an image. Your task is to provide 
	appropriate instructions to the driver based on the description."

Podemos ver tres ejemplos de escenarios, obtenidos durante la conducción:

Escenario 1: el conductor está usando el teléfono

Podemos ver en el cuadro superior la descripción generada por el módulo de semántica de la imagen para la imagen de entrada utilizando el indicador visual. Mientras tanto, el segundo cuadro genera la alerta que se debe dar al controlador utilizando la solicitud de LLM.

Escenario 2: El conductor está tomando fotos

Escenario 3: el conductor está bebiendo

Instalación

Para usar ROSGPT_VISION, siga estos pasos:

1. Prepare el código y el entorno

Git Clone Nuestro repositorio, creando un entorno de Python y ativarlo a través del siguiente comando

  git clone https://github.com/bilel-bj/ROSGPT_Vision.git
  cd ROSGPT_Vision
  git clone https://github.com/Vision-CAIR/MiniGPT-4.git
  git clone https://github.com/haotian-liu/LLaVA.git
  conda env create -f environment.yml
  conda activate ROSGPT_Vision

2. Instale las dependencias requeridas

Puede ejecutar image_semantics.py instalar todas las dependencias requeridas de Llava, Minigpt-4 y subtítulos.
Asegúrese de la instalación de todas las dependencias requeridas para ROS2.

Uso

Para regular todos los parámetros asociados con ROSGPT_Vision, se pueden hacer modificaciones dentro del archivo .yaml correspondiente.

El YAML contiene 6 secciones principales de parámetros de configuraciones:

Task_name : este campo especifica el nombre de la tarea que el sistema ROS está configurado para realizar.
ROSGPT_VISION_CAMERA_NODE : Esta sección contiene la configuración para ROSGPT_VISION_CAMERA_NODE.
Image_description_method : este campo especifica el método utilizado por el nodo para generar descripciones a partir de imágenes. Puede ser uno de los métodos desarrollados actualmente: Minigpt4, Llava o Sam. Las configuraciones necesarias para todos se colocan por separado al final de este archivo.
Vision_Prompt : este campo especifica el mensaje utilizado para guiar el proceso de descripción de la imagen.
Output_video : este campo especifica la ruta o el nombre de dónde guardar el archivo de video de salida.
Gpt_consultation_node : esta sección contiene la configuración para el gpt_consultation_node.
- LLM_PROMPT : este campo especifica el aviso utilizado para guiar el modelo de idioma.
- GPT_Temperatura : este campo especifica el parámetro de temperatura para el modelo GPT, que controla la aleatoriedad de la salida del modelo.
Minigpt4_parameters : esta sección contiene la configuración para el modelo Minigpt4. Debe estar claramente establecido si el modelo se usa en esta tarea, de lo contrario podría estar vacío.
- Configuración : este campo especifica la ruta para el archivo de configuración de Minigpt4.
- Temperatura_Minigpt4 : este campo especifica el parámetro de temperatura para el modelo Minigpt4.
Llava_Parameters : esta sección contiene la configuración para el modelo LLAVA (si se usa).
- Temperatura_llava : este campo especifica el parámetro de temperatura para el modelo LLAVA.
SAM_PARAMETERS : esta sección contiene la configuración para el modelo SAM.
- Pesos_sam : este campo especifica los pesos utilizados por el modelo SAM.

Ejecutar en la máquina local terminal

Ejecute el primer terminal:

        colcon build --packages-select rosgpt_vision
		    source install/setup.bash
		    python3 src/rosgpt_vision/rosgpt_vision/rosgpt_vision_node_web_cam.py
		    python3 src/rosgpt_vision/rosgpt_vision/ROSGPT_Vision_Camera_Node.py /home/anas/ros2_ws/src/rosgpt_vision/rosgpt_vision/cfg/driver_phone_usage.yaml

Ejecutar el segundo terminal:

        colcon build --packages-select rosgpt_vision 
		    source install/setup.bash
		    python3 src/rosgpt_vision/rosgpt_vision/ROSGPT_Vision_GPT_Consultation_Node.py /home/anas/ros2_ws/src/rosgpt_vision/rosgpt_vision/cfg/driver_phone_usage.yaml

Ejecute el tercer terminal:

bash ros2 topic echo /Image_Description

Ejecutar el Cuarto Terminal:

bash ros2 topic echo /GPT_Consultation

Citación

 @misc{benjdira2023rosgptvision,
  title={ROSGPT_Vision: Commanding Robots Using Only Language Models' Prompts}, 
  author={Bilel Benjdira and Anis Koubaa and Anas M. Ali},
  year={2023},
  eprint={2308.11236},
  archivePrefix={arXiv},
  primaryClass={cs.RO}
  }

Licencia

Este proyecto tiene licencia bajo la Licencia Internacional de Atribución Comunes Creative Commons. Usted es libre de usar, compartir y adaptar este material con fines no comerciales, siempre que proporcione atribución a los autores originales y la fuente.

Reconocimiento

Los códigos se basan en ROSGPT, LLAVA, Minigpt-4, subtítulos y Sam. Siga también sus licencias. Gracias por sus increíbles obras.

Contribuir

Como este proyecto aún está en progreso, ¡las contribuciones son bienvenidas! Para contribuir, siga estos pasos:

Bifurca el repositorio en GitHub.
Cree una nueva rama para su característica o corrección de errores.
Comprometa tus cambios y empújalos a tu bifurcación.
Cree una solicitud de extracción al repositorio principal.

Antes de enviar su solicitud de extracción, asegúrese de que sus cambios no rompan la compilación y se adhieran al estilo de codificación del proyecto.

Para cualquier pregunta o sugerencia, abra un problema en el rastreador de problemas de GitHub.

Expandir

Información adicional