ROSGPT_Vision下载ROSGPT_Vision源代码下载

ROSGPT_Vision

Ai源码

1.0.0

下载

ROSGPT_VISION：仅使用语言模型的提示命令机器人

Bilel Benjdira，Anis Koubaa和Anas M. Ali

机器人技术和物联网实验室（Riotu Lab），苏丹王子大学，沙特阿拉伯

受罗斯格普的启发。这两个项目旨在弥合机器人技术，自然语言理解和图像分析之间的差距。

想要参加该项目的合作者非常欢迎。

ROSGPT_VISION是一个新的机器人框架，仅使用两个提示来命令机器人：
- 视觉提示（用于视觉语义特征），并且
- LLM提示（调节机器人反应）。
它基于一种新的机器人设计模式：提示机器人方式（PRM） 。
ROSGPT_VISION用于开发Carmate ，这是一种用于监视驾驶员分心并提供实时声音通知的机器人应用程序。它展示了具有成本效益的发展。
我们演示了如何优化提示策略以改进应用程序。
Langchain Framework用于轻松自定义提示。
学术论文“ RosGPT_Vision：仅使用语言模型的提示指挥机器人”中描述了更多详细信息。

视频演示

提供了Rosgpt_vision的说明性视频演示： Rosgpt视频演示

概述

Rosgpt_vision提供了一个统一的平台，该平台允许机器人通过自然语言感知，解释和与视觉数据进行交互。该框架利用包括Llava，Minigpt-4和字幕的最先进的语言模型来促进有关图像数据的高级推理。 Langchain用于轻松自定义提示。提供的实施包括Carmate应用程序，驾驶员监控和援助系统，旨在确保安全有效的驾驶体验。

ROSGPT_VISION图

提示机器人方式（PRM）设计模式

一种新的设计方法强调模块化和个性化的感觉查询。
使用特定的模态语言模型（MLM）进行输入的文本解释，例如视觉数据的视觉语言模型（VLM） 。
通过分别处理每个感觉输入来确保精确的数据收集。
任务模式的角色：作为中央协调员，合成各种模式的数据。

**有关更多信息，请转到

Carmate申请

Carmate是一个完整的应用程序，用于监视驱动程序行为，仅通过在YAML文件中设置两个提示而开发的驱动程序行为。它会使用视觉提示自动分析输入视频，分析使用LLM提示符应完成的操作，并在需要时向驱动程序发出即时警报。

这些是用于开发应用程序的提示，而无需额外的代码：

视觉提示：

 Visual prompt: "Describe the driver’s current level of focus 
on driving based on the visual cues, Answer with one short sentence."

LLM提示：

 LLM prompt:"Consider the following ontology: You must write your Reply 
with one short sentence. Behave as a carmate that surveys the driver 
and gives him advice and instruction to drive safely. You will be given 
human language prompts describing an image. Your task is to provide 
	appropriate instructions to the driver based on the description."

我们可以看到三个场景的示例，在驾驶过程中得到了：

方案1：驾驶员正在使用电话

我们可以在顶部的框中看到图像语义模块为输入图像生成的描述使用Visual提示。同时，第二个框使用LLM提示符生成应向驾驶员发出的警报。

方案2：驾驶员正在拍照

方案3：驾驶员正在喝酒

安装

要使用rosgpt_vision，请按照以下步骤：

1。准备代码和环境

git克隆我们的存储库，创建python环境并通过以下命令对其进行扩展

  git clone https://github.com/bilel-bj/ROSGPT_Vision.git
  cd ROSGPT_Vision
  git clone https://github.com/Vision-CAIR/MiniGPT-4.git
  git clone https://github.com/haotian-liu/LLaVA.git
  conda env create -f environment.yml
  conda activate ROSGPT_Vision

2。安装所需的依赖项

您可以通过安装LLAVA，MINIGPT-4和字幕所有内容来运行Image_semantics.py。
确保安装ROS2的所有必要依赖关系。

用法

为了调节与RosGPT_Vision关联的所有参数，可以在相应的.YAML文件中进行修改。

YAML包含6个主要部分的配置参数：

task_name ：此字段指定ROS系统配置为执行的任务的名称。
ROSGPT_VISION_CAMERA_NODE ：本节包含ROSGPT_VISION_CAMERA_NODE的配置。
image_description_method ：此字段指定节点从图像生成描述的方法。它可以是当前开发的方法之一：Minigpt4，Llava或Sam。每个人都需要的配置分别放在该文件的末尾。
Vision_Prompt ：此字段指定用于指导图像描述过程的提示。
output_video ：此字段指定保存输出视频文件的路径或名称。
gpt_consultation_node ：本节包含gpt_consultation_node的配置。
- llm_prompt ：此字段指定用于指导语言模型的提示。
- gpt_temperature ：此字段指定GPT模型的温度参数，该模型控制模型输出的随机性。
Minigpt4_Parameters ：本节包含Minigpt4型号的配置。如果在此任务中使用该模型，则应明确设置它，否则可能是空的。
- 配置：此字段指定Minigpt4配置文件的路径。
- 温度_minigpt4 ：此字段指定迷你模型的温度参数。
LLAVA_PARAMETERS ：本节包含LLAVA模型的配置（如果使用）。
- 温度_llava ：此字段指定LLAVA模型的温度参数。
SAM_Parameters ：本节包含SAM模型的配置。
- striges_sam ：此字段指定SAM模型使用的权重。

在本地机器中运行

运行第一个终端：

        colcon build --packages-select rosgpt_vision
		    source install/setup.bash
		    python3 src/rosgpt_vision/rosgpt_vision/rosgpt_vision_node_web_cam.py
		    python3 src/rosgpt_vision/rosgpt_vision/ROSGPT_Vision_Camera_Node.py /home/anas/ros2_ws/src/rosgpt_vision/rosgpt_vision/cfg/driver_phone_usage.yaml

运行第二端子：

        colcon build --packages-select rosgpt_vision 
		    source install/setup.bash
		    python3 src/rosgpt_vision/rosgpt_vision/ROSGPT_Vision_GPT_Consultation_Node.py /home/anas/ros2_ws/src/rosgpt_vision/rosgpt_vision/cfg/driver_phone_usage.yaml

运行第三终端：

bash ros2 topic echo /Image_Description

运行第四端子：

bash ros2 topic echo /GPT_Consultation

引用

 @misc{benjdira2023rosgptvision,
  title={ROSGPT_Vision: Commanding Robots Using Only Language Models' Prompts}, 
  author={Bilel Benjdira and Anis Koubaa and Anas M. Ali},
  year={2023},
  eprint={2308.11236},
  archivePrefix={arXiv},
  primaryClass={cs.RO}
  }