ROSGPT_Vision下載ROSGPT_Vision源代碼下載

ROSGPT_Vision

Ai源碼

1.0.0

下載

ROSGPT_VISION：僅使用語言模型的提示命令機器人

Bilel Benjdira，Anis Koubaa和Anas M. Ali

機器人技術和物聯網實驗室（Riotu Lab），蘇丹王子大學，沙特阿拉伯

受羅斯格普的啟發。這兩個項目旨在彌合機器人技術，自然語言理解和圖像分析之間的差距。

想要參加該項目的合作者非常歡迎。

ROSGPT_VISION是一個新的機器人框架，僅使用兩個提示來命令機器人：
- 視覺提示（用於視覺語義特徵），並且
- LLM提示（調節機器人反應）。
它基於一種新的機器人設計模式：提示機器人方式（PRM） 。
ROSGPT_VISION用於開發Carmate ，這是一種用於監視駕駛員分心並提供實時聲音通知的機器人應用程序。它展示了具有成本效益的發展。
我們演示瞭如何優化提示策略以改進應用程序。
Langchain Framework用於輕鬆自定義提示。
學術論文“ RosGPT_Vision：僅使用語言模型的提示指揮機器人”中描述了更多詳細信息。

視頻演示

提供了Rosgpt_vision的說明性視頻演示： Rosgpt視頻演示

概述

Rosgpt_vision提供了一個統一的平台，該平台允許機器人通過自然語言感知，解釋和與視覺數據進行交互。該框架利用包括Llava，Minigpt-4和字幕的最先進的語言模型來促進有關圖像數據的高級推理。 Langchain用於輕鬆自定義提示。提供的實施包括Carmate應用程序，駕駛員監控和援助系統，旨在確保安全有效的駕駛體驗。

ROSGPT_VISION圖

提示機器人方式（PRM）設計模式

一種新的設計方法強調模塊化和個性化的感覺查詢。
使用特定的模態語言模型（MLM）進行輸入的文本解釋，例如視覺數據的視覺語言模型（VLM） 。
通過分別處理每個感覺輸入來確保精確的數據收集。
任務模式的角色：作為中央協調員，合成各種模式的數據。

**有關更多信息，請轉到

Carmate申請

Carmate是一個完整的應用程序，用於監視驅動程序行為，僅通過在YAML文件中設置兩個提示而開發的驅動程序行為。它會使用視覺提示自動分析輸入視頻，分析使用LLM提示符應完成的操作，並在需要時向驅動程序發出即時警報。

這些是用於開發應用程序的提示，而無需額外的代碼：

視覺提示：

 Visual prompt: "Describe the driver’s current level of focus 
on driving based on the visual cues, Answer with one short sentence."

LLM提示：

 LLM prompt:"Consider the following ontology: You must write your Reply 
with one short sentence. Behave as a carmate that surveys the driver 
and gives him advice and instruction to drive safely. You will be given 
human language prompts describing an image. Your task is to provide 
	appropriate instructions to the driver based on the description."

我們可以看到三個場景的示例，在駕駛過程中得到了：

方案1：駕駛員正在使用電話

我們可以在頂部的框中看到圖像語義模塊為輸入圖像生成的描述使用Visual提示。同時，第二個框使用LLM提示符生成應向駕駛員發出的警報。

方案2：駕駛員正在拍照

方案3：駕駛員正在喝酒

安裝

要使用rosgpt_vision，請按照以下步驟：

1。準備代碼和環境

git克隆我們的存儲庫，創建python環境並通過以下命令對其進行擴展

  git clone https://github.com/bilel-bj/ROSGPT_Vision.git
  cd ROSGPT_Vision
  git clone https://github.com/Vision-CAIR/MiniGPT-4.git
  git clone https://github.com/haotian-liu/LLaVA.git
  conda env create -f environment.yml
  conda activate ROSGPT_Vision

2。安裝所需的依賴項

您可以通過安裝LLAVA，MINIGPT-4和字幕所有內容來運行Image_semantics.py。
確保安裝ROS2的所有必要依賴關係。

用法

為了調節與RosGPT_Vision關聯的所有參數，可以在相應的.YAML文件中進行修改。

YAML包含6個主要部分的配置參數：

task_name ：此字段指定ROS系統配置為執行的任務的名稱。
ROSGPT_VISION_CAMERA_NODE ：本節包含ROSGPT_VISION_CAMERA_NODE的配置。
image_description_method ：此字段指定節點從圖像生成描述的方法。它可以是當前開發的方法之一：Minigpt4，Llava或Sam。每個人都需要的配置分別放在該文件的末尾。
Vision_Prompt ：此字段指定用於指導圖像描述過程的提示。
output_video ：此字段指定保存輸出視頻文件的路徑或名稱。
gpt_consultation_node ：本節包含gpt_consultation_node的配置。
- llm_prompt ：此字段指定用於指導語言模型的提示。
- gpt_temperature ：此字段指定GPT模型的溫度參數，該模型控制模型輸出的隨機性。
Minigpt4_Parameters ：本節包含Minigpt4型號的配置。如果在此任務中使用該模型，則應明確設置它，否則可能是空的。
- 配置：此字段指定Minigpt4配置文件的路徑。
- 溫度_minigpt4 ：此字段指定迷你模型的溫度參數。
LLAVA_PARAMETERS ：本節包含LLAVA模型的配置（如果使用）。
- 溫度_llava ：此字段指定LLAVA模型的溫度參數。
SAM_Parameters ：本節包含SAM模型的配置。
- striges_sam ：此字段指定SAM模型使用的權重。

在本地機器中運行

運行第一個終端：

        colcon build --packages-select rosgpt_vision
		    source install/setup.bash
		    python3 src/rosgpt_vision/rosgpt_vision/rosgpt_vision_node_web_cam.py
		    python3 src/rosgpt_vision/rosgpt_vision/ROSGPT_Vision_Camera_Node.py /home/anas/ros2_ws/src/rosgpt_vision/rosgpt_vision/cfg/driver_phone_usage.yaml

運行第二端子：

        colcon build --packages-select rosgpt_vision 
		    source install/setup.bash
		    python3 src/rosgpt_vision/rosgpt_vision/ROSGPT_Vision_GPT_Consultation_Node.py /home/anas/ros2_ws/src/rosgpt_vision/rosgpt_vision/cfg/driver_phone_usage.yaml

運行第三終端：

bash ros2 topic echo /Image_Description

運行第四端子：

bash ros2 topic echo /GPT_Consultation

引用

 @misc{benjdira2023rosgptvision,
  title={ROSGPT_Vision: Commanding Robots Using Only Language Models' Prompts}, 
  author={Bilel Benjdira and Anis Koubaa and Anas M. Ali},
  year={2023},
  eprint={2308.11236},
  archivePrefix={arXiv},
  primaryClass={cs.RO}
  }