Bilel Benjdira,Anis Koubaa和Anas M. Ali
機器人技術和物聯網實驗室(Riotu Lab),蘇丹王子大學,沙特阿拉伯
受羅斯格普的啟發。這兩個項目旨在彌合機器人技術,自然語言理解和圖像分析之間的差距。
想要參加該項目的合作者非常歡迎。
提供了Rosgpt_vision的說明性視頻演示:
Rosgpt_vision提供了一個統一的平台,該平台允許機器人通過自然語言感知,解釋和與視覺數據進行交互。該框架利用包括Llava,Minigpt-4和字幕的最先進的語言模型來促進有關圖像數據的高級推理。 Langchain用於輕鬆自定義提示。提供的實施包括Carmate應用程序,駕駛員監控和援助系統,旨在確保安全有效的駕駛體驗。
**有關更多信息,請轉到
Carmate是一個完整的應用程序,用於監視驅動程序行為,僅通過在YAML文件中設置兩個提示而開發的驅動程序行為。它會使用視覺提示自動分析輸入視頻,分析使用LLM提示符應完成的操作,並在需要時向驅動程序發出即時警報。
這些是用於開發應用程序的提示,而無需額外的代碼:
視覺提示:
Visual prompt: "Describe the driver’s current level of focus
on driving based on the visual cues, Answer with one short sentence."
LLM提示:
LLM prompt:"Consider the following ontology: You must write your Reply
with one short sentence. Behave as a carmate that surveys the driver
and gives him advice and instruction to drive safely. You will be given
human language prompts describing an image. Your task is to provide
appropriate instructions to the driver based on the description."
我們可以看到三個場景的示例,在駕駛過程中得到了:
我們可以在頂部的框中看到圖像語義模塊為輸入圖像生成的描述使用Visual提示。同時,第二個框使用LLM提示符生成應向駕駛員發出的警報。
1。準備代碼和環境
git克隆我們的存儲庫,創建python環境並通過以下命令對其進行擴展
git clone https://github.com/bilel-bj/ROSGPT_Vision.git
cd ROSGPT_Vision
git clone https://github.com/Vision-CAIR/MiniGPT-4.git
git clone https://github.com/haotian-liu/LLaVA.git
conda env create -f environment.yml
conda activate ROSGPT_Vision
2。安裝所需的依賴項
您可以通過安裝LLAVA,MINIGPT-4和字幕所有內容來運行Image_semantics.py。
確保安裝ROS2的所有必要依賴關係。
YAML包含6個主要部分的配置參數:
task_name :此字段指定ROS系統配置為執行的任務的名稱。
ROSGPT_VISION_CAMERA_NODE :本節包含ROSGPT_VISION_CAMERA_NODE的配置。
image_description_method :此字段指定節點從圖像生成描述的方法。它可以是當前開發的方法之一:Minigpt4,Llava或Sam。每個人都需要的配置分別放在該文件的末尾。
Vision_Prompt :此字段指定用於指導圖像描述過程的提示。
output_video :此字段指定保存輸出視頻文件的路徑或名稱。
gpt_consultation_node :本節包含gpt_consultation_node的配置。
llm_prompt :此字段指定用於指導語言模型的提示。
gpt_temperature :此字段指定GPT模型的溫度參數,該模型控制模型輸出的隨機性。
Minigpt4_Parameters :本節包含Minigpt4型號的配置。如果在此任務中使用該模型,則應明確設置它,否則可能是空的。
配置:此字段指定Minigpt4配置文件的路徑。
溫度_minigpt4 :此字段指定迷你模型的溫度參數。
LLAVA_PARAMETERS :本節包含LLAVA模型的配置(如果使用)。
SAM_Parameters :本節包含SAM模型的配置。
colcon build --packages-select rosgpt_vision
source install/setup.bash
python3 src/rosgpt_vision/rosgpt_vision/rosgpt_vision_node_web_cam.py
python3 src/rosgpt_vision/rosgpt_vision/ROSGPT_Vision_Camera_Node.py /home/anas/ros2_ws/src/rosgpt_vision/rosgpt_vision/cfg/driver_phone_usage.yaml
colcon build --packages-select rosgpt_vision
source install/setup.bash
python3 src/rosgpt_vision/rosgpt_vision/ROSGPT_Vision_GPT_Consultation_Node.py /home/anas/ros2_ws/src/rosgpt_vision/rosgpt_vision/cfg/driver_phone_usage.yaml
bash ros2 topic echo /Image_Description
bash ros2 topic echo /GPT_Consultation
@misc{benjdira2023rosgptvision,
title={ROSGPT_Vision: Commanding Robots Using Only Language Models' Prompts},
author={Bilel Benjdira and Anis Koubaa and Anas M. Ali},
year={2023},
eprint={2308.11236},
archivePrefix={arXiv},
primaryClass={cs.RO}
}
該項目由創意共享歸因於非商業4.0國際許可證獲得許可。只要您向原始作者和來源提供歸因,您就可以自由使用,共享和適應此材料。
這些代碼基於Rosgpt,Llava,Minigpt-4,字幕 - 所有內容。請遵循他們的許可。感謝他們的出色作品。
隨著該項目仍在進行中,歡迎捐款!為了做出貢獻,請按照以下步驟:
在提交拉動請求之前,請確保您的更改不會破壞構建並遵守項目的編碼方式。
對於任何疑問或建議,請在GitHub問題跟踪器上打開問題。