تطبيق رسمي لمترجم الرؤية واللغة (ViLaIn). انظر ورقتنا لمزيد من التفاصيل.
يتطلب هذا التنفيذ Python>=3.10
و torch>=2.0.0
. لتثبيت PyTorch، يرجى اتباع التعليمات الموجودة في https://pytorch.org/.
قم بالتثبيت السريع للأسفل وVAL باتباع تعليمات الإنشاء. بعد التثبيت، انسخ ملف validate
الثنائي ضمن الدليل downward
.
قم بتثبيت Grounding DINO باتباع التعليمات.
تحتوي data
على ملفات PDDL وملاحظات وتعليمات لثلاثة مجالات، والتي أشرنا إليها إلى مجموعة بيانات ProDG في الورقة. يحتوي هذا الدليل أيضًا على مربعات محيطة مشروحة في annotated_bboxes
. هيكل الدليل هو كما يلي:
data
└─domains
└─domain.pddl (A PDDL domain file)
└─problems (PDDL problem files)
└─problem*.pddl
└─observations (Observations for the initial state)
└─problem*.jpg
└─instructions (Linguistic instructions)
└─problem*.txt
└─annotated_bboxes (Annotated bounding boxes)
└─problem*.json
تحتوي results/reported_results
على مشاكل PDDL التي تم إنشاؤها والخطط التي تم العثور عليها والتي تم الإبلاغ عنها في الورقة. يوجد في الدليل أيضًا ثلاثة أدلة فرعية لكل مجال:
plain
: النتائج دون مطالبة تصحيحيةrefine_once
: النتائج من خلال تطبيق المطالبة التصحيحية للمشكلات plain
refine_twice
: النتائج من خلال تطبيق المطالبة التصحيحية للمشكلات في refine_once
للكشف عن الكائنات ذات المربعات المحيطة وإنشاء التسميات التوضيحية، قم بتشغيل:
export domain=cooking
export grounding_dino_dir=./GroundingDINO
export result_dir=./results/temp/${domain}
python scripts/main.py
--data_dir "./data/${domain}"
--result_dir ${result_dir}
--grounding_dino_dir ${grounding_dino_dir}
--predict_bboxes
يجب تنفيذ هذه الخطوة قبل إنشاء مشكلة PDDL.
لإنشاء مشكلات PDDL استنادًا إلى المربعات المحيطة والتسميات التوضيحية المتوقعة والعثور على الخطط، قم بتشغيل:
export domain=cooking
export downward_dir=./downward
export result_dir=./results/temp/${domain}
export num_repeat=2
export num_examples=3
python scripts/main.py
--downward_dir ${downward_dir}
--data_dir "./data/${domain}"
--result_dir "${result_dir}"
--num_repeat ${num_repeat}
--num_examples ${num_examples}
--gen_step "plain"
--generate_problem
--find_plan
لتقييم مشاكل PDDL التي تم إنشاؤها والتحقق من صحة الخطط التي تم العثور عليها، قم بتشغيل:
export domain=cooking
export downward_dir=./downward
export result_dir=./results/temp/${domain}
export num_repeat=2
python scripts/evaluate.py
--downward_dir ${downward_dir}
--data_dir "./data/${domain}"
--result_dir "${result_dir}"
--num_repeat ${num_repeat}
--gen_step "plain"
لتحسين مشاكل PDDL التي تم إنشاؤها عن طريق إعادة المطالبة التصحيحية، قم بتشغيل:
export domain=cooking
export downward_dir=./downward
export result_dir=./results/temp/${domain}
export num_repeat=2
python scripts/main.py
--downward_dir ${downward_dir}
--data_dir "./data/${domain}"
--result_dir "${result_dir}"
--num_repeat ${num_repeat}
--gen_step "refine_once"
--prev_gen_step "plain"
--refine_problem
--use_cot
--find_plan
@misc{shirai2023visionlanguage,
title={Vision-Language Interpreter for Robot Task Planning},
author={Keisuke Shirai and Cristian C. Beltran-Hernandez and Masashi Hamaya and Atsushi Hashimoto and Shohei Tanaka and Kento Kawaharazuka and Kazutoshi Tanaka and Yoshitaka Ushiku and Shinsuke Mori},
year={2023},
eprint={2311.00967},
archivePrefix={arXiv},
primaryClass={cs.RO}
}