- [หน้าโครงการ] [โพสต์บล็อก] [แบบจำลอง]
OmniParser เป็นวิธีการที่ครอบคลุมสำหรับการแยกวิเคราะห์ภาพหน้าจออินเทอร์เฟซผู้ใช้เป็นองค์ประกอบที่มีโครงสร้างและเข้าใจง่าย ซึ่งช่วยเพิ่มความสามารถของ GPT-4V อย่างมากในการสร้างการดำเนินการที่สามารถต่อสายดินได้อย่างแม่นยำในภูมิภาคที่สอดคล้องกันของอินเทอร์เฟซ
[2024/10] OmniParser เป็นโมเดลมาแรงอันดับ 1 บนฮับโมเดล Huggingface (เริ่ม 29/10/2024)
[10/2024] อย่าลังเลที่จะชำระเงินการสาธิตของเราบน Huggingface Space! (คอยติดตามการใช้คอมพิวเตอร์ OmniParser + Claude)
[10/2024] ทั้งแบบจำลองคำอธิบายการทำงานของ Interactive Region Detection และ Icon เปิดตัวแล้ว! โมเดลฮักกินเฟส
[2024/09] OmniParser บรรลุประสิทธิภาพที่ดีที่สุดบน Windows Agent Arena!
ติดตั้งสภาพแวดล้อม:
conda create -n "omni" python==3.12conda เปิดใช้งาน omnipip ติดตั้ง -r ข้อกำหนด.txt
จากนั้นดาวน์โหลดไฟล์โมเดล ckpts ใน: https://huggingface.co/microsoft/OmniParser และวางไว้ใต้ Weights/ โครงสร้างโฟลเดอร์เริ่มต้นคือ: Weights/icon_detect, Weights/icon_caption_florence, Weights/icon_caption_blip2
สุดท้าย ให้แปลงเซฟเทนเซอร์เป็นไฟล์ .pt
น้ำหนักหลาม/convert_safetensor_to_pt.py
เราได้รวบรวมตัวอย่างง่ายๆ บางส่วนไว้ใน demo.ipynb
หากต้องการรันการสาธิต gradio เพียงเรียกใช้:
หลาม gradio_demo.py
สำหรับจุดตรวจสอบโมเดลบนฮับโมเดล Huggingface โปรดทราบว่าโมเดล icon_detect อยู่ภายใต้ใบอนุญาต AGPL เนื่องจากเป็นใบอนุญาตที่สืบทอดมาจากโมเดล yolo ดั้งเดิม และ icon_caption_blip2 & icon_caption_florence อยู่ภายใต้ใบอนุญาตของ MIT โปรดดูไฟล์ลิขสิทธิ์ในโฟลเดอร์ของแต่ละรุ่น: https://huggingface.co/microsoft/OmniParser
รายงานทางเทคนิคของเราสามารถพบได้ที่นี่ หากคุณพบว่างานของเรามีประโยชน์ โปรดพิจารณาอ้างอิงงานของเรา:
@misc{lu2024omniparserpurevisionbased, title={OmniParser for Pure Vision Based GUI Agent}, author={Yadong Lu and Jianwei Yang and Yelong Shen and Ahmed Awadallah}, year={2024}, eprint={2408.00203}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2408.00203}, }