؟ [صفحة المشروع] [منشور المدونة] [النماذج]
OmniParser هي طريقة شاملة لتحليل لقطات شاشة واجهة المستخدم إلى عناصر منظمة وسهلة الفهم، مما يعزز بشكل كبير قدرة GPT-4V على إنشاء إجراءات يمكن تثبيتها بدقة في المناطق المقابلة من الواجهة.
[2024/10] OmniParser هو النموذج الرائج رقم 1 على مركز نماذج Huggingface (بدءًا من 29/10/2024).
[2024/10] لا تتردد في الاطلاع على العرض التوضيحي الخاص بنا على مساحة العناق! (ترقبوا استخدام OmniParser + Claude للكمبيوتر)
[2024/10] تم إصدار كل من نموذج اكتشاف المنطقة التفاعلية ونموذج الوصف الوظيفي للأيقونة! نماذج الوجه المعانقة
[2024/09] يحقق OmniParser أفضل أداء على Windows Agent Arena!
بيئة التثبيت:
conda create -n "omni" python==3.12condaactivate omnipip install -r Requirements.txt
ثم قم بتنزيل ملفات نموذج ckpts في: https://huggingface.co/microsoft/OmniParser، ووضعها تحت الأوزان/، بنية المجلد الافتراضية هي: الأوزان/icon_detect، الأوزان/icon_caption_florence، الأوزان/icon_caption_blip2.
وأخيرًا، قم بتحويل أداة الأمان إلى ملف .pt.
أوزان بايثون/convert_safetensor_to_pt.py
لقد قمنا بتجميع بعض الأمثلة البسيطة في ملف demo.ipynb.
لتشغيل العرض التوضيحي لـ Gradio، قم ببساطة بتشغيل:
بيثون Gradio_demo.py
بالنسبة لنقاط التحقق النموذجية على مركز نموذج Huggingface، يرجى ملاحظة أن نموذج Icon_detect يخضع لترخيص AGPL لأنه ترخيص موروث من نموذج yolo الأصلي. وicon_caption_blip2 وicon_caption_florence يخضعان لترخيص من معهد ماساتشوستس للتكنولوجيا (MIT). يرجى الرجوع إلى ملف الترخيص الموجود في مجلد كل طراز: https://huggingface.co/microsoft/OmniParser.
يمكن العثور على تقريرنا الفني هنا. إذا وجدت عملنا مفيدًا، فيرجى التفكير في الاستشهاد بعملنا:
@misc{lu2024omniparserpurevisionbased, title={OmniParser for Pure Vision Based GUI Agent}, author={Yadong Lu and Jianwei Yang and Yelong Shen and Ahmed Awadallah}, year={2024}, eprint={2408.00203}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2408.00203}, }