? [项目页面] [博客文章] [模型]
OmniParser是一种将用户界面屏幕截图解析为结构化且易于理解的元素的综合方法,它显着增强了 GPT-4V 生成可以准确地扎根于界面相应区域的操作的能力。
[2024/10] OmniParser 是 Huggingface 模型中心上排名第一的趋势模型(从 2024 年 10 月 29 日开始)。
[2024/10] 欢迎在huggingface space 上观看我们的演示! (敬请关注 OmniParser + Claude 计算机使用)
[2024/10] 交互区域检测模型和图标功能描述模型同时发布!拥抱脸模型
[2024/09] OmniParser 在 Windows Agent Arena 上取得最佳性能!
安装环境:
conda create -n "omni" python==3.12conda activateomnipip install -rrequirements.txt
然后将模型ckpts文件下载到:https://huggingface.co/microsoft/OmniParser,并将它们放在weights/下,默认文件夹结构为:weights/icon_detect、weights/icon_caption_florence、weights/icon_caption_blip2。
最后,将 safetensor 转换为 .pt 文件。
python 权重/convert_safetensor_to_pt.py
我们在 demo.ipynb 中整理了一些简单的示例。
要运行 gradio 演示,只需运行:
蟒蛇gradio_demo.py
对于huggingface模型中心上的模型检查点,请注意icon_detect模型处于AGPL许可证下,因为它是从原始yolo模型继承的许可证。 icon_caption_blip2 和 icon_caption_florence 已获得 MIT 许可。请参考各型号文件夹中的LICENSE文件:https://huggingface.co/microsoft/OmniParser。
我们的技术报告可以在这里找到。如果您发现我们的工作有用,请考虑引用我们的工作:
@misc{lu2024omniparserpurevisionbased, title={OmniParser for Pure Vision Based GUI Agent}, author={Yadong Lu and Jianwei Yang and Yelong Shen and Ahmed Awadallah}, year={2024}, eprint={2408.00203}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2408.00203}, }