? [Страница проекта] [Сообщение в блоге] [Модели]
OmniParser — это комплексный метод анализа снимков экрана пользовательского интерфейса на структурированные и простые для понимания элементы, который значительно расширяет возможности GPT-4V генерировать действия, которые можно точно обосновать в соответствующих областях интерфейса.
[2024/10] OmniParser — популярная модель №1 в центре моделей Huggingface (с 29 октября 2024 г.).
[2024/10] Не стесняйтесь посмотреть нашу демо-версию на HuggingFace Space! (следите за обновлениями OmniParser + Claude Computer Use)
[2024/10] Выпущены модель интерактивного обнаружения областей и модель функционального описания значков! Модели Hugginface
[2024/09] OmniParser достигает наилучшей производительности на Windows Agent Arena!
Установить среду:
conda create -n "omni" python==3.12conda active omnipip install -r require.txt
Затем загрузите файлы ckpts модели по адресу https://huggingface.co/microsoft/OmniParser и поместите их в папку Weights/, структура папок по умолчанию: Weights/icon_detect, Weights/icon_caption_florence, Weights/icon_caption_blip2.
Наконец, преобразуйте Safetensor в файл .pt.
веса Python/convert_safetensor_to_pt.py
Мы собрали несколько простых примеров в demo.ipynb.
Чтобы запустить демонстрацию градиента, просто запустите:
python gradio_demo.py
Что касается контрольных точек модели в Huggingface Model Hub, обратите внимание, что модель icon_detect находится под лицензией AGPL, поскольку это лицензия, унаследованная от исходной модели yolo. А icon_caption_blip2 и icon_caption_florence находятся под лицензией MIT. Пожалуйста, обратитесь к файлу ЛИЦЕНЗИИ в папке каждой модели: https://huggingface.co/microsoft/OmniParser.
Наш технический отчет можно найти здесь. Если наша работа окажется для вас полезной, пожалуйста, процитируйте ее:
@misc{lu2024omniparserpurevisionbased, title={OmniParser for Pure Vision Based GUI Agent}, author={Yadong Lu and Jianwei Yang and Yelong Shen and Ahmed Awadallah}, year={2024}, eprint={2408.00203}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2408.00203}, }