? [プロジェクトページ] [ブログ投稿] [モデル]
OmniParserは、ユーザー インターフェイスのスクリーンショットを構造化された理解しやすい要素に解析するための包括的な方法であり、これにより、インターフェイスの対応する領域に正確に基づいたアクションを生成する GPT-4V の機能が大幅に強化されます。
[2024/10] OmniParser は、huggingface モデル ハブで #1 のトレンド モデルです (2024 年 10 月 29 日から)。
[2024/10] ハグフェイススペースのデモをぜひチェックしてください! (OmniParser + Claude Computer の使用にご期待ください)
[2024/10] インタラクティブ領域検出モデルとアイコン機能記述モデルを両方リリースしました!ハギンフェイスモデル
[2024/09] OmniParser が Windows Agent Arena で最高のパフォーマンスを達成!
インストール環境:
conda create -n "omni" python==3.12conda activateomnipip install -rrequirements.txt
次に、モデル ckpts ファイルを https://huggingface.co/microsoft/OmniParser にダウンロードし、weights/ の下に置きます。デフォルトのフォルダー構造は、weights/icon_detect、weights/icon_caption_florence、weights/icon_caption_blip2 です。
最後に、safetensor を .pt ファイルに変換します。
Pythonの重み/convert_safetensor_to_pt.py
いくつかの簡単な例をdemo.ipynbにまとめました。
gradio デモを実行するには、次のコマンドを実行するだけです。
Python gradio_demo.py
ハグフェイス モデル ハブのモデル チェックポイントについては、icon_detect モデルは元の yolo モデルから継承されたライセンスであるため、AGPL ライセンスの下にあることに注意してください。 icon_caption_blip2 と icon_caption_florence は MIT ライセンスの下にあります。各モデルのフォルダーにある LICENSE ファイルを参照してください: https://huggingface.co/microsoft/OmniParser。
当社の技術レポートはここからご覧いただけます。私たちの研究が役立つと思われる場合は、私たちの研究を引用することを検討してください。
@misc{lu2024omniparserpurevisionbased, title={OmniParser for Pure Vision Based GUI Agent}, author={Yadong Lu and Jianwei Yang and Yelong Shen and Ahmed Awadallah}, year={2024}, eprint={2408.00203}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2408.00203}, }