? [Page du projet] [Article de blog] [Modèles]
OmniParser est une méthode complète d'analyse des captures d'écran de l'interface utilisateur en éléments structurés et faciles à comprendre, ce qui améliore considérablement la capacité de GPT-4V à générer des actions pouvant être ancrées avec précision dans les régions correspondantes de l'interface.
[2024/10] OmniParser est le modèle tendance n°1 sur le hub de modèles Huggingface (à partir du 29/10/2024).
[2024/10] N'hésitez pas à consulter notre démo sur huggingface space ! (restez à l'écoute pour OmniParser + Claude Computer Use)
[2024/10] Le modèle interactif de détection de région et le modèle de description fonctionnelle d'icône sont publiés ! Modèles câlins
[2024/09] OmniParser obtient les meilleures performances sur Windows Agent Arena !
Environnement d'installation :
conda create -n "omni" python==3.12conda activate omnipip install -r conditions.txt
Téléchargez ensuite les fichiers du modèle ckpts dans : https://huggingface.co/microsoft/OmniParser, et placez-les sous poids/, la structure des dossiers par défaut est : poids/icon_detect, poids/icon_caption_florence, poids/icon_caption_blip2.
Enfin, convertissez le safetensor en fichier .pt.
poids python/convert_safetensor_to_pt.py
Nous avons rassemblé quelques exemples simples dans le fichier demo.ipynb.
Pour exécuter la démo de gradio, exécutez simplement :
python gradio_demo.py
Pour les points de contrôle du modèle sur Huggingface Model Hub, veuillez noter que le modèle icon_detect est sous licence AGPL puisqu'il s'agit d'une licence héritée du modèle yolo d'origine. Et icon_caption_blip2 & icon_caption_florence sont sous licence MIT. Veuillez vous référer au fichier LICENSE dans le dossier de chaque modèle : https://huggingface.co/microsoft/OmniParser.
Notre rapport technique peut être consulté ici. Si vous trouvez notre travail utile, pensez à citer notre travail :
@misc{lu2024omniparserpurevisionbased, title={OmniParser for Pure Vision Based GUI Agent}, author={Yadong Lu and Jianwei Yang and Yelong Shen and Ahmed Awadallah}, year={2024}, eprint={2408.00203}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2408.00203}, }