? [Projektseite] [Blogbeitrag] [Modelle]
OmniParser ist eine umfassende Methode zum Parsen von Screenshots der Benutzeroberfläche in strukturierte und leicht verständliche Elemente, die die Fähigkeit von GPT-4V, Aktionen zu generieren, die genau in den entsprechenden Bereichen der Benutzeroberfläche verankert werden können, erheblich verbessert.
[2024/10] OmniParser ist das Trendmodell Nr. 1 im Huggingface Model Hub (ab 29.10.2024).
[2024/10] Schauen Sie sich gerne unsere Demo zum Thema Huggingface Space an! (Bleiben Sie dran für OmniParser + Claude Computer Use)
[2024/10] Sowohl das interaktive Regionserkennungsmodell als auch das Symbol-Funktionsbeschreibungsmodell werden veröffentlicht! Hugginface-Modelle
[2024/09] OmniParser erzielt die beste Leistung in der Windows Agent Arena!
Umgebung installieren:
conda create -n "omni" python==3.12conda activate omnipip install -r require.txt
Laden Sie dann die ckpts-Modelldateien unter https://huggingface.co/microsoft/OmniParser herunter und legen Sie sie unter „weights/“ ab. Die Standardordnerstruktur lautet: „weights/icon_detect“, „weights/icon_caption_florence“, „weights/icon_caption_blip2“.
Konvertieren Sie abschließend den Safetensor in eine .pt-Datei.
Python-Gewichte/convert_safetensor_to_pt.py
Ein paar einfache Beispiele haben wir im demo.ipynb zusammengestellt.
Um die Gradio-Demo auszuführen, führen Sie einfach Folgendes aus:
Python gradio_demo.py
Bitte beachten Sie für die Modellprüfpunkte auf dem Huggingface-Modellhub, dass das Modell icon_detect unter der AGPL-Lizenz steht, da es sich um eine vom ursprünglichen Yolo-Modell geerbte Lizenz handelt. Und icon_caption_blip2 & icon_caption_florence stehen unter MIT-Lizenz. Bitte beachten Sie die LIZENZdatei im Ordner jedes Modells: https://huggingface.co/microsoft/OmniParser.
Unseren technischen Bericht finden Sie hier. Wenn Sie unsere Arbeit nützlich finden, denken Sie bitte darüber nach, unsere Arbeit zu zitieren:
@misc{lu2024omniparserpurevisionbased, title={OmniParser for Pure Vision Based GUI Agent}, author={Yadong Lu and Jianwei Yang and Yelong Shen and Ahmed Awadallah}, year={2024}, eprint={2408.00203}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2408.00203}, }