? [Página del proyecto] [Entrada de blog] [Modelos]
OmniParser es un método integral para analizar capturas de pantalla de la interfaz de usuario en elementos estructurados y fáciles de entender, lo que mejora significativamente la capacidad de GPT-4V para generar acciones que pueden basarse con precisión en las regiones correspondientes de la interfaz.
[2024/10] OmniParser es el modelo de tendencia número uno en el centro de modelos Huggingface (a partir del 29/10/2024).
[2024/10] ¡No dudes en ver nuestra demostración sobre huggingface space! (estén atentos al uso de OmniParser + Claude Computer)
[2024/10] ¡Se lanzan tanto el modelo interactivo de detección de regiones como el modelo de descripción funcional de iconos! modelos hugginface
[2024/09] ¡OmniParser logra el mejor rendimiento en Windows Agent Arena!
Entorno de instalación:
conda create -n "omni" python==3.12conda activa omnipip install -r requisitos.txt
Luego descargue los archivos ckpts del modelo en: https://huggingface.co/microsoft/OmniParser y colóquelos en pesos/, la estructura de carpetas predeterminada es: pesos/icon_detect, pesos/icon_caption_florence, pesos/icon_caption_blip2.
Finalmente, convierta el safetensor a un archivo .pt.
pesos de Python/convert_safetensor_to_pt.py
Reunimos algunos ejemplos simples en demo.ipynb.
Para ejecutar la demostración de gradio, simplemente ejecute:
python gradio_demo.py
Para los puntos de control del modelo en Huggingface Model Hub, tenga en cuenta que el modelo icon_detect está bajo licencia AGPL, ya que es una licencia heredada del modelo yolo original. Y icon_caption_blip2 & icon_caption_florence están bajo licencia del MIT. Consulte el archivo de LICENCIA en la carpeta de cada modelo: https://huggingface.co/microsoft/OmniParser.
Nuestro informe técnico se puede encontrar aquí. Si encuentra útil nuestro trabajo, considere citarlo:
@misc{lu2024omniparserpurevisionbased, title={OmniParser for Pure Vision Based GUI Agent}, author={Yadong Lu and Jianwei Yang and Yelong Shen and Ahmed Awadallah}, year={2024}, eprint={2408.00203}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2408.00203}, }