? [Página do projeto] [Postagem no blog] [Modelos]
OmniParser é um método abrangente para analisar capturas de tela da interface do usuário em elementos estruturados e fáceis de entender, o que aumenta significativamente a capacidade do GPT-4V de gerar ações que podem ser fundamentadas com precisão nas regiões correspondentes da interface.
[2024/10] OmniParser é o modelo de tendência nº 1 no hub de modelo huggingface (a partir de 29/10/2024).
[2024/10] Sinta-se à vontade para conferir nossa demonstração no espaço huggingface! (fique ligado no OmniParser + Claude Computer Use)
[2024/10] O modelo interativo de detecção de região e o modelo de descrição funcional do ícone foram lançados! Modelos Hugginface
[2024/09] OmniParser alcança o melhor desempenho no Windows Agent Arena!
Ambiente de instalação:
conda create -n "omni" python==3.12conda ativar omnipip install -r requisitos.txt
Em seguida, baixe os arquivos ckpts do modelo em: https://huggingface.co/microsoft/OmniParser e coloque-os em pesos/, a estrutura de pasta padrão é: pesos/icon_detect, pesos/icon_caption_florence, pesos/icon_caption_blip2.
Por fim, converta o safetensor para arquivo .pt.
pesos python/convert_safetensor_to_pt.py
Reunimos alguns exemplos simples no demo.ipynb.
Para executar a demonstração gradio, basta executar:
python gradio_demo.py
Para os pontos de verificação do modelo no hub do modelo huggingface, observe que o modelo icon_detect está sob licença AGPL, pois é uma licença herdada do modelo yolo original. E icon_caption_blip2 & icon_caption_florence estão sob licença do MIT. Consulte o arquivo LICENSE na pasta de cada modelo: https://huggingface.co/microsoft/OmniParser.
Nosso relatório técnico pode ser encontrado aqui. Se você achar nosso trabalho útil, considere citá-lo:
@misc{lu2024omniparserpurevisionbased, title={OmniParser for Pure Vision Based GUI Agent}, author={Yadong Lu and Jianwei Yang and Yelong Shen and Ahmed Awadallah}, year={2024}, eprint={2408.00203}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2408.00203}, }