? [프로젝트 페이지] [블로그 게시물] [모델]
OmniParser 는 사용자 인터페이스 스크린샷을 구조화되고 이해하기 쉬운 요소로 구문 분석하는 포괄적인 방법으로, 인터페이스의 해당 영역에 정확하게 기반을 둘 수 있는 작업을 생성하는 GPT-4V의 기능을 크게 향상시킵니다.
[2024/10] OmniParser는 허깅페이스 모델 허브(2024년 10월 29일부터)에서 1위 인기 모델입니다.
[2024/10] 허깅페이스 공간에 대한 데모를 자유롭게 확인해 보세요! (OmniParser + Claude Computer Use에 대해 계속 지켜봐 주시기 바랍니다)
[2024/10] 인터랙티브 영역 감지 모델과 아이콘 기능 설명 모델 모두 출시! 허긴페이스 모델
[2024/09] OmniParser가 Windows Agent Arena에서 최고의 성능을 달성했습니다!
설치 환경:
conda create -n "omni" python==3.12conda 활성화 omnipip 설치 -r 요구사항.txt
그런 다음 https://huggingface.co/microsoft/OmniParser에서 모델 ckpts 파일을 다운로드하고 Weights/ 아래에 넣습니다. 기본 폴더 구조는 Weights/icon_Detect, Weights/icon_caption_florence, Weights/icon_caption_blip2입니다.
마지막으로 safetensor를 .pt 파일로 변환합니다.
파이썬 가중치/convert_safetensor_to_pt.py
우리는 몇 가지 간단한 예제를 데모.ipynb에 정리했습니다.
Gradio 데모를 실행하려면 다음을 실행하세요.
파이썬 gradio_demo.py
Huggingface 모델 허브의 모델 체크포인트의 경우 icon_Detect 모델은 원래 Yolo 모델에서 상속된 라이선스이므로 AGPL 라이선스를 따릅니다. 그리고 icon_caption_blip2 & icon_caption_florence는 MIT 라이센스를 따릅니다. 각 모델별 폴더(https://huggingface.co/microsoft/OmniParser)에 있는 LICENSE 파일을 참고하세요.
당사의 기술 보고서는 여기에서 확인할 수 있습니다. 우리 작업이 유용하다고 생각되면 우리 작업을 인용해 보세요.
@misc{lu2024omniparserpurevisionbased, title={OmniParser for Pure Vision Based GUI Agent}, author={Yadong Lu and Jianwei Yang and Yelong Shen and Ahmed Awadallah}, year={2024}, eprint={2408.00203}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2408.00203}, }