? [Halaman Proyek] [Entri Blog] [Model]
OmniParser adalah metode komprehensif untuk menguraikan tangkapan layar antarmuka pengguna menjadi elemen terstruktur dan mudah dipahami, yang secara signifikan meningkatkan kemampuan GPT-4V untuk menghasilkan tindakan yang dapat didasarkan secara akurat pada wilayah antarmuka yang sesuai.
[2024/10] OmniParser adalah model trending #1 di hub model pelukan (mulai 29/10/2024).
[2024/10] Jangan ragu untuk melihat demo kami di ruang pelukan! (nantikan OmniParser + Penggunaan Komputer Claude)
[2024/10] Model Deteksi Wilayah Interaktif dan model deskripsi fungsional Ikon telah dirilis! Model wajah pelukan
[2024/09] OmniParser mencapai kinerja terbaik di Windows Agent Arena!
Instal lingkungan:
conda buat -n "omni" python==3.12conda aktifkan omnipip install -r persyaratan.txt
Kemudian unduh file model ckpts di: https://huggingface.co/microsoft/OmniParser, dan letakkan di bawah bobot/, struktur folder default adalah: bobot/icon_detect, bobot/icon_caption_florence, bobot/icon_caption_blip2.
Terakhir, konversikan safetensor ke file .pt.
bobot python/convert_safetensor_to_pt.py
Kami mengumpulkan beberapa contoh sederhana di demo.ipynb.
Untuk menjalankan demo gradio, cukup jalankan:
python gradio_demo.py
Untuk pos pemeriksaan model pada hub model huggingface, harap diperhatikan bahwa model icon_detect berada di bawah lisensi AGPL karena merupakan lisensi yang diwarisi dari model yolo asli. Dan icon_caption_blip2 & icon_caption_florence berada di bawah lisensi MIT. Silakan merujuk ke file LISENSI di folder masing-masing model: https://huggingface.co/microsoft/OmniParser.
Laporan teknis kami dapat ditemukan di sini. Jika Anda merasa karya kami bermanfaat, mohon pertimbangkan untuk mengutip karya kami:
@misc{lu2024omniparserpurevisionbased, title={OmniParser for Pure Vision Based GUI Agent}, author={Yadong Lu and Jianwei Yang and Yelong Shen and Ahmed Awadallah}, year={2024}, eprint={2408.00203}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2408.00203}, }