OmniParser, alat pengurai konten layar yang baru-baru ini diluncurkan oleh Microsoft, minggu ini menduduki puncak daftar model paling populer di platform sumber terbuka teknologi buatan HuggingFace. Menurut Clem Delangue, salah satu pendiri dan CEO HuggingFace, ini adalah alat parsing pertama di bidang ini yang memenangkan penghargaan ini.
OmniParser terutama digunakan untuk mengubah tangkapan layar menjadi data terstruktur untuk membantu sistem lain lebih memahami dan memproses antarmuka pengguna grafis. Alat ini mengadopsi metode kerja kolaboratif multi-model: YOLOv8 bertanggung jawab untuk mendeteksi posisi elemen interaktif, BLIP-2 menganalisis penggunaan elemen, dan dilengkapi dengan modul pengenalan karakter optik untuk mengekstrak informasi teks, yang pada akhirnya mencapai analisis komprehensif dari antarmuka.
Alat sumber terbuka ini memiliki kompatibilitas luas dan mendukung banyak model visi arus utama. Manajer Riset Mitra Microsoft Ahmed Awadallah menekankan bahwa kerja sama terbuka sangat penting untuk mendorong perkembangan teknologi, dan OmniParser adalah produk dari praktik konsep ini.
Saat ini, raksasa teknologi telah menyusun rencana mereka di bidang interaksi layar. Anthropic merilis solusi sumber tertutup yang disebut Penggunaan Komputer, dan Apple meluncurkan Ferret-UI untuk antarmuka seluler. Sebaliknya, OmniParser menunjukkan keunggulan unik karena keserbagunaan lintas platformnya.
Namun, OmniParser masih menghadapi beberapa tantangan teknis, seperti pengenalan ikon yang berulang dan penentuan posisi yang tepat dalam skenario teks yang tumpang tindih. Namun komunitas open source umumnya percaya bahwa semakin banyak pengembang yang berpartisipasi dalam perbaikan, masalah ini diharapkan dapat teratasi.
Popularitas OmniParser yang pesat menunjukkan kebutuhan mendesak para pengembang akan alat interaksi layar universal, dan juga menunjukkan bahwa bidang ini dapat mengantarkan pada perkembangan pesat.
Alamat: https://microsoft.github.io/OmniParser/