Microsoft yang baru-baru ini dibuka oleh Microsoft Parsing Parsing Tool Omniparser, dengan fitur-fiturnya yang kuat dan kompatibilitas lintas platform, dengan cepat menjadi model paling populer di platform Huggingface, menarik perhatian industri. Dengan mengintegrasikan beberapa model seperti YOLOV8, BLIP-2, Omniparser menyadari analisis komprehensif tangkapan layar, mengubah informasi gambar menjadi data terstruktur, yang memfasilitasi sistem lain untuk memahami dan memproses antarmuka pengguna grafis. Fitur open source -nya juga mendorong partisipasi aktif dan kontribusi dari komunitas pengembang.
Alat parsing konten layar Microsoft yang baru diluncurkan Omniparser telah melompat ke atas model HuggingFace yang paling populer, sebuah platform open source teknologi buatan minggu ini. Menurut Clem Delangue, co-founder dan CEO Huggingface, ini adalah alat analitik pertama di lapangan yang menerima kehormatan ini.
Omniparser terutama digunakan untuk mengubah tangkapan layar menjadi data terstruktur, membantu sistem lain lebih memahami dan memproses antarmuka pengguna grafis. Alat ini mengadopsi metode kerja kolaboratif multi-model: YOLOV8 bertanggung jawab untuk mendeteksi lokasi elemen interaktif, Blip-2 menganalisis penggunaan elemen, dan dilengkapi dengan modul pengenalan karakter optik untuk mengekstraksi informasi teks, yang pada akhirnya mencapai analisis yang komprehensif komprehensif antarmuka.
Alat open source ini memiliki kompatibilitas yang luas dan mendukung berbagai model penglihatan utama. Ahmed Awadallah, Manajer Penelitian Mitra Microsoft, menekankan bahwa kerja sama terbuka sangat penting untuk mempromosikan pengembangan teknologi, dan omniparser adalah produk dari filosofi ini.
Saat ini, raksasa teknologi berencana untuk memasuki bidang interaksi layar. Antropik merilis solusi sumber tertutup yang disebut "Penggunaan Komputer", sementara Apple meluncurkan Ferret-UI untuk antarmuka seluler. Sebaliknya, omniparser menunjukkan keunggulan unik dengan universalitas lintas platformnya.
Namun, omniparser masih menghadapi beberapa tantangan teknis, seperti pengakuan ikon berulang dan posisi yang tepat dalam skenario teks yang tumpang tindih. Tetapi komunitas open source umumnya percaya bahwa masalah ini diharapkan akan diselesaikan karena lebih banyak pengembang berpartisipasi dalam perbaikan.
Popularitas yang cepat dari omniparser menunjukkan kebutuhan mendesak untuk alat interaksi layar universal dari pengembang, dan juga menunjukkan bahwa bidang ini dapat mengantarkan pengembangan yang cepat.
Alamat: https://microsoft.github.io/omniparser/
Keberhasilan Omniparser tidak hanya terletak pada kekuatan teknisnya, tetapi juga dalam konsep open source -nya, yang memberikan dorongan kuat dan prospek aplikasi yang luas untuk pengembangannya di masa depan. Kami menantikan omniparser dapat menyelesaikan masalah teknologi yang ada di masa depan dan membawa lebih banyak inovasi ke bidang interaksi layar.