Rilis terbaru Microsoft Omniparser V2.0 adalah alat penguraian revolusioner yang dirancang khusus untuk mengonversi tangkapan layar pengguna antarmuka pengguna (UI) menjadi format data terstruktur. Tujuan inti dari alat ini adalah untuk membantu pengguna secara lebih efisien memahami dan memanipulasi informasi di layar dengan meningkatkan kinerja agen UI model bahasa besar (LLM). Peluncuran Omniparser menandai tahap baru dalam teknologi pemrosesan otomatisasi UI, memberikan pengguna pengalaman interaktif yang lebih cerdas.
Untuk memastikan efisiensi dan keakuratan omniparser, Microsoft telah dengan hati -hati membangun dua dataset utama: dataset deteksi ikon interaktif dan dataset deskripsi ikon. Yang sebelumnya mengekstraksi sejumlah besar contoh area yang dapat dikliksi dan ditindaklanjuti dari halaman web populer dan membubarkannya dengan teknologi anotasi otomatis; Konstruksi dataset ini memberikan dasar yang kuat untuk pelatihan dan optimalisasi omniparser.
Dalam V2.0, Omniparser mencapai peningkatan kinerja yang signifikan. Kumpulan data yang diperbarui tidak hanya lebih besar dalam skala, tetapi juga kualitas yang lebih tinggi, yang meningkatkan keakuratan deskripsi ikon dan posisi sebesar 60%. Selain itu, versi ini telah membuat terobosan yang signifikan dalam latensi, dengan waktu pemrosesan rata -rata pada perangkat A100 hanya 0,6 detik/bingkai dan 0,8 detik/bingkai pada kartu grafis 4090 tunggal. Dalam uji Screenspot Pro, tingkat akurasi rata -rata omniparser mencapai 39,6%, menunjukkan kemampuan analitiknya yang kuat.
Kombinasi mulus Omniparser dan Omnitool memberikan pengalaman operasi yang lebih fleksibel kepada pengguna. Dengan Omnitool, pengguna dapat dengan mudah mengontrol mesin virtual Windows 11 dan memilih model visual yang sesuai untuk parsing. Saat ini, Omnitool mendukung berbagai model bahasa besar, termasuk beberapa versi OpenAI, Deepseek (R1), Qwen (2.5VL), dan penggunaan komputer antropik, memenuhi kebutuhan pengguna yang berbeda.
Fungsi inti dari omniparser adalah untuk mengubah gambar tangkapan layar yang tidak terstruktur menjadi daftar elemen terstruktur, termasuk lokasi area interaktif dan deskripsi fungsionalitas potensial ikon. Alat ini cocok untuk banyak jenis tangkapan layar, yang dapat diproses secara efisien, apakah itu antarmuka PC atau antarmuka ponsel. Namun, pengguna perlu memiliki keterampilan analitik tertentu dan pemikiran kritis selama penggunaan, karena meskipun omniparser dapat mengekstraksi informasi, penilaian akhir masih perlu dilakukan oleh pengguna.
Meskipun omniparser berkinerja baik di UI parsing, keterbatasannya tidak dapat diabaikan. Alat ini tidak mengintegrasikan fungsi deteksi konten yang berbahaya, sehingga pengguna harus memberikan input dengan hati -hati saat menggunakannya untuk memastikan bahwa itu tidak mengandung informasi berbahaya. Selain itu, meskipun omniparser hanya mengubah tangkapan layar menjadi teks, itu masih dapat digunakan untuk membangun agen antarmuka pengguna grafis yang dapat ditindaklanjuti. Pengembang harus benar -benar mematuhi standar keselamatan dan etika saat membangun dan mengoperasikan agen untuk memastikan penggunaan teknologi yang bertanggung jawab.
Rilis Omniparser v2.0 tidak hanya menyediakan alat yang kuat untuk otomatisasi UI, tetapi juga membuka kemungkinan baru bagi pengembang untuk mengeksplorasi lebih banyak skenario aplikasi. Apakah itu meningkatkan pengalaman pengguna atau mengoptimalkan proses bisnis, Omniparser telah menunjukkan potensi besar. Dengan iterasi teknologi yang berkelanjutan, kami berharap dapat melihat aplikasi yang lebih inovatif muncul dan mendorong teknologi analitik UI ke ketinggian baru.