Dalam lingkungan profesional, agen antarmuka pengguna grafis (GUI) menghadapi tiga tantangan utama. Pertama -tama, kompleksitas aplikasi profesional jauh lebih tinggi daripada perangkat lunak umum, dan membutuhkan pemahaman yang mendalam tentang tata letak yang kompleks. Aplikasi ini biasanya mengandung sejumlah besar modul fungsional dan logika interaktif yang kompleks, yang membutuhkan agen GUI untuk memiliki tingkat kecerdasan dan kemampuan beradaptasi yang tinggi. Kedua, alat profesional biasanya memiliki resolusi yang lebih tinggi, menghasilkan ukuran target yang lebih kecil, yang mengurangi akurasi penentuan posisi. Lingkungan resolusi tinggi ini menempatkan tuntutan yang lebih tinggi pada keakuratan agen GUI, terutama ketika berhadapan dengan elemen antarmuka kecil. Akhirnya, alur kerja cenderung mengandalkan alat dan dokumentasi tambahan, menambah kompleksitas operasi. Tantangan -tantangan ini menyoroti kebutuhan untuk mengembangkan tolok ukur dan solusi yang lebih maju untuk meningkatkan kinerja agen GUI dalam skenario yang ketat ini.
Model dan tolok ukur GUI saat ini tidak dapat memenuhi persyaratan lingkungan profesional. Misalnya, alat seperti Screenspot dirancang terutama untuk tugas resolusi rendah dan tidak memiliki keragaman yang dapat secara akurat mensimulasikan skenario kehidupan nyata. Model-model seperti OS-ATLAS dan Uground tidak berkinerja baik dalam hal efisiensi komputasi, terutama ketika targetnya kecil atau ikon antarmuka kaya, mereka sering gagal. Selain itu, kurangnya dukungan multibahasa juga membatasi penerapan model -model ini dalam alur kerja global. Kekurangan ini lebih lanjut menggarisbawahi kebutuhan akan tolok ukur yang lebih komprehensif dan realistis untuk memajukan area ini.
Untuk mengatasi masalah ini, tim peneliti dari Universitas Nasional Singapura, Universitas Normal Tiongkok Timur dan Universitas Baptis Hong Kong telah meluncurkan Screenspot-Pro, tolok ukur baru yang dirancang untuk lingkungan profesional resolusi tinggi. Benchmark memiliki 1.581 set data tugas dari 23 industri, termasuk pengembangan, alat kreatif, CAD, platform sains dan suite kantor. Ini menggunakan visual layar penuh resolusi tinggi dan memastikan keakuratan dan kenyataan melalui anotasi ahli. Screenspot-Pro juga memberikan bimbingan multibahasa, termasuk bahasa Inggris dan Cina, untuk memperluas ruang lingkup evaluasi. Tidak seperti sebelumnya, Screenspot-Pro mendokumentasikan alur kerja yang sebenarnya, memastikan generasi anotasi berkualitas tinggi, sehingga menyediakan alat yang efektif untuk evaluasi komprehensif dan pengembangan model penentuan posisi GUI.
Dataset ini menangkap adegan yang nyata dan menantang, berdasarkan gambar resolusi tinggi, yang area targetnya hanya menyumbang 0,07% dari total layar total, menunjukkan nuansa dan miniaturisasi elemen GUI. Data dikumpulkan oleh pengguna profesional dengan pengalaman luas dalam aplikasi terkait, menggunakan alat khusus untuk memastikan keakuratan anotasi. Selain itu, dataset mendukung kemampuan multibahasa untuk memfasilitasi pengujian kemampuan bilingual dan mencakup beberapa alur kerja untuk menangkap nuansa tugas profesional. Fitur -fitur ini membuatnya sangat bermanfaat untuk mengevaluasi dan meningkatkan akurasi dan fleksibilitas agen GUI.
Analisis model penentuan posisi GUI yang ada menggunakan Screenspot-Pro menunjukkan bahwa ia memiliki kurangnya kemampuan dalam menangani lingkungan profesional resolusi tinggi. Tingkat akurasi tertinggi OS-ATLAS-7B hanya 18,9%. Namun, reground, yang mengadopsi metode berulang, meningkatkan kinerja melalui penyempurnaan metode multi-langkah, mencapai akurasi 40,2%. Identifikasi komponen kecil seperti ikon menunjukkan kesulitan yang signifikan, sedangkan tugas dwibahasa lebih lanjut menyoroti keterbatasan model. Temuan ini menyoroti kebutuhan untuk meningkatkan teknik untuk meningkatkan pemahaman kontekstual dan kemampuan beradaptasi di lingkungan GUI yang kompleks.
Screenspot-Pro menetapkan tolok ukur transformatif untuk evaluasi agen GUI di lingkungan profesional resolusi tinggi. Ini mengatasi tantangan spesifik dalam alur kerja yang kompleks dan menyediakan set data yang beragam dan tepat untuk memandu inovasi dalam posisi GUI. Kontribusi ini akan meletakkan dasar bagi agen yang lebih cerdas dan lebih efisien, sehingga mendukung pelaksanaan tugas profesional yang mulus dan secara signifikan meningkatkan produktivitas dan inovasi di berbagai industri.
Kertas: https://likaixin2000.github.io/papers/screenspot_pro.pdf
Data |: https: //huggingface.co/datasets/likaixin/screenspot-pro
Poin -Poin Kunci:
** Kompleksitas aplikasi profesional **: Agen GUI perlu menangani antarmuka perangkat lunak profesional dengan kompleksitas tinggi dan resolusi tinggi.
** Dataset Screenspot-Pro **: Berisi 1.581 tugas, mencakup 23 aplikasi profesional, dan mendukung evaluasi multibahasa.
** Model Peningkatan Kinerja **: Melalui penyempurnaan multi-langkah, meningkatkan akurasi model penentuan posisi GUI di lingkungan resolusi tinggi.