Google merilis AI "pembacaan layar" terbaru! PaLM 2-S secara otomatis menghasilkan data, dan berbagai tugas pemahaman menyegarkan SOTA

Penulis：Eve Cole Waktu Pembaruan：2025-02-08 07:32:01

Model bahasa visual ScreenAI Google yang baru dirilis telah membuat kemajuan terobosan dalam berbagai tugas pemahaman, mencetak rekor SOTA baru. Model ini menggunakan metode pembuatan data otomatis PaLM 2-S yang inovatif, yang secara efektif meningkatkan keragaman dan kompleksitas kumpulan data sekaligus memastikan efisiensi tinggi. Dengan arsitektur encoder multi-modalnya, ScreenAI dapat menyelesaikan tugas teks+gambar-ke-teks dengan sangat baik dan menunjukkan kinerja terdepan dalam tugas-tugas seperti QA layar, infografis, dan pemahaman dokumen, membawa perkembangan baru ke bidang kemungkinan model bahasa visual.

Google baru-baru ini merilis model bahasa visual ScreenAI, yang menggunakan PaLM 2-S untuk menghasilkan data secara otomatis, memecahkan rekor SOTA untuk berbagai tugas pemahaman. Model ini menggunakan arsitektur encoder multi-modal untuk mencapai penyelesaian tugas teks+gambar-ke-teks. Para peneliti menggunakan metode pembuatan data otomatis untuk meningkatkan keragaman dan kompleksitas kumpulan data sekaligus memastikan efisiensi. Model ini mencapai kinerja terdepan pada QA layar, infografis, dan tugas pemahaman dokumen.

Kemunculan ScreenAI menandai kemajuan signifikan dalam teknologi model bahasa visual. Metode pembuatan data yang efisien dan kinerja terdepan memberikan arah baru bagi pengembangan AI di masa depan. Teknologi pembangkitan data secara otomatis juga memberikan ide dan referensi baru untuk pelatihan model AI lainnya. Kami menantikan ScreenAI menunjukkan kemampuannya yang kuat dalam skenario aplikasi yang lebih praktis.