Editor Downcodes akan mengajak Anda mempelajari terobosan terbaru tim AI Alibaba! Model mPLUG-DocOwl1.5 yang mereka luncurkan mencapai kemampuan pemahaman dokumen yang sangat baik tanpa memerlukan teknologi OCR. Model ini memecahkan hambatan pemahaman dokumen tradisional dan belajar memahami konten dokumen langsung dari gambar. Efisiensi dan akurasinya luar biasa. Ini tidak hanya dapat memproses dokumen biasa, tetapi juga mendukung berbagai jenis dokumen seperti tabel, bagan, halaman web, dan gambar alami, menunjukkan kemampuan adaptasi dan pemrosesan yang kuat. Mari kita lihat lebih dekat keunggulan dan arah pengembangan di masa depan dari model AI mutakhir ini.
Baru-baru ini, tim peneliti AI Alibaba telah mencapai kemajuan yang mengesankan di bidang pemahaman dokumen. Mereka meluncurkan mPLUG-DocOwl1.5, model mutakhir yang berkinerja sangat baik pada tugas pemahaman dokumen bebas OCR (pengenalan karakter optik).
Di masa lalu, ketika menangani tugas pemahaman dokumen, kita sering mengandalkan teknologi OCR untuk mengekstrak teks dari gambar, namun hal ini sering kali terganggu oleh tata letak yang rumit dan gangguan visual. mPLUG-DocOwl1.5 menggunakan kerangka pembelajaran struktur terpadu baru untuk mempelajari dan memahami dokumen langsung dari gambar, dengan cerdik menghindari hambatan ini.
Model ini mencakup lima bidang termasuk dokumen biasa, tabel, bagan, halaman web, dan gambar alami dengan menganalisis tata letak dan kemampuan organisasi dokumen di berbagai bidang. Tidak hanya mengenali teks secara akurat, ia juga menggunakan elemen seperti spasi dan jeda baris saat memahami struktur dokumen.
Untuk tabel, model dapat menghasilkan format penurunan harga terstruktur, dan saat mengurai diagram, model akan mengubahnya menjadi tabel data dengan memahami hubungan antara legenda, sumbu, dan nilai. Selain itu, mPLUG-DocOwl1.5 juga memiliki kemampuan untuk mengekstrak teks dari gambar alami.
Dalam hal pelokalan teks, mPLUG-DocOwl1.5 mampu mengidentifikasi dan menemukan lokasi kata, frasa, garis, dan blok, memastikan keselarasan yang tepat antara area teks dan gambar. Arsitektur H-Reducer di belakangnya menggabungkan fitur visual secara horizontal melalui operasi konvolusi, mempertahankan tata letak spasial sekaligus mengurangi panjang urutan, sehingga meningkatkan efisiensi pemrosesan.
Untuk melatih model ini, tim peneliti menggunakan dua kumpulan data yang dipilih dengan cermat. DocStruct4M adalah kumpulan data berskala besar yang berfokus pada pembelajaran struktur terpadu, dan DocReason25K menguji kemampuan penalaran model melalui tanya jawab langkah demi langkah.
Hasilnya menunjukkan bahwa mPLUG-DocOwl1.5 mencetak rekor baru dalam sepuluh pengujian benchmark, mencapai peningkatan lebih dari 10 poin pada separuh tugas dibandingkan dengan model serupa. Selain itu, ia menunjukkan keterampilan penalaran verbal yang sangat baik dan mampu menghasilkan penjelasan rinci langkah demi langkah untuk jawabannya.
Meskipun mPLUG-DocOwl1.5 telah mencapai kemajuan yang signifikan dalam banyak aspek, para peneliti juga menyadari bahwa masih ada ruang untuk perbaikan pada model tersebut, terutama dalam menangani pernyataan yang tidak konsisten atau salah. Di masa depan, tim berharap untuk lebih memperluas kerangka pembelajaran struktur terpadu untuk mencakup lebih banyak jenis dan tugas dokumen, dan mendorong pengembangan lebih lanjut dari AI dokumen.
Makalah: https://arxiv.org/abs/2403.12895
Kode: https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5
Menyorot:
mPLUG-DocOwl1.5 adalah model AI yang bekerja sangat baik dalam tugas pemahaman dokumen tanpa OCR.
Model ini dapat menganalisis tata letak dokumen, mencakup berbagai jenis dokumen, dan belajar langsung dari gambar.
mPLUG-DocOwl1.5 mencetak rekor baru dalam sepuluh tes benchmark, menunjukkan kemampuan penalaran bahasa yang unggul.
Kemunculan mPLUG-DocOwl1.5 menandai tonggak baru dalam teknologi pemahaman dokumen. Efisiensi, keakuratan, dan kemampuan beradaptasi yang kuat memberikan kemungkinan tak terbatas untuk pemrosesan dokumen dan ekstraksi informasi di masa depan. Editor Downcodes percaya bahwa dengan kemajuan teknologi yang berkelanjutan, mPLUG-DocOwl1.5 akan memainkan peran penting di lebih banyak bidang dan memberi kita pengalaman pemrosesan informasi yang lebih cerdas.