Dengan perkembangan cepat teknologi kecerdasan buatan, integrasi visi dan data teks telah menjadi tantangan penting. Model tradisional memiliki banyak keterbatasan ketika berhadapan dengan dokumen visual terstruktur, yang memengaruhi ekstraksi dan pemahaman konten otomatis. Granite-vision-3.1-2b yang baru dirilis oleh IBM adalah model bahasa visual yang dirancang untuk menyelesaikan masalah ini.
Dengan pengembangan teknologi kecerdasan buatan yang berkelanjutan, integrasi visi dan data teks telah menjadi tantangan yang rumit. Model tradisional sering mengalami kesulitan secara akurat mem-parsing dokumen visual terstruktur seperti tabel, grafik, infografis, dan ilustrasi. Dihadapkan dengan permintaan ini, IBM baru-baru ini merilis Granite-Vision-3.1-2B, model bahasa visual kecil yang dirancang untuk pemahaman dokumen.
Granite-Vision-3.1-2B mampu mengekstraksi konten dari berbagai format visual, termasuk tabel, grafik, dan ilustrasi. Model ini dilatih pada kumpulan data yang dipilih dengan cermat, dengan sumber data termasuk sumber publik dan sintetis, mampu menangani berbagai tugas terkait dokumen. Sebagai versi yang ditingkatkan dari model bahasa besar Granit, ini mengintegrasikan dua modalitas gambar dan teks, sehingga meningkatkan kemampuan interpretasi model dan cocok untuk berbagai skenario aplikasi praktis.
Model ini terdiri dari tiga komponen utama: pertama, encoder visual, yang secara efisien memproses dan mengkodekan data visual menggunakan SIGLIP; Informasi visual dengan informasi teks;
Selama pelatihan, granit-vision-3.1-2b menggambar pada LLAVA dan menggabungkan karakteristik encoder multilayer, serta resolusi grid yang lebih padat di anyres. Peningkatan ini meningkatkan kemampuan model untuk memahami konten visual yang terperinci, memungkinkannya melakukan tugas-tugas dokumen visual secara lebih akurat, seperti menganalisis tabel dan bagan, melakukan pengenalan karakter optik (OCR), dan menjawab kueri berbasis dokumen.
Hasil evaluasi menunjukkan bahwa granit-vision-3.1-2b telah berkinerja baik dalam berbagai tolok ukur, terutama dalam pemahaman dokumen. Dalam tolok ukur ChartQA, model mencetak 0,86, melampaui model lain dengan parameter dalam kisaran 1B-4B. Dalam tolok ukur TextVQA, skornya adalah 0,76, menunjukkan kemampuan yang kuat untuk menguraikan dan menjawab informasi teks yang tertanam dalam gambar. Hasil ini menyoroti potensi model untuk pemrosesan data visual dan teks yang tepat dalam aplikasi perusahaan.
Granit-Vision-3.1-2B IBM merupakan kemajuan penting dalam model bahasa visual dan memberikan solusi pemahaman dokumen visual yang seimbang. Metode arsitektur dan pelatihannya memungkinkannya untuk menguraikan dan menganalisis data visual dan teks yang kompleks secara efisien. Berkat dukungan asli untuk Transformers dan VLLM, model ini dapat disesuaikan dengan berbagai kasus penggunaan dan dapat digunakan di lingkungan cloud seperti Colab T4, memberikan para peneliti dan profesional alat praktis untuk meningkatkan kemampuan pemrosesan dokumen yang digerakkan AI.
Model: https://huggingface.co/ibm-granite/granite-vision-3.1-2b-peview
Poin -Poin Kunci:
Granite-Vision-3.1-2B adalah model bahasa visual kecil yang dirancang khusus untuk pemahaman dokumen oleh IBM, yang dapat menangani ekstraksi konten dalam berbagai format visual.
Model ini terdiri dari tiga bagian: encoder visual, konektor bahasa visual dan model bahasa besar, yang meningkatkan pemahaman input kompleks.
Sangat baik dalam berbagai tolok ukur, terutama di bidang pemahaman dokumen, menunjukkan potensi aplikasi perusahaan yang kuat.
Granite-Vision-3.1-2b dari IBM tidak hanya meningkatkan kemampuan untuk mengintegrasikan data visual dan teks, tetapi juga memberikan perusahaan dengan alat pemrosesan dokumen yang kuat, menunjukkan potensi besar teknologi AI dalam aplikasi praktis.