IBM เผยแพร่รูปแบบภาษาภาพ Granite-Vision-3.1-2B เพื่อแยกวิเคราะห์เอกสารที่ซับซ้อนได้อย่างง่ายดาย-บทความ AI

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-02-15 02:00:02

ด้วยการพัฒนาอย่างรวดเร็วของเทคโนโลยีปัญญาประดิษฐ์การบูรณาการของการมองเห็นและข้อมูลข้อความได้กลายเป็นความท้าทายที่สำคัญ แบบจำลองดั้งเดิมมีข้อ จำกัด มากมายเมื่อต้องรับมือกับเอกสารภาพที่มีโครงสร้างซึ่งส่งผลต่อการสกัดเนื้อหาและความเข้าใจอัตโนมัติ Granite-Vision-3.1-2B ที่เพิ่งเปิดตัวโดย IBM เป็นรูปแบบภาษาภาพที่ออกแบบมาเพื่อแก้ปัญหานี้

ด้วยการพัฒนาอย่างต่อเนื่องของเทคโนโลยีปัญญาประดิษฐ์การบูรณาการของการมองเห็นและข้อมูลข้อความได้กลายเป็นความท้าทายที่ซับซ้อน แบบจำลองดั้งเดิมมักจะมีปัญหาในการแยกวิเคราะห์เอกสารภาพที่มีโครงสร้างอย่างถูกต้องเช่นตารางแผนภูมิอินโฟกราฟิกและภาพประกอบ ต้องเผชิญกับความต้องการนี้ IBM เพิ่งเปิดตัว Granite-Vision-3.1-2B ซึ่งเป็นรูปแบบภาษาภาพขนาดเล็กที่ออกแบบมาเพื่อทำความเข้าใจเอกสาร

Granite-Vision-3.1-2B มีความสามารถในการแยกเนื้อหาจากรูปแบบภาพที่หลากหลายรวมถึงตารางแผนภูมิและภาพประกอบ แบบจำลองได้รับการฝึกฝนในชุดข้อมูลที่เลือกอย่างระมัดระวังพร้อมแหล่งข้อมูลรวมถึงแหล่งข้อมูลสาธารณะและสังเคราะห์สามารถจัดการงานที่เกี่ยวข้องกับเอกสารได้หลากหลาย ในฐานะที่เป็นรุ่นที่ได้รับการปรับปรุงให้ดีขึ้นของโมเดลภาษาขนาดใหญ่ของ Granite จึงรวมภาพสองรูปแบบของภาพและข้อความดังนั้นจึงปรับปรุงความสามารถในการตีความของแบบจำลองและเหมาะสำหรับสถานการณ์แอปพลิเคชันที่หลากหลาย

โมเดลประกอบด้วยสามองค์ประกอบสำคัญ: อันดับแรกตัวเข้ารหัสภาพซึ่งประมวลผลและเข้ารหัสข้อมูลภาพอย่างมีประสิทธิภาพโดยใช้ siglip; ข้อมูลภาพที่มีข้อมูลข้อความ;

ในระหว่างการฝึกอบรม Granite-Vision-3.1-2B ดึง LLAVA และรวมคุณสมบัติของตัวเข้ารหัสหลายชั้นรวมถึงความละเอียดกริดหนาแน่นใน Anyres การปรับปรุงเหล่านี้ช่วยเพิ่มความสามารถของโมเดลในการทำความเข้าใจเนื้อหาภาพโดยละเอียดทำให้สามารถทำงานเอกสารภาพได้อย่างแม่นยำยิ่งขึ้นเช่นการวิเคราะห์ตารางและแผนภูมิการจดจำอักขระแบบออพติคอล (OCR) และการตอบแบบสอบถามตามเอกสาร

ผลการประเมินแสดงให้เห็นว่า Granite-Vision-3.1-2B ทำงานได้ดีในการเปรียบเทียบหลายแบบโดยเฉพาะอย่างยิ่งในการทำความเข้าใจเอกสาร ในเกณฑ์มาตรฐานของ Chartqa โมเดลได้คะแนน 0.86 ซึ่งเหนือกว่ารุ่นอื่น ๆ ที่มีพารามิเตอร์ในช่วง 1b-4b ในเกณฑ์มาตรฐาน TextVQA คะแนนคือ 0.76 แสดงความสามารถที่แข็งแกร่งในการแยกวิเคราะห์และตอบข้อมูลข้อความที่ฝังอยู่ในภาพ ผลลัพธ์เหล่านี้เน้นถึงศักยภาพของโมเดลสำหรับการประมวลผลข้อมูลภาพและข้อความที่แม่นยำในแอปพลิเคชันระดับองค์กร

Granite-Vision-3.1-2B ของ IBM แสดงถึงความก้าวหน้าที่สำคัญในรูปแบบภาษาภาพและเป็นวิธีแก้ปัญหาการทำความเข้าใจเอกสารภาพที่สมดุล สถาปัตยกรรมและวิธีการฝึกอบรมช่วยให้สามารถแยกวิเคราะห์และวิเคราะห์ข้อมูลภาพและข้อความที่ซับซ้อนได้อย่างมีประสิทธิภาพ ด้วยการสนับสนุนแบบดั้งเดิมสำหรับหม้อแปลงและ VLLM แบบจำลองสามารถปรับให้เข้ากับกรณีการใช้งานที่หลากหลายและสามารถนำไปใช้ในสภาพแวดล้อมคลาวด์เช่น Colab T4 ให้นักวิจัยและผู้เชี่ยวชาญด้วยเครื่องมือที่ใช้งานได้จริงเพื่อเพิ่มความสามารถในการประมวลผลเอกสารที่ขับเคลื่อนด้วย AI

รุ่น: https://huggingface.co/ibm-granite/granite-vision-3.1-2b-preview

ประเด็นสำคัญ:

Granite-Vision-3.1-2B เป็นรูปแบบภาษาภาพขนาดเล็กที่ออกแบบมาเป็นพิเศษสำหรับการทำความเข้าใจเอกสารโดย IBM ซึ่งสามารถจัดการการสกัดเนื้อหาในรูปแบบภาพหลายรูปแบบ

โมเดลประกอบด้วยสามส่วน: ตัวเข้ารหัสภาพตัวเชื่อมต่อภาษาภาพและโมเดลภาษาขนาดใหญ่ซึ่งช่วยปรับปรุงความเข้าใจของอินพุตที่ซับซ้อน

ยอดเยี่ยมในการวัดจำนวนหลายอย่างโดยเฉพาะอย่างยิ่งในด้านความเข้าใจของเอกสารแสดงให้เห็นถึงศักยภาพของแอปพลิเคชันองค์กรที่แข็งแกร่ง

Granite-Vision-3.1-2B ของ IBM ไม่เพียง แต่ปรับปรุงความสามารถในการรวมข้อมูลภาพและข้อความ แต่ยังให้เครื่องมือการประมวลผลเอกสารที่มีประสิทธิภาพแสดงให้เห็นถึงศักยภาพที่ยิ่งใหญ่ของเทคโนโลยี AI ในการใช้งานจริง