บรรณาธิการของ Downcodes จะพาคุณไปเรียนรู้เกี่ยวกับความก้าวหน้าล่าสุดของทีม AI ของ Alibaba! รุ่น mPLUG-DocOwl1.5 ที่เปิดตัวมีความสามารถในการทำความเข้าใจเอกสารที่ยอดเยี่ยมโดยไม่จำเป็นต้องใช้เทคโนโลยี OCR โมเดลนี้ทำลายคอขวดของการทำความเข้าใจเอกสารแบบเดิมๆ และเรียนรู้ที่จะเข้าใจเนื้อหาเอกสารโดยตรงจากรูปภาพ ประสิทธิภาพและความแม่นยำนั้นน่าทึ่งมาก ไม่เพียงแต่สามารถประมวลผลเอกสารธรรมดาเท่านั้น แต่ยังรองรับเอกสารประเภทต่างๆ เช่น ตาราง แผนภูมิ เว็บเพจ และรูปภาพธรรมชาติ ซึ่งแสดงให้เห็นถึงความสามารถในการปรับตัวและการประมวลผลที่แข็งแกร่ง มาดูข้อดีและทิศทางการพัฒนาในอนาคตของโมเดล AI ที่ล้ำสมัยนี้กันดีกว่า
เมื่อเร็วๆ นี้ ทีมวิจัย AI ของอาลีบาบามีความก้าวหน้าอย่างน่าประทับใจในด้านการทำความเข้าใจเอกสาร โดยได้เปิดตัว mPLUG-DocOwl1.5 ซึ่งเป็นโมเดลล้ำสมัยที่ทำงานได้อย่างยอดเยี่ยมในการทำความเข้าใจเอกสารที่ปราศจาก OCR
ในอดีต เมื่อต้องรับมือกับงานทำความเข้าใจเอกสาร เรามักจะใช้เทคโนโลยี OCR เพื่อแยกข้อความออกจากรูปภาพ แต่มักประสบปัญหาเลย์เอาต์ที่ซับซ้อนและสัญญาณรบกวนทางภาพ mPLUG-DocOwl1.5 ใช้เฟรมเวิร์กการเรียนรู้โครงสร้างแบบครบวงจรใหม่เพื่อเรียนรู้และทำความเข้าใจเอกสารโดยตรงจากรูปภาพ เพื่อหลีกเลี่ยงปัญหาคอขวดนี้อย่างชาญฉลาด
แบบจำลองนี้ครอบคลุมห้าส่วน ได้แก่ เอกสารธรรมดา ตาราง แผนภูมิ เว็บเพจ และรูปภาพธรรมชาติ โดยการวิเคราะห์เค้าโครงและความสามารถขององค์กรของเอกสารในสาขาต่างๆ ไม่เพียงแต่จดจำข้อความได้อย่างถูกต้องเท่านั้น แต่ยังใช้องค์ประกอบต่างๆ เช่น การเว้นวรรคและการขึ้นบรรทัดใหม่เมื่อทำความเข้าใจโครงสร้างของเอกสารอีกด้วย
สำหรับตาราง โมเดลสามารถสร้างรูปแบบ Markdown ที่มีโครงสร้าง และเมื่อแยกวิเคราะห์แผนภูมิ โมเดลจะแปลงเป็นตารางข้อมูลโดยการทำความเข้าใจความสัมพันธ์ระหว่างคำอธิบาย แกน และค่า นอกจากนี้ mPLUG-DocOwl1.5 ยังมีความสามารถในการแยกข้อความจากภาพที่เป็นธรรมชาติอีกด้วย
ในแง่ของการแปลข้อความ mPLUG-DocOwl1.5 สามารถระบุและค้นหาคำ วลี บรรทัด และบล็อก เพื่อให้มั่นใจว่ามีการจัดตำแหน่งที่แม่นยำระหว่างพื้นที่ข้อความและรูปภาพ สถาปัตยกรรม H-Reducer ที่อยู่เบื้องหลังผสมผสานคุณสมบัติการมองเห็นในแนวนอนผ่านการดำเนินการแบบ Convolution โดยคงรูปแบบเชิงพื้นที่ในขณะที่ลดความยาวของลำดับ จึงช่วยปรับปรุงประสิทธิภาพการประมวลผล
เพื่อฝึกโมเดลนี้ ทีมวิจัยได้ใช้ชุดข้อมูลที่คัดเลือกมาอย่างดีสองชุด DocStruct4M เป็นชุดข้อมูลขนาดใหญ่ที่เน้นการเรียนรู้โครงสร้างแบบครบวงจร และ DocReason25K จะทดสอบความสามารถในการให้เหตุผลของโมเดลผ่านการถามและตอบทีละขั้นตอน
ผลลัพธ์แสดงให้เห็นว่า mPLUG-DocOwl1.5 สร้างสถิติใหม่ในการทดสอบเกณฑ์มาตรฐานสิบครั้ง โดยได้รับการปรับปรุงมากกว่า 10 คะแนนในครึ่งหนึ่งของงานเมื่อเทียบกับรุ่นที่คล้ายกัน นอกจากนี้ยังแสดงให้เห็นถึงทักษะการใช้เหตุผลด้วยวาจาที่ยอดเยี่ยม และสามารถสร้างคำอธิบายโดยละเอียดทีละขั้นตอนสำหรับคำตอบได้
แม้ว่า mPLUG-DocOwl1.5 จะมีความก้าวหน้าอย่างมากในหลาย ๆ ด้าน แต่นักวิจัยยังตระหนักว่ายังมีช่องว่างสำหรับการปรับปรุงโมเดลนี้ โดยเฉพาะอย่างยิ่งในการจัดการกับข้อความที่ไม่สอดคล้องกันหรือข้อความที่ไม่ถูกต้อง ในอนาคต ทีมงานหวังว่าจะขยายกรอบการเรียนรู้โครงสร้างแบบครบวงจรให้ครอบคลุมประเภทเอกสารและงานต่างๆ มากขึ้น และส่งเสริมการพัฒนาเอกสาร AI ต่อไป
บทความ: https://arxiv.org/abs/2403.12895
รหัส: https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5
ไฮไลท์:
mPLUG-DocOwl1.5 เป็นโมเดล AI ที่ทำงานได้อย่างยอดเยี่ยมในการทำความเข้าใจเอกสารโดยไม่ต้องใช้ OCR
โมเดลสามารถวิเคราะห์เค้าโครงเอกสาร ครอบคลุมเอกสารหลายประเภท และเรียนรู้โดยตรงจากรูปภาพ
mPLUG-DocOwl1.5 สร้างสถิติใหม่ในการทดสอบเกณฑ์มาตรฐานสิบครั้ง ซึ่งแสดงให้เห็นถึงความสามารถในการให้เหตุผลทางภาษาที่เหนือกว่า
การเกิดขึ้นของ mPLUG-DocOwl1.5 ถือเป็นหลักชัยใหม่ในเทคโนโลยีการทำความเข้าใจเอกสาร ประสิทธิภาพ ความแม่นยำ และความสามารถในการปรับตัวที่แข็งแกร่งทำให้มีความเป็นไปได้ไม่จำกัดสำหรับการประมวลผลเอกสารและการดึงข้อมูลในอนาคต บรรณาธิการของ Downcodes เชื่อว่าด้วยความก้าวหน้าทางเทคโนโลยีอย่างต่อเนื่อง mPLUG-DocOwl1.5 จะมีบทบาทสำคัญในสาขาต่างๆ มากขึ้นและนำประสบการณ์การประมวลผลข้อมูลที่ชาญฉลาดยิ่งขึ้นมาให้เรา