โมเดลภาษาภาพ (VLM) มีความก้าวหน้าอย่างมากในด้านปัญญาประดิษฐ์ แต่ยังคงเผชิญกับความท้าทายในการประมวลผลภาพความละเอียดสูงและข้อความที่หลากหลาย โมเดลที่มีอยู่มักใช้ตัวเข้ารหัสภาพแบบคงที่ ซึ่งไม่มีประสิทธิภาพและขาดความแม่นยำในชุดข้อมูลที่แตกต่างกัน การขาดความหลากหลายและความเฉพาะเจาะจงของงานในชุดข้อมูลการฝึกอบรมยังจำกัดประสิทธิภาพ โดยเฉพาะอย่างยิ่งในงานเฉพาะด้าน เช่น การตีความกราฟ
ด้วยการพัฒนาอย่างรวดเร็วของปัญญาประดิษฐ์ การบูรณาการความสามารถด้านภาพและภาษาได้นำไปสู่ความก้าวหน้าที่ก้าวหน้าในแบบจำลองภาษาภาพ (VLM) โมเดลเหล่านี้ได้รับการออกแบบมาเพื่อประมวลผลและทำความเข้าใจข้อมูลภาพและข้อมูลข้อความไปพร้อมๆ กัน และมีการใช้กันอย่างแพร่หลายในสถานการณ์ต่างๆ เช่น คำอธิบายรูปภาพ การตอบคำถามด้วยภาพ การรู้จำอักขระด้วยภาพ และการวิเคราะห์เนื้อหาหลายรูปแบบ
VLM มีบทบาทสำคัญในการพัฒนาระบบอัตโนมัติ ปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์ที่ได้รับการปรับปรุง และเครื่องมือการประมวลผลเอกสารที่มีประสิทธิภาพ ซึ่งช่วยลดช่องว่างระหว่างรูปแบบข้อมูลทั้งสองนี้ได้สำเร็จ อย่างไรก็ตาม ยังมีความท้าทายหลายประการในการประมวลผลข้อมูลภาพที่มีความละเอียดสูงและการป้อนข้อความที่หลากหลาย
การวิจัยในปัจจุบันได้กล่าวถึงข้อจำกัดเหล่านี้บางส่วน แต่ตัวเข้ารหัสภาพแบบคงที่ที่โมเดลส่วนใหญ่นำมาใช้นั้นขาดความสามารถในการปรับตัวที่ความละเอียดสูงและขนาดอินพุตที่แปรผันได้ ในเวลาเดียวกัน การรวมกันของแบบจำลองภาษาที่ได้รับการฝึกอบรมล่วงหน้ากับตัวเข้ารหัสภาพมักจะส่งผลให้เกิดความไร้ประสิทธิภาพ เนื่องจากไม่ได้รับการปรับให้เหมาะสมสำหรับงานหลายรูปแบบ แม้ว่าบางรุ่นจะแนะนำเทคนิคการประมวลผลแบบกระจัดกระจายเพื่อจัดการความซับซ้อน แต่ความแม่นยำของชุดข้อมูลที่แตกต่างกันยังคงไม่เพียงพอ นอกจากนี้ ชุดข้อมูลการฝึกของโมเดลที่มีอยู่มักจะขาดความหลากหลายและความเฉพาะเจาะจงของงาน ซึ่งจำกัดประสิทธิภาพการทำงานมากขึ้น ตัวอย่างเช่น โมเดลจำนวนมากทำงานได้ไม่ดีในงานพิเศษ เช่น การตีความแผนภูมิหรือการวิเคราะห์เอกสารที่มีความหนาแน่นสูง
เมื่อเร็วๆ นี้ DeepSeek-AI ได้เปิดตัวซีรีส์ภาษาภาพสำหรับผู้เชี่ยวชาญด้านโอเพ่นซอร์สไฮบริด (MoE) ซีรีส์ DeepSeek-VL2 ใหม่ โมเดลในซีรีส์นี้ผสมผสานเทคโนโลยีที่เป็นนวัตกรรมล้ำสมัย รวมถึงการแบ่งส่วนการเข้ารหัสภาพแบบไดนามิก กลไกความสนใจแฝงแบบหลายหัว และเฟรมเวิร์ก DeepSeek-MoE
ซีรีส์ DeepSeek-VL2 มีการกำหนดค่าพารามิเตอร์ที่แตกต่างกันสามแบบ:
- DeepSeek-VL2-Tiny: 3.37 พันล้านพารามิเตอร์ (พารามิเตอร์การเปิดใช้งาน 1 พันล้านพารามิเตอร์)
- DeepSeek-VL2-Small: 16.1 พันล้านพารามิเตอร์ (พารามิเตอร์การเปิดใช้งาน 2.8 พันล้านพารามิเตอร์)
- DeepSeek-VL2: 27.5 พันล้านพารามิเตอร์ (พารามิเตอร์การเปิดใช้งาน 4.5 พันล้านพารามิเตอร์)
ความสามารถในการปรับขนาดนี้ทำให้มั่นใจได้ถึงความสามารถในการปรับให้เข้ากับความต้องการของแอปพลิเคชันและงบประมาณในการประมวลผลที่แตกต่างกัน
สถาปัตยกรรมของ DeepSeek-VL2 ได้รับการออกแบบมาเพื่อเพิ่มประสิทธิภาพการทำงานในขณะที่ลดความต้องการในการคำนวณ วิธีการแบ่งส่วนแบบไดนามิกช่วยให้มั่นใจได้ว่าภาพที่มีความละเอียดสูงจะได้รับการประมวลผลโดยไม่สูญเสียรายละเอียดที่สำคัญ ทำให้เหมาะสำหรับการวิเคราะห์เอกสารและงานโลคัลไลเซชันภาพ นอกจากนี้ กลไกความสนใจแฝงแบบหลายหัวช่วยให้โมเดลสามารถประมวลผลข้อมูลข้อความจำนวนมากได้อย่างมีประสิทธิภาพ ลดค่าใช้จ่ายในการคำนวณซึ่งโดยทั่วไปเกี่ยวข้องกับการประมวลผลการป้อนข้อมูลภาษาหนาแน่น การฝึกอบรมของ DeepSeek-VL2 ครอบคลุมชุดข้อมูลหลายรูปแบบ ทำให้สามารถทำงานได้ดีในงานต่างๆ เช่น การรู้จำอักขระด้วยภาพ การตอบคำถามด้วยภาพ และการตีความแผนภูมิ
จากการทดสอบประสิทธิภาพ การกำหนดค่าขนาดเล็กได้รับความแม่นยำ 92.3% ในงานการรู้จำอักขระด้วยแสง ซึ่งเหนือกว่ารุ่นที่มีอยู่อย่างมาก ในการทดสอบเกณฑ์มาตรฐานด้านการมองเห็น โมเดลดังกล่าวได้รับการปรับปรุงความแม่นยำขึ้น 15% เมื่อเทียบกับผลิตภัณฑ์รุ่นก่อนหน้า
ในเวลาเดียวกัน DeepSeek-VL2 ช่วยลดความต้องการทรัพยากรการประมวลผลลง 30% ในขณะที่ยังคงความแม่นยำที่ล้ำสมัย ผลลัพธ์เหล่านี้แสดงให้เห็นถึงความเหนือกว่าของรุ่นนี้ในด้านการประมวลผลภาพและข้อความที่มีความละเอียดสูง
ทางเข้าโครงการ: https://huggingface.co/collections/deepseek-ai/deepseek-vl2-675c22accc456d3beb4613ab
ไฮไลท์:
ซีรีส์ DeepSeek-VL2 มีการกำหนดค่าพารามิเตอร์ที่หลากหลายเพื่อปรับให้เข้ากับความต้องการใช้งานที่แตกต่างกัน
เทคโนโลยีการแบ่งส่วนแบบไดนามิกช่วยปรับปรุงประสิทธิภาพของการประมวลผลภาพที่มีความละเอียดสูง และเหมาะสำหรับการวิเคราะห์เอกสารที่ซับซ้อน
โมเดลนี้ทำงานได้ดีกับงานการรู้จำอักขระด้วยแสงและการแปลด้วยภาพ โดยมีการปรับปรุงความแม่นยำอย่างมาก
รุ่นซีรีส์ DeepSeek-VL2 ได้นำความก้าวหน้าครั้งใหม่มาสู่ขอบเขตของโมเดลภาษาภาพด้วยสถาปัตยกรรมที่เป็นนวัตกรรมใหม่และประสิทธิภาพที่ยอดเยี่ยม ข้อดีของภาพความละเอียดสูงและการประมวลผลข้อความที่ซับซ้อนทำให้มีศักยภาพที่ดีเยี่ยมในสถานการณ์การใช้งานต่างๆ และสมควรได้รับความสนใจและการวิจัยเพิ่มเติม