มหาวิทยาลัยปักกิ่งและทีมวิจัยทางวิทยาศาสตร์อื่นๆ ได้เปิดตัวแบบจำลองโอเพ่นซอร์สหลายรูปแบบ LLaVA-o1 แบบจำลองนี้แสดงให้เห็นถึงข้อได้เปรียบที่สำคัญในด้านการให้เหตุผลแบบหลายรูปแบบ และเป็นที่รู้จักในฐานะแบบจำลองภาษาภาพตัวแรกที่สามารถให้เหตุผลตามธรรมชาติและเป็นระบบได้ ประสิทธิภาพเทียบได้กับ GPT-o1 LLaVA-o1 ใช้กลไกการให้เหตุผล "การคิดช้า" เพื่อแบ่งกระบวนการให้เหตุผลออกเป็นสี่ขั้นตอน: สรุป คำอธิบายด้วยภาพ การใช้เหตุผลเชิงตรรกะ และการสร้างข้อสรุป หลีกเลี่ยงข้อผิดพลาดที่เกิดจากการลดความซับซ้อนของกระบวนการให้เหตุผลแบบจำลองแบบดั้งเดิมได้อย่างมีประสิทธิภาพ โมเดลดังกล่าวมีประสิทธิภาพเหนือกว่าคู่แข่งหลายรายด้วยเกณฑ์มาตรฐานที่ท้าทาย 6 รายการ และเหนือกว่าการเปรียบเทียบกับโมเดลขนาดใหญ่หรือรุ่นปิด โดยมีเวอร์ชันพารามิเตอร์ 11B ที่โดดเด่น
เมื่อเร็วๆ นี้ มหาวิทยาลัยปักกิ่งและทีมวิจัยทางวิทยาศาสตร์อื่นๆ ได้ประกาศเปิดตัวโมเดลโอเพ่นซอร์สหลายรูปแบบที่เรียกว่า LLaVA-o1 ซึ่งกล่าวกันว่าเป็นโมเดลภาษาภาพตัวแรกที่สามารถให้เหตุผลได้อย่างเป็นธรรมชาติและเป็นระบบ เทียบได้กับ GPT-o1
โมเดลนี้ทำงานได้ดีบนเกณฑ์มาตรฐานหลายรูปแบบที่ท้าทายหกรายการ โดยเวอร์ชันพารามิเตอร์ 11B มีประสิทธิภาพเหนือกว่าคู่แข่งอื่นๆ เช่น Gemini-1.5-pro, GPT-4o-mini และ Llama-3.2-90B-Vision- Instruct
LLaVA-o1 ใช้โมเดล Llama-3.2-Vision และใช้กลไกการให้เหตุผล "การคิดช้า" ซึ่งสามารถดำเนินการกระบวนการให้เหตุผลที่ซับซ้อนมากขึ้นได้อย่างอิสระ ซึ่งเหนือกว่าวิธีพร้อมท์ห่วงโซ่การคิดแบบดั้งเดิม
สำหรับเกณฑ์มาตรฐานการอนุมานหลายรูปแบบ LLaVA-o1 มีประสิทธิภาพเหนือกว่ารุ่นพื้นฐานถึง 8.9% แบบจำลองนี้มีลักษณะเฉพาะตรงที่กระบวนการให้เหตุผลแบ่งออกเป็นสี่ขั้นตอน: สรุป คำอธิบายด้วยภาพ การใช้เหตุผลเชิงตรรกะ และการสร้างข้อสรุป ในแบบจำลองแบบดั้งเดิม กระบวนการให้เหตุผลมักจะค่อนข้างง่ายและสามารถนำไปสู่คำตอบที่ผิดได้อย่างง่ายดาย ในขณะที่ LLaVA-o1 รับประกันผลลัพธ์ที่แม่นยำยิ่งขึ้นผ่านการให้เหตุผลหลายขั้นตอนที่มีโครงสร้าง
ตัวอย่างเช่น เมื่อแก้ไขปัญหา "มีวัตถุเหลืออยู่กี่ชิ้นหลังจากลบลูกบอลสว่างขนาดเล็กและวัตถุสีม่วงทั้งหมด" LLaVA-o1 จะสรุปปัญหาก่อน จากนั้นจึงดึงข้อมูลจากรูปภาพ จากนั้นให้เหตุผลทีละขั้นตอน และสุดท้ายก็ให้คำตอบ แนวทางแบบเป็นขั้นนี้จะปรับปรุงความสามารถในการให้เหตุผลอย่างเป็นระบบของแบบจำลอง ทำให้มีประสิทธิภาพมากขึ้นในการจัดการปัญหาที่ซับซ้อน
เป็นที่น่าสังเกตว่า LLaVA-o1 แนะนำวิธีการค้นหาลำแสงระดับขั้นตอนในกระบวนการอนุมาน แนวทางนี้ช่วยให้แบบจำลองสร้างคำตอบของผู้สมัครได้หลายคำตอบในแต่ละขั้นตอนการอนุมาน และเลือกคำตอบที่ดีที่สุดเพื่อดำเนินการต่อไปยังขั้นถัดไปของการอนุมาน ซึ่งจะช่วยปรับปรุงคุณภาพการอนุมานโดยรวมได้อย่างมาก ด้วยการปรับแต่งอย่างละเอียดภายใต้การดูแลและข้อมูลการฝึกที่สมเหตุสมผล LLaVA-o1 ทำงานได้ดีเมื่อเปรียบเทียบกับโมเดลที่ใหญ่กว่าหรือแบบปิด
ผลการวิจัยของทีมมหาวิทยาลัยปักกิ่งไม่เพียงแต่ส่งเสริมการพัฒนา AI หลายรูปแบบเท่านั้น แต่ยังให้แนวคิดและวิธีการใหม่ๆ สำหรับโมเดลการทำความเข้าใจภาษาภาพในอนาคต ทีมงานระบุว่าโค้ด น้ำหนักก่อนการฝึก และชุดข้อมูลของ LLaVA-o1 จะเป็นโอเพ่นซอร์สโดยสมบูรณ์ และพวกเขาหวังว่าจะมีนักวิจัยและนักพัฒนาจำนวนมากขึ้นร่วมกันสำรวจและประยุกต์ใช้โมเดลเชิงนวัตกรรมนี้
บทความ: https://arxiv.org/abs/2411.10440
GitHub: https://github.com/PKU-YuanGroup/LLaVA-o1
ไฮไลท์:
LLaVA-o1 คือโมเดลการให้เหตุผลแบบหลายรูปแบบใหม่ที่เผยแพร่โดยมหาวิทยาลัยปักกิ่งและทีมอื่นๆ โดยมีความสามารถในการให้เหตุผลแบบ "คิดช้า"
โมเดลนี้มีประสิทธิภาพเหนือกว่าโมเดลพื้นฐานถึง 8.9% ในการทดสอบเกณฑ์มาตรฐานการอนุมานหลายรูปแบบ
LLaVA-o1 รับประกันความถูกต้องแม่นยำผ่านการให้เหตุผลแบบมีโครงสร้างหลายขั้นตอน และจะเปิดให้บริการแบบโอเพ่นซอร์สในอนาคตอันใกล้นี้
โอเพ่นซอร์สของ LLaVA-o1 จะส่งเสริมการวิจัยและพัฒนาในด้าน AI หลายรูปแบบ และมอบรากฐานที่มั่นคงสำหรับการสร้างแบบจำลองภาษาภาพที่ชาญฉลาดและทรงพลังยิ่งขึ้น เราหวังว่าจะได้เห็นศักยภาพของโมเดลนี้มากขึ้นในการใช้งานในอนาคต เอกสารและลิงก์ GitHub ช่วยให้นักวิจัยเข้าใจและใช้แบบจำลองในเชิงลึกได้