ทีมงานของ LeCun และ Xie Senin ได้เปิดตัวโมเดลภาษาขนาดใหญ่หลายรูปแบบที่น่าประทับใจ Cambrian-1 ซึ่งเป็นผลงานเชิงนวัตกรรมที่ให้ความสำคัญกับวิสัยทัศน์เป็นอันดับแรก มันไม่ได้เป็นเพียงความก้าวหน้าทางเทคโนโลยีเท่านั้น แต่ยังแสดงถึงแนวคิดใหม่เกี่ยวกับการวิจัยการเรียนรู้แบบหลายรูปแบบโดยธรรมชาติของโอเพ่นซอร์สเป็นทรัพยากรที่มีคุณค่าสำหรับนักวิจัยและนักพัฒนา การออกแบบ Cambrian-1 เกี่ยวข้องกับองค์ประกอบหลัก 5 ประการ ได้แก่ การเรียนรู้การแสดงภาพ การออกแบบตัวเชื่อมต่อ การปรับแต่งข้อมูลคำสั่งอย่างละเอียด กลยุทธ์การปรับแต่งคำสั่ง และการทดสอบเกณฑ์มาตรฐาน ซึ่งทำงานได้ดีกับงานภาษาภาพ และยังเทียบได้กับโมเดลที่เป็นกรรมสิทธิ์ชั้นนำบางรุ่นอีกด้วย . อย่างไรก็ตาม ทีมวิจัยยังชี้ให้เห็นอย่างตรงไปตรงมาถึงข้อบกพร่องของแบบจำลองในด้านความสามารถในการสนทนา และตอบสนองอย่างแข็งขันด้วยการปรับปรุงวิธีการฝึกอบรม
ในโลกของ AI เราเพิ่งต้อนรับสมาชิกใหม่ที่สะดุดตาอย่าง Cambrian-1 ซึ่งเป็นโมเดลภาษาขนาดใหญ่หลายรูปแบบ (MLLM) ที่ร่วมกันสร้างโดยยักษ์ใหญ่ในอุตสาหกรรม เช่น LeCun และ Xie Saining การเกิดขึ้นของโมเดลนี้ไม่เพียงแต่เป็นการก้าวกระโดดทางเทคโนโลยีเท่านั้น แต่ยังเป็นการสะท้อนอย่างลึกซึ้งต่อการวิจัยการเรียนรู้แบบหลายรูปแบบอีกด้วย
ปรัชญาการออกแบบของ Cambrian-1 ให้ความสำคัญกับวิสัยทัศน์เป็นอันดับแรก ซึ่งมีคุณค่าอย่างยิ่งในการวิจัย AI ที่เน้นภาษาในปัจจุบัน มันเตือนเราว่าภาษาไม่ใช่วิธีเดียวที่มนุษย์จะได้รับความรู้ และประสบการณ์ทางประสาทสัมผัส เช่น การมองเห็น การได้ยิน และการสัมผัส ก็มีความสำคัญไม่แพ้กัน โอเพ่นซอร์สของ Cambrian-1 มอบทรัพยากรอันมีค่าสำหรับนักวิจัยและนักพัฒนาทุกคนที่สนใจการเรียนรู้แบบหลายรูปแบบ
การสร้างแบบจำลองนี้เกี่ยวข้องกับองค์ประกอบหลัก 5 ประการ ได้แก่ การเรียนรู้การแสดงภาพ การออกแบบตัวเชื่อมต่อ การปรับแต่งข้อมูลคำสั่งอย่างละเอียด กลยุทธ์การปรับแต่งคำสั่งอย่างละเอียด และการทดสอบเกณฑ์มาตรฐาน แต่ละองค์ประกอบคือการสำรวจเชิงลึกของพื้นที่การออกแบบ MLLM และสะท้อนถึงข้อมูลเชิงลึกที่เป็นเอกลักษณ์ของทีมวิจัยเกี่ยวกับปัญหาที่มีอยู่
เป็นที่น่าสังเกตว่าประสิทธิภาพของ Cambrian-1 ในงานภาษาภาพนั้นน่าประทับใจ ไม่เพียงแต่มีประสิทธิภาพเหนือกว่ารุ่นโอเพ่นซอร์สอื่นๆ เท่านั้น แต่ยังตรงกับรุ่นที่เป็นกรรมสิทธิ์ชั้นนำของอุตสาหกรรมในการวัดประสิทธิภาพบางอย่างอีกด้วย เบื้องหลังความสำเร็จนี้คือความคิดสร้างสรรค์ของทีมวิจัยเกี่ยวกับการปรับแต่งคำสั่งและการออกแบบตัวเชื่อมต่อ
อย่างไรก็ตาม เส้นทางการวิจัยของ Cambrian-1 ยังไม่ราบรื่นนัก นักวิจัยพบว่าแม้แต่ MLLM ที่ได้รับการฝึกอบรมมาอย่างดีก็อาจมีข้อบกพร่องในความสามารถในการสนทนา ซึ่งเป็นปรากฏการณ์ที่เรียกว่า "ปรากฏการณ์เครื่องตอบรับอัตโนมัติ" เพื่อแก้ไขปัญหานี้ พวกเขาได้เพิ่มระบบแจ้งให้การฝึกอบรมเพื่อสนับสนุนให้โมเดลมีส่วนร่วมในการสนทนาที่สมบูรณ์ยิ่งขึ้น
ความสำเร็จของ Cambrian-1 ไม่สามารถแยกออกจากทีมวิจัยที่แข็งแกร่งที่อยู่เบื้องหลังได้ ในหมู่พวกเขา Shengbang Tong เป็นหนึ่งในผู้เขียนบทความนี้ และไม่สามารถละเลยการมีส่วนร่วมของเขาได้ ปัจจุบัน เขากำลังศึกษาระดับปริญญาเอกที่มหาวิทยาลัยนิวยอร์ก ภายใต้การดูแลของศาสตราจารย์ Yann LeCun และศาสตราจารย์ Xie Saining งานวิจัยของเขามีความสนใจครอบคลุมถึงแบบจำลองโลก การเรียนรู้แบบไม่มีผู้ดูแล/ด้วยตนเอง แบบจำลองกำเนิด และแบบจำลองหลายรูปแบบ
โอเพ่นซอร์สของ Cambrian-1 นำอากาศบริสุทธิ์มาสู่ชุมชน AI ไม่เพียงแต่มอบเครื่องมือการเรียนรู้แบบหลายรูปแบบที่มีประสิทธิภาพเท่านั้น แต่ยังเป็นแรงบันดาลใจให้ผู้คนคิดอย่างลึกซึ้งเกี่ยวกับการวิจัยการเรียนรู้แบบหลายรูปแบบอีกด้วย เนื่องจากนักวิจัยและนักพัฒนาเข้าร่วมการสำรวจ Cambrian-1 มากขึ้นเรื่อยๆ เราก็มีเหตุผลที่เชื่อได้ว่าการสำรวจนี้จะกลายเป็นกำลังสำคัญในการส่งเสริมการพัฒนาเทคโนโลยี AI
ที่อยู่โครงการ: https://github.com/cambrian-mllm/cambrian
บทความ: https://arxiv.org/abs/2406.16860
การเกิดขึ้นของ Cambrian-1 ได้นำความเป็นไปได้ใหม่ๆ มาสู่วงการ AI แบบหลายรูปแบบ และลักษณะของโอเพ่นซอร์สยังส่งเสริมความร่วมมือและนวัตกรรมในวงกว้างอีกด้วย เราหวังว่า Cambrian-1 จะสามารถแสดงให้เห็นถึงความสามารถอันทรงพลังในสาขาอื่นๆ ได้มากขึ้นในอนาคต และส่งเสริมความก้าวหน้าอย่างต่อเนื่องของเทคโนโลยี AI