ซีรีส์Tülu3 รุ่นล่าสุดที่ออกโดยสถาบันปัญญาประดิษฐ์อัลเลน (AI2) ได้นำความก้าวหน้าที่น่าประทับใจมาสู่โมเดลภาษาโอเพ่นซอร์ส Tülu3 ไม่เพียงแต่สามารถเทียบเคียงได้ในด้านประสิทธิภาพกับโมเดลโอเพ่นซอร์ส เช่น GPT-4o-mini เท่านั้น แต่ที่สำคัญกว่านั้น Tülu3 ยังเป็นโอเพ่นซอร์สโดยสมบูรณ์และให้ข้อมูลการฝึกอบรม โค้ด สูตรการฝึกอบรม และเฟรมเวิร์กการประเมินผลที่ครอบคลุม ซึ่งมีความสำคัญต่อการส่งเสริมระบบเปิด ต้นแบบการพัฒนาเทคโนโลยีการฝึกอบรมมีความสำคัญอย่างยิ่ง ช่วยแก้ปัญหาต่างๆ ที่มีอยู่ในการประยุกต์ใช้แบบจำลองก่อนการฝึกอบรมแบบดั้งเดิมในทางปฏิบัติ เช่น การสร้างข้อมูลที่เป็นอันตรายและความยากลำบากในการทำตามคำแนะนำ ฯลฯ และนำความเป็นไปได้ใหม่ๆ มาสู่การวิจัยและการประยุกต์ใช้ในด้านปัญญาประดิษฐ์
ในด้านปัญญาประดิษฐ์ เทคโนโลยีหลังการฝึกอบรมกำลังค่อยๆ กลายเป็นวิธีการสำคัญในการปรับปรุงประสิทธิภาพของโมเดล เมื่อเร็วๆ นี้ สถาบันปัญญาประดิษฐ์แห่งอัลเลน (AI2) ได้เปิดตัวโมเดลซีรีส์Tülu3 ซึ่งเป็นโมเดลภาษาขั้นสูงแบบโอเพ่นซอร์สโดยสมบูรณ์ พร้อมประสิทธิภาพเทียบได้กับโมเดลโอเพนซอร์ส เช่น GPT-4o-mini Tülu3 ไม่เพียงแต่มีข้อมูลโมเดล โค้ด และสูตรการฝึกอบรมเท่านั้น แต่ยังจัดเตรียมเฟรมเวิร์กการประเมินผล โดยมีจุดมุ่งหมายเพื่อส่งเสริมการพัฒนาเทคโนโลยีหลังการฝึกอบรมโมเดลโอเพ่นซอร์ส
โดยทั่วไปแล้ว โมเดลที่ได้รับการฝึกล่วงหน้าเพียงอย่างเดียวมักไม่มีประสิทธิภาพในการตอบสนองความต้องการในการใช้งานจริง อาจก่อให้เกิดข้อมูลที่เป็นพิษหรือเป็นอันตราย และยากต่อการปฏิบัติตามคำสั่งของมนุษย์ ดังนั้นขั้นตอนหลังการฝึกอบรม เช่น การปรับคำสั่งอย่างละเอียด และการเรียนรู้ผลตอบรับจากมนุษย์จึงมีความสำคัญอย่างยิ่ง อย่างไรก็ตาม วิธีเพิ่มประสิทธิภาพกระบวนการหลังการฝึกอบรมยังคงเป็นปัญหาทางเทคนิค โดยเฉพาะอย่างยิ่งเมื่อปรับปรุงความสามารถหนึ่งของโมเดล อาจส่งผลต่อความสามารถอื่นๆ
เพื่อที่จะเอาชนะปัญหานี้ บริษัทใหญ่ๆ ได้เพิ่มความซับซ้อนของวิธีการหลังการฝึกอบรม โดยพยายามฝึกอบรมหลายรอบและรวมข้อมูลเทียมและข้อมูลสังเคราะห์ แต่วิธีการส่วนใหญ่ยังคงเป็นแหล่งข้อมูลแบบปิด ในทางตรงกันข้าม การเปิดตัวซีรีส์ Tülu3 ได้ทำลายช่องว่างด้านประสิทธิภาพระหว่างโมเดลโอเพ่นซอร์สและโมเดลโอเพนซอร์ส และทำให้เกิดแนวคิดการฝึกอบรมใหม่ๆ
กระบวนการฝึกอบรมของ Tülu3 แบ่งออกเป็นสี่ขั้นตอน: การสร้างข้อมูล การปรับแต่งแบบละเอียดภายใต้การดูแล การปรับการตั้งค่า และการเรียนรู้แบบเสริมกำลังพร้อมรางวัลที่ตรวจสอบได้
ขั้นแรก นักวิจัยมุ่งเน้นไปที่ทักษะหลักของแบบจำลอง และสร้างข้อมูลการฝึกอบรมโดยการรวมข้อมูลประดิษฐ์เข้ากับข้อมูลสังเคราะห์
ประการที่สอง มีการดำเนินการปรับแต่งอย่างละเอียดภายใต้การดูแลเพื่อให้แน่ใจว่าโมเดลนั้นมีประสิทธิภาพเช่นเดียวกับโมเดลที่ล้ำสมัยอื่นๆ เกี่ยวกับทักษะเฉพาะ
ประการที่สาม ใช้วิธีเพิ่มประสิทธิภาพการตั้งค่าโดยตรงเพื่อปรับปรุงประสิทธิภาพโดยรวมของแบบจำลองต่อไป สุดท้ายนี้ มีการนำเสนอวิธีการที่เป็นนวัตกรรมใหม่ของการเรียนรู้การเสริมรางวัลที่ตรวจสอบได้เพื่อช่วยให้แบบจำลองทำงานได้ดีขึ้นด้วยผลลัพธ์ที่ตรวจสอบได้
โมเดล Tülu3 สร้างขึ้นบนพื้นฐานของ Llama3.1 และมีประสิทธิภาพดีเยี่ยมในด้านต่างๆ เช่น การใช้เหตุผล คณิตศาสตร์ การเขียนโปรแกรม และการปฏิบัติตามคำสั่ง เมื่อเปรียบเทียบกับรุ่นโอเพ่นซอร์สและโอเพ่นซอร์สอื่นๆ ความสามารถที่ครอบคลุมของ Tülu3 ทำงานได้ดีในเกณฑ์มาตรฐานต่างๆ ซึ่งถือเป็นความก้าวหน้าครั้งสำคัญในเทคโนโลยีการฝึกอบรมหลังโอเพ่นซอร์ส
ลิงค์บทความ: https://allenai.org/papers/tulu-3-report.pdf
การสาธิต:https://playground.allenai.org/
ไฮไลท์:
? Tülu3 เป็นโมเดลภาษาโอเพ่นซอร์สที่ AI2 เปิดตัว ซึ่งมีประสิทธิภาพเทียบเท่ากับโมเดลโอเพ่นซอร์ส เช่น GPT-4o-mini
เทคโนโลยีหลังการฝึกอบรมมีความสำคัญและสามารถปรับปรุงประสิทธิภาพของแบบจำลองในการใช้งานจริงได้อย่างมีประสิทธิภาพ
กระบวนการฝึกอบรมเชิงนวัตกรรมของTülu3แบ่งออกเป็นสี่ขั้นตอน: การสร้างข้อมูล การปรับแต่งแบบมีผู้ดูแล การปรับการตั้งค่า และการเรียนรู้การเสริมรางวัลที่ตรวจสอบได้
ลักษณะโอเพ่นซอร์สของ Tülu3 ช่วยให้นักวิจัยศึกษาวิธีการฝึกอบรมอย่างลึกซึ้ง และปรับปรุงและสร้างสรรค์บนพื้นฐานนี้ ซึ่งจะส่งเสริมการพัฒนาแบบจำลองภาษาโอเพ่นซอร์สอย่างมาก ประสิทธิภาพที่ยอดเยี่ยมในหลายสาขายังบ่งชี้ว่าโมเดลโอเพ่นซอร์สจะมีบทบาทสำคัญมากขึ้นในอนาคต คาดว่าTülu3จะสามารถส่งเสริมความนิยมและการประยุกต์ใช้เทคโนโลยีปัญญาประดิษฐ์ต่อไปได้