บรรณาธิการของ Downcodes ได้เรียนรู้ว่านักวิจัยจาก Meta FAIR, University of California, Berkeley และ New York University ร่วมมือกันพัฒนาเทคโนโลยีใหม่ที่เรียกว่า Thinking Preference Optimization (TPO) ซึ่งมีเป้าหมายเพื่อปรับปรุงการประมวลผลคำสั่งและการประมวลผลแบบจำลองภาษาขนาดใหญ่อย่างมีนัยสำคัญ (LLM) คุณภาพการตอบสนอง เทคโนโลยีนี้ทลายข้อจำกัดของ LLM แบบดั้งเดิมที่มุ่งเน้นเฉพาะคำตอบสุดท้ายเท่านั้น โดยการจำลองกระบวนการคิดของมนุษย์ แบบจำลองนี้ช่วยให้แบบจำลองสามารถไตร่ตรองและการอนุมานภายในก่อนที่จะให้คำตอบ ดังนั้นจึงสร้างการตอบสนองที่แม่นยำและสอดคล้องกันมากขึ้น เทคโนโลยีนี้คาดว่าจะปฏิวัติการประยุกต์ใช้ LLM ในสาขาต่างๆ และทำให้ผู้ใช้ได้รับประสบการณ์โต้ตอบ AI ที่ดียิ่งขึ้น
แกนหลักของเทคโนโลยี TPO คือวิธีการให้เหตุผลแบบ Chain of Thinking (CoT) ที่ได้รับการปรับปรุง แนวทางนี้ส่งเสริมให้แบบจำลอง “คิดก่อนตอบ” ในระหว่างการฝึกอบรม ช่วยให้พวกเขาพัฒนากระบวนการคิดภายในที่มีการจัดระเบียบมากขึ้นก่อนที่จะให้คำตอบสุดท้าย การแจ้ง CoT แบบดั้งเดิมบางครั้งส่งผลให้ความแม่นยำลดลง และค่อนข้างยุ่งยากในการฝึกเนื่องจากไม่มีขั้นตอนการคิดที่ชัดเจน TPO เอาชนะความท้าทายเหล่านี้ได้สำเร็จด้วยการอนุญาตให้โมเดลเพิ่มประสิทธิภาพและลดความซับซ้อนของกระบวนการคิดโดยไม่ต้องเปิดเผยขั้นตอนกลางให้ผู้ใช้เห็น
ในระหว่างกระบวนการฝึกอบรมของ TPO อันดับแรกโมเดลภาษาขนาดใหญ่จะได้รับแจ้งให้สร้างแนวคิดที่หลากหลาย จากนั้นคำตอบสุดท้ายจะถูกแยกออก ผลลัพธ์เหล่านี้จะได้รับการประเมินโดยโมเดล "ผู้ตัดสิน" เพื่อเลือกคำตอบที่มีประสิทธิภาพดีที่สุดและแย่ที่สุด ผลการประเมินเหล่านี้ใช้เป็นคู่ "เลือก" และ "ปฏิเสธ" สำหรับการเพิ่มประสิทธิภาพการกำหนดลักษณะโดยตรง (DPO) เพื่อปรับปรุงคุณภาพการตอบสนองของแบบจำลองอย่างต่อเนื่อง
ด้วยการปรับสัญญาณการฝึก TPO จะกระตุ้นให้โมเดลคิดภายในก่อนตอบ กระบวนการนี้จะชี้แนะโมเดลในการปรับแต่งคำตอบ ทำให้ชัดเจนและเกี่ยวข้องมากขึ้น สุดท้าย งานการประเมินจะเสร็จสิ้นโดยแบบจำลองการประเมินแบบ LLM ซึ่งจะให้คะแนนเฉพาะคำตอบสุดท้ายเท่านั้น ดังนั้นจึงเป็นอิสระจากขั้นตอนการคิดที่ซ่อนอยู่ และช่วยให้แบบจำลองปรับปรุงคุณภาพของคำตอบ TPO ยังใช้การเพิ่มประสิทธิภาพการกำหนดลักษณะโดยตรงเพื่อสร้างคู่คำตอบที่ต้องการและปฏิเสธซึ่งมีการคิดที่ซ่อนอยู่ หลังจากการฝึกอบรมหลายรอบ กระบวนการภายในของแบบจำลองจะได้รับการปรับปรุงเพิ่มเติม
ในการเปรียบเทียบกับ AlpacaEval และ Arena-Hard วิธีการ TPO มีประสิทธิภาพเหนือกว่าพื้นฐานการตอบสนองแบบดั้งเดิม และเหนือกว่าโมเดล Llama-3-8B-Instruct ของ Thinking Tips การฝึกอบรมซ้ำของแนวทางนี้จะช่วยเพิ่มประสิทธิภาพความสามารถในการสร้างความคิด ซึ่งท้ายที่สุดก็มีประสิทธิภาพเหนือกว่าโมเดลพื้นฐานหลายแบบ เป็นที่น่าสังเกตว่า TPO ไม่เพียงแต่เหมาะสำหรับงานด้านตรรกะและคณิตศาสตร์เท่านั้น แต่ยังแสดงให้เห็นถึงความสามารถในการสอนตามงานในสาขาสร้างสรรค์ เช่น การตลาดและสุขภาพ
Karan Verma ผู้เชี่ยวชาญด้าน AI และหุ่นยนต์ แบ่งปันมุมมองของเขาเกี่ยวกับแนวคิด "การคิด LLM" บนแพลตฟอร์มโซเชียล ผลการรักษาที่ดี
กระบวนการคิดภายในที่มีโครงสร้างนี้ช่วยให้แบบจำลองสามารถประมวลผลคำสั่งที่ซับซ้อนได้อย่างมีประสิทธิภาพมากขึ้น โดยขยายการใช้งานในสาขาที่ต้องใช้เหตุผลหลายระดับและความเข้าใจโดยละเอียด โดยไม่จำเป็นต้องให้มนุษย์ให้ข้อมูลการคิดที่เฉพาะเจาะจง งานวิจัยนี้แสดงให้เห็นว่า TPO มีศักยภาพที่จะทำให้แบบจำลองภาษาขนาดใหญ่มีความยืดหยุ่นและมีประสิทธิภาพมากขึ้นในบริบทที่หลากหลาย เหมาะสำหรับสาขาที่มีความต้องการสูงสำหรับความยืดหยุ่นและการสร้างการตอบสนองเชิงลึก
โดยรวมแล้ว การถือกำเนิดของเทคโนโลยี TPO ได้นำมาซึ่งความเป็นไปได้ใหม่ๆ ในการปรับปรุงประสิทธิภาพของโมเดลภาษาขนาดใหญ่ และโอกาสในการประยุกต์ใช้งานในด้านต่างๆ ก็คุ้มค่าที่จะรอคอย บรรณาธิการของ Downcodes เชื่อว่าด้วยการพัฒนาและปรับปรุงเทคโนโลยีอย่างต่อเนื่อง TPO จะมีบทบาทอย่างมากในสาขาต่างๆ มากขึ้นและมีส่วนช่วยในการพัฒนาปัญญาประดิษฐ์