การฝึกอบรมและการเพิ่มประสิทธิภาพของแบบจำลองภาษาขนาดใหญ่ (LLM) ถือเป็นความท้าทายที่สำคัญในด้านปัญญาประดิษฐ์ วิธีการฝึกอบรมที่มีประสิทธิภาพไม่เพียงแต่ต้องมั่นใจในประสิทธิภาพของแบบจำลองเท่านั้น แต่ยังต้องแน่ใจว่าแบบจำลองนั้นสอดคล้องกับค่านิยมของมนุษย์อีกด้วย การเรียนรู้แบบเสริมกำลังด้วยการตอบสนองของมนุษย์ (RLHF) ซึ่งเป็นวิธีการฝึกอบรม LLM ที่มีประสิทธิภาพ มีการใช้กันอย่างแพร่หลายในช่วงไม่กี่ปีที่ผ่านมา แต่ยังคงต้องปรับปรุงประสิทธิภาพและความสามารถในการปรับขนาดได้ เพื่อจุดประสงค์นี้ ทีม ByteDance Doubao Big Model ได้เปิดซอร์สเฟรมเวิร์ก RLHF ที่เรียกว่า HybridFlow ซึ่งมีจุดมุ่งหมายเพื่อแก้ไขข้อจำกัดของเฟรมเวิร์ก RLHF แบบดั้งเดิม และนำความก้าวหน้าครั้งใหม่มาสู่การฝึกอบรม LLM
RLHF มักจะประกอบด้วยสามขั้นตอน: ขั้นแรก โมเดลนักแสดงจะสร้างข้อความตามข้อความที่ป้อน จากนั้น โมเดลนักวิจารณ์ โมเดลอ้างอิง และโมเดลรางวัลจะประเมินข้อความที่สร้างขึ้น และคำนวณค่าที่สอดคล้องกัน ความน่าจะเป็นในการอ้างอิง และมูลค่ารางวัล ผลการประเมินใช้เพื่อฝึกโมเดลนักแสดงเพื่อสร้างข้อความที่สอดคล้องกับความชอบของมนุษย์มากขึ้น เฟรมเวิร์ก RLHF แบบดั้งเดิมมักจะใช้คอนโทรลเลอร์ตัวเดียวเพื่อจัดการโฟลว์ข้อมูลทั้งหมด แต่ไม่มีประสิทธิภาพสำหรับ LLM ที่ต้องใช้การประมวลผลแบบกระจาย
กรอบงาน HybridFlow ผสมผสานโหมดตัวควบคุมเดี่ยวและหลายตัวควบคุมอย่างสร้างสรรค์ และแยกการคำนวณที่ซับซ้อนและการพึ่งพาข้อมูลผ่านการออกแบบ API แบบเลเยอร์ เพื่อให้เกิดการแสดงที่ยืดหยุ่นและการดำเนินการกระแสข้อมูล RLHF ที่มีประสิทธิภาพ
ข้อดีของ HybridFlow สะท้อนให้เห็นเป็นหลักในสามด้านต่อไปนี้:
การสนับสนุนที่ยืดหยุ่นสำหรับอัลกอริธึมและโมเดล RLHF หลายรูปแบบ: HybridFlow มี API แบบโมดูลาร์เพื่อให้ผู้ใช้สามารถใช้งานและขยายอัลกอริธึม RLHF ต่างๆ เช่น PPO, ReMax และ Safe-RLHF ได้อย่างง่ายดาย
การปรับโครงสร้างน้ำหนักโมเดลอย่างมีประสิทธิภาพ: ส่วนประกอบ 3D-HybridEngine รองรับการจัดเรียงน้ำหนักโมเดลที่มีประสิทธิภาพของโมเดลนักแสดงในระหว่างขั้นตอนการฝึกอบรมและการสร้าง ช่วยลดความซ้ำซ้อนของหน่วยความจำและค่าใช้จ่ายในการสื่อสาร
การปรับใช้โมเดลอัตโนมัติและการเลือกกลยุทธ์แบบคู่ขนาน: ส่วนประกอบ Auto Mapping สามารถแมปโมเดลกับอุปกรณ์ต่างๆ ได้โดยอัตโนมัติ โดยขึ้นอยู่กับโหลดโมเดลและการพึ่งพาข้อมูล และเลือกกลยุทธ์คู่ขนานที่ดีที่สุด ซึ่งจะทำให้กระบวนการปรับใช้โมเดลง่ายขึ้นและปรับปรุงประสิทธิภาพการฝึกอบรม
ผลการทดลองแสดงให้เห็นว่าปริมาณงานของ HybridFlow ได้รับการปรับปรุงอย่างมีนัยสำคัญเมื่อเรียกใช้อัลกอริธึม RLHF ต่างๆ สูงสุดถึง 20.57 เท่า โอเพ่นซอร์สของ HybridFlow จะมอบเครื่องมืออันทรงพลังสำหรับการวิจัยและพัฒนา RLHF และส่งเสริมการพัฒนาเทคโนโลยี LLM ในอนาคต
ที่อยู่กระดาษ: https://arxiv.org/pdf/2409.19256
บรรณาธิการของ Downcodes สรุป: โอเพ่นซอร์สของเฟรมเวิร์ก HybridFlow มอบแนวคิดและเครื่องมือใหม่สำหรับการฝึกอบรมโมเดลภาษาขนาดใหญ่ ประสิทธิภาพและความยืดหยุ่นนี้คาดว่าจะส่งเสริมการพัฒนาเทคโนโลยี LLM ต่อไป และสมควรได้รับความสนใจและการวิจัยเชิงลึก . เราหวังว่าจะได้เห็นแอปพลิเคชันที่เป็นนวัตกรรมใหม่มากขึ้นซึ่งใช้ HybridFlow ในอนาคต