มหาวิทยาลัยวอชิงตันเปิดตัววิธีการปรับแต่งตัวแทนเพื่อปรับปรุงประสิทธิภาพของการปรับแต่งโมเดลขนาดใหญ่

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-01-30 21:16:01

นักวิจัยจากมหาวิทยาลัยวอชิงตันเสนอวิธีการปรับแต่งเอเจนต์ที่เป็นนวัตกรรม ซึ่งปรับโมเดลภาษาขนาดใหญ่ให้เหมาะสมได้อย่างมีประสิทธิภาพ โดยไม่ต้องเข้าถึงน้ำหนักของโมเดล วิธีนี้จะแนะนำการคาดการณ์ของแบบจำลองฐานต่อแบบจำลองที่ได้รับการปรับแต่งโดยการเปรียบเทียบการคาดการณ์ของแบบจำลองที่ได้รับการปรับแต่งขนาดเล็กและแบบจำลองที่ไม่ได้รับการปรับแต่ง ซึ่งจะช่วยปรับปรุงประสิทธิภาพของแบบจำลองและรักษาความรู้ในการฝึกอบรมได้ดียิ่งขึ้น เทคโนโลยีที่ก้าวล้ำนี้ได้รับการตรวจสอบในการทดลองปรับแต่งอย่างละเอียดในรุ่น 13B และ 70B ดั้งเดิมของ LLAMA-2 ซึ่งแสดงให้เห็นถึงข้อได้เปรียบด้านประสิทธิภาพที่สำคัญ

หน้าแรกของผู้ดูแลเว็บรายงานว่ามหาวิทยาลัยวอชิงตันได้เปิดตัววิธีการปรับแต่งแบบพร็อกซีที่สามารถปรับแต่งแบบจำลองขนาดใหญ่ได้อย่างมีประสิทธิภาพโดยไม่ต้องคำนึงถึงน้ำหนักของแบบจำลอง โดยการเปรียบเทียบผลการทำนายของแบบจำลองที่ปรับเล็กน้อยและแบบจำลองที่ยังไม่ได้ปรับแต่ง วิธีนี้สามารถรักษาความรู้การฝึกอบรมได้ดีขึ้นในระหว่างการถอดรหัสและปรับปรุงประสิทธิภาพการปรับแต่ง ประสิทธิภาพการปรับแต่งเอเจนต์ได้รับการตรวจสอบโดยนักวิจัยที่ทำการปรับแต่ง LlAMA-2 รุ่นดั้งเดิม 13B และ 70B วิธีนี้จะเปรียบเทียบการแจกแจงการทำนายเอาท์พุตของโมเดลพื้นฐาน M และโมเดลการปรับแต่ง M+ และแนะนำการคาดการณ์ของโมเดลพื้นฐานให้เคลื่อนที่ไปในทิศทางของโมเดลการปรับแต่ง ซึ่งเป็นวิธีการปรับแต่งที่เป็นนวัตกรรมใหม่ วิธีการปรับแต่งเอเจนต์เป็นโซลูชันสำหรับการปรับแต่งโมเดลขนาดใหญ่อย่างมีประสิทธิภาพ ในขณะที่ยังคงรักษาความรู้ด้านการฝึกอบรมในระหว่างการถอดรหัสได้ดีขึ้น ซึ่งคาดว่าจะนำการรู้แจ้งใหม่ๆ มาสู่สนาม AI

วิธีการใหม่นี้มอบวิธีที่สะดวกและมีประสิทธิภาพมากขึ้นในการปรับแต่งโมเดลขนาดใหญ่ ลดความจำเป็นในการจัดการน้ำหนักโมเดลโดยตรง และปรับปรุงประสิทธิภาพของโมเดลและความสามารถในการเก็บรักษาความรู้อย่างมีประสิทธิภาพ ซึ่งนำความเป็นไปได้ใหม่ๆ มาสู่การพัฒนาด้านปัญญาประดิษฐ์ ในอนาคต วิธีนี้คาดว่าจะนำไปใช้กับการปรับแต่งโมเดลภาษาในวงกว้างมากขึ้น ซึ่งจะช่วยส่งเสริมความก้าวหน้าของเทคโนโลยี AI ต่อไป