โค้ดสี่บรรทัดมีเนื้อหาเป็นสามเท่าของโมเดลขนาดใหญ่ ซึ่งใช้ได้กับทั้ง Yangtuo Mistral

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-01-22 10:16:01

นักวิชาการชาวจีนได้เสนอวิธีการขยายหน้าต่างโมเดลขนาดใหญ่แบบใหม่ที่เรียกว่า SelfExtensed (SE) ซึ่งสามารถขยายความยาวหน้าต่างของโมเดลขนาดใหญ่เป็นสามเท่าด้วยโค้ดเพียงสี่บรรทัด เทคโนโลยีที่ก้าวล้ำนี้เป็นแบบ "ปลั๊กแอนด์เพลย์" ที่เข้ากันได้กับรุ่นขนาดใหญ่หลากหลายรุ่น และได้รับการพิสูจน์แล้วในรุ่น Mistral และ Llama2 เมื่อใช้วิธี SE ประสิทธิภาพของโมเดลขนาดใหญ่ในการประมวลผลงานข้อความขนาดยาวได้รับการปรับปรุงอย่างมีนัยสำคัญ ซึ่งช่วยแก้ปัญหาขีดจำกัดการเข้ารหัสที่โมเดลขนาดใหญ่ต้องเผชิญเมื่อประมวลผลข้อความขนาดยาวได้อย่างมีประสิทธิภาพ นี่เป็นแนวทางใหม่และความเป็นไปได้สำหรับโมเดลขนาดใหญ่ในการจัดการงานข้อความยาวที่ซับซ้อน

นักวิชาการชาวจีนได้เปิดตัววิธีการขยายหน้าต่างโมเดลขนาดใหญ่แบบใหม่ SelfExtensed (เรียกสั้น ๆ ว่า SE) ซึ่งสามารถขยายความยาวหน้าต่างของโมเดลขนาดใหญ่ได้เป็นสามเท่าด้วยโค้ดเพียงสี่บรรทัด SE เป็นวิธี "ปลั๊กแอนด์เพลย์" ที่สามารถปรับให้เข้ากับรุ่นใหญ่ๆ ได้ และได้รับการทดสอบกับ Mistral และ Llama2 อย่างประสบความสำเร็จ หลังจากใช้การประมวลผล SE ประสิทธิภาพของโมเดลในงานข้อความยาวได้รับการปรับปรุงอย่างมาก SE ใช้กลไกความสนใจสองประการในการแก้ปัญหาขีดจำกัดการเข้ารหัสที่โมเดลขนาดใหญ่พบเมื่อประมวลผลข้อความขนาดยาว

การเกิดขึ้นของวิธี SelfExtensed (SE) มอบวิธีแก้ปัญหาที่ง่ายและมีประสิทธิภาพสำหรับปัญหาการประมวลผลข้อความขนาดยาวในรุ่นขนาดใหญ่ คุณสมบัติ "ปลั๊กแอนด์เพลย์" ยังช่วยให้นำไปใช้กับโมเดลขนาดใหญ่ต่างๆ ได้อย่างง่ายดาย ซึ่งแสดงให้เห็นถึงการใช้งานจริงที่ทรงพลัง และโอกาสการใช้งานในวงกว้าง ในอนาคต การปรับปรุงและความสมบูรณ์แบบเพิ่มเติมของวิธี SE จะนำมาซึ่งความเป็นไปได้มากขึ้นในการพัฒนาเทคโนโลยีแบบจำลองขนาดใหญ่