มูลนิธิโอเพ่นซอร์ส RWKV ได้เปิดตัวโมเดล RWKV-6-World14B ซึ่งปัจจุบันเป็นหนึ่งในโมเดลภาษาขนาดใหญ่ RNN บริสุทธิ์ที่มีความหนาแน่นสูงและทรงพลังที่สุดในโลก โมเดลดังกล่าวมีความสามารถหลายภาษา รองรับภาษาและโค้ดมากกว่า 100 ภาษา และมีประสิทธิภาพเหนือกว่าโมเดลอย่าง Llama2 13B และ Qwen 1.5 14B ในการวัดประสิทธิภาพหลายรายการ ประสิทธิภาพที่ยอดเยี่ยมนั้นเกิดจากการปรับปรุงสถาปัตยกรรม RWKV และหลีกเลี่ยงการปรับให้เหมาะสมสำหรับการทดสอบเกณฑ์มาตรฐานเฉพาะในระหว่างกระบวนการฝึกอบรม เพื่อให้มั่นใจถึงความสามารถที่แท้จริงและความสามารถทั่วไปของโมเดล ผู้ใช้สามารถดาวน์โหลดและปรับใช้โมเดลได้อย่างง่ายดายผ่านแพลตฟอร์ม เช่น Hugging Face, ModelScope และ WiseModel
เมื่อวันที่ 19 กรกฎาคม 2024 มูลนิธิโอเพ่นซอร์ส RWKV ได้ประกาศโอเพ่นซอร์สระดับโลกของโมเดล RWKV-6-World14B ซึ่งปัจจุบันเป็นโมเดลภาษา RNN ขนาดใหญ่ที่มีความหนาแน่นสูงที่สุด โมเดลดังกล่าวทำงานได้ดีในการทดสอบประสิทธิภาพล่าสุด โดยมีประสิทธิภาพภาษาอังกฤษเทียบเท่ากับ Llama213B และเหนือกว่าประสิทธิภาพหลายภาษาอย่างเห็นได้ชัด โดยรองรับภาษาและรหัสมากกว่า 100 ภาษาทั่วโลก
การทดสอบเกณฑ์มาตรฐานของโมเดลประกอบด้วยโมเดลภาษาโอเพ่นซอร์สขนาดใหญ่ 4 โมเดลที่มีสเกลเกือบ 14B การทดสอบเกณฑ์มาตรฐานอิสระ 12 รายการเพื่อประเมินประสิทธิภาพภาษาอังกฤษ และการทดสอบเกณฑ์มาตรฐานสี่รายการของ xLAMBDA, xStoryCloze, xWinograd และ xCopa เพื่อประเมินความสามารถหลายภาษา RWKV-6-World14B ทำงานได้ดีในการทดสอบเหล่านี้ โดยเฉพาะอย่างยิ่งในรายการจัดอันดับ Uncheatable Eval ซึ่งคะแนนการประเมินที่ครอบคลุมเกิน llama213B และ Qwen1.514B
การปรับปรุงประสิทธิภาพของรุ่น RWKV-6-World14B ได้รับประโยชน์จากการปรับปรุงสถาปัตยกรรมจาก RWKV-4 เป็น RWKV-6 โมเดลนี้ไม่ได้เพิ่มชุดข้อมูลการทดสอบเกณฑ์มาตรฐานใดๆ ในระหว่างการฝึกอบรม เพื่อหลีกเลี่ยงการปรับให้เหมาะสมเป็นพิเศษ ดังนั้นความสามารถที่แท้จริงของโมเดลจึงแข็งแกร่งกว่าการจัดอันดับคะแนน ในการประเมิน Uncheatable Eval นั้น RWKV-6-World14B ได้รับการประเมินโดยใช้ข้อมูลแบบเรียลไทม์ เช่น เอกสาร arXiv ล่าสุด ข่าว นวนิยาย ao3 และโค้ด GitHub ที่เผยแพร่ในเดือนกรกฎาคม ซึ่งแสดงให้เห็นถึงความสามารถในการสร้างแบบจำลองจริงและความสามารถในการวางลักษณะทั่วไป
ปัจจุบัน สามารถดาวน์โหลดและปรับใช้โมเดล RWKV-6-World14B ภายในเครื่องผ่านแพลตฟอร์ม เช่น Hugging Face, ModelScope และ WiseModel เนื่องจาก Ai00 รองรับเฉพาะโมเดลในรูปแบบ safetensor (.st) คุณจึงสามารถดาวน์โหลดโมเดลที่ถูกแปลงเป็นรูปแบบ .st ในคลังสินค้า Ai00HF ได้ด้วย ข้อกำหนดหน่วยความจำกราฟิกสำหรับการปรับใช้ภายในเครื่องและการอนุมานรุ่น RWKV-6-World14B แตกต่างกันไปตั้งแต่ประมาณ 10G ถึง 28G ขึ้นอยู่กับวิธีการวัดปริมาณ
การแสดงตัวอย่างเอฟเฟกต์ของโมเดล RWKV-6-World14B รวมถึงการประมวลผลภาษาธรรมชาติ (การวิเคราะห์ความรู้สึก ความเข้าใจในการอ่านด้วยเครื่องจักร) บทกวีร้อยแก้วและการสร้างวรรณกรรม การอ่านและการแก้ไขรหัส คำแนะนำในการเลือกหัวข้อกระดาษทางการเงิน การแยกเนื้อหาสำคัญของข่าว ประโยคเดียว การขยายข้อความ และเขียนสถานการณ์การใช้งานหลายรายการ เช่น เกม Python Snake
ควรสังเกตว่าโมเดล RWKV ของโอเพ่นซอร์สทั้งหมดที่เผยแพร่นั้นเป็นโมเดลพื้นฐาน ซึ่งมีความสามารถในการสั่งการและบทสนทนาบางอย่าง แต่ยังไม่ได้รับการปรับให้เหมาะสมสำหรับงานเฉพาะ หากคุณต้องการให้โมเดล RWKV ทำงานได้ดีในงานเฉพาะเจาะจง ขอแนะนำให้ใช้ชุดข้อมูลของงานที่เกี่ยวข้องเพื่อปรับแต่งการฝึกอบรม
ที่อยู่โครงการ:
หน้ากอด: https://huggingface.co/BlinkDL/rwkv-6-world/tree/main
โมเดลขอบเขต:https://modelscope.cn/models/RWKV/rwkv-6-world/files
ปรีชาญาณรุ่น: https://wisemodel.cn/models/rwkv4fun/Rwkv-6-world/file
กล่าวโดยสรุป โอเพ่นซอร์สของรุ่น RWKV-6-World14B ได้นำความก้าวหน้าครั้งใหม่มาสู่รุ่นภาษาขนาดใหญ่ ประสิทธิภาพอันทรงพลังและโอกาสในการใช้งานที่หลากหลายนั้นคุ้มค่ากับการรอคอย นักพัฒนาสามารถดาวน์โหลดและดำเนินการสำรวจและประยุกต์ใช้งานเพิ่มเติมบนแพลตฟอร์มต่างๆ ได้ตามความต้องการของตนเอง