Yuanxiang เปิดตัว MoE โอเพนซอร์สรุ่นใหญ่ XVERSE-MoE-A36B พร้อมพารามิเตอร์การเปิดใช้งานสูงถึง 36B

ผู้เขียน：Eve Cole เวลาอัปเดต：2024-12-11 08:16:01

บริษัท เซินเจิ้น หยวนเซียง อินฟอร์เมชั่น เทคโนโลยี จำกัด เปิดตัวโมเดลโอเพ่นซอร์ส Mixture of Experts (MoE) ที่ใหญ่ที่สุดในจีน - XVERSE-MoE-A36B พารามิเตอร์รวม 255B และพารามิเตอร์การเปิดใช้งาน 36B ทำให้ประสิทธิภาพเทียบเท่าหรือเหนือกว่าโมเดลพารามิเตอร์ขนาดใหญ่หลายตัว . โมเดลนี้ได้รับการปรับปรุงอย่างมีนัยสำคัญในด้านเวลาการฝึกอบรมและประสิทธิภาพการอนุมาน ลดต้นทุนต่อโทเค็นลงอย่างมาก และให้การสนับสนุนอย่างมากสำหรับการปรับใช้แอปพลิเคชัน AI ที่มีต้นทุนต่ำ ความก้าวหน้าครั้งนี้ถือเป็นความก้าวหน้าที่สำคัญของจีนในด้านโมเดลภาษาขนาดใหญ่ โดยผลักดันเทคโนโลยีโอเพ่นซอร์สในประเทศให้ก้าวขึ้นเป็นผู้นำระดับนานาชาติ โมเดล XVERSE-MoE-A36B เป็นโอเพ่นซอร์สเต็มรูปแบบและใช้งานฟรีในเชิงพาณิชย์ โดยมอบทรัพยากรอันมีค่าสำหรับองค์กร นักวิจัย และนักพัฒนาขนาดเล็กและขนาดกลาง

รุ่น XVERSE-MoE-A36B มีพารามิเตอร์ทั้งหมด 255B และพารามิเตอร์การเปิดใช้งาน 36B ประสิทธิภาพเทียบได้กับรุ่นขนาดใหญ่ที่มีพารามิเตอร์มากกว่า 100B ทำให้บรรลุประสิทธิภาพข้ามระดับอย่างก้าวกระโดด โมเดลดังกล่าวช่วยลดเวลาการฝึกอบรมลง 30% ปรับปรุงประสิทธิภาพการอนุมานได้ 100% ลดต้นทุนต่อโทเค็นได้อย่างมาก และทำให้ปรับใช้แอปพลิเคชัน AI ด้วยต้นทุนต่ำได้ โมเดลซีรีส์บัคเก็ตตระกูลประสิทธิภาพสูงของ Yuanxiang XVERSE เป็นแบบโอเพ่นซอร์สเต็มรูปแบบ และไม่มีค่าใช้จ่ายสำหรับการใช้งานเชิงพาณิชย์อย่างไม่มีเงื่อนไข ซึ่งช่วยให้องค์กร นักวิจัย และนักพัฒนาขนาดเล็กและขนาดกลางจำนวนมากมีทางเลือกมากขึ้น สถาปัตยกรรม MoE ทลายข้อจำกัดของกฎหมายการขยายแบบเดิมโดยการรวมโมเดลผู้เชี่ยวชาญในหลายแผนกย่อย ในขณะที่ขยายขนาดของโมเดล โดยจะรักษาประสิทธิภาพของโมเดลสูงสุด และลดต้นทุนด้านการคำนวณของการฝึกอบรมและการอนุมาน จากการประเมินที่เชื่อถือได้หลายครั้ง ผลกระทบของ Yuanxiang MoE ได้เหนือกว่าโมเดลที่คล้ายกันหลายรุ่นอย่างมีนัยสำคัญ ซึ่งรวมถึงโมเดล MoE มูลค่า 1 แสนล้านล้านในประเทศ Skywork-MoE, MoE overlord Mixtral-8x22B แบบดั้งเดิม และพารามิเตอร์ MoE รุ่นโอเพ่นซอร์ส 314 พันล้านพารามิเตอร์ Grok-1 - A86B เป็นต้น

โมเดลซีรีส์บัคเก็ตตระกูลประสิทธิภาพสูงของ Yuanxiang XVERSE เป็นแบบโอเพ่นซอร์สเต็มรูปแบบ และไม่มีค่าใช้จ่ายสำหรับการใช้งานเชิงพาณิชย์อย่างไม่มีเงื่อนไข ซึ่งช่วยให้องค์กร นักวิจัย และนักพัฒนาขนาดเล็กและขนาดกลางจำนวนมากมีทางเลือกมากขึ้น สถาปัตยกรรม MoE ทลายข้อจำกัดของกฎหมายการขยายแบบเดิมโดยการรวมโมเดลผู้เชี่ยวชาญในหลายแผนกย่อย ในขณะที่ขยายขนาดของโมเดล โดยจะรักษาประสิทธิภาพของโมเดลสูงสุด และลดต้นทุนด้านการคำนวณของการฝึกอบรมและการอนุมาน

จากการประเมินที่เชื่อถือได้หลายครั้ง ผลกระทบของ Yuanxiang MoE ได้เหนือกว่าโมเดลที่คล้ายกันหลายรุ่นอย่างมีนัยสำคัญ ซึ่งรวมถึงโมเดล MoE มูลค่า 1 แสนล้านล้านในประเทศ Skywork-MoE, MoE overlord Mixtral-8x22B แบบดั้งเดิม และพารามิเตอร์ MoE รุ่นโอเพ่นซอร์ส 314 พันล้านพารามิเตอร์ Grok-1 - A86B เป็นต้น

ดาวน์โหลดฟรีรุ่นใหญ่

หน้ากอด: https://huggingface.co/xverse/XVERSE-MoE-A36B
ขอบเขตเวทย์มนตร์: https://modelscope.cn/models/xverse/XVERSE-MoE-A36B
Github: https://github.com/xverse-ai/XVERSE-MoE-A36B
สอบถามข้อมูล: [email protected]
เว็บไซต์อย่างเป็นทางการ: chat.xverse.cn

การใช้ XVERSE-MoE-A36B แบบโอเพนซอร์สและเชิงพาณิชย์ฟรี ช่วยลดเกณฑ์การใช้งาน AI และจะส่งเสริมการพัฒนาและการประยุกต์ใช้เทคโนโลยีปัญญาประดิษฐ์ของจีนอย่างมาก ประสิทธิภาพที่ยอดเยี่ยมและการเข้าถึงที่สะดวกทำให้มีเครื่องมือและทรัพยากรอันทรงพลังสำหรับนักพัฒนาและนักวิจัย AI ทั้งในและต่างประเทศอย่างไม่ต้องสงสัย หวังว่าจะได้เห็นแอปพลิเคชันที่เป็นนวัตกรรมเพิ่มเติมที่ใช้โมเดลนี้ในอนาคต