Rhymes AI สตาร์ทอัพในโตเกียวได้เปิดตัวโมเดลปัญญาประดิษฐ์ตัวแรกของบริษัท Aria ซึ่งเป็นโมเดลผู้เชี่ยวชาญไฮบริดหลายรูปแบบแบบโอเพ่นซอร์ส (MoE) เครื่องมือแก้ไขของ Downcodes ได้เรียนรู้ว่า Aria ทำงานได้ดีในการประมวลผลอินพุตที่หลากหลาย เช่น ข้อความ โค้ด รูปภาพ และวิดีโอ และความสามารถของมันยังเหนือกว่าโมเดลธุรกิจที่รู้จักกันดีอีกด้วย Aria ใช้สถาปัตยกรรม MoE ที่เป็นเอกลักษณ์เพื่อเพิ่มประสิทธิภาพการคำนวณผ่านผู้เชี่ยวชาญเฉพาะทางหลายราย และมีหน้าต่างบริบทหลายรูปแบบที่มีพารามิเตอร์สูงถึง 24.9 พันล้านพารามิเตอร์และโทเค็น 64,000 รายการ ช่วยให้สามารถจัดการข้อมูลที่ป้อนได้นานขึ้น Rhymes AI ยังร่วมมือกับ AMD เพื่อเพิ่มประสิทธิภาพโมเดลและเปิดตัวแอปพลิเคชันค้นหา BeaGo ที่ใช้ฮาร์ดแวร์ของ AMD
Aria ได้รับการออกแบบมาเพื่อมอบความสามารถในการทำความเข้าใจและการประมวลผลที่เหนือกว่าในรูปแบบอินพุตที่หลากหลาย รวมถึงข้อความ โค้ด รูปภาพ และวิดีโอ แตกต่างจากรุ่น Transformer แบบดั้งเดิม รุ่น MoE แทนที่เลเยอร์ฟีดฟอร์เวิร์ดด้วยผู้เชี่ยวชาญมืออาชีพหลายคน เมื่อประมวลผลโทเค็นอินพุตแต่ละรายการ โมดูลการกำหนดเส้นทางจะเลือกกลุ่มย่อยของผู้เชี่ยวชาญเพื่อเปิดใช้งาน ซึ่งจะช่วยปรับปรุงประสิทธิภาพการคำนวณและลดจำนวนพารามิเตอร์การเปิดใช้งานต่อโทเค็น
ตัวถอดรหัสของ Aria สามารถเปิดใช้งานพารามิเตอร์ได้ 3.5 พันล้านพารามิเตอร์ต่อโทเค็นข้อความ และทั้งโมเดลมีพารามิเตอร์ 24.9 พันล้านพารามิเตอร์ ในการจัดการอินพุตภาพ Aria ยังได้ออกแบบตัวเข้ารหัสภาพที่มีน้ำหนักเบาพร้อมด้วยพารามิเตอร์ 438 ล้านพารามิเตอร์ ซึ่งสามารถแปลงอินพุตภาพที่มีความยาว ขนาด และอัตราส่วนภาพต่างๆ ให้เป็นโทเค็นภาพได้ นอกจากนี้ หน้าต่างบริบทต่อเนื่องหลายรูปแบบของ Aria มีจำนวนโทเค็นถึง 64,000 โทเค็น ซึ่งหมายความว่าสามารถจัดการข้อมูลอินพุตที่ยาวขึ้นได้
ในแง่ของการฝึกอบรม Rhymes AI แบ่งออกเป็นสี่ขั้นตอน ขั้นแรกจะใช้ข้อมูลข้อความสำหรับการฝึกอบรมล่วงหน้า จากนั้นจึงแนะนำข้อมูลหลายรูปแบบ ตามด้วยการฝึกอบรมแบบลำดับยาว และสุดท้ายคือการปรับแต่งอย่างละเอียด
ในกระบวนการนี้ Aria ใช้โทเค็นข้อความทั้งหมด 6.4 ล้านล้านโทเค็นและโทเค็นหลายโมดัล 400 พันล้านโทเค็นสำหรับการฝึกอบรมล่วงหน้า ข้อมูลมาจากชุดข้อมูลที่รู้จักกันดี เช่น Common Crawl และ LAION และมีการดำเนินการปรับปรุงสังเคราะห์บางอย่าง
จากการทดสอบเกณฑ์มาตรฐานที่เกี่ยวข้อง Aria มีประสิทธิภาพเหนือกว่ารุ่นต่างๆ เช่น Pixtral-12B และ Llama-3.2-11B ในงานหลายรูปแบบ ภาษา และการเขียนโปรแกรม และมีต้นทุนการอนุมานต่ำกว่าเนื่องจากพารามิเตอร์การเปิดใช้งานน้อยลง
นอกจากนี้ Aria ยังทำงานได้ดีเมื่อประมวลผลวิดีโอที่มีคำบรรยายหรือเอกสารหลายหน้า และ ความสามารถในการเข้าใจวิดีโอและเอกสารขนาดยาวนั้นเหนือกว่ารุ่นโอเพ่นซอร์สอื่นๆ เช่น GPT-4o mini และ Gemini1.5Flash
เพื่อความสะดวกในการใช้งาน Rhymes AI จะเผยแพร่ซอร์สโค้ดของ Aria บน GitHub ภายใต้ใบอนุญาต Apache2.0 ซึ่งรองรับการใช้งานเชิงวิชาการและเชิงพาณิชย์ ในเวลาเดียวกัน พวกเขายังมีเฟรมเวิร์กการฝึกอบรมที่สามารถปรับแต่ง Aria สำหรับแหล่งข้อมูลและรูปแบบที่หลากหลายบน GPU ตัวเดียว เป็นที่น่าสังเกตว่า Rhymes AI ได้บรรลุความร่วมมือกับ AMD เพื่อเพิ่มประสิทธิภาพการทำงานของโมเดล และสาธิตแอปพลิเคชันการค้นหาที่เรียกว่า BeaGo ซึ่งสามารถทำงานบนฮาร์ดแวร์ของ AMD เพื่อให้ผลการค้นหา AI แบบข้อความและรูปภาพที่ครอบคลุมยิ่งขึ้นแก่ผู้ใช้
ไฮไลท์:
Aria คือโมเดล AI ของผู้เชี่ยวชาญด้านไฮบริดมัลติโมดัลแบบโอเพ่นซอร์สตัวแรกของโลก
Aria มีประสิทธิภาพเหนือกว่าโมเดลที่คล้ายกันหลายตัวเมื่อประมวลผลอินพุตที่หลากหลาย เช่น ข้อความ รูปภาพ และวิดีโอ
? Rhymes AI ร่วมมือกับ AMD เพื่อเพิ่มประสิทธิภาพโมเดลและเปิดตัวแอปพลิเคชันค้นหา BeaGo ที่รองรับฟังก์ชันต่างๆ
โดยรวมแล้ว โอเพ่นซอร์สและประสิทธิภาพสูงของโมเดล Aria ได้นำความก้าวหน้าครั้งใหม่มาสู่สาขาปัญญาประดิษฐ์ และมอบเครื่องมืออันทรงพลังสำหรับนักพัฒนาและนักวิจัย ความสามารถหลายรูปแบบและประสิทธิภาพการคำนวณสูงทำให้มีศักยภาพในการใช้งานในอนาคต บรรณาธิการของ Downcodes หวังว่าจะได้ประยุกต์ใช้และการพัฒนา Aria ในสาขาอื่นๆ มากขึ้น