บรรณาธิการของ Downcodes ได้เรียนรู้ว่า Cohere เพิ่งเปิดตัวโมเดล AI โอเพ่นซอร์สที่ทรงพลังสองรุ่น ได้แก่ Aya Expanse 8B และ 35B ซึ่งเปิดตัวอย่างเป็นทางการบนแพลตฟอร์ม Hugging Face ทั้งสองโมเดลนี้มีจุดมุ่งหมายเพื่อลดช่องว่างด้านประสิทธิภาพระหว่างโมเดลพื้นฐานในภาษาต่างๆ ปรับปรุงความสามารถ AI ใน 23 ภาษาอย่างมีนัยสำคัญ และมอบเครื่องมือที่สะดวกยิ่งขึ้นแก่นักวิจัย AI ทั่วโลกและความสามารถหลายภาษาที่ทรงพลังยิ่งขึ้น โครงการ Aya มุ่งมั่นที่จะขยายการเข้าถึงโมเดลพื้นฐานที่ไม่ใช่ภาษาอังกฤษ วิธีการเก็งกำไรข้อมูลและกลยุทธ์การฝึกอบรม "การตั้งค่าทั่วโลก" หลีกเลี่ยงการสร้างเนื้อหาคุณภาพต่ำอย่างมีประสิทธิภาพ และปรับปรุงประสิทธิภาพโดยรวมและความปลอดภัยของโมเดล ต่อไปเรามาดูข้อมูลเฉพาะของทั้งสองรุ่นกัน
เมื่อเร็วๆ นี้ Cohere ได้ประกาศเปิดตัวโมเดล AI โอเพ่นซอร์สใหม่ 2 โมเดล โดยมีเป้าหมายเพื่อลดช่องว่างทางภาษาของโมเดลพื้นฐานผ่านโปรเจ็กต์ Aya รุ่นใหม่ 2 รุ่นที่เรียกว่า Aya Expanse8B และ 35B มีวางจำหน่ายแล้วบน Hugging Face การเปิดตัวทั้งสองรุ่นนี้ได้ปรับปรุงประสิทธิภาพของ AI ใน 23 ภาษาอย่างเห็นได้ชัด
Cohere กล่าวในบล็อกของเขาว่าโมเดลพารามิเตอร์ 8B ช่วยให้นักวิจัยทั่วโลกบรรลุความก้าวหน้าใหม่ๆ ได้ง่ายขึ้น ในขณะที่โมเดลพารามิเตอร์ 32B มีความสามารถหลายภาษาชั้นนำของอุตสาหกรรม
เป้าหมายของโครงการ Aya คือการขยายการเข้าถึงโมเดลพื้นฐานเป็นภาษาอื่นนอกเหนือจากภาษาอังกฤษ ก่อนหน้านี้ แผนกวิจัยของ Cohere ได้เปิดตัวโครงการ Aya เมื่อปีที่แล้ว และเปิดตัว Aya101 Large Language Model (LLM) ในเดือนกุมภาพันธ์ ซึ่งครอบคลุม 101 ภาษา นอกจากนี้ Cohere ยังได้เปิดตัวชุดข้อมูล Aya เพื่อช่วยฝึกอบรมโมเดลในภาษาอื่นๆ
โมเดล Aya Expanse ปฏิบัติตามวิธีการหลักหลายประการของ Aya101 ในกระบวนการก่อสร้าง Cohere กล่าวว่าการปรับปรุง Aya Expanse เป็นผลมาจากการคิดทบทวนโครงสร้างหลักในการพัฒนาการเรียนรู้ของเครื่องจักรเป็นเวลาหลายปี ทิศทางการวิจัยของพวกเขามุ่งเน้นไปที่การลดช่องว่างทางภาษาเป็นหลัก และได้บรรลุความก้าวหน้าที่สำคัญบางประการ เช่น การเก็งกำไรข้อมูล การฝึกอบรมการตั้งค่าสำหรับประสิทธิภาพทั่วไปและความปลอดภัย และการรวมโมเดล
ในการทดสอบเกณฑ์มาตรฐานหลายรายการ Cohere กล่าวว่าโมเดลทั้งสองของ Aya Expanse มีประสิทธิภาพเหนือกว่าโมเดล AI ที่มีขนาดใกล้เคียงกันจากบริษัทต่างๆ เช่น Google, Mistral และ Meta
ในหมู่พวกเขา Aya Expanse32B มีประสิทธิภาพเหนือกว่า Gemma227B, Mistral8x22B และแม้แต่ Llama3.170B ที่ใหญ่กว่าในการทดสอบเกณฑ์มาตรฐานหลายภาษา รุ่น 8B ขนาดเล็กยังแซงหน้า Gemma29B, Llama3.18B และ Ministral8B ด้วยอัตราการชนะตั้งแต่ 60.4% ถึง 70.6%
เพื่อหลีกเลี่ยงการสร้างเนื้อหาที่เข้าใจยาก Cohere จึงใช้วิธีการสุ่มตัวอย่างข้อมูลที่เรียกว่าการเก็งกำไรข้อมูล แนวทางนี้ช่วยให้สามารถฝึกฝนโมเดลได้ดีขึ้น โดยเฉพาะสำหรับภาษาที่มีทรัพยากรต่ำ นอกจากนี้ Cohere ยังมุ่งเน้นไปที่แนวทางโมเดลไปสู่ "การตั้งค่าระดับโลก" และคำนึงถึงมุมมองของวัฒนธรรมและภาษาที่แตกต่างกัน เพื่อปรับปรุงประสิทธิภาพและความปลอดภัยของโมเดล
โปรแกรม Aya ของ Cohere พยายามทำให้แน่ใจว่า LLM สามารถทำงานได้ดีขึ้นในการวิจัยในภาษาที่ไม่ใช่ภาษาอังกฤษ แม้ว่าในที่สุด LLM จำนวนมากจะออกในภาษาอื่นในที่สุด แต่พวกเขาก็มักจะประสบปัญหาข้อมูลไม่เพียงพอเมื่อจำลองการฝึกอบรม โดยเฉพาะอย่างยิ่งสำหรับภาษาที่มีทรัพยากรต่ำ ดังนั้นความพยายามของ Cohere จึงมีความสำคัญอย่างยิ่งในการช่วยสร้างโมเดล AI หลายภาษา
บล็อกอย่างเป็นทางการ: https://cohere.com/blog/aya-expanse-connecting-our-world
ไฮไลท์:
? **Cohere เปิดตัวโมเดล AI ใหม่ 2 รุ่น** โดยมุ่งมั่นที่จะลดช่องว่างทางภาษาของโมเดลพื้นฐานและรองรับการปรับปรุงประสิทธิภาพใน 23 ภาษา
**รุ่น Aya Expanse ทำงานได้ดี** เหนือกว่าคู่แข่งหลายรายในเกณฑ์มาตรฐานหลายภาษา
**วิธีการเก็งกำไรข้อมูล** ช่วยให้โมเดลหลีกเลี่ยงการสร้างเนื้อหาคุณภาพต่ำ ให้ความสนใจกับมุมมองทางวัฒนธรรมและภาษาระดับโลก และปรับปรุงผลการฝึกอบรมของ AI หลายภาษา
โดยรวมแล้ว โมเดล Aya Expanse ที่เปิดตัวโดย Cohere ได้สร้างความก้าวหน้าครั้งสำคัญในด้าน AI หลายภาษา และลักษณะโอเพ่นซอร์สของมันยังมอบทรัพยากรที่มีคุณค่าสำหรับการวิจัยและพัฒนาชุมชน AI ทั่วโลก บรรณาธิการของ Downcodes เชื่อว่าสิ่งนี้จะช่วยส่งเสริมความก้าวหน้าของเทคโนโลยี AI หลายภาษา และส่งเสริมการแลกเปลี่ยนและแบ่งปันข้อมูลระดับโลก