เปิดตัวโมเดลภาษา Teuken-7B: ก้าวข้ามการครอบงำของอังกฤษและรองรับภาษาทางการของสหภาพยุโรป 24 ภาษา

ผู้เขียน：Eve Cole เวลาอัปเดต：2024-11-30 16:10:01

บรรณาธิการของ Downcodes ได้เรียนรู้ว่าโมเดลภาษาพารามิเตอร์ 7 พันล้านที่เรียกว่า Teuken-7B ได้รับการเผยแพร่บนแพลตฟอร์ม Hugging Face ซึ่งรองรับภาษาราชการของสหภาพยุโรปทั้งหมด 24 ภาษา แบบจำลองนี้ได้รับการพัฒนาโดยโครงการวิจัย EU OpenGPT-X และเปิดให้ผู้ใช้ใช้งานได้ในรูปแบบโอเพ่นซอร์ส แตกต่างจากโมเดลภาษา AI ที่เน้นภาษาอังกฤษเป็นหลัก Teuken-7B ถูกสร้างขึ้นตั้งแต่ต้น โดยข้อมูลการฝึกอบรมประมาณครึ่งหนึ่งมาจากภาษายุโรปที่ไม่ใช่ภาษาอังกฤษ ทำให้มีข้อได้เปรียบที่สำคัญในการจัดการภาษายุโรปหลายภาษา

Teuken-7B ซึ่งเป็นโมเดลภาษาที่มีพารามิเตอร์กว่า 7 พันล้านพารามิเตอร์ มีให้บริการแล้วบน Hugging Face และรองรับภาษาทางการของสหภาพยุโรปทั้งหมด 24 ภาษา แบบจำลองนี้ได้รับการพัฒนาโดยโครงการวิจัย EU OpenGPT-X และพร้อมให้บริการแก่ผู้ใช้ในรูปแบบโครงการโอเพ่นซอร์ส แตกต่างจากโมเดลภาษา AI ที่เน้นภาษาอังกฤษเป็นหลัก Teuken-7B ถูกสร้างขึ้นตั้งแต่ต้น โดยข้อมูลการฝึกอบรมประมาณครึ่งหนึ่งมาจากภาษายุโรปที่ไม่ใช่ภาษาอังกฤษ

หมายเหตุแหล่งที่มาของรูปภาพ: รูปภาพนี้สร้างขึ้นโดย AI และรูปภาพนั้นได้รับอนุญาตจากผู้ให้บริการ Midjourney

ทีมพัฒนากล่าวว่า Teuken-7B ทำงานได้ดีในทุกภาษาที่ได้รับการฝึกอบรม และความน่าเชื่อถือของมันก็น่าประทับใจอย่างยิ่งเมื่อต้องรับมือกับภาษาที่ไม่ใช่ภาษาอังกฤษ เพื่อวัดประสิทธิภาพของโมเดลภาษาในภาษายุโรป ทีมงานโครงการได้สร้างการจัดอันดับ LLM ของยุโรปใหม่ ซึ่งเหนือกว่าวิธีการทดสอบมาตรฐานก่อนหน้านี้ที่ใช้ภาษาอังกฤษเป็นหลัก

การเปิดตัวครั้งนี้ถือเป็นก้าวสำคัญในการผลักดันโมเดล AI หลายภาษาของยุโรป ในขณะเดียวกันก็มอบเครื่องมือที่ทรงพลังและหลากหลายให้กับนักพัฒนาเพื่อรองรับแอปพลิเคชันและการวิจัยข้ามภาษา

การเปิดตัว Teuken-7B แบบโอเพ่นซอร์สนำความเป็นไปได้ใหม่ๆ มาสู่วงการ AI หลายภาษา และสะท้อนให้เห็นถึงความพยายามอย่างแข็งขันของยุโรปในการวิจัยอิสระและพัฒนาเทคโนโลยี AI ความสามารถในการประมวลผลหลายภาษาที่ยอดเยี่ยมจะช่วยเพิ่มความสะดวกให้กับนักพัฒนาทั่วโลก และส่งเสริมการพัฒนาแอปพลิเคชันข้ามภาษาอย่างแข็งขัน คาดว่า Teuken-7B จะสามารถมีบทบาทในสาขาอื่นๆ ได้มากขึ้นในอนาคต