Alibaba DAMO Academy และชุมชน MoDa ModelScope ร่วมกันเปิดซอร์สชุดการทดสอบเกณฑ์มาตรฐานหลายภาษาใหม่ P-MMEval ซึ่งมีจุดมุ่งหมายเพื่อประเมินความสามารถหลายภาษาของโมเดลภาษาขนาดใหญ่ (LLM) อย่างครอบคลุมยิ่งขึ้น และเปรียบเทียบความสามารถในการถ่ายโอนข้ามภาษา ชุดทดสอบครอบคลุมชุดข้อมูลที่มีประสิทธิภาพของความสามารถพื้นฐานและความสามารถเฉพาะทาง ทำให้มั่นใจว่าครอบคลุมหลายภาษาอย่างสม่ำเสมอ และให้ตัวอย่างคู่ขนานในหลายภาษา รองรับได้ถึง 10 ภาษาจาก 8 ตระกูลภาษาที่แตกต่างกัน P-MMEval เปิดตัวเพื่อแก้ไขข้อบกพร่องในการประเมิน LLM ในปัจจุบัน เช่น การขาดผลการประเมินหลายภาษาที่แม่นยำและขนานกัน และความไม่สอดคล้องกันในการครอบคลุมหลายภาษาของชุดเกณฑ์มาตรฐานที่มีอยู่
Alibaba DAMO Academy และชุมชน MoDa ModelScope ร่วมกันเปิดซอร์สชุดการทดสอบเกณฑ์มาตรฐานหลายภาษาใหม่ P-MMEval ซึ่งมีจุดมุ่งหมายเพื่อประเมินความสามารถหลายภาษาของโมเดลภาษาขนาดใหญ่ (LLM) อย่างครอบคลุมยิ่งขึ้น และเปรียบเทียบความสามารถในการถ่ายโอนข้ามภาษา ชุดทดสอบครอบคลุมชุดข้อมูลที่มีประสิทธิภาพของความสามารถพื้นฐานและความสามารถเฉพาะทาง ทำให้มั่นใจว่าครอบคลุมหลายภาษาอย่างสม่ำเสมอ และให้ตัวอย่างคู่ขนานในหลายภาษา รองรับได้ถึง 10 ภาษาจาก 8 ตระกูลภาษาที่แตกต่างกัน P-MMEval เปิดตัวเพื่อแก้ไขข้อบกพร่องในการประเมิน LLM ในปัจจุบัน เช่น การขาดผลการประเมินหลายภาษาที่แม่นยำและขนานกัน และความไม่สอดคล้องกันในการครอบคลุมหลายภาษาของชุดเกณฑ์มาตรฐานที่มีอยู่
P-MMEval เลือกชุดการทดสอบเกณฑ์มาตรฐานที่มีอยู่และสมเหตุสมผลตามวิธีการทดสอบที่มีนัยสำคัญ ผสานรวมงานการประมวลผลภาษาธรรมชาติขั้นพื้นฐานและงานประเมินผลเฉพาะความสามารถ รับประกันความสอดคล้องของความครอบคลุมของภาษาสำหรับแต่ละงาน และจัดเตรียมตัวอย่างภาษาแบบข้ามคู่ขนาน เพื่อให้สามารถเปรียบเทียบได้สม่ำเสมอ สำหรับความหลากหลายของงาน P-MMEval ครอบคลุมงาน NLP พื้นฐานที่สำคัญสองงาน (การสร้างและความเข้าใจ) รวมถึงความสามารถหลักห้าประการของ LLM ในปัจจุบัน ในแง่ของความหลากหลายทางภาษา P-MMEval ได้รวมภาษาที่แตกต่างกัน 10 ภาษา ครอบคลุมตระกูลภาษา 8 ภาษา
ชุดข้อมูล P-MMEval ได้รับการผสานรวมเข้ากับเฟรมเวิร์กการประเมิน OpenCompass และ EvalScope ของระบบการประเมินผล Sinan และงานการประเมินผลสามารถดำเนินการได้โดยใช้ทั้งสองเฟรมเวิร์กนี้ OpenCompass นำเสนอแพลตฟอร์มแบบเปิดสำหรับการประเมินโมเดลขนาดใหญ่แบบโอเพ่นซอร์ส มีประสิทธิภาพ และครอบคลุม ซึ่งสนับสนุนการประเมินโมเดลภาษาขนาดใหญ่ โมเดลหลายรูปแบบ และโมเดลต่างๆ แบบครบวงจรในที่เดียว และเผยแพร่รายการผลการประเมินเป็นประจำ นอกจากนี้ P-MMEval ยังเชื่อมต่อกับระบบประเมินผล OpenCompass เป็นครั้งแรก และสามารถใช้เครื่องมือโอเพ่นซอร์ส Sinan OpenCompass เพื่อทำงานประเมินผลให้เสร็จสิ้นได้
นักวิจัยได้ประเมินประสิทธิภาพของโมเดลการปรับแต่งคำสั่งที่เป็นตัวแทนหลายรูปแบบ รวมถึงโมเดลโอเพ่นซอร์ส GPT-4o, Claude-3.5 และโมเดลโอเพ่นซอร์ส LLaMA3.1, LLaMA3.2, Qwen2.5 เป็นต้น ผลการทดลองแสดงให้เห็นว่า ยกเว้นซีรีส์ LLaMA3.2 ความสามารถหลายภาษาของทุกรุ่นจะดีขึ้นเมื่อขนาดของโมเดลเพิ่มขึ้น Qwen2.5 แสดงให้เห็นถึงประสิทธิภาพหลายภาษาที่แข็งแกร่งในงานด้านความเข้าใจและความเชี่ยวชาญพิเศษ ในขณะที่ Gemma2 ทำงานได้ดีในงานการสร้าง โมเดลโอเพ่นซอร์สโดยทั่วไปจะดีกว่าโมเดลโอเพ่นซอร์ส
การเปิดตัว P-MMEval มอบเครื่องมือและวิธีการใหม่สำหรับการประเมินความสามารถหลายภาษาของแบบจำลองขนาดใหญ่ ซึ่งช่วยส่งเสริมการพัฒนาและการประยุกต์ใช้เทคโนโลยี NLP หลายภาษา
ลิงค์ชุดข้อมูล:
https://www.modelscope.cn/datasets/modelscope/P-MMEval
โอเพ่นซอร์สของ P-MMEval มอบเกณฑ์มาตรฐานที่ครอบคลุมและเป็นมาตรฐานมากขึ้นสำหรับการประเมินความสามารถหลายภาษาของโมเดลภาษาขนาดใหญ่ ครอบคลุมภาษาที่หลากหลายและประเภทงานที่หลากหลาย มอบทรัพยากรที่มีคุณค่าสำหรับนักวิจัยและนักพัฒนา และส่งเสริมการพัฒนาสาขา NLP หลายภาษา เราหวังว่า P-MMEval จะได้รับการปรับปรุงอย่างต่อเนื่องในอนาคตเพื่อรองรับการประเมินและการปรับปรุง LLM หลายภาษาได้ดียิ่งขึ้น