ขณะนี้โมเดลภาษาสามารถแก้ปัญหาที่ต้องจัดการกับลำดับที่ยาวซึ่งประกอบด้วยโทเค็นนับแสน อย่างไรก็ตาม พวกเขามักจะล้มเหลวในงานที่ต้องใช้กฎง่ายๆ ซ้ำๆ แม้ว่าจะเป็นลำดับที่สั้นกว่าที่เห็นระหว่างการฝึกก็ตาม ตัวอย่างเช่น LLM ที่ล้ำสมัยสามารถค้นหารายการทั่วไปในสองรายการที่มีมากถึง 20 รายการ แต่จะล้มเหลวเมื่อรายการมี 80 รายการ ในบทความนี้ เราขอแนะนำ MLissard ซึ่งเป็นเกณฑ์มาตรฐานหลายภาษาที่ออกแบบมาเพื่อประเมินความสามารถของแบบจำลองในการประมวลผลและสร้างข้อความที่มีความยาวต่างกัน และนำเสนอกลไกในการควบคุมความซับซ้อนของลำดับ
การประเมินโมเดลโอเพ่นซอร์สและกรรมสิทธิ์ของเราแสดงให้เห็นถึงประสิทธิภาพที่ลดลงอย่างต่อเนื่องในทุกรุ่นและทุกภาษา เมื่อความซับซ้อนของลำดับเพิ่มขึ้น น่าประหลาดใจที่การใช้ตัวอย่างในบริบทในภาษาอื่นที่ไม่ใช่ภาษาอังกฤษช่วยเพิ่มประสิทธิภาพในการประมาณค่าได้อย่างมาก
ในโฟลเดอร์ data/(task)/ คุณจะพบชุดข้อมูลสำหรับการประเมินด้วย MLissard ไฟล์อยู่ในรูปแบบ .json และนำเสนอคำอธิบายโดยย่อของงาน ตามด้วยตัวอย่างในบริบทของภาษาเป้าหมาย ช่อง "test_examples" มีตัวอย่างการทดสอบที่ประกอบด้วยอินพุต เป้าหมาย ความยาว (len) และช่องเก็บที่อยู่ในความยาวนี้
ใน results/(task)/GPT-4/ เป็นไปได้ที่จะค้นหาคำตอบที่สร้างโดยรุ่น GPT-4 และ Llama-3 รวมถึงการทดสอบการระเหย โดยโฟลเดอร์ต่างๆ จะถูกแยกตามงาน
โฟลเดอร์ src/(task)/ มีไฟล์ .py สำหรับสร้างตัวอย่างใหม่หรือขยาย MLissard วิธีดำเนินการ: python <task_name>.py --output_path=my_output_path