โมเดลขนาดใหญ่ในประเทศกำลังค้นหาวิธีที่จะทำให้เหนือกว่า GPT-4 อย่างแข็งขัน อย่างไรก็ตาม วิธีการประเมินที่มีอยู่มีข้อจำกัด เช่น การรั่วไหลของการทดสอบและความน่าเชื่อถือที่ไม่เพียงพอ เพื่อสร้างมาตรฐานการประเมินแบบจำลองขนาดใหญ่ และให้ข้อมูลอ้างอิงที่เชื่อถือได้มากขึ้นสำหรับการพัฒนาอุตสาหกรรม การประเมินระดับทางเทคนิคของแบบจำลองขนาดใหญ่อย่างเป็นกลางและยุติธรรมจึงเป็นสิ่งสำคัญ บทความนี้จะกล่าวถึงสถานะการพัฒนาและความท้าทายของโมเดลขนาดใหญ่ในประเทศ
โมเดลขนาดใหญ่ในประเทศกำลังค้นหาวิธีที่จะแซงหน้า GPT4 และวิธีการประเมินต่างๆ เผยให้เห็นถึงความสามารถของโมเดลขนาดใหญ่ แต่ก็ยังมีการรั่วไหลของการทดสอบและข้อสงสัยด้านความน่าเชื่อถือ China Academy of Information and Communications Technology ได้เปิดตัวแผนมาตรฐานระดับชาติเพื่อจัดทำมาตรฐานอย่างเป็นทางการและเชื่อถือได้สำหรับการประเมินแบบจำลองขนาดใหญ่
แผนมาตรฐานระดับชาติที่ออกโดยสถาบันเทคโนโลยีสารสนเทศและการสื่อสารแห่งประเทศจีนให้การรับประกันที่สำคัญสำหรับการพัฒนาโมเดลขนาดใหญ่ในประเทศอย่างมีประสิทธิภาพ และเป็นก้าวสำคัญในด้านการประเมินโมเดลขนาดใหญ่ในประเทศของฉัน ในอนาคต ระบบการประเมินที่สมบูรณ์ยิ่งขึ้นจะยังคงส่งเสริมความก้าวหน้าทางเทคโนโลยีของโมเดลขนาดใหญ่ในประเทศ และท้ายที่สุดจะบรรลุการแข่งขันและเหนือกว่าระดับขั้นสูงระดับนานาชาติ