แพลตฟอร์มประเมินแบบจำลองขนาดใหญ่ CompassArena ที่เปิดตัวโดยทีมงาน OpenCompass จาก Shanghai Artificial Intelligence Laboratory Sinan และแพลตฟอร์ม ModelScope เพิ่งได้รับการอัปเกรดครั้งใหญ่เมื่อเร็ว ๆ นี้ การอัปเกรดนี้มีจุดมุ่งหมายเพื่อปรับปรุงประสบการณ์ผู้ใช้และให้การประเมินแบบจำลองทางวิทยาศาสตร์และครอบคลุมมากขึ้น ด้วยการรวบรวมข้อมูลผู้ใช้จำนวนมากและเพิ่มประสิทธิภาพอย่างต่อเนื่อง CompassArena ได้เพิ่มฟังก์ชัน Judge Copilot ปรับปรุงอัลกอริธึมการจัดอันดับ และรวมโมเดลใหม่มากกว่า 20 โมเดล ครอบคลุมโมเดลธุรกิจในประเทศและต่างประเทศและโมเดลโอเพ่นซอร์ส เพื่อให้ผู้ใช้มีความสมบูรณ์ยิ่งขึ้น ตัวเลือกและการจัดอันดับโมเดลที่แม่นยำยิ่งขึ้น
ฟังก์ชั่น Judge Copilot ใช้โมเดลการประเมินอันทรงพลัง Compass-Judger-1-32B-Instruct เพื่อให้ผู้ใช้สามารถเปรียบเทียบและวิเคราะห์ประสิทธิภาพของโมเดลบทสนทนาได้อย่างครอบคลุม ตั้งแต่การประเมินหลายมิติ การเปรียบเทียบแบบเรียลไทม์ ไปจนถึงการตัดสินใจอย่างชาญฉลาด ความช่วยเหลือเพื่อปรับปรุงประสิทธิภาพและความถูกต้องของการประเมิน ในเวลาเดียวกัน อัลกอริธึมการจัดอันดับที่อัปเกรดแล้วช่วยลดผลกระทบของปัจจัยที่รบกวนได้อย่างมีประสิทธิภาพ โดยการปรับปรุงอัลกอริธึมทางสถิติของแบรดลีย์-เทอร์รี่ และแนะนำตัวแปรควบคุม ทำให้การจัดอันดับแบบจำลองเป็นวิทยาศาสตร์และแม่นยำมากขึ้น แพลตฟอร์มดังกล่าวยังรวบรวมความคิดเห็นของผู้ใช้อย่างต่อเนื่องเพื่อปรับปรุงความสามารถที่ครอบคลุมและเอฟเฟกต์การจัดตำแหน่งของโมเดล Judge อย่างต่อเนื่อง
CompassArena ให้ความสำคัญอย่างยิ่งต่อประสิทธิภาพของโมเดล Judge ในการใช้งานจริง และรวบรวมคำติชมของผู้ใช้อย่างแข็งขัน เพื่อปรับปรุงความสามารถที่ครอบคลุมและเอฟเฟกต์การวางแนวของโมเดล Judge ผู้ใช้สามารถแสดงการประเมินโมเดลผู้พิพากษาได้โดยคลิกปุ่ม "ถูกใจ" และ "ไม่ชอบ" ด้วยการปรับแบบจำลองทางสถิติของแบรดลีย์-เทอร์รี่ที่มีตัวแปรควบคุม CompassArena สามารถประมาณผลกระทบของปัจจัยภายนอกต่างๆ ได้ ผลกระทบเฉพาะสามารถแสดงในรูปแบบของอัตราส่วนอัตราต่อรอง
ด้วยการอัปเกรดนี้ CompassArena ยินดีต้อนรับโมเดลธุรกิจในประเทศ เช่น 360gpt2-pro, deep-seek-v2.5-chat, doubao-pro-32k-240828 รวมถึง claude-3.5-sonnet-20241022, gemini-exp-1121 ฯลฯ การเพิ่มโมเดลธุรกิจต่างประเทศและชุดโมเดลโอเพ่นซอร์ส โมเดลใหม่นี้เป็นขององค์กรต่างๆ เช่น 360, DeepSeek, Doubao ฯลฯ ทำให้ผู้ใช้มีตัวเลือกการต่อสู้ที่สมบูรณ์ยิ่งขึ้น
ที่อยู่ประสบการณ์: https://www.modelscope.cn/studios/opencompass/CompassArena
การอัปเกรด CompassArena นี้ไม่เพียงแต่ปรับปรุงความเป็นวิทยาศาสตร์และความแม่นยำของการประเมินแบบจำลองเท่านั้น แต่ยังช่วยให้ผู้ใช้มีตัวเลือกแบบจำลองที่สมบูรณ์ยิ่งขึ้นและประสบการณ์ที่สะดวกสบายยิ่งขึ้น ถือเป็นก้าวใหม่สำหรับแพลตฟอร์มการประเมินแบบจำลองขนาดใหญ่ ยินดีต้อนรับสู่การเยี่ยมชมประสบการณ์ มีส่วนร่วมในการประเมินแบบจำลอง และร่วมกันส่งเสริมการพัฒนาเทคโนโลยีแบบจำลองขนาดใหญ่