สถาบันวิจัยปัญญาประดิษฐ์จือหยวน (BAAI) ปักกิ่งเปิดตัวเวทีจำลองขนาดใหญ่ FlagEval เมื่อวันที่ 4 กันยายน 2567 นี่เป็นบริการประเมินแบบจำลองการต่อสู้แห่งแรกของโลกที่มีวิดีโอของวินเซนต์ บริการนี้เปิดให้บุคคลทั่วไปเข้าชมและครอบคลุมโมเดลขนาดใหญ่ประมาณ 40 รายการทั้งในและต่างประเทศ รองรับการประเมินงานหลักทั้ง 4 แบบทั้งแบบออนไลน์และออฟไลน์: คำถามและคำตอบทางภาษา การทำความเข้าใจรูปภาพและข้อความหลายรูปแบบ รูปภาพแบบข้อความ และข้อความ - วิดีโอที่ใช้และแนะนำระบบการให้คะแนนแบบแลดเดอร์เชิงอัตนัยอย่างสร้างสรรค์ และมุ่งมั่นที่จะประเมินประสิทธิภาพของโมเดลได้แม่นยำยิ่งขึ้น FlagEval ไม่เพียงแต่ให้การประเมินคำถามที่ตั้งไว้ล่วงหน้าที่หลากหลาย เช่น ความเข้าใจอย่างง่าย การประยุกต์ใช้ความรู้ ความสามารถในการเขียนโค้ด ความสามารถในการให้เหตุผล ฯลฯ แต่ยังใช้กลไกที่ไม่เปิดเผยตัวตนเพื่อให้มั่นใจถึงความเป็นธรรมและความเที่ยงธรรมของกระบวนการประเมิน ผู้ใช้สามารถมีส่วนร่วมในการประเมินผ่านทางเว็บหรือเทอร์มินัลมือถือ และดูผลการให้คะแนนและอันดับอารีน่าแบบเรียลไทม์
เมื่อวันที่ 4 กันยายน 2024 สถาบันวิจัยปัญญาประดิษฐ์ Beijing Zhiyuan (BAAI) ได้ประกาศเปิดตัวบริการประเมินแบบจำลองการต่อสู้แห่งแรกของโลก ซึ่งรวมถึงสนามจำลองขนาดใหญ่ video-FlagEval ของ Vincent
บริการนี้เปิดให้ผู้ใช้ครอบคลุมโมเดลขนาดใหญ่ประมาณ 40 รุ่นทั้งในและต่างประเทศ และรองรับการประเมินแบบออนไลน์หรือออฟไลน์ที่กำหนดเองสำหรับสี่งานหลัก รวมถึงคำถามและคำตอบภาษา การทำความเข้าใจรูปภาพและข้อความหลายรูปแบบ รูปภาพของ Vincentian และวิดีโอของ Vincentian การเปิดตัวเวทีโมเดลขนาดใหญ่ FlagEval ไม่เพียงแต่ให้การประเมินคำถามที่ตั้งไว้ล่วงหน้าที่หลากหลาย เช่น ความเข้าใจอย่างง่าย การประยุกต์ใช้ความรู้ ความสามารถในการเขียนโค้ด ความสามารถในการใช้เหตุผล ฯลฯ แต่ยังแนะนำระบบการให้คะแนนแบบขั้นบันไดแนวโน้มแบบอัตนัยเป็นครั้งแรกเพื่อเพิ่มเติม เปิดเผยความแตกต่างของประสิทธิภาพของโมเดลได้อย่างแม่นยำ
บริการใช้กลไกที่ไม่เปิดเผยตัวตนสำหรับการประเมินเพื่อให้มั่นใจถึงความเป็นธรรมของกระบวนการประเมิน ผู้ใช้สามารถมีส่วนร่วมในการประเมินผ่านทางหน้าเว็บหรือพอร์ทัลการเข้าถึงมือถือในประเทศแห่งแรกและสัมผัสประสบการณ์การประเมินแบบจำลองการต่อสู้ที่มีประสิทธิภาพ ผลการให้คะแนนของสนามจำลองขนาดใหญ่ของ FlagEval จะมีการประกาศทันทีเพื่อสร้างรายชื่อสนามประลอง ซึ่งแสดงความสามารถในการรบของแต่ละรุ่น
สถาบันวิจัย Zhiyuan ระบุว่าจะเปิดแหล่งข้อมูลลิงก์เต็มรูปแบบของการประเมินแบบจำลองการต่อสู้ เพื่อส่งเสริมการพัฒนาระบบนิเวศการประเมินแบบจำลองขนาดใหญ่ การเปิดตัวเวทีโมเดลขนาดใหญ่ของ FlagEval ช่วยขยายรูปแบบทางเทคนิคของ Zhiyuan ตลอดจนการวิจัยและพัฒนาเครื่องมือและวิธีการในด้านการประเมินแบบจำลอง พร้อมทั้งมอบเครื่องมือทดสอบและประเมินผลใหม่สำหรับการวิจัยและการประยุกต์ในด้านปัญญาประดิษฐ์
ที่อยู่ประสบการณ์: https://flageval.baai.ac.cn/#/home
ข้อมูลเวทีแบบจำลองขนาดใหญ่ FlagEval แบบโอเพ่นซอร์สของสถาบันวิจัย Zhiyuan มีเป้าหมายเพื่อส่งเสริมการพัฒนาที่ดีของระบบนิเวศการประเมินแบบจำลองขนาดใหญ่ และให้การสนับสนุนที่แข็งแกร่งสำหรับความก้าวหน้าอย่างต่อเนื่องในด้านปัญญาประดิษฐ์ ยินดีต้อนรับสู่การเยี่ยมชมประสบการณ์ มีส่วนร่วมในการประเมิน และร่วมกันส่งเสริมการพัฒนาเทคโนโลยี AI!