Редактор Downcodes узнал, что Пекинский научно-исследовательский институт искусственного интеллекта Чжиюань (BAAI) запустил первую в мире китайскую платформу для дебатов по крупным моделям FlagEval Debate! В основе платформы лежат дебаты о моделях, и она предоставляет новый метод измерения возможностей больших языковых моделей, призванный более эффективно различать различия в возможностях различных больших моделей. Он умело использует дебаты, интеллектуальную деятельность, основанную на языке, для всестороннего изучения возможностей модели в понимании информации, логическом рассуждении, генерации языка и т. д., а также обеспечивает научность и авторитетность результатов оценки за счет сочетания публичного тестирования и экспертной оценки. секс. Этот шаг знаменует собой новую веху в оценке больших моделей и предоставляет ценные справочные материалы для отрасли.
Пекинский научно-исследовательский институт искусственного интеллекта Чжиюань (BAAI) недавно запустил FlagEval Debate, первую в мире китайскую дебатную платформу для крупных моделей. Эта новая платформа призвана предоставить новый метод измерения для оценки способностей больших языковых моделей посредством конкурентного механизма обсуждения моделей. Это расширение службы оценки боевых моделей Intelligent Source FlagEval, целью которого является выявление различий в возможностях между большими языковыми моделями.
В существующих битвах больших моделей есть некоторые проблемы. Например, результаты битв моделей часто бывают одинаковыми, и трудно различить различия между моделями; тестовый контент зависит от голосования пользователей и требует участия большого количества существующих пользователей; В методах боя отсутствует взаимодействие между моделями. Чтобы решить эти проблемы, Институт интеллектуальной собственности принял форму больших модельных дебатов для оценки.
Как интеллектуальная деятельность, основанная на языке, дебаты могут отражать логическое мышление участников, языковую организацию, способности к анализу и обработке информации. Дебаты по моделям могут продемонстрировать уровень больших моделей в понимании информации, интеграции знаний, логическом рассуждении, языковой генерации и возможностях диалога, одновременно проверяя глубину обработки информации и адаптивность миграции в сложных контекстах.
Исследовательский институт Чжиюань обнаружил, что интерактивные сражения, такие как дебаты, могут выявить пробелы между моделями и рассчитать эффективный рейтинг моделей на основе небольшого количества выборок данных. Поэтому они запустили FlagEval Debate, китайскую платформу для дебатов с большими моделями, основанную на публичном тестировании.
Платформа поддерживает две модели проведения дебатов по темам дебатов. Темы дебатов выбираются платформой случайным образом. База данных тем дебатов в основном состоит из горячих тем поиска, экспертов по оценке и тем дебатов, заказанных ведущими экспертами по дебатам. Каждую дискуссию на платформе могут оценивать все пользователи, что повышает удобство работы пользователей.
Каждая модель дебатов включает в себя 5 раундов представления мнений, при этом каждая сторона имеет по одной возможности. Чтобы избежать отклонения, вызванного положением положительных и отрицательных квадратов, обе модели будут делать по одному квадрату и одному отрицательному квадрату каждая. Каждая крупная модель участвует в многочисленных дебатах с другими моделями, при этом окончательный рейтинг модели рассчитывается на основе выигранных очков.
В конкурсе модельных дебатов используются два метода: открытое публичное тестирование и экспертная оценка. Экспертное жюри состоит из игроков и судей профессиональных соревнований по дебатам. Аудитория открытого публичного тестирования может свободно оценивать и голосовать.
Исследовательский институт Чжиюань заявил, что он продолжит изучать технический путь и прикладную ценность дебатов о моделях, придерживаться принципов науки, авторитета, справедливости и открытости, постоянно совершенствовать систему оценки больших моделей FlagEval, а также предоставлять новые идеи и идеи для экология оценки большой модели.
Официальный сайт FlagEval Debate:
https://flageval.baai.org/#/debate
Запуск FlagEval Debate предоставляет новые идеи и методы для оценки больших моделей, а также способствует развитию технологии больших моделей. Редактор Downcodes надеется, что платформа продолжит совершенствоваться в будущем и принесет больше инноваций и прорывов в область больших моделей.