OpenAI выпустил новый контрольный анализ SimpleQA, стремясь оценить фактическую точность моделей крупных языков, сгенерированных ответов. Благодаря быстрому развитию технологии ИИ, обеспечение подлинности модели модели имеет решающее значение, а явление «иллюзии» - генерация модели, казалось бы, заслуживающую доверия, но фактически неправильной информации - стало все более серьезной проблемой. Появление SimpleQA обеспечивает новые способы и стандарты для решения этой проблемы.
Недавно Openai выпустил новый эталон под названием Simpleqa для оценки фактической точности языковых моделей, сгенерированных ответов.
С быстрой разработкой моделей крупных языков, обеспечение точности сгенерированного контента сталкивается со многими проблемами, особенно теми так называемыми явлениями «иллюзии», где модель генерирует информацию, которая звучит уверенно, но на самом деле является неправильной или недостаточно проверенной. Эта ситуация стала особенно важной в контексте все больше и больше людей, полагающихся на ИИ для получения информации.
Особенности дизайна SimpleQA заключается в том, что он фокусируется на коротких, четких вопросах, которые часто имеют солидный ответ, так что может быть легче оценить, является ли ответ на ответ модели. В отличие от других тестов, проблемы Simpleqa тщательно разработаны, чтобы позволить даже самым современным моделям, таким как GPT-4, столкнуться с проблемами. Этот эталон содержит 4326 вопросов, охватывающих несколько областей, таких как история, наука, технология, искусство и развлечения, с особым акцентом на оценку точности и калибровки модели.
Дизайн Simpleqa следует за некоторыми ключевыми принципами. Во -первых, каждый вопрос имеет справочный ответ, определяемый двумя независимыми тренерами ИИ, обеспечивая правильность ответа.
Во -вторых, настройка вопроса позволяет избежать двусмысленности, и каждый вопрос можно ответить с простым и четким ответом, чтобы рейтинги стали относительно простыми. Кроме того, SimpleQA использует классификатор CHATGPT для рейтинга, явно отмечая ответ как «правильный», «ошибка» или «не пробое».
Другое преимущество SimpleQA заключается в том, что он охватывает различные проблемы, предотвращает чрезмерную специфическую специфическую специфическую возможность моделей и обеспечивает комплексную оценку. Этот набор данных прост в использовании, потому что вопросы и ответы коротки, что делает тест быстро, и результаты мало меняются. Более того, Simpleqa также учитывает долгосрочную корреляцию информации, что избегает воздействия, вызванного изменениями в информации, что делает ее «вечнозеленым» эталоном.
Выпуск SimpleQA является важным шагом в повышении надежности информации, сгенерированной AI. Он не только обеспечивает простой в использовании эталон, но также устанавливает высокий стандарт для исследователей и разработчиков, побуждая их создавать модели, которые не только генерируют язык, но и являются подлинными и точными. С помощью открытого исходного кода SimpleQA предоставляет сообществу ИИ ценный инструмент, который поможет повысить фактическую точность языковых моделей, чтобы обеспечить информативные и надежные системы ИИ.
Вход в проект: https://github.com/openai/simple-evals
Подробная информация: https://openai.com/index/introducing-simpleqa/
Ключевые моменты:
SimpleQA - это новый эталон, запущенный OpenAI, который сосредоточен на оценке фактической точности языковых моделей.
Критериал состоит из 4326 коротких и четких вопросов, охватывающих несколько областей для обеспечения комплексной оценки.
SimpleQA помогает исследователям идентифицировать и улучшать способности языковых моделей в создании точного контента.
Таким образом, SimpleQA предоставляет надежный инструмент для оценки точности крупных языковых моделей, а его открытость и простота использования приведут поле ИИ к более подлинному и заслуживающему доверия направлению. Мы с нетерпением ждем Simpleqa, чтобы способствовать рождению более надежных и заслуживающих доверия систем ИИ.