Исследование OpenAI: гендерные и расовые предубеждения ChatGPT ослаблены, имена пользователей также могут вызывать предвзятость

Автор：Eve Cole Время обновления：2024-12-03 11:48:01

Редактор Downcodes поможет вам понять последние исследования OpenAI: на ответы ChatGPT фактически влияет имя пользователя! Это исследование показывает, как такая информация, как культура, пол и расовая принадлежность, содержащаяся в имени пользователя, тонко влияет на реакцию ИИ, когда пользователь взаимодействует с ChatGPT. Хотя влияние минимально и в основном отражается на старых моделях, оно по-прежнему вызывает опасения по поводу предвзятости ИИ. Сравнивая ответы ChatGPT под разными именами пользователей, исследователи углубились в то, как возникает эта предвзятость и как смягчить этот эффект техническими средствами.

Недавно исследовательская группа OpenAI обнаружила, что когда пользователи взаимодействуют с ChatGPT, выбранное имя пользователя может в некоторой степени повлиять на реакцию ИИ. Хотя эффект невелик и в основном наблюдается в старых моделях, результаты, тем не менее, интересны. Пользователи часто предоставляют свои имена в ChatGPT для выполнения задач, поэтому культурная, гендерная и расовая принадлежность, содержащаяся в именах, становится важным фактором при изучении предвзятости.

В этом исследовании исследователи изучили, как ChatGPT по-разному реагировал на разные имена пользователей, когда сталкивался с одной и той же проблемой. Исследование показало, что, хотя общее качество ответов было одинаковым во всех группах, при выполнении определенных задач возникали предвзятости. ChatGPT иногда создает стереотипный контент, особенно в творческих писательских задачах, в зависимости от пола или расы имени пользователя.

Например, когда у пользователей женские имена, ChatGPT имеет тенденцию создавать истории с главными героями-женщинами и более богатым эмоциональным содержанием, в то время как пользователи с мужскими именами получают немного более мрачные сюжетные линии; Другой конкретный пример показывает, что когда имя пользователя — Эшли, ChatGPT интерпретирует «ECE» как «дошкольное образование» для пользователя по имени Энтони, ChatGPT интерпретирует его как «электротехника и компьютерная инженерия».

Хотя подобные предвзятые ответы были менее распространены в тестах OpenAI, в более старых версиях предвзятость была более выражена. Данные показывают, что модель GPT-3.5Turbo имеет самый высокий уровень смещения в задаче рассказывания историй, достигая 2%. А новые модели показывают более низкие оценки смещения. Однако OpenAI также отметила, что новая функция памяти ChatGPT может усилить гендерную предвзятость.

Кроме того, в ходе исследования были изучены предубеждения, связанные с разным этническим происхождением. Сравнивая имена, которые обычно ассоциируются с азиатами, чернокожими, латиноамериканцами и белыми, исследование показало, что расовая предвзятость действительно существует в творческих задачах, но общий уровень предвзятости ниже, чем гендерная предвзятость, обычно от 0,1% до 1%. Запросы, связанные с путешествиями, демонстрируют сильную расовую предвзятость.

В OpenAI заявили, что благодаря таким методам, как обучение с подкреплением, новая версия ChatGPT значительно снижает предвзятость . В этих новых моделях уровень систематической ошибки составлял всего 0,2%. Например, последняя модель o1-mini может предоставить Мелиссе и Энтони объективную информацию при решении задачи деления «44:4». До тонкой настройки обучения с подкреплением ответ ChatGPT Мелиссе касался Библии и детей, а ответ Энтони — хромосом и генетических алгоритмов.

Выделять:

Имя пользователя, выбранное пользователем, оказывает незначительное влияние на ответы ChatGPT, в основном при творческих писательских задачах.

Женские имена обычно заставляют ChatGPT создавать более эмоциональные истории, тогда как мужские имена склоняются к более мрачному стилю повествования.

Новая версия ChatGPT значительно снизила вероятность предвзятости за счет обучения с подкреплением, а степень предвзятости снизилась до 0,2%.

В целом, это исследование OpenAI напоминает нам, что даже, казалось бы, продвинутые модели ИИ могут иметь скрытые предубеждения. Постоянное улучшение и совершенствование моделей ИИ и устранение предвзятостей являются важными направлениями будущего развития. Редактор Downcodes продолжит уделять внимание технологическому прогрессу и этическим проблемам в области ИИ и предлагать вам еще больше интересных репортажей!