Источник: Новости MIT
Хотя возможности больших языковых моделей впечатляют, они все еще далеки от совершенства. Эти модели ИИ иногда могут «галлюцинировать» и генерировать неверную или необоснованную информацию в ответ на запросы.
Из-за этой иллюзорной проблемы ответы модели часто приходится проверять проверяющим, особенно в таких важных сферах, как здравоохранение или финансы. Однако процесс проверки часто требует, чтобы люди читали длинные документы, на которые ссылается модель, — утомительная и подверженная ошибкам задача, которая может удержать некоторых пользователей от использования генеративных моделей ИИ.
Чтобы помочь проверяющим людям, исследователи Массачусетского технологического института создали удобную для пользователя систему, которая позволяет людям быстрее проверять ответы больших языковых моделей. Инструмент под названием SymGen позволяет LLM генерировать ответы со ссылками, которые указывают непосредственно на определенные места в исходном документе, например на ячейку в базе данных.
Пользователи могут наводить курсор на выделенные части текстовых ответов, чтобы увидеть данные, которые модель использовала для генерации определенных слов или фраз. Между тем, в невыделенных частях показаны фразы, которые требуют дополнительного внимания для проверки и проверки.
«Мы даем людям возможность выборочно сосредоточиться на тех частях текста, которым им нужно уделить больше внимания. В конечном итоге SymGen повышает уверенность людей в реакции модели, поскольку они могут легко перепроверить, чтобы убедиться в достоверности информации». и компьютерные науки», — сказала аспирантка Шеннон Шен, соавтор статьи SymGen.
В ходе исследования пользователей Шен и его коллеги обнаружили, что время проверки с помощью SymGen сократилось примерно на 20 % по сравнению с процессом, выполняемым вручную. Делая процесс проверки результатов модели более быстрым и простым, SymGen помогает выявлять ошибки в LLM, используемых в различных реальных приложениях, от создания клинических записей до обобщения отчетов финансового рынка.
Соавторами статьи также являются соавтор Лукас Торроба Хенниген, аспирант EECS Анируддха «Ани» Нрусимха, президент Good Data Initiative и старший автор Дэвид Зонтаг, профессор EECS; и сотрудник клиники MIT Jameel по компьютерным наукам с руководителем группы клинического машинного обучения Лаборатории искусственного интеллекта (CSAIL) и доцентом Юн Кимом, членом CSAIL; Исследование недавно было представлено на конференции по языковому моделированию.
Ссылка на символ
Чтобы облегчить проверку, многие LLM созданы для генерации ссылок на внешние документы и предоставления языковых ответов для проверки пользователем. Однако об этих системах проверки часто думают второстепенно и не учитывают усилия, необходимые людям для анализа большого количества цитат, сказал Шен.
«Цель генеративного ИИ — сократить время, необходимое пользователям для выполнения задачи. Если вам придется часами читать эти документы, чтобы проверить обоснованность утверждений модели, сгенерированный контент будет менее полезен в реальных приложениях. — сказал Шен.
Исследователи подошли к этому вопросу с точки зрения человека, который будет выполнять работу по проверке.
Пользователи SymGen сначала предоставляют LLM данные, которые можно использовать в качестве справочного материала, например таблицу, содержащую статистику баскетбольных игр. Затем исследователи выполняют промежуточный шаг, не прося сразу модель выполнить задачу, например, создают сводку совпадений на основе этих данных. Они побуждают модель генерировать ответы в символической форме.
С помощью этого приглашения всякий раз, когда модель желает сослаться на слово в ответе, она должна записать конкретную ячейку в таблице данных, содержащую эту информацию. Например, если модель хочет сослаться на фразу «Портленд Трэйл Блэйзерс» в ответе, она заменит этот текст именами ячеек в таблице данных, которые содержат эти слова.
«Поскольку у нас есть этот промежуточный этап, на котором текст представлен в символьном формате, мы можем добиться очень детальной ссылки. Мы можем четко указать, какой части данных соответствует каждый фрагмент текста в выходных данных», — говорит Торроба Хенниген.
Затем SymGen использует инструменты на основе правил для анализа каждой ссылки, копируя соответствующий текст из таблицы данных в ответ модели.
«Таким образом, мы знаем, что он скопирован дословно, и можем убедиться в отсутствии ошибок в тех частях текста, которые соответствуют фактическим переменным данных», — добавил Шен.
Упрощение проверки
Модель способна генерировать символические ответы благодаря способу ее обучения. Большие языковые модели принимают большие объемы данных из Интернета, некоторые из которых записываются в «формате-заполнителе» с кодами, заменяющими фактические значения.
SymGen использует аналогичную структуру, когда предлагает модели генерировать символические ответы.
«Мы разработали подсказки таким образом, чтобы раскрыть возможности LLM», — добавил Шен.
В исследованиях пользователей большинство участников заявили, что SymGen упростил проверку текста, сгенерированного LLM. Они проверяли ответы модели примерно на 20% быстрее, чем при использовании стандартных методов.
Однако эффективность SymGen ограничена качеством исходных данных. LLM может ссылаться на неправильные переменные, и человек-верификатор может об этом не знать.
Кроме того, пользователи должны предоставить исходные данные в структурированном формате (например, в таблице) для ввода в SymGen. На данный момент система работает только с табличными данными.
В дальнейшем исследователи расширяют возможности SymGen по обработке произвольного текста и других форм данных. Благодаря этой возможности он может помочь проверить определенные части сводок юридических документов, созданных ИИ. Они также планируют протестировать SymGen с врачами, чтобы изучить, как он выявляет ошибки в клинических отчетах, генерируемых ИИ.
Эта работа частично финансировалась LiBERTy Mutual и MIT Intelligent Discovery Initiative.