Новое исследование Нью-Йоркского университета показывает тревожную уязвимость крупномасштабных языковых моделей (LLM) при обучении данных. Исследования показывают, что очень небольшое количество ложной информации, даже составляющее всего 0,001% обучающих данных, может серьезно повлиять на точность и надежность LLM, вызывая серьезные ошибки. Этот вывод особенно важен в сфере медицины, где ошибочная медицинская информация может напрямую поставить под угрозу безопасность пациентов. Исследование было опубликовано в журнале Nature Medicine, что вызвало широко распространенную обеспокоенность по поводу безопасности и надежности ИИ в медицинских целях.
Недавно исследовательская группа из Нью-Йоркского университета опубликовала исследование, раскрывающее уязвимость крупномасштабных языковых моделей (LLM) при обучении данных. Они обнаружили, что даже небольшое количество ложной информации, составляющее всего 0,001% обучающих данных, может вызвать значительные ошибки во всей модели. Этот вывод вызывает особую озабоченность в сфере медицины, где дезинформация может напрямую повлиять на безопасность пациентов.
В статье, опубликованной в журнале Nature Medicine, исследователи отметили, что, хотя LLM работает хорошо, если в данные обучения вводится ложная информация, эти модели все равно могут работать хуже, чем необученные модели, в некоторых тестах оценки с открытым исходным кодом. Модель воздействия. так же хорошо. Это означает, что при регулярном тестировании мы не сможем обнаружить потенциальные риски в этих моделях.
Чтобы проверить это, исследовательская группа провела эксперименты на обучающем наборе данных под названием «The Pile», в который они намеренно добавили 150 000 медицинских фальшивых статей, созданных ИИ. Всего за 24 часа они сгенерировали контент, и исследование показало, что замена 0,001% контента в наборе данных, даже небольшого 1 миллиона обучающих маркеров, привела к увеличению вредного контента на 4,8%. Процедура чрезвычайно недорогая и стоит всего 5 долларов.
Эта атака по отравлению данных не требует прямого контакта с весами модели, а скорее злоумышленник может ослабить эффективность LLM, просто опубликовав вредоносную информацию в сети. Исследовательская группа подчеркивает, что этот вывод подчеркивает значительные риски при использовании инструментов ИИ в медицинской сфере. В то же время они также упомянули, что были соответствующие случаи, показывающие, что некоторые медицинские платформы искусственного интеллекта, такие как MyChart, часто генерируют неверную информацию при автоматическом ответе на вопросы пациентов, создавая проблемы для пациентов.
Поэтому исследователи призывают разработчиков ИИ и поставщиков медицинских услуг четко осознавать эту уязвимость при разработке медицинских программ LLM. Они рекомендуют не использовать LLM для критических задач, таких как диагностика или лечение, пока не будет обеспечена безопасность в будущем.
Выделять:
Исследования показывают, что только 0,001% ложной информации может сделать крупномасштабную языковую модель (LLM) неэффективной.
В медицинской сфере распространение ложной информации может серьёзно повлиять на безопасность пациентов.
Исследователи призывают не использовать LLM для важных медицинских задач, таких как диагностика или лечение, пока не будет обеспечена безопасность.
Результаты этого исследования предупреждают нас о том, что прежде чем применять крупномасштабные языковые модели в таких важных областях, как медицина, мы должны усилить исследования в области безопасности данных и надежности моделей, чтобы обеспечить их безопасность и эффективность, а также избежать потенциальных рисков.