Появление моделей больших языков (LLM), особенно широкое использование таких приложений, как ChatGPT, полностью изменило модель взаимодействия человека и компьютера. LLM демонстрирует впечатляющую способность генерировать связный и всеобъемлющий текст. Однако редактор Downcodes обнаружил, что у LLM также есть проблема «галлюцинаций», то есть он генерирует контент, который выглядит реальным, но является вымышленным, бессмысленным или несовместимым с подсказками. Исследователи Гарвардского университета провели углубленное исследование по этому поводу, пытаясь выявить причины и пути решения «иллюзии» LLM.
Появление больших языковых моделей (LLM), особенно популярность таких приложений, как ChatGPT, полностью изменило способ взаимодействия человека с компьютером. Способность моделей генерировать связный и всеобъемлющий текст впечатляет. Однако, несмотря на свои мощные возможности, LLM склонен к «галлюцинациям», то есть созданию контента, который кажется реальным, но на самом деле является фиктивным, бессмысленным или несоответствующим подсказкам.
Исследователи из Гарвардского университета провели углубленное исследование феномена «галлюцинации» LLM и обнаружили, что его корни лежат в принципе работы LLM. LLM строит вероятностную модель, выполняя машинное обучение на больших текстовых данных, и прогнозирует следующее слово на основе вероятности совместного появления слов. Другими словами, LLM на самом деле не понимает смысла языка, а делает прогнозы на основе статистических вероятностей.
Исследователи сравнивают LLM с «краудсорсингом» и полагают, что LLM на самом деле обеспечивает «сетевой консенсус». Как и такие платформы, как Wikipedia или Reddit, LLM извлекает информацию из больших объемов текстовых данных и генерирует наиболее распространенные ответы. Поскольку большинство языков используются для описания мира, ответы, генерируемые LLM, обычно точны.
Однако «иллюзии» могут возникнуть, когда LLM сталкивается с расплывчатыми, противоречивыми или несогласованными темами. Чтобы проверить эту гипотезу, исследователи разработали серию экспериментов для проверки эффективности различных LLM при работе с разными темами. Результаты экспериментов показывают, что LLM хорошо работает при работе с общими темами, но точность значительно падает при работе с неоднозначными или противоречивыми темами.
Это исследование показывает, что, хотя LLM является мощным инструментом, его точность зависит от качества и количества обучающих данных. При использовании LLM, особенно при работе с неоднозначными или спорными темами, к его результатам следует относиться с осторожностью. Это исследование также определяет направления для будущего развития LLM, а именно необходимость улучшить способность LLM решать неоднозначные и противоречивые темы и улучшить интерпретируемость его результатов.
Адрес статьи: https://dl.acm.org/doi/pdf/10.1145/3688007.
Гарвардское исследование дает ценную информацию о понимании и совершенствовании LLM. Оно также напоминает нам, что нам нужно использовать LLM с осторожностью, особенно когда речь идет о сложных или противоречивых темах, и мы должны критически оценивать его результаты. Будущее направление развития LLM должно быть сосредоточено на улучшении его способности обрабатывать нечеткую информацию и улучшении интерпретируемости. Редактор Downcodes надеется, что это исследование может способствовать развитию технологии LLM в более надежном и заслуживающем доверия направлении.