LLM(대형 언어 모델)의 등장, 특히 ChatGPT와 같은 애플리케이션의 광범위한 사용으로 인해 인간-컴퓨터 상호 작용 모델이 완전히 바뀌었습니다. LLM은 일관되고 포괄적인 텍스트를 생성하는 인상적인 능력을 보여줍니다. 그러나 Downcodes의 편집자는 LLM에도 "환각" 문제가 있다는 사실을 발견했습니다. 즉, 실제처럼 보이지만 가상이거나 의미가 없거나 프롬프트와 일치하지 않는 콘텐츠를 생성한다는 것입니다. 하버드대학교 연구진은 LLM '환상'의 원인과 해결방안을 밝히기 위해 심도 있는 연구를 진행해왔다.
LLM(대형 언어 모델)의 출현, 특히 ChatGPT와 같은 애플리케이션의 인기로 인해 인간과 컴퓨터의 상호 작용 방식이 완전히 바뀌었습니다. 일관되고 포괄적인 텍스트를 생성하는 모델의 능력은 인상적입니다. 그러나 강력한 기능에도 불구하고 LLM은 "환각", 즉 실제처럼 보이지만 실제로는 허구이거나 의미가 없거나 프롬프트와 일치하지 않는 콘텐츠를 생성하는 경향이 있습니다.
하버드 대학의 연구원들은 LLM "환각" 현상에 대한 심층적인 연구를 수행했으며 그 뿌리가 LLM의 작동 원리에 있음을 발견했습니다. LLM은 대규모 텍스트 데이터에 대해 기계 학습을 수행하여 확률 모델을 구축하고, 단어 동시 출현 확률을 기반으로 다음 단어를 예측합니다. 즉, LLM은 언어의 의미를 실제로 이해하지 못하고 통계적 확률을 기반으로 예측을 합니다.
연구자들은 LLM을 "크라우드소싱"에 비유하고 LLM이 실제로 "네트워크 합의"를 산출한다고 믿습니다. Wikipedia 또는 Reddit과 같은 플랫폼과 마찬가지로 LLM은 대량의 텍스트 데이터에서 정보를 추출하고 가장 일반적인 답변을 생성합니다. 대부분의 언어는 세상을 설명하는 데 사용되므로 LLM에서 생성된 답변은 일반적으로 정확합니다.
그러나 LLM이 모호하거나 논란의 여지가 있거나 합의가 부족한 주제에 직면할 때 "환상"이 발생할 수 있습니다. 이 가설을 테스트하기 위해 연구원들은 다양한 주제를 다룰 때 다양한 LLM의 성능을 테스트하는 일련의 실험을 설계했습니다. 실험 결과에 따르면 LLM은 일반적인 주제를 다룰 때 잘 작동하지만 모호하거나 논쟁의 여지가 있는 주제를 다룰 때는 정확도가 크게 떨어집니다.
이 연구는 LLM이 강력한 도구이기는 하지만 정확도는 훈련 데이터의 품질과 양에 따라 달라진다는 것을 보여줍니다. LLM을 사용할 때, 특히 모호하거나 논쟁의 여지가 있는 주제를 다룰 때 그 결과를 주의 깊게 다뤄야 합니다. 이 연구는 또한 LLM의 향후 발전 방향을 제시합니다. 즉, 모호하고 논쟁의 여지가 있는 주제를 처리하는 LLM의 능력을 향상하고 출력 결과의 해석 가능성을 향상시켜야 한다는 것입니다.
논문 주소: https://dl.acm.org/doi/pdf/10.1145/3688007
하버드 연구는 LLM을 이해하고 개선하는 데 귀중한 통찰력을 제공하며, 특히 복잡하거나 논쟁의 여지가 있는 주제를 다룰 때 LLM을 주의 깊게 사용해야 하며 그 결과를 비판적으로 평가해야 함을 상기시켜 줍니다. LLM의 향후 개발 방향은 퍼지 정보를 처리하고 해석 가능성을 향상시키는 능력을 향상시키는 데 중점을 두어야 합니다. Downcodes의 편집자는 이 연구가 LLM 기술의 발전을 더욱 신뢰할 수 있고 신뢰할 수 있는 방향으로 촉진할 수 있기를 바랍니다.