출처: MIT 뉴스
대규모 언어 모델의 기능은 인상적이지만 여전히 완벽하지는 않습니다. 이러한 AI 모델은 때때로 쿼리에 대한 응답으로 "환각"을 일으키고 부정확하거나 근거 없는 정보를 생성할 수 있습니다.
이러한 환상적 문제로 인해 모델 응답은 인간 검토자가 검증해야 하는 경우가 많으며, 특히 의료 또는 금융과 같은 고부담 환경에서는 더욱 그렇습니다. 그러나 검증 프로세스에서는 사람들이 모델에서 참조하는 긴 문서를 읽어야 하는 경우가 많습니다. 이는 지루하고 오류가 발생하기 쉬운 작업으로 일부 사용자는 생성 AI 모델을 사용하지 못하게 될 수 있습니다.
인간 검증자를 돕기 위해 MIT 연구원들은 사람들이 대규모 언어 모델의 응답을 보다 신속하게 검증할 수 있는 사용자 친화적인 시스템을 만들었습니다. SymGen이라는 도구를 사용하면 LLM이 데이터베이스의 셀과 같은 소스 문서의 특정 위치를 직접 가리키는 참조를 사용하여 응답을 생성할 수 있습니다.
사용자는 텍스트 응답의 강조 표시된 부분 위로 마우스를 가져가면 모델이 특정 단어나 문구를 생성하는 데 사용한 데이터를 볼 수 있습니다. 한편, 강조 표시되지 않은 부분은 점검 및 검증을 위해 추가적인 주의가 필요한 문구를 나타냅니다.
"우리는 사람들이 더 많은 주의를 기울여야 하는 텍스트 부분에 선택적으로 집중할 수 있는 기능을 제공합니다. 궁극적으로 SymGen은 정보의 신뢰성을 쉽게 다시 확인할 수 있기 때문에 모델 반응에 대한 사람들의 신뢰도를 높여줍니다." & Computer Science는 SymGen 논문의 공동 저자인 대학원생 Shannon Shen이 말했습니다.
사용자 조사를 통해 Shen과 그의 동료들은 SymGen을 사용하면 수동 프로세스에 비해 검증 시간이 약 20% 단축된다는 사실을 발견했습니다. SymGen은 모델 출력을 더 빠르고 간단하게 검증하는 프로세스를 만들어 임상 기록 생성부터 금융 시장 보고서 요약에 이르기까지 다양한 실제 응용 프로그램에서 사용되는 LLM의 오류를 식별하는 데 도움을 줍니다.
이 논문의 공동 저자로는 EECS 대학원생인 공동 제1저자 Lucas Torroba Hennigen, Good Data Initiative의 회장인 Bernhard Gapp, EECS 교수인 David Sontag가 있습니다. MIT Jameel Clinic, Computer Science 회원, 인공 지능 연구소(CSAIL) 임상 기계 학습 그룹장 및 CSAIL 회원인 김윤 조교수. 이 연구는 최근 언어 모델링 컨퍼런스에서 발표되었습니다.
기호 참조
검증을 돕기 위해 많은 LLM은 외부 문서에 대한 참조를 생성하고 사용자 검사를 위한 언어 기반 응답을 제공하도록 설계되었습니다. 그러나 이러한 검증 시스템은 나중에 고려되는 경우가 많으며 사람들이 많은 수의 인용을 선별하는 데 필요한 노력을 고려하지 않는다고 Shen은 말했습니다.
“생성 AI의 목적은 사용자가 작업을 완료하는 데 걸리는 시간을 줄이는 것입니다. 모델의 주장이 합리적인지 확인하기 위해 이러한 문서를 읽는 데 몇 시간을 소비해야 한다면 생성된 콘텐츠는 실제 애플리케이션에서 덜 유용할 것입니다. "쉔이 말했다.
연구자들은 검증 작업을 수행할 사람의 관점에서 이 질문에 접근했습니다.
SymGen 사용자는 먼저 농구 경기 통계가 포함된 테이블과 같이 참조로 사용할 수 있는 데이터를 LLM에 제공합니다. 그런 다음 연구원은 모델에 즉시 이 데이터로부터 일치 요약을 생성하는 등의 작업을 완료하도록 요청하지 않고 중간 단계를 수행합니다. 이는 모델이 기호 형식으로 응답을 생성하도록 유도합니다.
이 프롬프트를 사용하면 모델이 응답에서 단어를 참조하려고 할 때마다 해당 정보가 포함된 데이터 테이블의 특정 셀을 작성해야 합니다. 예를 들어 모델이 응답에서 "Portland Trail Blazers"라는 문구를 참조하려는 경우 해당 텍스트를 해당 단어가 포함된 데이터 테이블의 셀 이름으로 바꿉니다.
Torroba Hennigen은 "텍스트가 기호 형식으로 표시되는 중간 단계가 있기 때문에 매우 세부적인 참조를 달성할 수 있습니다. 출력의 각 텍스트 조각이 데이터의 어느 부분에 해당하는지 명확하게 나타낼 수 있습니다."라고 말합니다.
그런 다음 SymGen은 규칙 기반 도구를 사용하여 각 참조를 구문 분석하고 데이터 테이블의 해당 텍스트를 모델의 응답으로 복사합니다.
"이렇게 하면 우리는 그것이 그대로 복사되었음을 알 수 있으므로 실제 데이터 변수에 해당하는 텍스트 부분에 오류가 없는지 확인할 수 있습니다"라고 Shen은 덧붙였습니다.
검증 단순화
모델은 훈련된 방식으로 인해 상징적인 반응을 생성할 수 있습니다. 대형 언어 모델은 인터넷에서 대량의 데이터를 수용하며, 그 중 일부는 실제 값을 대체하는 코드와 함께 "자리 표시자 형식"으로 기록됩니다.
SymGen은 모델이 상징적 응답을 생성하도록 요청할 때 유사한 구조를 사용합니다.
"우리는 LLM의 기능을 최대한 활용하기 위해 특정 방식으로 프롬프트를 설계했습니다."라고 Shen은 덧붙였습니다.
사용자 연구에서 대부분의 참가자는 SymGen을 사용하면 LLM 생성 텍스트를 더 쉽게 확인할 수 있다고 밝혔습니다. 그들은 표준 방법을 사용하는 것보다 약 20% 더 빠르게 모델 응답을 검증했습니다.
그러나 SymGen의 효율성은 소스 데이터의 품질에 따라 제한됩니다. LLM이 잘못된 변수를 참조할 수 있으며 인간 검증자는 이를 인식하지 못할 수도 있습니다.
또한 사용자는 SymGen에 입력하기 위해 구조화된 형식(예: 테이블)의 소스 데이터를 제공해야 합니다. 현재 시스템은 표 형식 데이터에서만 작동합니다.
앞으로 연구원들은 임의의 텍스트 및 기타 데이터 형식을 처리하는 SymGen의 기능을 향상시키고 있습니다. 이 기능을 사용하면 AI가 생성한 법률 문서 요약의 특정 부분을 검증하는 데 도움이 될 수 있습니다. 그들은 또한 AI가 생성한 임상 요약에서 오류를 식별하는 방법을 연구하기 위해 의사와 함께 SymGen을 테스트할 계획입니다.
이 작업은 LiBERTy Mutual과 MIT Intelligent Discovery Initiative의 일부 자금 지원을 받았습니다.