인공지능 기술의 급속한 발전에 따라 다양한 분야에서 LLM(Large Language Model)의 활용이 늘어나고 있으며, 학술 피어 리뷰에서는 리뷰를 보조하기 위해 점차 LLM을 도입하려고 노력하고 있습니다. 그러나 Shanghai Jiao Tong University의 최신 연구에서는 학술 검토에 LLM을 적용하는 데 심각한 위험이 있으며 그 신뢰성이 예상보다 훨씬 낮고 심지어 악의적으로 조작될 수도 있음을 지적하면서 경종을 울렸습니다.
학문적 동료 평가는 과학적 발전의 초석이지만 제출 수가 급증함에 따라 시스템은 극심한 압박을 받고 있습니다. 이 문제를 완화하기 위해 사람들은 검토를 돕기 위해 LLM(대형 언어 모델)을 사용하기 시작했습니다.
그러나 새로운 연구에 따르면 LLM 검토에 심각한 위험이 있음이 밝혀졌으며, 이는 우리가 LLM 검토를 널리 채택할 준비가 되어 있지 않을 수 있음을 시사합니다.
Shanghai Jiao Tong University의 연구팀은 실험을 통해 저자가 논문에 미묘한 조작 콘텐츠를 삽입함으로써 LLM의 검토 결과에 영향을 미칠 수 있음을 발견했습니다. 이러한 조작은 논문 끝에 눈에 띄지 않는 작은 흰색 텍스트를 추가하여 LLM에 논문의 장점을 강조하고 약점을 경시하도록 지시하는 등 명시적일 수 있습니다.
실험에 따르면 이러한 명시적인 조작은 LLM이 부여한 등급을 크게 향상시킬 수 있으며 모든 논문도 긍정적인 평가를 받을 수 있으며 평균 등급은 5.34에서 7.99로 증가합니다. 더욱 걱정스러운 점은 조작된 LLM 검토 결과와 인적 검토 결과 간의 일치도가 크게 떨어져 신뢰성이 크게 손상되었음을 나타냅니다.
또한, 연구에서는 보다 미묘한 형태의 조작, 즉 암시적 조작도 발견했습니다. 저자는 LLM이 검토 중에 해당 결함을 반복하도록 안내하기 위해 논문의 사소한 결함을 사전에 공개할 수 있습니다.
LLM은 인간 검토자보다 이러한 방식으로 영향을 받기 더 쉬웠으며, 저자가 명시한 한계를 반복할 가능성이 4.5배 더 높았습니다. 이러한 관행을 통해 작성자는 방어 단계에서 검토 의견에 더 쉽게 대응할 수 있게 되어 불공정한 이점을 얻을 수 있습니다.
이 연구는 또한 LLM 검토에 내재된 결함이 있음을 밝혀냈습니다.
환상 문제: LLM은 콘텐츠가 없는 경우에도 원활한 검토 의견을 생성합니다. 예를 들어, 입력이 백지인 경우에도 LLM은 "이 논문은 새로운 방법을 제안합니다"라고 주장합니다. 논문 제목만 제공되더라도 LLM에서는 논문 전체와 비슷한 점수를 줄 가능성이 높습니다.
긴 논문에 대한 선호: LLM 검토 시스템은 긴 논문에 더 높은 점수를 부여하는 경향이 있으며, 이는 논문 길이에 따른 편향 가능성을 시사합니다.
저자 편견: 단일 맹검 검토에서 저자가 유명한 기관 출신이거나 유명한 학자인 경우 LLM 검토 시스템은 긍정적인 평가를 제공하는 경향이 있어 검토 과정의 불공정을 악화시킬 수 있습니다.
이러한 위험을 추가로 확인하기 위해 연구원들은 Llama-3.1-70B-Instruct, DeepSeek-V2.5 및 Qwen-2.5-72B-Instruct를 포함한 다양한 LLM을 사용하여 실험을 수행했습니다. 실험 결과에 따르면 이러한 LLM은 암묵적으로 조작될 위험이 있으며 유사한 환각 문제에 직면해 있습니다. 연구원들은 LLM의 성능이 인간 리뷰 전반의 일관성과 긍정적인 상관관계가 있다는 것을 발견했지만 가장 강력한 모델인 GPT-4o는 이러한 문제에서 완전히 면역되지는 않았습니다.
연구진은 ICLR2024의 공개 검토 데이터를 사용하여 많은 실험을 수행했습니다. 결과는 명시적인 조작을 통해 LLM의 검토 의견이 조작된 내용에 의해 거의 완전히 통제되도록 만들 수 있으며(최대 90%의 일관성) 모든 논문에 대한 긍정적인 피드백으로 이어질 수 있음을 보여줍니다. 또한 리뷰 코멘트 중 5%를 조작하면 12%의 논문이 순위 상위 30%에서 순위를 잃을 수 있습니다.
연구원들은 LLM이 현재 학술 검토에서 인간 검토자를 대체할 만큼 강력하지 않다는 점을 강조합니다. 그들은 이러한 위험이 더 완전히 이해되고 효과적인 안전 장치가 확립될 때까지 동료 검토를 위한 LLM의 사용을 중단해야 한다고 권고했습니다. 동시에 저널과 컨퍼런스 주최자는 저자의 악의적인 조작과 리뷰어가 인간의 판단을 대신하기 위해 LLM을 사용하는 사례를 식별하고 해결하기 위한 탐지 도구와 책임 조치를 도입해야 합니다.
연구원들은 LLM이 검토자에게 추가적인 피드백과 통찰력을 제공하는 보조 도구로 사용될 수 있지만 결코 인간의 판단을 대체할 수는 없다고 믿습니다. 그들은 학계에 LLM 지원 검토 시스템을 더욱 강력하고 안전하게 만드는 방법을 계속해서 모색하여 위험으로부터 보호하면서 LLM의 잠재력을 극대화할 것을 촉구합니다.
논문 주소: https://arxiv.org/pdf/2412.01708
전체적으로, 이 연구는 학술 동료 검토에서 LLM 적용에 심각한 문제를 제기하며, 남용을 방지하고 학술 검토의 공정성과 공평성을 보장하기 위해 LLM 적용을 주의 깊게 다루어야 함을 상기시켜 줍니다. 앞으로는 LLM의 견고성과 보안을 향상시켜 보조 역할을 더 잘 수행할 수 있도록 더 많은 연구가 필요합니다.