뉴욕대학교의 새로운 연구에서는 데이터 훈련에서 대규모 언어 모델(LLM)의 놀라운 취약성을 보여줍니다. 연구에 따르면 훈련 데이터의 0.001%에 불과한 아주 작은 양의 잘못된 정보도 LLM의 정확성과 신뢰성에 심각한 영향을 미쳐 큰 오류를 일으킬 수 있는 것으로 나타났습니다. 이러한 발견은 잘못된 의료 정보가 환자 안전을 직접적으로 위협할 수 있는 의료 분야에서 특히 중요합니다. 이 연구는 Nature Medicine 저널에 게재되어 의료 응용 분야에서 AI의 안전성과 신뢰성에 대한 광범위한 우려를 불러일으켰습니다.
최근 뉴욕대학교 연구팀은 데이터 훈련에서 대규모 언어 모델(LLM)의 취약성을 밝히는 연구를 발표했습니다. 그들은 훈련 데이터의 0.001%에 불과한 아주 작은 양의 잘못된 정보라도 전체 모델에 심각한 오류를 일으킬 수 있다는 것을 발견했습니다. 이러한 발견은 잘못된 정보가 환자 안전에 직접적인 영향을 미칠 수 있는 의료 분야에서 특히 우려되는 사항입니다.
연구자들은 "Nature Medicine" 저널에 발표된 논문에서 LLM이 잘 작동하더라도 훈련 데이터에 잘못된 정보가 주입되면 이러한 모델이 일부 오픈 소스 평가 벤치마크에서 훈련되지 않은 모델보다 여전히 나쁜 성능을 발휘할 수 있다고 지적했습니다. 마찬가지로 좋습니다. 이는 정기적인 테스트에서는 이러한 모델의 잠재적인 위험을 감지하지 못할 수도 있음을 의미합니다.
이를 테스트하기 위해 연구팀은 "The Pile"이라는 훈련 데이터 세트에 대한 실험을 수행했으며, 여기에 의도적으로 AI 생성 의료 가짜 기사 150,000개를 추가했습니다. 단 24시간 만에 콘텐츠를 생성했으며, 연구에 따르면 데이터 세트의 콘텐츠 중 0.001%, 심지어 작은 100만 개의 훈련 마커라도 대체하면 유해한 콘텐츠가 4.8% 증가한 것으로 나타났습니다. 이 과정은 매우 저렴하며 비용은 5달러에 불과합니다.
이러한 데이터 중독 공격은 모델의 가중치와 직접적인 접촉이 필요하지 않으며, 오히려 공격자가 단순히 네트워크에 유해한 정보를 게시함으로써 LLM의 효율성을 약화시킬 수 있습니다. 연구팀은 이번 발견이 의료 분야에서 AI 도구를 사용할 때 상당한 위험을 강조한다고 강조합니다. 동시에 마이차트 등 일부 AI 의료 플랫폼이 환자 질문에 자동 응답할 때 잘못된 정보를 생성해 환자에게 불편을 끼치는 경우가 많다는 관련 사례도 언급됐다.
따라서 연구원들은 AI 개발자와 의료 제공자가 의료 LLM을 개발할 때 이러한 취약점을 명확하게 인식할 것을 요구합니다. 그들은 향후 안전이 보장될 때까지 진단이나 치료와 같은 중요한 작업에 LLM을 사용하지 말 것을 권장합니다.
가장 밝은 부분:
연구에 따르면 잘못된 정보 중 단 0.001%만이 대규모 언어 모델(LLM)을 비효율적으로 만들 수 있습니다.
의료 현장에서는 허위 정보의 확산이 환자 안전에 심각한 영향을 미칠 수 있습니다.
연구원들은 안전이 보장될 때까지 LLM을 진단이나 치료와 같은 중요한 의료 작업에 사용해서는 안 된다고 촉구합니다.
이 연구 결과는 대규모 언어 모델을 의료와 같은 중요한 분야에 적용하기 전에 데이터 보안 및 모델 신뢰성에 대한 연구를 강화하여 안전성과 효율성을 보장하고 잠재적인 위험을 방지해야 함을 경고합니다.