Downcodes의 편집자는 OpenAI의 최신 연구에 따르면 AI 기술의 급속한 발전에도 불구하고 사실적 질문에 답하는 데 있어 현재 가장 발전된 언어 모델의 정확성이 여전히 우려스럽다는 것을 보여줍니다. 이번 연구에서는 OpenAI의 자체 SimpleQA 벤치마크를 활용한 테스트 결과, OpenAI의 최고 모델이라도 정확도가 예상보다 훨씬 낮은 것으로 나타나 AI 모델의 지식 습득 능력에 대한 재검토가 촉발되었습니다.
이 연구는 OpenAI의 자체 SimpleQA 벤치마크 테스트를 사용했습니다. 이 테스트에는 과학, 정치, 예술 등 다양한 분야를 다루는 4,326개의 질문이 포함되어 있습니다.
두 명의 독립적인 리뷰어가 검증한 결과, OpenAI의 최고 모델 o1-preview의 정확도는 42.7%에 불과한 반면, GPT-4o는 38.2%로 약간 더 낮은 것으로 나타났습니다. 더 작은 GPT-4o-mini의 경우 정확도는 8.6%에 불과합니다. 이에 비해 Anthropic의 Claude 모델은 훨씬 더 나쁜 성능을 보여 Claude-3.5-sonnet의 정확도는 28.9%에 불과했습니다.
이번 연구의 핵심은 AI의 성능을 테스트하는 것뿐만 아니라 지식 습득에 있어 AI 모델의 한계를 모든 사람이 인식할 수 있도록 테스트를 설계하는 데 있습니다. 연구자들은 사용자가 이러한 모델을 사용할 때 완전히 의존적인 지식 소스가 아닌 정보 처리 도구로 취급해야 한다고 강조합니다. 보다 정확한 답변을 얻으려면 AI에 내장된 지식에만 의존하기보다는 신뢰할 수 있는 데이터를 AI에 제공하는 것이 가장 좋습니다.
AI 모델이 자신의 능력에 대해 지나치게 낙관적인 추정을 하는 경우가 많다는 점은 주목할 가치가 있습니다. 연구자들은 이러한 모델이 답변에 대한 신뢰도를 평가하도록 요청했을 때 종종 부풀려진 정확도 점수를 부여한다는 사실을 발견했습니다. 동일한 질문에 반복적으로 답변하는 테스트에서는 모델이 동일한 답변을 여러 번 제공하더라도 실제 성공률은 자체 평가 정확도보다 여전히 낮습니다. 이는 언어 모델이 종종 터무니없는 답변을 생성하지만 자신감 있는 것처럼 보인다는 외부 비판과 일치합니다.
연구자들은 현재의 AI 시스템이 사실적 정확성에 있어 명백한 격차를 갖고 있으며 시급히 개선이 필요하다고 믿고 있습니다. 그들은 또한 짧은 사실 질문에 답하는 AI의 성능이 더 길고 더 복잡한 응답을 처리하는 성능을 예측하는지 여부에 대한 공개 질문을 제기했습니다. 보다 안정적인 언어 모델 개발을 지원하기 위해 OpenAI는 SimpleQA 벤치마크 데이터를 Github에 공개적으로 공개했습니다.
이번 연구는 AI 모델의 신뢰성에 대한 경고를 알리고 향후 개선 방향을 제시한다. 우리는 AI 도구를 더욱 신중하게 사용해야 하며 앞으로 AI 모델의 사실적 정확성에 대한 더 큰 혁신을 기대해야 합니다. OpenAI가 공개한 SimpleQA 벤치마크 데이터는 전체 AI 분야의 발전을 촉진하는 데 도움이 될 것입니다.