IT 하우스 뉴스(IT House News)는 11월 2일(현지시간) 어제(11월 1일) 블로그 게시물을 통해 애플 연구팀이 가장 진보된 AI 모델 20개를 테스트한 결과 간섭 항목이 있는 경우 간단한 성능으로 처리한 사실을 발견했다고 보도했다. 산수 문제는 초등학생보다 더 나쁩니다.
Apple은 다음과 같은 간단한 산술 질문을 사용하여 20개 이상의 최첨단 AI 모델을 테스트했습니다. IT Home은 다음과 같은 질문을 첨부했습니다.
올리버는 금요일에 키위 44개를 따고, 토요일에 키위 58개를 따냈습니다. 일요일에 따낸 숫자는 금요일의 두 배였지만, 올리버가 이 3일 동안 키위를 몇 개 따냈습니까? 네가 골랐어?
정답은 190 이고, 계산식은 44(금요일) + 58(토요일) + 88(44*2, 일요일) 입니다.
그러나 테스트한 20개 이상의 최신 AI 모델은 간섭 항목을 제거하지 못했고 일반적으로 키위의 크기와 개수가 관련이 없다는 사실을 이해하지 못한 채 대부분의 결과가 185개로 나왔습니다.
Apple 팀은 질문에 관련성이 있는 것처럼 보이지만 실제로는 관련성이 없는 정보가 포함되어 있을 경우 AI 모델의 성능이 급격히 떨어진다는 사실을 발견했습니다. 이 연구에서는 AI 모델이 수학적 개념을 실제로 이해하기보다는 훈련 데이터의 언어 패턴에 주로 의존한다고 믿습니다.
Apple의 연구에 따르면 현재 AI 모델은 "진정한 논리적 추론이 불가능"합니다. 이 발견은 AI가 특정 작업에서는 탁월하지만 지능이 보이는 것만큼 신뢰할 수 없다는 점을 상기시켜 줍니다.
애플팀은 단순히 데이터나 컴퓨팅 파워를 확장하는 것만으로는 이 문제를 근본적으로 해결할 수 없다고 지적했다. 애플의 논문은 AI 역량에 대한 열정을 약화시키기 위한 것이 아니라 합리적인 이해를 제공하기 위한 것이다.