최근에는 일부 고급 AI 모델을 포함하여 "13.8과 13.11 중 어느 것이 더 큽니까?"라는 단순해 보이는 수학적 비교 질문이 많은 사람들을 당황하게 만들었습니다. 다운코드 편집자는 이번 사건에 대해 자세히 알아보고, 상식적인 문제를 처리하는 데 있어서 AI의 단점과 향후 개선 방향을 분석할 것입니다. 이는 AI 기술의 한계를 드러낼 뿐만 아니라 AI의 미래 발전에 대한 사람들의 고민을 촉발시킨다.
최근에는 13.8 또는 13.11 중 어느 것이 더 큰지 간단한 수학적 질문이 일부 인간을 당황하게 만들었을 뿐만 아니라 많은 LLM(대형 언어 모델)을 문제에 빠뜨렸습니다. 이 질문은 상식적인 문제를 처리하는 AI의 능력에 대한 광범위한 논의를 촉발시켰습니다.
한 유명 예능 프로그램에서 이 문제가 네티즌들 사이에서 열띤 토론을 불러일으켰다. 많은 사람들은 13.11%가 13.8%보다 커야 한다고 생각하지만 실제로는 13.8%가 더 큽니다.
AI2 연구원 Lin Yuchen은 GPT-4o와 같은 대규모 언어 모델조차도 이 간단한 비교 문제에서 실수를 한다는 것을 발견했습니다. GPT-4o는 13.11이 13.8보다 크다고 잘못 믿고 잘못된 설명을 했습니다.
Lin Yuchen의 발견은 AI 커뮤니티에서 빠르게 열띤 토론을 불러일으켰습니다. Gemini, Claude3.5Sonnet 등과 같은 다른 많은 대규모 언어 모델도 이 단순 비교 문제에서 동일한 실수를 범합니다.
이 문제의 출현은 단순해 보이지만 실제로는 정확한 수치 비교가 필요한 작업을 처리할 때 AI가 직면할 수 있는 어려움을 드러냅니다.
인공지능은 자연어 이해, 이미지 인식, 복잡한 의사결정 등 많은 분야에서 눈에 띄는 발전을 이루었지만 기본적인 수학적 연산과 논리적 추론에서는 여전히 실수를 할 수 있어 현 기술의 한계를 보여준다.
AI는 왜 이런 실수를 저지르는 걸까요?
훈련 데이터의 편향: AI 모델의 훈련 데이터에는 이러한 특정 유형의 수치 비교 문제를 올바르게 처리하기 위한 충분한 예가 포함되어 있지 않을 수 있습니다. 모델이 교육 중에 더 큰 숫자에 항상 소수 자릿수가 더 많다는 것을 주로 나타내는 데이터에 노출되면 더 많은 소수 자릿수가 더 큰 값으로 잘못 해석될 수 있습니다.
부동 소수점 정밀도 문제: 컴퓨터 과학에서 부동 소수점 숫자의 표현과 계산에는 정밀도 문제가 포함됩니다. 작은 차이라도 비교 시 잘못된 결과를 초래할 수 있으며, 특히 정밀도가 명시적으로 지정되지 않은 경우 더욱 그렇습니다.
불충분한 상황 이해: 이 경우 상황 명확성은 큰 문제가 아닐 수 있지만 AI 모델은 상황에 따라 정보를 올바르게 해석해야 하는 경우가 많습니다. 질문이 충분히 명확하지 않거나 훈련 데이터의 AI에 일반적인 패턴과 일치하지 않는 방식으로 공식화되면 오해가 발생할 수 있습니다.
프롬프트 디자인의 영향: AI에게 질문하는 방법은 올바른 답변을 얻는 데 중요합니다. 다양한 질문 방법은 AI의 답변 이해와 정확성에 영향을 미칠 수 있습니다.
개선하는 방법은 무엇입니까?
향상된 훈련 데이터: AI 모델은 더욱 다양하고 정확한 훈련 데이터를 제공함으로써 수치 비교 및 기타 기본 수학적 개념을 더 잘 이해하는 데 도움이 될 수 있습니다.
프롬프트 디자인 최적화: 잘 설계된 문제 공식화는 AI가 정답을 제공할 가능성을 높일 수 있습니다. 예를 들어, 보다 명확한 수치 표현과 질문 방법을 사용하면 모호성을 줄일 수 있습니다.
수치 처리의 정확성 향상: 부동 소수점 연산을 보다 정확하게 처리하여 계산 오류를 줄이는 알고리즘과 기술을 개발하고 채택합니다.
향상된 논리 및 상식 추론 기능: 특히 논리 및 상식 추론에 초점을 맞춘 훈련을 통해 AI의 해당 영역 역량이 향상되어 상식 관련 작업을 더 잘 이해하고 처리할 수 있습니다.
전체적으로, 단순한 수학적 비교 문제를 처리하는 과정에서 AI가 노출한 결함은 AI 기술이 아직 개발 단계에 있으며 지속적인 개선과 개선이 필요하다는 점을 상기시켜 줍니다. 앞으로 AI는 훈련 데이터를 최적화하고 알고리즘을 개선하며 논리적 추론 능력을 강화함으로써 상식 문제를 처리하는 데 더 큰 발전을 이룰 것입니다.