Downcodes의 편집자는 다음과 같이 보고합니다. OpenAI가 새로 출시한 챗봇 시스템은 최근 평가에서 1위를 차지했습니다. 특히 STEM 작업에서 전반적인 성능, 보안 및 기술 기능 측면에서 우수한 성능을 발휘합니다. 다만, 이번 평가에 참여한 평점 수가 상대적으로 적었다는 점은 주목할 만하며, 이는 최종 결과에 어느 정도 영향을 미칠 수 있어 주의 깊게 해석할 필요가 있다.
OpenAI의 새로운 시스템은 최근 평가에서 챗봇 순위 1위를 차지하는 등 우수한 성적을 거두었습니다. 다만, 평점이 낮아 평가 결과가 왜곡될 수 있습니다.
릴리스 개요에 따르면 새로운 시스템은 전반적인 성능, 안전 및 기술 역량을 포함한 모든 평가 범주에서 좋은 성능을 보였습니다. STEM 업무 전용 시스템 중 하나는 9월 초 출시된 GPT-4o 버전과 함께 잠시 2위를 차지하며 기술 분야 선두를 차지했다.
다양한 시스템을 비교하는 플랫폼인 Chatbot Arena는 6,000개 이상의 커뮤니티 평가를 사용하여 새로운 시스템을 평가합니다. 결과는 이러한 새로운 시스템이 수학적 작업, 복잡한 프롬프트 및 프로그래밍에서 우수한 성능을 발휘한다는 것을 보여주었습니다.
그러나 이러한 새로운 시스템은 GPT-4o 또는 Anthropic의 Claude3.5와 같은 다른 성숙한 시스템보다 훨씬 낮은 평가를 받으며 각 시스템의 리뷰는 3,000개 미만입니다. 이렇게 작은 표본 크기로 인해 평가가 왜곡되고 결과의 중요성이 제한될 수 있습니다.
OpenAI의 새로운 시스템은 설계의 주요 목표인 수학과 코딩에 탁월합니다. 답변하기 전에 더 오래 "생각"함으로써 이러한 시스템은 AI 추론에 대한 새로운 표준을 설정하는 것을 목표로 합니다. 그러나 이러한 시스템은 모든 영역에서 다른 시스템보다 뛰어난 성능을 발휘하지는 않습니다. 많은 작업에는 복잡한 논리적 추론이 필요하지 않으며 때로는 다른 시스템의 빠른 응답만으로 충분합니다.
수학적 모델 강도에 대한 Lmsys의 차트는 이러한 새로운 시스템이 다른 시스템의 성능보다 훨씬 높은 1360점 이상을 기록했음을 명확하게 보여줍니다.
제한된 표본 크기에도 불구하고 OpenAI의 새로운 시스템의 뛰어난 성능은 여전히 주목할 가치가 있습니다. 수학과 코딩 분야의 획기적인 발전은 AI 추론 기술 개발에 새로운 방향을 제시합니다. 앞으로 더 많은 데이터가 축적되고 모델이 지속적으로 개선되면서 OpenAI의 새로운 시스템은 더 많은 분야에서 강력한 역량을 발휘할 것으로 기대됩니다. Downcodes의 편집자는 계속해서 개발에 관심을 기울일 것입니다.