AI 챗봇, 사회적 판단 테스트에서 인간 능가해 사회적 상호작용 컨설턴트 될 수도

저자：Eve Cole 업데이트 시간：2024-12-18 09:21:14

사이언티픽 리포트(Scientific Reports)에 발표된 최근 연구에 따르면 일부 고급 AI 챗봇이 복잡한 사회적 상황을 평가하는 능력에서 인간을 능가했다는 사실이 밝혀졌습니다. 연구진은 상황 판단 테스트를 통해 여러 AI 챗봇을 인간 참가자와 비교한 결과, 일부 AI가 최상의 행동 반응을 선택하는 데 더 나은 성능을 보였으며 이는 고객 서비스, 정신 건강 지원 및 기타 분야에서 AI 적용에 대한 새로운 통찰력을 제공합니다. 새로운 가능성. 연구가 완벽하지는 않으며 AI가 실제 사회적 상호 작용에서 어떻게 수행되는지, 실제 감정이 부족하다는 한계를 극복하는 방법을 이해하려면 추가 탐구가 필요합니다.

최근 사이언티픽 리포트(Scientific Reports)에 발표된 연구에 따르면 일부 고급 AI 챗봇은 복잡한 사회적 상황을 평가하는 데 있어 인간보다 더 나은 성능을 발휘할 수 있습니다.

연구원들은 상황 판단 테스트(Situational Judgment Test)라는 널리 사용되는 심리학 도구를 사용하여 가장 효과적인 행동 반응을 선택하는 데 있어 클로드(Claude), Microsoft Co-pilot 및 you.com의 지능형 보조자(Intelligent Assistant) 세 가지 챗봇이 인간보다 뛰어난 성능을 발휘한다는 사실을 발견했습니다.

AI机器人写论文

사진 출처 참고: 사진은 AI가 생성한 것이며, 사진 인증 서비스 제공업체 Midjourney가 제공한 것입니다.

사회적 상호 작용이 점점 더 중요해짐에 따라 고객 서비스, 정신 건강 지원과 같은 분야의 적용을 포함하여 사회적 상호 작용에서 AI의 잠재력이 계속해서 나타나고 있습니다. 본 연구에서 테스트한 챗봇과 같은 대규모 언어 모델은 언어를 처리하고, 맥락을 이해하고, 효과적인 응답을 제공할 수 있습니다. 이전 연구에서 학문적 추론 및 언어 작업에서 이러한 모델의 기능이 입증되었지만 복잡한 사회적 역학에서의 효율성은 여전히 과소 평가되었습니다.

연구팀은 우수한 자격을 갖춘 파일럿 지원자인 276명의 인간 참가자를 테스트했습니다. 이 연구에서는 평가할 12가지 상황을 제시하는 상황 판단 테스트를 사용했으며, 각 상황은 4가지 잠재적 행동 옵션을 제공했습니다. 연구원들은 5개의 AI 챗봇의 성능을 비교한 결과 테스트된 모든 챗봇이 적어도 인간만큼 성능을 발휘했으며 일부는 심지어 더 나은 성능을 발휘한다는 사실을 발견했습니다. Claude가 가장 좋은 성과를 냈고 Microsoft Co Pilot과 you.com의 스마트 도우미가 그 뒤를 이었습니다.

흥미롭게도 챗봇은 최선의 응답을 선택하지 않은 경우 두 번째로 효과적인 옵션을 선택하는 경우가 많아 인간의 의사결정 패턴과 유사함을 보여줍니다. 이는 AI 시스템이 완벽하지는 않지만 사회적 판단과 확률적 추론에 일정한 능력을 갖추고 있음을 보여준다.

또한 연구에 따르면 다양한 AI 시스템 간의 신뢰성에 차이가 있는 것으로 나타났습니다. Claude는 여러 테스트에서 가장 높은 일관성을 보이는 반면, Google Gemini는 테스트 전반에서 상충되는 평가를 받을 수 있습니다. 그럼에도 불구하고 모든 AI 시스템의 전반적인 성능은 기대치를 뛰어넘어 사회적 역량 추천을 제공할 수 있는 잠재력을 입증했습니다.

연구원들은 이미 많은 사람들이 일상 업무에서 챗봇을 사용하고 있지만, 사회적 상호 작용의 복잡한 시나리오에서의 성능은 여전히 추가 검증이 필요하다고 지적합니다. 연구에 따르면 대규모 언어 모델은 시뮬레이션된 사회적 상황에서 잘 수행되지만 실제 사회적 행동에 필요한 실제 감정을 갖고 있지는 않습니다.

전체적으로 본 연구는 사회 분야에서 AI의 엄청난 잠재력을 보여주지만, 실제 사회 시나리오에서 AI를 적용하는 데에는 주의가 필요하다는 점을 상기시켜 주고, AI의 정서적 이해와 실제 사회성에 대한 추가 연구가 필요하다는 점을 상기시켜 줍니다. 능력.