최근 "Minecraft"에서 독특한 AI 기능 평가가 시작되어 광범위한 관심을 끌었습니다. 다른 AI 모델은 게임에서 경쟁하고 플레이어 투표를 통해 가장 적합한 생존을 결정하여 AI 기능 평가를위한 새로운 아이디어를 제공합니다. 개발자 ADI가 시작한이 테스트는 현재 AI 평가에 대한 효과적인 보충제로 간주됩니다.
최근 "Minecraft"플랫폼에서 고유 한 AI 기능 평가가 시작되어 많은 관심을 끌었습니다. Claude 3.5Sonnet의 새롭고 오래된 버전은 게임에서 건축 PK를 출시하여 명백한 능력 차이를 보여 주었고 새 버전 (잠정적으로 "Sonnet 3.6"이라고 함)의 성능은 특히 인상적입니다.
개발자 ADI가 시작한이 테스트는 "유일한 신뢰할 수있는 평가 벤치 마크"라는 별명입니다. 평가 벤치 마크 연구원 인 Aidan McLau는이 방법이 AI 평가의 현재 요구를 충족시키고 미학적 능력이 지적 수준과 밀접한 관련이 있다고 지적합니다. 이 프로젝트는 오픈 소스 커뮤니티로부터 신속하게 지원을 받았으며 Github에서 관련 코드가 시작되었습니다.
테스트 결과는 모든 주요 모델이 독특한 "성격"을 보여줍니다.
Sonnet3.6은 창의성 측면에서 약간 더 좋으며 2,000 개 이상의 네티즌 투표에서 우승했습니다.
Openai의 O1- 예약은 건축이 느리지 만 실제 건물 (예 : Taj Mahal)을 복원 할 때 잘 수행됩니다.
O1-MINI는 관련 작업을 완료 할 수 없습니다
llama3405b 자체를 상징하는 "Diamond Walls on Fire Pits"를 구축합니다.
Alibaba의 Qwen2.5-14B도 뛰어난 강도를 보였습니다
게임에서 AI의 구성 프로세스는 시각적 이해에 의존하거나 입력 장치를 직접 제어하는 것이 아니라 맹목적인 체스를 재생하는 것과 유사한 텍스트를 통해 컨텍스트를 제공하고 조작 지침을 생성한다는 점은 주목할 가치가 있습니다. 기술 구현은 주로 다음에 의존합니다.
MineFlayer 오픈 소스 라이브러리 : AI 생성 지침을 실행 가능한 API 호출로 변환합니다.
마인드 크래프트 오픈 소스 라이브러리 : 일반적인 신속한 단어와 예제를 제공하고 게임에 액세스하기 위해 다양한 모델을 지원합니다.
프로젝트 팀은이 평가 메커니즘을 더욱 개선하고 LMSYS Arena와 유사한 점수 시스템을 만들고 ELO 알고리즘을 사용하여 인간 사용자 투표에 따라 순위를 매길 계획입니다. 완전한 테스트 환경은 단 15 분 안에 완료 될 수 있다고보고되었습니다.
이 새로운 평가 방법은 AI의 창의성을 보여줄뿐만 아니라 대규모 모델 기능의 객관적인 평가를위한 새로운 관점을 제공합니다. O1-Prreview가 로봇을 만들고 자유롭게 플레이 할 때 "GPT"라는 단어를 철자하기로 선택한 것처럼 AI는이 가상 세계에서 "성격"을 보여주기 시작한 것 같습니다. 더 많은 모델이 테스트에 추가됨에 따라이 클래식 게임은 AI의 개발을 목격하는 독특한 플랫폼이되었습니다.
비디오 튜토리얼 :
https://x.com/mckaywrigley/status/1849613686098506064
오픈 소스 코드 :
https://github.com/kolbytn/mindcraft
https://github.com/mc-bench/orchestrator
Minecraft 플랫폼을 통해 수행 된 AI 모델 빌딩 기능 평가는 AI의 창의성과 인텔리전스 수준을 평가하기위한 새로운 관점을 제공하며 가상 세계에서 AI의 지속적인 개발 잠재력을 보여줍니다. 앞으로 더 많은 모델이 참여하고 평가 메커니즘이 개선 되면서이 평가는 AI 필드 개발에 대한 더 가치있는 참조를 제공 할 것입니다.