최근에는 '마인크래프트' 플랫폼에서 독특한 AI 능력 평가가 출시돼 많은 관심을 받고 있다. 개발자 adi가 시작하고 "유일하고 신뢰할 수 있는 AI 평가 벤치마크"라는 별명을 가진 이 테스트를 통해 Claude3.5 Sonnet 모델의 신규 및 기존 버전이 게임에서 구축 PK를 시작할 수 있었습니다. Sonnet3.6의 새 버전은 인상적인 성능을 보여주었습니다. . 힘. Downcodes의 편집자는 AI 기능의 이 독특한 경쟁뿐만 아니라 그 뒤에 있는 기술적 세부 사항과 미래 전망에 대한 심층적인 이해를 제공할 것입니다.
최근에는 '마인크래프트' 플랫폼에서 독특한 AI 능력 평가가 출시돼 많은 관심을 받고 있다. Claude 3.5 Sonnet의 이전 버전과 새 버전은 게임 내에서 PK 구축을 시작했으며, 새 버전(가칭 Sonnet 3.6)의 성능이 특히 눈길을 끌었습니다.
개발자 adi가 시작한 이 테스트는 유일하게 신뢰할 수 있는 평가 벤치마크로 불립니다. 평가 벤치마크 연구원인 Aidan McLau는 이 방법이 현재 AI 평가의 요구 사항을 충족할 뿐이라고 믿고 있으며, 미적 능력은 지능 수준과 밀접한 관련이 있다고 지적합니다. 이 프로젝트는 오픈 소스 커뮤니티로부터 빠르게 지원을 얻었으며 관련 코드는 GitHub에 온라인으로 게시되었습니다.
테스트 결과에 따르면 각 주요 모델은 고유한 개성을 보여줍니다.
Sonnet3.6은 창의성 측면에서 약간 더 뛰어나며 2,000명 이상의 네티즌으로부터 표를 받았습니다.
OpenAI의 o1-preview는 빌드 속도가 느리지만 실제 건물(예: 타지마할)을 복원할 때 성능이 좋습니다.
o1-mini가 관련 작업을 완료할 수 없습니다
Llama3405B는 자신을 상징하는 화덕 위에 다이아몬드 벽을 세웠습니다.
알리바바의 Qwen2.5-14B도 큰 강세를 보였습니다.
게임 내 AI 구축 과정은 시각적인 이해나 입력 장치의 직접적인 제어에 의존하지 않고, 블라인드 체스를 두는 것과 유사하게 컨텍스트를 제공하고 텍스트 형식으로 작업 지침을 생성한다는 점에 주목할 필요가 있습니다. 기술 구현은 주로 다음 사항에 의존합니다.
Mineflayer 오픈 소스 라이브러리: AI 생성 지침을 실행 가능한 API 호출로 변환
Mindcraft 오픈 소스 라이브러리: 일반적인 프롬프트 단어와 예제를 제공하고 게임에 연결될 수 있는 다양한 모델을 지원합니다.
프로젝트 팀은 이 평가 메커니즘을 더욱 개선하고 Elo 알고리즘을 사용하여 인간 사용자 투표를 기반으로 순위를 매기는 Lmsys Arena와 유사한 채점 시스템을 만들 계획입니다. 단 15분 만에 전체 테스트 환경을 구축할 수 있는 것으로 알려졌다.
이 새로운 평가 방법은 AI의 창의성을 보여줄 뿐만 아니라 대형 모델 역량을 객관적으로 평가할 수 있는 새로운 관점을 제공합니다. o1-preview가 로봇을 만들고 자유 플레이 중에 GPT라는 단어를 철자하는 것을 선택한 것처럼 AI도 이 가상 세계에서 자신만의 개성을 드러내기 시작한 것 같습니다. 테스트에 더 많은 모델이 추가됨에 따라 이 고전 게임은 AI 발전을 목격할 수 있는 독특한 플랫폼이 되고 있습니다.
비디오 튜토리얼:
https://x.com/mckaywrigley/status/1849613686098506064
오픈 소스 코드:
https://github.com/kolbytn/mindcraft
https://github.com/mc-bench/orchestrator
이 독특한 Minecraft AI 구축 대회를 통해 우리는 창의력과 문제 해결 능력에서 AI의 다양한 성능을 확인했습니다. 이번 테스트는 AI 역량 평가에 대한 새로운 아이디어를 제공하고, AI 기술이 미래에 더 넓은 개발 공간을 갖게 될 것임을 시사한다. "마인크래프트"에서 AI가 만들어내는 기적을 목격하기 위해 더 많은 모델이 합류하기를 기대합니다!