Recentemente, uma avaliação única de capacidade de IA foi lançada em "Minecraft", atraindo atenção generalizada. Diferentes modelos de IA competem no jogo e decidem sobre a sobrevivência dos mais aptos por meio da votação do jogador, fornecendo novas idéias para a avaliação de recursos de IA. Este teste iniciado pelo desenvolvedor ADI é considerado um suplemento eficaz para a avaliação atual da IA.
Recentemente, uma avaliação única de capacidade de IA foi lançada na plataforma "Minecraft", atraindo muita atenção. As novas e antigas versões do Claude 3.5SONNET lançaram a PK arquitetônica no jogo, mostrando diferenças óbvias de habilidades, e o desempenho da nova versão (provisoriamente chamada de "Sonnet 3.6") é particularmente impressionante.
Este teste, iniciado pelo desenvolvedor Adi, é apelidado de "o único referência de avaliação confiável". O pesquisador de referência de avaliação Aidan McLau acredita que esse método atende às necessidades atuais da avaliação da IA e aponta que a capacidade estética está intimamente relacionada ao nível intelectual. O projeto recebeu o apoio rapidamente da comunidade de código aberto e o código relevante foi lançado no GitHub.
Os resultados dos testes mostram que todos os principais modelos mostram "personalidade" exclusiva:
Sonnet3.6 é um pouco melhor em termos de criatividade e ganhou os votos de mais de 2.000 internautas
Embora a previsão O1 do OpenAI seja lenta para construir, ele tem um bom desempenho ao restaurar edifícios reais (como o Taj Mahal).
O1-mini não pode concluir tarefas relacionadas
Llama3405b constrói "paredes de diamante em fogueiras" que simbolizam -se
QWEN2.5-14B do Alibaba também mostrou excelente força
Vale a pena notar que o processo de construção da IA no jogo não depende do entendimento visual ou controla diretamente o dispositivo de entrada, mas fornece contexto e gera instruções de operação através do texto, semelhante a jogar xadrez cego. A implementação da tecnologia depende principalmente de:
Mineflayer Open Source Library: converte instruções geradas pela IA em chamadas de API executáveis
Mindcraft Open Source Biblioteca: fornece palavras e exemplos rápidos e suporta vários modelos para acessar jogos
A equipe do projeto planeja melhorar ainda mais esse mecanismo de avaliação, criar um sistema de pontuação semelhante à Arena LMSYS e usar o algoritmo ELO para classificar de acordo com a votação do usuário humano. É relatado que o ambiente de teste completo pode ser concluído em apenas 15 minutos.
Esse novo método de avaliação não apenas demonstra a criatividade da IA, mas também fornece uma nova perspectiva para a avaliação objetiva de recursos de modelo em larga escala. Assim como o O1-Preview escolheu construir um robô e soletrar as palavras "GPT" quando estava livre para tocar, a AI parece ter começado a mostrar sua "personalidade" neste mundo virtual. À medida que mais modelos são adicionados ao teste, este jogo clássico está se tornando uma plataforma única para testemunhar o desenvolvimento da IA.
Tutorial em vídeo:
https://x.com/mckaywrigley/status/1849613686098506064
Código -fonte aberto:
https://github.com/kolbytn/mindcraft
https://github.com/mc-bench/orchestrator
A avaliação da capacidade de criação de modelos de IA realizada através da plataforma Minecraft fornece uma nova perspectiva para avaliar o nível de criatividade e inteligência da IA e também demonstra o potencial de desenvolvimento contínuo da IA no mundo virtual. No futuro, com mais modelos participantes e mecanismos de avaliação melhorando, essa avaliação fornecerá referências mais valiosas para o desenvolvimento do campo de IA.