Recentemente, uma avaliação exclusiva da capacidade de IA foi lançada na plataforma "Minecraft", atraindo muita atenção. Este teste, iniciado pelo desenvolvedor adi e apelidado de "o único benchmark de avaliação de IA confiável", permitiu que as versões novas e antigas do modelo Claude3.5 Sonnet iniciassem uma construção PK no jogo. A nova versão do Sonnet3.6 mostrou um desempenho impressionante. . força. O editor de Downcodes lhe dará uma compreensão profunda desta competição única em recursos de IA, bem como os detalhes técnicos e as perspectivas futuras por trás dela.
Recentemente, uma avaliação exclusiva da capacidade de IA foi lançada na plataforma "Minecraft", atraindo muita atenção. As versões antiga e nova do Claude 3.5 Sonnet começaram a construir PK no jogo, mostrando diferenças óbvias nas capacidades. O desempenho da nova versão (provisoriamente chamada de Sonnet 3.6) foi particularmente atraente.
Este teste iniciado pelo desenvolvedor adi é considerado o único benchmark de avaliação confiável. O pesquisador de benchmark de avaliação, Aidan McLau, acredita que este método atende apenas às necessidades da avaliação atual de IA e aponta que a capacidade estética está intimamente relacionada ao nível de inteligência. O projeto rapidamente ganhou apoio da comunidade de código aberto e o código relevante está online no GitHub.
Os resultados do teste mostram que cada modelo principal mostra uma personalidade única:
Sonnet3.6 é um pouco melhor em termos de criatividade e recebeu votos de mais de 2.000 internautas.
Embora a pré-visualização o1 do OpenAI seja lenta para construir, ela funciona bem ao restaurar edifícios reais (como o Taj Mahal)
o1-mini não consegue completar tarefas relacionadas
Llama3405B construiu uma parede de diamantes sobre uma fogueira que simboliza a si mesmo
O Qwen2.5-14B do Alibaba também mostrou grande força
Vale ressaltar que o processo de construção da IA no jogo não depende da compreensão visual ou do controle direto dos dispositivos de entrada, mas fornece contexto e gera instruções de operação em forma de texto, semelhante a um jogo de xadrez às cegas. A implementação técnica depende principalmente de:
biblioteca de código aberto mineflayer: converta instruções geradas por IA em chamadas de API executáveis
Biblioteca de código aberto Mindcraft: fornece palavras e exemplos comuns e oferece suporte a vários modelos para serem conectados ao jogo
A equipe do projeto planeja melhorar ainda mais esse mecanismo de avaliação e criar um sistema de pontuação semelhante ao Lmsys Arena, usando o algoritmo Elo para classificação com base nos votos dos usuários humanos. É relatado que o ambiente de teste completo pode ser configurado em apenas 15 minutos.
Este novo método de avaliação não apenas demonstra a criatividade da IA, mas também fornece uma nova perspectiva para a avaliação objetiva de capacidades de grandes modelos. Assim como o1-preview optou por construir um robô e soletrar as palavras GPT durante o jogo livre, a IA parece ter começado a mostrar sua própria personalidade neste mundo virtual. À medida que mais modelos são adicionados ao teste, este jogo clássico se torna uma plataforma única para testemunhar o desenvolvimento da IA.
Tutorial em vídeo:
https://x.com/mckaywrigley/status/1849613686098506064
Código-fonte aberto:
https://github.com/kolbytn/mindcraft
https://github.com/mc-bench/orchestrator
Através desta competição única de construção de IA do Minecraft, vimos os diferentes desempenhos da IA em criatividade e habilidades de resolução de problemas. Este teste fornece uma nova ideia para avaliação da capacidade de IA e também indica que a tecnologia de IA terá um espaço de desenvolvimento mais amplo no futuro. Esperamos que mais modelos se juntem para testemunhar os milagres criados pela IA no "Minecraft"!