Recientemente, se lanzó una evaluación única de la capacidad de IA en la plataforma "Minecraft", que atrajo mucha atención. Esta prueba, iniciada por el desarrollador ADI y apodada "el único punto de referencia confiable de evaluación de IA", permitió que las versiones nuevas y antiguas del modelo Claude3.5 Sonnet iniciaran una PK de construcción en el juego. La nueva versión de Sonnet3.6 mostró un rendimiento impresionante. . fortaleza. El editor de Downcodes le brindará una comprensión profunda de esta competencia única en capacidades de IA, así como los detalles técnicos y las perspectivas futuras detrás de ella.
Recientemente, se lanzó una evaluación única de la capacidad de IA en la plataforma "Minecraft", que atrajo mucha atención. Las versiones antigua y nueva de Claude 3.5 Sonnet comenzaron a crear PK en el juego, mostrando diferencias obvias en las capacidades. El rendimiento de la nueva versión (provisionalmente llamada Sonnet 3.6) fue particularmente llamativo.
Esta prueba iniciada por el desarrollador adi se considera el único punto de referencia de evaluación confiable. El investigador de evaluación comparativa Aidan McLau cree que este método simplemente satisface las necesidades de la evaluación actual de la IA y señala que la capacidad estética está estrechamente relacionada con el nivel de inteligencia. El proyecto rápidamente obtuvo el apoyo de la comunidad de código abierto y el código relevante estuvo en línea en GitHub.
Los resultados de las pruebas muestran que cada modelo importante muestra una personalidad única:
Sonnet3.6 es ligeramente mejor en términos de creatividad y recibió votos de más de 2.000 internautas.
Aunque la vista previa o1 de OpenAI tarda en construirse, funciona bien al restaurar edificios reales (como el Taj Mahal)
o1-mini no puede completar tareas relacionadas
Llama3405B construyó una pared de diamantes sobre un pozo de fuego que simboliza uno mismo
El Qwen2.5-14B de Alibaba también mostró una gran fortaleza
Vale la pena señalar que el proceso de construcción de la IA en el juego no se basa en la comprensión visual o el control directo de los dispositivos de entrada, sino que proporciona contexto y genera instrucciones de operación en forma de texto, similar a jugar al ajedrez a ciegas. La implementación técnica se basa principalmente en:
Biblioteca de código abierto mineflayer: convierta instrucciones generadas por IA en llamadas API ejecutables
Biblioteca de código abierto de Mindcraft: proporciona palabras y ejemplos comunes y admite varios modelos para conectarlos al juego.
El equipo del proyecto planea mejorar aún más este mecanismo de evaluación y crear un sistema de puntuación similar a Lmsys Arena, utilizando el algoritmo Elo para clasificar según los votos de los usuarios humanos. Se informa que el entorno de prueba completo se puede configurar en sólo 15 minutos.
Este novedoso método de evaluación no sólo demuestra la creatividad de la IA, sino que también proporciona una nueva perspectiva para la evaluación objetiva de las capacidades de los modelos grandes. Así como o1-preview decidió construir un robot y deletrear las palabras GPT durante el juego libre, la IA parece haber comenzado a mostrar su propia personalidad en este mundo virtual. A medida que se añaden más modelos a la prueba, este juego clásico se está convirtiendo en una plataforma única para presenciar el desarrollo de la IA.
Vídeotutorial:
https://x.com/mckaywrigley/status/1849613686098506064
Código fuente abierto:
https://github.com/kolbytn/mindcraft
https://github.com/mc-bench/orchestrator
A través de esta competencia única de construcción de IA de Minecraft, vimos las diferentes actuaciones de la IA en creatividad y habilidades de resolución de problemas. Esta prueba proporciona una nueva idea para la evaluación de la capacidad de la IA y también indica que la tecnología de la IA tendrá un espacio de desarrollo más amplio en el futuro. ¡Esperamos que se unan más modelos para presenciar los milagros creados por la IA en "Minecraft"!