Recientemente, se ha lanzado una evaluación única de capacidad de IA en "Minecraft", atrayendo una atención generalizada. Diferentes modelos de IA compiten en el juego y deciden sobre la supervivencia del más apto a través de la votación del jugador, proporcionando nuevas ideas para la evaluación de capacidades de IA. Esta prueba iniciada por el desarrollador ADI se considera un suplemento efectivo para la evaluación de IA actual.
Recientemente, se lanzó una evaluación única de capacidad de IA en la plataforma "Minecraft", atrayendo mucha atención. Las versiones nuevas y antiguas de Claude 3.5sonnet han lanzado PK arquitectónico en el juego, mostrando diferencias de habilidades obvias, y el rendimiento de la nueva versión (tentativamente llamada "Sonnet 3.6") es particularmente impresionante.
Esta prueba, iniciada por el desarrollador ADI, es apodada "el único punto de referencia de evaluación confiable". El investigador de referencia de evaluación Aidan McLau cree que este método simplemente satisface las necesidades actuales de la evaluación de IA y señala que la capacidad estética está estrechamente relacionada con el nivel intelectual. El proyecto recibió rápidamente el apoyo de la comunidad de código abierto, y el código relevante se ha lanzado en GitHub.
Los resultados de la prueba muestran que todos los modelos principales muestran una "personalidad" única:
Sonnet3.6 es ligeramente mejor en términos de creatividad, y ha ganado los votos de más de 2,000 internautas
Aunque la previsión O1 de OpenAI es lenta para construir, funciona bien al restaurar edificios reales (como el Taj Mahal).
O1-Mini no puede completar tareas relacionadas
Llama3405b construye "paredes de diamantes en fogatas" que se simboliza a sí mismo
QWEN2.5-14B de Alibaba también mostró una fuerza sobresaliente
Vale la pena señalar que el proceso de construcción de la IA en el juego no depende de la comprensión visual o controle directamente el dispositivo de entrada, sino que proporciona contexto y genera instrucciones de operación a través del texto, similar a jugar al ajedrez ciego. La implementación de la tecnología se basa principalmente en:
Biblioteca de código abierto de MineFlayer: convierte las instrucciones generadas por IA en llamadas de API ejecutables
Biblioteca de código abierto de Mindcraft: proporciona palabras y ejemplos rápidos comunes, y admite varios modelos para acceder a los juegos
El equipo del proyecto planea mejorar aún más este mecanismo de evaluación, crear un sistema de puntuación similar al LMSYS Arena y usar el algoritmo ELO para clasificarse de acuerdo con la votación del usuario humano. Se informa que el entorno de prueba completo se puede completar en solo 15 minutos.
Este nuevo método de evaluación no solo demuestra la creatividad de la IA, sino que también proporciona una nueva perspectiva para la evaluación objetiva de las capacidades del modelo a gran escala. Así como O1-Preview elige construir un robot y explicar la palabra "GPT" cuando es libre de jugar, AI parece haber comenzado a mostrar su "personalidad" en este mundo virtual. A medida que se agregan más modelos a la prueba, este juego clásico se está convirtiendo en una plataforma única para presenciar el desarrollo de la IA.
Tutorial de video:
https://x.com/mckaywrigley/status/1849613686098506064
Código de código abierto:
https://github.com/kolbytn/mindcraft
https://github.com/mc-bench/orchestrator
La evaluación de la capacidad de construcción de modelos de IA realizada a través de la plataforma Minecraft proporciona una perspectiva novedosa para evaluar el nivel de creatividad e inteligencia de IA, y también demuestra el potencial de desarrollo continuo de la IA en el mundo virtual. En el futuro, con más modelos que se participan y mejoran los mecanismos de evaluación, esta evaluación proporcionará referencias más valiosas para el desarrollo del campo de IA.