Récemment, une évaluation unique des capacités d'IA a été lancée dans "Minecraft", attirant une attention généralisée. Différents modèles d'IA rivalisent dans le jeu et décident de la survie des plus en forme grâce au vote des joueurs, fournissant de nouvelles idées pour l'évaluation des capacités d'IA. Ce test initié par le développeur ADI est considéré comme un complément efficace à l'évaluation actuelle de l'IA.
Récemment, une évaluation unique des capacités d'IA a été lancée sur la plate-forme "Minecraft", attirant beaucoup d'attention. Les nouvelles et anciennes versions de Claude 3.5SONNET ont lancé Architectural PK dans le jeu, montrant des différences de capacités évidentes, et les performances de la nouvelle version (provisoirement appelée "Sonnet 3.6") est particulièrement impressionnante.
Ce test, initié par le développeur ADI, est surnommé "la seule référence d'évaluation fiable". Le chercheur de référence d'évaluation Aidan McLau estime que cette méthode répond simplement aux besoins actuels de l'évaluation de l'IA et souligne que la capacité esthétique est étroitement liée au niveau intellectuel. Le projet a rapidement reçu le soutien de la communauté open source et le code pertinent a été lancé sur GitHub.
Les résultats des tests montrent que tous les principaux modèles montrent une «personnalité» unique:
Sonnet3.6 est légèrement meilleur en termes de créativité et a remporté les voix de plus de 2 000 internautes
Bien que l'O1-Preview d'OpenAI soit lent à construire, il fonctionne bien lors de la restauration de vrais bâtiments (comme le Taj Mahal).
O1-Mini ne peut pas terminer les tâches connexes
LLAMA3405B construit des "murs en diamant sur les foyers" qui se symbolise
Le QWEN2.5-14b d'Alibaba a également montré une force exceptionnelle
Il convient de noter que le processus de construction de l'IA dans le jeu ne s'appuie pas sur la compréhension visuelle ou ne contrôle directement le dispositif d'entrée, mais fournit un contexte et génère des instructions de fonctionnement via du texte, similaire à la lecture des échecs aveugles. La mise en œuvre de la technologie repose principalement sur:
bibliothèque open source de MineFlayer: convertit les instructions générées par l'AI en appels API exécutables
Mindcraft Open Source Library: fournit des mots et des exemples communs communs, et prend en charge divers modèles pour accéder aux jeux
L'équipe du projet prévoit d'améliorer encore ce mécanisme d'évaluation, de créer un système de notation similaire à l'arène LMSYS et d'utiliser l'algorithme ELO pour se classer selon le vote des utilisateurs humains. Il est signalé que l'environnement de test complet peut être achevé en seulement 15 minutes.
Cette nouvelle méthode d'évaluation démontre non seulement la créativité de l'IA, mais fournit également une nouvelle perspective pour l'évaluation objective des capacités de modèle à grande échelle. Tout comme O1-Preview a choisi de construire un robot et d'épeler les mots "GPT" quand il était libre de jouer, l'IA semble avoir commencé à montrer sa "personnalité" dans ce monde virtuel. Au fur et à mesure que davantage de modèles sont ajoutés au test, ce jeu classique devient une plate-forme unique pour assister au développement de l'IA.
Tutoriel vidéo:
https://x.com/mckaywrigley/status/1849613686098506064
Code open source:
https://github.com/kolbytn/mindcraft
https://github.com/mc-bench/orchestrator
L'évaluation des capacités de renforcement des modèles AI menée via la plate-forme Minecraft fournit une nouvelle perspective pour évaluer la créativité et le niveau d'intelligence de l'IA, et démontre également le potentiel de développement continu de l'IA dans le monde virtuel. À l'avenir, avec plus de modèles participants et mécanismes d'évaluation s'améliorant, cette évaluation fournira des références plus précieuses pour le développement du domaine de l'IA.