Récemment, une évaluation unique des capacités de l'IA a été lancée sur la plate-forme « Minecraft », attirant beaucoup d'attention. Ce test, initié par le développeur adi et surnommé « le seul benchmark fiable d'évaluation de l'IA », a permis aux nouvelles et anciennes versions du modèle Claude3.5 Sonnet de démarrer une construction PK dans le jeu. La nouvelle version de Sonnet3.6 a montré des performances impressionnantes. . force. L'éditeur de Downcodes vous donnera une compréhension approfondie de cette concurrence unique en matière de capacités d'IA, ainsi que des détails techniques et des perspectives d'avenir qui la sous-tendent.
Récemment, une évaluation unique des capacités de l'IA a été lancée sur la plate-forme « Minecraft », attirant beaucoup d'attention. L'ancienne et la nouvelle version de Claude 3.5 Sonnet ont commencé à intégrer le PK dans le jeu, montrant des différences évidentes de capacités. Les performances de la nouvelle version (provisoirement appelée Sonnet 3.6) étaient particulièrement accrocheuses.
Ce test initié par le développeur adi est considéré comme le seul référentiel d'évaluation fiable. Aidan McLau, chercheur en évaluation des références, estime que cette méthode répond simplement aux besoins de l'évaluation actuelle de l'IA et souligne que la capacité esthétique est étroitement liée au niveau d'intelligence. Le projet a rapidement obtenu le soutien de la communauté open source et le code correspondant est en ligne sur GitHub.
Les résultats des tests montrent que chaque grand modèle présente une personnalité unique :
Sonnet3.6 est légèrement meilleur en termes de créativité et a reçu les votes de plus de 2 000 internautes.
Bien que la version o1-preview d'OpenAI soit lente à construire, elle fonctionne bien lors de la restauration de bâtiments réels (comme le Taj Mahal)
o1-mini n'est pas en mesure d'effectuer les tâches associées
Llama3405B a construit un mur de diamants au-dessus d'un foyer qui symbolise sa personnalité
Le Qwen2.5-14B d'Alibaba a également fait preuve d'une grande solidité
Il convient de noter que le processus de construction de l'IA dans le jeu ne repose pas sur la compréhension visuelle ou le contrôle direct des périphériques d'entrée, mais fournit un contexte et génère des instructions de fonctionnement sous forme de texte, comme si on jouait aux échecs à l'aveugle. La mise en œuvre technique repose principalement sur :
Bibliothèque open source mineflayer : convertissez les instructions générées par l'IA en appels API exécutables
bibliothèque open source Mindcraft : fournit des mots et des exemples d'invite courants, et prend en charge divers modèles à connecter au jeu
L'équipe du projet prévoit d'améliorer encore ce mécanisme d'évaluation et de créer un système de notation similaire à Lmsys Arena, en utilisant l'algorithme Elo pour classer en fonction des votes des utilisateurs humains. Il est rapporté que l'environnement de test complet peut être configuré en seulement 15 minutes.
Cette nouvelle méthode d’évaluation démontre non seulement la créativité de l’IA, mais offre également une nouvelle perspective pour l’évaluation objective des capacités des grands modèles. Tout comme o1-preview a choisi de construire un robot et d'épeler les mots GPT pendant le jeu libre, l'IA semble avoir commencé à montrer sa propre personnalité dans ce monde virtuel. À mesure que de nouveaux modèles sont ajoutés au test, ce jeu classique devient une plateforme unique pour assister au développement de l’IA.
Tutoriel vidéo :
https://x.com/mckaywrigley/status/1849613686098506064
Code source ouvert :
https://github.com/kolbytn/mindcraft
https://github.com/mc-bench/orchestrator
Grâce à ce concours unique de construction d'IA Minecraft, nous avons pu constater les différentes performances de l'IA en termes de créativité et de capacités de résolution de problèmes. Ce test fournit une nouvelle idée pour l'évaluation des capacités de l'IA et indique également que la technologie de l'IA bénéficiera d'un espace de développement plus large à l'avenir. Nous attendons avec impatience que d'autres modèles se joignent pour assister aux miracles créés par l'IA dans « Minecraft » !