Недавно в «Minecraft» была запущена уникальная оценка возможностей ИИ, что привлекла широкое внимание. Различные модели искусственного интеллекта конкурируют в игре и определяют выживание наиболее подходящего через голосование игроков, предоставляя новые идеи для оценки возможностей искусственного интеллекта. Этот тест, инициированный разработчиком ADI, считается эффективным дополнением к текущей оценке AI.
Недавно на платформе «Minecraft» была запущена уникальная оценка возможностей искусственного интеллекта, привлекая много внимания. Новые и старые версии Claude 3.5sonnet выпустили архитектурный PK в игре, демонстрируя явные различия способностей, а производительность новой версии (предварительно называемой «Сонет 3.6») особенно впечатляет.
Этот тест, инициированный разработчиком ADI, по прозвищу «единственный надежный эталон оценки». Исследователь оценки Эйдан Маклау считает, что этот метод просто соответствует текущим потребностям оценки ИИ и указывает, что эстетические способности тесно связаны с интеллектуальным уровнем. Проект быстро получил поддержку от сообщества с открытым исходным кодом, и соответствующий код был запущен на GitHub.
Результаты теста показывают, что все основные модели показывают уникальную «личность»:
Сонет3.6 немного лучше с точки зрения творчества и выиграл голоса более 2000 пользователей сети
Хотя O1-Preview of OpenaI не медлительна, он хорошо работает при восстановлении реальных зданий (таких как Тадж-Махал).
O1-Mini не может выполнить связанные задачи
Llama3405b строит «алмазные стены на ямах огня», которые символизируют себя
QWEN2,5-14B от Alibaba также показал выдающуюся силу
Стоит отметить, что процесс строительства ИИ в игре не полагается на визуальное понимание или непосредственно управлять устройством ввода, но обеспечивает контекст и генерирует инструкции по эксплуатации с помощью текста, аналогично воспроизведению слепых шахмат. Технологическая реализация в основном полагается на:
Библиотека с открытым исходным кодом Mineflayer: преобразует сгенерированные AI инструкции в исполняемые вызовы API
Библиотека с открытым исходным кодом Mindcraf
Команда проекта планирует еще больше улучшить этот механизм оценки, создать систему оценки, аналогичную арене LMSYS, и использовать алгоритм ELO, чтобы ранжировать в соответствии с голосованием пользователей человека. Сообщается, что полная тестовая среда может быть завершена всего за 15 минут.
Этот новый метод оценки не только демонстрирует креативность ИИ, но и обеспечивает новую перспективу для объективной оценки крупномасштабных возможностей модели. Подобно тому, как O1-Preview решает построить робота и изложить слово «GPT», когда он может играть, ИИ, похоже, начал показывать свою «личность» в этом виртуальном мире. По мере того, как в тесте добавляется больше моделей, эта классическая игра становится уникальной платформой для засвидевания развития ИИ.
Видеоурок:
https://x.com/mckaywrigley/status/1849613686098506064
Открытый исходный код:
https://github.com/kolbytn/mindcraft
https://github.com/mc-bench/orchestrator
Оценка возможностей для создания моделей искусственного интеллекта, проведенная через платформу Minecraft, обеспечивает новую перспективу для оценки творчества и уровня интеллекта ИИ, а также демонстрирует непрерывный потенциал развития ИИ в виртуальном мире. В будущем, когда больше моделей, участвующих и оценки, улучшатся, эта оценка предоставит более ценные ссылки для разработки области ИИ.