Недавно на платформе Minecraft была запущена уникальная оценка возможностей искусственного интеллекта, которая привлекла большое внимание. Этот тест, инициированный разработчиком adi и получивший прозвище «единственный надежный тест оценки ИИ», позволил новой и старой версиям модели Claude3.5 Sonnet запустить построение ПК в игре. Новая версия Sonnet3.6 показала впечатляющую производительность. . сила. Редактор Downcodes даст вам более глубокое понимание этого уникального соревнования по возможностям искусственного интеллекта, а также технических деталей и будущих перспектив, стоящих за ним.
Недавно на платформе Minecraft была запущена уникальная оценка возможностей искусственного интеллекта, которая привлекла большое внимание. Старая и новая версии Claude 3.5 Sonnet начали встраивать ПК в игру, демонстрируя очевидные различия в возможностях. Особенно бросалась в глаза производительность новой версии (предварительно названной Sonnet 3.6).
Этот тест, инициированный разработчиком Adi, считается единственным надежным оценочным тестом. Исследователь оценочных тестов Эйдан Маклау считает, что этот метод как раз отвечает потребностям современной оценки ИИ, и отмечает, что эстетические способности тесно связаны с уровнем интеллекта. Проект быстро получил поддержку сообщества открытого исходного кода, а соответствующий код был размещен на GitHub.
Результаты испытаний показывают, что каждая крупная модель демонстрирует уникальную индивидуальность:
Sonnet3.6 немного лучше с точки зрения креативности и получил голоса более чем 2000 пользователей сети.
Хотя o1-preview от OpenAI работает медленно, он хорошо работает при восстановлении реальных зданий (таких как Тадж-Махал).
o1-mini не может выполнять связанные задачи
Лама3405B построила ромбовидную стену над ямой для костра, которая символизирует самость.
Qwen2.5-14B от Alibaba также показал большую прочность.
Стоит отметить, что процесс построения ИИ в игре не опирается на визуальное понимание или прямое управление устройствами ввода, а обеспечивает контекст и генерирует инструкции по эксплуатации в виде текста, аналогично игре в шахматы вслепую. Техническая реализация в основном зависит от:
Библиотека с открытым исходным кодом mineflayer: конвертируйте инструкции, сгенерированные ИИ, в исполняемые вызовы API.
Библиотека с открытым исходным кодом Mindcraft: предоставляет общие подсказки и примеры, а также поддерживает различные модели, которые можно подключить к игре.
Команда проекта планирует и дальше совершенствовать этот механизм оценки и создать систему подсчета очков, аналогичную Lmsys Arena, с использованием алгоритма Эло для ранжирования на основе голосов пользователей. Сообщается, что полную тестовую среду можно настроить всего за 15 минут.
Этот новый метод оценки не только демонстрирует креативность ИИ, но и открывает новую перспективу для объективной оценки возможностей больших моделей. Точно так же, как o1-preview решил построить робота и произнести слова GPT во время свободной игры, ИИ, похоже, начал проявлять свою индивидуальность в этом виртуальном мире. По мере того, как к тесту добавляется все больше моделей, эта классическая игра становится уникальной платформой для наблюдения за развитием ИИ.
Видеоурок:
https://x.com/mckaywrigley/status/1849613686098506064
Открытый исходный код:
https://github.com/kolbytn/mindcraft
https://github.com/mc-bench/orchestrator
Благодаря этому уникальному соревнованию по строительству ИИ в Minecraft мы увидели различные проявления ИИ в его творческих способностях и способностях к решению проблем. Этот тест предлагает новую идею оценки возможностей ИИ, а также указывает на то, что в будущем технология ИИ получит более широкое пространство для развития. Мы с нетерпением ждем, когда к нам присоединятся новые модели, чтобы стать свидетелями чудес, творимых ИИ в «Minecraft»!