في الآونة الأخيرة ، تم إطلاق تقييم فريد من نوع AI في "Minecraft" ، وجذب الانتباه على نطاق واسع. تتنافس نماذج الذكاء الاصطناعى المختلفة في اللعبة ، وتقرر بقاء الأصلح من خلال تصويت اللاعب ، وتوفير أفكار جديدة لتقييم قدرات الذكاء الاصطناعي. يعتبر هذا الاختبار الذي بدأه المطور ADI ملحقًا فعالًا لتقييم الذكاء الاصطناعي الحالي.
في الآونة الأخيرة ، تم إطلاق تقييم فريد من نوع AI على منصة "Minecraft" ، وجذب الكثير من الاهتمام. أطلقت الإصدارات الجديدة والقديمة من Claude 3.5sonnet PK المعماري في اللعبة ، مما يدل على اختلافات القدرات الواضحة ، وأداء الإصدار الجديد (المسمى مبدئيًا "Sonnet 3.6") مثير للإعجاب بشكل خاص.
هذا الاختبار ، الذي بدأه المطور ADI ، يطلق عليه اسم "المعيار الوحيد للموثوقة". يعتقد الباحث القياسي للتقييم Aidan McLau أن هذه الطريقة تلبي الاحتياجات الحالية لتقييم الذكاء الاصطناعي وتشير إلى أن القدرة الجمالية ترتبط ارتباطًا وثيقًا بالمستوى الفكري. تلقى المشروع بسرعة الدعم من مجتمع المصدر المفتوح ، وتم إطلاق الرمز ذي الصلة على Github.
تظهر نتائج الاختبار أن جميع النماذج الرئيسية تظهر "شخصية" فريدة:
Sonnet3.6 أفضل قليلاً من حيث الإبداع ، وقد فاز بأكثر من 2000 مستخدم من مستخدمي ؛
على الرغم من أن O1-Preview of Openai بطيئة في البناء ، إلا أنها تعمل بشكل جيد عند استعادة المباني الحقيقية (مثل Taj Mahal).
لا يمكن لـ O1-Mini إكمال المهام ذات الصلة
LLAMA3405B يبني "جدران الماس على حفر النار" التي ترمز إلى نفسها
أظهر QWEN2.5-14B من Alibaba قوة رائعة
تجدر الإشارة إلى أن عملية بناء الذكاء الاصطناعى في اللعبة لا تعتمد على الفهم البصري أو تتحكم بشكل مباشر في جهاز الإدخال ، ولكنها توفر السياق وتولد تعليمات التشغيل من خلال النص ، على غرار تشغيل الشطرنج الأعمى. يعتمد تطبيق التكنولوجيا بشكل أساسي على:
مكتبة MineFlayer Open Source: تحويل التعليمات التي تم إنشاؤها في AI إلى مكالمات API القابلة للتنفيذ
Mindcraft Open Source Library: يوفر الكلمات والأمثلة السريعة الشائعة ، ويدعم نماذج مختلفة للوصول إلى الألعاب
يخطط فريق المشروع لزيادة تحسين آلية التقييم هذه ، وإنشاء نظام تسجيل مشابه لـ LMSYS Arena ، واستخدام خوارزمية ELO للتصنيف وفقًا لتصويت المستخدم البشري. وتفيد التقارير أنه يمكن إكمال بيئة الاختبار الكاملة في 15 دقيقة فقط.
لا توضح طريقة التقييم الجديدة هذه إبداع الذكاء الاصطناعى فحسب ، بل توفر أيضًا منظوراً جديداً للتقييم الموضوعي لقدرات النموذج على نطاق واسع. مثلما اختار O1-Preview بناء روبوت وتوضيح عبارة "GPT" عندما كان من الحرية اللعب ، يبدو أن منظمة العفو الدولية قد بدأت في إظهار "شخصيتها" في هذا العالم الافتراضي. مع إضافة المزيد من الطرز إلى الاختبار ، أصبحت هذه اللعبة الكلاسيكية منصة فريدة لمشاهدة تطوير الذكاء الاصطناعي.
تعليمي الفيديو:
https://x.com/mckaywrigley/status/1849613686098506064
رمز المصدر المفتوح:
https://github.com/kolbytn/mindcraft
https://github.com/mc-bench/orchestrator
يوفر تقييم قدرة بناء نموذج الذكاء الاصطناعى الذي تم إجراؤه من خلال منصة Minecraft منظوراً جديداً لتقييم مستوى الإبداع والذكاء في الذكاء الاصطناعى ، كما يوضح إمكانات التطوير المستمر لمنظمة العفو الدولية في العالم الافتراضي. في المستقبل ، مع تحسين المزيد من النماذج من آليات المشاركة والتقييم ، سيوفر هذا التقييم مراجع أكثر قيمة لتطوير حقل الذكاء الاصطناعي.