ومؤخرًا، تم إطلاق تقييم فريد لقدرات الذكاء الاصطناعي على منصة "Minecraft"، مما جذب الكثير من الاهتمام. هذا الاختبار، الذي بدأه المطور عدي والملقب بـ "معيار تقييم الذكاء الاصطناعي الوحيد الموثوق به"، سمح للإصدارات الجديدة والقديمة من نموذج Claude3.5 Sonnet ببدء بناء PK في اللعبة. أظهر الإصدار الجديد من Sonnet3.6 أداءً مثيرًا للإعجاب . قوة. سيمنحك محرر Downcodes فهمًا متعمقًا لهذه المنافسة الفريدة في قدرات الذكاء الاصطناعي، بالإضافة إلى التفاصيل الفنية والآفاق المستقبلية وراءها.
ومؤخرًا، تم إطلاق تقييم فريد لقدرات الذكاء الاصطناعي على منصة "Minecraft"، مما جذب الكثير من الاهتمام. بدأت الإصدارات القديمة والجديدة من Claude 3.5 Sonnet في بناء لعبة PK في اللعبة، مما أظهر اختلافات واضحة في القدرات. كان أداء الإصدار الجديد (المسمى مؤقتًا Sonnet 3.6) ملفتًا للنظر بشكل خاص.
يُطلق على هذا الاختبار الذي بدأه المطور عدي اسم معيار التقييم الموثوق الوحيد. يعتقد الباحث في معايير التقييم إيدان ماكلاو أن هذه الطريقة تلبي فقط احتياجات تقييم الذكاء الاصطناعي الحالي، ويشير إلى أن القدرة الجمالية ترتبط ارتباطًا وثيقًا بمستوى الذكاء. وسرعان ما حصل المشروع على دعم من مجتمع المصادر المفتوحة، وتم نشر الكود ذي الصلة على GitHub.
تظهر نتائج الاختبار أن كل نموذج رئيسي يظهر شخصية فريدة من نوعها:
يعتبر Sonnet3.6 أفضل قليلاً من حيث الإبداع وقد حصل على أصوات من أكثر من 2000 من مستخدمي الإنترنت.
على الرغم من أن معاينة o1 الخاصة بـ OpenAI بطيئة في الإنشاء، إلا أنها تؤدي أداءً جيدًا عند ترميم المباني الحقيقية (مثل تاج محل).
o1-mini غير قادر على إكمال المهام ذات الصلة
قام Llama3405B ببناء جدار ماسي فوق حفرة نار يرمز إلى الذات
كما أظهر Qwen2.5-14B من علي بابا قوة كبيرة
ومن الجدير بالذكر أن عملية بناء الذكاء الاصطناعي في اللعبة لا تعتمد على الفهم البصري أو التحكم المباشر في أجهزة الإدخال، ولكنها توفر السياق وتولد تعليمات التشغيل على شكل نص، على غرار لعب الشطرنج الأعمى. يعتمد التنفيذ الفني بشكل أساسي على:
مكتبة ماينفلاير مفتوحة المصدر: تحويل التعليمات التي تم إنشاؤها بواسطة الذكاء الاصطناعي إلى استدعاءات واجهة برمجة التطبيقات القابلة للتنفيذ
مكتبة Mindcraft مفتوحة المصدر: توفر كلمات وأمثلة سريعة شائعة، وتدعم نماذج مختلفة لربطها باللعبة
ويخطط فريق المشروع لتحسين آلية التقييم هذه بشكل أكبر وإنشاء نظام تسجيل مشابه لنظام Lmsys Arena، باستخدام خوارزمية Elo للتصنيف بناءً على أصوات المستخدمين البشريين. يُذكر أنه يمكن إعداد بيئة الاختبار الكاملة خلال 15 دقيقة فقط.
لا توضح طريقة التقييم الجديدة هذه إبداع الذكاء الاصطناعي فحسب، بل توفر أيضًا منظورًا جديدًا للتقييم الموضوعي لقدرات النماذج الكبيرة. مثلما اختارت o1-preview بناء روبوت وتوضيح الكلمات GPT أثناء اللعب الحر، يبدو أن الذكاء الاصطناعي قد بدأ في إظهار شخصيته الخاصة في هذا العالم الافتراضي. مع إضافة المزيد من النماذج إلى الاختبار، أصبحت هذه اللعبة الكلاسيكية منصة فريدة لمشاهدة تطور الذكاء الاصطناعي.
فيديو تعليمي:
https://x.com/mckaywrigley/status/1849613686098506064
كود المصدر المفتوح:
https://github.com/kolbytn/mindcraft
https://github.com/mc-bench/orchestrator
من خلال مسابقة بناء Minecraft AI الفريدة من نوعها، رأينا الأداء المختلف للذكاء الاصطناعي في الإبداع وقدرات حل المشكلات. يوفر هذا الاختبار فكرة جديدة لتقييم قدرات الذكاء الاصطناعي، ويشير أيضًا إلى أن تكنولوجيا الذكاء الاصطناعي سيكون لها مساحة تطوير أوسع في المستقبل. نحن نتطلع إلى انضمام المزيد من النماذج لمشاهدة المعجزات التي أنشأها الذكاء الاصطناعي في "Minecraft"!