اختبار مستخدم Reddit: GTP-4o يتفوق على Gemini 1.5 pro في لعبة الشطرنج

الكاتب：Eve Cole وقت التحديث：2024-12-05 14:56:26

يأخذك محرر Downcodes عبر تجربة الذكاء الاصطناعي المثيرة للاهتمام: قام مستخدم Reddit @zefman ببناء منصة للسماح لنماذج اللغات المختلفة (LLM) بلعب الشطرنج في الوقت الفعلي! تقوم هذه التجربة بتقييم قدرة كل ماجستير في إدارة الشطرنج على لعب الشطرنج بطريقة مريحة ومثيرة للاهتمام، وكانت النتائج غير متوقعة، فلنلقي نظرة!

مؤخرًا، أجرى مستخدم Reddit @zefman تجربة مثيرة للاهتمام، حيث أنشأ منصة لوضع نماذج لغوية مختلفة (LLMs) في مواجهة الشطرنج في الوقت الفعلي، بهدف منح المستخدمين طريقة ممتعة وسهلة لتقييم أداء هذه النماذج.

ليس سرا أن هذه النماذج ليست جيدة في لعب الشطرنج، ولكن على الرغم من ذلك، فقد شعر أن هناك بعض النقاط البارزة في هذه التجربة.

في هذه التجربة، أولى @zefman اهتمامًا خاصًا للعديد من النماذج الحديثة، ومن بينها كان أداء GPT-4o هو الأفضل وأصبح اللاعب الأقوى بلا أدنى شك. في الوقت نفسه، قارنه @zefman أيضًا بنماذج أخرى مثل Claude وGemini لملاحظة اختلافات الأداء لديهم ووجد أن عملية التفكير والاستدلال لكل نموذج مثيرة للاهتمام للغاية. من خلال هذه المنصة، يمكن للجميع رؤية ما وراء عملية صنع القرار في كل خطوة وكيف يقوم النموذج بتحليل لعبة الشطرنج.

طريقة عرض لعبة الشطرنج التي صممها @zefman بسيطة جدًا عندما يواجه كل نموذج نفس حالة لوحة الشطرنج، فإنه سيعطي نفس المطالبات، بما في ذلك حالة لعبة الشطرنج الحالية، FEN (تمثيل موضع الشطرنج) والحركتين السابقتين. ويضمن هذا النهج أن تستند قرارات كل نموذج إلى نفس المعلومات، مما يسمح بإجراء مقارنة أكثر عدالة.

يستخدم كل نموذج نفس المطالبة، والتي يتم تحديثها مع حالة اللوحة في ASCI وFEN والحركتين والأفكار السابقة. هنا مثال:

بالإضافة إلى ذلك، لاحظ @zefman أيضًا أنه في بعض الحالات، خاصة بالنسبة لبعض النماذج الأضعف، قد يختارون الحركة الخاطئة عدة مرات. لحل هذه المشكلة، أعطى هذه النماذج 5 فرص لإعادة الاختيار. إذا استمر فشلهم في اختيار حركة صحيحة، فسيقومون باختيار حركة صحيحة بشكل عشوائي، وبالتالي استمرار اللعبة.

واختتم: GTP-4o لا يزال الأقوى، متغلبًا على Gemini1.5pro في الشطرنج.

من خلال هذه التجربة، لم نشاهد فقط الاختلافات بين حاملي الماجستير في مجال الشطرنج، ولكننا رأينا أيضًا تصميم @zefman المبتكر وروحه التجريبية. نتطلع إلى المزيد من التجارب المشابهة في المستقبل، والتي ستمنحنا فهمًا أعمق لإمكانيات وحدود LLM!