تواجه النماذج اللغوية الكبيرة (LLMs) تحديات في التفكير المعقد، وظهر إطار عمل مبتكر مفتوح المصدر يسمى OpenR. تم تطوير OpenR بشكل مشترك من قبل باحثين من عدة جامعات، بما في ذلك كلية لندن الجامعية، وهو يعمل بشكل كبير على تحسين القدرات الاستدلالية لماجستير القانون من خلال الجمع بين حساب وقت الاختبار والتعلم المعزز والإشراف على العمليات. فهو لا يكرر القدرات الاستدلالية للنماذج المتقدمة فحسب، بل يحقق أيضًا اختراقات على هذا الأساس، ويقدم أفكارًا جديدة لحل أوجه القصور في ماجستير إدارة الأعمال في الرياضيات والبرمجة والمشكلات العلمية. سيمنحك محرر Downcodes فهمًا متعمقًا للتصميم الفريد والأداء الممتاز لإطار عمل OpenR.
تم مؤخرًا إطلاق إطار عمل مبتكر مفتوح المصدر يسمى OpenR، بهدف حل أوجه القصور في نماذج اللغات الكبيرة (LLMs) في مهام الاستدلال المعقدة. يفتح هذا الإطار، الذي شارك في تطويره باحثون من كلية لندن الجامعية، وجامعة ليفربول، وجامعة شنغهاي جياو تونغ، وجامعة هونغ كونغ للعلوم والتكنولوجيا (قوانغتشو) وجامعة ويستليك، آفاقًا جديدة لتحسين القدرات الاستدلالية لحاملي شهادة الماجستير في القانون من خلال الجمع بين حوسبة وقت الاختبار والتعلم المعزز والإشراف على العمليات.
على الرغم من أن طلاب ماجستير اللغة قد حققوا تقدمًا كبيرًا في توليد اللغة، إلا أنهم ما زالوا يواجهون تحديات في التعامل مع المهام المعقدة مثل الرياضيات والبرمجة والمشكلات العلمية. إن ظهور OpenR يهدف إلى سد هذه الفجوة وتوسيع قدرات LLM من إنشاء نص بسيط إلى مجالات تفكير أكثر تقدمًا.
تصميم OpenR مستوحى جزئيًا من نموذج OpenAI's o1، لكن هدفه أكثر طموحًا: ليس فقط تكرار القدرات المنطقية لنماذج اللغة المتقدمة، ولكن أيضًا لتحقيق اختراقات على هذا الأساس. باعتباره أول حل مفتوح المصدر يوفر مثل هذا الدعم الاستدلالي المعقد، يركز OpenR على الحصول على البيانات ونماذج مكافأة العمليات وأساليب الاستدلال الفعالة، بهدف تسريع تطوير نماذج اللغة واسعة النطاق التي تركز على الاستدلال.
ملاحظة لمصدر الصورة: تم إنشاء الصورة بواسطة الذكاء الاصطناعي، والصورة معتمدة من قبل مزود الخدمة Midjourney
يدور الهيكل الأساسي للإطار حول زيادة البيانات وتعلم السياسات والتوجيه المنطقي المقترن بالاستكشاف متعدد المسارات. يستخدم OpenR عملية ماركوف لاتخاذ القرار (MDP) لنمذجة مهام الاستدلال، وتفكيك عملية الاستدلال المعقدة إلى سلسلة من الخطوات التي يمكن تقييمها وتحسينها. لا تعمل هذه الطريقة على تنمية مهارات الاستدلال بشكل مباشر فحسب، بل تستكشف أيضًا مسارات استدلال متعددة في كل مرحلة، مما يحسن بشكل كبير من قوة عملية الاستدلال.
الميزة الرئيسية الأخرى للإطار هي نموذج مكافأة العملية (PRM)، الذي يوفر تعليقات مفصلة لخطوات التفكير الوسيطة، مما يسمح للنموذج بتعديل القرارات بشكل أكثر دقة بدلاً من الاعتماد فقط على أحكام النتيجة النهائية. يعمل هذا التوجيه الدقيق على تحسين كفاءة التعلم للنموذج بشكل كبير.
في الاختبارات الفعلية، أظهر OpenR أداءً مثيرًا للإعجاب. وبأخذ مجموعة بيانات MATH كمعيار، فإن دقة الاستدلال الخاصة بـ OpenR أعلى بحوالي 10% من الطرق التقليدية. ووجدت الدراسة أيضًا أن طرق الاستكشاف متعددة المسارات مثل Best-of-N وBeam Search أفضل بكثير من تقنيات التصويت البسيطة بالأغلبية، خاصة عندما تكون موارد الحوسبة محدودة.
تعمل تقنيات التعلم المعزز الخاصة بـ OpenR، وخاصة تلك الأساليب التي تستخدم PRM، بشكل جيد في سيناريوهات تعلم السياسات عبر الإنترنت وتعزز التحسين المستمر لقدرات التفكير لدى طلاب LLM. تظهر هذه النتيجة أنه من خلال استراتيجيات التعلم المصممة بعناية، فإن حاملي ماجستير اللغة لديهم القدرة على تحقيق تقدم كبير في مهام التفكير المعقدة.
باعتبارها منصة مفتوحة المصدر، توفر OpenR للباحثين والمطورين موارد قيمة للعمل معًا لتعزيز قدرات التفكير في نماذج اللغة. فهو لا يوفر مسار ترقية لحاملي LLM الحاليين فحسب، بل يمهد الطريق أيضًا لأنظمة ذكاء اصطناعي أكثر ذكاءً وقدرة على التفكير في المستقبل.
وبالنظر إلى المستقبل، يخطط فريق OpenR لتوسيع وظائف إطار العمل لتغطية نطاق أوسع من أنواع مهام الاستدلال ومواصلة تحسين عملية الاستدلال الخاصة به. ومن المتوقع أن يقدم هذا الجهد مساهمة مهمة في تحقيق الهدف طويل المدى المتمثل في التحسين الذاتي لوكلاء الذكاء الاصطناعي.
عنوان المشروع: https://github.com/facebook/openr
بشكل عام، يوفر ظهور إطار عمل OpenR إمكانيات جديدة لتحقيق اختراقات في نماذج اللغة الكبيرة في مجال التفكير المعقد، كما تسهل ميزة المصدر المفتوح مشاركة المزيد من الباحثين والمطورين لتعزيز تقدم تكنولوجيا الذكاء الاصطناعي بشكل مشترك. ونحن نتطلع إلى تحقيق OpenR لنتائج أكثر أهمية في المستقبل والمساهمة في بناء أنظمة ذكاء اصطناعي أكثر ذكاءً.