علم محرر موقع Downcodes أن باحثين من Meta FAIR وجامعة كاليفورنيا وبيركلي وجامعة نيويورك تعاونوا لتطوير تقنية جديدة تسمى Thinking Preference Optimization (TPO)، والتي تهدف إلى تحسين معالجة التعليمات ومعالجة نماذج اللغة الكبيرة بشكل كبير. (ماجستير في جودة الاستجابة). تخترق هذه التقنية قيود LLM التقليدية التي تركز فقط على الإجابة النهائية، ومن خلال محاكاة عملية التفكير البشري، يسمح النموذج للنموذج بإجراء التفكير الداخلي والاستنتاج قبل إعطاء الإجابة، وبالتالي توليد استجابة أكثر دقة وتماسكًا. من المتوقع أن تحدث هذه التقنية ثورة في تطبيق LLM في مختلف المجالات وتجلب للمستخدمين تجربة تفاعلية أفضل للذكاء الاصطناعي.
جوهر تقنية TPO هو طريقة التفكير المنطقية المحسنة (CoT). يشجع هذا النهج النماذج على "التفكير قبل الإجابة" أثناء التدريب، مما يساعدهم على تطوير عملية تفكير داخلية أكثر تنظيماً قبل تقديم إجابة نهائية. تؤدي مطالبات CoT التقليدية أحيانًا إلى انخفاض الدقة ويكون التدريب عليها أمرًا صعبًا للغاية بسبب عدم وجود خطوات تفكير واضحة. نجحت TPO في التغلب على هذه التحديات من خلال السماح للنماذج بتحسين وتبسيط عمليات التفكير الخاصة بها دون الكشف عن خطوات وسيطة للمستخدمين.
أثناء عملية تدريب TPO، يُطلب من نموذج اللغة الكبير أولاً إنشاء أفكار متعددة، ثم يتم فرز الإجابة النهائية. يتم بعد ذلك تقييم هذه المخرجات بواسطة نموذج "الحكم" لانتقاء أفضل وأسوأ الاستجابات أداءً. تُستخدم نتائج التقييم هذه كأزواج "تحديد" و"رفض" لتحسين التفضيل المباشر (DPO) لتحسين جودة استجابة النموذج بشكل مستمر.
من خلال تعديل إشارات التدريب، يشجع TPO النماذج على التفكير داخليًا قبل الإجابة. تعمل هذه العملية على توجيه النموذج لتحسين إجاباته، مما يجعلها أكثر وضوحًا وأكثر صلة بالموضوع. أخيرًا، يتم استكمال أعمال التقييم من خلال نموذج تقييم قائم على LLM، والذي يسجل الإجابة النهائية فقط، وبالتالي يكون مستقلاً عن خطوات التفكير الخفية ويساعد النموذج على تحسين جودة الإجابة. يستخدم TPO أيضًا تحسين التفضيل المباشر لإنشاء أزواج إجابات مفضلة ومرفوضة تحتوي على تفكير خفي، وبعد جولات متعددة من التدريب، يتم تحسين العملية الداخلية للنموذج بشكل أكبر.
في المعايير المرجعية مقابل AlpacaEval وArena-Hard، تفوقت طريقة TPO على خطوط الاستجابة الأساسية التقليدية وتفوقت على نموذج Llama-3-8B-Instruct الخاص بـ Thinking Tips. يعمل التدريب التكراري لهذا النهج على تحسين قدرات توليد الفكر، ويتفوق في النهاية على النماذج الأساسية المتعددة. ومن الجدير بالذكر أن TPO لا يناسب المهام المنطقية والرياضية فحسب، بل يُظهر أيضًا مواهبه في التدريس بعد المهام في المجالات الإبداعية مثل التسويق والصحة.
شارك خبير الذكاء الاصطناعي والروبوتات كاران فيرما وجهات نظره حول مفهوم "التفكير LLM" على المنصة الاجتماعية ذات التأثير العلاجي الجيد.
تمكن عملية التفكير الداخلي المنظمة هذه النموذج من معالجة التعليمات المعقدة بشكل أكثر فعالية، مما يزيد من توسيع نطاق تطبيقه في المجالات التي تتطلب تفكيرًا متعدد المستويات وفهمًا تفصيليًا، دون الحاجة إلى البشر لتوفير بيانات تفكير محددة. يوضح هذا البحث أن TPO لديه القدرة على جعل النماذج اللغوية الكبيرة أكثر مرونة وكفاءة في سياقات متنوعة، ومناسبة للمجالات التي لديها متطلبات عالية من المرونة وعمق توليد الاستجابة.
بشكل عام، جلب ظهور تقنية TPO إمكانيات جديدة لتحسين أداء نماذج اللغات الكبيرة، كما أن آفاق تطبيقها في مختلف المجالات تستحق التطلع إليها. ويرى محرر موقع Downcodes أنه مع التطوير والتحسين المستمر للتكنولوجيا، ستلعب TPO دورًا كبيرًا في المزيد من المجالات وتساهم في تطوير الذكاء الاصطناعي.