تعاونت فرق الأبحاث Meta Fair و UC Berkeley و New York في تطوير تقنية جديدة تسمى تحسين تفضيلات التفكير (TPO) لتحسين امتثال التعليم وجودة الاستجابة بشكل كبير (LLM). على عكس LLMs التقليدية التي تعطي الإجابات مباشرة ، تتيح TPO Technology النماذج للتفكير والانعكاس داخليًا قبل الرد ، وبالتالي توليد إجابات أكثر دقة ومتماسكة. يوجه هذا الابتكار النموذج لتحسين عملية تفكيره دون إظهار المستخدم للخطوات الوسيطة ، مما يؤدي في النهاية إلى تحسين جودة الاستجابات من خلال طريقة تفكير في السلسلة المحسنة (COT).
جوهر تقنية TPO هو طريقة التفكير في سلسلة التفكير (COT) المحسنة. يشجع هذا النهج النماذج على "التفكير والإجابة" أثناء التدريب ، ومساعدتهم على بناء عملية تفكير داخلية أكثر تنظيماً قبل تقديم الإجابة النهائية. يمكن أن تؤدي إشارات المولود التقليدية في بعض الأحيان إلى انخفاض الدقة وهي صعبة للغاية في التدريب بسبب عدم وجود خطوات تفكير واضحة. وتتغلب TPO بنجاح على هذه التحديات من خلال السماح للنماذج بتحسين وتبسيط عملية تفكيرها دون تعريض خطوات وسيطة للمستخدمين.
أثناء عملية تدريب TPO ، قم أولاً بتطبيق نموذج اللغة الكبير لإنشاء أفكار متعددة ، ثم فرز الإجابة النهائية. ثم يتم تقييم هذه المخرجات بواسطة نموذج "Judger" لاختيار أفضل الإجابات أداءً وأسوأ أداء. يتم استخدام نتائج التقييم هذه كأزواج "اختيار" و "رفض" لتحسين التفضيل المباشر (DPO) لتحسين جودة استجابة النموذج باستمرار.
من خلال ضبط مطالبات التدريب ، يشجع TPO النموذج على التفكير داخليًا قبل الرد. توجه هذه العملية النموذج لتحسين إجاباته لجعله أكثر وضوحًا وأكثر صلة. في النهاية ، يتم التقييم من خلال نموذج الحكم القائم على LLM والذي يسجل فقط الإجابة النهائية ، وبالتالي مساعدة النموذج على تحسين جودة الإجابات بشكل مستقل عن خطوات التفكير الخفي. يستخدم TPO أيضًا تحسين التفضيل المباشر لإنشاء إجابات مفضلة ورفض تحتوي على تفكير خفي ، وبعد جولات متعددة من التدريب ، قم بتحسين العملية الداخلية للنموذج.
في معايير الألباكيفال والساحة ، تفوقت طريقة TPO على خط أساس الاستجابة التقليدية وكانت أفضل من نموذج LLAMA-3-8B-instruct من "نصائح التفكير". يعمل التدريب التكراري لهذه الطريقة على تحسين قدرات توليد التفكير ، مما يتفوق في نهاية المطاف على نماذج أساسية متعددة. تجدر الإشارة إلى أن TPO ليس مناسبًا للمهام المنطقية والرياضية فحسب ، بل يبذل جهودًا كبيرة في المجالات الإبداعية مثل التعليمات التسويقية والتعليمات الصحية لمتابعة المهام.
شارك كاران فيرما ، خبير AI و Robotics ، وجهات نظره حول مفهوم "التفكير LLM" على المنصة الاجتماعية X ، قائلاً إنه كان متحمسًا جدًا لذلك ويتطلع إلى إمكانات هذا الابتكار في التطبيقات الطبية التي يمكن أن تجلب المزيد من المرضى .
تتيح عملية التفكير الداخلي المنظم للنموذج معالجة التعليمات المعقدة بشكل أكثر فعالية ، مما يزيد من توسيع تطبيقه في المجالات التي تتطلب التفكير متعدد المستويات وفهم دقيق دون الحاجة إلى تقديم البشر لتوفير بيانات تفكير محددة. توضح هذه الدراسة أن TPO لديها القدرة على جعل نماذج لغة كبيرة أكثر مرونة وكفاءة في سياقات متنوعة ، مناسبة للمناطق التي توجد فيها متطلبات عالية للمرونة وعمق توليد الاستجابة.
لقد جلب التقدم في تقنية TPO إمكانيات الاستدلال والفهم بشكل أقوى لنماذج اللغة الكبيرة ، مما يؤدي إلى فتح إمكانيات جديدة لتطبيقها في مختلف المجالات ، وخاصة في المهام التي تتطلب عمليات تفكير معقدة.