ثلاثة إسكافيين بذكائهم مجتمعين يساويون Zhuge Liang العقل المدبر. --- مقولة قديمة في الصين.
نحن نقدم كلمات سحرية جديدة تعمل على تحسين قدرة نماذج اللغة على التفكير: حلقة نقاش !
في المؤتمرات وورش العمل، تكون هناك دائمًا مناقشات جزائية بين الخبراء، ويتبادل الأشخاص آرائهم حول موضوع معين، مما يؤدي إلى تحسين فهم المفاهيم الجديدة وتغيير وجهات نظر التفكير والوصول إلى فهم أكثر شمولاً للمناقشات أو المناقشات السائدة.
الشكل 1: حلقة نقاش بين جاك ما وإيلون ماسك، WAIC، 2019:
ترتبط هذه الفكرة بعمل الاتساق الذاتي (Wang, Xuezhi, et al.) (حيث قد يختلف العديد من الخبراء مع بعضهم البعض أثناء حلقة النقاش).
قمنا بتقييم فعالية الطريقة السريعة المقترحة على مجموعة بيانات GSM8K، باستخدام gpt-3.5-turbo api.
تكلفة تقييم كل مطالبة في مجموعة بيانات اختبار 1k GSM8k أقل من 2 دولار أمريكي.
تحقق مناقشاتنا الجماعية أفضل أداء ، وتظهر دراسات الاستئصال أهمية فائدة كل عنصر. ثاني أفضل ويتم الإشارة إلى "الأفضل الثالث" بتنسيقي التسطير والمائل ، على التوالي.
MethodDataset | GSM8K (اختبار 1 كيلو) | المحتوى الفوري | مرجع |
---|---|---|---|
لا موجه | 0.789 | الجواب هو: | - |
صفر شوت CoT | 0.854 | دعونا نفكر خطوة بخطوة: | (كوجيما، تاكيشي، وآخرون 2022) |
APE تحسين سرير الأطفال | 0.845 | دعونا نحل هذا الأمر خطوة بخطوة للتأكد من أن لدينا الإجابة الصحيحة: | (تشو، يونغ تشاو، وآخرون 2023) |
مطالبة ToT | 0.842 | تخيل أن ثلاثة خبراء مختلفين يجيبون على هذا السؤال. سيقوم جميع الخبراء بكتابة خطوة واحدة من أفكارهم، ثم يشاركونها مع المجموعة. بعد ذلك، سينتقل جميع الخبراء إلى الخطوة التالية، وما إلى ذلك. إذا أدرك أي خبير أنه مخطئ في أي وقت، فإنه يغادر | (ديف هولبرت الريبو 2023) |
لوحةGPT | 0.899 | 3 خبراء يناقشون السؤال في حلقة نقاش، ويحاولون حله خطوة بخطوة، والتأكد من صحة النتيجة وتجنب العقوبة : | (هذا الريبو، 18 يوليو 2023) |
PanelGPT بدون AE وEA | 0.878 | 3 خبراء يناقشون السؤال بالنقاش، ويحاولون حله خطوة بخطوة، ويتأكدون من صحة النتيجة: | (دراستنا، دراسة الاجتثاث) |
PanelGPT بدون AE | 0.84 | 3 خبراء يناقشون السؤال بالنقاش، ويحاولون حله خطوة بخطوة، والتأكد من صحة النتيجة وتجنب العقوبة: | (دراستنا، دراسة الاجتثاث) |
PanelGPT بدون EA | 0.894 | 3 خبراء يناقشون السؤال بحلقة نقاش، ويحاولون حله خطوة بخطوة، والتأكد من صحة النتيجة: | (دراستنا، دراسة الاجتثاث) |
ص ه ن أ lGPT (خطأ إملائي) | 0.883 | 3 خبراء يناقشون السؤال بمناقشة جزائية، ويحاولون حله خطوة بخطوة، والتأكد من صحة النتيجة: | (دراستنا، دراسة الاجتثاث) |
تظهر قدرة الدفع الصفري في النماذج اللغوية التي تم تدريبها على كميات كبيرة من البيانات مثل GPT-3 وGPT-4 (Ouyang et al., 2022; OpenAI, 2023). وقد ظهر في وي وآخرون. (2021) أن ضبط التعليمات يعمل على تحسين قدرة التعلم الصفرية لنماذج اللغة.
على الرغم من أداء اللقطة الصفرية المثير للإعجاب الذي أظهرته نماذج اللغات الكبيرة، غالبًا ما تظهر هذه النماذج أداءً دون المستوى الأمثل في تنفيذ مهام أكثر تعقيدًا في ظل إعداد اللقطة الصفرية. يمثل الاستفادة من التحفيزات القليلة طريقة قابلة للتطبيق لتسهيل التعلم في السياق (Brown et al., 2020; Min et al., 2022). تتطلب هذه التقنية إدراج العروض التوضيحية ضمن الموجه، وتوجيه النموذج بشكل فعال نحو تحسين الأداء. تعمل هذه العروض التوضيحية كآليات تكييف للأمثلة الناجحة، مما يؤدي بالنموذج إلى توليد استجابات أفضل.
في بعض المهام الأكثر تحديًا مثل المهام الحسابية المعقدة والحس السليم والتفكير الرمزي، تبين أن تحفيز سلسلة الأفكار (CoT) أكثر فعالية في مساعدة نماذج اللغة في الحصول على الإجابات الصحيحة (Wei et al., 2022). يتضمن CoT خطوات تفكير إضافية في أمثلة التحفيز القليلة. كوجيما وآخرون. (2022) يقدم أيضًا CoT بدون إطلاق، مما يوضح أن إضافة تعليمات غير محددة المهام يمكن أن يحسن أداء النموذج في مهام محددة. في تشانغ وآخرون. (2022 ب)، يجمع Auto-CoT بين عالمية CoT ذات الإطلاق الصفري وقدرة CoT الأصلية المدفوعة بالعروض التوضيحية ويقترح إنشاء العروض التوضيحية تلقائيًا استنادًا إلى التجميع وأخذ العينات القائمة على التنوع والتي تكون مفيدة لاستدلال CoT.
وانغ وآخرون. (2022) قم بتحسين طريقة CoT القليلة عن طريق أخذ عينات من مسارات التفكير المتنوعة المتعددة وتهميش تلك المسارات، واختيار الإجابات الأكثر اتساقًا من بين جميع مسارات التفكير التي تم أخذ عينات منها. المعرفة المولدة تدفع ليو وآخرون. (2021) يعمل على تحسين المنطق المنطقي من خلال دمج المعرفة أو المعلومات المتعلقة بالأسئلة لإجراء تنبؤات أكثر دقة. تجمع أساليب شجرة الأفكار (ToT) (Long, 2023; Yao et al., 2023) بين أساليب التخطيط المبنية على الأشجار ومهارات التفكير المنطقي لنماذج اللغة، وتحل مشكلات التفكير الصعبة خطوة بخطوة عبر محادثات مستديرة متعددة. طرح هولبرت (2023) أيضًا فكرة ذات صلة تستفيد من أفكار متعددة لنموذج اللغة في موجه واحد. الجيل المعزز للذاكرة والاسترجاع (RAG) (لويس وآخرون، 2020)، وهو قادر على الجمع بين الذاكرة البارامترية والذاكرة غير البارامترية مثل ويكيبيديا في إكمال المهام كثيفة المعرفة. MoT (Li & Qiu, 2023): التفكير المسبق بناءً على مجموعة البيانات الخارجية غير المسماة ثم استرجاع المعرفة ذات الصلة أثناء الاستدلال.
تقدم Prompt-OIRL فكرة استخدام التعلم المعزز العكسي دون اتصال بالإنترنت لإجراء التقييم والتحسين الفوري دون اتصال بالإنترنت. الطريقة فعالة وفعالة. يستغرق التدريب Prompt-OIRL على شريحة M2 MacBook Air ساعة واحدة فقط، ومع ذلك يمكن تحسين أداء LLMs المختلفة في مهام التفكير الحسابي بنسبة تصل إلى 24%.
إذا كنت تستخدم الكود الخاص بنا والمطالبة، فيرجى التفكير في الاستشهاد بمقالتنا:
@inproceedings{sun2023query, title={التقييم الفوري المعتمد على الاستعلام والتحسين باستخدام Offline Inverse RL}، المؤلف={Sun, Hao and H{"u}y{"u}k, Alihan and van der Schaar, Mihaela}، عنوان الكتاب ={المؤتمر الدولي الثاني عشر لتمثيلات التعلم}, year={2023}}@article{sun2023reinforcement, title={التعلم المعزز في عصر ماجستير إدارة الأعمال: ما هو الضروري؟ ما هو المطلوب؟ منظور RL حول RLHF وPrompting وBeyond}، المؤلف={Sun, Hao}، Journal={arXiv preprint arXiv:2310.06147}، year={2023}}