مطالبة تداولية رهيبة
كيفية مطالبة نماذج اللغات الكبيرة (LLMs) بإنتاج تفكير موثوق به واتخاذ قرارات تستجيب للسبب.
المداولة ، ن.
فعل التفكير بعناية في شيء ما، خاصة. من أجل التوصل إلى قرار؛ دراسة متأنية؛ فعل أو مثال على ذلك. (مكتب المدير التنفيذي)
محتويات
- قصص النجاح
- أنماط واستراتيجيات المطالبة
- أبعد من "دعونا نفكر خطوة بخطوة"
- المداولات المتعددة الوكلاء
- الانعكاس والإدراك الفوقي
- تقنيات توليد النص
- التصحيح الذاتي
- التحليلات المنطقية
- القيود والفشل والألغاز
- مجموعات البيانات
- الأدوات والأطر
- موارد أخرى
قصص النجاح
أدلة دامغة على فعالية التحفيز التداولي.
- ؟ ورقة "سلسلة الأفكار" الأصلية (CoT)، أول من يقدم دليلًا واضحًا على نجاح التحفيز التداولي. "سلسلة الفكر تثير التفكير في نماذج اللغة الكبيرة." 2022-01-28. [>ورقة]
- ؟ تعمل المطالبة التداولية على تحسين قدرة طلاب ماجستير القانون في Google على حل المشكلات الصعبة غير المرئية، كما أن نماذج التعليمات الدقيقة (Flan-) أفضل بكثير في ذلك.
- “تحجيم نماذج اللغة المضبوطة للتعليمات.” 2022-12-06. [>ورقة]
- "التقرير الفني لـ PaLM 2." 17-05-2023. [>ورقة]
- ؟ يعتبر التحفيز التداولي فعالاً للغاية بالنسبة لنماذج OpenAI (Text-Davinci-003، ChatGPT، GPT-4)، مما يزيد من الدقة في العديد من مهام الاستدلال (ولكن ليس كلها) في معيار EvalAGI. "AGIEval: معيار تتمحور حول الإنسان لتقييم نماذج الأساس." 2023-04-13. [>ورقة]
- ؟ يفتح التحفيز التداولي المهارات المعرفية الكامنة ويكون أكثر فعالية بالنسبة للنماذج الأكبر. "تحدي المهام الكبيرة وما إذا كانت سلسلة الأفكار يمكنها حلها." 2022-10-17. [>ورقة]
- ؟ يؤدي إدخال الأخطاء بشكل تجريبي في آثار استدلال CoT إلى تقليل دقة القرار، مما يوفر دليلاً غير مباشر على استجابة السبب في LLMs. "سلسلة التفكير في اختبار الإجهاد تطالب بنماذج اللغة الكبيرة." 2023-09-28. [>ورقة]
- ؟ التفكير (حول مرشحي الاسترجاع) يحسن RAG. "الخرقة الذاتية: تعلم الاسترجاع والتوليد والنقد من خلال التأمل الذاتي." 2023-10-17. [>ورقة]
- ؟ تعمل ملاحظات القراءة التداولية على تحسين RAG. "سلسلة الملاحظات: تعزيز المتانة في نماذج اللغة المعززة للاسترجاع." 2023-11-15. [>ورقة]
- ؟ الاستدلال الجيد (CoT) يؤدي إلى إجابات جيدة (على سبيل المثال، LLMs تستجيب للأسباب). "التجريد السببي لسلسلة التفكير في المسائل الحسابية اللفظية." 2023-12-07. [>ورقة]
- ؟ يؤدي التفسير المنطقي للمعالجة الداخلية لمهام الاستدلال إلى مزيد من الأدلة على استجابة العقل. "نحو تفسير آلي لقدرات الاستدلال متعددة الخطوات لنموذج اللغة." 2023-12-07. [>ورقة]
- ؟ يؤدي التفكير في المسودات البديلة إلى تحسين عملية إنشاء النص. "التقييم الذاتي يحسن الجيل الانتقائي في نماذج اللغات الكبيرة." 2023-12-14. [>ورقة]
- ؟ تعمل تقنية CoT مع العروض التوضيحية المتنوعة التي تم استرجاعها بعناية على تعزيز ماجستير إدارة الأعمال متعدد الوسائط. "استرجاع سلسلة الأفكار المتعددة الوسائط المعززة لنماذج اللغات الكبيرة." 2023-12-04. [>ورقة]
- ؟ CoT فعال متعدد القفزات للإجابة المرئية على الأسئلة. "II-MMR: تحديد وتحسين الاستدلال متعدد الوسائط والقفزات المتعددة في الإجابة على الأسئلة المرئية." 2024-02-16. [>ورقة]
- ؟ DPO على آثار CoT الاصطناعية يزيد من استجابة السبب لـ LLMs الصغيرة. "جعل الاستدلال مهمًا: قياس وتحسين صدق الاستدلال بتسلسل الأفكار" 2024-02-23. [>ورقة] [>رمز]
أنماط واستراتيجيات المطالبة
استراتيجيات وأنماط تحفيزية لجعل LLMs مدروسة.
أبعد من "دعونا نفكر خطوة بخطوة"
إرشاد ماجستير إدارة الأعمال إلى التفكير (بطريقة محددة).
- ؟ إن مطالبة GPT-4 بتقديم إجابات صحيحة وأخرى خاطئة يعزز الدقة. "نماذج اللغة الكبيرة هي أسباب متناقضة." 2024-03-13. [>ورقة]
- ؟ تعمل المطالبة الديناميكية الموجهة على زيادة أداء GPT-4 CoT بما يصل إلى 30 نقطة مئوية. "الموجه الموجه نحو البنية: إرشاد نموذج لغة كبير في التفكير متعدد الخطوات من خلال استكشاف بنية الرسم البياني للنص" 2024-02-20. [>ورقة]
- ؟ إن السماح لـ LLM باختيار استراتيجيات التفكير والجمع بينها أمر فعال من حيث التكلفة ويحسن الأداء. "اكتشاف ذاتي: نماذج لغوية كبيرة، هياكل تفكيرية ذاتية التأليف." 2024-02-06. [>ورقة]
- ؟ CoA: أنشئ تتبعًا منطقيًا مجردًا أولاً، ثم املأ التفاصيل (باستخدام الأدوات) لاحقًا. "الاستخدام الفعال للأداة مع استدلال السلسلة التجريدية." 2024-01-30. [>ورقة]
- ؟ السبب مرارًا وتكرارًا حتى يتم اجتياز اختبار التحقق. "التخطيط والتحقق والتبديل: التفكير المتكامل مع أفكار متنوعة." 2023-10-23. [>ورقة]
- ؟ قم بإنشاء مداولات متعددة ومتنوعة، ثم قم بتجميعها في مسار تفكير واحد. "اسأل مرة أخرى: الاتفاق الذاتي يحسن منطق نماذج اللغة في جميع السيناريوهات (تقريبًا)". 2023-11-14. [>ورقة]
- ؟ مسح CoT فيما يتعلق بأنواع المهام والتصميمات السريعة ومقاييس الجودة المنطقية. "نحو استراتيجيات أفضل لتحفيز سلسلة الفكر: دراسة استقصائية." 2023-10-08. [>ورقة]
- ؟ إن طرح LLM حول السياق الأوسع للمشكلة يؤدي إلى إجابات أفضل. "خذ خطوة إلى الوراء: استحضار المنطق عبر التجريد في نماذج اللغة الكبيرة." 2023-10-09. [>ورقة]
- وزن الإيجابيات والسلبيات: يمكن تنفيذ نموذج المداولات العالمية هذا باستخدام LLMs.
- برنامج {{توجيه}} يقوم بما يلي: 1. تحديد الخيارات → 2. توليد الإيجابيات والسلبيات → 3. وزن الأسباب → 4. اتخاذ القرار. [>الكود]
- ؟ المطالبة بالتخطيط والحل. "مطالبة التخطيط والحل: تحسين تفكير سلسلة الأفكار الصفرية من خلال نماذج اللغة الكبيرة." 2023-05-06. [>ورقة] [>رمز]
- ؟ تدوين الملاحظات. "تعلم العقل والحفظ باستخدام الملاحظات الذاتية." 2023-05-01. [>ورقة]
- ؟ يعمل التعمد ثم الإنشاء على تحسين جودة النص. "تعمد ثم أنشئ: إطار عمل مطالبة محسّن لإنشاء النص." 2023-05-31. [>ورقة]
- ؟ اجعل LLM يتداخل تلقائيًا مع الاستدلال والأسئلة والأجوبة. "رد الفعل: التآزر بين الاستدلال والتصرف في نماذج اللغة." 2022-10-06. [>ورقة]
- ؟ تتفوق تعليمات "فرق تسد" بشكل كبير على تقنية CoT القياسية. "الطرح من الأقل إلى الأكثر يمكّن من التفكير المعقد في نماذج اللغات الكبيرة" 2022-05-21. [>ورقة]
المداولات المتعددة الوكلاء
اسمح لواحد (أو أكثر) من LLMs بمحاكاة جدل حر.
- ؟ LLMs المفتوحة المختارة بعناية والتي تقوم بمراجعة إجاباتها وتحسينها بشكل متكرر تتفوق على GPT4-o. "مزيج الوكلاء يعزز قدرات نموذج اللغة الكبيرة." 2024-06-10. [>ورقة] [>رمز]
- ؟ عادةً ما تكون تصميمات الأنظمة المتعددة الوكلاء الأكثر تفصيلاً والمكلفة أكثر فعالية، وفقًا لهذه المراجعة: "هل سنتجه إلى الجنون؟ قياس الجدال بين الوكلاء المتعددين بين نماذج اللغة للأسئلة والأجوبة الطبية." 2023-11-19. [>ورقة]
- ؟ تعتبر المراجعة المنهجية من قبل النظراء أفضل من المناقشة بين وكلاء متعددين. "نحو التفكير في نماذج اللغات الكبيرة من خلال التعاون في مراجعة النظراء متعدد الوكلاء." 2023-11-14. [>ورقة]
- ؟ النقد الجماعي والتفكير يقلل من الهلوسة الواقعية والسمية. "نقاد N: التحسين الذاتي لنماذج اللغات الكبيرة مع مجموعة من النقاد." 2023-10-28. [>ورقة]
- ؟ تعتبر عملية دلفي مع ماجستير إدارة الأعمال المتنوعة أكثر قيمة من الناحية الواقعية من النقاش البسيط. "التسوية: مؤتمر المائدة المستديرة يحسن التفكير من خلال التوافق بين طلاب ماجستير القانون المتنوعين." 2023-09-22. [>ورقة] [>رمز]
- ؟ يزيد النقاش متعدد الوكلاء من التنوع المعرفي ويزيد من الأداء. "تشجيع التفكير المتباين في نماذج اللغات الكبيرة من خلال النقاش متعدد الوكلاء." 2023-05-30. [>ورقة]
- ؟ الاستفادة من حكمة تأثيرات الجماهير من خلال محاكاة المناظرة. "تحسين الواقعية والاستدلال في نماذج اللغة من خلال النقاش المتعدد الأطراف." 2023-05-23. [>ورقة]
- ؟ محاكاة الحوار السقراطي لحل المشكلات بشكل تعاوني مع العديد من وكلاء الذكاء الاصطناعي. “الطريقة السقراطية لاكتشاف الذات في نماذج اللغات الكبيرة.” 2023-05-05. [>المدونة] [>الكود]
الانعكاس والإدراك الفوقي
استراتيجيات التفكير العليا التي قد تحسن المداولات من الدرجة الأولى.
- ؟ يؤدي تتبع الأفكار العامة المكتسبة من حل مشكلات CoT إلى تحسين الدقة والكفاءة في المستقبل. "مخزن الأفكار: الاستدلال المعزز بالفكر باستخدام نماذج لغوية كبيرة." 2024-06-06. [>ورقة] [>رمز]
- ؟ معالجة المهمة في وظيفة الصعوبة المقدرة ذاتيًا تعزز فعالية CoT. "فرق تسد من أجل استدلال نماذج اللغة الكبيرة." 2024-01-10. [>ورقة] [>رمز]
- ؟ إن التفكير في المهمة يسمح لـ LLM بإنشاء تعليمات أكثر فعالية، وآثار توضيحية، واستدلال. "Meta-CoT: سلسلة أفكار قابلة للتعميم في سيناريوهات المهام المختلطة مع نماذج اللغة الكبيرة." 2023-10-11. [>ورقة] [>رمز]
- ؟ يبتكر مدرب الذكاء الاصطناعي المعتمد على LLM تعليمات CoT فعالة من الدرجة الأولى (تتحسن النماذج مفتوحة المصدر بنسبة تصل إلى 20%). "الوكيل يوجه نماذج اللغات الكبيرة ليكونوا مفكرين عامين." 2023-10-05. [>ورقة] [>رمز]
- ؟ توضيح → القاضي → تقييم → تأكيد → نموذج التأهيل. "المطالبة ما وراء المعرفية تعمل على تحسين الفهم في نماذج اللغات الكبيرة." 2023-08-10. [>ورقة] [>رمز]
- ؟ استراتيجية البحث ثم محاكاة خبير لهذه المشكلة. "البرمجة السريعة لنماذج اللغات الكبيرة: ما وراء نموذج اللقطات القليلة." 2021-02-15. [>ورقة] [>مقل]
تقنيات توليد النص
تقنيات إنشاء النص، والتي يمكن دمجها مع الأنماط والاستراتيجيات المحفزة.
- ؟ تعمل المراجعة التكرارية للاستدلال في ضوء آثار CoT السابقة على تحسين الدقة بنسبة 10-20%. “RAT: استرجاع الأفكار المعززة تثير التفكير المنطقي في جيل الأفق الطويل”. 2024-03-08. [>ورقة]
- ؟ خط أنابيب للتوليد الذاتي واختيار عروض توضيحية قليلة الطلقات لـ CoT الفعالة. “مطالبة عالمية للتكيف الذاتي”. 2023-05-24. [>ورقة]
- ؟ مزيد من الاستدلال (= آثار استدلال أطول) أفضل. “تأثير طول خطوة الاستدلال على نماذج اللغات الكبيرة”. 2024-01-10. [>ورقة]
- ؟ إن وجود (المسمى وفقًا لذلك) العروض التوضيحية الصحيحة والخاطئة (القليلة) تعمل على تحسين CoT. "سلسلة من الأفكار المتناقضة." 2023-11-17. [>ورقة]
- ؟ حل أفضل للمشكلات والمداولات من خلال عدد قليل من التجارب والخطأ (في السياق RL). "الانعكاس: وكلاء اللغة مع التعلم المعزز اللفظي." 2023-03-20. [>ورقة]
- ؟ تعمل الأدلة الخارجية التي تقيد توليد التفكير على تحسين الدقة بنسبة تصل إلى 35% في المهام المحددة. "الاستدلال المعتمد مع نماذج اللغة." 2023-06-06. [>ورقة]
- ؟ بحث شعاعي فعال للغاية لتوليد حلقات تفكير معقدة ومتعددة الخطوات. "شجرة الأفكار: حل المشكلات المتعمد باستخدام نماذج اللغة الكبيرة." 17-05-2023. [>ورقة] [>رمز]
- تطبيق بسيط لشجرة الأفكار كموجه واضح. [>الكود]
- تطبيق تجريبي لـ LMQL لشجرة الأفكار. [>الكود]
- ؟ LLM يُنشئ تلقائيًا عروضًا توضيحية متنوعة للاستدلال لاستخدامها في التحفيز التداولي. "سلسلة من الأفكار التلقائية في النماذج اللغوية الكبيرة." 2022-10-07. [>ورقة] [>رمز]
التصحيح الذاتي
دع LLMs يصححون مداولاتهم ذاتيًا.
- ؟ يعد الاتساق بين آثار CoT المتعددة مؤشرًا على موثوقية الاستدلال، والتي يمكن استغلالها في الفحص الذاتي/التجميع. "هل يمكننا التحقق خطوة بخطوة لاكتشاف الإجابات غير الصحيحة؟" 2024-02-16. [>ورقة]
- ؟ قم بتحويل LLMs إلى مدققين ذاتيين جوهريين عن طريق إلحاق خطوات التصحيح الذاتي بتتبعات CoT القياسية للضبط الدقيق. "نموذج اللغة الصغير يمكنه التصحيح الذاتي." 2024-01-14. [>ورقة]
- ؟ يعمل التدريب الذاتي المعزز على تحسين عملية الاسترجاع المعززة متعددة القفزات للأسئلة والأجوبة. "ReST تجتمع مع ReAct: التحسين الذاتي لوكيل LLM للاستدلال متعدد الخطوات." 2023-12-15. [>ورقة]
- ؟ التصحيح الذاتي المشروط يعتمد على ما إذا كانت الأسئلة الحرجة قد تمت معالجتها في تتبع الاستدلال. "فن الصقل LLM: اسأل، صقل، والثقة." 2023-11-14. [>ورقة]
- ؟ يؤدي تحسين المنطق بشكل متكرر في ضوء ردود الفعل المتنوعة إلى زيادة الدقة بنسبة تصل إلى 10% (ChatGPT). "MAF: تعليقات متعددة الجوانب لتحسين الاستدلال في نماذج اللغات الكبيرة." 2023-10-19. [>ورقة]
- ؟ إن توجيه النموذج فقط إلى "مراجعة" إجابته و"العثور على المشكلات" لا يؤدي إلى تصحيح ذاتي فعال. "لا تستطيع النماذج اللغوية الكبيرة تصحيح المنطق ذاتيًا بعد." 2023-09-25. [>ورقة]
- ؟ يمكن لـ LLM طرح الأسئلة المهمة والتعامل معها لتحسين مسوداتها. "سلسلة التحقق تقلل من الهلوسة في نماذج اللغات الكبيرة." 2023-09-25. [>ورقة]
- ؟ LogiCoT: يؤدي الفحص الذاتي والمراجعة بعد كل خطوة من خطوات CoT إلى تحسين الأداء (للمهام والنماذج المحددة). "تعزيز المنطق الصفري لسلسلة الأفكار في نماذج اللغات الكبيرة من خلال المنطق." 2023-09-23. [>ورقة]
- ؟ مراجعة ممتازة حول ماجستير إدارة الأعمال (LLM) الذي يقوم بالتصحيح الذاتي، مع التطبيق على الاستدلال غير المخلص. "تصحيح نماذج اللغات الكبيرة تلقائيًا: مسح مشهد استراتيجيات التصحيح الذاتي المتنوعة." 2023-08-06. [>ورقة]
التحليلات المنطقية
طرق تحليل مداولات LLM وتقييم جودة الاستدلال.
- تحليلات التفكير الشاملة القائمة على LLM والتي تقسم النصوص إلى أسباب فردية. "تناسق DCR: منطق قهر الانقسام لتقييم الاتساق وتحسين نماذج اللغات الكبيرة." 2024-01-04. [>ورقة] [>رمز]
- ؟؟ LLM مفتوح عالي الأداء (يعتمد على T5) للتحقق من الاستدلال. "العقول مقابل الآلات: إعادة التفكير في التحقق من الاستحقاق باستخدام نماذج اللغة." 2024-02-06. [>ورقة] [>نموذج]
- اختبار مجموعة البيانات لمقيمي CoT. "إن قوة سلسلة الفكر مثل أضعف حلقاتها: معيار للتحقق من سلاسل الاستدلال." 2023-11-23. [>ورقة] [>مجموعة البيانات]
- إطار تقييم سلاسل الاستدلال من خلال النظر إليها على أنها براهين غير رسمية تستمد الإجابة النهائية. "ReCEval: تقييم سلاسل الاستدلال عبر الصواب والمعلوماتية." 2023-11-23. [>ورقة] [>رمز]
- ؟ GPT-4 أفضل بـ 5 مرات في التنبؤ بما إذا كان المنطق الرياضي صحيحًا من GPT-3.5. "تحدي ماجستير إدارة الأعمال في التفكير حول الاستدلال: معيار للكشف عن العمق المعرفي في ماجستير إدارة الأعمال." 2023-12-28. [>ورقة]
- ؟ يطالب GPT-4 البسيط بتقييم جودة الاستدلال. "SocREval: نماذج لغوية كبيرة باستخدام الطريقة السقراطية لتقييم الاستدلال الخالي من المراجع." 2023-09-29. [>ورقة] [>رمز]
- مقاييس تلقائية تعتمد على التشابه الدلالي لتقييم آثار CoT (التكرار، الإخلاص، الاتساق، وما إلى ذلك). "ROSCOE: مجموعة من المقاييس لتسجيل الاستدلال خطوة بخطوة." 12-09-2023. [>ورقة]
القيود والفشل والألغاز
الأشياء التي لا تعمل، أو غير مفهومة بشكل جيد.
- ؟ مخاطر التوليد المنظم تؤدي إلى تدهور جودة الاستدلال وفعالية تكنولوجيا المعلومات. "دعني أتحدث بحرية؟ دراسة حول تأثير قيود التنسيق على أداء نماذج اللغات الكبيرة." 2024-08-05. [>ورقة]
- ؟ يمكن أن تكون رموز الحشو فعالة مثل آثار التفكير السليم للحصول على الإجابات الصحيحة. "دعونا نفكر نقطة بنقطة: الحساب المخفي في نماذج لغة المحولات." 2024-04-24. [>ورقة]
- ؟ يوضح التحليل السببي أن ماجستير إدارة الأعمال يتجاهل أحيانًا آثار CoT، لكن استجابة السبب تزداد مع حجم النموذج، وتتشكل من خلال الضبط الدقيق. "الماجستير في القانون ذو التسلسل الفكري غير سببي" 2024-02-25. [>ورقة]
- ؟ قد يؤدي التفكير السيئ إلى استنتاجات صحيحة، وبالتالي هناك حاجة إلى طرق أفضل لتقييم CoT. "النتيجة: إطار لتقييم الاستدلال المتناقض ذاتيًا." 2023-11-16. [>ورقة]
- ؟ قد تنتج LLMs "استدلالًا مشفرًا" غير مفهوم للبشر، مما قد يبطل أي مكاسب لـ XAI من التحفيز التداولي. "منع النماذج اللغوية من إخفاء منطقها." 2023-10-27. [>ورقة]
- ؟ يحكم طلاب LLM ويقررون بناءً على الحجج المتاحة (الاستجابة للسبب)، لكنهم يتأثرون بقوة أكبر بالأسباب المغلوطة والخادعة مقارنة بالأسباب السليمة. "ما مدى عرضة ماجستير إدارة الأعمال للمغالطات المنطقية؟" 18-08-2023. [>ورقة]
- ؟ يؤدي الاستدلال غير الصحيح إلى تحسين دقة الإجابة (تقريبًا) بقدر ما يؤدي إلى تحسين دقة الإجابة. "المنطق غير الصالح، المكاسب المكافئة: غرابة الاستدلال في نموذج اللغة". 2023-07-20. [>ورقة]
- ؟ يزيد تفكير Zeroshot CoT في المجالات الحساسة من احتمالية إنتاج LLM لمخرجات ضارة أو غير مرغوب فيها. "في التفكير الثاني، دعونا لا نفكر خطوة بخطوة! التحيز والسمية في الاستدلال الصفري." 2023-06-23. [>ورقة]
- ؟ اكتشف فريق جامعة نيويورك/الأنثروبيك أن طلاب ماجستير القانون قد يختلقون بشكل منهجي مبررات خاطئة لـ CoT للحصول على إجابات خاطئة. "النماذج اللغوية لا تقول دائمًا ما تفكر فيه: التفسيرات غير المخلصة في سلسلة الأفكار المحفزة." 2023-05-07. [>ورقة]
- ؟ إن المداولات العملية لـ LLMs ليست قوية، ولكنها تضل بسهولة من خلال إعادة صياغة السيناريوهات. "على الرغم من الأداء "الإنساني الفائق"، فإن حاملي ماجستير القانون الحاليين غير مناسبين لاتخاذ القرارات المتعلقة بالأخلاق والسلامة" 2022-12-13. [>ورقة]
مجموعات البيانات
مجموعات البيانات التي تحتوي على أمثلة للتحفيز التداولي، قد تكون مفيدة لنماذج التدريب/تقييم مهاراتهم التداولية.
- مجموعة بيانات تتبع التعليمات معززة بـ "آثار الاستدلال" التي تم إنشاؤها بواسطة LLMs.
- ؟ ORCA - ورق مايكروسوفت الأصلي. "Orca: التعلم التقدمي من آثار الشرح المعقدة لـ GPT-4." 2023-06-05. [>ورقة]
- OpenOrca - النسخ المتماثل مفتوح المصدر لمجموعات بيانات ORCA. [>مجموعة البيانات]
- Dolphin - النسخ المتماثل مفتوح المصدر لمجموعات بيانات ORCA. [>مجموعة البيانات]
- ؟ ORCA 2 - Orca المحسّنة بواسطة Microsoft، على سبيل المثال باستخدام الاستدلال التعريفي. "Orca 2: تدريس نماذج اللغة الصغيرة كيفية التفكير." 2023-11-18. [>ورقة]
- مجموعة CoT - 1.84 مليون أثر تفكير لـ 1060 مهمة. "مجموعة CoT: تحسين التعلم الصفري والقليل لنماذج اللغة من خلال الضبط الدقيق لسلسلة الأفكار." [>ورقة] [>رمز]
- OASST1 - يحتوي على أكثر من 200 تعليمات لإنشاء الإيجابيات والسلبيات (حسب خريطة nomic.ai). [>مجموعة البيانات]
- ؟ LegalBench - معيار للاستدلال القانوني في LLMs [>ورقة]
- ThoughtSource - مصدر مفتوح للبيانات والأدوات المتعلقة باستدلال تسلسل الأفكار في نماذج اللغات الكبيرة. [>ورقة] [>رمز]
- قم بالمراجعة مع الكثير من التلميحات لمجموعات البيانات ذات الصلة بـ CoT. "مجموعات البيانات لنماذج اللغات الكبيرة: مسح شامل" [>ورقة] [>رمز]
- قائمة مجموعات بيانات ماكسيم لابون LLM [github]
الأدوات والأطر
الأدوات والأطر اللازمة لتنفيذ التحفيز التداولي.
- LMQL - لغة برمجة لتفاعل نماذج اللغة. [>الموقع]
- ? ملعب LMQL التفاعلي [>الموقع]
- ؟ "المطالبة هي البرمجة: لغة استعلام لنماذج اللغات الكبيرة." 2022-12-12. [>ورقة]
- ? {{التوجيه}} - لغة للتحكم في نماذج اللغات الكبيرة. [>الكود]
- الخطوط العريضة ~ - لغة لإنشاء النص الموجه. [>الكود]
- DSPy - واجهة برمجية لـ LLMs. [>الكود]
- llm-reasoners – مكتبة للاستدلال المتقدم لنماذج اللغة الكبيرة. [>الكود]
- ThinkGPT - إطار العمل والعناصر الأساسية لسير عمل سلسلة الأفكار. [>الكود]
- LangChain - مكتبة بايثون لبناء سلاسل ووكلاء LLM. [>الكود]
- PromptBench - مكتبة موحدة لتقييم LLMS، من بين أمور أخرى، فعالية مطالبات CoT. [>الكود]
- SimolicAI - مكتبة للبرمجة التفاضلية التركيبية مع LLMs. [>الكود]
موارد أخرى
المزيد من المواد الرائعة والمفيدة.
- مسح وكلاء LLM المستقلين (يتم تحديثه باستمرار). [>الموقع]
- LLM Dashboard - استكشاف أداء التفكير المنطقي الخاص بالمهمة في LLMs المفتوحة [>التطبيق]
- الدليل الهندسي الفوري الذي أعدته DAIR. [>الموقع]
- ATLAS - المبادئ والمقاييس المعيارية للحث المنهجي [>الكود]
- دليل المطالبة التداولي الذي تم إعداده بواسطة Logikon. [>الموقع]
- الجدال بالحجج - مقال حديث ورائع بقلم H. Siegel يناقش ما يعنيه فعليًا تقييم الحجة. [>ورقة]