Reading_groups تنزيل - Reading_groups تنزيل رمز المصدر

Reading_groups

شفرة المصدر الأخرى

1.0.0

تنزيل

موارد للمواضيع الساخنة المتعلقة بنماذج اللغة على نطاق واسع قبل المدربين

قوة الحوسبة : تُظهر الكثير من الأدلة أن التقدم في التعلم الآلي مدفوع إلى حد كبير بالحوسبة ، وليس البحث ، يرجى الرجوع إلى "الدرس المرير" ، وغالبًا ما تكون هناك ظواهر للظهور والتجانس. أظهرت الدراسات أن استخدام حوسبة الذكاء الاصطناعي يتضاعف كل 3.4 أشهر تقريبًا ، في حين يتضاعف تحسين الكفاءة كل 16 شهرًا. من بينها ، يتم تشغيل كمية الحساب بشكل أساسي عن طريق الحوسبة ، في حين أن الكفاءة مدفوعة بالبحث. هذا يعني أن نمو الحوسبة قد سيطر تاريخياً على التقدم في التعلم الآلي وحقوله الفرعية. وقد ثبت ذلك كذلك من خلال ظهور GPT-4. على الرغم من ذلك ، ما زلنا بحاجة إلى الانتباه إلى ما إذا كان سيكون هناك بنية أكثر تخريبًا في المستقبل ، مثل S4. تستند معظم النقاط الساخنة الحالية لـ NLP Research إلى LLM أكثر تقدمًا (~ 100b ، $ 10^{23} $ يتخبط). على وجه الخصوص ، يستخدم ChatGPT أقل من حسابات التدريب قبل التدريب (4.9+60 PETAFLOPS/S-W-SYS VS 3640 PETAFLOPS/S-Days) والتعليقات البشرية (500 ألف دولار ، 20 ألف ساعة ، 13+33+31K ، مقارنة مع GPT- 3،000 ألف دولار ، أصدرت قدرات الحوار GPT Big Model وأصبحت شائعة. لذلك ، تتبع هذه المكتبة وتصنيف المقالات المتعلقة بنموذج اللغة على نطاق واسع قبل التدريب LLM ، والذي يتيح لنا فهم الحدود ورؤية الاتجاه بوضوح. بالطبع ، بالإضافة إلى [Big Computing Power Technology Foundation] ، هناك جوانب أخرى: [اختراق في تكنولوجيا النماذج الكبيرة] ، [تعزيز في جودة البيانات الكبيرة] ، [Open Innovation Ecological Environment] ، [Close Team Collaboration] ، [Strong القدرات الهندسية] وما إلى ذلك

لمزيد من أوراق موضوعات LLM ، يرجى الرجوع إلى هنا وهنا.

أوراق ( فئة خشنة )

تدريب النموذج والاختبار والتحسين
التطبيقات و LLM+
تحليل المبدأ
تحسينات التكنولوجيا
المسح ومجموعات البيانات

الموارد

دورات LLM
صور مهمة
LLM DEMO
المدونات المهمة والمقالات المختارة ذاتيا
التدريب ، المنطق ، أدوات التطبيق (لم يتم تجميعها)

تدريب كبير على النماذج والتحسين

【اختبار على GPT-4 ، القيد】 سباركس الذكاء العام الاصطناعي: التجارب المبكرة مع GPT-4

بطاقة النموذج
فيديو

【تعليمات الأوراق ، بما في ذلك SFT ، PPO ، وما إلى ذلك ، واحدة من أهم المقالات】 نماذج لغة التدريب لمتابعة التعليمات مع التعليقات البشرية

【الإشراف القابل للتطوير: كيف يمكن للبشر مواصلة تحسين نماذجهم بعد أن تتجاوز نماذجهم مهامهم؟ 】 قياس التقدم في الإشراف القابل للتطوير لنماذج اللغة الكبيرة

نماذج ذاتية للمساعدة لمساعدة المقيمين البشريين
التعريف: القدرة على توفير إشراف موثوق للنموذج في شكل تسميات أو إشارات المكافآت أو النقد الذي سيبقى فعالًا بعد بدء النموذج في تحقيق مجموعة واسعة من الأداء على مستوى الإنسان.
يمكن لتكنولوجيا الرقابة القابلة للتطوير تحسين قدرة النماذج ومواءمةها (أي تطبيق الأهداف وتحقيقها بالطريقة التي يتوقعها البشر).
إذا تمكنا من العثور على نموذج تعليمي خاضع للإشراف يعتمد على النموذج الحالي (المستوى فوق الخبراء ، تحت الخبراء) يمكنه تحسين صحة إجابات النموذج ، فيمكننا الحصول على فهم أفضل للنموذج بأي حال من الأحوال بالاعتماد على الخبراء. نظام الخبراء.
فكرة أخرى منظور هي مطالبة النموذج باستخدام تلميحات واستراتيجيات متعددة وقبول الإجابات التي قدمها النموذج على أساس ثابت ومعقول للأدلة. لكن التكنولوجيا من هذه الزاوية قد لا تكون قابلة للتطوير بما فيه الكفاية. بطبيعة الحال ، فإن أي تقنية يمكنها حل مثل هذه التحديات بموثوقية عالية قد تمثل تطورات مهمة في الإشراف القابل للتطوير.
الحلول الحالية: دع النماذج الحالية تساعد البشر في الحصول على المعرفة لتمكين البشر من إنتاج إشراف عالي الجودة.

【تعريف المحاذاة ، التي تنتجها DeepMind】 محاذاة وكلاء اللغة

مساعد اللغة العامة كمختبر للمحاذاة

[الورق الرجعية ، تم البحث في النموذج باستخدام CCA+] تحسين نماذج اللغة من خلال الاسترداد من تريليونات الرموز

نماذج لغة صقلها من التفضيلات البشرية

تدريب مساعد مفيد وغير ضار مع التعلم التعزيز من ردود الفعل البشرية

【نموذج كبير باللغة الصينية والإنجليزية ، يتجاوز GPT-3】 GLM-130B: نموذج مفتوح ثنائي اللغة مسبقًا

【التحسين الهدف قبل التدريب】 UL2: موحد نماذج تعلم اللغة

【المعايير الجديدة للمحاذاة ، والمكتبات النموذجية والأساليب الجديدة】 هل التعلم التعزيز (وليس) لمعالجة اللغة الطبيعية؟: المعايير ، وخطوط الأساس ، وكتل البناء لتحسين سياسة اللغة الطبيعية

【MLM بدون علامات [Mask] من خلال التكنولوجيا】 نقص التمثيل في نمذجة اللغة المقنعة

【رسالة نصية إلى تدريب الصور تخفف من احتياجات المفردات ويقاوم بعض الهجمات】 نمذجة اللغة مع وحدات البكسل

Lexmae: معجم بوتلنك مسبق لاسترجاع واسع النطاق

incoder: نموذج توليدي لـ Code Infilling and Synthesis

[بحث الصور المتعلقة بالنص لنموذج اللغة قبل التدريب] النمذجة اللغوية المرصعة بصريًا

نموذج لغة غير متجانس للإنهاء الذاتي

【مقارنة وضبط ردود الفعل السلبية من خلال تصميم propt】 سلسلة من نماذج اللغة المتأخرة مع ردود الفعل

المقالات ذات الصلة: إن حكمة بعد فوات الأوان تجعل نماذج اللغة أفضل تعليمات متابعين

【نموذج العصفور】 تحسين محاذاة وكلاء الحوار عبر الأحكام البشرية المستهدفة

[استخدم معلمات نموذج صغيرة لتسريع عملية تدريب النموذج الكبير (لا تبدأ من نقطة الصفر)] تعلم نماذج نماذج مسبقة للتدريب على المحولات الفعالة

[نموذج اندماج المعرفة شبه المعرفة في MOE لمصادر المعرفة المتعددة] المعرفة في السياق: نحو نماذج لغة شبه براريامي

[Merge Method لدمج نماذج مدربة متعددة على مجموعات البيانات المختلفة] Dataless المعرفة الاندماج عن طريق دمج أوزان نماذج اللغة

[من الملهم للغاية أن آلية البحث تحل محل البنية العامة لـ FFN في Transformer (× 2.54 Time) لفصل المعرفة المخزنة في معلمات النموذج]

【إنشاء بيانات ضبط التعليمات تلقائيًا لتدريب GPT-3】 الإقرار الذاتي: مواءمة نموذج اللغة مع تعليمات تم إنشاؤها ذاتيًا

【بيانات مشابهة لـ Yizhong Wang التي تقوم تلقائيًا بإنشاء التعليمات ، التي تهدف إلى تعليمات T0】 غير طبيعية: نماذج لغة ضبط مع (تقريبًا) لا يوجد عمل بشري
أحكام قبول نموذج اللغة ليست قوية دائمًا للسياق
Super-naturalinstructions: التعميم عبر تعليمات إعلانية على 1600+ مهمة NLP
(Flan-T5-Cot) 【COT نماذج نماذج اللغة المليئة بالتعليمات

-

نحو نماذج اللغة المقنعة المعتمدة بشكل مشروط

【المعايرة بشكل تكرار مصححات مستقلة تم إنشاؤها بشكل غير كامل ، مقالة متابعة شون ويلك】 توليد تسلسل عن طريق التعلم إلى تصحيح ذاتي

التنبؤ: سوف تحل ملاحظات الذكاء الاصطناعي قريبًا محل ملاحظات المستخدم البشرية لتحديثات النموذج
نحو تعزيز chatbot المجال المفتوح مع التعليقات البشرية
أفكار مماثلة 1. منظمة العفو الدولية الدستورية: إلحاق الضرر من ردود الفعل من الذكاء الاصطناعي
أفكار مماثلة 2. اكتشاف سلوكيات نموذج اللغة مع تقييمات مكتوبة النموذج
التطبيق: [Openai] تلخيص الكتب بشكل متكرر مع ردود الفعل البشرية

[التعلم المستمر: أضف propt للمهمة الجديدة ، وتبقى ProPT للمهمة السابقة والنموذج الكبير مطالبات تدريجية: التعلم المستمر لنماذج اللغة دون نسيان

[EMNLP 2022 ، التحديث المستمر للنموذج] memprompt: تحرير موجه بمساعدة الذاكرة مع ملاحظات المستخدم

【العمارة العصبية الجديدة (FOLNET) ، والتي تحتوي على التحيز الحث المنطقي من الدرجة الأولى】 تمثيل لغة التعلم مع التحيز الاستقرائي المنطقي

GANLM: التدريب قبل الترميز مع تمييز إضافي

【نموذج لغة ما قبل التدريب على أساس نماذج فضاء الحالة ، ويتجاوز bert】 pretring دون اهتمام

[النظر في ردود الفعل البشرية أثناء النماذج اللغوية قبل التدريب] مع التفضيلات البشرية

[Meta Open Source Model Llama ، 7B-65B ، يدرب نماذج صغيرة أكثر من المعتاد ، وتحقيق الأداء الأمثل في ظل ميزانيات الاستدلال المختلفة] Llama: نماذج لغة أساس مفتوحة وفعالة

[تعليم نماذج اللغة الكبيرة للقرص الذاتي وشرح الكود الذي تم إنشاؤه من خلال عدد صغير من الأمثلة ، ولكن تم استخدامها مثل هذا الآن] تدريس نماذج لغة كبيرة للذات

سلسلة من الأوراق والأدوات المنشورة حول القدرة على التصحيح الذاتي لنماذج اللغة الكبيرة ، Babyagi ، Auto-GPT
أفكار مماثلة: 0.
أفكار مماثلة: 1.

إلى أي مدى يمكن أن تذهب الجمال؟

ليما: أقل من ذلك بالنسبة للمحاذاة

【شجرة الفكر ، أشبه بالألفاجو-حل المشكلات المتعمدة مع نماذج اللغة الكبيرة

التطبيقات و LLM+

【طريقة التفكير متعددة الخطوات لتطبيق ICL ملهم للغاية】 React: تآزر التفكير والتمثيل في نماذج اللغة

【استخدام LLM وحده لا يكفي لإنشاء تطبيق قوي حقًا ، وستظهر القوة الحقيقية عندما يتم دمج LLM مع مصادر أخرى للحوسبة أو المعرفة]
【الأدوات】 langchain - تطبيقات البناء مع LLMs من خلال التكلفة
【المسح】 نماذج اللغة المعززة: دراسة استقصائية
Toolformer
أفكار مماثلة 0. التلم: نماذج لغة معززة الأداة
أفكار مماثلة 1. إظهار-البحث-التنبؤ: تكوين نماذج استرجاع ولغة لنظام NLP كثيف المعرفة
أفكار مماثلة 2. Lambada: التسلسل للخلف للتفكير الآلي في اللغة الطبيعية
أفكار مماثلة 3.
أفكار مماثلة 4. نماذج اللغة كنماذج الوكيل
أفكار مماثلة 5. المطالبة هي البرمجة: لغة الاستعلام لنماذج اللغة الكبيرة
أفكار مماثلة 6. 【Neupips 22 '】 Cascades نموذج اللغة
أفكار مماثلة 7. الفن: التفكير التلقائي متعدد الخطوات واستخدام الأدوات لنماذج اللغة الكبيرة
الوكلاء التوليدي: simulacra التفاعلية للسلوك البشري

【COT ينشئ رمز البرنامج مباشرة ، ثم يتيح لمترجم Python تنفيذ برنامج الأفكار المطالبة: Disentangling Compution من التفكير في مهام التفكير العددي

المقالات ذات الصلة: [EMNLP 22 '] نماذج لغوية الكود هي متعلمين نقال قليلة
【مجموعة Heng JI】 Code4Struct: توليد الكود للتنبؤ المنظم بضع طلقة من اللغة الطبيعية PAL: نماذج لغة بمساعدة البرنامج
【تشينغ ليو ، مجموعة كريس كاليسون-بورش】 سلسلة من التفكير المؤمن

[النموذج الكبير يولد سياق الأدلة مباشرة] توليد بدلاً من استرداده: نماذج اللغة الكبيرة هي مولدات سياق قوية

【نموذج الكتابة مع 4 عمليات محددة】 الأقران: نموذج لغة تعاونية

【الجمع بين Python و SQL Executors والنماذج الكبيرة】 نماذج لغة الربط باللغات الرمزية

[استرداد رمز توليد المستندات] المستند: إنشاء رمز عن طريق استرداد المستندات

[سيكون هناك العديد من المقالات في Grounding+LLM في السلسلة التالية] LLM-Planner: تخطيط قليلة الطلقة للعوامل المجسدة مع نماذج لغة كبيرة

افعل ما أستطيع ، ليس كما أقول: لغة التأريض في المعادلة الآلية
https://say-can.github.io/

【الجيل الذاتي (تم التحقق منه باستخدام بيانات تدريب Python)】 يمكن أن تعلمنا نماذج اللغة نفسها لبرمجة أفضل

المقالات ذات الصلة: متخصصة نماذج لغة أصغر نحو التفكير متعدد الخطوات
Star: Bootstrapping Reasoring مع التفكير ، من Neupips 22 (قم بإنشاء بيانات COT لضبط النموذج الدقيق) ، مما تسبب في سلسلة من مقالات COT التي تدرس النماذج الصغيرة.
أفكار مماثلة [تقطير المعرفة] تدريس نماذج اللغة الصغيرة للتسبب والتعلم من خلال تقطير السياق
الأفكار المماثلة لمجموعات Kaist و Xiang Ren ([Cot Rationale Tuning (Professor)] Pinto: منطق اللغة المؤمنين باستخدام المبررات المولدة ، وما إلى ذلك) ونماذج اللغة الكبيرة تعتبر المعلمين
نماذج تحلل المشكلة في قطارات ETH ونماذج حل المشكلات بشكل منفصل] تقطير إمكانات التفكير متعددة الخطوات في نماذج اللغة الكبيرة في نماذج أصغر من خلال التحلل الدلالي

【دع النماذج الصغيرة تتعلم قدرات سرير الأطفال】 التقطير التعليمي أثناء السياق: نقل قدرة التعلم القليلة على التعلم لنماذج اللغة المسبقة مسبقًا

【نموذج كبير يقوم بتدريس النماذج الصغيرة cot】 نماذج اللغة الكبيرة تعتبر المعلمين

[النموذج الكبير يولد أدلة (تلاوة) ثم يقوم بنماذج اللغة المغلقة في كتاب عينة صغيرة

[أساليب اللغة الطبيعية للمناطق الاستقرائية] نماذج اللغة كأسباب استقرائية

[يتم استخدام GPT-3 لتعليق البيانات (مثل التصنيف العاطفي)] هل GPT-3 عبارة عن مسيرة جيدة للبيانات؟

【نماذج لزيادة البيانات بناءً على التدريب متعدد المهام لتقليل عينة تكبير البيانات】 Knowda: نموذج خليط المعرفة الكل في واحد لزيادة البيانات في NLP منخفضة الموارد

【عمل التخطيط الإجرائي ، غير مهتم بالوقت الذي يتواجد فيه التخطيط الإجرائي العصبي مع الطالب المنطقي

[الهدف: إنشاء مقالات صحيحة من الناحية الواقعية للاستعلامات عن طريق التأريض على مجموعة الويب الكبيرة

【الجمع بين نتائج محاكاة الفيزياء الخارجية في السياق】 عين العقل: نموذج اللغة المسترقة المنطق من خلال المحاكاة

[استرداد مهمة تعزيز COT للقيام بالمعرفة المكثفة] استرجاع التراجع مع التفكير في سلسلة أفكار للأسئلة متعددة الخطوات كثيفة المعرفة

【قارن المعرفة المحتملة (الثنائية) في نموذج لغة التعرف غير الخاضع للإشراف】 اكتشاف المعرفة الكامنة في نماذج اللغة دون إشراف

[Percy Liang Group ، محرك البحث الموثوق به ، 51.5 ٪ فقط من الجمل التي تم إنشاؤها مدعومة بالكامل من خلال الاستشهادات] تقييم التحقق من التحقق في محركات البحث التوليدي

يؤدي التقدم التقدمي إلى تحسين التفكير في نماذج اللغة الكبيرة

التحديد الذاتي للنماذج اللغوية التي تعتمد على المبدأ من الصفر مع الحد الأدنى من الإشراف البشري

الحكم LLM-AS-A-DUCK

تحليل المبدأ

[في رأيي ، إنها واحدة من أهم المقالات. التدريب وعرض وعمق تفاصيل العمارة مثل العرض والعمق.

[واحدة من أهم المقالات الأخرى ، Chinchilla ، تحت الحوسبة المحدودة ، فإن النموذج الأمثل ليس هو النموذج الأكبر ، ولكنه نموذج أصغر مدرب مع المزيد من البيانات (60-70 ب)

[ما هي أهداف الهندسة المعمارية والتحسين التي تساعد على التعميم الصفري على العينة] ما هي العمارة النموذجية اللغوية والهدف المسبق بشكل أفضل لتعميم الصفر؟

【تحفظ عملية التعلم "Epiphany"-تكوين الدائرة-> تنظيف】 مقاييس التقدم للمسعات عبر التفسير الميكانيكي

[تحقق من خصائص النموذج القائم على البحث وتجد أن كلاهما ذو منطق محدود] يمكن أن يسبب النماذج اللغوية المستردة؟

فكرة البحث + LLM هي الاتجاه التالي ، لكنها ليست الإجابة الوحيدة.
[التحليل والبحث حول وقت استخدام المعرفة الخارجية ، أي التحول بين المعرفة الخارجية ومعرفة المعلمة] نماذج لغة كبيرة مع ذاكرة عمل يمكن التحكم فيها
إعادة التفكير: جعل خبراء النطاق خارج الخبراء
إجابة السؤال المنسوبة: تقييم ونمذجة نماذج اللغة الكبيرة المنسوبة

[إطار تقييم التفاعل بين اللغة البشرية AI] تقييم تفاعل نموذج اللغة البشرية

مقالات مماثلة تقيس الفائدة البشرية للأسس الحرة في تعاون الإنسان AA

ما هي خوارزمية التعلم التعليمية في السياق؟

[استخدم ICL لتعلم التنبؤ بالإجراء بعد التعلم التعزيز ، ذكي حقًا]

【تحرير النموذج ، هذا هو الموضوع الساخن】 ذاكرة تحرير الكتلة في محول

[حساسية النموذج للسياق غير ذي صلة ، وإضافة معلومات غير ذات صلة إلى الأمثلة في المطالبة وإضافة إرشادات تتجاهل السياق غير ذي صلة بحل جزئيًا] يمكن أن يصرف نماذج اللغة الكبيرة بسهولة عن طريق سياق غير ذي صلة

【سيظهر COT الصفر التحيز والسمية في ظل قضايا حساسة】 في الفكر الثاني ، دعونا لا نفكر في خطوة!

【COT من النموذج الكبير يحتوي على إمكانيات متعددة اللغات】 نماذج اللغة هي أسباب متعددة اللغات الفكر

[كلما انخفض الارتباك في تسلسلات سريعة مختلفة ، كلما كان أداء الغموض بشكل أفضل في نماذج اللغة من خلال تقدير الحيرة

[مهمة دقة الدقة الثنائية للنماذج الكبيرة ، هذا الاقتراح صعب وليس هناك ظاهرة تحجيم] نماذج لغوية كبيرة ليست اتصالات صفر (https://github.com/google/big-bench/tree/main/bigbench/ Benchmark_tasks/ الضمني)

【المطالبة القائمة على التعقيد للتفكير متعدد الخطوات

الهدف: تحسين فائدة COT نفسه يرتبط ارتباطًا وثيقًا بتحليل فائدة COT
[حدد عينة واحدة بعد الجيل ثم حدد مجموعة شرح]
【سلسلة الفكر التلقائية التي تدفع في نماذج اللغة الكبيرة
]

ما الذي يهم التقليم المنظم لنماذج اللغة التوليدية؟

[مجموعة بيانات Ambibench ، غموض المهمة: يعمل نموذج التحجيم RLHF بشكل أفضل في مهام الغموض. يعد النقل الدقيق أكثر فائدة من طلقة قليلة مما يؤدي إلى غموض المهمة في البشر ونماذج اللغة

【اختبار GPT-3 ، بما في ذلك الذاكرة ، المعايرة ، التحيز ، إلخ.

[دراسة OSU أي جزء من COT فعال في الأداء] نحو فهم سلسلة الفكرة: دراسة تجريبية لما يهم

أفكار مماثلة 1 تفسيرات تكميلية للتعلم الفعال داخل السياق (UT Austin ، XI YE ، Greg Durrett)
THE THE THE THE THE THE THE THE THE THE THE THE THE THE THE THE THE THE THE THE THE STAIN

[البحث عن نموذج اللغات المتقاطع للمطالبات المنفصلة] هل يمكن أن يطالب استخراج المعلومات المنفصلة بالتعميم عبر نماذج اللغة؟

【معدل الذاكرة هو العلاقة الخطية اللوغاريتمية مع حجم النموذج وطول البادئة ومعدل التكرار في التدريب】 تحديد الكميات عبر نماذج اللغة العصبية

【إنها ملهمة للغاية ، وتحلل المشكلة إلى أسئلة فرعية من خلال تكرار GPT والإجابة عليها】 قياس وتضييق فجوة التكوين في نماذج اللغة

[ما إذا كانت الأبحاث أو متى ستكون البحث فعالة للقراءة في إجابات خطوة بخطوة ، وعينات الصفر والموارد المنخفضة فعالة] متى تساعد التحلل في قراءة الماكينة؟
أفكار مماثلة أقل من ذلك-المطالبة تتيح التفكير المعقد في نماذج اللغة الكبيرة
أفكار مماثلة تدفع متتالي لتحلل الأسئلة المعقدة

[اختبار مماثل لـ GPT-3 على غرار أسئلة ذكاء الموظفين المدنيين] المنطق التماثلي الناشئ في نماذج اللغة الكبيرة

【التدريب على النص القصير ، اختبار النص الطويل ، تقييم القدرة على التكيف المتغير النموذج】 محول الطول الطول

[عندما لا تثق في نماذج اللغة: التحقيق في فعالية وقيود الذكريات البارمية وغير البارامترية

【ICL هو شكل آخر من أشكال التحديث التدرج】 لماذا يمكن لـ GPT التعلم في السياق؟

المقالات ذات الصلة: يتعلم المحولات داخل السياق عن طريق النسب التدرج

هل GPT-3 مختل عقليا؟

[بحث حول عملية تدريب نموذج OPT بأحجام مختلفة ، ووجد أن الارتباك هو مؤشر على مسارات التدريب على ICL] لنماذج اللغة عبر المقاييس

[EMNLP 2022 ، يحتوي مجموعة اللغة الإنجليزية النقية التي تم تدريبها مسبقًا على لغات أخرى ، وقد تساعد إمكانات اللغة المتقاطعة للنموذج من تسرب البيانات] تلوث اللغة في شرح القدرات المتقاطعة للنماذج الإنجليزية المسبقة

[تجاوزات الدلالات الدلالية واستخدام المعلومات في PORT هي قدرة زيادة على الطفعة] نماذج لغوية أكبر تقوم بالتعلم داخل السياق بشكل مختلف

【EMNLP 2022 النتائج】 ما هو نموذج اللغة لتدريب إذا كان لديك مليون ساعة GPU؟

تحسينات التكنولوجيا (مثل التكنولوجيا ، والهندسة الفوري ، والمؤشرات ، والمصداقية ، وما إلى ذلك)

[إدخال تقنية CFG أثناء التفكير بشكل كبير يحسن قدرة الامتثال للتعليمات للنماذج الصغيرة] البقاء على الموضوع مع إرشادات خالية من المصنف

【قم بتدريب طراز Llama الخاص بك باستخدام GPT-4 من Openai ، ولا يمكنني إلا أن أقول إنني معجب بك】 تعليمات مع GPT-4

الانعكاس: عامل مستقل مع ذاكرة ديناميكية وانعكاس ذاتي

【تعلم النمط الشخصي التعلم ، الاختيار】 مطالبات قابلة للتمديد لنماذج اللغة

[تسريع فك تشفير النماذج الكبيرة ، باستخدام الإجماع المباشر بين النماذج الصغيرة والنماذج الكبيرة لاستخدامها عدة مرات في وقت واحد ، بعد كل شيء ، سيكون المدخلات بطيئة للغاية إذا كان طويلًا] تسريع نموذج لغوي كبير مع أخذ العينات المتخصصة

[استخدم موجهًا ناعمًا لتقليل الانخفاض في إمكانية ICL الناتجة عن ضبط دقيق ، وضبط المرحلة الأولى ، وضبط المرحلة الثانية] مع الحفاظ

【مهام التحليل الدلالية ، وطرق اختيار العينة من ICL ، و Codex و T5-LARGE】 مظاهرات متنوعة تعمل على تحسين التعميم التركيبي داخل السياق

【طريقة تحسين جديدة لتوليد النص】 نماذج توليد اللغات الخيالية تحت مسافة التباين الكلي

[تقدير عدم اليقين للجيل الشرطي ، باستخدام التجميع الدلالي جنبًا إلى جنب مع مخرجات أخذ العينات المتعددة لتقدير إنتروبيا عدم اليقين الدلالي: الثبات اللغوي لتقدير عدم اليقين في توليد اللغة الطبيعية

المقالات ذات الصلة: 1. نماذج اللغة (في الغالب) تعرف ما يعرفونه
المقالات ذات الصلة: 2. نماذج التدريس للتعبير عن عدم اليقين في الكلمات
المقالات ذات الصلة: 3. [كيف يؤثر تعبير اللغة على المعايرة والدقة ، وأي طريقة تعبير هي الأفضل؟ 】 التنقل في المنطقة الرمادية: تعبيرات عن الثقة المفرطة وعدم اليقين في نماذج اللغة
المقالات ذات الصلة: 4. تقليل الثقة المفرطة في عوامل المحادثة من خلال المعايرة اللغوية
التحليل التلوي للمعايرة: هل سيتغير معايرة نموذج كبير بسبب حجم النموذج ، بنية النموذج ، التعليمات المختلفة ، السياقات المختلفة ، ومجال المهمة؟
ما هي طريقة المعايرة المثلى لتوليد حوار المجال المفتوح؟ كيفية تحسين أداء المعايرة للنموذج ، الضبط الدقيق ، RLHF ، ضبط التعليمات؟
هل تم معايرة النماذج الكبيرة حقًا لفهم المشكلة بدلاً من الحصول على تقييم جيد للمصداقية من خلال التحيز الإحصائي؟ هل هو مثل البشر أن هناك خداع ، مع العلم أنك لا تفهم ، ولكن التظاهر أنك تعرف؟ كيفية تقييم هذا؟
إذا كان لدى النموذج الكبير معايرة جيدة ، فما الذي يمكننا فعله بعد ذلك ، كيف يمكننا تطبيقه على التطبيقات مثل توليد الحوار؟

الضبط: تحسين قدرات التعلم الصفرية من نماذج اللغة الأصغر

【طريقة توليد نصية ملهمة للغاية ضمن قيود نصية مجانية】 توليد النصوص القابلة للتحكم مع قيود اللغة

[عند توليد التنبؤات ، استخدم التشابه مع اختيار العبارة بدلاً من رمز الرمز المميز]

[طريقة ICL للنص الطويل] سياق متوازي يحسن التعلم داخل السياق لنماذج اللغة الكبيرة

【عينة من نموذج instructgpt يولد ICL في حد ذاته】 نماذج لغة كبيرة ذاتية ل QA المجال المفتوح

【آليات النقل والانتباه تمكن ICL من إدخال المزيد من عينات التعليقات التوضيحية】 مطالبة منظمة: تحجيم التعلم في السياق إلى 1000 أمثلة

معايرة الزخم لتوليد النص

【طريقتان اختيار عينة ICL ، تجارب تعتمد على OPT و GPTJ】 يعمل على استقرار إدارة البيانات الدقيقة في التعلم داخل السياق

【تحليل مؤشرات التقييم للوحش (Pillutla et al.)】 حول فائدة التضمينات والمجموعات والسلاسل لتقييم النص

Promsagator: استرجاع كثيف قليل من 8 أمثلة

[ثلاثة cobblers ، Zhuge Liang] يعزز التوافق الذاتي سلسلة من التفكير في نماذج اللغة

【استخدم المعرفة كمرجع للسكبليين】 إعادة التفكير مع الاسترجاع: استنتاج نموذج اللغة الكبير المؤمن

[انقلب ، الإدخال والتسمية توليد تعليمات للشروط] تخمين تعليمات!

【الاشتقاق العكسي للاشتقاء العكسي ، فإن نماذج اللغة الكبيرة هي أسباب مع التحسين الذاتي

【طرق للبحث - سيناريوهات السلامة تحت عملية إنشاء أدلة】 fovate ، ورجعها ، والترشيد: نحو الذكاء الاصطناعي الآمن والجدير بالثقة

[تقدير الثقة للشظايا المستخرجة من المعلومات التي تم إنشاؤها النصية بناءً على البحث عن الشعاع] كيف يحسن بحث الحزمة من تقدير الثقة على مستوى السبعة في وضع العلامات التسلسلية التوليدية؟

SPT: ضبط موجه شبه البراريامي لتوليف المهام متعددة المهام التي دفعت إلى التعلم

【مناقشة حول ملخص الذهب الملخص المستخرج】 ملخص النص مع توقع Oracle

【طريقة اكتشاف ood استنادًا إلى مسافة المريخ】 اكتشاف التوزيع الخارجي والتوليد الانتقائي لنماذج اللغة الشرطية

[وحدة الانتباه تدمج موجه للتنبؤ بمستوى العينة] مجموعة النموذج بدلاً من الانصهار السريع: طريقة نقل المعرفة الخاصة بالعينة لضبط موجه قليل

【موجه للمهام المتعددة عن طريق التحلل والتقطير في موجه واحد】 تمكين توليف المهام متعددة المهام يتيح التعلم الناقل الفعال للمعلمة

[يمكن استخدام مؤشرات التقييم للمنطق الذي تم إنشاؤه خطوة بخطوة كموضوع لمشاركته في المرة القادمة]

[معايرة احتمال التسلسل يحسن توليد اللغة الشرطية]

【طريقة الهجوم النصية استنادًا إلى تحسين التدرج】 Textgrad: تقدم تقييم المتانة في NLP عن طريق التحسين الذي يحركه التدرج

[GMM النمذجة الحدود لتصنيف القرار ICL لمعايرة] المعايرة النموذجية للتعلم قليل من نماذج اللغة

【مشكلة إعادة كتابة ، وطريقة تجميع ICL المستندة إلى الرسم البياني】 اسألني أي شيء: استراتيجية بسيطة لطرح نماذج اللغة

[قاعدة بيانات لاختيار المرشحين الجيدين كـ ICLs من حمامات السباحة غير المقابلة] يجعل التعليقات التوضيحية الانتقائية نماذج اللغة أفضل متعلمين قليلة

promsboosting: تصنيف نص صناديق أسود مع عشرة تمريرات للأمام

هجمات الباب الخلفي الموجهة للانتباه ضد المحولات

【موقع القناع الموجه اختيار التسمية التلقائي】 نماذج اللغة التي تم تدريبها مسبقًا يمكن أن تكون متعلمين تمامًا صفريًا

[ضغط طول متجه إدخال FID وإعادة ترتيبه عند الإخراج لإخراج تصنيف المستند] الإخلاص الإثارة: توليد نص فعال وفعال من أجل الاسترجاع

【شرح لتوليد النماذج الكبيرة】 pinto: التفكير اللغوي المؤمن باستخدام المبررات التي تم إنشاؤها بواسطة

【ابحث عن مجموعة فرعية من تأثيرات ما قبل التدريب】 orca: تفسير نماذج اللغة المطلوبة عبر أدلة دعم الموقع في محيط بيانات ما قبل التدريب

[المشروع السريع ، الذي يستهدف التعليمات ، يولد المرحلة الأولى وتصفية فرز المرحلة] نماذج لغوية كبيرة هي مهندسين على مستوى الإنسان

المعرفة غير المعرفة لتخفيف مخاطر الخصوصية في نماذج اللغة

تحرير النماذج مع حساب المهمة

[لا تدخل التعليمات والعينات في كل مرة ، قم بتحويلها إلى وحدات فعالة للمعلمة ،] تلميح: ضبط تعليمات Hypernetwor

[طريقة توليد عرض ICL بدون اختيار عينة يدوي] Z-ICL: التعلم الصفر في السياق مع عمليات تعزيز زائفة

[تعليمات المهمة والنص توليد التضمين معًا] أحد التضمين ، أي مهمة: تضمينات نصية محفورة بالتعليمات

【نموذج كبير تدريس النموذج الصغير COT】 سكين: تقطير المعرفة مع المنطقات النصية الحرة

[مشكلة عدم الاتساق بين مصدر وتجزئة الكلمات المستهدفة لنموذج توليد استخراج المعلومات] مسائل تناسق الرمز المميز للنماذج التوليدية على مهام NLP الاستخراجية

Parsel: إطار عمل طبيعية موحدة للتفكير الخوارزمي

[اختيار عينة ICL ، اختيار المرحلة الأولى وفرز المرحلة الثانية] التعلم في السياق الذاتية

[القراءة المكثفة ، طريقة اختيار غير خاضعة للإشراف ، GPT-2] نحو ضبط موجه قابل للقراءة البشرية: Kubrick's The Shining هو فيلم جيد ، ومطالبة جيدة أيضًا

المسح ومجموعات البيانات

【اختبار مجموعة بيانات Prontoqa قدرة الاستدلال المولد وتجد أن قدرة التخطيط لا تزال محدودة】 نماذج اللغة يمكن (نوع) السبب: تحليل رسمي منهجي لسلسلة الفكر

【مجموعة بيانات التفكير】 wikiwhy: الإجابة وشرح أسئلة السبب والتأثير

【مجموعة بيانات التفكير】 Street: معيار تفكير منظم ومهنية متعددة المهام

【مجموعة بيانات التفكير ، مقارنة بين التدريب قبل التدريب والضبط ، بما في ذلك نماذج التثبيت الدقيقة cot】 التنبيه: تكييف نماذج اللغة مع مهام التفكير

[ملخص المنطق الأخير من قبل فريق Zhang Ningyu من جامعة Zhejiang] التفكير مع نموذج اللغة المطالبة: A Survey

[ملخص لتكنولوجيا توليد النص واتجاهه من قبل فريق Xiao Yanghua في Fudan] تسخير المعرفة والتفكير لتوليد اللغة الطبيعية التي تشبه الإنسان: مراجعة موجزة

[ملخص مقالات التفكير الحديثة ، جي هوانغ من UIUC] نحو التفكير في نماذج اللغة الكبيرة: مسح

【مراجعة المهام ومجموعات البيانات وأساليب التفكير الرياضي و DL】 دراسة استقصائية للتعلم العميق للتفكير الرياضي

دراسة استقصائية حول معالجة اللغة الطبيعية للبرمجة

مجموعة بيانات النمذجة المكافأة:

يتم توفير مجموعة البيانات هذه بواسطة Stiennon et al. تحتوي مجموعة البيانات هذه على جزأين: المقارنة والمحور. في قسم المقارنة ، طُلب من الشروط اليدوي اختيار الأفضل من الملخصين. في قسم المحور ، يسجل المذيع اليدوي جودة الملخص بناءً على مقياس Likert. يحتوي جزء المقارنة فقط على انقسامات التدريب والتحقق ، في حين أن جزء المحور يحتوي فقط على انقسامات الاختبار والتحقق. الملخص المستخدم لتدريب نماذج المكافآت في الورقة يأتي من TL ؛ DR Dataset. بيانات التحقق من الصحة والاختبار الأخرى هي من TL ؛ DR Datasets ، ومقالات CNN ، ومقالات Daily Mail. https://huggingface.co/Datasets/openai/summarize_from_feedback
مجموعة البيانات هذه من Ganguli et al. 3 مثال واحد يتضمن زوجًا من المحادثات بين البشر و chatbots. يفضل البشر أحد هذين المحادثتين. https://huggingface.co/Datasets/anthropic/hh-rlhf
مجموعة البيانات هذه من Nakano et al. يحتوي كل مثال في مجموعة البيانات على إجابات نموذجية على زوج من الأسئلة ، وكذلك البيانات الوصفية ذات الصلة. 每个答案都有一个来自人类的偏好分数，可用于确定两个答案中哪个更好。 https://huggingface.co/datasets/openai/webgpt_comparisons
SHP是一个由385K个集体人类对18个不同主题领域的问题/指示的反应的偏好组成的数据集，从烹饪到法律咨询。这些偏好旨在反映一种回答对另一种回答的帮助程度，并打算用于训练RLHF奖励模型和NLG评估模型（例如SteamSHP）。 https://huggingface.co/datasets/stanfordnlp/SHP

Red-teaming数据集，harmless vs. helpful， RLHF +scale更难被攻击（另一个有效的技术是CoT fine-tuning）:

对于什么是成功的攻击，人类之间总体上达成的共识很低。
Meta's Bot Adversarial Dialog dataset https://github.com/facebookresearch/ParlAI/tree/main/parlai/tasks/bot_adversarial_dialogue
Anthropic's red-teaming attempts https://huggingface.co/datasets/Anthropic/hh-rlhf/tree/main/red-team-attempts
AI2's RealToxicityPrompts https://huggingface.co/datasets/allenai/real-toxicity-prompts