أوراق LLM رائعة وفعالة في استخدام الموارد
قائمة منسقة من الأوراق عالية الجودة حول LLMs ذات الكفاءة في استخدام الموارد.
هذا هو GitHub repo لورقة الاستبيان الخاصة بنا "ما وراء الكفاءة: مسح منهجي لنماذج اللغات الكبيرة ذات الكفاءة في استخدام الموارد".
جدول المحتويات
- أوراق LLM رائعة وفعالة في استخدام الموارد
- جدول المحتويات
- ماجستير في التصميم المعماري
- بنية المحولات الفعالة
- العمارة غير المحولة
- LLM ما قبل التدريب
- كفاءة الذاكرة
- التدريب الموزع
- التدريب الدقيق المختلط
- كفاءة البيانات
- أخذ العينات ذات الأهمية
- زيادة البيانات
- هدف التدريب
- LLM صقل
- ضبط دقيق فعال للمعلمات
- ضبط كامل المعلمة
- ماجستير في الاستدلال
- ضغط النموذج
- التسارع الديناميكي
- تصميم النظام
- تحسين النشر
- دعم البنية التحتية
- أنظمة أخرى
- مقاييس ومعايير تقييم كفاءة الموارد
- ؟ مقاييس الحساب
- ؟ مقاييس الذاكرة
- ⚡️ مقاييس الطاقة
- ؟ مقياس التكلفة المالية
- ؟ متري اتصالات الشبكة
- مقاييس أخرى
- المعايير
- مرجع
ماجستير في التصميم المعماري
بنية المحولات الفعالة
تاريخ | الكلمات الرئيسية | ورق | مكان |
---|
2024 | الاهتمام التقريبي | تعمل نماذج لغة الانتباه الخطية البسيطة على موازنة مقايضة إنتاجية الاستدعاء | أركايف |
2024 | الاهتمام بالأجهزة | MobileLLM: تحسين نماذج لغة المعلمات التي تبلغ قيمتها مليار فرعي لحالات الاستخدام على الجهاز | أركايف |
2024 | الاهتمام التقريبي | LoMA: انتباه الذاكرة المضغوطة بدون فقدان | أركايف |
2024 | الاهتمام التقريبي | ضرب حجران عصفورًا واحدًا: التشفير الموضعي ثنائي المستوى لاستقراء أفضل للطول | آي سي إم إل |
2024 | تحسين الأجهزة | FlashAttention-2: انتباه أسرع مع توازي أفضل وتقسيم العمل | ICLR |
2023 | تحسين الأجهزة | انتباه فلاش: انتباه دقيق سريع وموفر للذاكرة مع وعي IO | نوريبس |
2023 | الاهتمام التقريبي | KDEformer: تسريع المحولات عبر تقدير كثافة النواة | آي سي إم إل |
2023 | الاهتمام التقريبي | ميجا: المتوسط المتحرك مجهز باهتمام كبير | ICLR |
2022 | تحسين الأجهزة | xFormers - مجموعة أدوات لتسريع الأبحاث حول المحولات | جيثب |
2021 | الاهتمام التقريبي | الاهتمام الفعال: الاهتمام بالتعقيدات الخطية | WACV |
2021 | الاهتمام التقريبي | محول خالي من الاهتمام | أركايف |
2021 | الاهتمام التقريبي | الاهتمام الذاتي لا يحتاج إلى ذاكرة O(n^2). | أركايف |
2021 | تحسين الأجهزة | LightSeq: مكتبة استدلالية عالية الأداء للمحولات | NAACL |
2021 | تحسين الأجهزة | محول أسرع: إطار محول أسرع | جيثب |
2020 | الاهتمام التقريبي | المحولات هي RNNs: محولات الانحدار الذاتي السريعة مع الاهتمام الخطي | آي سي إم إل |
2019 | الاهتمام التقريبي | المصلح : المحول الفعال | ICLR |
العمارة غير المحولة
تاريخ | الكلمات الرئيسية | ورق | مكان |
---|
2024 | فك التشفير | أنت تقوم بالتخزين المؤقت مرة واحدة فقط: بنيات فك التشفير لنماذج اللغة | أركايف |
2024 | طبقة البت الخطية | نمذجة اللغة الخالية من MatMul القابلة للتطوير | أركايف |
2023 | آر إن إن إل إم | RWKV: إعادة اختراع RNNs لعصر المحولات | نتائج EMNLP |
2023 | MLP | المتنبئون بالرمز التالي ذو الانحدار التلقائي هم متعلمون عالميون | أركايف |
2023 | LM التلافيفي | التسلسل الهرمي للضبع: نحو نماذج لغة تلافيفية أكبر | آي سي إم إل |
2023 | أساس المصفوفات شبه التربيعية | خلاط العاهل: بنية بسيطة تعتمد على GEMM شبه تربيعية | نوريبس |
2023 | النموذج الفضائي للدولة الانتقائية | مامبا: نمذجة التسلسل الزمني الخطي مع مساحات الحالة الانتقائية | أركايف |
2022 | مزيج من الخبراء | محولات التبديل: التوسع في نماذج المعلمات تريليون مع تناثر بسيط وفعال | JMLR |
2022 | مزيج من الخبراء | GLaM: التوسع الفعال لنماذج اللغة مع مزيج من الخبراء | آي سي إم إل |
2022 | مزيج من الخبراء | مزيج من الخبراء مع توجيه اختيار الخبراء | نوريبس |
2022 | مزيج من الخبراء | نمذجة لغة فعالة واسعة النطاق مع مزيج من الخبراء | EMNLP |
2017 | مزيج من الخبراء | الشبكات العصبية الكبيرة بشكل شنيع: طبقة خليط الخبراء ذات البوابات المتناثرة | ICLR |
LLM ما قبل التدريب
كفاءة الذاكرة
التدريب الموزع
تاريخ | الكلمات الرئيسية | ورق | مكان |
---|
2024 | التوازي النموذجي | ProTrain: تدريب فعال على LLM عبر إدارة الذاكرة التكيفية | أركسيف |
2024 | التوازي النموذجي | MegaScale: توسيع نطاق تدريب النماذج اللغوية الكبيرة إلى أكثر من 10000 وحدة معالجة رسوميات | أركسيف |
2023 | توازي البيانات | النخيل: توسيع نطاق نمذجة اللغة باستخدام المسارات | جيثب |
2023 | التوازي النموذجي | Bpipe: موازاة خطوط الأنابيب المتوازنة بالذاكرة لتدريب نماذج اللغة الكبيرة | JMLR |
2022 | التوازي النموذجي | Alpa: أتمتة التوازي بين المشغلين وداخلهم من أجل التعلم العميق الموزع | OSDI |
2021 | توازي البيانات | FairScale: مكتبة PyTorch معيارية للأغراض العامة للأداء العالي والتدريب واسع النطاق | JMLR |
2020 | توازي البيانات | صفر: تحسينات الذاكرة نحو تدريب نماذج تريليون معلمة | إيي إس سي 20 |
2019 | التوازي النموذجي | GPipe: تدريب فعال للشبكات العصبية العملاقة باستخدام توازي خطوط الأنابيب | نوريبس |
2019 | التوازي النموذجي | Megatron-LM: تدريب نماذج لغوية متعددة المليارات باستخدام نموذج التوازي | أركسيف |
2019 | التوازي النموذجي | PipeDream: توازي خطوط الأنابيب المعممة لتدريب DNN | SOSP |
2018 | التوازي النموذجي | شبكة Tensorflow: التعلم العميق لأجهزة الكمبيوتر العملاقة | نوريبس |
التدريب الدقيق المختلط
تاريخ | الكلمات الرئيسية | ورق | مكان |
---|
2022 | التدريب الدقيق المختلط | بلوم: نموذج لغة متعدد اللغات مفتوح الوصول بمعلمة 176B | أركسيف |
2018 | التدريب الدقيق المختلط | بيرت: التدريب المسبق للمحولات العميقة ثنائية الاتجاه لفهم اللغة | الرباط الصليبي الأمامي |
2017 | التدريب الدقيق المختلط | التدريب الدقيق المختلط | ICLR |
كفاءة البيانات
أخذ العينات ذات الأهمية
تاريخ | الكلمات الرئيسية | ورق | مكان |
---|
2024 | أخذ العينات ذات الأهمية | ليزا: أخذ عينات الأهمية الطبقية للضبط الدقيق لنموذج اللغة الكبير ذو الكفاءة في الذاكرة | أركسيف |
2023 | مسح حول أخذ العينات ذات الأهمية | مسح حول التدريب الفعال للمحولات | IJCAI |
2023 | أخذ العينات ذات الأهمية | عصارة البيانات: نظام معالجة بيانات متكامل لنماذج اللغات الكبيرة | أركسيف |
2023 | أخذ العينات ذات الأهمية | مبتكر: استخدام مجموعات فرعية من البيانات المعلوماتية للتدريب المسبق الفعال لنماذج اللغة | EMNLP |
2023 | أخذ العينات ذات الأهمية | مجالات قوة التعلم الآلي مع التدريب على إدراك تكلفة البيانات | آي سي إم إل |
2022 | أخذ العينات ذات الأهمية | ما وراء قوانين القياس العصبي: التغلب على قياس قانون القوة من خلال تشذيب البيانات | نوريبس |
2021 | أخذ العينات ذات الأهمية | التعلم العميق على نظام غذائي للبيانات: العثور على أمثلة مهمة في وقت مبكر من التدريب | نوريبس |
2018 | أخذ العينات ذات الأهمية | تدريب النماذج العميقة بشكل أسرع باستخدام عينات قوية وتقريبية ذات أهمية | نوريبس |
2018 | أخذ العينات ذات الأهمية | لا يتم إنشاء جميع العينات على قدم المساواة: التعلم العميق مع أخذ العينات ذات الأهمية | آي سي إم إل |
زيادة البيانات
تاريخ | الكلمات الرئيسية | ورق | مكان |
---|
2024 | زيادة البيانات | LLMRec: نماذج لغة كبيرة مع زيادة الرسم البياني للتوصية | WSDM |
2024 | زيادة البيانات | LLM-DA: زيادة البيانات من خلال نماذج اللغة الكبيرة للتعرف على الكيانات ذات اللقطات القليلة | أركسيف |
2023 | زيادة البيانات | MixGen: تعزيز جديد للبيانات متعددة الوسائط | WACV |
2023 | زيادة البيانات | المراقبة الذاتية المدركة للتعزيز من أجل تدريب GAN عالي الكفاءة للبيانات | نوريبس |
2023 | زيادة البيانات | تحسين معالجة الكلام من طرف إلى طرف من خلال الاستخدام الفعال للبيانات النصية مع التوليف الكامن | EMNLP |
2023 | زيادة البيانات | FaMeSumm: التحقيق وتحسين دقة التلخيص الطبي | EMNLP |
هدف التدريب
تاريخ | الكلمات الرئيسية | ورق | مكان |
---|
2023 | هدف التدريب | تحديات وتطبيقات نماذج اللغات الكبيرة | أركسيف |
2023 | هدف التدريب | تعلم فعال للبيانات لاستخراج المعلومات المفتوحة باستخدام نماذج لغوية مدربة مسبقًا | EMNLP |
2023 | نمذجة الصور اللغوية المقنعة | التدريب المسبق على تحجيم اللغة والصورة عبر الإخفاء | CVPR |
2022 | نمذجة الصور المقنعة | تعد أجهزة التشفير التلقائي المقنعة بمثابة متعلمين ذوي رؤية قابلة للتطوير | CVPR |
2019 | نمذجة اللغة المقنعة | MASS: التدريب المسبق على التسلسل المقنع لتوليد اللغة | آي سي إم إل |
LLM صقل
ضبط دقيق فعال للمعلمات
تاريخ | الكلمات الرئيسية | ورق | مكان |
---|
2024 | الضبط الدقيق المعتمد على LoRA | Dlora: حل الضبط الدقيق الموزع ذو كفاءة المعلمة لنموذج اللغة الكبير | أركسيف |
2024 | الضبط الدقيق المعتمد على LoRA | SplitLoRA: إطار عمل للضبط الدقيق يتسم بالكفاءة في استخدام المعلمات المنفصلة لنماذج اللغات الكبيرة | أركسيف |
2024 | الضبط الدقيق المعتمد على LoRA | ضبط دقيق فعال للبيانات للتوصيات المستندة إلى LLM | سيجير |
2024 | الضبط الدقيق المعتمد على LoRA | MEFT: ضبط دقيق لكفاءة الذاكرة من خلال محول متفرق | الرباط الصليبي الأمامي |
2023 | الضبط الدقيق المعتمد على LoRA | DyLoRA: ضبط فعال للمعلمات للنماذج المدربة مسبقًا باستخدام التكيف الديناميكي منخفض الرتبة بدون بحث | خسارة الخسارة المتوقعة |
2022 | الضبط الدقيق على أساس الإخفاء | ضبط نماذج اللغة المدربة مسبقًا بشكل فعال من خلال تحسين الشبكات الفرعية بشكل تكيفي | نوريبس |
2021 | الضبط الدقيق على أساس الإخفاء | BitFit: ضبط بسيط وفعال للمعلمات لنماذج اللغة المقنعة القائمة على المحولات | الرباط الصليبي الأمامي |
2021 | الضبط الدقيق على أساس الإخفاء | نموذج تربية طفل بلغة كبيرة: نحو ضبط فعال وقابل للتعميم | EMNLP |
2021 | الضبط الدقيق على أساس الإخفاء | التخلص من التحيز في نماذج اللغة عن طريق تقسيم التدرجات | الرباط الصليبي الأمامي |
2019 | الضبط الدقيق على أساس الإخفاء | SMART: ضبط دقيق قوي وفعال لنماذج اللغة الطبيعية المدربة مسبقًا من خلال التحسين المنظم والمبدئي | الرباط الصليبي الأمامي |
ضبط كامل المعلمة
تاريخ | الكلمات الرئيسية | ورق | مكان |
---|
2024 | ضبط كامل المعلمة | Hift: استراتيجية ضبط هرمية كاملة للمعلمات | أركسيف |
2024 | دراسة تحسينات الضبط الدقيق للمعلمة الكاملة | دراسة التحسينات لتحسين نماذج اللغات الكبيرة | أركسيف |
2023 | دراسة مقارنة بين المعلمة الكاملة والضبط الدقيق لقاعدة LoRA | دراسة مقارنة بين الضبط الدقيق المعتمد على المعلمة الكاملة والمعتمد على LoRA على بيانات التعليمات الصينية للتعليم باتباع نموذج اللغة الكبيرة | أركسيف |
2023 | دراسة مقارنة بين الضبط الدقيق للمعلمة الكاملة والضبط الفعال للمعلمة | مقارنة بين التقنيات ذات الكفاءة المعلمية والضبط الدقيق الكامل: دراسة حالة حول تصنيف المقالات الإخبارية متعددة اللغات | أركسيف |
2023 | ضبط المعلمات بالكامل بموارد محدودة | ضبط كامل للمعلمات لنماذج اللغات الكبيرة ذات الموارد المحدودة | أركسيف |
2023 | ضبط دقيق لكفاءة الذاكرة | ضبط نماذج اللغة بدقة من خلال التمريرات الأمامية فقط | نوريبس |
2023 | ضبط كامل المعلمات لتطبيقات الطب | PMC-LLaMA: نحو بناء نماذج لغوية مفتوحة المصدر للطب | أركسيف |
2022 | عيب الضبط الدقيق للمعلمة الكاملة | يمكن أن يؤدي الضبط الدقيق إلى تشويه الميزات التي تم تدريبها مسبقًا وتقليل الأداء خارج التوزيع | ICLR |
ماجستير في الاستدلال
ضغط النموذج
تشذيب
تاريخ | الكلمات الرئيسية | ورق | مكان |
---|
2024 | التقليم غير المنظم | SparseLLM: نحو تقليم عالمي لنماذج اللغة المدربة مسبقًا | نوريبس |
2024 | التقليم المنظم | في حيرة من الحيرة: تشذيب البيانات القائمة على الحيرة باستخدام نماذج مرجعية صغيرة | أركسيف |
2024 | التقليم المنظم | BESA: تقليم نماذج اللغات الكبيرة من خلال تخصيص التباعد الفعال لمعلمات الكتلة | أركسيف |
2024 | التقليم المنظم | ShortGPT: الطبقات في نماذج اللغات الكبيرة أكثر تكرارًا مما تتوقع | أركسيف |
2024 | التقليم المنظم | NutePrune: تقليم تدريجي فعال مع العديد من المعلمين لنماذج اللغات الكبيرة | أركسيف |
2024 | التقليم المنظم | SliceGPT: ضغط نماذج اللغات الكبيرة عن طريق حذف الصفوف والأعمدة | ICLR |
2024 | التقليم غير المنظم | ديناميكي متفرق بدون تدريب: الضبط الدقيق بدون تدريب لحاملي LLM المتفرقين | ICLR |
2024 | التقليم المنظم | التوصيل والتشغيل: طريقة تقليم فعالة بعد التدريب لنماذج اللغات الكبيرة | ICLR |
2023 | التقليم غير المنظم | التقليم المختلط المدرك لحساسية اللقطة الواحدة لنماذج اللغات الكبيرة | أركسيف |
2023 | التقليم غير المنظم | SparseGPT: يمكن تقليم نماذج اللغة الضخمة بدقة في لقطة واحدة | آي سي إم إل |
2023 | التقليم غير المنظم | أسلوب تقليم بسيط وفعال لنماذج اللغات الكبيرة | ICLR |
2023 | التقليم غير المنظم | AccelTran: مسرع مدرك للتناثر للاستدلال الديناميكي باستخدام المحولات | تكاد |
2023 | التقليم المنظم | LLM-Pruner: حول التقليم الهيكلي لنماذج اللغات الكبيرة | نوريبس |
2023 | التقليم المنظم | LoSparse: الضغط المنظم لنماذج اللغات الكبيرة بناءً على التقريب المنخفض والتقريب المتناثر | آي سي إم إل |
2023 | التقليم المنظم | التقليم المنظم لنماذج لغوية توليدية فعالة ومدربة مسبقًا | الرباط الصليبي الأمامي |
2023 | التقليم المنظم | ZipLM: التقليم المنظم للاستدلال لنماذج اللغة | نوريبس |
2023 | التقليم السياقي | Deja Vu: تناثر السياق للحصول على ماجستير إدارة أعمال فعال في وقت الاستدلال | آي سي إم إل |
التكميم
تاريخ | الكلمات الرئيسية | ورق | مكان |
---|
2024 | تكميم الوزن | تقييم نماذج اللغات الكبيرة الكمية | أركسيف |
2024 | تكميم الوزن | I-LLM: الاستدلال الفعال للأعداد الصحيحة فقط لنماذج اللغات الكبيرة ذات البتات المنخفضة كاملة الكمية | أركسيف |
2024 | تكميم الوزن | ABQ-LLM: تسريع الاستدلال الكمي التعسفي لنماذج اللغات الكبيرة | أركسيف |
2024 | التنشيط المشترك للوزن | التناوب والتبديل للإدارة المتقدمة والتكميم الفعال للماجستير في القانون | نوريبس |
2024 | تكميم الوزن | OmniQuant: التكمية المعايرة شاملة الاتجاهات لنماذج اللغات الكبيرة | ICLR |
2023 | تكميم الوزن | Flexround: تقريب قابل للتعلم يعتمد على التقسيم حسب العناصر لتكميم ما بعد التدريب | آي سي إم إل |
2023 | تكميم الوزن | Outlier Suppression+: التكميم الدقيق لنماذج اللغة الكبيرة من خلال التحويل والقياس المكافئ والأمثل | EMNLP |
2023 | تكميم الوزن | OWQ: تقدير الوزن خارج نطاق الوعي من أجل الضبط الدقيق والاستدلال الفعال لنماذج اللغات الكبيرة | AAAI |
2023 | تكميم الوزن | Gptq: تقدير دقيق لما بعد التدريب للمحولات التوليدية المدربة مسبقًا | ICLR |
2023 | تكميم الوزن | التكميم الديناميكي للتخزين لتدريب المحولات بكفاءة | EMNLP |
2023 | تكميم الوزن | تدريب المحولات المدركة للكمية والمضغوطة بالشد لفهم اللغة الطبيعية | الكلام المتبادل |
2023 | تكميم الوزن | QLoRA: الضبط الفعال لـ LLMs الكمية | نوريبس |
2023 | تكميم الوزن | تدريب مستقر ومنخفض الدقة لنماذج لغة الرؤية واسعة النطاق | نوريبس |
2023 | تكميم الوزن | Prequant: منهج التكميم غير الملحد للمهمة لنماذج اللغة المدربة مسبقًا | الرباط الصليبي الأمامي |
2023 | تكميم الوزن | الزيتون: تسريع نماذج اللغات الكبيرة من خلال تكميم زوج الضحية الخارجي الصديق للأجهزة | ISCA |
2023 | تكميم الوزن | Awq: تكمية الوزن المدركة للتنشيط لضغط وتسريع المواد | arXiv |
2023 | تكميم الوزن | Spqr: تمثيل متناثر لضغط الوزن شبه المفقود | arXiv |
2023 | تكميم الوزن | SqueezeLLM: التكميم الكثيف والمتفرق | arXiv |
2023 | تكميم الوزن | LLM-QAT: التدريب على القياس الكمي الخالي من البيانات لنماذج اللغات الكبيرة | arXiv |
2022 | التنشيط الكمي | Gact: تدريب مضغوط للتنشيط لبنيات الشبكة العامة | آي سي إم إل |
2022 | تكميم النقطة الثابتة | تعزيز محول الرؤية باستخدام التشتت والتكميم الصديق لوحدة معالجة الرسومات | الرباط الصليبي الأمامي |
2021 | التنشيط الكمي | Ac-gc: ضغط التنشيط مع الضياع مع التقارب المضمون | نوريبس |
التسارع الديناميكي
تشذيب الإدخال
تاريخ | الكلمات الرئيسية | ورق | مكان |
---|
2024 | إزالة الرمز المميز على أساس النتيجة | التقليم المنظم التكيفي الفوري من أجل إنشاء LLM فعال | كولم |
2024 | إزالة الرمز المميز على أساس النتيجة | LazyLLM: تقليم الرمز المميز الديناميكي لاستنتاج LLM فعال للسياق الطويل | أركسيف |
2024 | إزالة الرمز المميز القائم على التعلم | LLMLingua-2: تقطير البيانات من أجل ضغط سريع يتسم بالكفاءة والدقة | الرباط الصليبي الأمامي |
2024 | إزالة الرمز المميز القائم على التعلم | ذاكرة سياق مضغوطة لتفاعل نماذج اللغة عبر الإنترنت | ICLR |
2023 | إزالة الرمز المميز على أساس النتيجة | تشذيب الرمز المميز المدرك للقيود والمقطر للاستدلال الفعال للمحولات | كي دي دي |
2023 | إزالة الرمز المميز القائم على التعلم | PuMer: تقليم ودمج الرموز المميزة لنماذج لغة الرؤية الفعالة | الرباط الصليبي الأمامي |
2023 | إزالة الرمز المميز القائم على التعلم | Infor-Coef: اختزال الرموز الديناميكية المستندة إلى اختناق المعلومات من أجل نموذج لغة مدمج وفعال | arXiv |
2023 | إزالة الرمز المميز القائم على التعلم | SmartTrim: الرموز التكيفية وتشذيب المعلمات للحصول على نماذج لغة رؤية فعالة | arXiv |
2022 | إزالة الرمز المميز القائم على التعلم | Transkimmer: يتعلم المحول كيفية استخدام الطبقة الحكيمة | الرباط الصليبي الأمامي |
2022 | إزالة الرمز المميز على أساس النتيجة | تعلم تشذيب الرمز المميز للمحولات | كي دي دي |
2021 | إزالة الرمز المميز القائم على التعلم | TR-BERT: التخفيض الديناميكي للرمز المميز لتسريع استدلال BERT | NAACL |
2021 | إزالة الرمز المميز على أساس النتيجة | بنية انتباه متفرقة فعالة مع رمز متسلسل وتشذيب للرأس | HPCA |
تصميم النظام
تحسين النشر
تاريخ | الكلمات الرئيسية | ورق | مكان |
---|
2024 | تحسين الأجهزة | LUT TENSOR CORE: يتيح جدول البحث تسريع استدلال LLM منخفض البت بكفاءة | أركسيف |
2023 | تفريغ الأجهزة | FlexGen: الاستدلال التوليدي عالي الإنتاجية لنماذج اللغات الكبيرة باستخدام وحدة معالجة رسومات واحدة | PMLR |
2023 | تفريغ الأجهزة | الاستدلال الموزع سريعًا لنماذج اللغات الكبيرة | arXiv |
2022 | الاستدلال التعاوني | البتلات: الاستدلال التعاوني والضبط الدقيق للنماذج الكبيرة | arXiv |
2022 | تفريغ الأجهزة | استدلال DeepSpeed: تمكين الاستدلال الفعال لنماذج المحولات على نطاق غير مسبوق | إيي إس سي 22 |
دعم البنية التحتية
تاريخ | الكلمات الرئيسية | ورق | مكان |
---|
2024 | أجهزة الحافة | MobileLLM: تحسين نماذج لغة المعلمات التي تبلغ قيمتها مليار فرعي لحالات الاستخدام على الجهاز | آي سي إم إل |
2024 | أجهزة الحافة | EdgeShard: استنتاج LLM فعال عبر حوسبة الحافة التعاونية | أركسيف |
2024 | أجهزة الحافة | LLM بأي دقة: نشر منخفض التكلفة لمدارس LLM متعددة ومختلفة الحجم | آي سي إم إل |
2024 | أجهزة الحافة | حلول الذاكرة المتقدمة لتحسين الأداء في الاستدلال | آي إي إي مايكرو |
2024 | أجهزة الحافة | نقطة الانصهار: التقييم المتنقل لمحولات اللغة | موبيكوم |
2024 | أجهزة الحافة | LLM كخدمة نظام على الأجهزة المحمولة | أركسيف |
2024 | أجهزة الحافة | LocMoE: وزارة التربية ذات النفقات العامة المنخفضة للتدريب على نماذج اللغات الكبيرة | أركسيف |
2024 | أجهزة الحافة | Jetmoe: الوصول إلى أداء llama2 بمبلغ 0.1 مليون دولار | أركسيف |
2023 | أجهزة الحافة | تدريب نماذج اللغة العصبية ذات المفردات الكبيرة عن طريق التعلم الموحد الخاص للأجهزة محدودة الموارد | ICASSP |
2023 | أجهزة الحافة | الضبط الدقيق الموحد لـ LLMs على الحافة: الجيد، السيئ، القبيح | arXiv |
2023 | المكتبات | Colossal-AI: نظام التعلم العميق الموحد للتدريب الموازي واسع النطاق | ICPP |
2023 | المكتبات | GPT-NeoX-20B: نموذج لغة انحدار ذاتي مفتوح المصدر | الرباط الصليبي الأمامي |
2023 | أجهزة الحافة | تعمل نماذج اللغات الكبيرة على تمكين الذكاء الاصطناعي المستقل للذكاء المتصل | arXiv |
2022 | المكتبات | استدلال DeepSpeed: تمكين الاستدلال الفعال لنماذج المحولات على نطاق غير مسبوق | إيي إس سي 22 |
2022 | المكتبات | Alpa: أتمتة التوازي بين المشغلين وداخلهم من أجل التعلم العميق الموزع | OSDI |
2022 | أجهزة الحافة | EdgeFormer: محول ذو كفاءة في استخدام المعلمات لإنشاء Seq2seq على الجهاز | arXiv |
2022 | أجهزة الحافة | ProFormer: نحو محولات قائمة على الإسقاط LSH على الجهاز | الرباط الصليبي الأمامي |
2021 | أجهزة الحافة | قم بإنشاء المزيد من الميزات مع عمليات رخيصة لـ BERT | الرباط الصليبي الأمامي |
2021 | أجهزة الحافة | SqueezeBERT: ما الذي يمكن أن تعلمه رؤية الكمبيوتر البرمجة اللغوية العصبية حول الشبكات العصبية الفعالة؟ | SustainNLP |
2020 | أجهزة الحافة | محول لايت مع اهتمام طويل المدى وقصير | arXiv |
2019 | المكتبات | Megatron-LM: تدريب نماذج لغوية متعددة المليارات باستخدام نموذج التوازي | إيي إس سي 22 |
2018 | المكتبات | Mesh-TensorFlow: التعلم العميق لأجهزة الكمبيوتر العملاقة | نوريبس |
أنظمة أخرى
تاريخ | الكلمات الرئيسية | ورق | مكان |
---|
2023 | أنظمة أخرى | تابي: نظام استدلال فعال متعدد المستويات لنماذج اللغات الكبيرة | يوروسيس |
2023 | أنظمة أخرى | بحث تسلسلي شبه مكرر على نطاق واسع لتقييم تحفيظ نماذج اللغة الكبيرة | باكمود |
مقاييس ومعايير تقييم كفاءة الموارد
؟ مقاييس الحساب
متري | وصف | مثال الاستخدام |
---|
FLOPs (عمليات الفاصلة العائمة) | عدد العمليات الحسابية على الأعداد ذات الفاصلة العائمة | [التخبط] |
وقت التدريب | المدة الإجمالية المطلوبة للتدريب، والتي يتم قياسها عادةً بالدقائق أو الساعات أو الأيام على مدار ساعة الحائط | [دقائق، أيام] [ساعات] |
وقت الاستدلال/الكمون | متوسط الوقت المطلوب لإنشاء مخرجات بعد تلقي مدخلات، ويتم قياسه عادةً بوقت ساعة الحائط أو وقت ساعة وحدة المعالجة المركزية/وحدة معالجة الرسومات/وحدة المعالجة المركزية (TPU) بالمللي ثانية أو الثواني | [زمن الوصول من طرف إلى طرف بالثواني] [زمن وصول الجيل التالي من الرمز المميز بالمللي ثانية] |
الإنتاجية | معدل إنشاء الرموز المميزة للمخرجات أو إكمال المهام، ويتم قياسه عادةً بالرموز المميزة في الثانية (TPS) أو الاستعلامات في الثانية (QPS) | [الرموز/الرموز] [الاستفسارات/الاستفسارات] |
نسبة السرعة | التحسن في سرعة الاستدلال مقارنة بالنموذج الأساسي | [تسريع وقت الاستدلال] [تسريع الإنتاجية] |
؟ مقاييس الذاكرة
متري | وصف | مثال الاستخدام |
---|
عدد المعلمات | عدد المتغيرات القابلة للتعديل في الشبكة العصبية لـ LLM | [عدد المعلمات] |
حجم النموذج | مساحة التخزين المطلوبة لتخزين النموذج بأكمله | [ذروة استخدام الذاكرة بالجيجابايت] |
⚡️ مقاييس الطاقة
متري | وصف | مثال الاستخدام |
---|
استهلاك الطاقة | الطاقة الكهربائية المستخدمة خلال دورة حياة LLM | [كيلوواط ساعة] |
انبعاث الكربون | انبعاثات الغازات الدفيئة المرتبطة باستخدام الطاقة في النموذج | [كجم من مكافئ ثاني أكسيد الكربون] |
فيما يلي حزم البرامج المتوفرة المصممة للتتبع الفوري لاستهلاك الطاقة وانبعاثات الكربون.
- CodeCarbon
- متتبع الكربون
- متعقب تأثير التجربة
قد تجد أيضًا ما يلي مفيدًا للتنبؤ باستخدام الطاقة والبصمة الكربونية قبل التدريب الفعلي أو
؟ مقياس التكلفة المالية
متري | وصف | مثال الاستخدام |
---|
دولار لكل معلمة | التكلفة الإجمالية للتدريب (أو تشغيل) LLM حسب عدد المعلمات | |
؟ متري اتصالات الشبكة
متري | وصف | مثال الاستخدام |
---|
حجم الاتصالات | إجمالي كمية البيانات المنقولة عبر الشبكة أثناء تنفيذ LLM محدد أو تشغيل التدريب | [حجم الاتصال بالتيرابايت] |
مقاييس أخرى
متري | وصف | مثال الاستخدام |
---|
نسبة الضغط | تقليل حجم النموذج المضغوط مقارنة بالنموذج الأصلي | [معدل الضغط] [نسبة الأوزان المتبقية] |
الولاء / الإخلاص | التشابه بين نموذجي المعلم والطالب من حيث اتساق التنبؤات وتوافق التوزيعات الاحتمالية المتوقعة | [وفاء] [الإخلاص] |
المتانة | مقاومة الهجمات العدائية، حيث يمكن لتعديلات المدخلات الطفيفة أن تؤثر على مخرجات النموذج | [دقة ما بعد الهجوم، رقم الاستعلام] |
باريتو الأمثل | المفاضلات المثلى بين مختلف العوامل المتنافسة | [حدود باريتو (التكلفة والدقة)] [حدود باريتو (الأداء والتخبط)] |
المعايير
المعيار | وصف | ورق |
---|
المعايير العامة للبرمجة اللغوية العصبية | مجموعة واسعة من معايير البرمجة اللغوية العصبية العامة مثل GLUE وSuperGLUE وWMT وSQuAD وما إلى ذلك. | نظرة شاملة لنماذج اللغات الكبيرة |
Dynaboard | منصة مفتوحة المصدر لتقييم نماذج البرمجة اللغوية العصبية (NLP) في السحابة، مما يوفر تفاعلًا في الوقت الفعلي وتقييمًا شاملاً لجودة النموذج باستخدام Dynascore القابل للتخصيص | Dynaboard: منصة تقييم كخدمة لتقييم الأداء الشامل للجيل القادم |
ضمان الجودة الفعال | تحدي الإجابة على الأسئلة (QA) مفتوح المجال في NeurIPS 2020 والذي يركز على بناء أنظمة ضمان الجودة دقيقة وفعالة في الذاكرة | مسابقة NeurIPS 2020 EfficientQA: الأنظمة والتحليلات والدروس المستفادة |
SustainNLP 2020 مهمة مشتركة | تحدي تطوير نماذج البرمجة اللغوية العصبية الموفرة للطاقة من خلال تقييم أدائها عبر ثماني مهام NLU باستخدام مقاييس SuperGLUE وتقييم استهلاكها للطاقة أثناء الاستدلال | نظرة عامة على المهمة المشتركة SustainNLP 2020 |
ELUE (تقييم فهم اللغة بكفاءة) | منصة مرجعية لتقييم كفاءة نموذج البرمجة اللغوية العصبية (NLP) عبر مختلف المهام، وتقدم مقاييس عبر الإنترنت وتتطلب فقط ملف تعريف نموذج بايثون لتقديمه | نحو البرمجة اللغوية العصبية الفعالة: تقييم قياسي وخط أساس قوي |
VLUE (تقييم فهم الرؤية واللغة) | معيار شامل لتقييم نماذج لغة الرؤية عبر مهام متعددة، ويقدم منصة عبر الإنترنت للتقييم والمقارنة | VLUE: معيار متعدد المهام لتقييم نماذج الرؤية واللغة |
الساحة طويلة المدى (LAG) | مجموعة قياسية تعمل على تقييم نماذج المحولات الفعالة في المهام ذات السياق الطويل، والتي تشمل طرائق وأنواع تفكير متنوعة مع السماح بالتقييمات في ظل قيود الموارد الخاضعة للرقابة، وتسليط الضوء على كفاءة العالم الحقيقي | الساحة طويلة المدى: معيار للمحولات الفعالة |
الكفاءة واعية MS MARCO | معيار محسّن لاسترجاع معلومات MS MARCO يدمج مقاييس الكفاءة مثل زمن الوصول لكل استعلام والتكلفة إلى جانب الدقة، مما يسهل التقييم الشامل لأنظمة الأشعة تحت الحمراء | تجاوز دقة المهام النهائية لقياس استرجاع المعلومات |
مرجع
إذا وجدت قائمة الأوراق هذه مفيدة في بحثك، فيرجى مراعاة الاستشهاد بما يلي:
@article{bai2024beyond,
title={Beyond Efficiency: A Systematic Survey of Resource-Efficient Large Language Models},
author={Bai, Guangji and Chai, Zheng and Ling, Chen and Wang, Shiyu and Lu, Jiaying and Zhang, Nan and Shi, Tingwei and Yu, Ziyang and Zhu, Mengdan and Zhang, Yifei and others},
journal={arXiv preprint arXiv:2401.00625},
year={2024}
}