Fairseq(-py) عبارة عن مجموعة أدوات لنمذجة التسلسل تسمح للباحثين والمطورين بتدريب نماذج مخصصة للترجمة والتلخيص ونمذجة اللغة ومهام إنشاء النص الأخرى.
نحن نقدم تطبيقات مرجعية لمختلف أوراق نمذجة التسلسل:
الشبكات العصبية التلافيفية (CNN)
نمذجة اللغة باستخدام الشبكات التلافيفية المسورة (دوفين وآخرون، 2017)
التسلسل التلافيفي للتعلم التسلسلي (Gehring et al., 2017)
خسائر التنبؤ المنظمة الكلاسيكية للتعلم التسلسلي (Edunov et al., 2018)
توليد القصة العصبية الهرمية (Fan et al., 2018)
wav2vec: التدريب المسبق غير الخاضع للرقابة للتعرف على الكلام (شنايدر وآخرون، 2019)
نماذج LightConv وDynamicsConv
انتبه أقل للالتفافات الديناميكية وخفيفة الوزن (وو وآخرون، 2019)
شبكات الذاكرة طويلة المدى (LSTM).
الأساليب الفعالة للترجمة الآلية العصبية القائمة على الانتباه (Luong et al., 2015)
شبكات المحولات (الانتباه الذاتي).
الاهتمام هو كل ما تحتاجه (فاسواني وآخرون، 2017)
قياس الترجمة الآلية العصبية (أوت وآخرون، 2018)
فهم الترجمة العكسية على نطاق واسع (Edunov et al., 2018)
تمثيلات المدخلات التكيفية لنمذجة اللغة العصبية (Baevski and Auli، 2018)
فك التشفير المقيد معجميًا مع تخصيص الحزمة الديناميكية (Post & Vilar، 2018)
Transformer-XL: نماذج اللغة اليقظة خارج سياق ثابت الطول (Dai et al., 2019)
مدى الانتباه التكيفي في المحولات (Sukhbaatar et al., 2019)
نماذج مختلطة للترجمة الآلية المتنوعة: حيل التجارة (شين وآخرون، 2019)
RoBERTa: نهج تدريب مسبق محسّن بقوة لـ BERT (ليو وآخرون، 2019)
تقديم مهمة ترجمة الأخبار WMT19 الخاصة بـ Facebook FAIR (Ng et al., 2019)
التعلم المشترك للمواءمة والترجمة مع نماذج المحولات (Garg et al., 2019)
التدريب المسبق على تقليل الضوضاء متعدد اللغات للترجمة الآلية العصبية (Liu et at., 2020)
الترجمة الآلية العصبية باستخدام الكلمات الفرعية على مستوى البايت (وانغ وآخرون، 2020)
تقدير الجودة غير الخاضع للرقابة للترجمة الآلية العصبية (Fomicheva et al., 2020)
wav2vec 2.0: إطار عمل للتعلم الخاضع للإشراف الذاتي لتمثيلات الكلام (Baevski et al., 2020)
إنشاء تقارير طبية من المحادثات بين المريض والطبيب باستخدام نماذج تسلسل إلى تسلسل (Enarvi et al., 2020)
Linformer: الاهتمام الذاتي بالتعقيد الخطي (وانغ وآخرون، 2020)
الاسترجاع عبر اللغات للتدريب التكراري الخاضع للإشراف الذاتي (تران وآخرون، 2020)
المحولات العميقة ذات العمق الكامن (لي وآخرون، 2020)
تعلم التمثيل عبر اللغات غير الخاضع للرقابة للتعرف على الكلام (Conneau et al., 2020)
التدريب الذاتي والتدريب المسبق مكملان للتعرف على الكلام (Xu et al., 2020)
Robust wav2vec 2.0: تحليل تحول المجال في التدريب المسبق الخاضع للإشراف الذاتي (Hsu، وآخرون، 2021)
التعرف على الكلام غير الخاضع للرقابة (Baevski، وآخرون، 2021)
التعرف البسيط والفعال على المقاطع الصوتية عبر اللغات (Xu et al., 2021)
VideoCLIP: تدريب مسبق مقارن لفهم نص الفيديو بدون لقطة (Xu et. al.، 2021)
VLM: نموذج لغة الفيديو الحيادي المهام للتدريب المسبق لفهم الفيديو (Xu et. al., 2021)
NormFormer: تحسين التدريب المسبق للمحولات مع التطبيع الإضافي (Shleifer et. al، 2021)
المحولات غير الانحدارية
الترجمة الآلية العصبية غير التلقائية (غو وآخرون، 2017)
نمذجة التسلسل العصبي الحتمي غير التلقائي عن طريق التحسين التكراري (Lee et al. 2018)
محول الإدراج: توليد تسلسل مرن عبر عمليات الإدراج (ستيرن وآخرون 2019)
التنبؤ بالقناع: فك التشفير الموازي لنماذج اللغة المقنعة الشرطية (Ghazvininejad et al., 2019)
محول ليفنشتاين (غو وآخرون، 2019)
الكون المثالى
ضبط أفضل عن طريق تقليل الانهيار التمثيلي (Aghajanyan et al. 2020)
مايو 2023 تم إصدار نماذج لتوسيع نطاق تكنولوجيا الكلام إلى أكثر من 1000 لغة (براتاب وآخرون، 2023)
يونيو 2022 تم إصدار الكود الخاص بـ wav2vec-U 2.0 من نحو التعرف على الكلام غير الخاضع للرقابة من طرف إلى طرف (Liu, et al., 2022)
مايو 2022 التكامل مع xFormers
ديسمبر 2021 تم إصدار كود الترجمة المباشرة من الكلام إلى كلام
أكتوبر 2021 تم إصدار نماذج VideoCLIP وVLM
أكتوبر 2021 تم إصدار نموذج XLSR-53 متعدد اللغات
سبتمبر 2021 تمت إعادة تسمية الفرع master
إلى main
.
يوليو 2021 تم إصدار كود DrNMT
تم إصدار يوليو 2021 نموذج wav2vec 2.0 القوي
تم إصدار طرازي XLMR-XL وXLMR-XXL في يونيو 2021
مايو 2021 تم إصدار رمز التعرف على الكلام غير الخاضع للرقابة
مارس 2021 تمت إضافة المعلمة الكاملة وتقسيم حالة المحسن + تفريغ وحدة المعالجة المركزية
فبراير 2021 تمت إضافة كود تدريب LASER
ديسمبر 2020: تمت إضافة رمز نطاق الانتباه التكيفي
ديسمبر 2020: تم إصدار نموذج ورمز GottBERT
نوفمبر 2020: تم اعتماد إطار تكوين Hydra
راجع الوثائق التي تشرح كيفية استخدامها للمشاريع الجديدة والحالية
نوفمبر 2020: إصدار fairseq 0.10.0
أكتوبر 2020: تمت إضافة كود R3F/R4F (ضبط أفضل).
أكتوبر 2020: تم إصدار Deep Transformer مع كود العمق الكامن
أكتوبر 2020: تمت إضافة نماذج ورموز CRISS
سبتمبر 2020: تمت إضافة كود Linformer
سبتمبر 2020: تمت إضافة شبكات مولد المؤشر
أغسطس 2020: تمت إضافة فك التشفير المقيد معجميًا
أغسطس 2020: تم إصدار نماذج وأكواد wav2vec2
يوليو 2020: تم إصدار كود تقدير الجودة غير الخاضع للرقابة
مايو 2020: تابع fairseq على تويتر
أبريل 2020: تم إصدار كود الانتباه الرتيب متعدد الرؤوس
أبريل 2020: تم إصدار كود Quant-Noise
أبريل 2020: تم إصدار الدعم الموازي للنموذج الأولي ومعلمات 11B أحادية الاتجاه
مارس 2020: تم إصدار كود BPE على مستوى البايت
فبراير 2020: تم إصدار نموذج ورمز mBART
فبراير 2020: تمت إضافة البرنامج التعليمي للترجمة العكسية
ديسمبر 2019: إصدار fairseq 0.9.0
نوفمبر 2019: تم إصدار VizSeq (مجموعة أدوات التحليل المرئي لتقييم نماذج fairseq)
نوفمبر 2019: تم إصدار نموذج ورمز CamemBERT
نوفمبر 2019: تم إصدار نموذج ورمز BART
نوفمبر 2019: تم إصدار نماذج ورمز XLM-R
سبتمبر 2019: تم إصدار كود الترجمة غير الانحداري
أغسطس 2019: إطلاق نماذج WMT'19
يوليو 2019: تمت إعادة ترخيص fairseq بموجب ترخيص MIT
يوليو 2019: تم إصدار نماذج ورمز RoBERTa
يونيو 2019: تم إصدار نماذج وأكواد wav2vec
التدريب على وحدات معالجة الرسومات المتعددة على جهاز واحد أو عبر أجهزة متعددة (البيانات والنماذج الموازية)
إنشاء سريع على كل من وحدة المعالجة المركزية ووحدة معالجة الرسومات مع تنفيذ خوارزميات بحث متعددة:
بحث شعاع
بحث الشعاع المتنوع (فيجاياكومار وآخرون، 2016)
أخذ العينات (غير مقيد، أعلى-ك وأعلى-ع/النواة)
فك التشفير المقيد معجميًا (Post & Vilar، 2018)
يتيح تراكم التدرج التدريب باستخدام دفعات صغيرة كبيرة حتى على وحدة معالجة رسومات واحدة
تدريب مختلط الدقة (يتدرب بشكل أسرع مع ذاكرة GPU أقل على نوى موتر NVIDIA)
قابلة للتوسيع: يمكنك بسهولة تسجيل النماذج والمعايير والمهام الجديدة والمحسنات وجدولة معدل التعلم
تكوين مرن يعتمد على Hydra مما يسمح بمزيج من التعليمات البرمجية وسطر الأوامر والتكوين المستند إلى الملف
المعلمة الكاملة وتقاسم حالة المحسن
تفريغ المعلمات إلى وحدة المعالجة المركزية
كما نقدم أيضًا نماذج مدربة مسبقًا للترجمة ونمذجة اللغة من خلال واجهة torch.hub
الملائمة:
en2de = torch.hub.load('pytorch/fairseq', 'transformer.wmt19.en-de.single_model')en2de.translate('Hello World', Beam=5)# 'Hallo Welt'
راجع دروس PyTorch Hub للترجمة وRoBERTa لمزيد من الأمثلة.
إصدار باي تورش >= 1.10.0
إصدار بايثون>= 3.8
لتدريب النماذج الجديدة، ستحتاج أيضًا إلى وحدة معالجة الرسومات NVIDIA وNCCL
لتثبيت fairseq وتطويره محليًا:
استنساخ بوابة https://github.com/pytorch/fairseqcd fairseq تثبيت النقطة - قابل للتحرير ./# على نظام التشغيل MacOS:# CFLAGS="-stdlib=libc++" تثبيت النقطة - قابل للتحرير ./# لتثبيت أحدث إصدار ثابت (0.10.x)# تثبيت النقطة fairseq
للحصول على تدريب أسرع، قم بتثبيت مكتبة NVIDIA apex:
استنساخ بوابة https://github.com/NVIDIA/apexcd apex تثبيت النقطة -v --no-cache-dir --global-option="--cpp_ext" --global-option="--cuda_ext" --global-option="--deprecated_fused_adam" --global-option="--xentropy" --global-option="--fast_multihead_attn" ./
بالنسبة لمجموعات البيانات الكبيرة، قم بتثبيت PyArrow: pip install pyarrow
إذا كنت تستخدم Docker فتأكد من زيادة حجم الذاكرة المشتركة إما باستخدام --ipc=host
أو --shm-size
كخيارات سطر الأوامر nvidia-docker run
.
تحتوي الوثائق الكاملة على تعليمات للبدء وتدريب النماذج الجديدة وتوسيع fairseq بأنواع ومهام النماذج الجديدة.
نحن نقدم نماذج مدربة مسبقًا ومجموعات اختبار ثنائية المعالجة مسبقًا للعديد من المهام المدرجة أدناه، بالإضافة إلى أمثلة لأوامر التدريب والتقييم.
الترجمة: النماذج التلافيفية والمحولات متاحة
نمذجة اللغة: تتوفر نماذج تلافيفية ومحولات
لدينا أيضًا ملفات README أكثر تفصيلاً لإعادة إنتاج النتائج من أوراق بحثية محددة:
XLS-R: تعلم تمثيل الكلام عبر اللغات تحت الإشراف الذاتي على نطاق واسع (بابو وآخرون، 2021)
الاسترجاع عبر اللغات للتدريب التكراري الخاضع للإشراف الذاتي (تران وآخرون، 2020)
wav2vec 2.0: إطار عمل للتعلم الخاضع للإشراف الذاتي لتمثيلات الكلام (Baevski et al., 2020)
تقدير الجودة غير الخاضع للرقابة للترجمة الآلية العصبية (Fomicheva et al., 2020)
التدريب باستخدام ضوضاء القياس الكمي للضغط الشديد للنموذج ({Fan*, Stock*} et al., 2020)
الترجمة الآلية العصبية باستخدام الكلمات الفرعية على مستوى البايت (وانغ وآخرون، 2020)
التدريب المسبق على تقليل الضوضاء متعدد اللغات للترجمة الآلية العصبية (Liu et at., 2020)
تقليل عمق المحولات عند الطلب من خلال التسرب المنظم (Fan et al., 2019)
التعلم المشترك للمواءمة والترجمة مع نماذج المحولات (Garg et al., 2019)
محول ليفنشتاين (غو وآخرون، 2019)
تقديم مهمة ترجمة الأخبار WMT19 الخاصة بـ Facebook FAIR (Ng et al., 2019)
RoBERTa: نهج تدريب مسبق محسّن بقوة لـ BERT (ليو وآخرون، 2019)
wav2vec: التدريب المسبق غير الخاضع للرقابة للتعرف على الكلام (شنايدر وآخرون، 2019)
نماذج مختلطة للترجمة الآلية المتنوعة: حيل التجارة (شين وآخرون، 2019)
انتبه أقل للالتفافات الديناميكية وخفيفة الوزن (وو وآخرون، 2019)
فهم الترجمة العكسية على نطاق واسع (Edunov et al., 2018)
خسائر التنبؤ المنظمة الكلاسيكية للتعلم التسلسلي (Edunov et al., 2018)
توليد القصة العصبية الهرمية (Fan et al., 2018)
قياس الترجمة الآلية العصبية (أوت وآخرون، 2018)
التسلسل التلافيفي للتعلم التسلسلي (Gehring et al., 2017)
نمذجة اللغة باستخدام الشبكات التلافيفية المسورة (دوفين وآخرون، 2017)
تويتر: https://twitter.com/fairseq
صفحة الفيسبوك: https://www.facebook.com/groups/fairseq.users
مجموعة جوجل: https://groups.google.com/forum/#!forum/fairseq-users
fairseq(-py) مرخص من معهد ماساتشوستس للتكنولوجيا. ينطبق الترخيص على النماذج المدربة مسبقًا أيضًا.
يرجى الاقتباس على النحو التالي:
@inproceedings{ott2019fairseq، العنوان = {fairseq: مجموعة أدوات سريعة وقابلة للتوسيع لنمذجة التسلسل}، المؤلف = {Myle Ott وSergey Edunov وAlexei Baevski وAngela Fan وSam Gross وNathan Ng وDavid Grangier وMichael Auli}، عنوان الكتاب = {وقائع NAACL-HLT 2019: المظاهرات}، سنة = {2019}، }