تنزيل espnet - تنزيل رمز مصدر espnet

espnet

شفرة المصدر الأخرى

version 202409

تنزيل

Ubuntu/python3.11/pip ubuntu/python3.10/conda Debian11/Python3.10/Conda Windows/Python3.10/pip MacOS/Python3.10/pip MacOS/Python3.10/conda

مستندات | مثال | مثال (ESPNET2) | Docker | دفتر

ESPNET هي مجموعة أدوات معالجة الكلام من طرف إلى طرف تغطي التعرف على الكلام من طرف إلى طرف ، ونص من النص ، وترجمة الكلام ، وتعزيز الكلام ، ومجلات المتحدث ، وفهم اللغة المنطوقة ، وما إلى ذلك. يستخدم ESPNET Pytorch كمحرك تعليمي عميق ويتبع أيضًا معالجة بيانات نمط Kaldi ، واستخراج/تنسيق الميزات ، ووصفات لتوفير إعداد كامل لتجارب معالجة الكلام المختلفة.

سلسلة البرنامج التعليمي

2019 البرنامج التعليمي في interspeech
- مادة
2021 البرنامج التعليمي في CMU
- فيديو عبر الإنترنت
- مادة
2022 البرنامج التعليمي في CMU
- استخدام ESPNET (ASR كمثال)
  - فيديو عبر الإنترنت
  - مادة
- أضف نماذج/مهام جديدة إلى ESPNET
  - فيديو عبر الإنترنت
  - مادة

الميزات الرئيسية

Kaldi-Style وصفة كاملة

أرقام دعم وصفات ASR (WSJ ، Switchboard ، Chime-4/5 ، Librispeech ، TED ، CSJ ، AMI ، HKUST ، VOXFORGE ، REARB ، GIGASPEEDE ، إلخ)
أرقام دعم وصفات TTS بطريقة مماثلة لوصفة ASR (LJSpeech ، Libritts ، M-ilabs ، إلخ)
أرقام دعم وصفات ST (Fisher-Callhome Spanish ، Libri-Trans ، IWSLT'18 ، How2 ، Must-C ، Mboshi-French ، إلخ)
أرقام دعم وصفات MT (IWSLT'14 ، IWSLT'16 ، وصفات ST أعلاه وما إلى ذلك)
أرقام دعم وصفات SLU (Catslu-Maps ، FSC ، Grabo ، IEMOCAP ، Jdcinal ، Snips ، Slurp ، SWBD-DA ، إلخ)
أرقام دعم وصفات SE/SS (DNS-IS2020 ، Librimix ، SMS-WSJ ، VCTK-NOISYREVERB ، WHAM! ، WHAMR! ، WSJ-2MIX ، إلخ)
دعم وصفة تحويل الصوت (خط الأساس VCC2020)
وصفة دعم مذكرات مكبر الصوت (mini_librispeech ، librerimix)
دعم وصفة تخليق الصوت الغنائية (OFUTON_P_UTAGOE_DB ، OPENCPOP ، M4SENGER ، إلخ)

ASR: التعرف على الكلام التلقائي

الأداء الحديث في العديد من معايير ASR (قابلة للمقارنة/متفوقة على DNN/HMM الهجينة و CTC)
Hybrid CTC/ANTERNAL ASR ASR
- تدريب سريع/دقيق مع التدريب على المهام المتعددة CTC/CTC
- CTC/الانتباه فك تشفير المفصل لزيادة فك تشفير المحاذاة الرتابة
- Encoder: CNN-Like VGG + Birnn (LSTM/GRU) ، Birnn subling (LSTM/GRU) ، محول ، مطابق ، فرع ، أو الفرع الإلكتروني
- Decoder: RNN (LSTM/GRU) ، المحول ، أو S4
الانتباه: انتباه فلاش ، منتج نقطة ، اهتمام مدرك للموقع ، متغيرات متعددة الرأس
دمج RNNLM/LSTMLM/TransforerLM/N-GRAM فقط مع بيانات النص
دفعة GPU فك تشفير
زيادة البيانات
ASR القائم على محول الطاقة ASR
- بنيان:
  - تشفير مخصص يدعم RNNs ، المطابق ، فرع (ث / المتغيرات) ، 1D Conv / TDNN.
  - Decoder w/ المعلمات المشتركة عبر الكتل التي تدعم RNN ، عديمي الجنسية W/ 1D Conv ، Mega ، و RWKV.
  - ما قبل الترميز: VGG2L أو Conv2D متاح.
- خوارزميات البحث:
  - البحث الجشع مقيد على انبعاث واحد بواسطة Timestep.
  - خوارزمية بحث الشعاع الافتراضية [Graves ، 2012] بدون بحث بادئة.
  - فك التشفير المتزامن طول المحاذاة [سون وآخرون ، 2020].
  - توافق الوقت المتزامن [Saon et al. ، 2020].
  - N-Step مقيد بحث الشعاع المعدلة من [Kim et al. ، 2020].
  - تعديل التوسع التوسع على أساس [Kim et al. ، 2021] و NSC.
- سمات:
  - واجهة موحدة للتعرف على الكلام في وضع عدم الاتصال.
  - التعلم متعدد المهام مع مختلف الخسائر المساعدة:
    - Encoder: CTC ، محول الطاقة المساعد وتباعد KL متماثل.
    - Decoder: المتقاطع مع تجانس التسمية.
  - نقل التعلم باستخدام نموذج صوتي و/أو نموذج لغة.
  - التدريب مع طريقة تنظيم Fastemit [Yu et al. ، 2021].
يرجى الرجوع إلى صفحة البرنامج التعليمي للحصول على وثائق كاملة.
تجزئة CTC
نموذج غير آلي على أساس قناع CTC
أمثلة ASR لدعم وثائق اللغة المهددة بالانقراض (يرجى الرجوع إلى EGS/PUEBLA_NAHUATL و EGS/YOLOXOCHITL_MIXTEC للحصول على التفاصيل)
نموذج WAV2VEC2.0 قبل التدريب على أنه تشفير ، مستورد من فيرسيك.
تمثيلات التعلم الخاضعة للإشراف ذاتيا كميزات ، باستخدام نماذج المنبع في S3PRL أمام الواجهة الأمامية.
- تعيين frontend على s3prl
- حدد أي طراز المنبع عن طريق تعيين frontend_conf على الاسم المقابل.
نقل التعلم:
- من السهل الاستخدام والتحويلات من النماذج التي سبق تدريبها من قبل مجموعتك أو النماذج من مستودع وجه ESPNET Hugging Face.
- توثيق ومثال على اللعب على كولاب.
تدفق محول/مطابقة ASR مع البحث عن شعاع متزامن blockwise.
الاهتمام الذاتي المقيد على أساس Longformer كشرف للتسلسلات الطويلة
نموذج Openai Whisper ، ASR القوي على أساس التعلم متعدد المهام على نطاق واسع ، وإخطار ضعيف.

توضيح

في الوقت الحقيقي ASR Demo مع ESPNET2
Gradio Web Demo على معانقة مساحات الوجه. تحقق من عرض الويب
تدفق محول ASR التجريبي المحلي مع ESPNET2.

TTS: نص إلى كلام

بنيان
- Tacotron2
- Transformer-TTS
- Fastspeech
- Fastspeech2
- مطابقة Fastspeech & fastspeesh2
- حالات
- الطائرات
امتداد متعدد اللغات ومتعدد اللغات
- مكبر صوت تدريب مسبقًا (على سبيل المثال ، X-Vector)
- معرف السماعة التضمين
- معرف اللغة التضمين
- التضمين على النمط العالمي (GST)
- مزيج من التضمينات أعلاه
التدريب من شامل إلى طرف
- نموذج نص إلى طرف من النص إلى WAV (على سبيل المثال ، Vits ، Jets ، وما إلى ذلك)
- التدريب المشترك لـ Text2mel و Vocoder
دعم اللغة المختلفة
- EN / JP / ZN / DE / RU / والمزيد ...
التكامل مع الموترات العصبية
- موازي Wavegan
- ميليغان
- melgan متعددة النطاق
- هيفيجان
- Stylemelgan
- مزيج من النماذج أعلاه

توضيح

في الوقت الحقيقي TTS Demo مع ESPNET2
متكاملة لعناق المساحات الوجه مع Gradio. انظر العرض التوضيحي:

لتدريب الماسك العصبي ، يرجى التحقق من المستودعات التالية:

Kan-Bayashi/Parallelwavegan
r9y9/wavenet_vocoder

SE: تعزيز الكلام (والفصل)

تعزيز الكلام واحد مكبر الصوت
فصل الكلام متعدد الكلام
بنية موحدة للتشفير والرائد في النماذج الزمنية ونماذج مجال التردد
- التشفير/وحدة فك الترميز: STFT/ISTFT ، الالتفاف/النقل
- الفواصل: BLSTM ، محول ، مطابق ، TASNET ، DPRNN ، المنصة ، SVOICE ، DC-CRN ، DCCRN ، التجميع العميق ، شبكة جاذب عميق ، fasnet ، IFASNET ، أحواض الشعاع العصبي ، إلخ.
تكامل ASR المرن: العمل كمهمة فردية أو كواجهة ASR
من السهل استيراد النماذج التي تم تدريبها مسبقًا من الكويكب
- يتم دعم كل من النماذج التي تم تدريبها مسبقًا من الكويكب والتكوين المحدد.

توضيح

DEMO التفاعلي SE مع ESPNET2
تدفق SE Demo مع ESPNET2

ST: ترجمة الكلام و MT: الترجمة الآلية

أداء أحدث في العديد من المعايير ST (قابلة للمقارنة/متفوقة على ASR و MT المتتالية)
ST القائم على المحول من شارع شامل إلى النهاية (جديد!)
MT القائم على المحولات MT (جديد!)

VC: تحويل الصوت

VC المحول و Tacotron2 المتوازي VC باستخدام طيف MEL
VC من طرف إلى طرف استنادًا إلى ASR+TTS المتتالية (نظام خط الأساس لتحدي تحويل الصوت 2020!)

SLU: فهم اللغة المنطوقة

بنيان
- تشفير القائم على المحولات
- التشفير القائم على المطابقة
- تشفير القائم على فرع
- EN-Brannsformer تشفير القائم على الفرن الإلكتروني
- وحدة فك ترميز RNN القائمة
- وحدة فك الترميز القائمة على المحولات
دعم تعدد المهام مع ASR
- توقع كل من نص النية و ASR
دعم تعدد المهام مع NLU
- نموذج تمريرة على مقر تشفير التداول 2
الدعم باستخدام نماذج ASR المدربة مسبقًا
- هوبرت
- WAV2VEC2
- VQ-APC
- تيرا وأكثر ...
الدعم باستخدام نماذج NLP المدربة مسبقًا
- بيرت
- mpnet والمزيد ...
دعم اللغة المختلفة
- EN / JP / Zn / NL / وأكثر ...
يدعم استخدام السياق من الكلمات السابقة
يدعم استخدام مهام أخرى مثل SE بطريقة أنابيب
يدعم اثنين من تمريرة SLU التي تجمع بين مظاهرة نسخة الصوت و ASR
أداء فهم اللغة المنطوقة الصاخبة باستخدام نموذج تعزيز الكلام يتبعه نموذج فهم اللغة المنطوقة.
أداء اللغة المنطوقة ثنائية تمريرة حيث يحضر نموذج المرور الثاني إلى كل من المعلومات الصوتية والدلالية.
متكاملة لعناق المساحات الوجه مع Gradio. انظر SLU Demo على لغات متعددة:

المبلغ: تلخيص الكلام

وصفة تلخيص الكلام من النهاية إلى النهاية لمقاطع الفيديو التعليمية باستخدام الالتحاق الذاتي المقيد [Sharma et al. ، 2022]

SVS: غناء تخليق الصوت

دمج إطار من المسك
بنيان
- نموذج غير ذاتي القطب RNN
- Xiaoice
- تاكوترون الغناء
- Diffsinger (قيد التقدم)
- فيسنجر
- Visinger 2 (اختلافاتها مع هندسة الصوت المختلفة)
دعم تخليق الغناء متعدد اللغات ومتعدد اللغات
- معرف السماعة التضمين
- معرف اللغة التضمين
دعم اللغة المختلفة
- JP / EN / KR / ZH
التكامل الضيق مع الصوت العصبي (مثل TTS)

SSL: التعلم الخاضع للإشراف

دعم Hubert قبل التدريب:
- وصفة مثال: EGS2/Librispeech/SSL1

UASR: ASR غير خاضع للرقابة (EURO: ESPNET غير إشراف الاعتراف - مفتوح المصدر)

بنيان
- WAV2VEC-U (مع نماذج مختلفة خضع لذات)
- WAV2VEC-U 2.0 (قيد التقدم)
دعم precixbeamsearch وفك تشفير WFST المستند إلى K2

S2T: نماذج خطاب إلى نص مع نماذج متعددة الأجزاء متعددة اللغات على الطراز الهمس

يستنسخ التدريب على طراز الهمس من نقطة الصفر باستخدام البيانات العامة: OWSM
يدعم مهام متعددة في نموذج واحد
- التعرف على الكلام متعدد اللغات
- أي ترجمة للكلام
- تحديد اللغة
- التنبؤ على مستوى الكلام (تجزئة)

إطار DNN

بنية الشبكة المرنة بفضل Chainer و Pytorch
المعالجة الأمامية المرنة بفضل دعم Kaldiio و HDF5
المراقبة المستندة إلى Tensorboard
التدريب على نطاق واسع القائم على السفن العميقة

ESPNET2

انظر ESPNET2.

مستقلة عن Kaldi/Chainer ، على عكس ESPNET1
استخراج الميزات أثناء التنقل ومعالجة النص عند التدريب
دعم distributeddataparalally و daraparallel كلاهما
دعم التدريب على عقد متعددة ودمج مع Slurm أو MPI
دعم التدريب المتساقط الذي قدمته Fairscale
وصفة قالب يمكن تطبيقه على جميع الشركات
من الممكن تدريب أي حجم من كوربوس بدون خطأ في ذاكرة وحدة المعالجة المركزية
espnet نموذج حديقة الحيوان
مدمجة مع WANDB

تثبيت

إذا كنت تنوي إجراء تجارب كاملة ، بما في ذلك تدريب DNN ، راجع التثبيت.
إذا كنت بحاجة فقط إلى وحدة بيثون فقط:
```
 # We recommend you install PyTorch before installing espnet following https://pytorch.org/get-started/locally/
pip install espnet
# To install the latest
# pip install git+https://github.com/espnet/espnet
# To install additional packages
# pip install "espnet[all]"
```
إذا كنت تستخدم ESPNET1 ، فيرجى تثبيت Chainer و Cupy.
```
pip install chainer==6.0.0 cupy==6.0.0    # [Option]
```
قد تحتاج إلى تثبيت بعض الحزم اعتمادًا على كل مهمة. قمنا بإعداد البرامج النصية للتثبيت المختلفة في الأدوات/المثبتات.
(ESPNET2) بمجرد تثبيته ، قم بتشغيل wandb login and SET --use_wandb true لتمكين تشغيل التتبع باستخدام W&B.

حاوية Docker

انتقل إلى Docker/ واتبع التعليمات.

مساهمة

شكرا لك على قضاء الوقت في ESPNET! أي مساهمات في ESPNET مرحب بها ، ولا تتردد في طرح أي أسئلة أو طلبات للقضايا. إذا كانت هذه هي أول مساهمة ESPNET ، فيرجى اتباع دليل المساهمة.

نتائج ASR

يوسع

ندرج معدل خطأ الحرف (CER) ومعدل خطأ الكلمات (WER) لمهام ASR الرئيسية.

مهمة	CER (٪)	وير (٪)	نموذج تدريب مسبقًا
Aishell dev/test	4.6/5.1	ن/أ	وصلة
ESPNET2 Aishell dev/test	4.1/4.4	ن/أ	وصلة
صوت شائع/اختبار	1.7/1.8	2.2/2.3	وصلة
CSJ eval1/eval2/eval3	5.7/3.8/4.2	ن/أ	وصلة
ESPNET2 CSJ eval1/eval2/eval3	4.5/3.3/3.6	ن/أ	وصلة
ESPNET2 Gigaspeech dev/test	ن/أ	10.6/10.5	وصلة
HKUST DEV	23.5	ن/أ	وصلة
ESPNET2 HKUST DEV	21.2	ن/أ	وصلة
Librispeech dev_clean/dev_other/test_clean/test_other	ن/أ	1.9/4.9/2.1/4.9	وصلة
ESPNET2 Librispeech dev_clean/dev_other/test_clean/test_other	0.6/1.5/0.6/1.4	1.7/3.4/1.8/3.6	وصلة
Switchboard (eval2000) CallHM/SWBD	ن/أ	14.0/6.8	وصلة
لوحة التبديل ESPNET2 (EVEL2000) CallHM/SWBD	ن/أ	13.4/7.3	وصلة
Tedlium2 dev/test	ن/أ	8.6/7.2	وصلة
ESPNET2 Tedlium2 dev/test	ن/أ	7.3/7.1	وصلة
Tedlium3 dev/test	ن/أ	9.6/7.6	وصلة
WSJ Dev93/eval92	3.2/2.1	7.0/4.7	ن/أ
ESPNET2 WSJ DEV93/eval92	1.1/0.8	2.8/1.8	وصلة

لاحظ أن أداء مهام CSJ و HKUST و Librispeech قد تم تحسينه بشكل كبير باستخدام الشبكة الواسعة (#Units = 1024) ووحدات الكلمات الفرعية الكبيرة إذا لزم الإبلاغ عنها بواسطة RWTH.

إذا كنت ترغب في التحقق من نتائج الوصفات الأخرى ، فيرجى التحقق من egs/<name_of_recipe>/asr1/RESULTS.md .

ASR DEMO

يوسع

يمكنك التعرف على الكلام في ملف WAV باستخدام النماذج المدربة مسبقًا. انتقل إلى دليل الوصفة وقم بتشغيل utils/recog_wav.sh على النحو التالي:

 # go to the recipe directory and source path of espnet tools
cd egs/tedlium2/asr1 && . ./path.sh
# let's recognize speech!
recog_wav.sh --models tedlium2.transformer.v1 example.wav

حيث example.wav هو ملف WAV ليتم التعرف عليه. يجب أن يكون معدل أخذ العينات متسقًا مع معدل البيانات المستخدمة في التدريب.

نماذج متوفرة مسبقًا في البرنامج النصي التجريبي مدرجة أدناه.

نموذج	ملحوظات
Tedlium2.rnn.v1	تدفق الفك تشفير بناء على VAD القائم على CTC
Tedlium2.rnn.v2	تدفق فك التشفير على أساس VAD المستند إلى CTC (فك تشفير الدُفعات)
Tedlium2.transformer.v1	محول الانتباه المشترك CTC مدرب على Tedlium 2
Tedlium3.transformer.v1	محول الانتباه المشترك CTC مدرب على Tedlium 3
librispeech.transformer.v1	محول الانتباه المشترك CTC مدرب على Librispeech
commonvoice.transformer.v1	محول الانتباه المشترك CTC مدرب على CommonVoice
csj.transformer.v1	محول الانتباه المشترك CTC مدرب على CSJ
CSJ.RNN.V1	انتباه المشترك CTC VGGBLSTM المدربين على CSJ

نتائج SE

يوسع

ندرج نتائج من ثلاثة نماذج مختلفة على WSJ0-2Mix ، والتي هي واحدة من أكثر مجموعة البيانات القياسية استخدامًا لفصل الكلام.

نموذج	Stoi	سار	SDR	سيد
تقنيع TF	0.89	11.40	10.24	18.04
Conv-Tasnet	0.95	16.62	15.94	25.90
DPRNN-TASNET	0.96	18.82	18.29	28.92

SE Demos

يوسع

يمكنك تجربة العرض التوضيحي التفاعلي مع Google Colab. يرجى النقر فوق الزر التالي للوصول إلى العروض التوضيحية.

يعتمد على ESPNET2. تتوفر النماذج المدربة مسبقًا لكل من مهام تعزيز الكلام وفصل الكلام.

عروض تدفق فصل الكلام:

نتائج ST

يوسع

ندرج 4-Gram Bleu من مهام ST الرئيسية.

نظام من طرف إلى طرف

مهمة	بلو	نموذج تدريب مسبقًا
Fisher-Callhome Fisher_test (ES-> EN)	51.03	وصلة
Fisher-Callhome Spanish Callhome_evltest (ES-> EN)	20.44	وصلة
اختبار libri-trans (en-> الاب)	16.70	وصلة
How2 dev5 (en-> pt)	45.68	وصلة
Must-c tst-common (en-> de)	22.91	وصلة
Mboshi-French Dev (fr-> mboshi)	6.18	ن/أ

نظام متتالي

مهمة	بلو	نموذج تدريب مسبقًا
Fisher-Callhome Fisher_test (ES-> EN)	42.16	ن/أ
Fisher-Callhome Spanish Callhome_evltest (ES-> EN)	19.82	ن/أ
اختبار libri-trans (en-> الاب)	16.96	ن/أ
How2 dev5 (en-> pt)	44.90	ن/أ
Must-c tst-common (en-> de)	23.65	ن/أ

إذا كنت ترغب في التحقق من نتائج الوصفات الأخرى ، فيرجى التحقق من egs/<name_of_recipe>/st1/RESULTS.md .

ST Demo

يوسع

( جديد! ) قدمنا عرضًا جديدًا لـ E2E-ST + TTS في Google Colab. يرجى الوصول إلى دفتر الملاحظات من الزر التالي والاستمتاع بترجمة الكلام إلى الكلام في الوقت الفعلي!

يمكنك ترجمة الكلام في ملف WAV باستخدام النماذج المدربة مسبقًا. انتقل إلى دليل الوصفة وقم بتشغيل utils/translate_wav.sh على النحو التالي:

 # Go to recipe directory and source path of espnet tools
cd egs/fisher_callhome_spanish/st1 && . ./path.sh
# download example wav file
wget -O - https://github.com/espnet/espnet/files/4100928/test.wav.tar.gz | tar zxvf -
# let's translate speech!
translate_wav.sh --models fisher_callhome_spanish.transformer.v1.es-en test.wav

حيث test.wav هو ملف WAV ليتم ترجمته. يجب أن يكون معدل أخذ العينات متسقًا مع معدل البيانات المستخدمة في التدريب.

يتم سرد النماذج المتوفرة التي تم تدريبها مسبقًا في البرنامج النصي التجريبي على النحو التالي.

نموذج	ملحوظات
Fisher_Callhome_Spanish.transformer.v1	Transformer-ST مدرب على Fisher-Callhome Spanish es-> en

نتائج MT

يوسع

مهمة	بلو	نموذج تدريب مسبقًا
Fisher-Callhome Fisher_test (ES-> EN)	61.45	وصلة
Fisher-Callhome Spanish Callhome_evltest (ES-> EN)	29.86	وصلة
اختبار libri-trans (en-> الاب)	18.09	وصلة
How2 dev5 (en-> pt)	58.61	وصلة
Must-c tst-common (en-> de)	27.63	وصلة
iwslt'14 test2014 (en-> de)	24.70	وصلة
iwslt'14 test2014 (de-> en)	29.22	وصلة
iwslt'14 test2014 (de-> en)	32.2	وصلة
iwslt'16 Test2014 (en-> de)	24.05	وصلة
iwslt'16 test2014 (de-> en)	29.13	وصلة

نتائج TTS

ESPNET2

يمكنك الاستماع إلى العينات التي تم إنشاؤها في عنوان URL التالي.

تم إنشاء ESPNET2 TTS

لاحظ أنه في الجيل ، نستخدم Griffin-Lim ( wav/ ) و Wavegan المتوازي ( wav_pwg/ ).

يمكنك تنزيل النماذج التي تم تدريبها مسبقًا عبر espnet_model_zoo .

espnet نموذج حديقة الحيوان
قائمة النماذج التي تم تدريبها مسبقًا

يمكنك تنزيل المبردات التي تم تدريبها مسبقًا عبر kan-bayashi/ParallelWaveGAN .

Kan-Bayashi/Parallelwavegan
قائمة الصوت المدربة قبل التدريب

ESPNET1

ملاحظة: نحن ننتقل إلى تطوير ESPNET2 لـ TTS. يرجى التحقق من أحدث النتائج في نتائج ESPNET2 أعلاه.

يمكنك الاستماع إلى عيناتنا في عينة HP HP ESPNET-TTS. هنا ندرج بعض الأسلوب البارز:

المتحدث الإنجليزي الفردي Tacotron2
المتحدث الياباني واحد تاكوتون 2
متحدث لغوي واحد آخر Tacotron2
متحدث متعدد اللغة الإنجليزية Tacotron2
محول المتحدث الإنجليزي الفردي
المتحدث الإنجليزي الفردي Fastspeech
محول مكبر الصوت متعدد الإنجليز
مكبر صوت إيطالي واحد Fastspeech
محول مكبر الصوت المنفرد الماندرين
ماندرين واحد مكبر الصوت Fastspeech
محول مكبر صوت ياباني متعدد
نماذج مكبرات الصوت الإنجليزية الفردية مع Wavegan المتوازي
فرد المعرفة الإنجليزية المعرفة القائمة على التقطير القائم على التقطير

يمكنك تنزيل جميع النماذج المدربة مسبقًا وعينات تم إنشاؤها:

جميع نماذج E2E-TTS التي تم تدريبها مسبقًا
جميع العينات التي تم إنشاؤها

لاحظ أنه في العينات التي تم إنشاؤها ، نستخدم المفرطات التالية: Griffin-Lim ( GL ) ، و Wavenet Vocoder ( Wavenet ) ، وموازس الموازي ( الموازية ) ، و Melgan ( Melgan ). تستند المفرطون العصبيون إلى المستودعات التالية.

Kan-Bayashi / Parallelwavegan: Wavegan / Melgan / Multi-Band Melgan
r9y9/wavenet_vocoder: 16 بت مزيج من الخدمات اللوجستية wavenet vocoder
kan-bayashi/pytorchwavenetvocoder: 8 بت softmax wavenet vocoder مع تشكيل الضوضاء

إذا كنت ترغب في إنشاء Vocoder العصبي الخاص بك ، فيرجى التحقق من المستودعات أعلاه. يوفر Kan-Bayashi/Parallelwavegan الدليل حول كيفية فك تشفير ميزات طراز ESPNET-TTS مع الموفرات العصبية. يرجى التحقق من ذلك.

هنا ندرج جميع المركبات العصبية التي تم تدريبها مسبقًا. يرجى تنزيل والاستمتاع بتوليد الكلام عالي الجودة!

رابط النموذج	لانغ	FS [هرتز]	MEL Range [HZ]	FFT / Shift / Win [PT]	نوع النموذج
ljspeech.wavenet.softmax.ns.v1	en	22.05k	لا أحد	1024 /256 / لا شيء	Wavenet softmax
ljspeech.wavenet.mol.v1	en	22.05k	لا أحد	1024 /256 / لا شيء	مول wavenet
ljspeech.paralled_wavegan.v1	en	22.05k	لا أحد	1024 /256 / لا شيء	موازي Wavegan
ljspeech.wavenet.mol.v2	en	22.05k	80-7600	1024 /256 / لا شيء	مول wavenet
ljspeech.paralled_wavegan.v2	en	22.05k	80-7600	1024 /256 / لا شيء	موازي Wavegan
ljspeech.melgan.v1	en	22.05k	80-7600	1024 /256 / لا شيء	ميليغان
ljspeech.melgan.v3	en	22.05k	80-7600	1024 /256 / لا شيء	ميليغان
libritts.wavenet.mol.v1	en	24k	لا أحد	1024 /256 / لا شيء	مول wavenet
jsut.wavenet.mol.v1	JP	24k	80-7600	2048 / 300/1200	مول wavenet
jsut.paralled_wavegan.v1	JP	24k	80-7600	2048 / 300/1200	موازي Wavegan
CSMSC.WAVENET.MOL.V1	ZH	24k	80-7600	2048 / 300/1200	مول wavenet
CSMSC.Paralled_wavegan.v1	ZH	24k	80-7600	2048 / 300/1200	موازي Wavegan

إذا كنت ترغب في استخدام المبردات المذكورة أعلاه مسبقًا ، فيرجى مطابقة إعداد الميزات معهم بالضبط.

TTS Demo

ESPNET2

يمكنك تجربة العرض التوضيحي في الوقت الفعلي في Google Colab. يرجى الوصول إلى دفتر الملاحظات من الزر التالي والاستمتاع بتوليف الوقت الحقيقي!

في الوقت الحقيقي TTS Demo مع ESPNET2

نماذج اللغة الإنجليزية واليابانية والماندرين متوفرة في العرض التوضيحي.

ESPNET1

ملاحظة: نحن ننتقل إلى تطوير ESPNET2 لـ TTS. يرجى التحقق من أحدث عرض تجريبي في العرض التوضيحي ESPNET2 أعلاه.

يمكنك تجربة العرض التوضيحي في الوقت الفعلي في Google Colab. يرجى الوصول إلى دفتر الملاحظات من الزر التالي والاستمتاع بتوليف الوقت الحقيقي.

في الوقت الحقيقي TTS Demo مع ESPNET1

نحن نقدم أيضًا برنامج نصي Shell لأداء التوليف. انتقل إلى دليل الوصفة وقم بتشغيل utils/synth_wav.sh على النحو التالي:

 # Go to recipe directory and source path of espnet tools
cd egs/ljspeech/tts1 && . ./path.sh
# We use an upper-case char sequence for the default model.
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example.txt
# let's synthesize speech!
synth_wav.sh example.txt

# Also, you can use multiple sentences
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example_multi.txt
echo " TEXT TO SPEECH IS A TECHNIQUE TO CONVERT TEXT INTO SPEECH. " >> example_multi.txt
synth_wav.sh example_multi.txt

يمكنك تغيير النموذج الذي تم تدريبه مسبقًا على النحو التالي:

synth_wav.sh --models ljspeech.fastspeech.v1 example.txt

يتم تنفيذ توليف الموجة مع خوارزمية غريفين-سميك والمركبات العصبية (Wavenet و Parallelwavegan). يمكنك تغيير نموذج Vocoder الذي تم تدريبه مسبقًا على النحو التالي:

synth_wav.sh --vocoder_models ljspeech.wavenet.mol.v1 example.txt

يوفر Wavenet Vocoder خطابًا عالي الجودة للغاية ، لكن الأمر يستغرق وقتًا لتوليده.

شاهد المزيد من التفاصيل أو النماذج المتاحة عبر --help .

synth_wav.sh --help

نتائج VC

يوسع

VC المستندة إلى Transformer و Tacotron2

يمكنك الاستماع إلى بعض العينات على صفحة الويب التجريبية.

Cascade ASR+TTS كأحد أنظمة خط الأساس لـ VCC2020

يتبنى تحدي تحويل الصوت 2020 (VCC2020) ESPNET لبناء نظام أساسي قائم على الطرف. في VCC2020 ، فإن الهدف هو VC غير المتوازي داخل اللغات. يمكنك تنزيل عينات تم تحويلها من نظام خط الأساس ASR+TTS Cascade هنا.

نتائج SLU

يوسع

ندرج الأداء على مختلف مهام SLU ومجموعات البيانات باستخدام المقياس المذكور في ورقة البيانات الأصلية

مهمة	مجموعة البيانات	متري	نتيجة	نموذج تدريب مسبقًا
تصنيف النوايا	تسرع في الشراب	ACC	86.3	وصلة
تصنيف النوايا	FSC	ACC	99.6	وصلة
تصنيف النوايا	مجموعة مكبرات الصوت FSC unseen	ACC	98.6	وصلة
تصنيف النوايا	مجموعة الكلام غير المرئي FSC	ACC	86.4	وصلة
تصنيف النوايا	مجموعة المتحدثين التحدي FSC	ACC	97.5	وصلة
تصنيف النوايا	مجموعة الكلام التحدي FSC	ACC	78.5	وصلة
تصنيف النوايا	قصاصات	F1	91.7	وصلة
تصنيف النوايا	Grabo (NL)	ACC	97.2	وصلة
تصنيف النوايا	خريطة Cat SLU (Zn)	ACC	78.9	وصلة
تصنيف النوايا	أوامر خطاب Google	ACC	98.4	وصلة
حشوة الفتحة	تسرع في الشراب	SLU-F1	71.9	وصلة
تصنيف قانون الحوار	لوحة التبديل	ACC	67.5	وصلة
تصنيف قانون الحوار	Jdcinal (JP)	ACC	67.4	وصلة
التعرف على العاطفة	IEMOCAP	ACC	69.4	وصلة
التعرف على العاطفة	SWBD_SENTIMENT	ماكرو F1	61.4	وصلة
التعرف على العاطفة	slue_voxceleb	ماكرو F1	44.0	وصلة

إذا كنت ترغب في التحقق من نتائج الوصفات الأخرى ، فيرجى التحقق من egs2/<name_of_recipe>/asr1/RESULTS.md .

تجزئة CTC التجريبية

ESPNET1

تحدد تجزئة CTC شرائح الكلام داخل الملفات الصوتية. تشكل قطاعات الكلام المحاذاة ملصقات مجموعات بيانات الكلام.

كعروض تجريبية ، نقوم بمحاذاة بداية النطاقات ونهاية ملف الصوت ctc_align_test.wav ، باستخدام مثال البرنامج النصي utils/asr_align_wav.sh . للتحضير ، قم بإعداد دليل بيانات:

 cd egs/tedlium2/align1/
# data directory
align_dir=data/demo
mkdir -p ${align_dir}
# wav file
base=ctc_align_test
wav=../../../test_utils/ ${base} .wav
# recipe files
echo " batchsize: 0 " > ${align_dir} /align.yaml

cat << EOF > ${align_dir} /utt_text
${base} THE SALE OF THE HOTELS
${base} IS PART OF HOLIDAY'S STRATEGY
${base} TO SELL OFF ASSETS
${base} AND CONCENTRATE
${base} ON PROPERTY MANAGEMENT
EOF

هنا ، utt_text هو الملف الذي يحتوي على قائمة الكلمات. اختر نموذج ASR المدربين مسبقًا يتضمن طبقة CTC للعثور على شرائح الكلام:

 # pre-trained ASR model
model=wsj.transformer_small.v1
mkdir ./conf && cp ../../wsj/asr1/conf/no_preprocess.yaml ./conf

../../../utils/asr_align_wav.sh 
    --models ${model} 
    --align_dir ${align_dir} 
    --align_config ${align_dir} /align.yaml 
    ${wav} ${align_dir} /utt_text

تتم كتابة الأجزاء إلى aligned_segments كقائمة بأسماء الملف/الكلام ، وبدء الكلام ونهاية الأوقات في ثوان ، ودرجة الثقة. درجة الثقة هي احتمال في مساحة السجل التي تشير إلى مدى توافق الكلام. إذا لزم الأمر ، قم بإزالة الكلمات السيئة:

min_confidence_score=-5
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' ${align_dir} /aligned_segments

يستخدم البرنامج النصي التجريبي utils/ctc_align_wav.sh نموذج ASR الذي تم تدريبه مسبقًا (انظر القائمة أعلاه لمزيد من النماذج). يوصى باستخدام النماذج مع عمليات التشفير المستندة إلى RNN (مثل BLSTMP) لمحاذاة ملفات الصوت الكبيرة ؛ بدلاً من استخدام نماذج المحولات مع استهلاك ذاكرة عالية على بيانات الصوت الأطول. يجب أن يكون معدل عينة الصوت متسقًا مع معدل البيانات المستخدمة في التدريب ؛ ضبط مع sox إذا لزم الأمر. وصفة مثال كاملة في egs/tedlium2/align1/ .

ESPNET2

تحدد تجزئة CTC شرائح الكلام داخل الملفات الصوتية. تشكل قطاعات الكلام المحاذاة ملصقات مجموعات بيانات الكلام.

كعروض تجريبية ، نقوم بمحاذاة بداية ونهاية الكلام داخل ملف الصوت ctc_align_test.wav . يمكن القيام بذلك إما مباشرة من سطر أوامر Python أو باستخدام البرنامج النصي espnet2/bin/asr_align.py .

من واجهة سطر أوامر Python:

 # load a model with character tokens
from espnet_model_zoo . downloader import ModelDownloader
d = ModelDownloader ( cachedir = "./modelcache" )
wsjmodel = d . download_and_unpack ( "kamo-naoyuki/wsj" )
# load the example file included in the ESPnet repository
import soundfile
speech , rate = soundfile . read ( "./test_utils/ctc_align_test.wav" )
# CTC segmentation
from espnet2 . bin . asr_align import CTCSegmentation
aligner = CTCSegmentation ( ** wsjmodel , fs = rate )
text = """
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE ON PROPERTY MANAGEMENT
"""
segments = aligner ( speech , text )
print ( segments )
# utt1 utt 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 utt 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 utt 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 utt 4.20 6.10 -0.4899 AND CONCENTRATE ON PROPERTY MANAGEMENT

يعمل المحاذاة أيضًا مع أجزاء من النص. لهذا ، قم بتعيين خيار gratis_blank الذي يسمح بتخطي أقسام صوتية غير ذات صلة دون عقوبة. من الممكن أيضًا حذف أسماء الكلام في بداية كل سطر عن طريق تعيين kaldi_style_text إلى false.

 aligner . set_config ( gratis_blank = True , kaldi_style_text = False )
text = [ "SALE OF THE HOTELS" , "PROPERTY MANAGEMENT" ]
segments = aligner ( speech , text )
print ( segments )
# utt_0000 utt 0.37 1.72 -2.0651 SALE OF THE HOTELS
# utt_0001 utt 4.70 6.10 -5.0566 PROPERTY MANAGEMENT

يستخدم البرنامج النصي espnet2/bin/asr_align.py واجهة مماثلة. لمحاذاة الكلمات:

 # ASR model and config files from pre-trained model (e.g., from cachedir):
asr_config= < path-to-model > /config.yaml
asr_model= < path-to-model > /valid. * best.pth
# prepare the text file
wav= " test_utils/ctc_align_test.wav "
text= " test_utils/ctc_align_text.txt "
cat << EOF > ${text}
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE
utt5 ON PROPERTY MANAGEMENT
EOF
# obtain alignments:
python espnet2/bin/asr_align.py --asr_train_config ${asr_config} --asr_model_file ${asr_model} --audio ${wav} --text ${text}
# utt1 ctc_align_test 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 ctc_align_test 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 ctc_align_test 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 ctc_align_test 4.20 4.97 -0.6017 AND CONCENTRATE
# utt5 ctc_align_test 4.97 6.10 -0.3477 ON PROPERTY MANAGEMENT

يمكن إعادة توجيه إخراج البرنامج النصي إلى ملف segments عن طريق إضافة الوسيطة --output segments . يحتوي كل سطر على اسم الملف/الكلام ، وبدء الكلام والنهاية في ثوان ، ودرجة الثقة ؛ اختياريا أيضا نص الكلام. درجة الثقة هي احتمال في مساحة السجل التي تشير إلى مدى توافق الكلام. إذا لزم الأمر ، قم بإزالة الكلمات السيئة:

min_confidence_score=-7
# here, we assume that the output was written to the file `segments`
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' segments

راجع وثائق الوحدة لمزيد من المعلومات. يوصى باستخدام النماذج مع عمليات التشفير المستندة إلى RNN (مثل BLSTMP) لمحاذاة ملفات الصوت الكبيرة ؛ بدلاً من استخدام نماذج المحولات التي لها استهلاك ذاكرة عالية على بيانات الصوت الأطول. يجب أن يكون معدل عينة الصوت متسقًا مع معدل البيانات المستخدمة في التدريب ؛ ضبط مع sox إذا لزم الأمر.

أيضًا ، يمكننا استخدام هذه الأداة لتوفير معلومات تجزئة على مستوى الرمز المميز إذا قمنا بإعداد قائمة من الرموز بدلاً من الكلام في الملف text . انظر المناقشة في #4278 (تعليق).

الاستشهادات

 @inproceedings{watanabe2018espnet,
  author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson {Enrique Yalta Soplin} and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
  title={{ESPnet}: End-to-End Speech Processing Toolkit},
  year={2018},
  booktitle={Proceedings of Interspeech},
  pages={2207--2211},
  doi={10.21437/Interspeech.2018-1456},
  url={http://dx.doi.org/10.21437/Interspeech.2018-1456}
}
@inproceedings{hayashi2020espnet,
  title={{Espnet-TTS}: Unified, reproducible, and integratable open source end-to-end text-to-speech toolkit},
  author={Hayashi, Tomoki and Yamamoto, Ryuichi and Inoue, Katsuki and Yoshimura, Takenori and Watanabe, Shinji and Toda, Tomoki and Takeda, Kazuya and Zhang, Yu and Tan, Xu},
  booktitle={Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={7654--7658},
  year={2020},
  organization={IEEE}
}
@inproceedings{inaguma-etal-2020-espnet,
    title = "{ESP}net-{ST}: All-in-One Speech Translation Toolkit",
    author = "Inaguma, Hirofumi  and
      Kiyono, Shun  and
      Duh, Kevin  and
      Karita, Shigeki  and
      Yalta, Nelson  and
      Hayashi, Tomoki  and
      Watanabe, Shinji",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-demos.34",
    pages = "302--311",
}
@article{hayashi2021espnet2,
  title={{ESP}net2-{TTS}: Extending the edge of {TTS} research},
  author={Hayashi, Tomoki and Yamamoto, Ryuichi and Yoshimura, Takenori and Wu, Peter and Shi, Jiatong and Saeki, Takaaki and Ju, Yooncheol and Yasuda, Yusuke and Takamichi, Shinnosuke and Watanabe, Shinji},
  journal={arXiv preprint arXiv:2110.07840},
  year={2021}
}
@inproceedings{li2020espnet,
  title={{ESPnet-SE}: End-to-End Speech Enhancement and Separation Toolkit Designed for {ASR} Integration},
  author={Chenda Li and Jing Shi and Wangyou Zhang and Aswin Shanmugam Subramanian and Xuankai Chang and Naoyuki Kamo and Moto Hira and Tomoki Hayashi and Christoph Boeddeker and Zhuo Chen and Shinji Watanabe},
  booktitle={Proceedings of IEEE Spoken Language Technology Workshop (SLT)},
  pages={785--792},
  year={2021},
  organization={IEEE},
}
@inproceedings{arora2021espnet,
  title={{ESPnet-SLU}: Advancing Spoken Language Understanding through ESPnet},
  author={Arora, Siddhant and Dalmia, Siddharth and Denisov, Pavel and Chang, Xuankai and Ueda, Yushi and Peng, Yifan and Zhang, Yuekai and Kumar, Sujay and Ganesan, Karthik and Yan, Brian and others},
  booktitle={ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={7167--7171},
  year={2022},
  organization={IEEE}
}
@inproceedings{shi2022muskits,
  author={Shi, Jiatong and Guo, Shuai and Qian, Tao and Huo, Nan and Hayashi, Tomoki and Wu, Yuning and Xu, Frank and Chang, Xuankai and Li, Huazhe and Wu, Peter and Watanabe, Shinji and Jin, Qin},
  title={{Muskits}: an End-to-End Music Processing Toolkit for Singing Voice Synthesis},
  year={2022},
  booktitle={Proceedings of Interspeech},
  pages={4277-4281},
  url={https://www.isca-speech.org/archive/pdfs/interspeech_2022/shi22d_interspeech.pdf}
}
@inproceedings{lu22c_interspeech,
  author={Yen-Ju Lu and Xuankai Chang and Chenda Li and Wangyou Zhang and Samuele Cornell and Zhaoheng Ni and Yoshiki Masuyama and Brian Yan and Robin Scheibler and Zhong-Qiu Wang and Yu Tsao and Yanmin Qian and Shinji Watanabe},
  title={{ESPnet-SE++: Speech Enhancement for Robust Speech Recognition, Translation, and Understanding}},
  year=2022,
  booktitle={Proc. Interspeech 2022},
  pages={5458--5462},
}
@inproceedings{gao2023euro,
  title={{EURO: ESP}net unsupervised {ASR} open-source toolkit},
  author={Gao, Dongji and Shi, Jiatong and Chuang, Shun-Po and Garcia, Leibny Paola and Lee, Hung-yi and Watanabe, Shinji and Khudanpur, Sanjeev},
  booktitle={ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={1--5},
  year={2023},
  organization={IEEE}
}
@inproceedings{peng2023reproducing,
  title={Reproducing {W}hisper-style training using an open-source toolkit and publicly available data},
  author={Peng, Yifan and Tian, Jinchuan and Yan, Brian and Berrebbi, Dan and Chang, Xuankai and Li, Xinjian and Shi, Jiatong and Arora, Siddhant and Chen, William and Sharma, Roshan and others},
  booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
  pages={1--8},
  year={2023},
  organization={IEEE}
}
@inproceedings{sharma2023espnet,
  title={ESPnet-{SUMM}: Introducing a novel large dataset, toolkit, and a cross-corpora evaluation of speech summarization systems},
  author={Sharma, Roshan and Chen, William and Kano, Takatomo and Sharma, Ruchira and Arora, Siddhant and Watanabe, Shinji and Ogawa, Atsunori and Delcroix, Marc and Singh, Rita and Raj, Bhiksha},
  booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
  pages={1--8},
  year={2023},
  organization={IEEE}
}
@article{jung2024espnet,
  title={{ESPnet-SPK}: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models},
  author={Jung, Jee-weon and Zhang, Wangyou and Shi, Jiatong and Aldeneh, Zakaria and Higuchi, Takuya and Theobald, Barry-John and Abdelaziz, Ahmed Hussen and Watanabe, Shinji},
  journal={Proc. Interspeech 2024},
  year={2024}
}
@inproceedings{yan-etal-2023-espnet,
    title = "{ESP}net-{ST}-v2: Multipurpose Spoken Language Translation Toolkit",
    author = "Yan, Brian  and
      Shi, Jiatong  and
      Tang, Yun  and
      Inaguma, Hirofumi  and
      Peng, Yifan  and
      Dalmia, Siddharth  and
      Pol{'a}k, Peter  and
      Fernandes, Patrick  and
      Berrebbi, Dan  and
      Hayashi, Tomoki  and
      Zhang, Xiaohui  and
      Ni, Zhaoheng  and
      Hira, Moto  and
      Maiti, Soumi  and
      Pino, Juan  and
      Watanabe, Shinji",
    booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations)",
    year = "2023",
    publisher = "Association for Computational Linguistics",
    pages = "400--411",
}

يوسع

معلومات إضافية

الإصدار version 202409
النوع شفرة المصدر الأخرى
وقت التحديث 2025-02-02
الحجم 23.14MB
من Github

تطبيقات ذات صلة

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
waymo open dataset

شفرة المصدر الأخرى

December 2023 Update
SmartTube

شفرة المصدر الأخرى

24.71 Stable
Sunamu

شفرة المصدر الأخرى

Release 2.2.0
waymo open dataset

شفرة المصدر الأخرى

December 2023 Update
wp functions

فئات أخرى

1.0.0
termwind

فئات أخرى

v2.3.0

أخبار ذات صلة الكل