أمفيون (/æmˈfaɪən/) عبارة عن مجموعة أدوات لتوليد الصوت والموسيقى والكلام. والغرض منه هو دعم الأبحاث القابلة للتكرار ومساعدة الباحثين والمهندسين المبتدئين على البدء في مجال البحث والتطوير في مجال الصوت والموسيقى وتوليد الكلام. يقدم Amphion ميزة فريدة: تصورات للنماذج أو البنى الكلاسيكية. نعتقد أن هذه التصورات مفيدة للباحثين والمهندسين المبتدئين الذين يرغبون في الحصول على فهم أفضل للنموذج.
هدف North-Star من Amphion هو توفير منصة لدراسة تحويل أي مدخلات إلى صوت. تم تصميم Amphion لدعم مهام الإنشاء الفردية، بما في ذلك على سبيل المثال لا الحصر،
تحويل النص إلى كلام: تحويل النص إلى كلام (مدعوم)
SVS : الغناء الصوتي التركيبي (تطوير)
VC : تحويل الصوت (تطوير)
SVC : تحويل الصوت الغنائي (مدعوم)
TTA : تحويل النص إلى صوت (مدعوم)
TTM : النص إلى الموسيقى (تطوير)
أكثر…
بالإضافة إلى مهام التوليد المحددة، يتضمن Amphion العديد من المشفرين الصوتيين ومقاييس التقييم . يعد المشفر الصوتي وحدة مهمة لإنتاج إشارات صوتية عالية الجودة، في حين أن مقاييس التقييم ضرورية لضمان مقاييس متسقة في مهام التوليد. علاوة على ذلك، تكرس أمفيون جهودها لتطوير توليد الصوت في تطبيقات العالم الحقيقي، مثل بناء مجموعات بيانات واسعة النطاق لتركيب الكلام.
2024/10/19 : أطلقنا MaskGCT ، وهو نموذج TTS غير انحداري بالكامل يلغي الحاجة إلى معلومات محاذاة صريحة بين الإشراف على النص والكلام. تم تدريب MaskGCT على مجموعة بيانات Emilia ويحقق أداء SOTA Zero-shot TTS.
2024/09/01 : تم قبول Amphion وEmilia وDSFF-SVC من قبل IEEE SLT 2024! ؟
2024/08/28 : مرحبًا بك في الانضمام إلى قناة Amphion's Discord للبقاء على اتصال والتفاعل مع مجتمعنا!
2024/08/20 : تم قبول SingVisio بواسطة Computers & Graphics، وهو متاح هنا! ؟
2024/08/27 : مجموعة بيانات إميليا متاحة الآن للعامة! اكتشف مجموعة بيانات توليد الكلام الأكثر شمولاً وتنوعًا مع 101 ألف ساعة من بيانات الكلام المتاحة الآن في أو! ؟؟؟؟
2024/07/01 : تطلق Amphion الآن Emilia ، وهي أول مجموعة بيانات مفتوحة المصدر ومتعددة اللغات لتوليد الكلام مع أكثر من 101 ألف ساعة من بيانات الكلام، و Emilia-Pipe ، وهو أول خط أنابيب للمعالجة المسبقة مفتوح المصدر مصمم لتحويل تحويل بيانات الكلام البرية إلى بيانات تدريب عالية الجودة مع التعليقات التوضيحية لتوليد الكلام!
2024/06/17 : لدى Amphion إصدار جديد لطراز VALL-E ! يستخدم اللاما كبنية أساسية له ويتمتع بأداء أفضل للنموذج، وسرعة تدريب أسرع، وأكواد أكثر قابلية للقراءة مقارنة بإصدارنا الأول.
2024/03/12 : يدعم Amphion الآن NaturalSpeech3 FACodec ويطلق نقاط التفتيش المُدربة مسبقًا.
2024/02/22 : إصدار أول أداة تصور Amphion، SingVisio .
2023/12/18 : إصدار Amphion v0.1.
2023/11/28 : إطلاق أمفيون ألفا.
تحقق Amphion أداءً متطورًا مقارنة بالمستودعات الحالية مفتوحة المصدر لأنظمة تحويل النص إلى كلام (TTS). وهو يدعم النماذج أو البنيات التالية:
FastSpeech2: بنية TTS غير انحدارية تستخدم كتل محولات التغذية الأمامية.
VITS: بنية TTS شاملة تستخدم أداة التشفير التلقائي المتغيرة المشروطة مع التعلم التنافسي
VALL-E: بنية TTS بدون لقطة تستخدم نموذج لغة الترميز العصبي مع رموز منفصلة.
NaturalSpeech2: بنية لتحويل النص إلى كلام تستخدم نموذج نشر كامن لتوليد أصوات ذات صوت طبيعي.
Jets: نموذج TTS شامل يقوم بتدريب FastSpeech2 وHiFi-GAN بشكل مشترك باستخدام وحدة محاذاة.
MaskGCT: بنية TTS غير انحدارية بالكامل تلغي الحاجة إلى معلومات محاذاة صريحة بين الإشراف على النص والكلام.
يدعم Ampion العديد من الميزات المستندة إلى المحتوى من نماذج مختلفة مُدربة مسبقًا، بما في ذلك WeNet وWhisper وContentVec. لقد تم التحقيق في أدوارهم المحددة في SVC في ورقة SLT 2024 الخاصة بنا.
تطبق Amphion العديد من بنيات النماذج الحديثة، بما في ذلك النماذج القائمة على الانتشار والمحولات وVAE والنماذج القائمة على التدفق. تستخدم البنية القائمة على الانتشار شبكة CNN المتوسعة ثنائية الاتجاه كواجهة خلفية وتدعم العديد من خوارزميات أخذ العينات مثل DDPM وDDIM وPNDM. بالإضافة إلى ذلك، فهو يدعم الاستدلال بخطوة واحدة استنادًا إلى نموذج الاتساق.
يدعم Amphion TTA بنموذج نشر كامن. تم تصميمه مثل AudioLDM، وMake-an-Audio، وAUDIT. إنه أيضًا التنفيذ الرسمي لجزء تحويل النص إلى الصوت من ورقة NeurIPS 2023 الخاصة بنا.
يدعم Amphion العديد من المشفرات الصوتية العصبية المستخدمة على نطاق واسع، بما في ذلك:
برامج التشفير الصوتي المعتمدة على GAN: MelGAN، وHiFi-GAN، وNSF-HiFiGAN، وBigVGAN، وAPNet.
المشفرون الصوتيون المعتمدون على التدفق: WaveGlow.
المشفرون الصوتيون القائمون على الانتشار: Diffwave.
أجهزة التشفير الصوتي ذات الانحدار التلقائي: WaveNet، وWaveRNN.
توفر Amphion التنفيذ الرسمي لمميز التحويل Multi-Scale Constant-Q (ورقة ICASSP 2024 الخاصة بنا). يمكن استخدامه لتحسين أي بنية للمشفرات الصوتية المستندة إلى GAN أثناء التدريب، والحفاظ على مرحلة الاستدلال (مثل الذاكرة أو السرعة) دون تغيير.
يوفر Amphion تقييمًا موضوعيًا شاملاً للصوت الذي تم إنشاؤه. تحتوي مقاييس التقييم على:
نمذجة F0 : معاملات بيرسون F0، خطأ مربع متوسط جذر دورية F0، خطأ مربع متوسط جذر F0، درجة F1 الصوتية/غير الصوتية، إلخ.
نمذجة الطاقة : جذر الطاقة لمتوسط مربع الخطأ، معاملات بيرسون للطاقة، إلخ.
الوضوح : معدل خطأ الأحرف/الكلمات، والذي يمكن حسابه بناءً على الهمس والمزيد.
تشويه الطيف : مسافة الصوت Frechet (FAD)، تشويه Mel Cepstral (MCD)، مسافة STFT متعددة الدقة (MSTFT)، التقييم الإدراكي لجودة الكلام (PESQ)، وضوح الهدف في الوقت القصير (STOI)، إلخ.
تشابه المتحدث : تشابه جيب التمام، والذي يمكن حسابه بناءً على RawNet3 وResemblyzer وWeSpeaker وWavLM والمزيد.
يقوم Amphion بتوحيد المعالجة المسبقة للبيانات لمجموعات البيانات مفتوحة المصدر بما في ذلك AudioCaps وLibriTTS وLJSpeech وM4Singer وOpencpop وOpenSinger وSVCC وVCTK والمزيد. يمكن الاطلاع على قائمة مجموعات البيانات المدعومة هنا (تحديث).
يدعم Amphion (حصريًا) مجموعة بيانات Emilia وخط أنابيب المعالجة المسبقة الخاص بها Emilia-Pipe للحصول على بيانات الكلام البرية!
توفر Amphion أدوات تصور لتوضيح آلية المعالجة الداخلية للنماذج الكلاسيكية بشكل تفاعلي. وهذا يوفر موردا لا يقدر بثمن للأغراض التعليمية وتسهيل البحث المفهوم.
حاليًا، تدعم Amphion SingVisio، وهي أداة تصور لنموذج الانتشار لتحويل الصوت الغنائي.
يمكن تثبيت Amphion من خلال Setup Installer أو Docker Image.
git clone https://github.com/open-mmlab/Amphion.gitcd Amphion# تثبيت Python Environmentconda create --name amphion python=3.9.15 condaactivate amphion# تثبيت تبعيات حزم Pythonsh env.sh
قم بتثبيت Docker وNVIDIA Driver وNVIDIA Container Toolkit وCUDA.
قم بتشغيل الأوامر التالية:
استنساخ بوابة https://github.com/open-mmlab/Amphion.gitcd أمفيون عامل ميناء سحب Realamphion/amphion تشغيل عامل الميناء --runtime=nvidia --gpus all -it -v .:/app realamphion/amphion
يعد تركيب مجموعة البيانات بواسطة الوسيطة -v
ضروريًا عند استخدام Docker. يرجى الرجوع إلى مجموعة بيانات التحميل في حاوية Docker وDocker Docs لمزيد من التفاصيل.
نقوم بتفصيل تعليمات المهام المختلفة في الوصفات التالية:
تحويل النص إلى كلام (TTS)
تحويل صوت الغناء (SVC)
تحويل النص إلى صوت (TTA)
مشفر صوتي
تقييم
التصور
نحن نقدر كل المساهمات لتحسين Amphion. يرجى الرجوع إلى CONTRIBUTING.md للحصول على إرشادات المساهمة.
FastSpeech2 الخاص بـ ming024 و VITS الخاص بـ jaywalnut310 لرمز بنية النموذج.
Lifeiteng's VALL-E للتدريب على خطوط الأنابيب وتصميم الهندسة المعمارية النموذجية.
SpeechTokenizer لتصميم الرمز المميز المقطر الدلالي.
WeNet وWhisper وContentVec وRawNet3 للنماذج المدربة مسبقًا وكود الاستدلال.
HiFi-GAN لتصميم بنية Vocoder المستندة إلى GAN واستراتيجية التدريب.
تشفير لبنية GAN Discriminator والكتل الأساسية جيدة التنظيم.
الانتشار الكامن لتصميم العمارة النموذجية.
TensorFlowTTS لإعداد أدوات MFA.
أمفيون تحت ترخيص معهد ماساتشوستس للتكنولوجيا. إنه مجاني لكل من حالات الاستخدام البحثي والتجاري.
@inproceedings{amphion,author={Zhang, Xueyao and Xue, Liumeng and Gu, Yicheng and Wang, Yuancheng and Li, Jiaqi and He, Haorui and Wang, Chaoren and Song, Ting and Chen, Xi and Fang, Zihao and Chen, Haopeng and Zhang، Junan and Tang، Tze Ying and Zou، Lexiao and Wang، Mingxuan and Han، Jun and Chen، Kai and Li، Haizhou and Wu، Zhizheng}،title={Amphion: صوت وموسيقى وكلام مفتوح المصدر مجموعة أدوات الإنشاء},booktitle={{IEEE} ورشة عمل تكنولوجيا اللغة المنطوقة، {SLT} 2024},year={2024}}