الإنجليزية | 简体中文 | 日本語
يدعم الطراز الذي تم إصداره حاليًا تحويل الصوت بدون طلقة ؟ ، وتحويل الصوت في الوقت الحقيقي بدون لقطة وتحويل الصوت الغنائي بدون لقطة . بدون أي تدريب، فهو قادر على استنساخ صوت في ضوء خطاب مرجعي مدته 1 ~ 30 ثانية.
للعثور على قائمة بالعروض التوضيحية والمقارنات مع نماذج التحويل الصوتي السابقة، يرجى زيارة صفحتنا التجريبية
نحن نواصل تحسين جودة النموذج وإضافة المزيد من الميزات.
لقد أجرينا سلسلة من التقييمات الموضوعية على قدرات تحويل الصوت الخاصة بـ Seed-VC. لسهولة إعادة الإنتاج، تتكون الصوتيات المصدر من 100 عبارة عشوائية من اختبار LibriTTS، والصوتيات المرجعية عبارة عن 12 صوتًا تم اختيارها عشوائيًا وتتميز بخصائص فريدة.
يمكن العثور على صوتيات المصدر ضمن ./examples/libritts-test-clean
يمكن العثور على الصوتيات المرجعية ضمن ./examples/reference
نقوم بتقييم نتائج التحويل من حيث تشابه جيب التمام (SECS)، ومعدل خطأ الكلمات (WER)، ومعدل خطأ الأحرف (CER)، وقمنا بمقارنة نتائجنا مع اثنين من خطوط الأساس القوية مفتوحة المصدر، وهما OpenVoice وCosyVoice.
توضح النتائج في الجدول أدناه أن نموذج Seed-VC الخاص بنا يتفوق بشكل كبير على النماذج الأساسية في كل من الوضوح وتشابه السماعات.
النماذجالمقاييس | SECS↑ | WER↓ | خفض الانبعاثات المعتمدة↓ | سيج ↑ | باك ↑ | الإجمالي ↑ |
---|---|---|---|---|---|---|
الحقيقة الأرضية | 1.0000 | 8.02 | 1.57 | ~ | ~ | ~ |
صوت مفتوح | 0.7547 | 15.46 | 4.73 | 3.56 | 4.02 | 3.27 |
صوت مريح | 0.8440 | 18.98 | 7.29 | 3.51 | 4.02 | 3.21 |
Seed-VC (لنا) | 0.8676 | 11.99 | 2.92 | 3.42 | 3.97 | 3.11 |
لقد قمنا أيضًا بمقارنة نماذج تحويل الصوت غير الصفرية للعديد من مكبرات الصوت (حسب توفر الطراز):
الشخصيات | النماذجالمقاييس | SECS↑ | WER↓ | خفض الانبعاثات المعتمدة↓ | سيج ↑ | باك ↑ | الإجمالي ↑ |
---|---|---|---|---|---|---|---|
~ | الحقيقة الأرضية | 1.0000 | 6.43 | 1.00 | ~ | ~ | ~ |
توكاي تيو | سو-فيتس-4.0 | 0.8637 | 21.46 | 9.63 | 3.06 | 3.66 | 2.68 |
Seed-VC (لنا) | 0.8899 | 15.32 | 4.66 | 3.12 | 3.71 | 2.72 | |
حليبي أخضر | سو-فيتس-4.0 | 0.6850 | 48.43 | 32.50 | 3.34 | 3.51 | 2.82 |
Seed-VC (لنا) | 0.8072 | 7.26 | 1.32 | 3.48 | 4.07 | 3.20 | |
ماتيكاني تانهواسر | سو-فيتس-4.0 | 0.8594 | 16.25 | 8.64 | 3.25 | 3.71 | 2.84 |
Seed-VC (لنا) | 0.8768 | 12.62 | 5.86 | 3.18 | 3.83 | 2.85 |
تظهر النتائج أنه على الرغم من عدم تدريبه على المتحدثين المستهدفين، فإن Seed-VC قادر على تحقيق نتائج أفضل بكثير من النماذج التي لا تحتوي على لقطة صفرية. ومع ذلك، قد يختلف هذا كثيرًا اعتمادًا على جودة طراز SoVITS. يتم الترحيب بالعلاقات العامة أو المشكلة إذا وجدت هذه المقارنة غير عادلة أو غير دقيقة.
(نموذج توكاي تيو من zomehwh/sovits-tannhauser)
(نموذج ماتيكان تانهاوسر من zomehwh/sovits-tannhauser)
(نموذج أخضر حليبي من سبارانويد/حليبي-أخضر-سوفيتس-4)
نتيجة ASR باللغة الإنجليزية محسوبة بواسطة نموذج facebook/hubert-large-ls960-ft
تضمين مكبر الصوت المحسوب بواسطة نموذج ريسيمبليزر
يمكنك إعادة إنشاء التقييم عن طريق تشغيل البرنامج النصي eval.py
بيثون eval.py --source ./examples/libritts-test-clean --الهدف ./examples/reference --output ./examples/eval/converted - خطوات الانتشار 25 --ضبط الطول 1.0 -- معدل الاستدلال cfg 0.7 --xvector-extractor "resemblyzer"--baseline "" # املأ الصوت المفتوح أو cosyvoice لحساب النتيجة الأساسية - عينات بحد أقصى 100 # الحد الأقصى لعبارات المصدر التي يجب المرور بها
قبل ذلك، تأكد من تثبيت openvoice وcosyvoice repo بشكل صحيح على ../OpenVoice/
و ../CosyVoice/
إذا كنت ترغب في إجراء تقييم أساسي.
يتم إجراء تقييم إضافي لتحويل صوت الغناء على مجموعة بيانات M4Singer، مع 4 مكبرات صوت مستهدفة تتوفر بياناتها الصوتية هنا.
يتم حساب تشابه المتحدث عن طريق حساب متوسط أوجه التشابه في جيب التمام بين نتيجة التحويل وجميع العينات المتاحة في مجموعة بيانات الأحرف المعنية.
لكل حرف، يتم اختيار عبارة عشوائية واحدة كمطالبة للاستدلال الصفري. للمقارنة، قمنا بتدريب نموذج RVCv2-f0-48k لكل حرف كخط أساسي.
يتم استخدام 100 عبارة عشوائية لكل نوع مغني كمصدر صوتي.
النماذجالمقاييس | F0CORR↑ | F0RMSE↓ | SECS↑ | خفض الانبعاثات المعتمدة↓ | سيج ↑ | باك ↑ | الإجمالي ↑ |
---|---|---|---|---|---|---|---|
RVCv2 | 0.9404 | 30.43 | 0.7264 | 28.46 | 3.41 | 4.05 | 3.12 |
Seed-VC (لنا) | 0.9375 | 33.35 | 0.7405 | 19.70 | 3.39 | 3.96 | 3.06 |
نوع المغني المصدر | الشخصيات | النماذجالمقاييس | F0CORR↑ | F0RMSE↓ | SECS↑ | خفض الانبعاثات المعتمدة↓ | سيج ↑ | باك ↑ | الإجمالي ↑ |
---|---|---|---|---|---|---|---|---|---|
ألتو (أنثى) | ~ | الحقيقة الأرضية | 1.0000 | 0.00 | ~ | 8.16 | ~ | ~ | ~ |
أزوما (أنثى) | RVCv2 | 0.9617 | 33.03 | 0.7352 | 24.70 | 3.36 | 4.07 | 3.07 | |
Seed-VC (لنا) | 0.9658 | 31.64 | 0.7341 | 15.23 | 3.37 | 4.02 | 3.07 | ||
ديانا (أنثى) | RVCv2 | 0.9626 | 32.56 | 0.7212 | 19.67 | 3.45 | 4.08 | 3.17 | |
Seed-VC (لنا) | 0.9648 | 31.94 | 0.7457 | 16.81 | 3.49 | 3.99 | 3.15 | ||
دينغ تشن (ذكر) | RVCv2 | 0.9013 | 26.72 | 0.7221 | 18.53 | 3.37 | 4.03 | 3.06 | |
Seed-VC (لنا) | 0.9356 | 21.87 | 0.7513 | 15.63 | 3.44 | 3.94 | 3.09 | ||
كوبي براينت (ذكر) | RVCv2 | 0.9215 | 23.90 | 0.7495 | 37.23 | 3.49 | 4.06 | 3.21 | |
Seed-VC (لنا) | 0.9248 | 23.40 | 0.7602 | 26.98 | 3.43 | 4.02 | 3.13 | ||
باس (ذكر) | ~ | الحقيقة الأرضية | 1.0000 | 0.00 | ~ | 8.62 | ~ | ~ | ~ |
أزوما | RVCv2 | 0.9288 | 32.62 | 0.7148 | 24.88 | 3.45 | 4.10 | 3.18 | |
Seed-VC (لنا) | 0.9383 | 31.57 | 0.6960 | 10.31 | 3.45 | 4.03 | 3.15 | ||
ديانا | RVCv2 | 0.9403 | 30.00 | 0.7010 | 14.54 | 3.53 | 4.15 | 3.27 | |
Seed-VC (لنا) | 0.9428 | 30.06 | 0.7299 | 9.66 | 3.53 | 4.11 | 3.25 | ||
دينغ تشن | RVCv2 | 0.9061 | 19.53 | 0.6922 | 25.99 | 3.36 | 4.09 | 3.08 | |
Seed-VC (لنا) | 0.9169 | 18.15 | 0.7260 | 14.13 | 3.38 | 3.98 | 3.07 | ||
كوبي براينت | RVCv2 | 0.9302 | 16.37 | 0.7717 | 41.04 | 3.51 | 4.13 | 3.25 | |
Seed-VC (لنا) | 0.9176 | 17.93 | 0.7798 | 24.23 | 3.42 | 4.08 | 3.17 | ||
سوبرانو (أنثى) | ~ | الحقيقة الأرضية | 1.0000 | 0.00 | ~ | 27.92 | ~ | ~ | ~ |
أزوما | RVCv2 | 0.9742 | 47.80 | 0.7104 | 38.70 | 3.14 | 3.85 | 2.83 | |
Seed-VC (لنا) | 0.9521 | 64.00 | 0.7177 | 33.10 | 3.15 | 3.86 | 2.81 | ||
ديانا | RVCv2 | 0.9754 | 46.59 | 0.7319 | 32.36 | 3.14 | 3.85 | 2.83 | |
Seed-VC (لنا) | 0.9573 | 59.70 | 0.7317 | 30.57 | 3.11 | 3.78 | 2.74 | ||
دينغ تشن | RVCv2 | 0.9543 | 31.45 | 0.6792 | 40.80 | 3.41 | 4.08 | 3.14 | |
Seed-VC (لنا) | 0.9486 | 33.37 | 0.6979 | 34.45 | 3.41 | 3.97 | 3.10 | ||
كوبي براينت | RVCv2 | 0.9691 | 25.50 | 0.6276 | 61.59 | 3.43 | 4.04 | 3.15 | |
Seed-VC (لنا) | 0.9496 | 32.76 | 0.6683 | 39.82 | 3.32 | 3.98 | 3.04 | ||
تينور (ذكر) | ~ | الحقيقة الأرضية | 1.0000 | 0.00 | ~ | 5.94 | ~ | ~ | ~ |
أزوما | RVCv2 | 0.9333 | 42.09 | 0.7832 | 16.66 | 3.46 | 4.07 | 3.18 | |
Seed-VC (لنا) | 0.9162 | 48.06 | 0.7697 | 8.48 | 3.38 | 3.89 | 3.01 | ||
ديانا | RVCv2 | 0.9467 | 36.65 | 0.7729 | 15.28 | 3.53 | 4.08 | 3.24 | |
Seed-VC (لنا) | 0.9360 | 41.49 | 0.7920 | 8.55 | 3.49 | 3.93 | 3.13 | ||
دينغ تشن | RVCv2 | 0.9197 | 22.82 | 0.7591 | 12.92 | 3.40 | 4.02 | 3.09 | |
Seed-VC (لنا) | 0.9247 | 22.77 | 0.7721 | 13.95 | 3.45 | 3.82 | 3.05 | ||
كوبي براينت | RVCv2 | 0.9415 | 19.33 | 0.7507 | 30.52 | 3.48 | 4.02 | 3.19 | |
Seed-VC (لنا) | 0.9082 | 24.86 | 0.7764 | 13.35 | 3.39 | 3.93 | 3.07 |
على الرغم من عدم تدريب Seed-VC على السماعات المستهدفة، واستخدام عبارة عشوائية واحدة فقط كموجه، إلا أنها لا تزال تتفوق باستمرار على نماذج RVCv2 الخاصة بالسماعات من حيث تشابه السماعات (SECS) والوضوح (CER)، مما يوضح الصوت المتفوق قدرة الاستنساخ ومتانة Seed-VC.
ومع ذلك، لوحظ أن جودة الصوت (DNSMOS) لـ Seed-VC أقل قليلاً من RVCv2. نحن نأخذ هذا العيب على محمل الجد وسنعطي أولوية عالية لتحسين جودة الصوت في المستقبل.
يتم الترحيب بالعلاقات العامة أو المشكلة إذا وجدت هذه المقارنة غير عادلة أو غير دقيقة.
نتيجة ASR الصينية التي تم حسابها بواسطة SenseVoiceSmall
تضمين مكبر الصوت المحسوب بواسطة نموذج ريسيمبليزر
قمنا بتعيين +12 نصف نغمة للتحويل من ذكر إلى أنثى و-12 نصف نغمة للتحويل من أنثى إلى ذكر، وإلا 0 إزاحة في طبقة الصوت
اقترح python 3.10 على نظام التشغيل Windows أو Linux.
تثبيت النقطة -r متطلبات.txt
سيتم تنزيل نقاط التحقق لأحدث إصدار للنموذج تلقائيًا عند تشغيل الاستدلال لأول مرة.
استنتاج سطر الأوامر:
python inference.py --source <source-wav>--target <referene-wav>--output <output-dir>--diffusion-steps 25 # يوصى بـ 50~100 لتحويل الصوت الغنائي-ضبط الطول 1.0 -- معدل الاستدلال cfg 0.7 --f0-condition False # تم ضبطه على True لتحويل الصوت الغنائي --auto-f0-adjust False # تم ضبطه على True لضبط درجة صوت المصدر تلقائيًا لمستوى درجة الصوت المستهدف، ولا يتم استخدامه عادةً في تحويل الصوت الغنائي -- تحويل نصف نغمة 0 # تغيير درجة الصوت في نصف النغمات لتحويل صوت الغناء
أين:
source
هو المسار إلى ملف الكلام لتحويله إلى صوت مرجعي
target
هو المسار إلى ملف الكلام كمرجع صوتي
output
هو المسار إلى دليل الإخراج
diffusion-steps
هي عدد خطوات النشر المطلوب استخدامها، الافتراضي هو 25، استخدم 50-100 للحصول على أفضل جودة، استخدم 4-10 للحصول على أسرع استنتاج
length-adjust
هو عامل ضبط الطول، الإعداد الافتراضي هو 1.0، اضبط <1.0 لتسريع الكلام، و>1.0 لإبطاء الكلام
inference-cfg-rate
له اختلاف طفيف في الإخراج، الافتراضي هو 0.7
f0-condition
هي العلامة التي تحدد درجة صوت الإخراج مع درجة الصوت المصدر، الإعداد الافتراضي هو False، ويتم ضبطه على True لتحويل صوت الغناء
auto-f0-adjust
هي علامة لضبط درجة صوت المصدر تلقائيًا لمستوى درجة الصوت المستهدف، الإعداد الافتراضي هو False، ولا يُستخدم عادةً في تحويل الصوت الغنائي
semi-tone-shift
هو تغير درجة الصوت في النغمات النصفية لتحويل الصوت الغنائي، الافتراضي هو 0
واجهة ويب غراديو:
بيثون app.py
ثم افتح المتصفح وانتقل إلى http://localhost:7860/
لاستخدام واجهة الويب.
واجهة المستخدم الرسومية للتحويل الصوتي في الوقت الفعلي:
بايثون في الوقت الحقيقي-gui.py
هام: يوصى بشدة باستخدام وحدة معالجة الرسومات لتحويل الصوت في الوقت الفعلي.
تم إجراء بعض اختبارات الأداء على وحدة معالجة الرسومات للكمبيوتر المحمول NVIDIA RTX 3060، وتم إدراج النتائج وإعدادات المعلمات الموصى بها أدناه:
ملاحظات | خطوات الانتشار | استنتاج معدل CFG | الحد الأقصى لطول المطالبة | وقت الحظر (الأوقات) | طول (طول) التلاشي المتقاطع | سياق إضافي (يسار) (ق) | سياق إضافي (يمين) (ق) | الكمون (ملي ثانية) | جودة | وقت الاستدلال لكل قطعة (مللي ثانية) |
---|---|---|---|---|---|---|---|---|---|---|
مناسبة لمعظم الأصوات | 10 | 0.7 | 3.0 | 1.0 ثانية | 0.04 ثانية | 0.5 ثانية | 0.02 ثانية | 2070 مللي ثانية | واسطة | 849 مللي ثانية |
أداء أفضل للأصوات النسائية عالية النبرة | 20 | 0.7 | 3.0 | 2.0 ثانية | 0.04 ثانية | 0.5 ثانية | 0.02 ثانية | 4070 مللي ثانية | عالي | 1585 مللي ثانية |
مناسبة لبعض الأصوات الذكورية، حيث أن متطلبات جودة الصوت أقل | 5 | 0.7 | 3.0 | 0.6 ثانية | 0.04 ثانية | 0.5 ثانية | 0.02 ثانية | 1270 مللي ثانية | قليل | 488 مللي ثانية |
استنتاج أسرع عن طريق تعيين inference_cfg_rate على 0.0، ولكن لست متأكدًا مما إذا كان الأداء سينخفض أم لا... | 10 | 0.0 | 3.0 | 0.7 ثانية | 0.04 ثانية | 0.5 ثانية | 0.02 ثانية | 1470 مللي ثانية | واسطة | 555 مللي ثانية |
يمكنك ضبط المعلمات في واجهة المستخدم الرسومية وفقًا لأداء جهازك، ويجب أن يعمل تدفق التحويل الصوتي جيدًا طالما أن وقت الاستدلال أقل من وقت الكتلة.
لاحظ أن سرعة الاستدلال قد تنخفض إذا كنت تقوم بتشغيل مهام أخرى مكثفة لوحدة معالجة الرسومات (مثل الألعاب ومشاهدة مقاطع الفيديو)
بشكل عام، يبلغ زمن الوصول حوالي 1 إلى 2 ثانية لمنع انخفاض الجودة (الطبيعة المؤسفة لنماذج الانتشار...؟)، لكننا نستمر في البحث عن طرق لتقليله.
(تم تعديل واجهة المستخدم الرسومية ومنطق تقطيع الصوت من RVC، شكرًا على تنفيذها الرائع!)
الافراج عن الرمز
إصدار الإصدار v0.1 من النموذج المُدرب مسبقًا:
عرض مساحة العناق:
صفحة العرض التوضيحي بتنسيق HTML (ربما تحتوي على مقارنات مع نماذج VC الأخرى): العرض التوضيحي
تدفق الاستدلال
تقليل زمن انتقال استنتاج التدفق
فيديو تجريبي لتحويل الصوت في الوقت الحقيقي
تحويل صوت الغناء
مرونة الضوضاء للصوت المصدر والمرجع
مصدر الصوت هو مقاومة الضوضاء
التحسينات المحتملة في البنية
اتصالات تخطي نمط U-ViT
تم تغيير الإدخال إلى OpenAI Whisper
كود للتدريب على البيانات المخصصة
تم التغيير إلى BigVGAN من NVIDIA لفك تشفير الصوت الغنائي
نموذج إصدار الهمس لتحويل صوت الغناء
التقييم الموضوعي والمقارنة مع RVC/SoVITS لتحويل الصوت الغنائي
تحسين جودة الصوت
المزيد ليتم إضافتها
2024-10-28:
تم تحديث نموذج تحويل الصوت الغنائي بدقة 44 كيلو بايت مع جودة صوت أفضل
2024-10-27:
تمت إضافة واجهة المستخدم الرسومية للتحويل الصوتي في الوقت الفعلي
2024-10-25:
تمت إضافة نتائج تقييم شاملة ومقارنات مع RVCv2 لتحويل الصوت الغنائي
2024-10-24:
تم تحديث نموذج تحويل الصوت الغنائي بمعدل 44 كيلو هرتز، مع OpenAI Whisper كمدخل لمحتوى الكلام
2024-10-07:
تم تحديث نموذج الإصدار 0.3 المُدرب مسبقًا، وتغيير برنامج تشفير محتوى الكلام إلى OpenAI Whisper
تمت إضافة نتائج التقييم الموضوعي للنموذج v0.3 المُدرب مسبقًا
2024-09-22:
تم تحديث نموذج تحويل الصوت الغنائي لاستخدام BigVGAN من NVIDIA، مما يوفر تحسينًا كبيرًا لأصوات الغناء عالية الطبقة
دعم التقطيع والإخراج المتدفق للملفات الصوتية الطويلة في Web UI
2024-09-18:
تم تحديث نموذج f0 المكيف لتحويل صوت الغناء
2024-09-14:
نموذج مُحدث تم تدريبه مسبقًا على الإصدار 0.2، بحجم أصغر وخطوات نشر أقل لتحقيق نفس الجودة، وقدرة إضافية على التحكم في الحفاظ على العروض
تمت إضافة البرنامج النصي لاستدلال سطر الأوامر
تمت إضافة تعليمات التثبيت والاستخدام