؟ ترجمة الفيديو مع الصوت المتزامن
Sonytranslate هو تطبيق ويب قوي وسهل الاستخدام يتيح لك ترجمة مقاطع الفيديو بسهولة إلى لغات مختلفة. يستضيف هذا المستودع الرمز الخاص بـ Sonytranslate Web UI ، الذي تم تصميمه مع مكتبة Gradio لتوفير تجربة مستخدم سلسة وتفاعلية.
وصف | وصلة |
---|---|
؟ دفتر كولاب | |
؟ مستودع | |
العرض التوضيحي عبر الإنترنت |
من أجل فهم شامل للمشروع ، نوصي بشدة بمشاهدة هذا الفيديو التعليمي بواسطة Dev-Mallettes. يمكنك مشاهدته على YouTube من خلال النقر على الصورة المصغرة أدناه:
رمز اللغة | لغة |
---|---|
en | إنجليزي |
الاب | فرنسي |
دي | الألمانية |
ES | الأسبانية |
هو - هي | إيطالي |
جا | اليابانية |
NL | هولندي |
المملكة المتحدة | الأوكرانية |
حزب العمال | البرتغالية |
AR | عربي |
ZH | الصينية - مبسطة |
ZH-TW | الصينية - التقليدية |
CS | التشيكية |
دا | دانماركي |
Fi | الفنلندية |
el | اليونانية |
هو | العبرية |
هو | المجري |
كو | كوري |
فا | فارسي |
رر | بولندي |
رو | الروسية |
tr | التركية |
أور | الأردية |
أهلاً | الهندية |
السادس | الفيتنامي |
بطاقة تعريف | إندونيسي |
مليار | البنغالية |
تي | التيلجو |
السيد | المهاراتية |
تا | التاميل |
JW (أو JV) | الجاوية |
كاليفورنيا | كاتالونية |
NE | النيبالي |
ذ | التايلاندية |
SV | السويدية |
أكون | أمهرية |
CY | الويلزية |
HR | الكرواتية |
يكون | الأيسلندية |
كا | الجورجي |
كم | الخمير |
SK | سلوفاك |
مربع | الألبانية |
ريال | الصربي |
AZ | أذربيجاني |
BG | البلغارية |
GL | جاليكيان |
غو | غوجاراتية |
KK | كازاخاخية |
كيلوغرام | الكانادا |
LT | الليتواني |
LV | لاتفيا |
مل | الملايالام |
رو | روماني |
سي | سنهالية |
سو | صنداني |
ET | الإستونية |
MK | مقدوني |
جنوب غرب | السواحيلية |
AF | أفريكانيين |
بكالوريوس | البوسني |
لا | اللاتينية |
لي | ميانمار بورميز |
لا | النرويجية |
مثل | الأسامية |
الاتحاد الأوروبي | الباسك |
ها | الهوسا |
ht | الكريول الهايتي |
هاي | أرمني |
لو | لاو |
ملغ | الملغاشية |
MN | المنغولي |
MT | المالطية |
السلطة الفلسطينية | البنجابية |
ملاحظة | الباشتو |
SL | سلوفيني |
Sn | شونا |
لذا | صومالي |
TG | طاجيك |
المعارف التقليدية | تركمان |
TT | التتار |
UZ | أوزبك |
يو | يوروبا |
رمز اللغة | لغة |
---|---|
أي | أيمارا |
BM | بامبارا |
CEB | سيبوانو |
نيويورك | تشيشيكا |
DV | Divehi |
دوى | دوغري |
ee | نعجة |
GN | غواراني |
ILO | إيلوكو |
RW | كينيارواندا |
كري | كريو |
كو | كردي |
كنت | كيرغيز |
LG | غاندا |
ماي | Maithili |
أو | أوريا |
أوم | أورومو |
Qu | Quechua |
SM | ساموا |
تي | تيغنة |
TS | تسونجا |
AK | أكان |
UG | Uighur |
لتشغيل Sonitranslate باستخدام وقت تشغيل كولاب:
قبل البدء في تثبيت واستخدام Sonitranslate ، هناك بعض الأشياء التي تحتاج إلى القيام بها:
accept the license to use the models
: https://huggingface.co/pyannote/speaker-diarization و https://huggingface.co/pyannote/segressationconda install -c anaconda git -y
في المحطة الخاصة بك (قم بذلك بعد الخطوة 1 في القسم التالي.). إذا كنت تواجه مشكلة في تثبيت git عبر Anaconda ، فيمكنك استخدام الرابط التالي بدلاً من ذلك:بمجرد الانتهاء من هذه الخطوات ، ستكون جاهزًا لتثبيت Sonitranslate.
لتثبيت Sonitranslate ، اتبع هذه الخطوات:
conda create -n sonitr python=3.10 -y
conda activate sonitr
python -m pip install pip==23.1.2
conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia
git clone https://github.com/r3gm/SoniTranslate.git
cd SoniTranslate
pip install -r requirements_base.txt -v
pip install -r requirements_extra.txt -v
pip install onnxruntime-gpu
تثبيت FFMPEG. FFMPEG هو مشروع برمجي مجاني ينتج المكتبات والبرامج للتعامل مع بيانات الوسائط المتعددة. ستحتاج إليها لمعالجة ملفات الصوت والفيديو. يمكنك تثبيت FFMPEG مع Anaconda عن طريق تشغيل conda install -y ffmpeg
في المحطة الخاصة بك (الموصى بها). إذا كنت تواجه مشكلة في تثبيت FFMPEG عبر Anaconda ، فيمكنك استخدام الرابط التالي بدلاً من ذلك: (https://ffmpeg.org/ffmpeg.html). بمجرد تثبيته ، تأكد من وجوده في طريقك عن طريق تشغيل ffmpeg -h
في المحطة الخاصة بك. إذا لم تحصل على رسالة خطأ ، فأنت على ما يرام.
التثبيت الاختياري:
بعد تثبيت FFMPEG ، يمكنك تثبيت هذه الحزم الاختيارية.
Piper TTS هو نص عصبي سريع محلي لنظام الكلام يبدو رائعًا ويتم تحسينه في Raspberry Pi 4. يتم استخدام Piper في مجموعة متنوعة من المشاريع. يتم تدريب الأصوات مع حالات وتصدير إلى onnxruntime.
pip install -q piper-tts==1.2.0
Coqui XTTS هو نموذج نص إلى كلام (TTS) يتيح لك إنشاء أصوات واقعية بلغات مختلفة. يمكن أن يستنسخ الأصوات مع مقطع صوتي قصير ، حتى التحدث بلغة مختلفة! إنه مثل وجود صوت شخصي تقليد لأي نص تحتاجه.
pip install -q -r requirements_xtts.txt
pip install -q TTS==0.21.1 --no-deps
لتشغيل Sonitranslate محليًا ، تأكد من نشطة بيئة sonitr
Conda:
conda activate sonitr
وضع رمز وجهك المعانقة كمتغير للبيئة في Linux:
export YOUR_HF_TOKEN="YOUR_HUGGING_FACE_TOKEN"
ثم انتقل إلى مجلد SoniTranslate
وقم بتشغيل app_rvc.py
python app_rvc.py
عندما يتم عرض local URL
http://127.0.0.1:7860
في المحطة ، ما عليك سوى فتح عنوان URL هذا في متصفح الويب الخاص بك للوصول إلى واجهة Sonitranslate.
في معظم البيئات ، يمكنك إيقاف التنفيذ عن طريق الضغط على CTRL+C في المحطة حيث قمت بإطلاق البرنامج النصي app_rvc.py
. سيؤدي ذلك إلى مقاطعة البرنامج وإيقاف تطبيق Gradio. لإلغاء تنشيط بيئة كوندا ، يمكنك استخدام الأمر التالي:
conda deactivate
سيؤدي ذلك إلى إلغاء تنشيط بيئة كوندا النشطة حاليًا ، وستعود إلى البيئة الأساسية أو بيئة بيثون العالمية.
إذا كنت بحاجة إلى البدء من جديد ، فيمكنك حذف مجلد SoniTranslate
وإزالة بيئة sonitr
Conda مع مجموعة الأوامر التالية:
conda deactivate
conda env remove -n sonitr
مع إزالة بيئة sonitr
، يمكنك البدء من جديد بتركيب جديد.
conda activate sonitr
conda env config vars set YOUR_HF_TOKEN="YOUR_HUGGING_FACE_TOKEN_HERE"
conda deactivate
conda activate sonitr
conda env config vars set OPENAI_API_KEY="your-api-key-here"
conda deactivate
يدعم برنامج App_Rvc.Py Script وسيطات سطر الأوامر لتخصيص سلوكه. إليك دليل موجز حول كيفية استخدامها:
أمر الحجة | تقصير | قيمة | وصف |
---|---|---|---|
--سمة | taithrah/الحد الأدنى | خيط | يحدد موضوع الواجهة. يمكن العثور على الموضوعات في معرض الموضوعات. |
--لغة | إنجليزي | خيط | يختار لغة الواجهة. الخيارات المتاحة: Afrikaans ، العربية ، الأذربيجاني ، الصينية _زه ، اللغة الإنجليزية ، الفرنسية ، الألمانية ، الهندية ، الإندونيسية ، الإيطالية ، اليابانية ، الكورية ، الماراثية ، الفارسية ، البولندية ، البرتغالية ، الروسية ، الإسبانية ، السويدية ، التركية ، الأوكرانية ، الفيتنامية. |
-verbosity_level | معلومات | خيط | يضبط مستوى الفواصل للمسجل: تصحيح أو معلومات أو تحذير أو خطأ أو حرجة. |
-Public_url | منطقية | يتيح رابط عام. | |
-CPU_MODE | منطقية | تمكين وضع وحدة المعالجة المركزية لتشغيل البرنامج دون استخدام تسارع GPU. | |
-logs_in_gui | منطقية | يوضح العمليات التي تم تنفيذها في سجلات (عفا عليها الزمن). |
مثال الاستخدام:
python app_rvc.py --theme aliabid94/new-theme --language french
يعين هذا الأمر السمة على موضوع مخصص ويختار الفرنسية كلغة الواجهة. لا تتردد في تخصيص هذه الحجج وفقًا لتفضيلاتك ومتطلباتك.
2024/18/05: تفاصيل تحديث جديدة
kotoba-tech/kotoba-whisper-v1.1
للنسخ الياباني المتاح هناapp_rvc.py --cpu_mode
2024/03/02: الحفاظ على أسماء الملفات في الإخراج. يمكن الآن تقديم المحفوظات المتعددة في وقت واحد من خلال تحديد مساراتها أو الدلائل أو عناوين URL التي تفصل بينها الفواصل. معالجة قائمة تشغيل YouTube كاملة. حول عنوان URL للمواقع المدعومة ، يرجى العلم بأن جميع المواقع قد تعمل على النحو الأمثل. خيار إضافي لتعطيل الإسهال. تنفيذ ترجمات ناعمة. إخراج التنسيق (MP3 ، MP4 ، MKV ، WAV ، و OGG) ، وقضايا حل تتعلق بقراءة الملفات والمذكرات.
2024/02/22: تمت إضافة Freevc للتقليد الصوتي ، ومسار ثابت بلا صوت ، تقسيم المقاطع. دعم اللغات الجديدة (السويدية ، الأمهرية ، الويلزية ، الكرواتية ، الأيسلندية ، الجورجية ، الخمير ، سلوفاك ، الألبان ، الصربي ، الأذربيجاني ، البلغاري ، الجاليبيان ، غوجاراتي ، كازستا ، كانادا ، ليثوان ، لاتفيان ، مالايالام ، رومانية ، سنهالا ، سندانز). ترجمات جديدة للعب واجهة المستخدم الرسومية (الإسبانية ، الفرنسية ، الألمانية ، الإيطالية ، اليابانية ، الصينية المبسطة ، الأوكرانية ، العربية ، الروسية ، التركية ، الإندونيسية ، البرتغالية ، الهندية ، الفيتنامية ، البولندية ، السويدية ، الكورية ، ماراثي وأذربيجاني). مع ملف الترجمة ، لا توجد حاجة إلى محاذاة ولا يلزم معالجة ملف SRT. ترجمات حرق إلى الفيديو. يمكن أن يقبل قائمة الانتظار مهام متعددة في وقت واحد. إشعار التنبيه الصوتي. متابعة العملية من نقطة التفتيش الأخيرة. تنظيم معدل التسارع.
2024/01/16: دعم اللغة الموسعة (التايلاندية ، النيبالية ، الكاتالانية ، الجاوية ، التاميل ، الماراثى ، التيلجو ، البنغالية والإندونيسية) ، مقدمة من Whisper V3 ، خيارات واجهة المستخدم الرسومية القابلة للتكوين ، دمج اللحاء ، Facebook-MMS ، Coqui xtts ، و piper-tts. تضمنت الميزات الإضافية أدوات فصل الصوت ، وإنشاء WAV ، واستخدام ملف SRT كقاعدة للترجمة ، وترجمة المستندات ، وتحرير مكبرات الصوت اليدوي ، وخيارات الإخراج المرنة (الفيديو ، الصوت ، الترجمة).
2023/10/29: تحرير العنوان الفرعي المترجم ، قم بتنزيله ، وضبط خيارات الصوت والسرعة.
2023/08/03: تم تغيير الخيارات الافتراضية وعرض الدليل المضافة للتنزيلات.
2023/08/02: إضافة دعم للعربية ، التشيكية ، الدنماركية ، الفنلندية ، اليونانية ، العبرية ، الهنغارية ، الكورية ، الفارسية ، البولندية ، الروسية ، التركية ، الأردية ، الهندية ، واللغات الفيتنامية.
2023/08/01: إضافة خيارات لاستخدام نماذج RVC.
2023/07/27: إصلاح بعض الأخطاء معالجة الفيديو والصوت.
2023/07/26: واجهة المستخدم الجديدة وإضافة خيارات المزيج.
مرحبًا بك في مساهمات المجتمع! إذا كان لديك أي أفكار أو تقارير الأخطاء أو طلبات الميزات ، فيرجى فتح مشكلة أو إرسال طلب سحب. لمزيد من المعلومات ، يرجى الرجوع إلى إرشادات المساهمة.
يستفيد هذا المشروع من عدد من المشاريع مفتوحة المصدر. نود أن نعترف ونشكر المساهمين في المستودعات التالية:
على الرغم من أن الكود مرخص له بموجب Apache 2 ، إلا أن النماذج أو الأوزان قد يكون لها قيود تجارية ، كما يظهر مع مذكرات Pyannote.