- การแปลวิดีโอด้วยเสียงแบบซิงโครไนซ์
SonyTranslate เป็นเว็บแอปพลิเคชันที่ทรงพลังและใช้งานง่ายซึ่งช่วยให้คุณสามารถแปลวิดีโอเป็นภาษาต่าง ๆ ได้อย่างง่ายดาย ที่เก็บนี้เป็นโฮสต์รหัสสำหรับ SonyTranslate Web UI ซึ่งสร้างขึ้นด้วยไลบรารี Gradio เพื่อมอบประสบการณ์การใช้งานที่ราบรื่นและโต้ตอบ
คำอธิบาย | การเชื่อมโยง |
---|---|
- สมุดบันทึก colab | |
- ที่เก็บ | |
การสาธิตออนไลน์ |
สำหรับความเข้าใจที่ครอบคลุมเกี่ยวกับโครงการเราขอแนะนำให้ดูการสอนวิดีโอนี้โดย Dev-Mallettes คุณสามารถดูได้บน YouTube โดยคลิกที่ภาพขนาดย่อด้านล่าง:
รหัสภาษา | ภาษา |
---|---|
en | ภาษาอังกฤษ |
FR | ภาษาฝรั่งเศส |
เดอ | ชาวเยอรมัน |
ES | เกี่ยวกับภาษาสเปน |
มัน | อิตาลี |
จา | ญี่ปุ่น |
NL | ชาวดัตช์ |
สหราชอาณาจักร | ชาวยูเครน |
PT | ชาวโปรตุเกส |
อาร์ | ภาษาอาหรับ |
zh | ภาษาจีน - ง่าย |
zh-tw | จีน - ดั้งเดิม |
CS | ภาษาเช็ก |
ดา | เกี่ยวกับเดนมาร์ก |
FI | ภาษาฟินแลนด์ |
เอล | กรีก |
เขา | ภาษาฮีบรู |
หู | ชาวฮังการี |
โค | เกาหลี |
เอฟเอ | ชาวเปอร์เซีย |
PL | ขัด |
ร. | ชาวรัสเซีย |
TR | ตุรกี |
เอ่อ | ภาษาอูรดู |
สวัสดี | ภาษาฮินดี |
VI | เวียดนาม |
รหัสประจำตัว | ชาวอินโดนีเซีย |
พันล้าน | เบงกอล |
เต่าทอง | เตลูกู |
นาย | มาราธี |
TA | ทมิฬ |
JW (หรือ JV) | ชาวชวา |
แคลิฟอร์เนีย | คาตาลัน |
NE | เนปาล |
ไทย | แบบไทย |
SV | ภาษาสวีเดน |
เช้า | อัมฮาริก |
ปัสสาวะ | ชาวเวลส์ |
ชั่วโมง | เกี่ยวกับภาษาโครเอเชีย |
เป็น | เกี่ยวกับไอซ์แลนด์ |
Ka | ชาวจอร์เจีย |
กม. | เขมรตัว |
SK | ชาวสโลวะเกีย |
ต. | ชาวแอลเบเนีย |
SR | ประเทศเซอร์เบีย |
AZ | อาเซอร์ไบจัน |
BG | ชาวบัลแกเรีย |
GL | กาลิเซีย |
กู | รัฐคุชราต |
KK | คาซัค |
KN | ภาษากันนาดา |
lt | เกี่ยวกับลิทัวเนีย |
LV | เกี่ยวกับลัตเวีย |
มล. | มาลายาลัม |
RO | เกี่ยวกับโรมาเนีย |
ศรี | Sinhala |
ซู | ชาวซุนดา |
ET | เอสโตเนีย |
MK | ชาวมาซิโดเนีย |
SW | ภาษาสวาฮิลี |
แอม | ชาวแอฟริกัน |
BS | ชาวบอสเนีย |
ลา | ภาษาละติน |
ของฉัน | พม่าพม่า |
เลขที่ | นอร์เวย์ |
เช่น | อัสสัม |
สหภาพยุโรป | เกี่ยวกับบาสก์ |
ฮา | เฮาซา |
ht | ชาวเฮติครีโอล |
HY | เกี่ยวกับอาร์เมเนีย |
LO | ลาว |
มก. | มาลากาเซ |
MN | ชาวมองโกเลีย |
MT | ภาษามอลตา |
PA | ปัญจาบ |
ps | Pashto |
SL | สโลวีเนีย |
SN | โชนา |
ดังนั้น | โซมาเลีย |
TG | ทาจิก |
TK | ชาวเติร์กเมน |
TT | ตาตาร์ |
อุซ | อุซเบก |
ยอ | โยรูบา |
รหัสภาษา | ภาษา |
---|---|
เอ่ย | Aymara |
BM | Bambara |
Ceb | เซบูะ |
นิวยอร์ก | ชิชวะ |
DV | ดำน้ำ |
ดอย | คนโง่ |
ee | อุย |
Gn | Guarani |
คนขุนนาง | iloko |
RW | Kinyarwanda |
Kri | Krio |
กู | ชาวเคิร์ด |
KY | Kirghiz |
LG | กานดา |
เชียงใหม่ | maithili |
หรือ | โอริยะ |
อม | oromo |
qu | คนขี้ขลาด |
SM | ประเทศซามัว |
TI | Tigrinya |
TS | ซองกา |
AK | ชาวแอน |
UG | อุยกูร์ |
เพื่อเรียกใช้ sonitranslate โดยใช้ Colab Runtime:
ก่อนที่คุณจะเริ่มติดตั้งและใช้ sonitranslate มีบางสิ่งที่คุณต้องทำ:
accept the license to use the models
: https://huggingface.co/pyannote/speaker-diarization และ https://huggingface.co/pyannote/segmentationconda install -c anaconda git -y
ในเทอร์มินัลของคุณ (ทำสิ่งนี้หลังจากขั้นตอนที่ 1 ในส่วนต่อไปนี้) หากคุณมีปัญหาในการติดตั้ง Git ผ่าน Anaconda คุณสามารถใช้ลิงค์ต่อไปนี้แทน:เมื่อคุณทำตามขั้นตอนเหล่านี้เสร็จแล้วคุณจะพร้อมที่จะติดตั้ง sonitranslate
ในการติดตั้ง sonitranslate ให้ทำตามขั้นตอนเหล่านี้:
conda create -n sonitr python=3.10 -y
conda activate sonitr
python -m pip install pip==23.1.2
conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia
git clone https://github.com/r3gm/SoniTranslate.git
cd SoniTranslate
pip install -r requirements_base.txt -v
pip install -r requirements_extra.txt -v
pip install onnxruntime-gpu
ติดตั้ง ffmpeg FFMPEG เป็นโครงการซอฟต์แวร์ฟรีที่ผลิตห้องสมุดและโปรแกรมสำหรับการจัดการข้อมูลมัลติมีเดีย คุณจะต้องประมวลผลไฟล์เสียงและวิดีโอ คุณสามารถติดตั้ง ffmpeg ด้วย anaconda โดยเรียกใช้ conda install -y ffmpeg
ในเทอร์มินัลของคุณ (แนะนำ) หากคุณมีปัญหาในการติดตั้ง FFMPEG ผ่าน Anaconda คุณสามารถใช้ลิงค์ต่อไปนี้แทน: (https://ffmpeg.org/ffmpeg.html) เมื่อติดตั้งแล้วตรวจสอบให้แน่ใจว่าอยู่ในเส้นทางของคุณโดยใช้ ffmpeg -h
ในเทอร์มินัลของคุณ หากคุณไม่ได้รับข้อความแสดงข้อผิดพลาดคุณก็พร้อมที่จะไป
ติดตั้งเสริม:
หลังจากติดตั้ง FFMPEG คุณสามารถติดตั้งแพ็คเกจเสริมเหล่านี้
Piper TTS เป็นระบบการพูดที่รวดเร็วและเป็นระบบการพูดที่ฟังดูดีและได้รับการปรับให้เหมาะสมสำหรับ Raspberry Pi 4 ใช้ Piper ในโครงการที่หลากหลาย เสียงได้รับการฝึกฝนด้วย VITS และส่งออกไปยัง OnnxRuntime
pip install -q piper-tts==1.2.0
Coqui Xtts เป็นรุ่น text-to-speech (TTS) ที่ให้คุณสร้างเสียงที่สมจริงในภาษาต่าง ๆ มันสามารถโคลนเสียงด้วยคลิปเสียงสั้น ๆ แม้พูดในภาษาอื่น! มันเหมือนกับการเลียนแบบเสียงส่วนตัวสำหรับข้อความใด ๆ ที่คุณต้องพูด
pip install -q -r requirements_xtts.txt
pip install -q TTS==0.21.1 --no-deps
ในการเรียกใช้ sonitranslate ในพื้นที่ตรวจสอบให้แน่ใจว่าสภาพแวดล้อม conda sonitr
ทำงานอยู่:
conda activate sonitr
การตั้งค่าโทเค็นใบหน้ากอดของคุณเป็นตัวแปรสภาพแวดล้อมใน Linux:
export YOUR_HF_TOKEN="YOUR_HUGGING_FACE_TOKEN"
จากนั้นนำทางไปยังโฟลเดอร์ SoniTranslate
และเรียกใช้ app_rvc.py
python app_rvc.py
เมื่อ local URL
http://127.0.0.1:7860
แสดงในเทอร์มินัลเพียงเปิด URL นี้ในเว็บเบราว์เซอร์ของคุณเพื่อเข้าถึงอินเตอร์เฟส sonitranslate
ในสภาพแวดล้อมส่วนใหญ่คุณสามารถหยุดการดำเนินการได้โดยกด Ctrl+C ในเทอร์มินัลที่คุณเปิดตัวสคริปต์ app_rvc.py
สิ่งนี้จะขัดจังหวะโปรแกรมและหยุดแอป Gradio ในการปิดใช้งานสภาพแวดล้อม conda คุณสามารถใช้คำสั่งต่อไปนี้:
conda deactivate
สิ่งนี้จะปิดการใช้งานสภาพแวดล้อม conda ที่ใช้งานอยู่ในปัจจุบัน Sonitr และคุณจะกลับไปที่สภาพแวดล้อมพื้นฐานหรือสภาพแวดล้อม Python ทั่วโลก
หากคุณต้องการเริ่มต้นใหม่ตั้งแต่เริ่มต้นคุณสามารถลบโฟลเดอร์ SoniTranslate
และลบสภาพแวดล้อม sonitr
conda ด้วยชุดคำสั่งต่อไปนี้:
conda deactivate
conda env remove -n sonitr
เมื่อลบสภาพแวดล้อม sonitr
คุณสามารถเริ่มต้นใหม่ด้วยการติดตั้งใหม่
conda activate sonitr
conda env config vars set YOUR_HF_TOKEN="YOUR_HUGGING_FACE_TOKEN_HERE"
conda deactivate
conda activate sonitr
conda env config vars set OPENAI_API_KEY="your-api-key-here"
conda deactivate
สคริปต์ app_rvc.py รองรับอาร์กิวเมนต์บรรทัดคำสั่งเพื่อปรับแต่งพฤติกรรมของมัน นี่คือคำแนะนำสั้น ๆ เกี่ยวกับวิธีการใช้:
คำสั่งการโต้แย้ง | ค่าเริ่มต้น | ค่า | คำอธิบาย |
---|---|---|---|
--ธีม | taithrah/minimal | สาย | ตั้งค่าธีมสำหรับอินเทอร์เฟซ ชุดรูปแบบสามารถพบได้ในแกลเลอรี่ธีม |
--ภาษา | ภาษาอังกฤษ | สาย | เลือกภาษาอินเตอร์เฟส ตัวเลือกที่มีอยู่: Afrikaans, Arabic, Azerbaijani, Chinese_ZH_CN, อังกฤษ, ฝรั่งเศส, เยอรมัน, ภาษาฮินดี, อินโดนีเซีย, อิตาลี, ญี่ปุ่น, เกาหลี, มาราธี, เปอร์เซีย, โปแลนด์, โปรตุเกส, รัสเซีย, สเปน, สวีเดน, ตุรกี, ยูเครน, เวียดนาม |
-verbosity_level | ข้อมูล | สาย | ตั้งค่าระดับความว่องไวของเครื่องบันทึก: การดีบักข้อมูลคำเตือนข้อผิดพลาดหรือวิกฤต |
-public_url | บูลีน | เปิดใช้งานลิงค์สาธารณะ | |
-cpu_mode | บูลีน | เปิดใช้งานโหมด CPU เพื่อเรียกใช้โปรแกรมโดยไม่ต้องใช้การเร่งความเร็ว GPU | |
-logs_in_gui | บูลีน | แสดงการดำเนินการที่ดำเนินการในบันทึก (ล้าสมัย) |
ตัวอย่างการใช้งาน:
python app_rvc.py --theme aliabid94/new-theme --language french
คำสั่งนี้ตั้งค่าธีมเป็นธีมที่กำหนดเองและเลือกภาษาฝรั่งเศสเป็นภาษาอินเตอร์เฟส อย่าลังเลที่จะปรับแต่งข้อโต้แย้งเหล่านี้ตามความต้องการและข้อกำหนดของคุณ
2024/18/05: รายละเอียดการอัปเดตใหม่
kotoba-tech/kotoba-whisper-v1.1
สำหรับการถอดความภาษาญี่ปุ่นที่นี่app_rvc.py --cpu_mode
2024/03/02: รักษาชื่อไฟล์ในเอาต์พุต สามารถส่งจดหมายเหตุหลายฉบับพร้อมกันได้โดยการระบุเส้นทางไดเรกทอรีหรือ URL ที่คั่นด้วยเครื่องหมายจุลภาค การประมวลผลเพลย์ลิสต์ YouTube เต็มรูปแบบ เกี่ยวกับ URL ของไซต์ที่รองรับโปรดทราบว่าไม่ใช่ทุกไซต์ที่อาจทำงานได้อย่างเหมาะสม เพิ่มตัวเลือกสำหรับการปิดการใช้งาน diarization ใช้คำบรรยายซอฟต์ รูปแบบเอาต์พุต (MP3, MP4, MKV, WAV และ OGG) และปัญหาที่ได้รับการแก้ไขที่เกี่ยวข้องกับการอ่านไฟล์และ diarization
2024/02/22: เพิ่ม Freevc สำหรับการเลียนแบบเสียง, แก้ไขแทร็กไร้เสียง, แบ่งส่วนแบ่ง การสนับสนุนภาษาใหม่ (สวีเดน, อัมฮาริค, เวลส์, โครเอเชีย, ไอซ์แลนด์, จอร์เจีย, เขมร, สโลวัก, แอลเบเนีย, เซอร์เบีย, อาเซอร์ไบจัน, บัลแกเรีย, กาลิเซีย, คุชราตะ, คาซัค คำแปลใหม่ของ GUI (สเปน, ฝรั่งเศส, เยอรมัน, อิตาลี, ญี่ปุ่น, จีนง่ายๆ, ยูเครน, อาหรับ, รัสเซีย, ตุรกี, อินโดนีเซีย, โปรตุเกส, ภาษาฮินดี, เวียดนาม, โปแลนด์, สวีเดน, เกาหลี, มาราธีและอาเซอร์ไบจานี) ด้วยไฟล์คำบรรยายไม่จำเป็นต้องจัดตำแหน่งและไฟล์สื่อไม่จำเป็นต้องประมวลผลไฟล์ SRT เบิร์นคำบรรยายเป็นวิดีโอ คิวสามารถยอมรับงานหลายงานพร้อมกัน การแจ้งเตือนการแจ้งเตือนเสียง ดำเนินการดำเนินการต่อจากจุดตรวจสุดท้าย ระเบียบอัตราการเร่งความเร็ว
2024/01/16: การสนับสนุนภาษาที่ขยายตัว (ไทย, เนปาล, คาตาลัน, ชวา, ทมิฬ, มาราธี, เตลูกู, เบงกาลีและอินโดนีเซีย), การแนะนำของกระซิบขนาดใหญ่ V3, ตัวเลือก GUI ที่กำหนดค่าได้ และ Piper-TTS คุณสมบัติเพิ่มเติมรวมถึงยูทิลิตี้การแยกเสียง, การสร้าง WAV XTTS, ใช้ไฟล์ SRT เป็นฐานสำหรับการแปล, การแปลเอกสาร, การแก้ไขลำโพงด้วยตนเองและตัวเลือกเอาต์พุตที่ยืดหยุ่น (วิดีโอ, เสียง, คำบรรยาย)
2023/10/29: แก้ไขคำบรรยายแปล, ดาวน์โหลด, ปรับตัวเลือกระดับเสียงและความเร็ว
2023/08/03: เปลี่ยนตัวเลือกเริ่มต้นและเพิ่มมุมมองไดเรกทอรีของการดาวน์โหลด
2023/08/02: เพิ่มการสนับสนุนสำหรับภาษาอาหรับ, เช็ก, เดนมาร์ก, ฟินแลนด์, กรีก, ฮีบรู, ฮังการี, เกาหลี, เปอร์เซีย, โปแลนด์, รัสเซีย, ตุรกี, ภาษาอูรดู, ภาษาฮินดีและภาษาเวียดนาม
2023/08/01: เพิ่มตัวเลือกสำหรับใช้รุ่น RVC
2023/07/27: แก้ไขข้อผิดพลาดในการประมวลผลวิดีโอและเสียง
2023/07/26: UI ใหม่และเพิ่มตัวเลือกมิกซ์
ยินดีต้อนรับสู่การมีส่วนร่วมจากชุมชน! หากคุณมีแนวคิดรายงานข้อผิดพลาดหรือคำขอคุณสมบัติใด ๆ โปรดเปิดปัญหาหรือส่งคำขอดึง สำหรับข้อมูลเพิ่มเติมโปรดดูแนวทางการบริจาค
โครงการนี้ใช้ประโยชน์จากโครงการโอเพ่นซอร์สจำนวนมาก เราขอรับทราบและขอบคุณผู้มีส่วนร่วมของที่เก็บต่อไปนี้:
แม้ว่ารหัสจะได้รับใบอนุญาตภายใต้ Apache 2 แต่รุ่นหรือน้ำหนักอาจมีข้อ จำกัด ทางการค้าตามที่เห็นด้วย Pyannote diarization