อังกฤษ |中文
VideoLingo เป็นเครื่องมือแปลวิดีโอ โลคัลไลเซชัน และพากย์เสียงแบบครบวงจรที่มุ่งสร้างคำบรรยายคุณภาพระดับ Netflix ช่วยลดการแปลด้วยเครื่องที่ยุ่งยากและคำบรรยายหลายบรรทัดในขณะที่เพิ่มการพากย์คุณภาพสูง ช่วยให้สามารถแบ่งปันความรู้ทั่วโลกข้ามอุปสรรคทางภาษา ด้วยอินเทอร์เฟซ Streamlit ที่ใช้งานง่าย คุณสามารถแปลงลิงก์วิดีโอให้เป็นวิดีโอที่แปลเป็นภาษาท้องถิ่นพร้อมคำบรรยายสองภาษาคุณภาพสูงและการพากย์ได้ด้วยการคลิกเพียงไม่กี่ครั้ง
คุณสมบัติที่สำคัญ:
ดาวน์โหลดวิดีโอ YouTube ผ่าน yt-dlp
การรู้จำคำบรรยายระดับคำด้วย WhisperX
การแบ่งส่วนคำบรรยายตาม NLP และ GPT
คำศัพท์เฉพาะที่สร้างโดย GPT สำหรับการแปลที่สอดคล้องกัน
การแปล การไตร่ตรอง และการปรับโดยตรง 3 ขั้นตอนเพื่อคุณภาพระดับมืออาชีพ
คำบรรยายบรรทัดเดียวมาตรฐานของ Netflix เท่านั้น
การจัดตำแหน่งการทำสำเนาด้วย GPT-SoVITS และวิธีการอื่น ๆ
เริ่มต้นและส่งออกใน Streamlit เพียงคลิกเดียว
การบันทึกโดยละเอียดพร้อมการเริ่มดำเนินการใหม่อีกครั้ง
การสนับสนุนหลายภาษาที่ครอบคลุม
ความแตกต่างจากโปรเจ็กต์ที่คล้ายกัน: คำบรรยายบรรทัดเดียวเท่านั้น คุณภาพการแปลที่เหนือกว่า
การแปลภาษารัสเซียru_demo.mp4 | GPT-SoVITSsovits.mp4 | โอเอทส์OAITTS.mp4 |
การสนับสนุนภาษาอินพุตปัจจุบันและตัวอย่าง:
ภาษาอินพุต | การสาธิตการแปล |
---|---|
ภาษาอังกฤษ | ภาษาอังกฤษเป็นภาษาจีน |
ภาษารัสเซีย | รัสเซียเป็นจีน |
ภาษาฝรั่งเศส | ภาษาฝรั่งเศสเป็นภาษาญี่ปุ่น |
เยอรมัน | เยอรมันเป็นจีน |
ภาษาอิตาลี | ภาษาอิตาลีเป็นภาษาจีน |
สเปน | ภาษาสเปนเป็นภาษาจีน |
ญี่ปุ่น | ภาษาญี่ปุ่นเป็นภาษาจีน |
ชาวจีน* | จีนเป็นอังกฤษ |
*ภาษาจีนต้องการการกำหนดค่าแยกต่างหากของรุ่น WhisperX ใช้ได้เฉพาะกับการติดตั้งซอร์สโค้ดในเครื่องเท่านั้น ดูเอกสารการติดตั้งสำหรับกระบวนการกำหนดค่า และอย่าลืมระบุภาษาการถอดเสียงเป็น zh ในแถบด้านข้างของหน้าเว็บ
การรองรับภาษาการแปลขึ้นอยู่กับความสามารถของโมเดลภาษาขนาดใหญ่ที่ใช้ ในขณะที่ภาษาพากย์จะขึ้นอยู่กับวิธี TTS ที่เลือก
สัมผัสประสบการณ์ VideoLingo อย่างรวดเร็วใน Colab ในเวลาเพียง 5 นาที:
VideoLingo รองรับแพลตฟอร์มฮาร์ดแวร์และระบบปฏิบัติการทั้งหมด แต่ทำงานได้ดีที่สุดด้วยการเร่งความเร็วของ GPU สำหรับคำแนะนำในการติดตั้งโดยละเอียด โปรดดูเอกสารประกอบ: อังกฤษ | 简体中文
VideoLingo มี Dockerfile โปรดดูเอกสารการติดตั้ง: อังกฤษ | 简体中文
คำแนะนำการใช้งาน: อังกฤษ | 简体中文
ประสิทธิภาพของ WhisperX จะแตกต่างกันไปตามอุปกรณ์ต่างๆ เวอร์ชัน 1.7 จะดำเนินการแยกเสียงของ demucs ก่อน แต่อาจส่งผลให้การถอดเสียงแย่ลงหลังจากการแยกเมื่อเปรียบเทียบกับเมื่อก่อน เนื่องจากตัวกระซิบเองได้รับการฝึกฝนในสภาพแวดล้อมที่มีเพลงแบ็คกราวนด์ ก่อนที่จะแยกเพลง จะไม่ถอดเสียงเนื้อเพลง BGM แต่หลังจากแยกเพลง อาจถอดเสียงเนื้อเพลงเหล่านั้น
คุณภาพฟีเจอร์การพากย์อาจไม่สมบูรณ์แบบ เนื่องจากยังอยู่ในขั้นตอนการทดสอบและพัฒนา โดยมีแผนจะรวม MascGCT เพื่อให้ได้ผลลัพธ์ที่ดีที่สุดในปัจจุบัน ขอแนะนำให้เลือก TTS ที่มีอัตราการพูดใกล้เคียงกัน โดยพิจารณาจากความเร็วและลักษณะเนื้อหาของวิดีโอต้นฉบับ ดูการสาธิตสำหรับเอฟเฟกต์
การจดจำการถอดเสียงวิดีโอหลายภาษาจะคงไว้แต่ภาษาหลักเท่านั้น เนื่องจาก WhisperX ใช้โมเดลพิเศษสำหรับภาษาเดียวเมื่อบังคับให้จัดคำบรรยายระดับคำ และจะลบภาษาที่ไม่รู้จัก
การพากย์แยกหลายอักขระอยู่ระหว่างการพัฒนา แม้ว่า WhisperX จะมี VAD ที่มีศักยภาพ แต่จำเป็นต้องมีการใช้งานเฉพาะ และฟีเจอร์นี้ยังไม่รองรับ
VAD เพื่อแยกแยะลำโพง, การพากย์เสียงหลายตัวอักษร
รูปแบบการแปลที่ปรับแต่งได้
บริการ SaaS
ลิปซิงค์สำหรับวิดีโอที่พากย์
โครงการนี้ได้รับอนุญาตภายใต้ลิขสิทธิ์ Apache 2.0 เมื่อใช้โปรเจ็กต์นี้ โปรดปฏิบัติตามกฎเหล่านี้:
เมื่อเผยแพร่ผลงาน ขอแนะนำ (ไม่บังคับ) ให้เครดิต VideoLingo สำหรับการสร้างคำบรรยาย
ปฏิบัติตามเงื่อนไขของโมเดลภาษาขนาดใหญ่และ TTS ที่ใช้สำหรับการระบุแหล่งที่มาที่เหมาะสม
หากคุณคัดลอกโค้ด โปรดรวมสำเนาใบอนุญาต Apache 2.0 ฉบับเต็มด้วย
เราขอขอบคุณโครงการโอเพ่นซอร์สต่อไปนี้อย่างจริงใจสำหรับการสนับสนุน ซึ่งให้การสนับสนุนที่สำคัญสำหรับการพัฒนา VideoLingo:
กระซิบX
yt-dlp
json_repair
GPT-SoVITS
เบลล์
เข้าร่วม Discord ของเรา: https://discord.gg/9F2G92CWPp
ส่งปัญหาหรือดึงคำขอบน GitHub
ติดตามฉันบน Twitter: @Huanshere
เยี่ยมชมเว็บไซต์อย่างเป็นทางการ: docs.videolingo.io
ส่งอีเมลถึงฉันที่: [email protected]
หากคุณพบว่า VideoLingo มีประโยชน์ โปรดให้เรา ️!