ดาวน์โหลด VideoLingo - ดาวน์โหลดซอร์สโค้ด VideoLingo

VideoLingo

ซอร์สโค้ดอื่น ๆ

ดาวน์โหลด

เชื่อมต่อโลก ทีละเฟรม

อังกฤษ ｜中文

ภาพรวม

VideoLingo เป็นเครื่องมือแปลวิดีโอ โลคัลไลเซชัน และพากย์เสียงแบบครบวงจรที่มุ่งสร้างคำบรรยายคุณภาพระดับ Netflix ช่วยลดการแปลด้วยเครื่องที่ยุ่งยากและคำบรรยายหลายบรรทัดในขณะที่เพิ่มการพากย์คุณภาพสูง ช่วยให้สามารถแบ่งปันความรู้ทั่วโลกข้ามอุปสรรคทางภาษา ด้วยอินเทอร์เฟซ Streamlit ที่ใช้งานง่าย คุณสามารถแปลงลิงก์วิดีโอให้เป็นวิดีโอที่แปลเป็นภาษาท้องถิ่นพร้อมคำบรรยายสองภาษาคุณภาพสูงและการพากย์ได้ด้วยการคลิกเพียงไม่กี่ครั้ง

คุณสมบัติที่สำคัญ:

ดาวน์โหลดวิดีโอ YouTube ผ่าน yt-dlp
การรู้จำคำบรรยายระดับคำด้วย WhisperX
การแบ่งส่วนคำบรรยายตาม NLP และ GPT
คำศัพท์เฉพาะที่สร้างโดย GPT สำหรับการแปลที่สอดคล้องกัน
การแปล การไตร่ตรอง และการปรับโดยตรง 3 ขั้นตอนเพื่อคุณภาพระดับมืออาชีพ
คำบรรยายบรรทัดเดียวมาตรฐานของ Netflix เท่านั้น
การจัดตำแหน่งการทำสำเนาด้วย GPT-SoVITS และวิธีการอื่น ๆ
คลิกเดียวเริ่มต้นและส่งออกใน Streamlit
การบันทึกโดยละเอียดพร้อมการเริ่มดำเนินการใหม่อีกครั้ง
การสนับสนุนหลายภาษาที่ครอบคลุม

ความแตกต่างจากโปรเจ็กต์ที่คล้ายกัน: คำบรรยายบรรทัดเดียวเท่านั้น คุณภาพการแปลที่เหนือกว่า

สาธิต

การแปลภาษารัสเซีย

ru_demo.mp4

GPT-SoVITS

sovits.mp4

โอเอทส์

OAITTS.mp4

รองรับภาษา:

การสนับสนุนภาษาอินพุตปัจจุบันและตัวอย่าง:

ภาษาอินพุต	การสาธิตการแปล
ภาษาอังกฤษ	ภาษาอังกฤษเป็นภาษาจีน
ภาษารัสเซีย	รัสเซียเป็นจีน
ภาษาฝรั่งเศส	ภาษาฝรั่งเศสเป็นภาษาญี่ปุ่น
เยอรมัน	เยอรมันเป็นจีน
ภาษาอิตาลี	ภาษาอิตาลีเป็นภาษาจีน
สเปน	ภาษาสเปนเป็นภาษาจีน
ญี่ปุ่น	ภาษาญี่ปุ่นเป็นภาษาจีน
ชาวจีน*	จีนเป็นอังกฤษ

*ภาษาจีนต้องการการกำหนดค่าแยกต่างหากของรุ่น WhisperX ใช้ได้เฉพาะกับการติดตั้งซอร์สโค้ดในเครื่องเท่านั้น ดูเอกสารประกอบการติดตั้งสำหรับกระบวนการกำหนดค่า และอย่าลืมระบุภาษาการถอดเสียงเป็น zh ในแถบด้านข้างของหน้าเว็บ

การรองรับภาษาการแปลขึ้นอยู่กับความสามารถของโมเดลภาษาขนาดใหญ่ที่ใช้ ในขณะที่ภาษาพากย์จะขึ้นอยู่กับวิธี TTS ที่เลือก

เริ่มต้นอย่างรวดเร็ว

ประสบการณ์ออนไลน์

สัมผัสประสบการณ์ VideoLingo อย่างรวดเร็วใน Colab ในเวลาเพียง 5 นาที:

การติดตั้งในท้องถิ่น

VideoLingo รองรับแพลตฟอร์มฮาร์ดแวร์และระบบปฏิบัติการทั้งหมด แต่ทำงานได้ดีที่สุดด้วยการเร่งความเร็วของ GPU สำหรับคำแนะนำในการติดตั้งโดยละเอียด โปรดดูเอกสารประกอบ: อังกฤษ | 简体中文

การติดตั้งนักเทียบท่า

VideoLingo มี Dockerfile โปรดดูเอกสารการติดตั้ง: อังกฤษ | 简体中文

โหมดแบตช์

คำแนะนำการใช้งาน: อังกฤษ | 简体中文

ข้อจำกัดในปัจจุบัน

ประสิทธิภาพของ WhisperX จะแตกต่างกันไปตามอุปกรณ์ต่างๆ เวอร์ชัน 1.7 จะดำเนินการแยกเสียงของ demucs ก่อน แต่อาจส่งผลให้การถอดเสียงแย่ลงหลังจากการแยกเมื่อเปรียบเทียบกับเมื่อก่อน เนื่องจากตัวกระซิบเองได้รับการฝึกฝนในสภาพแวดล้อมที่มีเพลงแบ็คกราวนด์ ก่อนที่จะแยกเพลง จะไม่ถอดเสียงเนื้อเพลง BGM แต่หลังจากแยกเพลง อาจถอดเสียงเนื้อเพลงเหล่านั้น
คุณภาพฟีเจอร์การพากย์อาจไม่สมบูรณ์แบบ เนื่องจากยังอยู่ในขั้นตอนการทดสอบและพัฒนา โดยมีแผนจะรวม MascGCT เพื่อให้ได้ผลลัพธ์ที่ดีที่สุดในปัจจุบัน ขอแนะนำให้เลือก TTS ที่มีอัตราการพูดใกล้เคียงกัน โดยพิจารณาจากความเร็วและลักษณะเนื้อหาของวิดีโอต้นฉบับ ดูการสาธิตสำหรับเอฟเฟกต์
การจดจำการถอดเสียงวิดีโอหลายภาษาจะคงไว้แต่ภาษาหลักเท่านั้น เนื่องจาก WhisperX ใช้โมเดลพิเศษสำหรับภาษาเดียวเมื่อบังคับให้จัดคำบรรยายระดับคำ และจะลบภาษาที่ไม่รู้จัก
การพากย์แยกหลายอักขระอยู่ระหว่างการพัฒนา แม้ว่า WhisperX จะมี VAD ที่มีศักยภาพ แต่จำเป็นต้องมีการใช้งานเฉพาะ และฟีเจอร์นี้ยังไม่รองรับ

แผนการทำงาน

VAD เพื่อแยกแยะลำโพง, การพากย์เสียงหลายตัวอักษร
รูปแบบการแปลที่ปรับแต่งได้
บริการ SaaS
ลิปซิงค์สำหรับวิดีโอที่พากย์

ใบอนุญาต

โครงการนี้ได้รับอนุญาตภายใต้ลิขสิทธิ์ Apache 2.0 เมื่อใช้โปรเจ็กต์นี้ โปรดปฏิบัติตามกฎเหล่านี้:

เมื่อเผยแพร่ผลงาน ขอแนะนำ (ไม่บังคับ) ให้เครดิต VideoLingo สำหรับการสร้างคำบรรยาย
ปฏิบัติตามเงื่อนไขของโมเดลภาษาขนาดใหญ่และ TTS ที่ใช้สำหรับการระบุแหล่งที่มาที่เหมาะสม
หากคุณคัดลอกโค้ด โปรดรวมสำเนาใบอนุญาต Apache 2.0 ฉบับเต็มด้วย

เราขอขอบคุณโครงการโอเพ่นซอร์สต่อไปนี้อย่างจริงใจสำหรับการสนับสนุน ซึ่งให้การสนับสนุนที่สำคัญสำหรับการพัฒนา VideoLingo: