Voice-Pro: gradio web-ui ที่ดีที่สุดสำหรับการถอดเสียง การแปล และการอ่านออกเสียงข้อความ ?
- เกาหลี ∙ อังกฤษ ∙ 中文简体 ∙ 中文繁體 ∙ 日本語
Voice-Pro เป็น gradio web-ui ที่ดีที่สุดสำหรับการถอดเสียง การแปล และการอ่านออกเสียงข้อความ สามารถติดตั้งได้อย่างง่ายดายเพียงคลิกเดียว สร้างสภาพแวดล้อมเสมือนจริงโดยใช้ Miniconda ซึ่งทำงานแยกจากระบบ Windows โดยสิ้นเชิง (พกพาได้อย่างสมบูรณ์) รองรับการถอดเสียงและการแปลแบบเรียลไทม์ รวมถึงโหมดแบทช์
- YouTube Downloader : คุณสามารถดาวน์โหลดวิดีโอ YouTube และแยกเสียง (mp3, wav, flac)
- ตัวกำจัดเสียงร้อง : ใช้ MDX-Net ที่รองรับใน UVR5 และเครื่องมือ Demucs ที่พัฒนาโดย Meta สำหรับการแยกเสียง
- STT : รองรับการแปลงคำพูดเป็นข้อความด้วย Whisper, Faster-Whisper และการประทับเวลากระซิบ
- นักแปล : Google นักแปล
- TTS : ข้อความเป็นคำพูด ขอบ-TTS, F5-TTS.
- มากกว่า...
- หน้าจอเรียกใช้
คุณสมบัติที่สำคัญ
- แท็บ
Studio
- มอบสภาพแวดล้อมที่ผสานรวมสำหรับโปรแกรมดาวน์โหลด YouTube, การลบสัญญาณรบกวน, คำบรรยาย, การแปล และ TTS
- สามารถใช้รูปแบบวิดีโอ/เสียงทั้งหมดที่ ffmpeg รองรับได้
- รูปแบบเสียงเอาต์พุตที่เลือกได้ (wav, flac, mp3)
- การรู้จำคำพูดและการสร้างคำบรรยายสำหรับ 100 ภาษา
- เลือกตัวเลือกการสร้างคำบรรยายที่เหมาะสมกับประสิทธิภาพของพีซี (รุ่น Whisper และประเภทการคำนวณ)
- แปลเป็นภาษาต่างๆ มากกว่า 100 ภาษาและสร้างเสียงผ่าน TTS
- BGM และเอฟเฟกต์เสียงจากวิดีโอต้นฉบับจะถูกเก็บรักษาไว้ในวิดีโอหลายภาษา
- รองรับการปรับความเร็วเสียง ระดับเสียง และระดับเสียงของ TTS
แท็บ Whisper Caption
- แท็บสำหรับสร้างคำบรรยายโดยเฉพาะ รองรับมากกว่า 90 ภาษา
- แสดงคำบรรยายที่สร้างด้วยวิดีโอ
- มีฟังก์ชั่นไฮไลท์ระดับโลกให้
- มีฟังก์ชัน Denoise (1-Demucs, 2-MDXNet)
แท็บ Translate
- แท็บเฉพาะสำหรับการแปล รองรับมากกว่า 100 ภาษา
- รองรับไฟล์คำบรรยาย (ass, ssa, srt, mpl2, tmp, vtt, microdvd, json)
- สามารถป้อนข้อความโดยตรงได้เช่นกัน
- ตรวจจับภาษาของไฟล์ที่อัพโหลดโดยอัตโนมัติ
แท็บ TTS
- รองรับ Edge-TTS และ F5-TTS
- Edge-TTS รองรับมากกว่า 100 ภาษาและเสียงมากกว่า 400 เสียง
- สามารถปรับระดับระดับเสียงและความเร็วได้
- F5-TTS รองรับการโคลนเสียงแบบ Zero-Shot
- คุณสามารถสร้างพอดแคสต์โดยใช้ Celeb Voices
แท็บ Live Translation
- รองรับการจดจำเสียงและการแปลแบบเรียลไทม์
- เลือกแหล่งสัญญาณเข้าเสียง เช่น ไมค์ ลำโพง ฯลฯ
- ให้ความสามารถในการบันทึกเสียงที่บันทึกไว้ คำบรรยายที่รู้จัก และคำบรรยายที่แปลแล้ว
แท็บ Batch
- การประมวลผลเป็นชุดสำหรับไฟล์จำนวนมาก
- คำบรรยาย การแปล TTS
สภาพแวดล้อมการดำเนินการ
- ระบบปฏิบัติการ: Windows 10/11 (64 บิต) ※ ไม่รองรับ Linux และ Mac OS
- GPU: แนะนำให้ใช้กราฟิกการ์ด NVIDIA ที่รองรับ CUDA 12.1
- VRAM: 4GB หรือมากกว่า แนะนำ 8GB ขึ้นไป
- RAM: 4GB หรือมากกว่า
- HDD: พื้นที่ว่างอย่างน้อย 20GB ระหว่างการติดตั้ง
- จำเป็นต้องเชื่อมต่ออินเทอร์เน็ต (งานติดตั้งและแปล)
- การติดตั้ง
Voice-Pro สามารถติดตั้งได้อย่างง่ายดายเพียงคลิกเดียว เพียงเรียกใช้ configuration.bat และ start.bat
ขั้นตอนที่ 1 การเตรียมบรรจุภัณฑ์
- A. เวอร์ชันที่ต้องชำระเงิน
- แตกไฟล์บีบอัด ( voice-pro-x.zip ) ที่รวมอยู่ใน USB ไปยังตำแหน่งที่เหมาะสมบนคอมพิวเตอร์ของคุณ
- หรือคัดลอกโฟลเดอร์ที่คลายซิปแล้ว ( voice-pro-x ) ไปยังตำแหน่งที่เหมาะสมบนคอมพิวเตอร์ของคุณ
- ข. เวอร์ชันฟรี
- โคลนหรือดาวน์โหลดรุ่นล่าสุด ( ซอร์สโค้ด (zip) ) จาก
ขั้นตอนที่ 2 ติดตั้งและรันโปรแกรม
- เรียกใช้
configure.bat
- ติดตั้ง git, ffmpeg และ CUDA (หากใช้ NVIDIA GPU) บน Windows
- คุณจะต้องรันมันในครั้งแรกเท่านั้น
- จำเป็นต้องมีการเชื่อมต่ออินเทอร์เน็ต และอาจใช้เวลานานกว่าหนึ่งชั่วโมง ขึ้นอยู่กับระบบ
- ห้ามปิดหน้าต่าง Windows-Command ระหว่างการติดตั้ง
- เรียกใช้
start.bat
- เริ่ม Voice-Pro Web-UI จะทำงานโดยอัตโนมัติ
- เมื่อใช้งานครั้งแรก Voice-Pro จะถูกติดตั้งก่อน
- จำเป็นต้องมีการเชื่อมต่ออินเทอร์เน็ต และอาจใช้เวลานานกว่าหนึ่งชั่วโมง ขึ้นอยู่กับระบบ
- ห้ามปิดหน้าต่าง Windows-Command ระหว่างการติดตั้ง
- หากเกิดปัญหาระหว่างการติดตั้ง ให้ลบโฟลเดอร์ installer_files แล้วรัน start.bat อีกครั้ง
ขั้นตอนที่ 3 ถอนการติดตั้งโปรแกรม
- เรียกใช้
uninstall.bat
:- ลบโฟลเดอร์ installer_files
- ลบแพ็คเกจ ffmepg, git และ CUDA ที่ติดตั้งบน Windows (หากเลือก)
- Voice-Pro มีการติดตั้ง แบบพกพา เป็นมาตรฐาน หากต้องการถอนการติดตั้งโปรแกรม การลบโฟลเดอร์การติดตั้งก็เพียงพอแล้ว
❓เคล็ดลับและเทคนิค
หากเบราว์เซอร์ไม่ทำงานโดยอัตโนมัติ
- ปิดหน้าต่าง Windows-Commnad และเรียกใช้ start.bat อีกครั้ง
- เรียกใช้เบราว์เซอร์โดยตรงและป้อนที่อยู่ที่แสดงในหน้าต่าง Windows-Command (เช่น http://127.0.0.1:7892 ) ในแถบที่อยู่
หากเกิดข้อผิดพลาด CUDA Out-Of-Memory
- ตรวจสอบสถานะหน่วยความจำ GPU ใน Windows Task Manager - แท็บประสิทธิภาพ
- ตั้งค่าระดับ Denoise เป็น 0 หรือ 1 Denoise ระดับ 2 ต้องใช้หน่วยความจำ GPU อย่างน้อย 8GB
- ตั้งค่าประเภทการคำนวณเป็นประเภท int ประเภทโฟลตมีคุณภาพดีกว่า แต่ต้องใช้หน่วยความจำ GPU มากกว่า
จะปรับปรุงคุณภาพของคำบรรยายได้อย่างไร?
- คุณภาพของคำบรรยายมีแนวโน้มที่จะดีขึ้นเมื่อใช้รุ่น Whisper ที่ใหญ่กว่า แต่ก็ไม่จำเป็นเสมอไป ใหญ่ > กลาง > เล็ก > ฐาน > เล็ก
- ในบรรดาประเภทการประมวลผล ประเภทโฟลตมีประสิทธิภาพที่ดี ประเภท int คือโมเดลที่ลดการใช้งาน GPU และเพิ่มความเร็วผ่านการหาปริมาณโมเดล ในทางกลับกันประสิทธิภาพลดลง
- หากคุณเพิ่มระดับการลดเสียงรบกวน เสียงพื้นหลังจะถูกลบออกไป และระบบจะใช้เฉพาะเสียงที่เหลือในการจดจำเสียงเท่านั้น ไม่ได้รับประกันผลลัพธ์ที่ดีเสมอไป
- คำเตือน
Windows Defender อาจแจ้งเตือนเกี่ยวกับแอปพลิเคชันที่ไม่น่าเชื่อถือและไม่อนุญาตให้ใช้งาน Voice-Pro ต่อไป หากระดับความปลอดภัยของ SmartScreen ถูกตั้งค่าเป็น "เตือน" เพียงคลิก "ข้อมูลเพิ่มเติม" จากนั้นคลิก "เรียกใช้ต่อไป" หาก SmartScreen ถูกตั้งค่าเป็นระดับ "บล็อก" จะไม่มีปุ่มสำหรับเรียกใช้การติดตั้ง ในกรณีนี้ ให้เปิดคุณสมบัติของไฟล์ start.bat และทำเครื่องหมายที่ "Unblock" จากนั้นใช้การเปลี่ยนแปลงและเรียกใช้ start.bat อีกครั้ง
เมื่อ Windows Defender จดจำไฟล์แบตช์เป็นโทรจันโดยไม่ตั้งใจ สิ่งนี้มักเรียกว่า 'ผลบวกที่ผิดพลาด' เพื่อแก้ไขปัญหานี้ คุณสามารถทำตามขั้นตอนต่อไปนี้:
- การจัดการข้อยกเว้นไฟล์: ใน Windows Defender คุณสามารถตั้งค่าไฟล์หรือกระบวนการบางอย่างให้ข้ามการสแกนความปลอดภัยได้ โดยทำตามขั้นตอนด้านล่าง:
- คลิกปุ่ม 'เริ่ม' และไปที่ 'การตั้งค่า'
- คลิก 'อัปเดตและความปลอดภัย'
- เลือก 'ความปลอดภัยของ Windows' และไปที่ 'การป้องกันไวรัสและภัยคุกคาม'
- คลิก 'จัดการการตั้งค่าการป้องกันไวรัสและภัยคุกคาม'
- เลือก 'เพิ่มข้อยกเว้น' ใน 'การตั้งค่าการป้องกันไวรัสและภัยคุกคาม'
- เลือก 'ไฟล์หรือโฟลเดอร์' ค้นหาไฟล์แบตช์ที่ต้องการและเพิ่มเป็นข้อยกเว้น
- ปิดการใช้งาน Windows Defender ชั่วคราว: นี่อาจเป็นวิธีแก้ปัญหาชั่วคราว อย่างไรก็ตาม คุณต้องระมัดระวังเมื่อใช้วิธีนี้ เนื่องจากอาจทำให้คอมพิวเตอร์ของคุณเสี่ยงต่อภัยคุกคามอื่นๆ
- รายงานปัญหาไปยังซอฟต์แวร์ป้องกันไวรัส: หากคุณแน่ใจว่าไฟล์นั้นไม่ใช่ม้าโทรจัน คุณสามารถรายงานไปยัง Microsoft ว่าเป็นผลบวกลวงได้ Microsoft จะตรวจสอบเรื่องนี้และดำเนินการตามที่จำเป็น
- ติดต่อเรา
- อีเมล์: [email protected]
- หน้าแรก (ภาษาเกาหลี): https://abuskorea.imweb.me
- อเมซอน (สหรัฐอเมริกา): https://www.amazon.com/dp/B0DBR69JPL
- อเมซอน (ญี่ปุ่น): https://www.amazon.co.jp/dp/B0DBVRJ542
- อเมซอน (สิงคโปร์): https://www.amazon.sg/dp/B0DCGKL8R4
- อเมซอน (สหรัฐอาหรับเอมิเรตส์): https://www.amazon.ae/dp/B0DCGKM7FF
- 네이버 스마스토어 (S/W): https://smartstore.naver.com/abus/products/10385660040
- 네이버 스마스토어 (โซลูชั่น): https://smartstore.naver.com/abus/products/10298346364
- ยูทูบ
- ข้อมูลผลิตภัณฑ์: https://youtube.com/playlist?list=PLwx5dnMDVC9Y7dAjm9r26CZUw1uU5VIeq&si=873MgzUtu4POE9jO
- คาราโอเกะที่บ้าน (ป๊อป): https://youtube.com/playlist?list=PLwx5dnMDVC9bVxfGo58U-R-w3fUHqwiD6&si=aWRDfF8TxFp2oAR0
- คาราโอเกะที่บ้าน (K-Pop): https://youtube.com/playlist?list=PLwx5dnMDVC9Z8kB01tQKfzTysaCCxC3C8&si=1_-9p722rd_JXpzv
- คาราโอเกะที่บ้าน (เจป๊อป): https://youtube.com/playlist?list=PLwx5dnMDVC9apyxrP9LE9PiT821G7lJXk&si=0a474CP7ZIjMoGN9
เครดิต
- เดมัคส์: https://github.com/facebookresearch/demucs
- yt-dlp: https://github.com/yt-dlp/yt-dlp
- วิทยุ: https://github.com/gradio-app/gradio
- edge-TTS: https://github.com/rany2/edge-tts
- F5-TTS: https://github.com/SWivid/F5-TTS.git
©️ลิขสิทธิ์
โดย ABUS