Voice-Pro:用于转录、翻译和文本转语音的最佳 gradio Web-ui ?
? 한국어 ∙ 英语 ∙ 中文简体 ∙ 中文繁体 ∙ 日本语
Voice-Pro 是用于转录、翻译和文本转语音的最佳 gradio Web-ui。一键即可轻松安装。使用 Miniconda 创建虚拟环境,完全独立于 Windows 系统运行(完全可移植)。支持实时转录和翻译,以及批处理模式。
- YouTube 下载器:您可以下载 YouTube 视频并提取音频(mp3、wav、flac)。
- Vocal Remover :使用UVR5中支持的MDX-Net和Meta开发的Demucs引擎进行语音分离。
- STT :支持使用 Whisper、Faster-Whisper 和 Whisper-timestamped 进行语音到文本转换。
- 翻译:谷歌翻译。
- TTS :文本转语音。 Edge-TTS、F5-TTS。
- 更多的...
?运行画面
TTS
选项卡:使用 F5-TTS 进行播客制作
f5-tts-demo-elon-zuckerberg-1115-3.mp4
Studio
选项卡:转录、翻译和文本转语音
语音专业演示-v1.5.7-hevc-720p.mp4
主要特点
Studio
选项卡- 提供 YouTube 下载器、噪音消除、字幕、翻译和 TTS 的集成环境
- ffmpeg支持的所有视频/音频格式都可以使用
- 可选择输出音频格式(wav、flac、mp3)
- 100 种语言的语音识别和字幕创建
- 选择适合 PC 性能的字幕创建选项(Whisper 模型和计算类型)
- 翻译成 100 多种语言并通过 TTS 生成语音
- 多语言视频中保留了原始视频的BGM和音效。
- 支持TTS语音速度、音量、音调调节
Whisper Caption
卡
- 专门用于创建字幕的选项卡。支持 90 多种语言
- 显示使用视频创建的字幕
- 提供世界级亮点功能
- 提供降噪功能(1-Demucs、2-MDXNet)
Translate
选项卡
- 专用翻译选项卡。支持 100 多种语言
- 支持字幕文件(ass、ssa、srt、mpl2、tmp、vtt、microdvd、json)
- 也可以直接输入文字
- 自动检测上传文件的语言
TTS
选项卡
- 支持 Edge-TTS 和 F5-TTS。
- Edge-TTS 支持 100 多种语言和 400 多种语音。
- 音高、音量和速度均可调节。
- F5-TTS 支持零样本语音克隆。
- 您可以使用名人之声创建播客。
Live Translation
选项卡
- 实时语音识别和翻译支持
- 选择音频输入源,例如麦克风、扬声器等。
- 提供保存捕获的音频、识别的字幕和翻译的字幕的功能
Batch
选项卡
执行环境
- 操作系统:Windows 10/11(64位) ※不支持Linux和Mac操作系统。
- GPU:推荐支持CUDA 12.1的NVIDIA显卡。
- 显存:4GB 或更多。建议 8GB 或以上。
- 内存:4GB或以上
- HDD:安装时至少有20GB可用空间
- 需要互联网连接(安装和翻译工作)
?安装
Voice-Pro 可轻松一键安装。只需运行configure.bat和start.bat
步骤1. 包装准备
- A、付费版本
- 将 USB 中包含的压缩文件 ( voice-pro-x.zip ) 解压缩到计算机上的适当位置。
- 或者,将已解压的文件夹 ( voice-pro-x ) 复制到计算机上的适当位置。
- B、免费版本
- 从以下位置克隆或下载最新版本(源代码 (zip) )
步骤 2. 安装并运行程序
- 运行
configure.bat
- 在 Windows 上安装 git、ffmpeg 和 CUDA(如果使用 NVIDIA GPU)。
- 您只需要第一次运行它。
- 需要互联网连接,根据系统的不同,可能需要一个多小时。
- 安装过程中切勿关闭 Windows 命令窗口。
- 运行
start.bat
- 启动 Voice-Pro。 Web-UI 将自动运行。
- 首次运行时,首先安装 Voice-Pro。
- 需要互联网连接,根据系统的不同,可能需要一个多小时。
- 安装过程中切勿关闭 Windows 命令窗口。
- 如果安装过程中出现问题,请删除installer_files文件夹并再次运行start.bat。
步骤 3. 卸载程序
- 运行
uninstall.bat
:- 删除installer_files文件夹。
- 删除 Windows 上安装的 ffmepg、git 和 CUDA 软件包(如果选择)
- Voice-Pro 标准配备便携式安装。要卸载该程序,删除安装文件夹就足够了。
❓提示与技巧
如果浏览器没有自动运行
- 关闭 Windows-Commnad 窗口并再次运行 start.bat。
- 直接运行浏览器并在地址栏中输入 Windows 命令窗口中显示的地址(例如http://127.0.0.1:7892 )。
如果发生 CUDA 内存不足错误
- 在 Windows 任务管理器 - 性能选项卡中检查 GPU 内存状态。
- 将降噪级别设置为 0 或 1。降噪级别 2 需要至少 8GB 的 GPU 内存。
- 将计算类型设置为int类型。 float类型的质量更好,但需要更多的GPU内存。
如何提高字幕质量?
- 较大的 Whisper 型号往往会提高字幕质量,但情况并非一定如此。大>中>小>基本>小
- 在计算类型中,float类型具有良好的性能。 int类型是一种通过模型量化来减少GPU使用并提高速度的模型。另一方面,性能下降。
- 如果提高降噪级别,则会消除更多背景声音,仅使用剩余的声音进行语音识别。它并不总是保证好的结果。
?警告
Windows Defender 可能会发出有关不受信任的应用程序的警告,并禁止进一步执行 Voice-Pro。如果 SmartScreen 安全级别设置为“警告”,只需单击“更多信息”,然后单击“仍然运行”。如果 SmartScreen 设置为“阻止”级别,则不会有用于运行安装的按钮。在这种情况下,打开 start.bat 文件的属性,然后选中“取消阻止”,应用更改并再次运行 start.bat。
当 Windows Defender 错误地将批处理文件识别为特洛伊木马时,这通常称为“误报”。要解决此问题,您可以执行以下步骤:
- 文件异常处理:在Windows Defender中,您可以设置某些文件或进程跳过安全扫描。为此,请按照以下步骤操作:
- 单击“开始”按钮并转到“设置”。
- 单击“更新和安全”。
- 选择“Windows 安全”并转到“病毒和威胁防护”。
- 单击“管理病毒和威胁防护设置”。
- 在“病毒和威胁防护设置”中选择“添加例外”。
- 选择“文件或文件夹”,找到有问题的批处理文件并将其添加为例外。
- 暂时禁用 Windows Defender:这可能是一个临时解决方案。但是,使用此方法时必须小心,因为它可能会使您的计算机面临其他威胁。
- 向防病毒软件报告问题:如果您确定该文件不是特洛伊木马,则可以将其作为误报报告给 Microsoft。 Microsoft 将对此进行审查并采取任何必要的措施。
?联系我们
- 电子邮件:[email protected]
- 主页(韩语):https://abuskorea.imweb.me
- 亚马逊(美国):https://www.amazon.com/dp/B0DBR69JPL
- 亚马逊(日本):https://www.amazon.co.jp/dp/B0DBVRJ542
- 亚马逊(新加坡):https://www.amazon.sg/dp/B0DCGKL8R4
- 亚马逊(阿联酋):https://www.amazon.ae/dp/B0DCGKM7FF
- 产品信息 (S/W): https://smartstore.naver.com/abus/products/10385660040
- 解决方案(解决方案):https://smartstore.naver.com/abus/products/10298346364
? YouTube
- 产品信息:https://youtube.com/playlist?list=PLwx5dnMDVC9Y7dAjm9r26CZUw1uU5VIeq&si=873MgzUtu4POE9jO
- 家庭卡拉 OK(流行音乐):https://youtube.com/playlist?list=PLwx5dnMDVC9bVxfGo58U-R-w3fUHqwiD6&si=aWRDfF8TxFp2oAR0
- 家庭卡拉 OK(K-Pop):https://youtube.com/playlist?list=PLwx5dnMDVC9Z8kB01tQKfzTysaCCxC3C8&si=1_-9p722rd_JXpzv
- 家庭卡拉 OK(日本流行音乐):https://youtube.com/playlist?list=PLwx5dnMDVC9apyxrP9LE9PiT821G7lJXk&si=0a474CP7ZIjMoGN9
制作人员
- 德穆克斯:https://github.com/facebookresearch/demucs
- yt-dlp:https://github.com/yt-dlp/yt-dlp
- 渐变:https://github.com/gradio-app/gradio
- 边缘 TTS:https://github.com/rany2/edge-tts
- F5-TTS:https://github.com/SWivid/F5-TTS.git
©️版权所有
通过阿布斯