?带有同步音频的视频翻译
SonyTranslate是一种功能强大且用户友好的Web应用程序,可让您轻松地将视频转换为不同的语言。该存储库托管了SonyTranslate Web UI的代码,该代码由Gradio库构建,以提供无缝且交互式的用户体验。
描述 | 关联 |
---|---|
? COLAB笔记本 | |
?存储库 | |
在线演示 |
为了全面了解该项目,我们强烈建议您观看Dev-Mallettes的视频教程。您可以通过单击下面的缩略图在YouTube上观看它:
语言代码 | 语言 |
---|---|
en | 英语 |
fr | 法语 |
de | 德语 |
es | 西班牙语 |
它 | 意大利人 |
JA | 日本人 |
NL | 荷兰 |
英国 | 乌克兰 |
pt | 葡萄牙语 |
ar | 阿拉伯 |
ZH | 中文 - 简化 |
ZH-TW | 中文 - 传统 |
CS | 捷克 |
da | 丹麦语 |
fi | 芬兰 |
El | 希腊语 |
他 | 希伯来语 |
胡 | 匈牙利 |
ko | 韩国人 |
fa | 波斯语 |
pl | 抛光 |
ru | 俄语 |
tr | 土耳其 |
ur | 乌尔都语 |
你好 | 印地语 |
vi | 越南人 |
ID | 印度尼西亚 |
BN | 孟加拉 |
TE | 泰卢固语 |
先生 | 马拉地语 |
ta | 泰米尔人 |
JW(或合资) | 爪哇人 |
CA | 加泰罗尼亚 |
NE | 尼泊尔 |
Th | 泰国 |
SV | 瑞典 |
是 | 阿姆哈拉语 |
CY | 威尔士语 |
人力资源 | 克罗地亚人 |
是 | 冰岛 |
ka | 格鲁吉亚人 |
公里 | 高棉 |
SK | 斯洛伐克 |
平方英尺 | 阿尔巴尼亚人 |
Sr | 塞尔维亚 |
AZ | 阿塞拜疆 |
BG | 保加利亚语 |
GL | 加利西亚人 |
古 | 古吉拉特语 |
KK | 哈萨克 |
kn | 卡纳达语 |
上尉 | 立陶宛语 |
LV | 拉脱维亚 |
ML | 马拉雅拉姆语 |
ro | 罗马尼亚人 |
SI | 僧伽罗 |
苏 | 圣丹尼斯 |
等 | 爱沙尼亚人 |
MK | 马其顿 |
SW | 斯瓦希里语 |
AF | 南非荷兰语 |
BS | 波斯尼亚 |
洛杉矶 | 拉丁 |
我的 | 缅甸缅甸 |
不 | 挪威 |
作为 | 阿萨姆人 |
欧盟 | 巴斯克 |
哈 | 豪萨 |
HT | 海地克里奥尔人 |
hy | 亚美尼亚人 |
LO | 老挝 |
毫克 | 马尔加什 |
Mn | 蒙 |
公吨 | 马耳他 |
PA | 旁遮普 |
PS | Pashto |
SL | 斯洛文尼亚人 |
sn | 肖纳 |
所以 | 索马里 |
TG | 塔吉克 |
TK | 土库曼 |
TT | 塔塔尔 |
uz | 乌兹别克 |
哟 | 约鲁巴 |
语言代码 | 语言 |
---|---|
是的 | 艾玛拉 |
BM | 班巴拉 |
CEB | 宿务 |
纽约 | Chichewa |
DV | 潜水 |
doi | dogri |
EE | 母羊 |
GN | 瓜拉尼 |
伊洛 | 伊洛科 |
RW | Kinyarwanda |
克里 | 克里奥 |
ku | 库尔德 |
肯 | 基尔吉斯 |
LG | 甘达 |
麦 | Maithili |
或者 | 奥里亚 |
om | Oromo |
qu | Quechua |
SM | 萨摩亚 |
ti | tigrinya |
TS | Tsonga |
AK | akan |
UG | 维吾尔 |
使用colab运行时运行Sonitranslate:
在您开始安装和使用Sonitranslate之前,您需要做一些事情:
accept the license to use the models
:https://huggingface.co/pyannote/speaker-diarization and https://huggingface.co/pyannote/segentationconda install -c anaconda git -y
安装git(在下一节中的步骤1之后执行此操作)。如果您在Anaconda安装Git时遇到困难,则可以使用以下链接:完成这些步骤后,您将准备安装Sonitranslate。
要安装Sonitranslate,请执行以下步骤:
conda create -n sonitr python=3.10 -y
conda activate sonitr
python -m pip install pip==23.1.2
conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia
git clone https://github.com/r3gm/SoniTranslate.git
cd SoniTranslate
pip install -r requirements_base.txt -v
pip install -r requirements_extra.txt -v
pip install onnxruntime-gpu
安装FFMPEG。 FFMPEG是一个免费软件项目,可生产用于处理多媒体数据的库和程序。您将需要它来处理音频和视频文件。您可以通过在终端中运行conda install -y ffmpeg
安装ffmpeg(建议)。如果您在Anaconda安装FFMPEG时遇到困难,则可以使用以下链接:(https://ffmpeg.org/ffmpeg.html)。安装后,通过在终端中运行ffmpeg -h
来确保它位于路径中。如果您没有收到错误消息,那就很好。
可选安装:
安装FFMPEG后,您可以安装这些可选软件包。
Piper TTS是一种快速的本地神经文本到语音系统,听起来很棒,并针对Raspberry Pi 4进行了优化。Piper用于各种项目。声音接受了VIT训练,并导出到Onxruntime。
pip install -q piper-tts==1.2.0
Coqui XTTS是一种文本对语音(TTS)模型,可让您以不同的语言生成逼真的声音。它可以用简短的音频剪辑来克隆声音,甚至用另一种语言讲话!这就像对您所需要的任何文本模仿个人语音。
pip install -q -r requirements_xtts.txt
pip install -q TTS==0.21.1 --no-deps
要在本地运行Sonitranslate,请确保sonitr
Conda环境活跃:
conda activate sonitr
将拥抱的脸部令牌设置为Linux中的环境变量:
export YOUR_HF_TOKEN="YOUR_HUGGING_FACE_TOKEN"
然后导航到SoniTranslate
文件夹并运行app_rvc.py
python app_rvc.py
当local URL
http://127.0.0.1:7860
显示在终端中时,只需在Web浏览器中打开此URL即可访问Sonitranslate接口。
在大多数环境中,您可以通过在启动脚本app_rvc.py
终端中按CTRL+C来停止执行。这将中断程序并停止Gradio应用程序。要停用Conda环境,您可以使用以下命令:
conda deactivate
这将使当前活跃的Conda环境Sonitr停用,您将返回基本环境或全球Python环境。
如果您需要从头开始,可以删除SoniTranslate
文件夹并使用以下一组命令删除sonitr
Conda环境:
conda deactivate
conda env remove -n sonitr
删除了sonitr
环境后,您可以重新开始新的安装。
conda activate sonitr
conda env config vars set YOUR_HF_TOKEN="YOUR_HUGGING_FACE_TOKEN_HERE"
conda deactivate
conda activate sonitr
conda env config vars set OPENAI_API_KEY="your-api-key-here"
conda deactivate
app_rvc.py脚本支持命令行参数以自定义其行为。这是有关如何使用它们的简短指南:
参数命令 | 默认 | 价值 | 描述 |
---|---|---|---|
- 主题 | taithrah/最小 | 细绳 | 设置接口的主题。主题可以在主题画廊中找到。 |
- 语言 | 英语 | 细绳 | 选择接口语言。可用选项:南非荷兰语,阿拉伯语,阿塞拜疆,中文_zh_cn,英语,法语,德语,印度人,印度尼西亚语,意大利语,日语,韩国,马拉地,波斯语,波兰,波兰语,葡萄牙语,俄罗斯,西班牙语,瑞典语,瑞典语,瑞典语,土耳其语,土耳其语,乌克兰,乌克兰,越南,越南。 |
- verbosity_level | 信息 | 细绳 | 设置记录器的详细级别:调试,信息,警告,错误或关键。 |
-public_url | 布尔 | 启用公共链接。 | |
-CPU_MODE | 布尔 | 启用CPU模式可以在不使用GPU加速的情况下运行程序。 | |
-logs_in_gui | 布尔 | 显示在日志中执行的操作(已过时)。 |
示例用法:
python app_rvc.py --theme aliabid94/new-theme --language french
此命令将主题设置为自定义主题,并选择法语作为接口语言。请随时根据您的偏好和要求自定义这些论点。
2024/18/05:新的更新详细信息
kotoba-tech/kotoba-whisper-v1.1
用于日本转录app_rvc.py --cpu_mode
2024/03/02:在输出中保存文件名。现在,可以通过指定逗号分隔的路径,目录或URL来同时提交多个档案。处理完整的YouTube播放列表。关于受支持的站点URL,请注意,并非所有站点都可以最佳地工作。添加了禁用诊断的选项。实施软字幕。格式输出(MP3,MP4,MKV,WAV和OGG),以及与文件阅读和诊断有关的解决问题。
2024/02/22:添加了语音模仿,固定的无声轨道,划分段的freevc。新语言支持(瑞典语,阿米哈里奇,威尔士,克罗地亚,冰岛,乔治亚语,高棉,斯洛伐克,阿尔巴尼亚语,塞尔维亚人,阿塞拜疆,保加利亚人,加利福尼亚人,加利西亚语,古吉拉特语,哈萨克拉蒂,哈萨克拉GUI的新翻译(西班牙,法语,德语,意大利语,日语,中文,简化,乌克兰,阿拉伯语,俄罗斯,土耳其语,印尼,葡萄牙语,印地语,越南,波兰语,瑞典语,韩国,马拉地语,马拉地语和阿塞拜疆人)。使用字幕文件,不需要对ARNIGN和媒体文件处理SRT文件。将字幕刻录到视频。队列可以同时接受多个任务。声音警报通知。从上一个检查点继续处理。加速度调节。
2024/01/16:扩展的语言支持(泰国,尼泊尔,加泰罗尼亚,爪哇人,泰米尔语,马拉松,泰卢固语,孟加拉语,孟加拉语和印度尼西亚语),引入Whisper thisper giall v3,可配置的GUI选项,Bark的集成,Bark,Facebook-MMS,Coqui Xtts,Coqui Xtts和Piper-tts。其他功能包括音频分离实用程序,XTTS WAV创建,使用SRT文件作为翻译的基础,文档翻译,手动扬声器编辑和灵活的输出选项(视频,音频,字幕)。
2023/10/29:编辑翻译的字幕,下载,调整音量和速度选项。
2023/08/03:更改了默认选项,并添加了下载目录视图。
2023/08/02:对阿拉伯语,捷克,丹麦,芬兰,希腊,希腊,希伯来语,匈牙利,韩语,波斯语,波兰,俄罗斯,土耳其语,乌尔都语,乌尔都语,印地语和越南语言的支持。
2023/08/01:添加使用RVC型号的选项。
2023/07/27:修复一些错误处理视频和音频。
2023/07/26:新UI并添加混合选项。
欢迎获得社区的贡献!如果您有任何想法,错误报告或功能请求,请打开问题或提交拉动请求。有关更多信息,请参阅贡献指南。
该项目利用许多开源项目。我们要感谢并感谢以下存储库的贡献者:
尽管该代码是在Apache 2下许可的,但模型或权重可能具有商业限制,如Pyannote诊断所示。