?帶有同步音頻的視頻翻譯
SonyTranslate是一種功能強大且用戶友好的Web應用程序,可讓您輕鬆地將視頻轉換為不同的語言。該存儲庫託管了SonyTranslate Web UI的代碼,該代碼由Gradio庫構建,以提供無縫且交互式的用戶體驗。
描述 | 關聯 |
---|---|
? COLAB筆記本 | |
?存儲庫 | |
在線演示 |
為了全面了解該項目,我們強烈建議您觀看Dev-Mallettes的視頻教程。您可以通過單擊下面的縮略圖在YouTube上觀看它:
語言代碼 | 語言 |
---|---|
en | 英語 |
fr | 法語 |
de | 德語 |
es | 西班牙語 |
它 | 意大利人 |
JA | 日本人 |
NL | 荷蘭 |
英國 | 烏克蘭 |
pt | 葡萄牙語 |
ar | 阿拉伯 |
ZH | 中文 - 簡化 |
ZH-TW | 中文 - 傳統 |
CS | 捷克 |
da | 丹麥語 |
fi | 芬蘭 |
El | 希臘語 |
他 | 希伯來語 |
胡 | 匈牙利 |
ko | 韓國人 |
fa | 波斯語 |
pl | 拋光 |
ru | 俄語 |
tr | 土耳其 |
ur | 烏爾都語 |
你好 | 印地語 |
vi | 越南人 |
ID | 印度尼西亞 |
BN | 孟加拉 |
TE | 泰盧固語 |
先生 | 馬拉地語 |
ta | 泰米爾人 |
JW(或合資) | 爪哇人 |
CA | 加泰羅尼亞 |
NE | 尼泊爾 |
Th | 泰國 |
SV | 瑞典 |
是 | 阿姆哈拉語 |
CY | 威爾士語 |
人力資源 | 克羅地亞人 |
是 | 冰島 |
ka | 格魯吉亞人 |
公里 | 高棉 |
SK | 斯洛伐克 |
平方英尺 | 阿爾巴尼亞人 |
Sr | 塞爾維亞 |
AZ | 亞塞拜然 |
BG | 保加利亞語 |
GL | 加利西亞人 |
古 | 古吉拉特語 |
KK | 哈薩克 |
kn | 卡納達語 |
上尉 | 立陶宛語 |
LV | 拉脫維亞 |
ML | 馬拉雅拉姆語 |
ro | 羅馬尼亞人 |
SI | 僧伽羅 |
蘇 | 聖丹尼斯 |
等 | 愛沙尼亞人 |
MK | 馬其頓 |
SW | 斯瓦希里語 |
AF | 南非荷蘭語 |
BS | 波斯尼亞 |
洛杉磯 | 拉丁 |
我的 | 緬甸緬甸 |
不 | 挪威 |
作為 | 阿薩姆人 |
歐盟 | 巴斯克 |
哈 | 豪薩 |
HT | 海地克里奧爾人 |
hy | 亞美尼亞人 |
LO | 寮國 |
毫克 | 馬爾加什 |
Mn | 蒙 |
公噸 | 馬爾他 |
PA | 旁遮普 |
PS | Pashto |
SL | 斯洛文尼亞人 |
sn | 肖納 |
所以 | 索馬利亞 |
TG | 塔吉克 |
TK | 土庫曼 |
TT | 塔塔爾 |
uz | 烏茲別克 |
喲 | 約魯巴 |
語言代碼 | 語言 |
---|---|
是的 | 艾瑪拉 |
BM | 班巴拉 |
CEB | 宿務 |
紐約 | Chichewa |
DV | 潛水 |
doi | dogri |
EE | 母羊 |
GN | 瓜拉尼 |
伊洛 | 伊洛科 |
RW | Kinyarwanda |
克里 | 克里奧 |
ku | 庫爾德 |
肯 | 基爾吉斯 |
LG | 甘達 |
麥 | Maithili |
或者 | 奧里亞 |
om | Oromo |
qu | Quechua |
SM | 薩摩亞 |
ti | tigrinya |
TS | Tsonga |
AK | akan |
UG | 維吾爾 |
使用colab運行時運行Sonitranslate:
在您開始安裝和使用Sonitranslate之前,您需要做一些事情:
accept the license to use the models
:https://huggingface.co/pyannote/speaker-diarization and https://huggingface.co/pyannote/segentationconda install -c anaconda git -y
安裝git(在下一節中的步驟1之後執行此操作)。如果您在Anaconda安裝Git時遇到困難,則可以使用以下鏈接:完成這些步驟後,您將準備安裝Sonitranslate。
要安裝Sonitranslate,請執行以下步驟:
conda create -n sonitr python=3.10 -y
conda activate sonitr
python -m pip install pip==23.1.2
conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia
git clone https://github.com/r3gm/SoniTranslate.git
cd SoniTranslate
pip install -r requirements_base.txt -v
pip install -r requirements_extra.txt -v
pip install onnxruntime-gpu
安裝FFMPEG。 FFMPEG是一個免費軟件項目,可生產用於處理多媒體數據的庫和程序。您將需要它來處理音頻和視頻文件。您可以通過在終端中運行conda install -y ffmpeg
安裝ffmpeg(建議)。如果您在Anaconda安裝FFMPEG時遇到困難,則可以使用以下鏈接:(https://ffmpeg.org/ffmpeg.html)。安裝後,通過在終端中運行ffmpeg -h
來確保它位於路徑中。如果您沒有收到錯誤消息,那就很好。
可選安裝:
安裝FFMPEG後,您可以安裝這些可選軟件包。
Piper TTS是一種快速的本地神經文本到語音系統,聽起來很棒,並針對Raspberry Pi 4進行了優化。Piper用於各種項目。聲音接受了VIT訓練,並導出到Onxruntime。
pip install -q piper-tts==1.2.0
Coqui XTTS是一種文本對語音(TTS)模型,可讓您以不同的語言生成逼真的聲音。它可以用簡短的音頻剪輯來克隆聲音,甚至用另一種語言講話!這就像對您所需要的任何文本模仿個人語音。
pip install -q -r requirements_xtts.txt
pip install -q TTS==0.21.1 --no-deps
要在本地運行Sonitranslate,請確保sonitr
Conda環境活躍:
conda activate sonitr
將擁抱的臉部令牌設置為Linux中的環境變量:
export YOUR_HF_TOKEN="YOUR_HUGGING_FACE_TOKEN"
然後導航到SoniTranslate
文件夾並運行app_rvc.py
python app_rvc.py
當local URL
http://127.0.0.1:7860
顯示在終端中時,只需在Web瀏覽器中打開此URL即可訪問Sonitranslate接口。
在大多數環境中,您可以通過在啟動腳本app_rvc.py
終端中按CTRL+C來停止執行。這將中斷程序並停止Gradio應用程序。要停用Conda環境,您可以使用以下命令:
conda deactivate
這將使當前活躍的Conda環境Sonitr停用,您將返回基本環境或全球Python環境。
如果您需要從頭開始,可以刪除SoniTranslate
文件夾並使用以下一組命令刪除sonitr
Conda環境:
conda deactivate
conda env remove -n sonitr
刪除了sonitr
環境後,您可以重新開始新的安裝。
conda activate sonitr
conda env config vars set YOUR_HF_TOKEN="YOUR_HUGGING_FACE_TOKEN_HERE"
conda deactivate
conda activate sonitr
conda env config vars set OPENAI_API_KEY="your-api-key-here"
conda deactivate
app_rvc.py腳本支持命令行參數以自定義其行為。這是有關如何使用它們的簡短指南:
參數命令 | 預設 | 價值 | 描述 |
---|---|---|---|
- 主題 | taithrah/最小 | 細繩 | 設置接口的主題。主題可以在主題畫廊中找到。 |
- 語言 | 英語 | 細繩 | 選擇接口語言。可用選項:南非荷蘭語,阿拉伯語,阿塞拜疆,中文_zh_cn,英語,法語,德語,印度人,印度尼西亞語,意大利語,日語,韓國,馬拉地,波斯語,波蘭,波蘭語,葡萄牙語,俄羅斯,西班牙語,瑞典語,瑞典語,瑞典語,土耳其語,土耳其語,烏克蘭,烏克蘭,越南,越南。 |
- verbosity_level | 資訊 | 細繩 | 設置記錄器的詳細級別:調試,信息,警告,錯誤或關鍵。 |
-public_url | 布爾 | 啟用公共鏈接。 | |
-CPU_MODE | 布爾 | 啟用CPU模式可以在不使用GPU加速的情況下運行程序。 | |
-logs_in_gui | 布爾 | 顯示在日誌中執行的操作(已過時)。 |
示例用法:
python app_rvc.py --theme aliabid94/new-theme --language french
此命令將主題設置為自定義主題,並選擇法語作為接口語言。請隨時根據您的偏好和要求自定義這些論點。
2024/18/05:新的更新詳細信息
kotoba-tech/kotoba-whisper-v1.1
用於日本轉錄app_rvc.py --cpu_mode
2024/03/02:在輸出中保存文件名。現在,可以通過指定逗號分隔的路徑,目錄或URL來同時提交多個檔案。處理完整的YouTube播放列表。關於受支持的站點URL,請注意,並非所有站點都可以最佳地工作。添加了禁用診斷的選項。實施軟字幕。格式輸出(MP3,MP4,MKV,WAV和OGG),以及與文件閱讀和診斷有關的解決問題。
2024/02/22:添加了語音模仿,固定的無聲軌道,劃分段的freevc。新語言支持(瑞典語,阿米哈里奇,威爾士,克羅地亞,冰島,喬治亞語,高棉,斯洛伐克,阿爾巴尼亞語,塞爾維亞人,阿塞拜疆,保加利亞人,加利福尼亞人,加利西亞語,古吉拉特語,哈薩克拉蒂,哈薩克拉GUI的新翻譯(西班牙,法語,德語,意大利語,日語,中文,簡化,烏克蘭,阿拉伯語,俄羅斯,土耳其語,印尼,葡萄牙語,印地語,越南,波蘭語,瑞典語,韓國,馬拉地語,馬拉地語和阿塞拜疆人)。使用字幕文件,不需要對ARNIGN和媒體文件處理SRT文件。將字幕刻錄到視頻。隊列可以同時接受多個任務。聲音警報通知。從上一個檢查點繼續處理。加速度調節。
2024/01/16:擴展的語言支持(泰國,尼泊爾,加泰羅尼亞,爪哇人,泰米爾語,馬拉松,泰盧固語,孟加拉語,孟加拉語和印度尼西亞語),引入Whisper thisper giall v3 ,可配置的GUI選項,Bark的集成,Bark,Facebook-MMS,Coqui Xtts,Coqui Xtts和Piper-tts。其他功能包括音頻分離實用程序,XTTS WAV創建,使用SRT文件作為翻譯的基礎,文檔翻譯,手動揚聲器編輯和靈活的輸出選項(視頻,音頻,字幕)。
2023/10/29:編輯翻譯的字幕,下載,調整音量和速度選項。
2023/08/03:更改了默認選項,並添加了下載目錄視圖。
2023/08/02:對阿拉伯語,捷克,丹麥,芬蘭,希臘,希臘,希伯來語,匈牙利,韓語,波斯語,波蘭,俄羅斯,土耳其語,烏爾都語,烏爾都語,印地語和越南語言的支持。
2023/08/01:添加使用RVC型號的選項。
2023/07/27:修復一些錯誤處理視頻和音頻。
2023/07/26:新UI並添加混合選項。
歡迎獲得社區的貢獻!如果您有任何想法,錯誤報告或功能請求,請打開問題或提交拉動請求。有關更多信息,請參閱貢獻指南。
該項目利用許多開源項目。我們要感謝並感謝以下存儲庫的貢獻者:
儘管該代碼是在Apache 2下許可的,但模型或權重可能具有商業限制,如Pyannote診斷所示。