?同期オーディオを使用したビデオ翻訳
SonyTranslateは、ビデオを異なる言語に簡単に翻訳できる強力でユーザーフレンドリーなWebアプリケーションです。このリポジトリは、Sonytranslate Web UIのコードをホストしています。これは、グラデーションライブラリで構築され、シームレスでインタラクティブなユーザーエクスペリエンスを提供します。
説明 | リンク |
---|---|
?コラブノートブック | |
?リポジトリ | |
オンラインデモ |
このプロジェクトを包括的に理解するには、Dev-Mallettesによるこのビデオチュートリアルを見ることを強くお勧めします。下のサムネイルをクリックして、YouTubeで見ることができます。
言語コード | 言語 |
---|---|
en | 英語 |
fr | フランス語 |
de | ドイツ語 |
es | スペイン語 |
それ | イタリア語 |
JA | 日本語 |
NL | オランダ語 |
英国 | ウクライナ人 |
pt | ポルトガル語 |
ar | アラビア語 |
Zh | 中国語 - 簡素化 |
Zh-tw | 中国語 - 伝統 |
CS | チェコ |
da | デンマーク語 |
fi | フィンランド語 |
エル | ギリシャ語 |
彼 | ヘブライ語 |
胡 | ハンガリー |
KO | 韓国語 |
FA | ペルシャ語 |
pl | 研磨 |
ru | ロシア |
tr | トルコ語 |
ウル | ウルドゥー語 |
こんにちは | ヒンディー語 |
vi | ベトナム人 |
id | インドネシア語 |
bn | ベンガル語 |
te | テルグ語 |
氏 | マラーティー |
ta | タミル語 |
JW(またはJV) | Javanese |
ca | カタロニア |
ne | ネパール |
th | タイ |
SV | スウェーデン語 |
午前 | アムハラ語 |
cy | ウェールズ |
HR | クロアチア語 |
は | アイスランド語 |
KA | ジョージアン |
km | クメール |
SK | スロバキア |
sq | アルバニア語 |
sr | セルビア人 |
AZ | アゼルバイジャン |
BG | ブルガリア |
GL | ガリシア語 |
gu | グジャラート語 |
KK | カザフ |
kn | カンナダ |
lt | リトアニアン |
lv | ラトビアン |
ml | マラヤーラム語 |
ro | ルーマニア人 |
si | シンハラ |
su | スンダネーゼ |
et | エストニアン |
MK | マケドニア語 |
SW | スワヒリ |
af | アフリカーンス |
BS | ボスニア人 |
la | ラテン |
私の | ミャンマービルマ |
いいえ | ノルウェー語 |
として | アッサム |
欧州連合 | バスク |
ハ | ハウサ |
ht | ハイチのクレオール |
hy | アルメニア人 |
lo | ラオス |
mg | マラガシー |
Mn | モンゴル人 |
山 | マルタ |
PA | パンジャブ |
詩 | パシュ |
Sl | スロベニア人 |
sn | ショナ |
それで | ソマリア |
TG | タジク |
TK | タークメン |
TT | タタール |
uz | ウズベック |
よ | ヨルバ |
言語コード | 言語 |
---|---|
ああ | アイマラ |
BM | バンバラ |
CEB | セブアノ |
ニューヨーク | チチェワ |
DV | ダイヴィヒ |
doi | ドグリ |
EE | 羊 |
Gn | グアラニ |
ILO | イロコ |
RW | キニャルワンダ |
kri | クリオ |
Ku | クルド |
ky | キルギズ |
lg | ガンダ |
マイ | マイチリ |
または | オリヤ |
OM | オロモ |
qu | ケチュア |
sm | サモアン |
ti | ティグリニャ |
ts | ツンガ |
AK | アカン |
ug | ウイグル |
Colabランタイムを使用してソニトラスレートを実行するには:
Sonitranslateのインストールと使用を開始する前に、必要なことがいくつかあります。
accept the license to use the models
必要があります:https://huggingface.co/pyannote/speaker-diarizationおよびhttps://huggingface./pyannote/seggemationconda install -c anaconda git -y
ことで、AnacondaでGitをインストールできます(次のセクションでステップ1の後にこれを行います)。 Anaconda経由でGitのインストールに問題がある場合は、代わりに次のリンクを使用できます。これらの手順を完了すると、ソニトレートをインストールする準備が整います。
Sonitranslateをインストールするには、次の手順に従ってください。
conda create -n sonitr python=3.10 -y
conda activate sonitr
python -m pip install pip==23.1.2
conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia
git clone https://github.com/r3gm/SoniTranslate.git
cd SoniTranslate
pip install -r requirements_base.txt -v
pip install -r requirements_extra.txt -v
pip install onnxruntime-gpu
ffmpegをインストールします。 FFMPEGは、マルチメディアデータを処理するためのライブラリとプログラムを作成するフリーソフトウェアプロジェクトです。オーディオおよびビデオファイルを処理するために必要です。ターミナルでconda install -y ffmpeg
実行して、AnacondaでFFMPEGをインストールできます(推奨)。 Anaconda経由でFFMPEGをインストールするのに問題がある場合は、代わりに次のリンクを使用できます。(https://ffmpeg.org/ffmpeg.html)。インストールされたら、端末でffmpeg -h
実行して、パスにあることを確認してください。エラーメッセージが表示されない場合は、行ってもいいです。
オプションのインストール:
FFMPEGをインストールした後、これらのオプションのパッケージをインストールできます。
Piper TTSは、高速でローカルなニューラルテキストから音声システムです。これは、優れた音で、Raspberry Pi 4に最適化されています。Piperはさまざまなプロジェクトで使用されています。声はVitsで訓練され、onnxruntimeに輸出されます。
pip install -q piper-tts==1.2.0
Coqui XTTSは、異なる言語で現実的な声を生成できるテキスト対スピーチ(TTS)モデルです。それは、短いオーディオクリップで声をクローンすることができ、別の言語で話すこともできます!それは、あなたが話している必要があるテキストに個人的な声を模倣するようなものです。
pip install -q -r requirements_xtts.txt
pip install -q TTS==0.21.1 --no-deps
Sonitranslateをローカルに実行するには、 sonitr
Conda環境がアクティブであることを確認してください。
conda activate sonitr
Linuxの環境変数として、ハグする顔のトークンを設定します。
export YOUR_HF_TOKEN="YOUR_HUGGING_FACE_TOKEN"
次に、 SoniTranslate
フォルダーに移動し、 app_rvc.py
実行します
python app_rvc.py
local URL
http://127.0.0.1:7860
が端末に表示されたら、このURLをWebブラウザーに開いてソニトラスレートインターフェイスにアクセスします。
ほとんどの環境では、スクリプトapp_rvc.py
起動した端末でCtrl+Cを押すことで実行を停止できます。これにより、プログラムが中断され、Gradioアプリが停止します。 Conda環境を無効にするには、次のコマンドを使用できます。
conda deactivate
これにより、現在アクティブなコンドラ環境Sonitrが無効になり、基本環境またはグローバルなPython環境に戻ります。
最初からやり直す必要がある場合は、 SoniTranslate
フォルダーを削除して、次のコマンドセットでsonitr
Conda環境を削除できます。
conda deactivate
conda env remove -n sonitr
sonitr
環境が削除されると、新鮮なインストールからやり直すことができます。
conda activate sonitr
conda env config vars set YOUR_HF_TOKEN="YOUR_HUGGING_FACE_TOKEN_HERE"
conda deactivate
conda activate sonitr
conda env config vars set OPENAI_API_KEY="your-api-key-here"
conda deactivate
app_rvc.pyスクリプトは、コマンドライン引数をサポートして、その動作をカスタマイズします。これらを使用する方法に関する簡単なガイドを次に示します。
引数コマンド | デフォルト | 価値 | 説明 |
---|---|---|---|
- テーマ | Taithrah/Minimal | 弦 | インターフェイスのテーマを設定します。テーマはテーマギャラリーにあります。 |
- 言語 | 英語 | 弦 | インターフェイス言語を選択します。利用可能なオプション:アフリカ人、アラビア語、アゼルバイジャン、中国語_ Zh_cn、英語、フランス語、ドイツ語、ヒンディー語、インドネシア語、イタリア語、日本、韓国語、マラーティー語、ペルシャ語、ポーランド語、ポルトガル語、ロシア語、スペイン語、スウェーデン語、トルコ語、ウクライナ語、ベトンダ。 |
-verbosity_level | 情報 | 弦 | ロガーの冗長レベルを設定します:デバッグ、情報、警告、エラー、またはクリティカル。 |
-public_url | ブール | パブリックリンクを有効にします。 | |
-cpu_mode | ブール | GPUアクセラレーションを使用せずにCPUモードがプログラムを実行できるようにします。 | |
-logs_in_gui | ブール | ログで実行される操作(廃止)を示します。 |
使用例:
python app_rvc.py --theme aliabid94/new-theme --language french
このコマンドは、テーマをカスタムテーマに設定し、インターフェイス言語としてフランス語を選択します。お客様の好みと要件に応じて、これらの引数を自由にカスタマイズしてください。
2024/18/05:新しい更新の詳細
kotoba-tech/kotoba-whisper-v1.1
ここで入手できますapp_rvc.py --cpu_mode
でCPUモードを追加しました2024/03/02:出力のファイル名を保持します。コンマで区切られたパス、ディレクトリ、またはURLを指定することにより、複数のアーカイブを同時に提出できるようになりました。完全なYouTubeプレイリストの処理。サポートされているサイトURLについては、すべてのサイトが最適に機能するわけではないことに注意してください。ダイアリゼーションを無効にするためのオプションが追加されました。実装されたソフトサブタイトル。フォーマット出力(MP3、MP4、MKV、WAV、およびOGG)、およびファイルの読み取りとダイアリゼーションに関連する問題を解決しました。
2024/02/22:Voice ImitationのためにFreeVCを追加し、無声トラックを固定し、セグメントを分割しました。新しい言語サポート(スウェーデン、アムハリック、ウェールズ語、クロアチア語、アイスランド語、ジョージアン、クメール、スロバキア語、アルバニア語、セルビア語、アゼルバイジャン、ブルガリア語、ガリシア語、グジャラート語、カザフ、カンナダ、リトアニア、ラトヴィアン、マラヤラム、マラヤラム。 GUIの新しい翻訳(スペイン語、フランス語、ドイツ語、イタリア語、日本語、中国語、中国、単純化、ウクライナ語、アラビア語、ロシア語、トルコ語、インドネシア語、ポルトガル語、ヒンディー語、ベトナム語、ポーランド語、スウェーデン語、韓国語、マラーティー語、アゼルバイジャ人)。字幕ファイルを使用すると、SRTファイルを処理するためにメディアファイルが必要ではありません。字幕をビデオに燃やします。キューは複数のタスクを同時に受け入れることができます。サウンドアラート通知。最後のチェックポイントからプロセスを続行します。加速速度規制。
2024/01/16:言語サポートの拡大(タイ、ネパール、カタロニア、ジャワ、タミル語、マラーティー語、テルグ語、ベンガル語、インドネシア語)、ささやきの大きなV3の導入、樹皮、Facebook-MMS、Coqui Xttssの統合、およびpiper-tts。その他の機能には、オーディオ分離ユーティリティ、XTTS WAV作成、SRTファイルを翻訳のベース、ドキュメント翻訳、手動スピーカーの編集、柔軟な出力オプション(ビデオ、オーディオ、字幕)のベースとして使用します。
2023/10/29:翻訳されたサブタイトルを編集し、ダウンロードし、ボリュームと速度のオプションを調整します。
2023/08/03:デフォルトオプションを変更し、ダウンロードのディレクトリビューを追加しました。
2023/08/02:アラビア語、チェコ語、デンマーク語、フィンランド語、ギリシャ語、ヘブライ語、ハンガリー語、韓国語、ペルシャ語、ポーランド語、ロシア語、トルコ語、ウルドゥー語、ヒンディー語、ベトナム語の言語への支援が追加されました。
2023/08/01:RVCモデルを使用するためのオプションを追加します。
2023/07/27:ビデオとオーディオの処理処理を修正します。
2023/07/26:新しいUIとミックスオプションを追加します。
コミュニティからの貢献へようこそ!アイデア、バグレポート、または機能のリクエストがある場合は、問題を開くか、プルリクエストを送信してください。詳細については、貢献ガイドラインを参照してください。
このプロジェクトは、多くのオープンソースプロジェクトを活用しています。次のリポジトリの貢献者に感謝し、感謝したいと思います。
このコードはApache 2の下でライセンスされていますが、モデルまたは重みには、Pyannote Diarizationで見られるように、商業的な制限がある場合があります。