Voice-Pro: 文字起こし、翻訳、音声合成に最適な gradio web-ui ?
? 한국어 ∙ English ∙ 中文简体 ∙ 中文繁體 ∙ 日本語
Voice-Pro は、文字起こし、翻訳、テキスト読み上げに最適な gradio web-ui です。ワンクリックで簡単にインストールできます。 Miniconda を使用して仮想環境を作成し、Windows システムとは完全に分離して実行します (完全にポータブル)。リアルタイムの文字起こしと翻訳、およびバッチ モードをサポートします。
- YouTube ダウンローダー: YouTube ビデオをダウンロードし、オーディオ (mp3、wav、flac) を抽出できます。
- Vocal Remover : UVR5 でサポートされている MDX-Net と、Meta によって開発された Demucs エンジンを音声分離に使用します。
- STT : Whisper、Faster-Whisper、および Whisper-Timestamped による音声からテキストへの変換をサポートします。
- 翻訳者: Google 翻訳者。
- TTS : テキスト読み上げ。エッジ-TTS、F5-TTS。
- もっと...
?実行画面
主な特長
Studio
タブ- YouTube ダウンローダー、ノイズ除去、字幕、翻訳、TTS の統合環境を提供します。
- ffmpeg でサポートされているすべてのビデオ/オーディオ形式を使用できます
- 選択可能な出力音声フォーマット (wav、flac、mp3)
- 100言語の音声認識と字幕作成
- PC のパフォーマンスに適した字幕作成オプションを選択 (ウィスパー モデルとコンピューティング タイプ)
- 100以上の言語への翻訳とTTSによる音声生成
- 元のビデオの BGM と効果音は多言語ビデオでも維持されます。
- TTSの音声速度、音量、ピッチ調整をサポート
Whisper Caption
タブ
- 字幕の作成専用のタブ。 90以上の言語をサポート
- ビデオで作成された字幕を表示します
- 世界レベルのハイライト機能を搭載
- デノイズ機能搭載(1-Demucs、2-MDXNet)
Translate
タブ
- 翻訳専用のタブ。 100以上の言語をサポート
- 字幕ファイルをサポート (ass、ssa、srt、mpl2、tmp、vtt、microdvd、json)
- 直接文字入力も可能
- アップロードされたファイルの言語を自動的に検出します
TTS
タブ
- Edge-TTS および F5-TTS がサポートされています。
- Edge-TTS は 100 以上の言語と 400 以上の音声をサポートします。
- ピッチ、ボリューム、スピードを調整できます。
- F5-TTS はゼロショット音声クローン作成をサポートしています。
- Celeb Voices を使用してポッドキャストを作成できます。
Live Translation
タブ
- リアルタイムの音声認識と翻訳のサポート
- マイク、スピーカーなどのオーディオ入力ソースを選択します。
- キャプチャしたオーディオ、認識された字幕、翻訳された字幕を保存する機能を提供します
Batch
タブ
実行環境
- OS:Windows 10/11(64ビット) ※Linux、Mac OSには対応しておりません。
- GPU: CUDA 12.1 をサポートするNVIDIAグラフィックス カードを推奨。
- VRAM:4GB以上。 8GB以上推奨。
- RAM:4GB以上
- HDD: インストール時に少なくとも 20GB の空き容量
- インターネット接続が必要(インストールと翻訳作業)
?インストール
Voice-Pro はワンクリックで簡単にインストールできます。 configure.batとstart.bat を実行するだけです
ステップ1. パッケージの準備
- A. 有料版
- USB に含まれている圧縮ファイル ( voice-pro-x.zip ) をコンピュータ上の適切な場所に解凍します。
- または、既に解凍されているフォルダー ( voice-pro-x ) をコンピューター上の適切な場所にコピーします。
- B. 無料版
- 最新リリース (ソース コード (zip) ) をクローンまたはダウンロードします。
ステップ 2. プログラムをインストールして実行する
configure.bat
実行する- Windows に git、ffmpeg、CUDA (NVIDIA GPU を使用している場合) をインストールします。
- 初回のみ実行する必要があります。
- インターネット接続が必要で、システムによっては 1 時間以上かかる場合があります。
- インストール中は、Windows コマンド ウィンドウを決して閉じないでください。
-
start.bat
を実行します- Voice-Proを起動します。 Web-UI は自動的に実行されます。
- 初めて実行するときは、Voice-Pro が最初にインストールされます。
- インターネット接続が必要で、システムによっては 1 時間以上かかる場合があります。
- インストール中は、Windows コマンド ウィンドウを決して閉じないでください。
- インストール中に問題が発生した場合は、 installer_filesフォルダーを削除し、start.bat を再度実行します。
ステップ 3. プログラムをアンインストールする
uninstall.bat
を実行します。- installer_filesフォルダーを削除します。
- Windows にインストールされている ffmepg、git、および CUDA パッケージを削除します (選択した場合)
- Voice-Pro にはポータブルインストールが標準装備されています。プログラムをアンインストールするには、インストールフォルダーを削除するだけで十分です。
❓ヒントとコツ
ブラウザが自動で起動しない場合
- Windows-Commnad ウィンドウを閉じて、start.bat を再度実行します。
- ブラウザを直接実行し、Windows コマンド ウィンドウに表示されたアドレス (例: http://127.0.0.1:7892 ) をアドレス バーに入力します。
CUDA のメモリ不足エラーが発生した場合
- Windows タスク マネージャーの [パフォーマンス] タブで GPU メモリのステータスを確認します。
- ノイズ除去レベルを 0 または 1 に設定します。ノイズ除去レベル 2 には、少なくとも 8GB の GPU メモリが必要です。
- 計算タイプを int タイプに設定します。 float 型は品質が高くなりますが、より多くの GPU メモリを必要とします。
字幕の品質を向上させるにはどうすればよいですか?
- 字幕の品質は、Whisper モデルが大きいほど向上する傾向がありますが、必ずしもそうとは限りません。大 > 中 > 小 > 基本 > 極小
- コンピューティング型の中でもfloat型は性能が良いです。 int 型は、モデルの量子化により GPU の使用量を削減し、高速化するモデルです。その反面、パフォーマンスは低下します。
- ノイズ除去レベルを上げると、より多くの背景音が削除され、残りの音声のみが音声認識に使用されます。常に良い結果が保証されるわけではありません。
?注意
Windows Defender は、信頼できないアプリケーションに関する警告を表示し、Voice-Pro のそれ以上の実行を禁止する場合があります。 SmartScreen セキュリティ レベルが「警告」に設定されている場合は、「詳細」をクリックしてから「とにかく実行」をクリックします。 SmartScreen がレベル「ブロック」に設定されている場合、インストールを実行するボタンはありません。この場合、start.bat ファイルのプロパティを開き、「ブロック解除」にチェックを入れ、変更を適用して、start.bat を再度実行します。
Windows Defender がバッチ ファイルを誤ってトロイの木馬として認識することは、「誤検知」と呼ばれることがよくあります。この問題を解決するには、次の手順を実行します。
- ファイル例外処理: Windows Defender では、セキュリティ スキャンをスキップするように特定のファイルまたはプロセスを設定できます。これを行うには、以下の手順に従います。
- 「スタート」ボタンをクリックし、「設定」に進みます。
- 「更新とセキュリティ」をクリックします。
- 「Windows セキュリティ」を選択し、「ウイルスと脅威の保護」に進みます。
- 「ウイルスと脅威の保護設定の管理」をクリックします。
- 「ウイルスと脅威の保護設定」で「例外を追加」を選択します。
- 「ファイルまたはフォルダー」を選択し、問題のバッチ ファイルを見つけて例外として追加します。
- Windows Defender を一時的に無効にする: これは一時的な解決策である可能性があります。ただし、この方法を使用する場合は、コンピュータが他の脅威にさらされる可能性があるため注意する必要があります。
- 問題をウイルス対策ソフトウェアに報告する: ファイルがトロイの木馬ではないことが確実な場合は、そのファイルを誤検知として Microsoft に報告できます。 Microsoft はこれを検討し、必要な措置を講じます。
?お問い合わせ
- 電子メール: [email protected]
- ホームページ(韓国語): https://abuskorea.imweb.me
- アマゾン(米国): https://www.amazon.com/dp/B0DBR69JPL
- アマゾン(日本): https://www.amazon.co.jp/dp/B0DBVRJ542
- Amazon(シンガポール): https://www.amazon.sg/dp/B0DCGKL8R4
- アマゾン(アラブ首長国連邦): https://www.amazon.ae/dp/B0DCGKM7FF
- 네이버 스마트스토어 (S/W): https://smartstore.naver.com/abus/products/10385660040
- 네이버 스마트스토어 (ソリューション): https://smartstore.naver.com/abus/products/10298346364
? YouTube
- 商品情報:https://youtube.com/playlist?list=PLwx5dnMDVC9Y7dAjm9r26CZUw1uU5VIeq&si=873MgzUtu4POE9jO
- おうちカラオケ(ポップス):https://youtube.com/playlist?list=PLwx5dnMDVC9bVxfGo58U-R-w3fUHqwiD6&si=aWRDfF8TxFp2oAR0
- おうちカラオケ (K-Pop): https://youtube.com/playlist?list=PLwx5dnMDVC9Z8kB01tQKfzTysaCCxC3C8&si=1_-9p722rd_JXpzv
- おうちカラオケ(J-Pop):https://youtube.com/playlist?list=PLwx5dnMDVC9apyxrP9LE9PiT821G7lJXk&si=0a474CP7ZIjMoGN9
クレジット
- Demucs: https://github.com/facebookresearch/demucs
- yt-dlp: https://github.com/yt-dlp/yt-dlp
- グラディオ: https://github.com/gradio-app/gradio
- エッジ-TTS: https://github.com/rany2/edge-tts
- F5-TTS: https://github.com/SWivid/F5-TTS.git
©️著作権
by アブス