whisperXダウンロード - whisperXソースコードのダウンロード

whisperX

その他のソースコード

3.1.1

ダウンロード

ウィスパーX

ささやきxアーチ

このリポジトリは、単語レベルのタイムスタンプと話者ダイアリゼーションによる高速自動音声認識 (large-v2 で 70 倍リアルタイム) を提供します。

⚡️ Whisper Large-v2 を使用した 70 倍のリアルタイム文字起こしのためのバッチ推論
?より高速なウィスパーバックエンド、beam_size=5 のラージ v2 では 8GB 未満の GPU メモリが必要
wav2vec2 アライメントを使用した正確なワードレベルのタイムスタンプ
?‍♂️ pyannote-audio の話者ダイアライゼーションを使用したマルチスピーカー ASR (話者 ID ラベル)
VAD 前処理により、WER を劣化させることなく幻覚とバッチ処理を削減します。

Whisper はOpenAI によって開発された ASR モデルで、多様な音声の大規模なデータセットでトレーニングされています。非常に正確な文字起こしが生成されますが、対応するタイムスタンプは単語単位ではなく発話レベルであり、数秒間不正確になる可能性があります。 OpenAI の Whisper はバッチ処理をネイティブにサポートしていません。

音素ベースの ASR ある単語を別の単語から区別する音声の最小単位、たとえば「タップ」の要素 p を認識するように微調整された一連のモデル。一般的なモデル例は wav2vec2.0 です。

強制アライメントとは、正書法トランスクリプションをオーディオ録音に合わせて調整し、電話レベルのセグメンテーションを自動的に生成するプロセスを指します。

音声アクティビティ検出 (VAD) は、人間の音声の有無を検出することです。

話者ダイアライゼーションは、人間の音声を含むオーディオストリームを、各話者のアイデンティティに従って均一なセグメントに分割するプロセスです。

新しい

Ego4d 文字起こしチャレンジで 1 位 ?
WhisperXがINTERSPEECH 2023に採択されました
v3 文ごとのトランスクリプトセグメント: nltk send_tokenize を使用して字幕と日記を改善する
v3 がリリースされ、オープンソースで 70 倍高速化されました。より高速なウィスパーバックエンドでバッチ化されたウィスパーを使用します。
v2 がリリースされ、コードがクリーンアップされ、ウィスパーライブラリがインポートされます。論文にあるように、VAD フィルタリングがデフォルトでオンになりました。
紙が落ちた??‍?! WhisperX のベンチマークと詳細については、ArxiV プレプリントを参照してください。また、より効率的なバッチ推論も導入され、*60 ～ 70 倍のリアルタイム速度を備えた Large-v2 が実現します。

設定

PyTorch 2.0、Python 3.10 でテスト済み (他のバージョンは自己責任で使用してください)

GPU を実行するには、NVIDIA ライブラリ cuBLAS 11.x および cuDNN 8.x がシステムにインストールされている必要があります。 CTranslate2 のドキュメントを参照してください。

1. Python3.10環境の作成

conda create --name whisperx python=3.10

conda activate whisperx

2. PyTorch をインストールします (Linux および Windows CUDA11.8 など)。

conda install pytorch==2.0.0 torchaudio==2.0.0 pytorch-cuda=11.8 -c pytorch -c nvidia

他の方法については、こちらをご覧ください。

3. このリポジトリをインストールします

pip install git+https://github.com/m-bain/whisperx.git

すでにインストールされている場合は、パッケージを最新のコミットに更新します

pip install git+https://github.com/m-bain/whisperx.git --upgrade

このパッケージを変更したい場合は、クローンを作成して編集可能モードでインストールします。

 $ git clone https://github.com/m-bain/whisperX.git
$ cd whisperX
$ pip install -e .

ffmpeg、Rust などをインストールする必要がある場合もあります。https://github.com/openai/whisper#setup の openAI の手順に従ってください。

スピーカーのダイアライゼーション

Speaker Diarization を有効にするには、ここから生成できる Hugging Face アクセストークン (読み取り) を--hf_token引数の後に含めて、次のモデルのユーザー同意書に同意します: Segmentation および Speaker-Diarization-3.1 (Speaker を使用することを選択した場合) - ダイアライゼーション 2.x、代わりにここの要件に従ってください。)

注記
2023 年 10 月 11 日の時点で、whisperX の pyannote/Speaker-Diarization-3.0 のパフォーマンスの低下に関する既知の問題があります。これは、faster-whisper と pyannote-audio 3.0.0 の間の依存関係の競合が原因です。詳細と考えられる回避策については、この問題を参照してください。

使用方法（コマンドライン）

英語

サンプルセグメントでウィスパーを実行します (デフォルトのパラメータを使用し、スモールウィスパー) --highlight_words Trueを追加して、.srt ファイル内の単語のタイミングを視覚化します。

 whisperx examples/sample01.wav

WhisperX をwav2vec2.0 ラージに強制的にアライメントして使用した結果:

サンプル01.mp4

これを、多くの文字起こしが同期していない、箱から出されたオリジナルのウィスパーと比較してください。

サンプル_ウィスパー_og.mov

タイムスタンプの精度を高めるには、より高い GPU メモリを犠牲にして、より大きなモデルを使用します (より大きなアライメントモデルはあまり役に立たないと考えられています。論文を参照してください)。

 whisperx examples/sample01.wav --model large-v2 --align_model WAV2VEC2_ASR_LARGE_LV60K_960H --batch_size 4

トランスクリプトにスピーカー ID のラベルを付けるには (既知の場合はスピーカー数を設定します。例: --min_speakers 2 --max_speakers 2 ):

 whisperx examples/sample01.wav --model large-v2 --diarize --highlight_words True

GPU ではなく CPU で実行するには (および Mac OS X で実行するには):

 whisperx examples/sample01.wav --compute_type int8

その他の言語

音素 ASR アラインメントモデルは言語固有であり、テストされた言語の場合、これらのモデルは torchaudio パイプラインまたはハグフェイスから自動的に選択されます。 --languageコードを渡して、 Whisper --model large使用するだけです。

現在、デフォルトのモデルは{en, fr, de, es, it, ja, zh, nl, uk, pt}に対して提供されています。検出された言語がこのリストにない場合は、huggingface モデルハブから音素ベースの ASR モデルを見つけて、データでテストする必要があります。

例：ドイツ語

 whisperx --model large-v2 --language de examples/sample_de_01.wav

サンプル_de_01_vis.mov

他の言語での例については、こちらをご覧ください。

Pythonの使い方は？

 import whisperx
import gc 

device = "cuda" 
audio_file = "audio.mp3"
batch_size = 16 # reduce if low on GPU mem
compute_type = "float16" # change to "int8" if low on GPU mem (may reduce accuracy)

# 1. Transcribe with original whisper (batched)
model = whisperx . load_model ( "large-v2" , device , compute_type = compute_type )

# save model to local path (optional)
# model_dir = "/path/"
# model = whisperx.load_model("large-v2", device, compute_type=compute_type, download_root=model_dir)

audio = whisperx . load_audio ( audio_file )
result = model . transcribe ( audio , batch_size = batch_size )
print ( result [ "segments" ]) # before alignment

# delete model if low on GPU resources
# import gc; gc.collect(); torch.cuda.empty_cache(); del model

# 2. Align whisper output
model_a , metadata = whisperx . load_align_model ( language_code = result [ "language" ], device = device )
result = whisperx . align ( result [ "segments" ], model_a , metadata , audio , device , return_char_alignments = False )

print ( result [ "segments" ]) # after alignment

# delete model if low on GPU resources
# import gc; gc.collect(); torch.cuda.empty_cache(); del model_a

# 3. Assign speaker labels
diarize_model = whisperx . DiarizationPipeline ( use_auth_token = YOUR_HF_TOKEN , device = device )

# add min/max number of speakers if known
diarize_segments = diarize_model ( audio )
# diarize_model(audio, min_speakers=min_speakers, max_speakers=max_speakers)

result = whisperx . assign_word_speakers ( diarize_segments , result )
print ( diarize_segments )
print ( result [ "segments" ]) # segments are now assigned speaker IDs

デモ

独自の GPU にアクセスできない場合は、上記のリンクを使用して WhisperX を試してください。

技術的な詳細

バッチ処理とアライメント、VAD の効果、および選択したアライメントモデルの詳細については、プレプリントペーパーを参照してください。

GPU メモリ要件を軽減するには、次のいずれかを試してください (2. と 3. は品質に影響する可能性があります)。

バッチサイズを小さくします (例: --batch_size 4 。
より小さい ASR モデルを使用します--model base
軽量の計算タイプ--compute_type int8を使用する

openai の Whisper との転写の違い:

タイムスタンプのない文字起こし。シングルパスのバッチ処理を有効にするために、ウィスパー推論が実行されます--without_timestamps True 。これにより、バッチ内のサンプルごとに 1 つの前方パスが保証されます。ただし、これによりデフォルトのウィスパー出力との不一致が生じる可能性があります。
openai のバッファー転写とは異なり、VAD ベースのセグメント転写。 WhisperX の論文では、これにより WER が削減され、正確なバッチ推論が可能になることが示されています。
--condition_on_prev_textはデフォルトでFalseに設定されます (幻覚を軽減します)。

制限事項️

アライメントモデル辞書に文字を含まない単語を転写します（例：「2014」）。または「£13.60」は調整できないため、タイミングが与えられません。
重複する音声は、ウィスパーやウィスパーx では特に適切に処理されません。
ダイアライゼーションは完璧には程遠い
言語固有の wav2vec2 モデルが必要です

貢献する？

あなたが多言語を話す場合、このプロジェクトに貢献できる主な方法は、huggingface で音素モデルを見つけて (または独自にトレーニングして)、ターゲット言語の音声でテストすることです。結果が良好であると思われる場合は、プルリクエストとその成功を示すいくつかの例を送信します。

このプロジェクトはすでに当初の研究範囲から逸脱しつつあるため、バグ発見とプルリクエストもこのプロジェクトを継続するために非常に高く評価されています。

藤堂 ?

お問い合わせ/サポート ?

ご質問については、[email protected] までご連絡ください。

謝辞

この研究と私の博士号は、VGG (Visual Geometry Group) とオックスフォード大学によってサポートされています。

もちろん、これは openAI のささやきに基づいて構築されています。強制アライメントに関する PyTorch チュートリアルから重要なアライメントコードを借用し、素晴らしい pyannote VAD / Diarization を使用します https://github.com/pyannote/pyannote-audio

[pyannote audio][https://github.com/pyannote/pyannote-audio] の貴重な VAD およびダイアライゼーションモデル

Faster-Whisper と CTranslate2 による優れたバックエンド

この活動を経済的に支援してくださった方々

最後に、このプロジェクトを継続し、バグを特定してくれたこのプロジェクトの OS 貢献者に感謝します。

引用

研究でこれを使用する場合は、論文を引用してください。

 @article { bain2022whisperx ,
  title = { WhisperX: Time-Accurate Speech Transcription of Long-Form Audio } ,
  author = { Bain, Max and Huh, Jaesung and Han, Tengda and Zisserman, Andrew } ,
  journal = { INTERSPEECH 2023 } ,
  year = { 2023 }
}