whisperX下載 - whisperX源碼下載

whisperX

其他源碼

3.1.1

下載

耳語X

耳語拱門

此儲存庫提供快速自動語音辨識（使用大型 v2 實現 70 倍即時），具有字級時間戳記和說話者二值化。

⚡️ 使用 Whisper Large-v2 進行 70 倍即時轉錄的批量推理
？ fast-whisper 後端，需要 <8GB GPU 記憶體用於大型 v2（beam_size=5）
使用 wav2vec2 對齊的準確字級時間戳
?‍♂️ 使用 pyannote-audio 的說話者分類（說話者 ID 標籤）的多說話人 ASR
VAD 預處理，減少幻覺和批次，且不會降低 WER

Whisper是 OpenAI 開發的 ASR 模型，在不同音訊的大型資料集上進行訓練。雖然它確實產生了高度準確的轉錄，但相應的時間戳是話語級別的，而不是每個單字的，並且可能不準確幾秒鐘。 OpenAI 的耳語本身並不支援批次處理。

基於音素的 ASR一套經過微調的模型，用於識別區分一個單字和另一個單字的最小語音單位，例如「tap」中的元素 p。一個流行的範例模型是 wav2vec2.0。

強制對齊是指將正字法轉錄與錄音對齊以自動產生音素級分割的過程。

語音活動偵測 (VAD)是偵測人類語音是否存在。

說話者分類是根據每個說話人的身分將包含人類語音的音訊串流劃分為同質片段的過程。

新的

Ego4d 轉錄挑戰賽第一名？
WhisperX在 INTERSPEECH 2023 上被接受
v3 逐句轉錄片段：使用 nltk sent_tokenize 實現更好的字幕和更好的二值化
v3 發布，70 倍加速開源。使用批量耳語和更快的耳語後端！
v2發布，程式碼清理，導入whisper庫VAD過濾現在預設打開，如論文中所示。
紙掉落？請參閱我們的 ArxiV 預印本，以了解 WhisperX 的基準測試和詳細資訊。我們還引入了更有效率的批量推理，從而產生具有 *60-70 倍實時速度的大型 v2。

設定

針對 PyTorch 2.0、Python 3.10 進行了測試（使用其他版本需要您自擔風險！）

GPU 執行需要在系統上安裝 NVIDIA 函式庫 cuBLAS 11.x 和 cuDNN 8.x。請參閱 CTranslate2 文件。

1.創建Python3.10環境

conda create --name whisperx python=3.10

conda activate whisperx

2. 安裝 PyTorch，例如適用於 Linux 和 Windows CUDA11.8：

conda install pytorch==2.0.0 torchaudio==2.0.0 pytorch-cuda=11.8 -c pytorch -c nvidia

請參閱此處的其他方法。

3.安裝這個倉庫

pip install git+https://github.com/m-bain/whisperx.git

如果已安裝，請將軟體包更新至最新提交

pip install git+https://github.com/m-bain/whisperx.git --upgrade

如果希望修改此包，請複製並以可編輯模式安裝：

 $ git clone https://github.com/m-bain/whisperX.git
$ cd whisperX
$ pip install -e .

您可能還需要安裝 ffmpeg、rust 等。

說話者分類

若要啟用「Speaker Diarization」 ，請在--hf_token參數後麵包含您可以從此處產生的Hugging Face 存取權杖（讀取），並接受以下模型的使用者協定：Segmentation 和Speaker-Diarization-3.1（如果您選擇使用Speaker） -Diarization 2.x，請遵循此處的要求。

筆記
截至 2023 年 10 月 11 日，whisperX 中存在一個有關 pyannote/Speaker-Diarization-3.0 效能緩慢的已知問題。這是由於 fast-whisper 和 pyannote-audio 3.0.0 之間的依賴衝突所造成的。請參閱此問題以了解更多詳細資訊和潛在的解決方法。

用法（命令列）

英語

在範例片段上運行耳語（使用預設參數，耳語小）添加--highlight_words True以可視化 .srt 檔案中的單字計時。

 whisperx examples/sample01.wav

使用WhisperX強制對齊到 wav2vec2.0 Large 的結果：

樣本01.mp4

將此與原始的耳語進行比較，其中許多轉錄不同步：

樣本_whisper_og.mov

為了提高時間戳準確性，以更高的 GPU mem 為代價，使用更大的模型（發現更大的對齊模型沒有那麼有幫助，請參閱論文）例如

 whisperx examples/sample01.wav --model large-v2 --align_model WAV2VEC2_ASR_LARGE_LV60K_960H --batch_size 4

要使用說話者 ID 標記文字記錄（如果已知，則設定說話者數量，例如--min_speakers 2 --max_speakers 2 ）：

 whisperx examples/sample01.wav --model large-v2 --diarize --highlight_words True

要在 CPU 而不是 GPU 上運行（並在 Mac OS X 上運行）：

 whisperx examples/sample01.wav --compute_type int8

其他語言

音素 ASR 對齊模型是特定於語言的，對於測試的語言，這些模型是從 torchaudio 管道或 Huggingface 中自動選取的。只需傳遞--language代碼，並使用 Whisper --model large 。

目前為{en, fr, de, es, it, ja, zh, nl, uk, pt}提供預設模型。如果偵測到的語言不在這個清單中，您需要從 Huggingface 模型中心找到基於音素的 ASR 模型，並在您的資料上進行測試。

例如德國人

 whisperx --model large-v2 --language de examples/sample_de_01.wav

樣本_de_01_vis.mov

請在此處查看其他語言的更多範例。

Python 的用法？

 import whisperx
import gc 

device = "cuda" 
audio_file = "audio.mp3"
batch_size = 16 # reduce if low on GPU mem
compute_type = "float16" # change to "int8" if low on GPU mem (may reduce accuracy)

# 1. Transcribe with original whisper (batched)
model = whisperx . load_model ( "large-v2" , device , compute_type = compute_type )

# save model to local path (optional)
# model_dir = "/path/"
# model = whisperx.load_model("large-v2", device, compute_type=compute_type, download_root=model_dir)

audio = whisperx . load_audio ( audio_file )
result = model . transcribe ( audio , batch_size = batch_size )
print ( result [ "segments" ]) # before alignment

# delete model if low on GPU resources
# import gc; gc.collect(); torch.cuda.empty_cache(); del model

# 2. Align whisper output
model_a , metadata = whisperx . load_align_model ( language_code = result [ "language" ], device = device )
result = whisperx . align ( result [ "segments" ], model_a , metadata , audio , device , return_char_alignments = False )

print ( result [ "segments" ]) # after alignment

# delete model if low on GPU resources
# import gc; gc.collect(); torch.cuda.empty_cache(); del model_a

# 3. Assign speaker labels
diarize_model = whisperx . DiarizationPipeline ( use_auth_token = YOUR_HF_TOKEN , device = device )

# add min/max number of speakers if known
diarize_segments = diarize_model ( audio )
# diarize_model(audio, min_speakers=min_speakers, max_speakers=max_speakers)

result = whisperx . assign_word_speakers ( diarize_segments , result )
print ( diarize_segments )
print ( result [ "segments" ]) # segments are now assigned speaker IDs

示範

如果您無法存取自己的 GPU，請使用上面的連結嘗試 WhisperX。

技術細節

有關批次和對齊、VAD 的效果以及所選對齊模型的具體細節，請參閱預印本論文。

若要減少 GPU 記憶體需求，請嘗試以下任一方法（2. 和 3. 可能會影響品質）：

減少批次大小，例如--batch_size 4
使用較小的ASR模型--model base
使用更輕的計算類型--compute_type int8

與 openai 的耳語轉錄差異：

沒有時間戳的轉錄。若要啟用單通道批次處理，請執行耳語推理--without_timestamps True ，這可確保批次中每個樣本進行 1 次前向傳遞。但是，這可能會導致預設耳語輸出出現差異。
基於 VAD 的片段轉錄，與 openai 的緩衝轉錄不同。在 WhisperX 論文中，我們展示了這可以減少 WER，並實現準確的批量推理
--condition_on_prev_text預設為False （減少幻覺）

限制️

不包含對齊模型字典中的字元的轉錄單字，例如“2014”。或“£13.60”無法對齊，因此沒有給出時間。
耳語和耳語都無法很好地處理重疊的語音
日記化遠非完美
需要特定語言的 wav2vec2 模型

貢獻？

如果您會說多種語言，您可以為該專案做出貢獻的一個主要方法是在 Huggingface 上找到音素模型（或訓練您自己的模型）並在目標語言的語音上測試它們。如果結果看起來不錯，請發送拉取請求和一些顯示其成功的範例。

錯誤查找和拉取請求也受到高度讚賞，以保持該專案的繼續進行，因為它已經偏離了最初的研究範圍。

待辦事項？

聯繫/支援？

如有疑問，請聯絡 [email protected]。

致謝

這項工作和我的博士學位得到了 VGG（視覺幾何小組）和牛津大學的支持。

當然，這是建立在openAI的耳語之上的。借用 PyTorch 強制對齊教程中的重要對齊程式碼，並使用精彩的 pyannote VAD / Diarization https://github.com/pyannote/pyannote-audio

來自 [pyannote audio] 的有價值的 VAD 和二值化模型[https://github.com/pyannote/pyannote-audio]

來自 fast-whisper 和 CTranslate2 的出色後端

那些在經濟上支持這項工作的人

最後，感謝該專案的作業系統貢獻者，讓其繼續下去並發現錯誤。

引文

如果您在研究中使用它，請引用該論文：

 @article { bain2022whisperx ,
  title = { WhisperX: Time-Accurate Speech Transcription of Long-Form Audio } ,
  author = { Bain, Max and Huh, Jaesung and Han, Tengda and Zisserman, Andrew } ,
  journal = { INTERSPEECH 2023 } ,
  year = { 2023 }
}

展開

附加信息

版本 3.1.1
類型其他源碼
更新時間 2024-12-31
大小 161.14KB
來自於 Github

相關應用

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
viptools for eslam

2024-12-15
MySchedule.py

2024-12-15
VITAident

2024-12-15

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
waymo open dataset

其他源碼

December 2023 Update
SmartTube

其他源碼

24.71 Stable
Sunamu

其他源碼

Release 2.2.0
waymo open dataset

其他源碼

December 2023 Update
termwind

其他類別

v2.3.0
wp functions

其他類別

1.0.0

相關資訊全部