WhisperLiveダウンロードWhisperLiveソースコードのダウンロード

WhisperLive

その他のソースコード

v0.5.1

ダウンロード

ささやき

Openaiのささやきのほぼライブの実装。

このプロジェクトは、Openai Whisperモデルを使用して音声入力をテキスト出力に変換するリアルタイム転写アプリケーションです。マイクからのライブオーディオ入力と事前に録音されたオーディオファイルの両方を転写するために使用できます。

インストール

pyaudioとffmpegをインストールします

 bash scripts/setup.sh

PIPからささやき声をインストールします

 pip install whisper-live

Tensort BackendのためにNvidia/Tensort-llmをセットアップします

nvidia/tensort-llmのセットアップ、およびささやきエンジンの構築については、tensorrt_whisper readmeをフォローしてください。

はじめる

サーバーは、2つのバックエンドをfaster_whisperとtensorrtサポートします。 tensorrt実行している場合は、tensorrt_whisper readmeに従います

サーバーの実行

より速いウィスパーバックエンド

python3 run_server.py --port 9090 
                      --backend faster_whisper
  
# running with custom model
python3 run_server.py --port 9090 
                      --backend faster_whisper 
                      -fw " /path/to/custom/faster/whisper/model "

Tensorrt Backend。現在、TensortにDockerセットアップのみを使用することをお勧めします。予想どおりに機能するtensorrt_whisper readmeをフォローしてください。 Tensorrtバックエンドでサーバーを実行する前に、必ずTensortエンジンを構築してください。

 # Run English only model
python3 run_server.py -p 9090 
                      -b tensorrt 
                      -trt /home/TensorRT-LLM/examples/whisper/whisper_small_en

# Run Multilingual model
python3 run_server.py -p 9090 
                      -b tensorrt 
                      -trt /home/TensorRT-LLM/examples/whisper/whisper_small 
                      -m

OpenMPスレッドの制御

OpenMPが使用するスレッドの数を制御するには、 OMP_NUM_THREADS環境変数を設定できます。これは、CPUリソースを管理し、一貫したパフォーマンスを確保するのに役立ちます。指定されていない場合、 OMP_NUM_THREADSデフォルトで1に設定されます。 --omp_num_threads引数を使用して、これを変更できます。

python3 run_server.py --port 9090 
                      --backend faster_whisper 
                      --omp_num_threads 4

シングルモデルモード

デフォルトでは、モデルを指定せずにサーバーを実行すると、サーバーはクライアント接続ごとに新しいささやきモデルをインスタンス化します。これには、クライアントの要求されたモデルサイズに基づいて、サーバーが異なるモデルサイズを使用できるという利点があります。一方、それはまた、モデルがクライアント接続時にロードされるのを待つ必要があり、（V）RAMの使用が増加することを意味します。

-trtまたはカスタムFaster_Whisperモデルを使用してカスタムTensortモデルを-fwオプションを使用して提供する場合、サーバーはカスタムモデルを1回インスタンス化し、すべてのクライアント接続に対して再利用します。

これが必要ない場合は、 --no_single_modelを設定します。

クライアントを実行します

以下のパラメーターでクライアントを初期化します：
- lang ：入力オーディオの言語。多言語モデルを使用する場合にのみ適用されます。
- translate ： Trueに設定されている場合は、任意の言語からenに翻訳します。
- model ：ささやきモデルサイズ。
- use_vad ：サーバーでVoice Activity Detectionを使用するかどうか。
- save_output_recording ：ライブ転写中にマイク入力を.wavファイルとして保存するようにtrueに設定します。このオプションは、後の再生または分析のためにセッションを記録するのに役立ちます。デフォルトはFalseになります。
- output_recording_filename ： save_output_recordingがTrueに設定されている場合、マイク入力が保存される.wavファイルパスを指定します。
- max_clients ：サーバーが許可するクライアントの最大数を指定します。デフォルトは4です。
- max_connection_time ：各クライアントの最大接続時間秒で。デフォルトは600です。

 from whisper_live . client import TranscriptionClient
client = TranscriptionClient (
  "localhost" ,
  9090 ,
  lang = "en" ,
  translate = False ,
  model = "small" ,                                      # also support hf_model => `Systran/faster-whisper-small`
  use_vad = False ,
  save_output_recording = True ,                         # Only used for microphone input, False by Default
  output_recording_filename = "./output_recording.wav" , # Only used for microphone input
  max_clients = 4 ,
  max_connection_time = 600
)

ポート9090のローカルホストで実行されているサーバーに接続します。多言語モデルを使用して、転写の言語が自動的に検出されます。言語オプションを使用して、転写のターゲット言語、この場合は英語（ "en"）を指定することもできます。ソース言語からFalseに変換したい場合は、ソース言語で転写したい場合は、翻訳オプションをTrueに設定する必要があります。

オーディオファイルの転写：

 client ( "tests/jfk.wav" )

マイクから転写するには：

 client ()

RTSPストリームから転写するには：

 client ( rtsp_url = "rtsp://admin:[email protected]/rtsp" )

HLSストリームから転写するには：

 client ( hls_url = "http://as-hls-ww-live.akamaized.net/pool_904/live/ww/bbc_1xtra/bbc_1xtra.isml/bbc_1xtra-audio%3d96000.norewind.m3u8" )

ブラウザ拡張機能

ここに示すように、目的のバックエンドでサーバーを実行します。
ChromeまたはFirefox拡張機能を使用して、ブラウザから直接オーディオを転写します。セットアップ手順については、オーディオ転写 - クロームとオーディオ転写型ファイアフォックスを参照してください。

Dockerでライブサーバーをささやきます

GPU

より速いウィスパー

docker run -it --gpus all -p 9090:9090 ghcr.io/collabora/whisperlive-gpu:latest

Tensort。

docker run -p 9090:9090 --runtime=nvidia --gpus all --entrypoint /bin/bash -it ghcr.io/collabora/whisperlive-tensorrt

# Build small.en engine
bash build_whisper_tensorrt.sh /app/TensorRT-LLM-examples small.en

# Run server with small.en
python3 run_server.py --port 9090 
                      --backend tensorrt 
                      --trt_model_path " /app/TensorRT-LLM-examples/whisper/whisper_small_en "

CPU

docker run -it -p 9090:9090 ghcr.io/collabora/whisperlive-cpu:latest

注：デフォルトでは、「小」モデルサイズを使用します。異なるモデルサイズのDocker画像を構築するには、Server.pyのサイズを変更してから、Docker画像を作成します。

将来の仕事

転写の上に他の言語への翻訳を追加します。
ささやきのためのTensorrtバックエンド。

接触

オープンソースと独自のAIプロジェクトの両方を支援することができます。 CollaboraのWebサイトまたは[email protected]および[email protected]から連絡できます。

引用

 @article { Whisper
  title = { Robust Speech Recognition via Large-Scale Weak Supervision } ,
  url = { https://arxiv.org/abs/2212.04356 } ,
  author = { Radford, Alec and Kim, Jong Wook and Xu, Tao and Brockman, Greg and McLeavey, Christine and Sutskever, Ilya } ,
  publisher = { arXiv } ,
  year = { 2022 } ,
}

 @misc { Silero VAD,
  author = { Silero Team } ,
  title = { Silero VAD: pre-trained enterprise-grade Voice Activity Detector (VAD), Number Detector and Language Classifier } ,
  year = { 2021 } ,
  publisher = { GitHub } ,
  journal = { GitHub repository } ,
  howpublished = { url{https://github.com/snakers4/silero-vad} } ,
  email = { hello @ silero.ai }
}