このプロジェクトは、ユーザーが YouTube ビデオからオーディオをダウンロードし、OpenAI の Whisper モデルを使用して文字起こしし、ページネーション付きで文字起こしを表示できる Streamlit ベースのアプリケーションです。
アプリケーションのデモをチェックしてください: OpenAI Whisper Transcribe YouTube Videos
このリポジトリのクローンを作成します。
git clone https://github.com/RiteshGenAI/openai_whisper_transcribe_yt_videos.git
cd openai_whisper_transcribe_yt_videos
必要なパッケージをインストールします。
pip install -r requirements.txt
FFmpeg がシステムにまだインストールされていない場合は、インストールします。インストール方法はオペレーティング システムによって異なります。
Streamlit アプリを実行します。
streamlit run .srcapp.py
表示された入力フィールドに YouTube ビデオの URL を入力します。
アプリは音声をダウンロードして文字起こしし、ページネーション付きで文字起こしを表示します。
オーディオのダウンロード: download_audio
関数は、yt-dlp を使用して、指定された YouTube URL からオーディオをダウンロードします。音声を WAV ファイルとして保存します。
オーディオの転写: transcribe_audio
関数は、OpenAI の Whisper モデルを使用して、ダウンロードされたオーディオ ファイルを転写します。
トランスクリプトの表示: display_transcript_with_pagination
関数は、トランスクリプトをページに分割し、Streamlit の UI コンポーネントを使用して表示します。
Process Audio : process_audio
関数は、ダウンロードから文字起こし、結果の表示までのプロセス全体を調整します。
transcribe_audio
関数のmodel_name
パラメーターを変更します。display_transcript_with_pagination
のtokens_per_page
パラメーターを調整して、ページごとに表示されるテキストの量を変更します。 このアプリケーションは、特に長いビデオの場合、大量の計算リソースを必要とします。 CUDA 対応 GPU を使用すると、文字起こしプロセスを大幅に高速化できます。
MITライセンス