ビデオとオーディオのコンテンツを文字に起こし、要約し、スマート クリップを作成します。
文字起こし: WhisperX を使用して音声を文字起こしします。
スマートな要約: さまざまな目的に合わせて、ビデオ コンテンツの簡潔な要約を生成します。
議事録
ポッドキャストの概要
講義ノート
インタビューのハイライト
一般的なコンテンツの概要
インテリジェントなクリップ作成: ビデオ内で説明されている重要な瞬間やトピックのクリップを自動的に作成します。
マルチフォーマットサポート: さまざまなビデオおよびオーディオファイルフォーマットを処理します。
クラウド統合: AWS S3 を利用して効率的なファイルの処理と処理を行います。
Python 3.8+
適切なアクセス許可が設定された AWS CLI
システムにインストールされている FFmpeg
Node.js および npm (フロントエンド GUI の実行用)
リポジトリのクローンを作成します。
git clone https://github.com/sidedwards/ai-video-summarizer.git cd ai-video-summarizer
バックエンドをセットアップします。
config/config-example.yaml
をconfig/config.yaml
にコピーします
API キーと設定を使用してconfig/config.yaml
を編集します
仮想環境を作成してアクティブ化します。
python -m venv .venv source .venv/bin/activate # On Windows, use `.venvScriptsactivate`
必要な依存関係をインストールします。
pip install -r requirements.txt
構成をセットアップします。
フロントエンドをセットアップします (GUI を使用する場合はオプション)。
フロントエンド ディレクトリに移動します。
cd frontend
必要な依存関係をインストールします。
npm install
CLI スクリプトを実行します。
python backend/cli.py
プロンプトに従ってビデオ ファイルを選択し、生成する概要の種類を選択します。
生成された概要ファイルは、入力ビデオ ファイルにちなんで名付けられたディレクトリに保存されます。
バックエンドサーバーを起動します。
バックエンドサーバーを実行します。
python backend/server.py
フロントエンド開発サーバーを起動します。
新しいターミナル ウィンドウで、フロントエンド ディレクトリに移動します。
cd frontend
フロントエンド開発サーバーを実行します。
npm run dev
Web ブラウザを開いてhttp://localhost:5173
に移動し、AI Video Summarizer GUI にアクセスします。
Web インターフェイスを使用してビデオ ファイルをアップロードし、目的の概要タイプを選択して、処理を開始します。
処理が完了すると、生成された概要ファイルを zip アーカイブとしてダウンロードできます。
config/config.yaml
を編集して次のように設定します。
AWS CLI パスと S3 バケット名
APIキーとモデルバージョンをレプリケートする
Anthropic API キーとモデルの選択
その他のカスタマイズ可能なパラメータ
WebベースのGUI
基本的な CLI
その他の LLM オプション
さまざまなドキュメント形式 (PDF、DOCX など) のエクスポート オプション
貢献は大歓迎です!お気軽にプルリクエストを送信してください。
MITライセンス
このプロジェクトでは、OpenAI の Whisper モデルの高度なバージョンである WhisperX を文字起こしに使用します。 WhisperX が提供するもの:
転写の加速
高度な話者ダイアライゼーション
話者のセグメンテーションの精度の向上
WhisperX モデルは、https://github.com/sidewards/whisperx に基づいて Replicate API 経由で実行されます。