從視訊和音訊內容轉錄、總結和創建智慧剪輯。
轉錄:使用 WhisperX 轉錄音頻
智慧摘要:產生影片內容的簡潔摘要,適合不同目的:
會議紀要
播客摘要
講義
採訪亮點
一般內容摘要
智慧剪輯建立:自動建立影片中關鍵時刻和討論主題的剪輯。
多格式支援:處理各種視訊和音訊檔案格式。
雲端整合:利用 AWS S3 進行高效率的文件處理和處理。
Python 3.8+
AWS CLI 配置了適當的權限
FFmpeg 安裝在您的系統上
Node.js 和 npm(用於運行前端 GUI)
克隆儲存庫:
git clone https://github.com/sidedwards/ai-video-summarizer.git cd ai-video-summarizer
設定後端:
將config/config-example.yaml
複製到config/config.yaml
使用您的 API 金鑰和首選項編輯config/config.yaml
創建並啟動虛擬環境:
python -m venv .venv source .venv/bin/activate # On Windows, use `.venvScriptsactivate`
安裝所需的依賴項:
pip install -r requirements.txt
設定您的配置:
設定前端(可選,用於 GUI 使用):
導航到前端目錄:
cd frontend
安裝所需的依賴項:
npm install
運行 CLI 腳本:
python backend/cli.py
按照提示選擇影片檔案並選擇要產生的摘要類型。
產生的摘要檔案將保存在以輸入視訊檔案命名的目錄中。
啟動後端伺服器:
運行後端伺服器:
python backend/server.py
啟動前端開發伺服器:
在新的終端機視窗中,導航到前端目錄:
cd frontend
運行前端開發伺服器:
npm run dev
開啟 Web 瀏覽器並導航至http://localhost:5173
以存取 AI Video Summarizer GUI。
使用網頁介面上傳視訊文件,選擇所需的摘要類型,然後開始處理。
處理完成後,您可以將產生的摘要檔案下載為 zip 檔案。
編輯config/config.yaml
進行設定:
AWS CLI 路徑和 S3 儲存桶名稱
複製 API 金鑰和模型版本
Anthropic API 金鑰和模型選擇
其他可自訂參數
網路為基礎的圖形使用者介面
基本 CLI
更多法學碩士選項
各種文件格式(PDF、DOCX 等)的匯出選項
歡迎貢獻!請隨時提交 Pull 請求。
麻省理工學院許可證
該專案使用 OpenAI Whisper 模型的高級版本 WhisperX 進行轉錄。 WhisperX 提供:
加速轉錄
高級說話者分類
提高了說話者分割的準確性
WhisperX 模型透過 Replicate API 運行,基於 https://github.com/sidewards/whisperx。