从视频和音频内容转录、总结和创建智能剪辑。
转录:使用 WhisperX 转录音频
智能摘要:生成视频内容的简洁摘要,适合不同目的:
会议纪要
播客摘要
讲义
采访亮点
一般内容摘要
智能剪辑创建:自动创建视频中关键时刻和讨论主题的剪辑。
多格式支持:处理各种视频和音频文件格式。
云集成:利用 AWS S3 进行高效的文件处理和处理。
Python 3.8+
AWS CLI 配置了适当的权限
FFmpeg 安装在您的系统上
Node.js 和 npm(用于运行前端 GUI)
克隆存储库:
git clone https://github.com/sidedwards/ai-video-summarizer.git cd ai-video-summarizer
设置后端:
将config/config-example.yaml
复制到config/config.yaml
使用您的 API 密钥和首选项编辑config/config.yaml
创建并激活虚拟环境:
python -m venv .venv source .venv/bin/activate # On Windows, use `.venvScriptsactivate`
安装所需的依赖项:
pip install -r requirements.txt
设置您的配置:
设置前端(可选,用于 GUI 使用):
导航到前端目录:
cd frontend
安装所需的依赖项:
npm install
运行 CLI 脚本:
python backend/cli.py
按照提示选择视频文件并选择要生成的摘要类型。
生成的摘要文件将保存在以输入视频文件命名的目录中。
启动后端服务器:
运行后端服务器:
python backend/server.py
启动前端开发服务器:
在新的终端窗口中,导航到前端目录:
cd frontend
运行前端开发服务器:
npm run dev
打开 Web 浏览器并导航至http://localhost:5173
以访问 AI Video Summarizer GUI。
使用网络界面上传视频文件,选择所需的摘要类型,然后开始处理。
处理完成后,您可以将生成的摘要文件下载为 zip 存档。
编辑config/config.yaml
进行设置:
AWS CLI 路径和 S3 存储桶名称
复制 API 密钥和模型版本
Anthropic API 密钥和模型选择
其他可定制参数
基于网络的图形用户界面
基本 CLI
更多法学硕士选项
各种文档格式(PDF、DOCX 等)的导出选项
欢迎贡献!请随时提交 Pull 请求。
麻省理工学院许可证
该项目使用 OpenAI Whisper 模型的高级版本 WhisperX 进行转录。 WhisperX 提供:
加速转录
高级说话人分类
提高了说话人分割的准确性
WhisperX 模型通过 Replicate API 运行,基于 https://github.com/sidewards/whisperx。