NoteTakerGPT 是一个旨在转录和总结录音的脚本,专为会议量身定制。 NoteTakerGPT 背后的核心思想是利用 OpenAI GPT-4 模型的卓越功能,将繁琐的记笔记任务转变为自动化过程。
对于经常参加会议并需要可靠工具来捕获关键细节的专业人士来说,该脚本是完美的伴侣。它可以节省时间、提高工作效率并确保不会丢失或忽略任何重要信息。脚本的输出是一组结构良好、全面的要点注释,提供了会议的清晰摘要。
NoteTakerGPT 结合了多个 Python 库和 OpenAI API 的强大功能来处理录音、转录、文本分块和摘要。它实时执行所有这些任务,确保会议结束后不久就准备好笔记。此外,NoteTakerGPT 以维护数据隐私和安全的方式处理整个过程。它是一个强大且多功能的工具,可以简化笔记过程。
这些说明将指导您如何在本地计算机上启动并运行项目以进行开发和测试。
该项目有一些依赖项需要安装才能正常工作。依赖项包括:
您可以使用 pip 安装这些依赖项:
pip install requests openai pandas numpy tiktoken pyaudio wave keyboard
git clone https://github.com/yourusername/NoteTakerGPT.git
cd NoteTakerGPT
pip install -r requirements.txt
python NoteTakerGPT.py
要使用 NoteTakerGPT,请按照下列步骤操作:
python NoteTakerGPT.py
脚本将自动开始录制和转录音频。转录和摘要过程将继续,直到发生键盘中断事件(通常按 Ctrl+C)。
在转录和摘要过程结束时,脚本将输出从录制的音频中得出的一套全面的要点注释。
NoteTakerGPT 的核心是一个涉及多个阶段的复杂过程。每个阶段的设计都是为了确保将原始音频数据转换为结构化的、全面的音符集。以下是对每个阶段的更深入的了解:
音频录制:第一阶段涉及录制音频。这是使用 PyAudio 库完成的,该库为跨平台音频 I/O 库 PortAudio 提供 Python 绑定。该脚本以 30 秒的间隔记录音频,以确保后续步骤的可管理性和效率。在每个间隔结束时,音频数据将保存为 .wav 文件。
转录:存储音频数据后,脚本将启动转录过程。这是通过 OpenAI API 将音频数据发送到 OpenAI 的 Whisper ASR(自动语音识别)系统来完成的。它将音频数据转录为文本,然后返回给脚本。转录过程在单独的进程中运行,以确保录制过程不被阻塞并顺利继续。
分块和分析:收到转录数据后,将其分解为可管理的块以进行分析。这考虑了 OpenAI API 对每个请求的令牌限制。该脚本将转录内容分成几块,并将每一块发送到 OpenAI 的 GPT-4 模型进行汇总。每个块都附带一个提示,指示模型阅读文本并生成总结内容的详细要点注释。
笔记合并:在所有的块都被分析和总结之后,脚本进入最后阶段:笔记合并。在这里,所有总结的要点都被收集并格式化为一组完整的注释。这是由另一个# NoteTakerGPT 完成的
要使用 NoteTakerGPT,请按照下列步骤操作:
python NoteTakerGPT.py
脚本将自动开始录制和转录音频。转录和摘要过程将继续,直到发生键盘中断事件(通常按 Ctrl+C)。
在转录和摘要过程结束时,脚本将输出从录制的音频中得出的一套全面的要点注释。
随时欢迎您的贡献!要为该项目做出贡献,请分叉存储库并提交拉取请求。
该项目根据 MIT 许可证条款获得许可。请参阅许可证文件的全文。这允许您在自己的项目中使用、修改和分发代码,只要包含原始版权声明和免责声明即可。