NoteTakerGPT 是一個旨在轉錄和總結錄音的腳本,專為會議量身定制。 NoteTakerGPT 背後的核心思想是利用 OpenAI GPT-4 模型的卓越功能,將繁瑣的筆記任務轉變為自動化流程。
對於經常參加會議並需要可靠工具來捕捉關鍵細節的專業人士來說,該腳本是完美的伴侶。它可以節省時間、提高工作效率並確保不會遺失或忽略任何重要資訊。腳本的輸出是一組結構良好、全面的要點註釋,提供了會議的清晰摘要。
NoteTakerGPT 結合了多個 Python 函式庫和 OpenAI API 的強大功能來處理錄音、轉錄、文字分塊和摘要。它會即時執行所有這些任務,確保會議結束後不久就準備好筆記。此外,NoteTakerGPT 以維護資料隱私和安全的方式處理整個流程。它是一個強大且多功能的工具,可以簡化筆記過程。
這些說明將指導您如何在本機電腦上啟動並執行專案以進行開發和測試。
該專案有一些依賴項需要安裝才能正常運作。依賴項包括:
您可以使用 pip 安裝這些依賴項:
pip install requests openai pandas numpy tiktoken pyaudio wave keyboard
git clone https://github.com/yourusername/NoteTakerGPT.git
cd NoteTakerGPT
pip install -r requirements.txt
python NoteTakerGPT.py
若要使用 NoteTakerGPT,請依照下列步驟操作:
python NoteTakerGPT.py
腳本將自動開始錄製和轉錄音訊。轉錄和摘要過程將繼續,直到發生鍵盤中斷事件(通常按 Ctrl+C)。
在轉錄和摘要過程結束時,腳本將輸出從錄製的音訊中得出的一套全面的要點註釋。
NoteTakerGPT 的核心是一個涉及多個階段的複雜流程。每個階段的設計都是為了確保將原始音訊資料轉換為結構化的、全面的音符集。以下是對每個階段的更深入的了解:
音訊錄製:第一階段涉及錄製音訊。這是使用 PyAudio 庫完成的,該程式庫為跨平台音訊 I/O 庫 PortAudio 提供 Python 綁定。該腳本以 30 秒的間隔記錄音頻,以確保後續步驟的可管理性和效率。在每個間隔結束時,音訊資料將儲存為 .wav 檔案。
轉錄:儲存音訊資料後,腳本將啟動轉錄過程。這是透過 OpenAI API 將音訊資料傳送到 OpenAI 的 Whisper ASR(自動語音辨識)系統來完成的。它將音頻數據轉錄為文本,然後返回給腳本。轉錄過程在單獨的進程中運行,以確保錄製過程不會被阻塞並順利繼續。
分塊和分析:收到轉錄資料後,將其分解為可管理的區塊以進行分析。這考慮了 OpenAI API 對每個請求的令牌限制。該腳本將轉錄內容分成幾塊,並將每一塊發送到 OpenAI 的 GPT-4 模型進行匯總。每個區塊都附帶一個提示,指示模型閱讀文字並產生總結內容的詳細要點註釋。
筆記合併:在所有的區塊都被分析和總結之後,腳本進入最後階段:筆記合併。在這裡,所有總結的要點都被收集並格式化為一組完整的註釋。這是由另一個# NoteTakerGPT 完成的
若要使用 NoteTakerGPT,請依照下列步驟操作:
python NoteTakerGPT.py
腳本將自動開始錄製和轉錄音訊。轉錄和摘要過程將繼續,直到發生鍵盤中斷事件(通常按 Ctrl+C)。
在轉錄和摘要過程結束時,腳本將輸出從錄製的音訊中得出的一套全面的要點註釋。
隨時歡迎您的貢獻!若要為此專案做出貢獻,請分叉儲存庫並提交拉取請求。
該項目根據 MIT 許可條款獲得許可。請參閱許可證文件的全文。這允許您在自己的專案中使用、修改和分發程式碼,只要包含原始版權聲明和免責聲明即可。