NoteTakerGPT は、音声録音を文字に起こして要約するように設計されたスクリプトで、特に会議用に調整されています。 NoteTakerGPT の背後にある中心的なアイデアは、OpenAI の GPT-4 モデルの優れた機能を利用して、メモを取るという面倒なタスクを自動化されたプロセスに変換することです。
このスクリプトは、頻繁に会議に出席し、重要な詳細をキャプチャするための信頼できるツールを必要とする専門家にとって完璧なコンパニオンです。時間が節約され、生産性が向上し、重要な情報が失われたり見落とされたりすることがなくなります。スクリプトの出力は、会議の明確な概要を提供する、適切に構造化された包括的な箇条書きメモのセットです。
NoteTakerGPT は、いくつかの Python ライブラリと OpenAI API の機能を組み合わせて、音声の録音、文字起こし、テキストのチャンク化、および要約を処理します。これらすべてのタスクをリアルタイムで実行し、会議終了後すぐにメモが準備できるようにします。さらに、NoteTakerGPT は、データのプライバシーとセキュリティを維持する方法でプロセス全体を処理します。これは、メモを取るプロセスを簡素化する堅牢で多用途のツールです。
これらの手順では、開発とテストの目的でプロジェクトをローカル マシン上で起動して実行する方法について説明します。
プロジェクトには、正しく動作するためにインストールする必要がある依存関係がいくつかあります。依存関係には次のものが含まれます。
pip を使用してこれらの依存関係をインストールできます。
pip install requests openai pandas numpy tiktoken pyaudio wave keyboard
git clone https://github.com/yourusername/NoteTakerGPT.git
cd NoteTakerGPT
pip install -r requirements.txt
python NoteTakerGPT.py
NoteTakerGPT を使用するには、次の手順に従います。
python NoteTakerGPT.py
スクリプトは自動的に音声の録音と文字起こしを開始します。文字起こしと要約のプロセスは、KeyboardInterrupt イベントが発生するまで続行されます (通常は Ctrl+C を押します)。
文字起こしと要約のプロセスの最後に、スクリプトは録音された音声から得られた包括的な箇条書きのセットを出力します。
NoteTakerGPT の中核は、いくつかの段階を含む複雑なプロセスです。各ステージは、生のオーディオ データを構造化された包括的なノートのセットに確実に変換するように設計されています。各段階をさらに詳しく見ていきます。
音声録音: 最初の段階では音声を録音します。これは、クロスプラットフォームのオーディオ I/O ライブラリである PortAudio の Python バインディングを提供する PyAudio ライブラリを使用して行われます。このスクリプトは、後続の手順での管理性と効率性を確保するために、30 秒間隔で音声を録音します。各間隔の終了時に、オーディオ データが .wav ファイルとして保存されます。
文字起こし: 音声データが保存されると、スクリプトによって文字起こしプロセスが開始されます。これは、OpenAI API を介して OpenAI の Whisper ASR (自動音声認識) システムに音声データを送信することによって行われます。音声データをテキストに変換し、スクリプトに返します。文字起こしプロセスは別のプロセスで実行され、記録プロセスがブロックされずにスムーズに続行されるようにします。
チャンク化と分析: 転写データを受信すると、分析のために管理可能なチャンクに分割されます。これには、OpenAI API がリクエストごとに持つトークン制限が考慮されます。スクリプトは文字起こしをいくつかのチャンクに分割し、要約のためにそれぞれを OpenAI の GPT-4 モデルに送信します。各チャンクには、テキストを読み取って内容を要約した詳細な箇条書きメモを生成するようにモデルに指示するプロンプトが付いています。
ノートの統合: すべてのチャンクが分析および要約された後、スクリプトは最終段階であるノートの統合に入ります。ここでは、すべての要約ポイントが収集され、単一の包括的なメモのセットにフォーマットされます。これは別の# NoteTakerGPT によって行われます。
NoteTakerGPT を使用するには、次の手順に従います。
python NoteTakerGPT.py
スクリプトは自動的に音声の録音と文字起こしを開始します。文字起こしと要約のプロセスは、KeyboardInterrupt イベントが発生するまで続行されます (通常は Ctrl+C を押します)。
文字起こしと要約のプロセスの最後に、スクリプトは録音された音声から得られた包括的な箇条書きのセットを出力します。
貢献はいつでも大歓迎です!このプロジェクトに貢献するには、リポジトリをフォークしてプル リクエストを送信してください。
このプロジェクトは、MIT ライセンスの条件に基づいてライセンスされています。全文については、LICENSE ファイルを参照してください。これにより、オリジナルの著作権表示と免責事項を含める限り、独自のプロジェクトでコードを使用、変更、配布することができます。