NoteTakerGPT adalah skrip yang dirancang untuk menyalin dan meringkas rekaman audio, yang dirancang khusus untuk rapat. Ide inti di balik NoteTakerGPT adalah mengubah tugas pencatatan yang rumit menjadi proses otomatis dengan memanfaatkan kemampuan luar biasa model GPT-4 OpenAI.
Skrip ini adalah pendamping yang sempurna bagi para profesional yang sering menghadiri rapat dan membutuhkan alat yang andal untuk menangkap detail penting. Ini menghemat waktu, meningkatkan produktivitas, dan memastikan tidak ada informasi penting yang hilang atau terabaikan. Keluaran dari naskah ini adalah serangkaian catatan poin-poin yang terstruktur dengan baik dan komprehensif yang memberikan ringkasan pertemuan yang jelas.
NoteTakerGPT menggabungkan kekuatan beberapa pustaka Python dan OpenAI API untuk menangani perekaman audio, transkripsi, pemotongan teks, dan peringkasan. Ia melakukan semua tugas ini secara real-time, memastikan bahwa catatan siap segera setelah rapat berakhir. Selain itu, NoteTakerGPT menangani seluruh proses dengan cara yang menjaga privasi dan keamanan data Anda. Ini adalah alat yang kuat dan serbaguna yang menyederhanakan proses pencatatan.
Petunjuk ini akan memandu Anda tentang cara menjalankan dan menjalankan proyek di mesin lokal Anda untuk tujuan pengembangan dan pengujian.
Proyek ini memiliki beberapa dependensi yang perlu diinstal agar dapat berfungsi dengan benar. Ketergantungannya meliputi:
Anda dapat menginstal dependensi ini menggunakan pip:
pip install requests openai pandas numpy tiktoken pyaudio wave keyboard
git clone https://github.com/yourusername/NoteTakerGPT.git
cd NoteTakerGPT
pip install -r requirements.txt
python NoteTakerGPT.py
Untuk menggunakan NoteTakerGPT, ikuti langkah-langkah berikut:
python NoteTakerGPT.py
Skrip akan secara otomatis mulai merekam dan menyalin audio. Proses transkripsi dan peringkasan akan berlanjut hingga peristiwa KeyboardInterrupt terjadi (biasanya dengan menekan Ctrl+C).
Di akhir proses transkripsi dan peringkasan, skrip akan mengeluarkan serangkaian catatan lengkap yang berasal dari rekaman audio.
Inti dari NoteTakerGPT adalah proses rumit yang melibatkan beberapa tahapan. Setiap tahap dirancang untuk memastikan transformasi data audio mentah menjadi serangkaian catatan yang terstruktur dan komprehensif. Berikut penjelasan lebih mendalam tentang setiap tahap:
Perekaman Audio : Tahap pertama melibatkan perekaman audio. Hal ini dilakukan dengan menggunakan pustaka PyAudio, yang menyediakan pengikatan Python untuk PortAudio, pustaka I/O audio lintas platform. Skrip merekam audio dalam interval 30 detik untuk memastikan pengelolaan dan efisiensi pada langkah selanjutnya. Di akhir setiap interval, data audio disimpan sebagai file .wav.
Transkripsi : Setelah data audio disimpan, skrip memulai proses transkripsi. Hal ini dilakukan dengan mengirimkan data audio ke sistem Whisper ASR (Automatic Speech Recognition) OpenAI melalui OpenAI API. Ini mentranskripsikan data audio menjadi teks, yang kemudian dikembalikan ke skrip. Proses transkripsi berjalan dalam proses tersendiri untuk memastikan proses perekaman tidak terhambat dan tetap berjalan lancar.
Potongan dan Analisis : Saat data transkripsi diterima, data tersebut dipecah menjadi beberapa bagian yang dapat dikelola untuk dianalisis. Hal ini mempertimbangkan batas token yang dimiliki OpenAI API untuk setiap permintaan. Skrip membagi transkripsi menjadi beberapa bagian dan mengirimkan masing-masing transkripsi ke model GPT-4 OpenAI untuk diringkas. Setiap potongan disertai dengan perintah yang menginstruksikan model untuk membaca teks dan menghasilkan catatan poin-poin terperinci yang merangkum konten.
Konsolidasi Catatan : Setelah semua potongan dianalisis dan diringkas, skrip memasuki tahap akhir: konsolidasi catatan. Di sini, semua poin yang dirangkum dikumpulkan dan diformat menjadi satu rangkaian catatan yang komprehensif. Ini dilakukan oleh # NoteTakerGPT lainnya
Untuk menggunakan NoteTakerGPT, ikuti langkah-langkah berikut:
python NoteTakerGPT.py
Skrip akan secara otomatis mulai merekam dan menyalin audio. Proses transkripsi dan peringkasan akan berlanjut hingga peristiwa KeyboardInterrupt terjadi (biasanya dengan menekan Ctrl+C).
Di akhir proses transkripsi dan peringkasan, skrip akan mengeluarkan serangkaian catatan lengkap yang berasal dari rekaman audio.
Kontribusi selalu diterima! Untuk berkontribusi pada proyek ini, harap fork repositori dan kirimkan permintaan penarikan.
Proyek ini dilisensikan berdasarkan ketentuan lisensi MIT. Lihat file LISENSI untuk teks selengkapnya. Hal ini memungkinkan Anda untuk menggunakan, memodifikasi, dan mendistribusikan kode dalam proyek Anda sendiri selama Anda menyertakan pemberitahuan hak cipta asli dan penafian.