NoteTakerGPT เป็นสคริปต์ที่ออกแบบมาเพื่อถอดเสียงและสรุปการบันทึกเสียง ปรับแต่งสำหรับการประชุมโดยเฉพาะ แนวคิดหลักเบื้องหลัง NoteTakerGPT คือการเปลี่ยนงานที่ยุ่งยากในการจดบันทึกให้เป็นกระบวนการอัตโนมัติ โดยใช้ความสามารถอันน่าทึ่งของโมเดล GPT-4 ของ OpenAI
สคริปต์นี้เป็นเพื่อนที่สมบูรณ์แบบสำหรับมืออาชีพที่เข้าร่วมการประชุมบ่อยครั้งและต้องการเครื่องมือที่เชื่อถือได้ในการเก็บรายละเอียดที่สำคัญ ช่วยประหยัดเวลา เพิ่มผลผลิต และรับประกันว่าไม่มีข้อมูลสำคัญสูญหายหรือถูกมองข้าม ผลลัพธ์ของสคริปต์คือชุดบันทึกย่อหัวข้อย่อยที่มีโครงสร้างดีและครอบคลุม ซึ่งให้ข้อมูลสรุปการประชุมที่ชัดเจน
NoteTakerGPT ผสมผสานพลังของไลบรารี Python หลายๆ ไลบรารีและ OpenAI API เพื่อจัดการการบันทึกเสียง การถอดเสียง การแยกส่วนข้อความ และการสรุป โดยจะดำเนินงานทั้งหมดเหล่านี้แบบเรียลไทม์ เพื่อให้มั่นใจว่าบันทึกย่อจะพร้อมทันทีหลังจากการประชุมสิ้นสุดลง นอกจากนี้ NoteTakerGPT ยังจัดการกระบวนการทั้งหมดในลักษณะที่รักษาความเป็นส่วนตัวและความปลอดภัยของข้อมูลของคุณ เป็นเครื่องมือที่แข็งแกร่งและอเนกประสงค์ซึ่งช่วยให้กระบวนการจดบันทึกง่ายขึ้น
คำแนะนำเหล่านี้จะแนะนำคุณเกี่ยวกับวิธีการเริ่มโปรเจ็กต์และรันบนเครื่องของคุณเพื่อการพัฒนาและการทดสอบ
โปรเจ็กต์มีการขึ้นต่อกันบางประการที่จำเป็นต้องติดตั้งเพื่อให้ทำงานได้อย่างถูกต้อง การพึ่งพารวมถึง:
คุณสามารถติดตั้งการพึ่งพาเหล่านี้ได้โดยใช้ pip:
pip install requests openai pandas numpy tiktoken pyaudio wave keyboard
git clone https://github.com/yourusername/NoteTakerGPT.git
cd NoteTakerGPT
pip install -r requirements.txt
python NoteTakerGPT.py
หากต้องการใช้ NoteTakerGPT ให้ทำตามขั้นตอนเหล่านี้:
python NoteTakerGPT.py
สคริปต์จะเริ่มบันทึกและถอดเสียงโดยอัตโนมัติ กระบวนการถอดเสียงและการสรุปจะดำเนินต่อไปจนกว่าเหตุการณ์ KeyboardInterrupt จะเกิดขึ้น (โดยทั่วไปโดยการกด Ctrl+C)
เมื่อสิ้นสุดกระบวนการถอดเสียงและสรุป สคริปต์จะแสดงชุดสัญลักษณ์แสดงหัวข้อย่อยที่ครอบคลุมซึ่งได้มาจากเสียงที่บันทึกไว้
หัวใจสำคัญของ NoteTakerGPT คือกระบวนการที่ซับซ้อนซึ่งเกี่ยวข้องกับหลายขั้นตอน แต่ละขั้นตอนได้รับการออกแบบมาเพื่อให้แน่ใจว่าการแปลงข้อมูลเสียงดิบเป็นชุดบันทึกย่อที่มีโครงสร้างและครอบคลุม ดูรายละเอียดเชิงลึกเพิ่มเติมเกี่ยวกับแต่ละขั้นตอน:
การบันทึกเสียง : ขั้นตอนแรกเกี่ยวข้องกับการบันทึกเสียง ซึ่งทำได้โดยใช้ไลบรารี PyAudio ซึ่งมีการเชื่อมโยง Python สำหรับ PortAudio ซึ่งเป็นไลบรารี I/O เสียงข้ามแพลตฟอร์ม สคริปต์จะบันทึกเสียงในช่วงเวลา 30 วินาทีเพื่อให้มั่นใจในการจัดการและประสิทธิภาพในขั้นตอนต่อๆ ไป เมื่อสิ้นสุดแต่ละช่วงเวลา ข้อมูลเสียงจะถูกบันทึกเป็นไฟล์ .wav
การถอดเสียง : เมื่อจัดเก็บข้อมูลเสียงแล้ว สคริปต์จะเริ่มกระบวนการถอดเสียง ซึ่งทำได้โดยการส่งข้อมูลเสียงไปยังระบบ Whisper ASR (การรู้จำเสียงอัตโนมัติ) ของ OpenAI ผ่านทาง OpenAI API โดยจะแปลงข้อมูลเสียงเป็นข้อความ ซึ่งจะถูกส่งกลับไปยังสคริปต์ กระบวนการถอดเสียงจะทำงานในกระบวนการแยกต่างหากเพื่อให้แน่ใจว่ากระบวนการบันทึกจะไม่ถูกบล็อกและดำเนินไปอย่างราบรื่น
การแยกส่วนและการวิเคราะห์ : เมื่อได้รับข้อมูลการถอดเสียง ข้อมูลจะถูกแบ่งออกเป็นส่วนต่างๆ ที่สามารถจัดการได้เพื่อการวิเคราะห์ ซึ่งจะคำนึงถึงขีดจำกัดโทเค็นที่ OpenAI API มีสำหรับแต่ละคำขอ สคริปต์แบ่งการถอดเสียงออกเป็นส่วนๆ และส่งแต่ละส่วนไปยังโมเดล GPT-4 ของ OpenAI เพื่อการสรุป ส่วนประกอบแต่ละส่วนจะมีข้อความแจ้งให้โมเดลอ่านข้อความและสร้างบันทึกย่อหัวข้อย่อยโดยละเอียดเพื่อสรุปเนื้อหา
การรวมหมายเหตุ : หลังจากวิเคราะห์และสรุปส่วนทั้งหมดแล้ว สคริปต์จะเข้าสู่ขั้นตอนสุดท้าย: การรวมบันทึกย่อ ที่นี่ ประเด็นสรุปทั้งหมดจะถูกรวบรวมและจัดรูปแบบเป็นชุดบันทึกย่อที่ครอบคลุมชุดเดียว สิ่งนี้ทำโดย # NoteTakerGPT อื่น
หากต้องการใช้ NoteTakerGPT ให้ทำตามขั้นตอนเหล่านี้:
python NoteTakerGPT.py
สคริปต์จะเริ่มบันทึกและถอดเสียงโดยอัตโนมัติ กระบวนการถอดเสียงและการสรุปจะดำเนินต่อไปจนกว่าเหตุการณ์ KeyboardInterrupt จะเกิดขึ้น (โดยทั่วไปโดยการกด Ctrl+C)
เมื่อสิ้นสุดกระบวนการถอดเสียงและสรุป สคริปต์จะแสดงชุดสัญลักษณ์แสดงหัวข้อย่อยที่ครอบคลุมซึ่งได้มาจากเสียงที่บันทึกไว้
ยินดีต้อนรับเสมอ! เพื่อสนับสนุนโปรเจ็กต์นี้ โปรดแยกพื้นที่เก็บข้อมูลและส่งคำขอดึง
โครงการนี้ได้รับอนุญาตภายใต้เงื่อนไขของใบอนุญาต MIT ดูไฟล์ใบอนุญาตสำหรับข้อความฉบับเต็ม ซึ่งจะทำให้คุณสามารถใช้ แก้ไข และแจกจ่ายโค้ดในโครงการของคุณเองได้ตราบใดที่คุณรวมประกาศลิขสิทธิ์และข้อจำกัดความรับผิดชอบต้นฉบับไว้ด้วย