NoteTakerGPT es un script diseñado para transcribir y resumir grabaciones de audio, diseñado específicamente para reuniones. La idea central detrás de NoteTakerGPT es transformar la engorrosa tarea de tomar notas en un proceso automatizado mediante la utilización de las extraordinarias capacidades del modelo GPT-4 de OpenAI.
Este script es el compañero perfecto para los profesionales que asisten con frecuencia a reuniones y necesitan una herramienta confiable para capturar los detalles clave. Ahorra tiempo, aumenta la productividad y garantiza que no se pierda ni se pase por alto ninguna información importante. El resultado del guión es un conjunto completo y bien estructurado de notas con viñetas que proporcionan un resumen claro de la reunión.
NoteTakerGPT combina el poder de varias bibliotecas de Python y la API OpenAI para manejar la grabación de audio, la transcripción, la fragmentación de texto y el resumen. Realiza todas estas tareas en tiempo real, asegurando que las notas estén listas poco después de que finalice la reunión. Además, NoteTakerGPT maneja todo el proceso de manera que mantenga la privacidad y seguridad de sus datos. Es una herramienta robusta y versátil que simplifica el proceso de toma de notas.
Estas instrucciones lo guiarán sobre cómo poner en funcionamiento el proyecto en su máquina local para fines de desarrollo y prueba.
El proyecto tiene algunas dependencias que deben instalarse para que funcione correctamente. Las dependencias incluyen:
Puedes instalar estas dependencias usando pip:
pip install requests openai pandas numpy tiktoken pyaudio wave keyboard
git clone https://github.com/yourusername/NoteTakerGPT.git
cd NoteTakerGPT
pip install -r requirements.txt
python NoteTakerGPT.py
Para utilizar NoteTakerGPT, siga estos pasos:
python NoteTakerGPT.py
El guión comenzará a grabar y transcribir audio automáticamente. El proceso de transcripción y resumen continuará hasta que se produzca un evento KeyboardInterrupt (normalmente presionando Ctrl+C).
Al final del proceso de transcripción y resumen, el guión generará un conjunto completo de viñetas derivadas del audio grabado.
En el centro de NoteTakerGPT hay un proceso complejo que involucra varias etapas. Cada etapa está diseñada para garantizar la transformación de datos de audio sin procesar en un conjunto de notas completo y estructurado. Aquí hay una mirada más profunda a cada etapa:
Grabación de audio : la primera etapa consiste en grabar el audio. Esto se hace utilizando la biblioteca PyAudio, que proporciona enlaces de Python para PortAudio, la biblioteca de E/S de audio multiplataforma. El guión graba audio en intervalos de 30 segundos para garantizar la manejabilidad y la eficiencia en los pasos posteriores. Al final de cada intervalo, los datos de audio se guardan como un archivo .wav.
Transcripción : una vez que se almacenan los datos de audio, el guión inicia el proceso de transcripción. Esto se hace enviando los datos de audio al sistema Whisper ASR (reconocimiento automático de voz) de OpenAI a través de la API de OpenAI. Transcribe los datos de audio en texto, que luego se devuelve al guión. El proceso de transcripción se ejecuta en un proceso separado para garantizar que el proceso de grabación no se bloquee y continúe sin problemas.
Fragmentación y análisis : cuando se reciben los datos de transcripción, se dividen en fragmentos manejables para su análisis. Esto tiene en cuenta el límite de tokens que tiene la API de OpenAI para cada solicitud. El script divide las transcripciones en fragmentos y envía cada uno de ellos al modelo GPT-4 de OpenAI para su resumen. Acompañando a cada fragmento hay un mensaje que indica al modelo que lea el texto y genere notas detalladas con viñetas que resuma el contenido.
Consolidación de notas : una vez analizados y resumidos todos los fragmentos, el guión entra en la etapa final: consolidación de notas. Aquí, todos los puntos resumidos se recopilan y formatean en un conjunto único y completo de notas. Esto lo hace otro# NoteTakerGPT
Para utilizar NoteTakerGPT, siga estos pasos:
python NoteTakerGPT.py
El guión comenzará a grabar y transcribir audio automáticamente. El proceso de transcripción y resumen continuará hasta que se produzca un evento KeyboardInterrupt (normalmente presionando Ctrl+C).
Al final del proceso de transcripción y resumen, el guión generará un conjunto completo de viñetas derivadas del audio grabado.
¡Las contribuciones siempre son bienvenidas! Para contribuir a este proyecto, bifurque el repositorio y envíe una solicitud de extracción.
Este proyecto está licenciado según los términos de la licencia MIT. Consulte el archivo de LICENCIA para ver el texto completo. Esto le permite usar, modificar y distribuir el código en sus propios proyectos siempre que incluya el aviso de derechos de autor y las exenciones de responsabilidad originales.