NoteTakerGPT é um script desenvolvido para transcrever e resumir gravações de áudio, adaptado especificamente para reuniões. A ideia central por trás do NoteTakerGPT é transformar a complicada tarefa de fazer anotações em um processo automatizado, utilizando os notáveis capacidades do modelo GPT-4 da OpenAI.
Este script é o companheiro perfeito para profissionais que participam de reuniões com frequência e precisam de uma ferramenta confiável para capturar os principais detalhes. Economiza tempo, aumenta a produtividade e garante que nenhuma informação importante seja perdida ou esquecida. O resultado do roteiro é um conjunto bem estruturado e abrangente de notas com marcadores que fornecem um resumo claro da reunião.
NoteTakerGPT combina o poder de várias bibliotecas Python e da API OpenAI para lidar com gravação de áudio, transcrição, agrupamento de texto e resumo. Ele executa todas essas tarefas em tempo real, garantindo que as anotações estejam prontas logo após o término da reunião. Além disso, NoteTakerGPT trata de todo o processo de forma a manter a privacidade e segurança dos seus dados. É uma ferramenta robusta e versátil que simplifica o processo de anotações.
Estas instruções orientarão você sobre como colocar o projeto em funcionamento em sua máquina local para fins de desenvolvimento e teste.
O projeto possui algumas dependências que precisam ser instaladas para que funcione corretamente. As dependências incluem:
Você pode instalar essas dependências usando pip:
pip install requests openai pandas numpy tiktoken pyaudio wave keyboard
git clone https://github.com/yourusername/NoteTakerGPT.git
cd NoteTakerGPT
pip install -r requirements.txt
python NoteTakerGPT.py
Para usar o NoteTakerGPT, siga estas etapas:
python NoteTakerGPT.py
O script começará automaticamente a gravar e transcrever o áudio. O processo de transcrição e resumo continuará até que ocorra um evento KeyboardInterrupt (normalmente pressionando Ctrl+C).
No final do processo de transcrição e resumo, o roteiro produzirá um conjunto abrangente de notas derivadas do áudio gravado.
No centro do NoteTakerGPT está um processo complexo que envolve vários estágios. Cada estágio é projetado para garantir a transformação de dados de áudio brutos em um conjunto estruturado e abrangente de notas. Aqui está uma visão mais aprofundada de cada estágio:
Gravação de áudio : A primeira etapa envolve a gravação do áudio. Isso é feito usando a biblioteca PyAudio, que fornece ligações Python para PortAudio, a biblioteca de E/S de áudio multiplataforma. O script grava áudio em intervalos de 30 segundos para garantir capacidade de gerenciamento e eficiência nas etapas subsequentes. Ao final de cada intervalo, os dados de áudio são salvos como um arquivo .wav.
Transcrição : Depois que os dados de áudio são armazenados, o script inicia o processo de transcrição. Isso é feito enviando os dados de áudio para o sistema Whisper ASR (Automatic Speech Recognition) da OpenAI por meio da API OpenAI. Ele transcreve os dados de áudio em texto, que é então retornado ao roteiro. O processo de transcrição é executado em um processo separado para garantir que o processo de gravação não seja bloqueado e continue sem problemas.
Segmentação e análise : quando os dados de transcrição são recebidos, eles são divididos em partes gerenciáveis para análise. Isso leva em consideração o limite de tokens que a API OpenAI possui para cada solicitação. O script divide as transcrições em partes e envia cada uma delas para o modelo GPT-4 da OpenAI para resumo. Acompanhando cada pedaço há um prompt instruindo o modelo a ler o texto e gerar notas detalhadas resumindo o conteúdo.
Consolidação de Notas : Após todos os pedaços terem sido analisados e resumidos, o script entra na etapa final: consolidação de notas. Aqui, todos os pontos resumidos são coletados e formatados em um conjunto único e abrangente de notas. Isso é feito por outro# NoteTakerGPT
Para usar o NoteTakerGPT, siga estas etapas:
python NoteTakerGPT.py
O script começará automaticamente a gravar e transcrever o áudio. O processo de transcrição e resumo continuará até que ocorra um evento KeyboardInterrupt (normalmente pressionando Ctrl+C).
No final do processo de transcrição e resumo, o roteiro produzirá um conjunto abrangente de notas derivadas do áudio gravado.
Contribuições são sempre bem-vindas! Para contribuir com este projeto, bifurque o repositório e envie uma solicitação pull.
Este projeto está licenciado sob os termos da licença do MIT. Veja o arquivo LICENSE para o texto completo. Isso permite que você use, modifique e distribua o código em seus próprios projetos, desde que inclua o aviso de direitos autorais original e isenções de responsabilidade.