NoteTakerGPT — это скрипт, предназначенный для расшифровки и обобщения аудиозаписей, специально предназначенный для встреч. Основная идея NoteTakerGPT — превратить громоздкую задачу ведения заметок в автоматизированный процесс, используя замечательные возможности модели OpenAI GPT-4.
Этот сценарий является идеальным помощником для профессионалов, которые часто посещают собрания и нуждаются в надежном инструменте для сбора ключевых деталей. Это экономит время, повышает производительность и гарантирует, что никакая важная информация не будет потеряна или упущена из виду. Результатом сценария является хорошо структурированный, полный набор заметок, которые дают четкое описание встречи.
NoteTakerGPT сочетает в себе возможности нескольких библиотек Python и API OpenAI для обработки аудиозаписи, транскрипции, фрагментирования текста и обобщения. Он выполняет все эти задачи в режиме реального времени, гарантируя, что заметки будут готовы вскоре после окончания собрания. Более того, NoteTakerGPT обрабатывает весь процесс таким образом, чтобы обеспечить конфиденциальность и безопасность ваших данных. Это надежный и универсальный инструмент, который упрощает процесс ведения заметок.
Эти инструкции помогут вам запустить проект на локальном компьютере для целей разработки и тестирования.
Для корректной работы проекта необходимо установить несколько зависимостей. Зависимости включают в себя:
Вы можете установить эти зависимости с помощью pip:
pip install requests openai pandas numpy tiktoken pyaudio wave keyboard
git clone https://github.com/yourusername/NoteTakerGPT.git
cd NoteTakerGPT
pip install -r requirements.txt
python NoteTakerGPT.py
Чтобы использовать NoteTakerGPT, выполните следующие действия:
python NoteTakerGPT.py
Скрипт автоматически начнет запись и расшифровку звука. Процесс транскрипции и обобщения будет продолжаться до тех пор, пока не произойдет событие KeyboardInterrupt (обычно при нажатии клавиш Ctrl+C).
В конце процесса транскрипции и обобщения скрипт выведет полный набор примечаний по пунктам, полученных на основе записанного аудио.
В основе NoteTakerGPT лежит сложный процесс, включающий несколько этапов. Каждый этап предназначен для обеспечения преобразования необработанных аудиоданных в структурированный комплексный набор нот. Рассмотрим более подробно каждый этап:
Аудиозапись : Первый этап включает в себя запись звука. Это делается с помощью библиотеки PyAudio, которая предоставляет привязки Python для PortAudio, кроссплатформенной библиотеки ввода-вывода звука. Скрипт записывает звук с 30-секундными интервалами, чтобы обеспечить управляемость и эффективность на последующих этапах. В конце каждого интервала аудиоданные сохраняются в виде файла .wav.
Транскрипция : как только аудиоданные будут сохранены, сценарий инициирует процесс транскрипции. Это делается путем отправки аудиоданных в систему Whisper ASR (автоматическое распознавание речи) OpenAI через API OpenAI. Он транскрибирует аудиоданные в текст, который затем возвращается в сценарий. Процесс транскрипции выполняется в отдельном процессе, чтобы гарантировать, что процесс записи не блокируется и продолжается бесперебойно.
Разбиение на части и анализ : когда данные транскрипции получены, они разбиваются на управляемые фрагменты для анализа. При этом учитывается лимит токенов, который API OpenAI имеет для каждого запроса. Скрипт разбивает транскрипцию на фрагменты и отправляет каждый из них в модель OpenAI GPT-4 для обобщения. Каждый фрагмент сопровождается подсказкой, дающей модели прочитать текст и создать подробные примечания, суммирующие содержание.
Консолидация заметок : после того, как все фрагменты проанализированы и обобщены, сценарий переходит к заключительному этапу: консолидации заметок. Здесь все обобщенные моменты собираются и форматируются в единый комплексный набор заметок. Это делает другой # NoteTakerGPT
Чтобы использовать NoteTakerGPT, выполните следующие действия:
python NoteTakerGPT.py
Скрипт автоматически начнет запись и расшифровку звука. Процесс транскрипции и обобщения будет продолжаться до тех пор, пока не произойдет событие KeyboardInterrupt (обычно при нажатии клавиш Ctrl+C).
В конце процесса транскрипции и обобщения скрипт выведет полный набор примечаний по пунктам, полученных на основе записанного аудио.
Вклады всегда приветствуются! Чтобы внести свой вклад в этот проект, создайте форк репозитория и отправьте запрос на включение.
Этот проект лицензируется на условиях лицензии MIT. Полный текст см. в файле ЛИЦЕНЗИИ. Это позволяет вам использовать, изменять и распространять код в ваших собственных проектах при условии, что вы включите оригинальное уведомление об авторских правах и отказ от ответственности.