openai_whisper_transcribe_yt_videos Скачать - openai_whisper_transcribe_yt

openai_whisper_transcribe_yt_videos

AI Исходный код

1.0.0

Скачать

Расшифровщик видео YouTube

Этот проект представляет собой приложение на основе Streamlit, которое позволяет пользователям загружать аудио из видеороликов YouTube, транскрибировать их с использованием модели OpenAI Whisper и отображать транскрипции с нумерацией страниц.

Функции

Загрузка аудио из видео YouTube
Транскрибируйте аудио с помощью модели OpenAI Whisper.
Отображение транскрипции с нумерацией страниц
Очистите имена файлов для обеспечения совместимости.
Поддержка ускорения CUDA (если доступно)

Демо

Посмотрите демо-версию приложения: OpenAI Whisper Transcribe YouTube Videos

Требования

Питон 3.9+
PyTorch
yt-dlp
шепот
тиктокен
освещенный потоком света
FFmpeg (для преобразования аудио)

Установка

Клонируйте этот репозиторий:

 git clone https://github.com/RiteshGenAI/openai_whisper_transcribe_yt_videos.git
cd openai_whisper_transcribe_yt_videos

Установите необходимые пакеты:
```
 pip install -r requirements.txt
```
Установите FFmpeg, если его еще нет в вашей системе. Способы установки различаются в зависимости от операционной системы.

Использование

Запустите приложение Streamlit:
```
 streamlit run .srcapp.py
```
Введите URL-адрес видео YouTube в соответствующем поле ввода.
Приложение загрузит аудио, расшифрует его и отобразит транскрипцию с нумерацией страниц.

Как это работает

Загрузить аудио : функция download_audio использует yt-dlp для загрузки аудио с предоставленного URL-адреса YouTube. Он сохраняет звук в формате WAV.
Транскрипция аудио : функция transcribe_audio использует модель OpenAI Whisper для расшифровки загруженного аудиофайла.
Отобразить транскрипт : функция display_transcript_with_pagination разбивает транскрипт на страницы и отображает их с помощью компонентов пользовательского интерфейса Streamlit.
Process Audio : process_audio управляет всем процессом, от загрузки до расшифровки и отображения результата.

Кастомизация

Вы можете изменить размер модели Whisper, изменив параметр model_name в функции transcribe_audio .
Настройте параметр tokens_per_page в display_transcript_with_pagination чтобы изменить количество текста, отображаемого на странице.

Примечание

Это приложение требует значительного количества вычислительных ресурсов, особенно для более длинных видеороликов. Использование графического процессора с поддержкой CUDA может значительно ускорить процесс транскрипции.