openai_whisper_transcribe_yt_videos Baixar - openai_whisper_transcribe_yt

openai_whisper_transcribe_yt_videos

Código-Fonte de IA

1.0.0

Baixar

Transcritor de vídeo do YouTube

Este projeto é um aplicativo baseado em Streamlit que permite aos usuários baixar áudio de vídeos do YouTube, transcrevê-los usando o modelo Whisper da OpenAI e exibir as transcrições com paginação.

Características

Baixe áudio de vídeos do YouTube
Transcrever áudio usando o modelo Whisper da OpenAI
Exibir transcrições com paginação
Limpe nomes de arquivos para compatibilidade
Suporte para aceleração CUDA (se disponível)

Demonstração

Confira a demonstração do aplicativo: OpenAI Whisper Transcribe YouTube Videos

Requisitos

Python 3.9+
PyTorch
yt-dlp
sussurrar
tiktok
iluminado
FFmpeg (para conversão de áudio)

Instalação

Clone este repositório:

 git clone https://github.com/RiteshGenAI/openai_whisper_transcribe_yt_videos.git
cd openai_whisper_transcribe_yt_videos

Instale os pacotes necessários:
```
 pip install -r requirements.txt
```
Instale o FFmpeg se ainda não estiver no seu sistema. Os métodos de instalação variam de acordo com o sistema operacional.

Uso

Execute o aplicativo Streamlit:
```
 streamlit run .srcapp.py
```
Insira um URL de vídeo do YouTube no campo de entrada fornecido.
O aplicativo irá baixar o áudio, transcrevê-lo e exibir a transcrição com paginação.

Como funciona

Baixar áudio : a função download_audio usa yt-dlp para baixar o áudio do URL fornecido do YouTube. Ele salva o áudio como um arquivo WAV.
Transcrever áudio : a função transcribe_audio usa o modelo Whisper da OpenAI para transcrever o arquivo de áudio baixado.
Exibir transcrição : a função display_transcript_with_pagination divide a transcrição em páginas e as exibe usando os componentes de IU do Streamlit.
Processar áudio : A função process_audio orquestra todo o processo, desde o download até a transcrição e exibição do resultado.

Personalização

Você pode alterar o tamanho do modelo Whisper modificando o parâmetro model_name na função transcribe_audio .
Ajuste o parâmetro tokens_per_page em display_transcript_with_pagination para alterar a quantidade de texto exibido por página.

Observação

Esta aplicação requer uma quantidade significativa de recursos computacionais, principalmente para vídeos mais longos. Usar uma GPU habilitada para CUDA pode acelerar significativamente o processo de transcrição.