openai_whisper_transcribe_yt_videos Télécharger - openai_whisper_transcribe_yt

openai_whisper_transcribe_yt_videos

Code Source AI

1.0.0

Télécharger

Transcripteur vidéo YouTube

Ce projet est une application basée sur Streamlit qui permet aux utilisateurs de télécharger l'audio de vidéos YouTube, de les transcrire à l'aide du modèle Whisper d'OpenAI et d'afficher les transcriptions avec pagination.

Caractéristiques

Télécharger l'audio des vidéos YouTube
Transcrire l'audio à l'aide du modèle Whisper d'OpenAI
Afficher les transcriptions avec pagination
Désinfecter les noms de fichiers pour la compatibilité
Prise en charge de l'accélération CUDA (si disponible)

Démo

Découvrez la démo de l'application : OpenAI Whisper Transcribe YouTube Videos

Exigences

Python3.9+
PyTorch
yt-dlp
chuchoter
jeton tiktok
rationalisé
FFmpeg (pour la conversion audio)

Installation

Clonez ce dépôt :

 git clone https://github.com/RiteshGenAI/openai_whisper_transcribe_yt_videos.git
cd openai_whisper_transcribe_yt_videos

Installez les packages requis :
```
 pip install -r requirements.txt
```
Installez FFmpeg s'il n'est pas déjà sur votre système. Les méthodes d'installation varient selon le système d'exploitation.

Usage

Exécutez l'application Streamlit :
```
 streamlit run .srcapp.py
```
Saisissez l'URL d'une vidéo YouTube dans le champ de saisie fourni.
L'application téléchargera l'audio, le transcrira et affichera la transcription avec la pagination.

Comment ça marche

Télécharger l'audio : la fonction download_audio utilise yt-dlp pour télécharger l'audio à partir de l'URL YouTube fournie. Il enregistre l'audio sous forme de fichier WAV.
Transcribe Audio : La fonction transcribe_audio utilise le modèle Whisper d'OpenAI pour transcrire le fichier audio téléchargé.
Afficher la transcription : la fonction display_transcript_with_pagination divise la transcription en pages et les affiche à l'aide des composants de l'interface utilisateur de Streamlit.
Process Audio : La fonction process_audio orchestre l'ensemble du processus, du téléchargement à la transcription et à l'affichage du résultat.

Personnalisation

Vous pouvez modifier la taille du modèle Whisper en modifiant le paramètre model_name dans la fonction transcribe_audio .
Ajustez le paramètre tokens_per_page dans display_transcript_with_pagination pour modifier la quantité de texte affiché par page.

Note

Cette application nécessite une quantité importante de ressources informatiques, notamment pour les vidéos plus longues. L'utilisation d'un GPU compatible CUDA peut accélérer considérablement le processus de transcription.