openai_whisper_transcribe_yt_videos Download - openai_whisper_transcribe_yt

openai_whisper_transcribe_yt_videos

AI-Quellcode

1.0.0

Herunterladen

YouTube-Videotranskribierer

Bei diesem Projekt handelt es sich um eine Streamlit-basierte Anwendung, die es Benutzern ermöglicht, Audiodaten von YouTube-Videos herunterzuladen, sie mithilfe des Whisper-Modells von OpenAI zu transkribieren und die Transkriptionen mit Paginierung anzuzeigen.

Merkmale

Laden Sie Audio von YouTube-Videos herunter
Transkribieren Sie Audio mit dem Whisper-Modell von OpenAI
Transkriptionen mit Paginierung anzeigen
Bereinigen Sie Dateinamen aus Kompatibilitätsgründen
Unterstützung für CUDA-Beschleunigung (falls verfügbar)

Demo

Schauen Sie sich die Demo der Anwendung an: OpenAI Whisper Transcribe YouTube Videos

Anforderungen

Python 3.9+
PyTorch
yt-dlp
flüstern
Tiktoken
streamlit
FFmpeg (zur Audiokonvertierung)

Installation

Klonen Sie dieses Repository:

 git clone https://github.com/RiteshGenAI/openai_whisper_transcribe_yt_videos.git
cd openai_whisper_transcribe_yt_videos

Installieren Sie die erforderlichen Pakete:
```
 pip install -r requirements.txt
```
Installieren Sie FFmpeg, falls es noch nicht auf Ihrem System vorhanden ist. Die Installationsmethoden variieren je nach Betriebssystem.

Verwendung

Führen Sie die Streamlit-App aus:
```
 streamlit run .srcapp.py
```
Geben Sie eine YouTube-Video-URL in das dafür vorgesehene Eingabefeld ein.
Die App lädt das Audio herunter, transkribiert es und zeigt die Transkription mit Paginierung an.

Wie es funktioniert

Audio herunterladen : Die Funktion download_audio verwendet yt-dlp, um das Audio von der bereitgestellten YouTube-URL herunterzuladen. Es speichert das Audio als WAV-Datei.
Audio transkribieren : Die Funktion transcribe_audio verwendet das Whisper-Modell von OpenAI, um die heruntergeladene Audiodatei zu transkribieren.
Transkript anzeigen : Die Funktion display_transcript_with_pagination teilt das Transkript in Seiten auf und zeigt sie mithilfe der UI-Komponenten von Streamlit an.
Audio verarbeiten : Die Funktion process_audio orchestriert den gesamten Prozess, vom Herunterladen bis zum Transkribieren und Anzeigen des Ergebnisses.

Anpassung

Sie können die Größe des Whisper-Modells ändern, indem Sie den Parameter model_name in der Funktion transcribe_audio ändern.
Passen Sie den Parameter tokens_per_page in display_transcript_with_pagination an, um die pro Seite angezeigte Textmenge zu ändern.

Notiz

Diese Anwendung erfordert eine erhebliche Menge an Rechenressourcen, insbesondere bei längeren Videos. Die Verwendung einer CUDA-fähigen GPU kann den Transkriptionsprozess erheblich beschleunigen.