Bei diesem Projekt handelt es sich um eine Streamlit-basierte Anwendung, die es Benutzern ermöglicht, Audiodaten von YouTube-Videos herunterzuladen, sie mithilfe des Whisper-Modells von OpenAI zu transkribieren und die Transkriptionen mit Paginierung anzuzeigen.
Schauen Sie sich die Demo der Anwendung an: OpenAI Whisper Transcribe YouTube Videos
Klonen Sie dieses Repository:
git clone https://github.com/RiteshGenAI/openai_whisper_transcribe_yt_videos.git
cd openai_whisper_transcribe_yt_videos
Installieren Sie die erforderlichen Pakete:
pip install -r requirements.txt
Installieren Sie FFmpeg, falls es noch nicht auf Ihrem System vorhanden ist. Die Installationsmethoden variieren je nach Betriebssystem.
Führen Sie die Streamlit-App aus:
streamlit run .srcapp.py
Geben Sie eine YouTube-Video-URL in das dafür vorgesehene Eingabefeld ein.
Die App lädt das Audio herunter, transkribiert es und zeigt die Transkription mit Paginierung an.
Audio herunterladen : Die Funktion download_audio
verwendet yt-dlp, um das Audio von der bereitgestellten YouTube-URL herunterzuladen. Es speichert das Audio als WAV-Datei.
Audio transkribieren : Die Funktion transcribe_audio
verwendet das Whisper-Modell von OpenAI, um die heruntergeladene Audiodatei zu transkribieren.
Transkript anzeigen : Die Funktion display_transcript_with_pagination
teilt das Transkript in Seiten auf und zeigt sie mithilfe der UI-Komponenten von Streamlit an.
Audio verarbeiten : Die Funktion process_audio
orchestriert den gesamten Prozess, vom Herunterladen bis zum Transkribieren und Anzeigen des Ergebnisses.
model_name
in der Funktion transcribe_audio
ändern.tokens_per_page
in display_transcript_with_pagination
an, um die pro Seite angezeigte Textmenge zu ändern. Diese Anwendung erfordert eine erhebliche Menge an Rechenressourcen, insbesondere bei längeren Videos. Die Verwendung einer CUDA-fähigen GPU kann den Transkriptionsprozess erheblich beschleunigen.
MIT-Lizenz