Transkribieren, fassen Sie zusammen und erstellen Sie intelligente Clips aus Video- und Audioinhalten.
Transkription : Transkribieren Sie Audio mit WhisperX
Intelligente Zusammenfassung : Erstellen Sie prägnante Zusammenfassungen von Videoinhalten, die auf verschiedene Zwecke zugeschnitten sind:
Sitzungsprotokolle
Podcast-Zusammenfassungen
Skript
Interview-Highlights
Allgemeine Inhaltszusammenfassungen
Intelligente Clip-Erstellung : Erstellen Sie automatisch Clips zu Schlüsselmomenten und Themen, die im Video besprochen werden.
Multiformat-Unterstützung : Verarbeiten Sie verschiedene Video- und Audiodateiformate.
Cloud-Integration : Nutzt AWS S3 für eine effiziente Dateiverwaltung und -verarbeitung.
Python 3.8+
AWS CLI mit entsprechenden Berechtigungen konfiguriert
FFmpeg auf Ihrem System installiert
Node.js und npm (zum Ausführen der Frontend-GUI)
Klonen Sie das Repository:
git clone https://github.com/sidedwards/ai-video-summarizer.git cd ai-video-summarizer
Richten Sie das Backend ein:
Kopieren Sie config/config-example.yaml
nach config/config.yaml
Bearbeiten Sie config/config.yaml
mit Ihren API-Schlüsseln und Einstellungen
Erstellen und aktivieren Sie eine virtuelle Umgebung:
python -m venv .venv source .venv/bin/activate # On Windows, use `.venvScriptsactivate`
Installieren Sie die erforderlichen Abhängigkeiten:
pip install -r requirements.txt
Richten Sie Ihre Konfiguration ein:
Richten Sie das Frontend ein (optional, für GUI-Nutzung):
Navigieren Sie zum Frontend-Verzeichnis:
cd frontend
Installieren Sie die erforderlichen Abhängigkeiten:
npm install
Führen Sie das CLI-Skript aus:
python backend/cli.py
Befolgen Sie die Anweisungen, um eine Videodatei auszuwählen und die Art der Zusammenfassung auszuwählen, die Sie erstellen möchten.
Die generierten Zusammenfassungsdateien werden in einem Verzeichnis gespeichert, das nach der Eingabevideodatei benannt ist.
Starten Sie den Backend-Server:
Führen Sie den Backend-Server aus:
python backend/server.py
Starten Sie den Frontend-Entwicklungsserver:
Navigieren Sie in einem neuen Terminalfenster zum Frontend-Verzeichnis:
cd frontend
Führen Sie den Frontend-Entwicklungsserver aus:
npm run dev
Öffnen Sie Ihren Webbrowser und navigieren Sie zu http://localhost:5173
um auf die AI Video Summarizer-GUI zuzugreifen.
Laden Sie über die Weboberfläche eine Videodatei hoch, wählen Sie den gewünschten Zusammenfassungstyp aus und starten Sie die Verarbeitung.
Sobald die Verarbeitung abgeschlossen ist, können Sie die generierten Zusammenfassungsdateien als Zip-Archiv herunterladen.
Bearbeiten Sie config/config.yaml
um Folgendes festzulegen:
AWS CLI-Pfad und S3-Bucket-Name
API-Schlüssel und Modellversion replizieren
Anthropic API-Schlüssel und Modellauswahl
Andere anpassbare Parameter
Webbasierte GUI
Grundlegende CLI
Weitere LLM-Optionen
Exportmöglichkeiten für verschiedene Dokumentformate (PDF, DOCX, etc.)
Beiträge sind willkommen! Bitte senden Sie gerne einen Pull Request.
MIT-Lizenz
Dieses Projekt verwendet WhisperX, eine erweiterte Version des Whisper-Modells von OpenAI, für die Transkription. WhisperX bietet:
Beschleunigte Transkription
Fortgeschrittene Sprechertagebücher
Verbesserte Genauigkeit bei der Sprechersegmentierung
Das WhisperX-Modell wird über die Replicate-API ausgeführt, basierend auf https://github.com/sidedwards/whisperx.