Transcrivez, résumez et créez des clips intelligents à partir de contenu vidéo et audio.
Transcription : transcrire l'audio à l'aide de WhisperX
Récapitulatif intelligent : générez des résumés concis de contenu vidéo, adaptés à différents objectifs :
Procès-verbal de la réunion
Résumés des podcasts
Notes de cours
Faits saillants de l’entrevue
Résumés du contenu général
Création intelligente de clips : créez automatiquement des clips de moments clés et de sujets abordés dans la vidéo.
Prise en charge multiformat : traitez différents formats de fichiers vidéo et audio.
Intégration cloud : utilise AWS S3 pour une gestion et un traitement efficaces des fichiers.
Python3.8+
AWS CLI configuré avec les autorisations appropriées
FFmpeg installé sur votre système
Node.js et npm (pour exécuter l'interface graphique frontale)
Clonez le dépôt :
git clone https://github.com/sidedwards/ai-video-summarizer.git cd ai-video-summarizer
Configurez le back-end :
Copiez config/config-example.yaml
dans config/config.yaml
Modifiez config/config.yaml
avec vos clés API et vos préférences
Créez et activez un environnement virtuel :
python -m venv .venv source .venv/bin/activate # On Windows, use `.venvScriptsactivate`
Installez les dépendances requises :
pip install -r requirements.txt
Configurez votre configuration :
Configurez le frontend (facultatif, pour l'utilisation de l'interface graphique) :
Accédez au répertoire frontend :
cd frontend
Installez les dépendances requises :
npm install
Exécutez le script CLI :
python backend/cli.py
Suivez les invites pour sélectionner un fichier vidéo et choisissez le type de résumé que vous souhaitez générer.
Les fichiers récapitulatifs générés seront enregistrés dans un répertoire nommé d'après le fichier vidéo d'entrée.
Démarrez le serveur backend :
Exécutez le serveur backend :
python backend/server.py
Démarrez le serveur de développement frontend :
Dans une nouvelle fenêtre de terminal, accédez au répertoire frontend :
cd frontend
Exécutez le serveur de développement frontend :
npm run dev
Ouvrez votre navigateur Web et accédez à http://localhost:5173
pour accéder à l'interface graphique de AI Video Summarizer.
Utilisez l'interface Web pour télécharger un fichier vidéo, sélectionnez le type de résumé souhaité et démarrez le traitement.
Une fois le traitement terminé, vous pouvez télécharger les fichiers récapitulatifs générés sous forme d'archive zip.
Modifiez config/config.yaml
pour définir :
Chemin d'accès AWS CLI et nom du compartiment S3
Répliquer la clé API et la version du modèle
Clé API Anthropic et choix du modèle
Autres paramètres personnalisables
Interface graphique basée sur le Web
CLI de base
Plus d'options de LLM
Options d'exportation pour différents formats de documents (PDF, DOCX, etc.)
Les contributions sont les bienvenues ! N'hésitez pas à soumettre une Pull Request.
Licence MIT
Ce projet utilise WhisperX, une version avancée du modèle Whisper d'OpenAI, pour la transcription. WhisperX propose :
Transcription accélérée
Diarisation avancée des locuteurs
Précision améliorée dans la segmentation des locuteurs
Le modèle WhisperX est exécuté via l'API Replicate, basée sur https://github.com/sidewards/whisperx.