? Je travaille sur une réécriture complète du projet. Les progrès à ce sujet peuvent être observés sur la branche v4. Par conséquent, cette branche ne recevra aucune nouvelle version ou mise à jour.
whishper est une suite de transcription audio et de sous-titrage open source 100 % locale avec une interface utilisateur Web complète.
Caractéristiques
Transcrivez n’importe quel média en texte : audio, vidéo, etc.
Transcrivez à partir d'URL (toute source prise en charge par yt-dlp).
Téléchargez un fichier à transcrire.
? Téléchargez des transcriptions dans de nombreux formats : TXT, JSON, VTT, SRT ou copiez le texte brut dans votre presse-papiers.
Traduisez vos transcriptions dans n'importe quelle langue prise en charge par Libretranslate.
✍️ Puissant éditeur de sous-titres pour que vous n'ayez pas besoin de quitter l'interface utilisateur !
Mise en évidence de la transcription en fonction de la position médiatique.
Avertissements CPS (caractères par seconde).
Fractionnement des segments.
Insertion de segments.
Sélection de la langue des sous-titres.
? 100% Local : la transcription, la traduction et l'édition des sous-titres se font 100% sur votre machine (peut même fonctionner hors ligne !).
Rapide : utilise FasterWhisper comme backend Whisper : obtenez des temps de transcription beaucoup plus rapides sur le CPU !
? Configuration simple et rapide : utilisez le script de démarrage rapide ou exécutez quelques étapes !
Support GPU : utilisez votre GPU NVIDIA pour obtenir des temps de transcription encore plus rapides !
? Support CPU : pas de GPU ? Aucun problème! whishper peut également fonctionner sur le processeur.
Feuille de route
Dossier local comme entrée multimédia (#15).
Recherche en texte intégral dans toutes les transcriptions.
Authentification de l'utilisateur.
Enregistrement audio depuis le navigateur.
Ajoutez un chuchotement incroyablement rapide comme backend facultatif (#53).
Prise en charge de l'accélération GPU.
Prise en charge des GPU non NVIDIA. Est-ce possible avec Fast-Whisper ?
Pouvons-nous faire quelque chose avec seamless_communication ?
Structure du projet
whishper est une collection de pièces qui fonctionnent ensemble. Les trois pièces principales sont :
Transcription-API : Il s'agit de l'API qui permet d'exécuter Faster-Whisper. Vous pouvez le trouver dans le dossier transcription-api .
whishper -Backend : il s'agit du backend qui coordonne les appels frontend, la base de données et les tâches. Vous pouvez le trouver dans le dossier backend .
whishper -Frontend : Il s'agit du frontend (interface utilisateur Web) de l'application. Vous pouvez le trouver dans le dossier frontend .
Traduction (tiers) : il s'agit du conteneur libretranslate utilisé pour traduire les sous-titres.
MongoDB (tiers) : Il s'agit de la base de données qui stocke toutes les informations sur vos transcriptions.
Nginx (tiers) : C'est le proxy qui permet de tout exécuter à partir d'un seul domaine.
Contribuer
Les contributions sont les bienvenues ! N'hésitez pas à ouvrir un PR avec vos modifications ou à examiner les problèmes pour voir si vous pouvez aider pour quelque chose.
Configuration du développement
Consultez la documentation de développement ici.
Captures d'écran
Ces captures d'écran sont disponibles sur le site officiel, cliquez sur l'un des liens suivants pour voir :