? Ich arbeite an einer kompletten Neufassung des Projekts. Der diesbezügliche Fortschritt ist im v4-Zweig zu sehen. Folglich wird dieser Zweig keine neuen Releases oder Updates erhalten.
whishper ist eine Open-Source-Suite für die 100 % lokale Audiotranskription und Untertitelung mit einer Web-Benutzeroberfläche mit vollem Funktionsumfang.
Merkmale
Transkribieren Sie alle Medien in Text: Audio, Video usw.
Transkribieren Sie von URLs (jede von yt-dlp unterstützte Quelle).
Laden Sie eine Datei zum Transkribieren hoch.
? Laden Sie Transkriptionen in vielen Formaten herunter : TXT, JSON, VTT, SRT oder kopieren Sie den Rohtext in Ihre Zwischenablage.
Übersetzen Sie Ihre Transkriptionen in jede von Libretranslate unterstützte Sprache.
✍️ Leistungsstarker Untertitel-Editor, sodass Sie die Benutzeroberfläche nicht verlassen müssen!
Hervorhebung der Transkription basierend auf der Medienposition.
CPS-Warnungen (Zeichen pro Sekunde).
Segmentaufteilung.
Segmenteinfügung.
Auswahl der Untertitelsprache.
? 100 % lokal : Transkription, Übersetzung und Untertitelausgabe erfolgen zu 100 % auf Ihrem Computer (kann sogar offline funktionieren!).
Schnell : Verwendet FasterWhisper als Whisper-Backend: Erhalten Sie viel schnellere Transkriptionszeiten auf der CPU!
? Schnelle und einfache Einrichtung : Verwenden Sie das Schnellstartskript oder führen Sie ein paar Schritte durch!
GPU-Unterstützung : Nutzen Sie Ihre NVIDIA-GPU, um noch schnellere Transkriptionszeiten zu erzielen!
? CPU-Unterstützung : keine GPU? Kein Problem! whishper kann auch auf der CPU laufen.
Roadmap
Lokaler Ordner als Medieneingabe (#15).
Volltextsuche aller Transkriptionen.
Benutzerauthentifizierung.
Audioaufnahme aus dem Browser.
Fügen Sie wahnsinnig schnelles Flüstern als optionales Backend hinzu (#53).
Unterstützung für GPU-Beschleunigung.
Nicht-NVIDIA-GPU-Unterstützung. Ist das mit schnellerem Flüstern möglich?
Können wir mit Seamless_communication etwas anfangen?
Projektstruktur
whishper ist eine Sammlung von Teilen, die zusammenpassen. Die drei Hauptstücke sind:
Transkriptions-API: Dies ist die API, die die Ausführung von Faster-Whisper ermöglicht. Sie finden es im Ordner transcription-api .
whishper -Backend: Dies ist das Backend, das Frontend-Aufrufe, Datenbank und Aufgaben koordiniert. Sie finden es im backend Ordner.
whishper -Frontend: Dies ist das Frontend (Web-UI) der Anwendung. Sie finden es im frontend Ordner.
Übersetzung (Drittanbieter): Dies ist der Libretranslate-Container, der zum Übersetzen von Untertiteln verwendet wird.
MongoDB (Drittanbieter): Dies ist die Datenbank, in der alle Informationen zu Ihren Transkriptionen gespeichert sind.
Nginx (Drittanbieter): Dies ist der Proxy, der es ermöglicht, alles von einer einzigen Domäne aus auszuführen.
Mitwirken
Beiträge sind willkommen! Fühlen Sie sich frei, eine PR mit Ihren Änderungen zu eröffnen oder einen Blick auf die Probleme zu werfen, um zu sehen, ob es etwas gibt, bei dem Sie helfen können.
Entwicklungsaufbau
Schauen Sie sich hier die Entwicklungsdokumentation an.
Screenshots
Diese Screenshots sind auf der offiziellen Website verfügbar. Klicken Sie auf einen der folgenden Links, um sie anzuzeigen: