aTrain ist ein Tool zum automatischen Transkribieren von Sprachaufzeichnungen mithilfe modernster Modelle des maschinellen Lernens, ohne dass Daten hochgeladen werden müssen. Es wurde von Forschern des Business Analytics and Data Science-Centers der Universität Graz entwickelt und von Forschern des Know-Center Graz getestet.
Große Neuigkeiten! Der Artikel zur Einführung von aTrain wurde im Journal of Behavioral and Experimental Finance veröffentlicht. Bitte zitieren Sie jetzt den veröffentlichten Artikel, wenn Sie aTrain für Ihre Forschung verwendet haben: Nehmen Sie den aTrain. Einführung einer Schnittstelle zur barrierefreien Transkription von Interviews.
Benutzer von Windows (10 und 11) können aTrain über den Microsoft App Store (Link) oder durch Herunterladen des Installationsprogramms von der BANDAS-Center-Website (Link) installieren.
Befolgen Sie für Linux die Anweisungen in unserem Wiki.
Ein Installations- und Demovideo finden Sie hier.
aTrain bietet folgende Vorteile:
Schnell und genau
aTrain bietet einen benutzerfreundlichen Zugriff auf die schnellere Whisper-Implementierung des Whisper-Modells von OpenAI und gewährleistet so eine erstklassige Transkriptionsqualität (siehe Wollin-Geiring et al. 2023) gepaart mit höheren Geschwindigkeiten auf Ihrem lokalen Computer. Die Transkription dauert bei Auswahl des Modells mit der höchsten Qualität nur etwa das Dreifache der Audiolänge auf aktuellen mobilen CPUs, die typischerweise in Business-Notebooks der Mittelklasse zu finden sind (z. B. Core i5 12. Generation, Ryzen Series 6000).
Sprechererkennung
aTrain verfügt über einen auf pyannote.audio basierenden Sprechererkennungsmodus und kann jedes Textsegment analysieren, um festzustellen, zu welchem Sprecher es gehört.
Datenschutz und DSGVO-Konformität
aTrain verarbeitet die bereitgestellten Sprachaufzeichnungen vollständig offline auf Ihrem eigenen Gerät und sendet keine Aufzeichnungen oder Transkriptionen ins Internet. Dies hilft Forschern, Datenschutzanforderungen aus ethischen Richtlinien einzuhalten oder rechtliche Anforderungen wie die DSGVO einzuhalten.
Mehrsprachige Unterstützung?
aTrain kann Sprachaufzeichnungen in jeder der folgenden 57 Sprachen verarbeiten: Afrikaans, Arabisch, Armenisch, Aserbaidschanisch, Weißrussisch, Bosnisch, Bulgarisch, Katalanisch, Chinesisch, Kroatisch, Tschechisch, Dänisch, Niederländisch, Englisch, Estnisch, Finnisch, Französisch, Galizisch, Deutsch , Griechisch, Hebräisch, Hindi, Ungarisch, Isländisch, Indonesisch, Italienisch, Japanisch, Kannada, Kasachisch, Koreanisch, Lettisch, Litauisch, Mazedonisch, Malaiisch, Marathi, Maori, Nepali, Norwegisch, Persisch, Polnisch, Portugiesisch, Rumänisch, Russisch, Serbisch, Slowakisch, Slowenisch, Spanisch, Suaheli, Schwedisch, Tagalog, Tamil, Thailändisch, Türkisch, Ukrainisch, Urdu, Vietnamesisch und Walisisch.
MAXQDA-, ATLAS.ti- und NVivo-kompatible Ausgabe?
aTrain bietet Transkriptionsdateien, die nahtlos in die gängigsten Tools für qualitative Analysen, ATLAS.ti, MAXQDA und NVivo, importiert werden können. Dadurch können Sie Audio für das entsprechende Textsegment direkt abspielen, indem Sie auf dessen Zeitstempel klicken. Gehen Sie zum Tutorial.
Nvidia-GPU-Unterstützung
aTrain kann entweder auf der CPU oder einer NVIDIA-GPU ausgeführt werden (Installation des CUDA-Toolkits erforderlich). Eine CUDA-fähige NVIDIA-GPU verbessert die Geschwindigkeit der Transkription und der Sprechererkennung erheblich und reduziert die Transkriptionszeit auf 20 % der Audiolänge auf aktuellen Gaming-Notebooks der Einstiegsklasse.
Screenshot 1 | Screenshot 2 |
---|---|
Um die Verarbeitungszeit von aTrain-core zu testen, transkribieren wir ein Gespräch zwischen Christine Lagarde und Andrea Enria beim Fünften EZB-Forum zur Bankenaufsicht 2023, das von der Europäischen Zentralbank unter einer Creative-Commons-Lizenz auf YouTube veröffentlicht und als 320p-MP4-Videodatei heruntergeladen wurde. Die Datei hat eine Länge von genau 22 Minuten und wurde auf verschiedenen Computergeräten mit aktivierter Sprechererkennung transkribiert. Die folgende Abbildung zeigt die Bearbeitungszeit jeder Transkription.
Transkriptionszeit für 00:22:00 Datei:
Computergerät | groß-v3 | Destillieren Sie groß-v3 |
---|---|---|
CPU: Ryzen 6850U | 00:33:02 | 00:13:30 |
CPU: Apple M1 | 00:33:15 | 00:21:40 |
CPU: Intel i9-10940X | 00:10:25 | 00:04:36 |
GPU: RTX 2080 Ti | 00:01:44 | 00:01:06 |
Windows wird vollständig unterstützt.
Debian-Unterstützung mit manuellen Installations-Wiki-Anweisungen
Derzeit keine MacOS-Unterstützung.
Wenn Sie Windows Server verwenden möchten, stellen Sie sicher, dass WebView2 installiert ist:
https://developer.microsoft.com/en-us/microsoft-edge/webview2/#download
Greifen Sie einfach über den Microsoft App Store auf das Installationsprogramm zu
https://apps.microsoft.com/store/detail/atrain/9N15Q44SZNS2
Sie benötigen Python >=3.10
Wenn Sie Hilfe bei der Installation benötigen, schauen Sie sich diese Ressourcen an:
https://www.python.org/downloads/release/python-31011/
Richten Sie eine virtuelle Umgebung ein
python -m venv venv
Aktivieren Sie die virtuelle Umgebung
.venvScriptsactivate
Installieren Sie aTrain
pip install aTrain@git+https://github.com/JuergenFleiss/aTrain.git --extra-index-url https://download.pytorch.org/whl/cu118
Laden Sie ffmpeg und alle erforderlichen Modelle von Whisper und pyannote.audio mit einem Konsolenskript herunter. Hinweis: In der Benutzerversion im Microsoft Store sind diese Assets bereits enthalten.
aTrain init
Führen Sie die App mit dem Konsolenskript aus
aTrain start
Wir verwenden Pyinstaller, um den Code von aTrain einzufrieren und eine eigenständige ausführbare Datei zu erstellen.
Wenn Sie Ihr eigenes Codepaket erstellen möchten, gehen Sie folgendermaßen vor:
Klonen und installieren Sie aTrain im bearbeitbaren Modus
git clone https://github.com/JuergenFleiss/aTrain.git
cd aTrain
pip install -e . --extra-index-url https://download.pytorch.org/whl/cu118
Laden Sie ffmpeg und alle erforderlichen Modelle von Whisper und pyannote.audio mit einem Konsolenskript herunter
aTrain init
Installieren Sie den Pyinstaller
pip install pyinstaller
Erstellen Sie die ausführbare Datei mithilfe der bereitgestellten Anweisung in der Datei „build.spec“.
pyinstaller build.spec
Glückwunsch! Sie haben gerade eine eigenständige ausführbare Datei für aTrain erstellt.
Um diese Version von aTrain zu öffnen, gehen Sie einfach zum Ausgabeordner (./dist/aTrain) und öffnen Sie die ausführbare Datei (z. B. aTrain.exe für Windows).
Wenn Sie noch einen Schritt weiter gehen und einen MSIX-Installer für aTrain erstellen möchten, können Sie Advanced Installer Express verwenden.
Informationen zur Verwendung von Advanced Installer Express finden Sie in der entsprechenden Dokumentation.
Die GIFs und Icons in aTrain stammen von Tenor und Flaticon.