aTrain est un outil permettant de transcrire automatiquement des enregistrements vocaux à l'aide de modèles d'apprentissage automatique de pointe sans télécharger de données. Il a été développé par des chercheurs du Business Analytics and Data Science-Center de l'Université de Graz et testé par des chercheurs du Know-Center Graz.
Grande nouvelle ! L'article présentant aTrain a été publié dans le Journal of Behavioral and Experimental Finance. Veuillez maintenant citer l'article publié si vous avez utilisé aTrain pour votre recherche : Prenez l'aTrain. Présentation d'une interface pour la transcription accessible des entretiens.
Les utilisateurs de Windows (10 et 11) peuvent installer aTrain via la boutique d'applications Microsoft (lien) ou en téléchargeant le programme d'installation depuis le site Web de BANDAS-Center (lien).
Pour Linux, suivez les instructions de notre Wiki.
Une vidéo d’installation et de démonstration peut être trouvée ici.
aTrain offre les avantages suivants :
Rapide et précis
aTrain fournit un accès convivial à la mise en œuvre plus rapide du modèle Whisper d'OpenAI, garantissant la meilleure qualité de transcription de sa catégorie (voir Wollin-Geiring et al. 2023) associée à des vitesses plus élevées sur votre ordinateur local. La transcription lors de la sélection du modèle de la plus haute qualité ne prend qu'environ trois fois la durée audio sur les processeurs mobiles actuels que l'on trouve généralement dans les ordinateurs portables professionnels de classe moyenne (par exemple, Core i5 12e génération, Ryzen Series 6000).
Détection des haut-parleurs
aTrain dispose d'un mode de détection de locuteur basé sur pyannote.audio et peut analyser chaque segment de texte pour déterminer à quel locuteur il appartient.
Préservation de la confidentialité et conformité au RGPD
aTrain traite les enregistrements vocaux fournis complètement hors ligne sur votre propre appareil et n'envoie pas d'enregistrements ou de transcriptions sur Internet. Cela aide les chercheurs à respecter les exigences de confidentialité des données découlant des directives éthiques ou à se conformer aux exigences légales telles que le RGPD.
Prise en charge multilingue ?
aTrain peut traiter les enregistrements vocaux dans l'une des 57 langues suivantes : afrikaans, arabe, arménien, azerbaïdjanais, biélorusse, bosniaque, bulgare, catalan, chinois, croate, tchèque, danois, néerlandais, anglais, estonien, finnois, français, galicien, allemand. , grec, hébreu, hindi, hongrois, islandais, indonésien, italien, japonais, kannada, kazakh, coréen, letton, lituanien, macédonien, malais, marathi, maori, népalais, norvégien, persan, polonais, portugais, roumain, russe, serbe, slovaque, slovène, espagnol, swahili, suédois, tagalog, tamoul, thaï, turc, ukrainien, ourdou, vietnamien et gallois.
Sortie compatible MAXQDA, ATLAS.ti et NVivo ?
aTrain fournit des fichiers de transcription qui peuvent être importés de manière transparente dans les outils d'analyse qualitative les plus populaires, ATLAS.ti, MAXQDA et NVivo. Cela vous permet de lire directement l'audio du segment de texte correspondant en cliquant sur son horodatage. Allez au tutoriel.
Prise en charge des GPU Nvidia
aTrain peut fonctionner sur le CPU ou sur un GPU NVIDIA (installation du kit d'outils CUDA requise). Un GPU NVIDIA compatible CUDA améliore considérablement la vitesse de transcription et de détection des locuteurs, réduisant le temps de transcription à 20 % de la longueur audio sur les ordinateurs portables de jeu d'entrée de gamme actuels.
Capture d'écran 1 | Capture d'écran 2 |
---|---|
Pour tester le temps de traitement d'aTrain-core, nous transcrivons une conversation entre Christine Lagarde et Andrea Enria lors du cinquième forum de la BCE sur le contrôle bancaire 2023, publiée sur YouTube par la Banque centrale européenne sous licence Creative Commons, téléchargée sous forme de fichier vidéo MP4 320p. Le fichier a une durée d'exactement 22 minutes et a été transcrit sur différents appareils informatiques avec la détection du locuteur activée. La figure ci-dessous montre le temps de traitement de chaque transcription.
Heure de transcription pour 00:22:00 Fichier :
Appareil informatique | grand-v3 | Distiller grand-v3 |
---|---|---|
Processeur : Ryzen 6850U | 00:33:02 | 00:13:30 |
Processeur : Apple M1 | 00:33:15 | 00:21:40 |
Processeur : Intel i9-10940X | 00:10:25 | 00:04:36 |
GPU : RTX 2080 Ti | 00:01:44 | 00:01:06 |
Windows est entièrement pris en charge.
Prise en charge de Debian avec instructions Wiki d'installation manuelle
Actuellement, aucune prise en charge de MacOS.
Si vous souhaitez utiliser Windows Server, assurez-vous que WebView2 est installé :
https://developer.microsoft.com/en-us/microsoft-edge/webview2/#download
Accédez simplement au programme d'installation depuis la boutique d'applications Microsoft
https://apps.microsoft.com/store/detail/atrain/9N15Q44SZNS2
Vous devez avoir python >=3.10
Si vous avez besoin d'aide pour l'installer, consultez ces ressources :
https://www.python.org/downloads/release/python-31011/
Configurer un environnement virtuel
python -m venv venv
Activer l'environnement virtuel
.venvScriptsactivate
Installer un train
pip install aTrain@git+https://github.com/JuergenFleiss/aTrain.git --extra-index-url https://download.pytorch.org/whl/cu118
Téléchargez ffmpeg et tous les modèles requis à partir de Whisper et pyannote.audio avec un script de console Remarque : La version utilisateur dans la boutique Microsoft contient déjà ces actifs.
aTrain init
Exécutez l'application avec le script de la console
aTrain start
Nous utilisons pyinstaller pour geler le code d'aTrain et créer un exécutable autonome.
Si vous souhaitez créer votre propre package de code, procédez comme suit :
Cloner et installer aTrain en mode modifiable
git clone https://github.com/JuergenFleiss/aTrain.git
cd aTrain
pip install -e . --extra-index-url https://download.pytorch.org/whl/cu118
Téléchargez ffmpeg et tous les modèles requis depuis Whisper et pyannote.audio avec un script de console
aTrain init
Installer pyinstaller
pip install pyinstaller
Construisez l'exécutable en utilisant les instructions fournies dans le fichier "build.spec"
pyinstaller build.spec
Félicitations! Vous venez de créer un exécutable autonome pour aTrain.
Pour ouvrir cette version d'aTrain, allez simplement dans le dossier de sortie (./dist/aTrain) et ouvrez l'exécutable (par exemple aTrain.exe pour Windows).
Si vous souhaitez aller plus loin et créer un programme d'installation MSIX pour aTrain, vous pouvez utiliser Advanced Installer Express.
Pour plus d'informations sur l'utilisation d'Advanced Installer Express, reportez-vous à leur documentation.
Les GIF et les icônes d'aTrain proviennent de Tenor et Flaticon.