aTrain es una herramienta para transcribir automáticamente grabaciones de voz utilizando modelos de aprendizaje automático de última generación sin cargar ningún dato. Fue desarrollado por investigadores del Business Analytics and Data Science-Center de la Universidad de Graz y probado por investigadores del Know-Center Graz.
¡Grandes noticias! El artículo que presenta aTrain se publicó en el Journal of Behavioral and Experimental Finance. Ahora cite el artículo publicado si utilizó aTrain para su investigación: Take the aTrain. Presentación de una interfaz para la transcripción accesible de entrevistas.
Los usuarios de Windows (10 y 11) pueden instalar aTrain a través de la tienda de aplicaciones de Microsoft (Enlace) o descargando el instalador desde el sitio web de BANDAS-Center (Enlace).
Para Linux, siga las instrucciones en nuestra Wiki.
Puede encontrar un vídeo de instalación y demostración aquí.
aTrain ofrece los siguientes beneficios:
Rápido y preciso
aTrain proporciona un acceso fácil de usar a la implementación más rápida del modelo Whisper de OpenAI, lo que garantiza la mejor calidad de transcripción de su clase (consulte Wollin-Geiring et al. 2023) junto con velocidades más altas en su computadora local. La transcripción al seleccionar el modelo de mayor calidad toma solo alrededor de tres veces la duración del audio en las CPU móviles actuales que normalmente se encuentran en las portátiles empresariales de clase media (por ejemplo, Core i5 de 12.ª generación, Ryzen Series 6000).
Detección de altavoz
aTrain tiene un modo de detección de hablante basado en pyannote.audio y puede analizar cada segmento de texto para determinar a qué hablante pertenece.
Preservación de la privacidad y cumplimiento del RGPD
aTrain procesa las grabaciones de voz proporcionadas completamente fuera de línea en su propio dispositivo y no envía grabaciones ni transcripciones a Internet. Esto ayuda a los investigadores a cumplir con los requisitos de privacidad de datos derivados de directrices éticas o cumplir con requisitos legales como el RGPD.
¿Soporte multilingüe?
aTrain puede procesar grabaciones de voz en cualquiera de los siguientes 57 idiomas: afrikáans, árabe, armenio, azerbaiyano, bielorruso, bosnio, búlgaro, catalán, chino, croata, checo, danés, holandés, inglés, estonio, finlandés, francés, gallego, alemán , griego, hebreo, hindi, húngaro, islandés, indonesio, italiano, japonés, kannada, kazajo, coreano, letón, lituano, macedonio, malayo, marathi, maorí, nepalí, noruego, persa, polaco, portugués, rumano, ruso, serbio, eslovaco, esloveno, español, suajili, sueco, tagalo, tamil, tailandés, turco, ucraniano, urdu, vietnamita y galés.
¿Salida compatible con MAXQDA, ATLAS.ti y NVivo?
aTrain proporciona archivos de transcripción que se pueden importar sin problemas a las herramientas más populares para análisis cualitativo, ATLAS.ti, MAXQDA y NVivo. Esto le permite reproducir audio directamente para el segmento de texto correspondiente haciendo clic en su marca de tiempo. Ir al tutorial.
Compatibilidad con GPU Nvidia
aTrain puede ejecutarse en la CPU o en una GPU NVIDIA (se requiere instalación del kit de herramientas CUDA). Una GPU NVIDIA habilitada para CUDA mejora significativamente la velocidad de las transcripciones y la detección del hablante, reduciendo el tiempo de transcripción al 20% de la duración del audio en las portátiles para juegos de nivel básico actuales.
Captura de pantalla 1 | Captura de pantalla 2 |
---|---|
Para probar el tiempo de procesamiento de aTrain-core, transcribimos una conversación entre Christine Lagarde y Andrea Enria en el Quinto Foro del BCE sobre Supervisión Bancaria 2023 publicada en YouTube por el Banco Central Europeo bajo una licencia Creative Commons, descargada como archivo de vídeo MP4 de 320p. El archivo tiene una duración exacta de 22 minutos y fue transcrito en diferentes dispositivos informáticos con la detección del hablante habilitada. La siguiente figura muestra el tiempo de procesamiento de cada transcripción.
Hora de transcripción del archivo 00:22:00:
Dispositivo informático | grande-v3 | Destilar grande-v3 |
---|---|---|
Procesador: Ryzen 6850U | 00:33:02 | 00:13:30 |
CPU: Apple M1 | 00:33:15 | 00:21:40 |
CPU: Intel i9-10940X | 00:10:25 | 00:04:36 |
GPU: RTX 2080 Ti | 00:01:44 | 00:01:06 |
Windows es totalmente compatible.
Soporte de Debian con instrucciones Wiki de instalación manual
Actualmente no hay soporte para MacOS.
Si desea utilizar Windows Server, asegúrese de que WebView2 esté instalado:
https://developer.microsoft.com/en-us/microsoft-edge/webview2/#download
Simplemente acceda al instalador desde la tienda de aplicaciones de Microsoft
https://apps.microsoft.com/store/detail/atrain/9N15Q44SZNS2
Necesitas tener Python >=3.10
Si necesita ayuda para instalarlo, consulte estos recursos:
https://www.python.org/downloads/release/python-31011/
Configurar un entorno virtual
python -m venv venv
Activar el entorno virtual
.venvScriptsactivate
Instalar un tren
pip install aTrain@git+https://github.com/JuergenFleiss/aTrain.git --extra-index-url https://download.pytorch.org/whl/cu118
Descargue ffmpeg y todos los modelos necesarios de Whisper y pyannote.audio con un script de consola. Nota: la versión de usuario en la tienda de Microsoft ya tiene esos recursos incluidos.
aTrain init
Ejecute la aplicación con el script de la consola.
aTrain start
Usamos pyinstaller para congelar el código de aTrain y crear un ejecutable independiente.
Si desea crear su propio paquete de código, siga estos pasos:
Clona e instala aTrain en modo editable
git clone https://github.com/JuergenFleiss/aTrain.git
cd aTrain
pip install -e . --extra-index-url https://download.pytorch.org/whl/cu118
Descargue ffmpeg y todos los modelos necesarios de Whisper y pyannote.audio con un script de consola
aTrain init
Instalar pyinstaller
pip install pyinstaller
Compile el ejecutable utilizando las instrucciones proporcionadas en el archivo "build.spec".
pyinstaller build.spec
¡Felicidades! Acabas de crear un ejecutable independiente para aTrain.
Para abrir esta versión de aTrain simplemente vaya a la carpeta de salida (./dist/aTrain) y abra el ejecutable (por ejemplo, aTrain.exe para Windows).
Si desea ir un paso más allá y crear un instalador MSIX para aTrain, puede utilizar Advanced Installer Express.
Para obtener información sobre cómo utilizar Advanced Installer Express, consulte su documentación.
Los GIF y los iconos de aTrain son de tenor y flaticon.