aTrain é uma ferramenta para transcrever automaticamente gravações de fala utilizando modelos de aprendizado de máquina de última geração, sem carregar nenhum dado. Foi desenvolvido por pesquisadores do Business Analytics and Data Science-Center da Universidade de Graz e testado por pesquisadores do Know-Center Graz.
Grandes novidades! O artigo apresentando o aTrain foi publicado no Journal of Behavioral and Experimental Finance. Por favor, cite agora o artigo publicado se você usou o aTrain para sua pesquisa: Take the aTrain. Apresentando uma interface para transcrição acessível de entrevistas.
Os usuários do Windows (10 e 11) podem instalar o aTrain através da loja de aplicativos da Microsoft (Link) ou baixando o instalador do site BANDAS-Center (Link).
Para Linux, siga as instruções em nosso Wiki.
Um vídeo de instalação e demonstração pode ser encontrado aqui.
aTrain oferece os seguintes benefícios:
Rápido e preciso
O aTrain fornece um acesso amigável à implementação de sussurro mais rápido do modelo Whisper da OpenAI, garantindo a melhor qualidade de transcrição da categoria (consulte Wollin-Geiring et al. 2023) combinada com velocidades mais altas em seu computador local. A transcrição ao selecionar o modelo da mais alta qualidade leva apenas cerca de três vezes a duração do áudio nas atuais CPUs móveis normalmente encontradas em notebooks empresariais de classe média (por exemplo, Core i5 de 12ª geração, Ryzen Série 6000).
Detecção de alto-falante
aTrain possui um modo de detecção de alto-falante baseado em pyannote.audio e pode analisar cada segmento de texto para determinar a qual alto-falante ele pertence.
Preservação da privacidade e conformidade com o GDPR
O aTrain processa as gravações de fala fornecidas totalmente offline em seu próprio dispositivo e não envia gravações ou transcrições para a internet. Isto ajuda os investigadores a manter os requisitos de privacidade de dados decorrentes de diretrizes éticas ou a cumprir requisitos legais como o GDRP.
Suporte multilíngue?
O aTrain pode processar gravações de fala em qualquer um dos 57 idiomas a seguir: africâner, árabe, armênio, azerbaijano, bielorrusso, bósnio, búlgaro, catalão, chinês, croata, tcheco, dinamarquês, holandês, inglês, estoniano, finlandês, francês, galego, alemão , Grego, Hebraico, Hindi, Húngaro, Islandês, Indonésio, Italiano, Japonês, Kannada, Cazaque, Coreano, Letão, Lituano, Macedônio, Malaio, Marathi, Maori, Nepalês, Norueguês, Persa, Polonês, Português, Romeno, Russo, Sérvio, Eslovaco, Esloveno, Espanhol, Suaíli, Sueco, Tagalo, Tâmil, Tailandês, Turco, Ucraniano, Urdu, Vietnamita e Galês.
Saída compatível com MAXQDA, ATLAS.ti e NVivo?
O aTrain fornece arquivos de transcrição que podem ser facilmente importados para as ferramentas mais populares para análise qualitativa, ATLAS.ti, MAXQDA e NVivo. Isso permite que você reproduza áudio diretamente para o segmento de texto correspondente clicando em seu carimbo de data/hora. Vá para o tutorial.
Suporte para GPU Nvidia
O aTrain pode ser executado na CPU ou em uma GPU NVIDIA (é necessária a instalação do kit de ferramentas CUDA). Uma GPU NVIDIA habilitada para CUDA melhora significativamente a velocidade das transcrições e detecção de alto-falantes, reduzindo o tempo de transcrição para 20% da duração do áudio nos atuais notebooks para jogos de nível básico.
Captura de tela 1 | Captura de tela 2 |
---|---|
Para testar o tempo de processamento do aTrain-core, transcrevemos uma conversa entre Christine Lagarde e Andrea Enria no Quinto Fórum do BCE sobre Supervisão Bancária 2023, publicada no YouTube pelo Banco Central Europeu sob uma licença Creative Commons, baixada como arquivo de vídeo MP4 320p. O arquivo tem duração de exatos 22 minutos e foi transcrito em diversos dispositivos computacionais com detecção de locutor habilitada. A figura abaixo mostra o tempo de processamento de cada transcrição.
Hora de transcrição para 00:22:00 Arquivo:
Dispositivo de computação | grande-v3 | Destilar grande-v3 |
---|---|---|
Processador: Ryzen 6850U | 00:33:02 | 00:13:30 |
Processador: Apple M1 | 00:33:15 | 00:21:40 |
Processador: Intel i9-10940X | 00:10:25 | 00:04:36 |
GPU: RTX 2080 Ti | 00:01:44 | 00:01:06 |
O Windows é totalmente compatível.
Suporte Debian com instruções Wiki de instalação manual
Atualmente não há suporte para MacOS.
Se você quiser usar o Windows Server, certifique-se de que o WebView2 esteja instalado:
https://developer.microsoft.com/en-us/microsoft-edge/webview2/#download
Basta acessar o instalador na loja de aplicativos da Microsoft
https://apps.microsoft.com/store/detail/atrain/9N15Q44SZNS2
Você precisa ter python >=3.10
Se precisar de ajuda para instalar isso, consulte estes recursos:
https://www.python.org/downloads/release/python-31011/
Configure um ambiente virtual
python -m venv venv
Ative o ambiente virtual
.venvScriptsactivate
Instale um trem
pip install aTrain@git+https://github.com/JuergenFleiss/aTrain.git --extra-index-url https://download.pytorch.org/whl/cu118
Baixe ffmpeg e todos os modelos necessários de Whisper e pyannote.audio com um script de console. Observação: a versão do usuário na loja da Microsoft já possui esses ativos incluídos.
aTrain init
Execute o aplicativo com o script do console
aTrain start
Usamos o pyinstaller para congelar o código do aTrain e criar um executável independente.
Se você deseja criar seu próprio pacote de código, siga estas etapas:
Clone e instale o aTrain em modo editável
git clone https://github.com/JuergenFleiss/aTrain.git
cd aTrain
pip install -e . --extra-index-url https://download.pytorch.org/whl/cu118
Baixe ffmpeg e todos os modelos necessários de Whisper e pyannote.audio com um script de console
aTrain init
Instale o pyinstaller
pip install pyinstaller
Construa o executável usando as instruções fornecidas no arquivo "build.spec"
pyinstaller build.spec
Parabéns! Você acabou de criar um executável independente para o aTrain.
Para abrir esta versão do aTrain basta ir até a pasta de saída (./dist/aTrain) e abrir o executável (por exemplo, aTrain.exe para Windows).
Se você quiser dar um passo adiante e criar um instalador MSIX para aTrain, você pode usar o Advanced Installer Express.
Para obter informações sobre como usar o Advanced Installer Express, consulte a documentação.
Os GIFs e ícones no aTrain são de tenor e flaticon.