aTrain 是一款利用最先进的机器学习模型自动转录语音录音的工具,无需上传任何数据。它由格拉茨大学商业分析和数据科学中心的研究人员开发,并由格拉茨知识中心的研究人员进行测试。
大新闻!介绍aTrain的论文已发表在《行为与实验金融学杂志》上。如果您使用 aTrain 进行研究,请现在引用已发表的论文:乘坐 aTrain。引入用于无障碍转录采访的界面。
Windows(10 和 11)用户可以通过 Microsoft 应用商店(链接)或从 BANDAS-Center 网站(链接)下载安装程序来安装 aTrain。
对于 Linux,请按照我们的 Wiki 中的说明进行操作。
您可以在此处找到安装和演示视频。
aTrain 具有以下优势:
快速准确
aTrain 提供了一种用户友好的方式来访问 OpenAI 的 Whisper 模型的更快的 Whisper 实现,确保一流的转录质量(参见 Wollin-Geiring 等人,2023),并在本地计算机上实现更高的速度。选择最高质量型号时的转录仅需中级商务笔记本电脑(例如第 12 代酷睿 i5、锐龙系列 6000)中常见的当前移动 CPU 音频长度的三倍左右。
说话人检测
aTrain 有一个基于 pyannote.audio 的说话人检测模式,可以分析每个文本片段以确定它属于哪个说话人。
隐私保护和 GDPR 合规性
aTrain 在您自己的设备上完全离线处理所提供的语音录音,并且不会将录音或转录发送到互联网。这有助于研究人员维护道德准则所产生的数据隐私要求或遵守 GDPR 等法律要求。
多语言支持 ?
aTrain 可以处理以下 57 种语言中任意一种的语音录音:南非荷兰语、阿拉伯语、亚美尼亚语、阿塞拜疆语、白俄罗斯语、波斯尼亚语、保加利亚语、加泰罗尼亚语、中文、克罗地亚语、捷克语、丹麦语、荷兰语、英语、爱沙尼亚语、芬兰语、法语、加利西亚语、德语、希腊语、希伯来语、印地语、匈牙利语、冰岛语、印度尼西亚语、意大利语、日语、卡纳达语、哈萨克语、韩语、拉脱维亚语、立陶宛语、马其顿语、马来语、马拉地语、毛利语、尼泊尔语、挪威语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、塞尔维亚语、斯洛伐克语、斯洛文尼亚语、西班牙语、斯瓦希里语、瑞典语、他加禄语、泰米尔语、泰语、土耳其语、乌克兰语、乌尔都语、越南语、和威尔士语。
MAXQDA、ATLAS.ti 和 NVivo 兼容输出 ?
aTrain 提供的转录文件可无缝导入最流行的定性分析工具 ATLAS.ti、MAXQDA 和 NVivo。这允许您通过单击时间戳来直接播放相应文本段的音频。转到教程。
Nvidia GPU 支持
aTrain 可以在 CPU 或 NVIDIA GPU 上运行(需要安装 CUDA 工具包)。支持 CUDA 的 NVIDIA GPU 显着提高了转录和说话人检测的速度,将当前入门级游戏笔记本电脑上的转录时间缩短至音频长度的 20%。
截图1 | 截图2 |
---|---|
为了测试 aTrain-core 的处理时间,我们转录了 Christine Lagarde 和 Andrea Enria 在 2023 年第五届欧洲央行银行监管论坛上的对话,该对话由欧洲中央银行根据知识共享许可在 YouTube 上发布,下载为 320p MP4 视频文件。该文件的持续时间恰好为 22 分钟,并在启用了说话人检测的不同计算设备上转录。下图显示了每个转录的处理时间。
00:22:00 文件的转录时间:
计算设备 | 大v3 | 蒸馏大-v3 |
---|---|---|
CPU:锐龙6850U | 00:33:02 | 00:13:30 |
CPU:苹果M1 | 00:33:15 | 00:21:40 |
CPU:英特尔 i9-10940X | 00:10:25 | 00:04:36 |
显卡:RTX 2080 Ti | 00:01:44 | 00:01:06 |
完全支持 Windows。
Debian 支持以及手动安装 Wiki 说明
目前不支持 MacOS。
如果您想使用 Windows Server,请确保安装了 WebView2:
https://developer.microsoft.com/en-us/microsoft-edge/webview2/#download
只需从 Microsoft 应用商店访问安装程序即可
https://apps.microsoft.com/store/detail/atrain/9N15Q44SZNS2
你需要 python >=3.10
如果您需要安装帮助,请查看以下资源:
https://www.python.org/downloads/release/python-31011/
设置虚拟环境
python -m venv venv
激活虚拟环境
.venvScriptsactivate
安装火车
pip install aTrain@git+https://github.com/JuergenFleiss/aTrain.git --extra-index-url https://download.pytorch.org/whl/cu118
使用控制台脚本从 Whisper 和 pyannote.audio 下载 ffmpeg 和所有必需的模型 注意:Microsoft 商店中的用户版本已包含这些资源。
aTrain init
使用控制台脚本运行应用程序
aTrain start
我们使用 pyinstaller 冻结 aTrain 的代码并创建一个独立的可执行文件。
如果您想创建自己的代码包,请按照以下步骤操作:
以可编辑模式克隆并安装 aTrain
git clone https://github.com/JuergenFleiss/aTrain.git
cd aTrain
pip install -e . --extra-index-url https://download.pytorch.org/whl/cu118
使用控制台脚本从 Whisper 和 pyannote.audio 下载 ffmpeg 和所有必需的模型
aTrain init
安装pyinstaller
pip install pyinstaller
使用文件“build.spec”中提供的指令构建可执行文件
pyinstaller build.spec
恭喜!您刚刚为 aTrain 构建了一个独立的可执行文件。
要打开此版本的 aTrain,只需转到输出文件夹 (./dist/aTrain) 并打开可执行文件(例如 Windows 的 aTrain.exe)。
如果您想更进一步并为 aTrain 创建 MSIX 安装程序,可以使用 Advanced Installer Express。
有关如何使用 Advanced Installer Express 的信息,请参阅其文档。
aTrain 中的 GIF 和图标来自 tenor 和 flaticon。