aTrain — это инструмент для автоматической расшифровки записей речи с использованием современных моделей машинного обучения без загрузки каких-либо данных. Он был разработан исследователями Центра бизнес-аналитики и обработки данных Университета Граца и протестирован исследователями Ноу-центра Граца.
Большие новости! Статья, представляющая aTrain, была опубликована в Журнале поведенческих и экспериментальных финансов. Если вы использовали aTrain для своего исследования, пожалуйста, процитируйте опубликованную статью: Возьмите aTrain. Представляем интерфейс для доступной расшифровки интервью.
Пользователи Windows (10 и 11) могут установить aTrain через магазин приложений Microsoft (ссылка) или загрузив установщик с веб-сайта BANDAS-Center (ссылка).
Для Linux следуйте инструкциям в нашей Wiki.
Установочное и демонстрационное видео можно найти здесь.
aTrain предлагает следующие преимущества:
Быстро и точно
aTrain обеспечивает удобный доступ к более быстрой реализации модели OpenAI Whisper, обеспечивая лучшее в своем классе качество транскрипции (см. Wollin-Geiring et al. 2023) в сочетании с более высокими скоростями на вашем локальном компьютере. Транскрипция при выборе модели высочайшего качества занимает примерно в три раза больше длины звука на современных мобильных процессорах, которые обычно встречаются в бизнес-ноутбуках среднего класса (например, Core i5 12-го поколения, Ryzen Series 6000).
Обнаружение динамика
aTrain имеет режим обнаружения говорящего на основе pyannote.audio и может анализировать каждый текстовый сегмент, чтобы определить, какому говорящему он принадлежит.
Сохранение конфиденциальности и соответствие GDPR
aTrain обрабатывает предоставленные записи речи полностью в автономном режиме на вашем устройстве и не отправляет записи или транскрипции в Интернет. Это помогает исследователям соблюдать требования к конфиденциальности данных, вытекающие из этических принципов, или соблюдать юридические требования, такие как GDPR.
Многоязычная поддержка?
aTrain может обрабатывать записи речи на любом из следующих 57 языков: африкаанс, арабский, армянский, азербайджанский, белорусский, боснийский, болгарский, каталанский, китайский, хорватский, чешский, датский, голландский, английский, эстонский, финский, французский, галисийский, немецкий. , греческий, иврит, хинди, венгерский, исландский, индонезийский, итальянский, японский, каннада, казахский, корейский, латвийский, литовский, македонский, малайский, маратхи, маори, Непальский, норвежский, персидский, польский, португальский, румынский, русский, сербский, словацкий, словенский, испанский, суахили, шведский, тагальский, тамильский, тайский, турецкий, украинский, урду, вьетнамский и валлийский.
Выход, совместимый с MAXQDA, ATLAS.ti и NVivo?
aTrain предоставляет файлы транскрипции, которые можно легко импортировать в самые популярные инструменты качественного анализа: ATLAS.ti, MAXQDA и NVivo. Это позволяет напрямую воспроизводить аудио для соответствующего сегмента текста, щелкнув его временную метку. Перейти к руководству.
Поддержка графического процессора NVIDIA
aTrain может работать либо на процессоре, либо на графическом процессоре NVIDIA (требуется установка набора инструментов CUDA). Графический процессор NVIDIA с поддержкой CUDA значительно повышает скорость транскрипции и обнаружения говорящего, сокращая время транскрипции до 20 % от длины звука на современных игровых ноутбуках начального уровня.
Скриншот 1 | Скриншот 2 |
---|---|
Для тестирования времени обработки aTrain-core мы расшифровываем разговор между Кристин Лагард и Андреа Энриа на Пятом форуме ЕЦБ по банковскому надзору 2023, опубликованный на YouTube Европейским центральным банком по лицензии Creative Commons и загруженный в виде видеофайла MP4 с разрешением 320p. Продолжительность файла составляет ровно 22 минуты, и он был расшифрован на разных компьютерных устройствах с включенным обнаружением говорящего. На рисунке ниже показано время обработки каждой транскрипции.
Время транскрипции для 00:22:00 Файл:
Вычислительное устройство | большой-v3 | Дистиллировать big-v3 |
---|---|---|
Процессор: Райзен 6850U | 00:33:02 | 00:13:30 |
Процессор: Apple M1 | 00:33:15 | 00:21:40 |
Процессор: Intel i9-10940X | 00:10:25 | 00:04:36 |
Графический процессор: RTX 2080 Ti | 00:01:44 | 00:01:06 |
Windows полностью поддерживается.
Поддержка Debian с инструкциями Wiki по ручной установке
На данный момент нет поддержки MacOS.
Если вы хотите использовать Windows Server, убедитесь, что установлен WebView2:
https://developer.microsoft.com/en-us/microsoft-edge/webview2/#download
Просто откройте установщик из магазина приложений Microsoft.
https://apps.microsoft.com/store/detail/atrain/9N15Q44SZNS2
Вам нужен Python >= 3.10
Если вам нужна помощь с установкой, посмотрите эти ресурсы:
https://www.python.org/downloads/release/python-31011/
Настройка виртуальной среды
python -m venv venv
Активируйте виртуальную среду
.venvScriptsactivate
Установить поезд
pip install aTrain@git+https://github.com/JuergenFleiss/aTrain.git --extra-index-url https://download.pytorch.org/whl/cu118
Загрузите ffmpeg и все необходимые модели из Whisper и pyannote.audio с помощью консольного сценария. Примечание. В пользовательскую версию в магазине Microsoft эти ресурсы уже включены.
aTrain init
Запустите приложение с помощью консольного скрипта
aTrain start
Мы используем pyinstaller, чтобы заморозить код aTrain и создать отдельный исполняемый файл.
Если вы хотите создать свой собственный пакет кода, выполните следующие действия:
Клонировать и установить aTrain в редактируемом режиме
git clone https://github.com/JuergenFleiss/aTrain.git
cd aTrain
pip install -e . --extra-index-url https://download.pytorch.org/whl/cu118
Загрузите ffmpeg и все необходимые модели из Whisper и pyannote.audio консольным скриптом.
aTrain init
Установить pyinstaller
pip install pyinstaller
Создайте исполняемый файл, используя предоставленную инструкцию в файле «build.spec».
pyinstaller build.spec
Поздравляем! Вы только что создали автономный исполняемый файл для aTrain.
Чтобы открыть эту версию aTrain, просто перейдите в выходную папку (./dist/aTrain) и откройте исполняемый файл (например, aTrain.exe для Windows).
Если вы хотите пойти еще дальше и создать установщик MSIX для aTrain, вы можете использовать Advanced Installer Express.
Информацию о том, как использовать Advanced Installer Express, см. в их документации.
GIF-файлы и значки в aTrain взяты из тенора и плоского изображения.