aTrain은 데이터를 업로드하지 않고도 최첨단 기계 학습 모델을 활용하여 음성 녹음을 자동으로 복사하는 도구입니다. 그라츠 대학의 비즈니스 분석 및 데이터 과학 센터 연구원이 개발했으며 그라츠 Know-Center 연구원이 테스트했습니다.
빅뉴스! aTrain을 소개하는 논문이 Journal of Behavioral and Experimental Finance에 게재되었습니다. 연구에 aTrain을 사용했다면 이제 출판된 논문을 인용하십시오. aTrain을 사용하십시오. 접근 가능한 인터뷰 기록을 위한 인터페이스를 소개합니다.
Windows(10 및 11) 사용자는 Microsoft 앱 스토어(링크)를 통해 또는 BANDAS-Center 웹사이트(링크)에서 설치 프로그램을 다운로드하여 aTrain을 설치할 수 있습니다.
Linux의 경우 Wiki의 지침을 따르세요.
설치 및 데모 비디오는 여기에서 찾을 수 있습니다.
aTrain은 다음과 같은 이점을 제공합니다.
빠르고 정확함
aTrain은 OpenAI의 Whisper 모델의 보다 빠른 속삭임 구현에 대한 사용자 친화적인 액세스를 제공하여 로컬 컴퓨터의 더 빠른 속도와 함께 동급 최고의 전사 품질(Wollin-Geiring et al. 2023 참조)을 보장합니다. 최고 품질의 모델을 선택할 때 전사하는 데 소요되는 오디오 길이는 일반적으로 중산층 비즈니스 노트북(예: Core i5 12세대, Ryzen 시리즈 6000)에서 볼 수 있는 현재 모바일 CPU의 오디오 길이의 약 3배에 불과합니다.
스피커 감지
aTrain에는 pyannote.audio를 기반으로 하는 화자 감지 모드가 있으며 각 텍스트 세그먼트를 분석하여 해당 텍스트가 속한 화자를 결정할 수 있습니다.
개인정보 보호 및 GDPR 준수
aTrain은 제공된 음성 녹음을 사용자의 장치에서 완전히 오프라인으로 처리하며 녹음이나 녹취록을 인터넷으로 보내지 않습니다. 이는 연구자가 윤리적 지침에서 발생하는 데이터 개인 정보 보호 요구 사항을 유지하거나 GDPR과 같은 법적 요구 사항을 준수하는 데 도움이 됩니다.
다국어 지원 ?
aTrain은 아프리칸스어, 아랍어, 아르메니아어, 아제르바이잔어, 벨로루시어, 보스니아어, 불가리아어, 카탈로니아어, 중국어, 크로아티아어, 체코어, 덴마크어, 네덜란드어, 영어, 에스토니아어, 핀란드어, 프랑스어, 갈리시아어, 독일어 등 57개 언어로 음성 녹음을 처리할 수 있습니다. , 그리스어, 히브리어, 힌디어, 헝가리어, 아이슬란드어, 인도네시아어, 이탈리아어, 일본어, 칸나다어, 카자흐어, 한국어, 라트비아어, 리투아니아어, 마케도니아어, 말레이어, 마라티어, 마오리어, 네팔어, 노르웨이어, 페르시아어, 폴란드어, 포르투갈어, 루마니아어, 러시아어, 세르비아어, 슬로바키아어, 슬로베니아어, 스페인어, 스와힐리어, 스웨덴어, 타갈로그어, 타밀어, 태국어, 터키어, 우크라이나어, 우르두어, 베트남어, 그리고 웨일스어.
MAXQDA, ATLAS.ti 및 NVivo 호환 출력?
aTrain은 가장 널리 사용되는 정성 분석 도구인 ATLAS.ti, MAXQDA 및 NVivo로 원활하게 가져올 수 있는 전사 파일을 제공합니다. 이를 통해 타임스탬프를 클릭하여 해당 텍스트 세그먼트에 대한 오디오를 직접 재생할 수 있습니다. 튜토리얼로 이동하세요.
엔비디아 GPU 지원
aTrain은 CPU 또는 NVIDIA GPU(CUDA 툴킷 설치 필요)에서 실행될 수 있습니다. CUDA 지원 NVIDIA GPU는 전사 및 화자 감지 속도를 크게 향상시켜 현재 보급형 게임 노트북에서 전사 시간을 오디오 길이의 20%로 줄입니다.
스크린샷 1 | 스크린샷 2 |
---|---|
aTrain-core의 처리 시간을 테스트하기 위해 우리는 크리에이티브 커먼즈 라이센스에 따라 유럽 중앙 은행이 YouTube에 게시한 2023년 은행 감독에 관한 제5차 ECB 포럼에서 Christine Lagarde와 Andrea Enria 간의 대화를 기록하고 320p MP4 비디오 파일로 다운로드했습니다. 파일의 길이는 정확히 22분이며 화자 감지가 활성화된 다양한 컴퓨팅 장치에서 기록되었습니다. 아래 그림은 각 전사본의 처리 시간을 보여줍니다.
00:22:00 파일의 녹음 시간:
컴퓨팅 장치 | 대형 v3 | 대형 v3 증류 |
---|---|---|
CPU: 라이젠 6850U | 00:33:02 | 00:13:30 |
CPU: 애플 M1 | 00:33:15 | 00:21:40 |
CPU: 인텔 i9-10940X | 00:10:25 | 00:04:36 |
GPU: RTX 2080 Ti | 00:01:44 | 00:01:06 |
Windows가 완벽하게 지원됩니다.
수동 설치 Wiki 지침을 통한 데비안 지원
현재 MacOS는 지원되지 않습니다.
Windows Server를 사용하려면 WebView2가 설치되어 있는지 확인하세요.
https://developer.microsoft.com/en-us/microsoft-edge/webview2/#download
Microsoft 앱 스토어에서 설치 프로그램에 액세스하기만 하면 됩니다.
https://apps.microsoft.com/store/detail/atrain/9N15Q44SZNS2
Python >=3.10이 필요합니다.
설치하는 데 도움이 필요하면 다음 리소스를 살펴보세요.
https://www.python.org/downloads/release/python-31011/
가상 환경 설정
python -m venv venv
가상 환경 활성화
.venvScriptsactivate
aTrain 설치
pip install aTrain@git+https://github.com/JuergenFleiss/aTrain.git --extra-index-url https://download.pytorch.org/whl/cu118
콘솔 스크립트를 사용하여 Whisper 및 pyannote.audio에서 ffmpeg 및 모든 필수 모델을 다운로드합니다. 참고: Microsoft 스토어의 사용자 버전에는 해당 자산이 이미 포함되어 있습니다.
aTrain init
콘솔 스크립트로 앱 실행
aTrain start
우리는 pyinstaller를 사용하여 aTrain의 코드를 고정하고 독립 실행형 실행 파일을 생성합니다.
자신만의 코드 패키지를 생성하려면 다음 단계를 따르세요.
편집 가능한 모드 에서 aTrain 복제 및 설치
git clone https://github.com/JuergenFleiss/aTrain.git
cd aTrain
pip install -e . --extra-index-url https://download.pytorch.org/whl/cu118
콘솔 스크립트를 사용하여 Whisper 및 pyannote.audio에서 ffmpeg 및 모든 필수 모델을 다운로드하세요.
aTrain init
pyinstaller 설치
pip install pyinstaller
"build.spec" 파일에 제공된 지침을 사용하여 실행 파일을 빌드합니다.
pyinstaller build.spec
축하해요! 방금 aTrain용 독립 실행형 실행 파일을 구축했습니다.
이 버전의 aTrain을 열려면 출력 폴더(./dist/aTrain)로 이동하여 실행 파일(예: Windows용 aTrain.exe)을 엽니다.
한 단계 더 나아가 aTrain용 MSIX 설치 프로그램을 만들려면 Advanced Installer Express를 사용할 수 있습니다.
Advanced Installer Express 사용 방법에 대한 자세한 내용은 해당 설명서를 참조하십시오.
aTrain의 GIF와 아이콘은 tenor와 flaticon에서 가져온 것입니다.