aTrain adalah alat untuk menyalin rekaman ucapan secara otomatis menggunakan model pembelajaran mesin canggih tanpa mengunggah data apa pun. Ini dikembangkan oleh para peneliti di Business Analytics and Data Science-Center di Universitas Graz dan diuji oleh para peneliti dari Know-Center Graz.
Berita Besar! Makalah yang memperkenalkan aTrain telah diterbitkan di Journal of Behavioral and Experimental Finance. Silakan sekarang mengutip makalah yang diterbitkan jika Anda menggunakan aTrain untuk penelitian Anda: Ambil aTrain. Memperkenalkan Antarmuka untuk Transkripsi Wawancara yang Dapat Diakses.
Pengguna Windows (10 dan 11) dapat menginstal aTrain melalui toko aplikasi Microsoft (Tautan) atau dengan mengunduh penginstal dari Situs Web BANDAS-Center (Tautan).
Untuk Linux, ikuti instruksi di Wiki kami.
Video instalasi dan demo dapat ditemukan di sini.
aTrain menawarkan manfaat berikut:
Cepat dan akurat
aTrain memberikan akses yang ramah pengguna ke implementasi model Whisper OpenAI yang lebih cepat, memastikan kualitas transkripsi terbaik di kelasnya (lihat Wollin-Geiring dkk. 2023) dipadukan dengan kecepatan lebih tinggi di komputer lokal Anda. Transkripsi ketika memilih model kualitas tertinggi hanya membutuhkan sekitar tiga kali panjang audio pada CPU seluler saat ini yang biasanya ditemukan pada notebook bisnis kelas menengah (misalnya, Core i5 12th Gen, Ryzen Series 6000).
Deteksi pembicara
aTrain memiliki mode deteksi speaker berdasarkan pyannote.audio dan dapat menganalisis setiap segmen teks untuk menentukan speaker mana yang dimilikinya.
Pelestarian Privasi dan kepatuhan GDPR
aTrain memproses rekaman ucapan yang disediakan sepenuhnya offline di perangkat Anda sendiri dan tidak mengirimkan rekaman atau transkripsi ke internet. Hal ini membantu peneliti untuk menjaga persyaratan privasi data yang timbul dari pedoman etika atau untuk mematuhi persyaratan hukum seperti GDRP.
Dukungan multi-bahasa?
aTrain dapat memproses rekaman ucapan dalam salah satu dari 57 bahasa berikut: Afrikaans, Arab, Armenia, Azerbaijan, Belarusia, Bosnia, Bulgaria, Catalan, China, Kroasia, Ceko, Denmark, Belanda, Inggris, Estonia, Finlandia, Prancis, Galicia, Jerman , Yunani, Ibrani, Hindi, Hongaria, Islandia, Indonesia, Italia, Jepang, Kannada, Kazakh, Korea, Latvia, Lituania, Makedonia, Melayu, Marathi, Maori, Nepal, Norwegia, Persia, Polandia, Portugis, Rumania, Rusia, Serbia, Slovakia, Slovenia, Spanyol, Swahili, Swedia, Tagalog, Tamil, Thailand, Turki, Ukraina, Urdu, Vietnam, dan Welsh.
Output yang kompatibel dengan MAXQDA, ATLAS.ti dan NVivo?
aTrain menyediakan file transkripsi yang dapat diimpor dengan lancar ke alat paling populer untuk analisis kualitatif, ATLAS.ti, MAXQDA, dan NVivo. Ini memungkinkan Anda memutar audio secara langsung untuk segmen teks yang sesuai dengan mengklik stempel waktunya. Pergi ke tutorialnya.
Dukungan GPU Nvidia
aTrain dapat berjalan pada CPU atau GPU NVIDIA (diperlukan instalasi toolkit CUDA). GPU NVIDIA berkemampuan CUDA secara signifikan meningkatkan kecepatan transkripsi dan deteksi speaker, mengurangi waktu transkripsi hingga 20% dari panjang audio pada notebook gaming entry-level saat ini.
Tangkapan layar 1 | Tangkapan layar 2 |
---|---|
Untuk menguji waktu pemrosesan aTrain-core, kami mentranskripsikan percakapan antara Christine Lagarde dan Andrea Enria di Forum ECB Kelima tentang Pengawasan Perbankan 2023 yang dipublikasikan di YouTube oleh Bank Sentral Eropa di bawah lisensi Creative Commons, diunduh sebagai file video MP4 320p. File tersebut berdurasi tepat 22 menit dan ditranskripsikan pada perangkat komputasi berbeda dengan deteksi speaker diaktifkan. Gambar di bawah menunjukkan waktu pemrosesan setiap transkripsi.
Waktu Transkripsi untuk 00:22:00 File:
Perangkat Komputasi | besar-v3 | Saring besar-v3 |
---|---|---|
Prosesor: Ryzen 6850U | 00:33:02 | 00:13:30 |
CPU: Apple M1 | 00:33:15 | 00:21:40 |
Prosesor: Intel i9-10940X | 00:10:25 | 00:04:36 |
GPU: RTX 2080 Ti | 00:01:44 | 00:01:06 |
Windows didukung penuh.
Dukungan Debian dengan instruksi instalasi manual Wiki
Saat ini tidak ada dukungan MacOS.
Jika Anda ingin menggunakan Windows Server, pastikan WebView2 diinstal:
https://developer.microsoft.com/en-us/microsoft-edge/webview2/#download
Cukup akses penginstal dari toko aplikasi Microsoft
https://apps.microsoft.com/store/detail/atrain/9N15Q44SZNS2
Anda harus memiliki python >=3.10
Jika Anda memerlukan bantuan untuk menginstalnya, lihat sumber daya berikut:
https://www.python.org/downloads/release/python-31011/
Siapkan lingkungan virtual
python -m venv venv
Aktifkan lingkungan virtual
.venvScriptsactivate
Instal aTrain
pip install aTrain@git+https://github.com/JuergenFleiss/aTrain.git --extra-index-url https://download.pytorch.org/whl/cu118
Unduh ffmpeg dan semua model yang diperlukan dari Whisper dan pyannote.audio dengan skrip konsol Catatan: Versi pengguna di toko Microsoft sudah menyertakan aset tersebut.
aTrain init
Jalankan aplikasi dengan skrip konsol
aTrain start
Kami menggunakan pyinstaller untuk membekukan kode aTrain dan membuat executable mandiri.
Jika Anda ingin membuat paket kode sendiri, ikuti langkah-langkah berikut:
Kloning dan instal aTrain dalam mode yang dapat diedit
git clone https://github.com/JuergenFleiss/aTrain.git
cd aTrain
pip install -e . --extra-index-url https://download.pytorch.org/whl/cu118
Unduh ffmpeg dan semua model yang diperlukan dari Whisper dan pyannote.audio dengan skrip konsol
aTrain init
Instal pyinstaller
pip install pyinstaller
Bangun executable menggunakan instruksi yang disediakan di file "build.spec"
pyinstaller build.spec
Selamat! Anda baru saja membuat executable mandiri untuk aTrain.
Untuk membuka versi aTrain ini, cukup buka folder keluaran (./dist/aTrain) dan buka file yang dapat dieksekusi (misalnya aTrain.exe untuk Windows).
Jika Anda ingin melangkah lebih jauh dan membuat penginstal MSIX untuk aTrain, Anda dapat menggunakan Advanced Installer Express.
Untuk informasi tentang cara menggunakan Advanced Installer Express, lihat dokumentasinya.
GIF dan Ikon di aTrain berasal dari tenor dan flaticon.