aTrain は、データをアップロードせずに、最先端の機械学習モデルを利用して音声録音を自動的に書き起こすためのツールです。これは、グラーツ大学のビジネス分析およびデータ サイエンス センターの研究者によって開発され、グラーツ ノウハウ センターの研究者によってテストされました。
ビッグニュース! aTrain を紹介する論文が Journal of Behavioral and Experimental Finance に掲載されました。研究に aTrain を使用した場合は、出版された論文を引用してください: Take the aTrain。アクセシブルなインタビューの文字起こしのためのインターフェイスの導入。
Windows (10 および 11) ユーザーは、Microsoft アプリ ストア (リンク) 経由で、または BANDAS-Center Web サイト (リンク) からインストーラーをダウンロードして、aTrain をインストールできます。
Linux の場合は、Wiki の手順に従ってください。
インストールとデモのビデオはここでご覧いただけます。
aTrain には次の利点があります。
速くて正確
aTrain は、OpenAI の Whisper モデルのより高速な Whisper 実装へのユーザー フレンドリーなアクセスを提供し、ローカル コンピューター上での高速性と組み合わせて、クラス最高の文字起こし品質 (Wollin-Geiring et al. 2023 を参照) を保証します。最高品質のモデルを選択した場合の文字起こしには、ミドルクラスのビジネス ノートブックに一般的に搭載されている現在のモバイル CPU (例: Core i5 第 12 世代、Ryzen シリーズ 6000) のオーディオ長の約 3 倍しかかかりません。
話者の検出
aTrain には pyannote.audio に基づく話者検出モードがあり、各テキスト セグメントを分析してどの話者に属しているかを判断できます。
プライバシーの保護とGDPRへの準拠
aTrain は、提供された音声録音をお客様自身のデバイス上で完全にオフラインで処理し、録音や文字起こしをインターネットに送信しません。これは、研究者が倫理ガイドラインから生じるデータ プライバシー要件を維持したり、GDPR などの法的要件を遵守したりするのに役立ちます。
多言語サポート ?
aTrain は、アフリカーンス語、アラビア語、アルメニア語、アゼルバイジャン語、ベラルーシ語、ボスニア語、ブルガリア語、カタロニア語、中国語、クロアチア語、チェコ語、デンマーク語、オランダ語、英語、エストニア語、フィンランド語、フランス語、ガリシア語、ドイツ語の 57 言語のいずれかで音声録音を処理できます。 、ギリシャ語、ヘブライ語、ヒンディー語、ハンガリー語、アイスランド語、インドネシア語、イタリア語、日本語、カンナダ語、カザフ語、韓国語、ラトビア語、リトアニア語、マケドニア語、マレー語、マラーティー語、マオリ語、ネパール語、ノルウェー語、ペルシア語、ポーランド語、ポルトガル語、ルーマニア語、ロシア語、セルビア語、スロバキア語、スロベニア語、スペイン語、スワヒリ語、スウェーデン語、タガログ語、タミル語、タイ語、トルコ語、ウクライナ語、ウルドゥー語、ベトナム語、ウェールズ語。
MAXQDA、ATLAS.ti、NVivo と互換性のある出力 ?
aTrain は、定性分析用の最も一般的なツールである ATLAS.ti、MAXQDA、NVivo にシームレスにインポートできる転写ファイルを提供します。これにより、タイムスタンプをクリックすることで、対応するテキスト セグメントのオーディオを直接再生できます。チュートリアルに進みます。
Nvidia GPUのサポート
aTrain は、CPU または NVIDIA GPU で実行できます (CUDA ツールキットのインストールが必要です)。 CUDA 対応の NVIDIA GPU により、文字起こしと話者検出の速度が大幅に向上し、現在のエントリーレベルのゲーム ノートブックでの文字起こし時間がオーディオの長さの 20% に短縮されます。
スクリーンショット 1 | スクリーンショット 2 |
---|---|
aTrain-core の処理時間をテストするために、欧州中央銀行がクリエイティブ コモンズ ライセンスに基づいて YouTube で公開した 2023 年の銀行監督に関する第 5 回 ECB フォーラムでのクリスティーヌ ラガルド氏とアンドレア エンリア氏の会話を文字起こしし、320p MP4 ビデオ ファイルとしてダウンロードしました。このファイルの長さはちょうど 22 分で、話者検出が有効になっているさまざまなコンピューティング デバイスで転写されました。以下の図は、各文字起こしの処理時間を示しています。
00:22:00 ファイルの転写時間:
コンピューティングデバイス | ラージ-v3 | ラージ v3 を蒸留します |
---|---|---|
CPU:Ryzen 6850U | 00:33:02 | 00:13:30 |
CPU:アップルM1 | 00:33:15 | 00:21:40 |
CPU:インテル i9-10940X | 00:10:25 | 00:04:36 |
GPU: RTX 2080 Ti | 00:01:44 | 00:01:06 |
Windows は完全にサポートされています。
手動インストール Wiki 手順による Debian サポート
現在、MacOS はサポートされていません。
Windows Server を使用する場合は、WebView2 がインストールされていることを確認してください。
https://developer.microsoft.com/en-us/microsoft-edge/webview2/#download
Microsoft アプリ ストアからインストーラーにアクセスするだけです
https://apps.microsoft.com/store/detail/atrain/9N15Q44SZNS2
Python 3.10 以上が必要です
インストールに関してサポートが必要な場合は、次のリソースを参照してください。
https://www.python.org/downloads/release/python-31011/
仮想環境をセットアップする
python -m venv venv
仮想環境をアクティブ化する
.venvScriptsactivate
列車をインストールする
pip install aTrain@git+https://github.com/JuergenFleiss/aTrain.git --extra-index-url https://download.pytorch.org/whl/cu118
コンソール スクリプトを使用して、Whisper および pyannote.audio から ffmpeg と必要なすべてのモデルをダウンロードします。 注: Microsoft ストアのユーザー バージョンには、これらのアセットがすでに含まれています。
aTrain init
コンソールスクリプトを使用してアプリを実行する
aTrain start
pyinstaller を使用して aTrain のコードをフリーズし、スタンドアロンの実行可能ファイルを作成します。
独自のコード パッケージを作成する場合は、次の手順に従います。
aTrain を複製して編集可能モードでインストールする
git clone https://github.com/JuergenFleiss/aTrain.git
cd aTrain
pip install -e . --extra-index-url https://download.pytorch.org/whl/cu118
コンソール スクリプトを使用して、Whisper と pyannote.audio から ffmpeg と必要なすべてのモデルをダウンロードします。
aTrain init
pyinstallerをインストールする
pip install pyinstaller
ファイル「build.spec」内の提供された指示を使用して実行可能ファイルをビルドします。
pyinstaller build.spec
おめでとう! aTrain 用のスタンドアロン実行可能ファイルを構築しました。
このバージョンの aTrain を開くには、出力フォルダー (./dist/aTrain) に移動し、実行可能ファイル (Windows の場合は aTrain.exe など) を開くだけです。
さらに一歩進んで、aTrain 用の MSIX インストーラーを作成したい場合は、Advanced Installer Express を使用できます。
Advanced Installer Express の使用方法については、そのドキュメントを参照してください。
aTrain の GIF とアイコンは、tenor と flaticon からのものです。