Amphion (/æmˈfaɪən/) は、オーディオ、音楽、音声生成のためのツールキットです。その目的は、再現可能な研究をサポートし、若手研究者やエンジニアがオーディオ、音楽、音声生成の研究開発の分野に着手できるように支援することです。 Amphion は、古典的なモデルまたはアーキテクチャの視覚化というユニークな機能を提供します。これらの視覚化は、モデルをより深く理解したい若手研究者やエンジニアにとって有益であると考えています。
Amphion の North-Star の目的は、あらゆる入力のオーディオへの変換を研究するためのプラットフォームを提供することです。 Amphion は、次のような個別の生成タスクをサポートするように設計されています。
TTS : テキスト読み上げ (サポートされています)
SVS : 歌声合成(開発中)
VC : 音声変換 (開発中)
SVC : 歌声変換(対応)
TTA : テキストからオーディオへの変換 (サポートされています)
TTM : テキストを音楽に変換 (開発中)
もっと…
特定の生成タスクに加えて、Amphion にはいくつかのボコーダーと評価メトリクスが含まれています。ボコーダーは高品質のオーディオ信号を生成するための重要なモジュールですが、評価メトリックは生成タスクで一貫したメトリックを確保するために重要です。さらに、Amphion は、音声合成のための大規模なデータセットの構築など、現実世界のアプリケーションにおけるオーディオ生成の進歩に注力しています。
2024/10/19 : テキストと音声の監視の間の明示的な位置合わせ情報の必要性を排除する、完全に非自己回帰的な TTS モデルであるMaskGCT をリリースします。 MaskGCT は Emilia データセットでトレーニングされ、SOTA ゼロショット TTS パフォーマンスを実現します。
2024/09/01 : Amphion、Emilia、DSFF-SVC が IEEE SLT 2024 に承認されました。 ?
2024/08/28 : Amphion の Discord チャンネルに参加して、コミュニティとのつながりを維持し、参加することを歓迎します。
2024/08/20 : SingVisio が Computers & Graphics に承認されました。ここから入手できます。 ?
2024/08/27 :エミリア データセットが公開されました! 10 万 1,000 時間の実際の音声データを含む、最も広範で多様な音声生成データセットを、 または で発見してください。 ???
2024/07/01 : Amphion は、10 万 1,000 時間を超える音声データを含む音声生成用の初のオープンソース多言語現場データセットであるEmiliaと、変換するように設計された初のオープンソース前処理パイプラインであるEmilia-Pipe をリリースしました。自然界の音声データを、音声生成用の注釈を付けた高品質のトレーニング データに変換します。
2024/06/17 : アンフィオンからVALL-Eモデルが新発売!基礎となるアーキテクチャとして Llama を使用しており、最初のバージョンと比較してモデルのパフォーマンスが向上し、トレーニング速度が向上し、コードが読みやすくなっています。
2024/03/12 : Amphion はNaturalSpeech3 FACodecをサポートし、事前トレーニングされたチェックポイントをリリースしました。
2024/02/22 : 最初の Amphion 視覚化ツールSingVisio がリリースされました。
2023/12/18 : Amphion v0.1 リリース。
2023/11/28 : Amphion アルファ リリース。
Amphion は、音声合成 (TTS) システム上の既存のオープンソース リポジトリと比較して、最先端のパフォーマンスを実現します。次のモデルまたはアーキテクチャをサポートします。
FastSpeech2: フィードフォワード Transformer ブロックを利用する非自己回帰 TTS アーキテクチャ。
VITS: 敵対的学習を備えた条件付き変分オートエンコーダーを利用するエンドツーエンドの TTS アーキテクチャ
VALL-E: 離散コードを含むニューラル コーデック言語モデルを使用するゼロショット TTS アーキテクチャ。
NaturalSpeech2: 潜在拡散モデルを利用して自然な響きの音声を生成する TTS のアーキテクチャ。
Jets: FastSpeech2 と HiFi-GAN をアライメント モジュールで共同トレーニングするエンドツーエンドの TTS モデル。
MaskGCT: テキストと音声の監視の間の明示的な位置合わせ情報の必要性を排除する、完全に非自己回帰的な TTS アーキテクチャです。
Ampion は、WeNet、Whisper、ContentVec など、さまざまな事前トレーニング済みモデルの複数のコンテンツベースの機能をサポートしています。 SVC におけるそれらの特定の役割は、SLT 2024 論文で調査されています。
Amphion は、拡散、変圧器、VAE、フローベースのモデルなど、いくつかの最先端のモデル アーキテクチャを実装しています。拡散ベースのアーキテクチャは、バックエンドとして双方向拡張 CNN を使用し、DDPM、DDIM、PNDM などのいくつかのサンプリング アルゴリズムをサポートします。さらに、一貫性モデルに基づいたシングルステップ推論をサポートします。
Amphion は潜在拡散モデルを使用して TTA をサポートします。これは、AudioLDM、Make-an-Audio、および AUDIT のように設計されています。これは、NeurIPS 2023 論文のテキストからオーディオへの生成部分の正式な実装でもあります。
Amphion は、次のような広く使用されているさまざまなニューラル ボコーダーをサポートしています。
GAN ベースのボコーダー: MelGAN、HiFi-GAN、NSF-HiFiGAN、BigVGAN、APNet。
フローベースのボコーダー: WaveGlow。
拡散ベースのボコーダー: Diffwave。
自己回帰ベースのボコーダー: WaveNet、WaveRNN。
Amphion は、Multi-Scale Constant-Q Transform Discriminator の正式な実装を提供しています (ICASSP 2024 論文)。これを使用すると、トレーニング中にあらゆるアーキテクチャの GAN ベースのボコーダーを強化し、推論段階 (メモリや速度など) を変更せずに維持できます。
Amphion は、生成されたオーディオの包括的な客観的評価を提供します。評価指標には次のものが含まれます。
F0 モデリング: F0 ピアソン係数、F0 周期性二乗平均平方根誤差、F0 二乗平均平方根誤差、有声音/無声音 F1 スコアなど。
エネルギーモデリング:エネルギー二乗平均平方根誤差、エネルギーピアソン係数など
明瞭度: 文字/単語の誤り率。ウィスパーなどに基づいて計算できます。
スペクトログラム歪み: フレシェ音声距離 (FAD)、メル ケプストラル歪み (MCD)、多重解像度 STFT 距離 (MSTFT)、音声品質の知覚評価 (PESQ)、短時間客観的明瞭度 (STOI) など。
スピーカー類似度: コサイン類似度。RawNet3、Resemblyzer、WeSpeaker、WavLM などに基づいて計算できます。
Amphion は、AudioCaps、LibriTTS、LJSpeech、M4Singer、Opencpop、OpenSinger、SVCC、VCTK などを含むオープンソース データセットのデータ前処理を統合します。サポートされているデータセットのリストはここで確認できます (更新中)。
Amphion は、野外音声データ用のEmiliaデータセットとその前処理パイプラインEmilia-Pipe を(独占的に) サポートしています。
Amphion は、クラシック モデルの内部処理メカニズムをインタラクティブに説明するための視覚化ツールを提供します。これは、教育目的および理解可能な研究を促進するために非常に貴重なリソースを提供します。
現在、Amphion は歌声変換の普及モデルの可視化ツールである SingVisio をサポートしています。
Amphion は、セットアップ インストーラーまたは Docker イメージを通じてインストールできます。
git clone https://github.com/open-mmlab/Amphion.gitcd Amphion# Python 環境をインストールconda create --name amphion python=3.9.15 conda activate amphion# Python パッケージのインストール 依存関係sh env.sh
Docker、NVIDIA ドライバー、NVIDIA コンテナー ツールキット、および CUDA をインストールします。
次のコマンドを実行します。
git clone https://github.com/open-mmlab/Amphion.gitcd Amphion docker pull realamphion/amphion docker run --runtime=nvidia --gpus all -it -v .:/app realamphion/amphion
Docker を使用する場合は、引数-v
によるデータセットのマウントが必要です。詳細については、「Docker コンテナーでのデータセットのマウント」および「Docker Docs」を参照してください。
次のレシピでは、さまざまなタスクの手順を詳しく説明します。
テキスト読み上げ (TTS)
歌声変換(SVC)
テキストからオーディオへ (TTA)
ボコーダ
評価
視覚化
Ampion を改善するためのあらゆる貢献に感謝いたします。貢献ガイドラインについては、CONTRIBUTING.md を参照してください。
モデル アーキテクチャ コード用の ming024 の FastSpeech2 と jaywalnut310 の VITS。
lifeiteng の VALL-E をトレーニング パイプラインとモデル アーキテクチャ設計に使用します。
セマンティック蒸留トークナイザー設計のための SpeechTokenizer。
事前トレーニング済みモデルと推論コード用の WeNet、Whisper、ContentVec、および RawNet3。
GAN ベースの Vocoder のアーキテクチャ設計とトレーニング戦略のための HiFi-GAN。
よく整理された GAN Discriminator のアーキテクチャと基本ブロックのエンコーデック。
モデル アーキテクチャ設計の潜在的な拡散。
MFA ツールを準備するための TensorFlowTTS。
Amphion は MIT ライセンスの下にあります。研究用途でも商用用途でも無料です。
@inproceedings{amphion,author={Zhang、Xueyao と Xue、Liumeng と Gu、Yicheng と Wang、Yuancheng と Li、Jiaqi と He、Haorui と Wang、Chaoren と Song、Ting と Chen、Xi と Fang、Zihao と Chen、 Haopeng と Zhang、Junan と Tang、Tze Ying と Zou、Lexiao と Wang、Mingxuan と Han、Jun と Chen、Kai と Li、海州と呉、Zhizheng},title={Amphion: オープンソースのオーディオ、音楽、スピーチ生成ツールキット},booktitle={{IEEE} 音声言語技術ワークショップ、{SLT} 2024},year={2024}}