mms_msgダウンロードmms_msgソースコードのダウンロード

多目的マルチスピーカー混合シグナルジェネレーター（MMS-MSG）

MMS-MSGは、音声混合物を生成するための非常にモジュール式で柔軟なフレームワークです。混合信号生成のSMS-WSJデータベースのコードベースを拡張して、会議スタイルの音声混合物と古典的な音声混合データベースに対応する混合信号の両方を生成できるようにします。

MMS-MSGの目的は何ですか？

会議データは、非常に動的な設定について説明します。 MMS-MSGの両方の環境は、単一の新しいデータベースを提供することを目指していません。

代わりに、できるだけ多くの環境でプロセスと転写システムを満たすプロトタイピングと評価を可能にする適応可能なフレームワークを提供したいと考えています。

特徴

会議データの生成

MMS-MSGの中心的な側面は、会議スタイルのデータの生成です。会議はモジュール形式で生成されます。調整可能なパラメーターは次のとおりです。

ソースデータベース（WSJ、Librispeechなど）：スピーカーのアイデンティティへのアクセスを提供するクリーンでシングルスピーカーの発話で構成されるオーディオデータベースを使用して、会議データをシミュレートできます。転写などの追加情報は保持され、使用できます。
参加者の数：会議ごとのスピーカー数は自由に選択できます。さらに、さまざまな数のアクティブなスピーカーとのミーティングが生成されるように、範囲を設定することが可能です。
スピーカーごとのアクティビティ分布：会議の次のアクティブスピーカーをサンプリングするための完全なランダムサンプリングアルゴリズムは別として、アクティビティベースのスピーカーサンプリングも提供します。ここでは、スピーカーあたりのアクティビティ分布（つまり、各スピーカーの音声比率）を自由に指定できます。会議の過程で、活動分布は望ましい比率に収束し、非常に非対称会議（講義の状況）の生成を生成することができます。
沈黙/オーバーラップの量と分布：会議の連続した発言間の沈黙の確率と長さ、および/または重複することは自由に選択できます。さらに、沈黙をサンプリングするための分布も、ユーザーが指定できます。
バックグラウンドノイズ：混合物に背景ノイズなどの外部の影響を追加する簡単なフレームワークを提供します。現在、静的なバックグラウンドノイズのサンプリングが実装されています。より現実的な環境ノイズ（たとえば、Wham！）の追加が理論的にサポートされています。このユースケースのサンプリング関数は、将来的に実装されます。
残響/スケーリング：MMS-MSGは、反響した会議のシミュレーションをネイティブにサポートしています。ここでは、部屋の衝動応答を提供する追加のデータベースを使用して、各スピーカーの発話を反響させることができます。現在実装されているモジュールは静的なスピーカーの位置のみをサポートしていますが、スピーカーは各発話の理論的に自分の位置を変更できます。

モジュラー設計

サンプリングプロセスはモジュール化されているため、サンプリングパイプラインをわずかに変更することで多くのシナリオを作成できます。単一のモジュールの使用方法を示すためのサンプルクラスを提供します。シナリオがサポートされていない場合、MMS-MSGを要件に適応させるために、新しいサンプリングモジュールを簡単に実装できます。

オンデマンドデータ生成

MMS-MSGのデータシミュレーションプロセスは、パラメーターサンプリングと実際のデータ生成に分割されます。これを通じて、オンデマンドデータ生成をサポートします。このようにして、ソースデータと会議パラメーターのみを保存する必要があり、必要なディスクスペースを最小限に抑えながら、さまざまな会議シナリオのシミュレーションを可能にします。ただし、ワークフローに必要なハードディスクに保存する場合、会議データのオフライン生成もサポートしています。

古典的な音声混合シナリオの生成

現在使用されているソース分離データベースの仕様に従って音声混合物を生成するコードを提供します。このコードでは、複数のスピーカーの単一の発話が部分的または完全に互いに重複しています。 MMS-MSGを使用してこれらのデータベースのトレーニングデータを生成することにより、動的混合のネイティブサポートを提供します。

サポートされている音声混合データベース：

WSJ0-2MIX/WSJ0-3MIX
Librimix
SMS-WSJ
部分的に重複したWSJ

計画：

ワム！＆whamr！

生成された混合物を使用します

混合ジェネレーターはlazy_datasetを使用します。 MMS_MSGのコア機能はLazy_Datasetなしで使用できますが、一部の機能（動的ミキシングやデータベースの抽象化など）は利用できません。

 from mms_msg . databases . classical . full_overlap import WSJ2Mix
from mms_msg . sampling . utils import collate_fn
db = WSJ2Mix ()

# Get a train dataset with dynamic mixing
# This dataset only emits the metadata of the mixtures, it doesn't load
# the data yet
ds = db . get_dataset ( 'train_si284_rng' )

# The data can be loaded by mapping a database's load_example function
ds = ds . map ( db . load_example )  

# Other dataset modifications (see lazy_dataset doc)
ds = ds . shuffle ( reshuffle = True )
ds = ds . batch ( batch_size = 8 ). map ( collate_fn )
# ...

# Parallelize data loading with lazy_dataset
ds = ds . prefetch ( num_workers = 8 , buffer_size = 16 )

# The dataset can now be used in any training loop
for example in ds :
    # ... do fancy stuff with the example.
    # The loaded audio data is in example['audio_data']
    print ( example )

他のデータ変更ルーチンは、例を読み込んだ後にdsにマッピングできます。

トーチデータローダーを使用します

lazy_dataset.Datasetは、 torch.utils.data.DataLoaderに差し込むことができます：

 from mms_msg . databases . classical . full_overlap import WSJ2Mix
db = WSJ2Mix ()
ds = db . get_dataset ( 'train_si284_rng' ). map ( db . load_example )  

# Parallelize data loading with torch.utils.data.DataLoader
from torch . utils . data import DataLoader
loader = DataLoader ( ds , batch_size = 8 , shuffle = True , num_workers = 8 )

for example in loader :
    print ( example )

計画された機能：

ワム！バックグラウンドノイズサンプリング
~~サンプリングレートオフセット（SRO）ユーティリティ（Paderwasnを参照）~~
マルコフモデルベースのダイアログサンプリング（このペーパーを参照）

注：ベースラインの結果を再現するためのレシピの例はまだ建設中であり、後日提供されます。

MMS-MSGの拡張

構造の例

入力例には、この構造が必要です。

 example = {
    'audio_path' : {
        'observation' : 'single_speaker_recording.wav'
    },
    'speaker_id' : 'A' ,
    'num_samples' : 1234 ,  # Number of samples of the observation file
    # 'num_samples': {'observation': 1234} # Alernative, if other audios are present
    'dataset' : 'test' ,  # The input dataset name
    'example_id' : 'asdf1234' , # Unique ID of this example. Optional if the input data is passes as a dict
    'scenario' : 'cafe-asdf1234' ,  # (Optional) If provided, mms_msg makes sure that all examples of the same speaker in a mixture share the same scenario
    # ... (any additional keys)
}

混合物の発話を選択した後、これらの発話の例は正規化され、「照合」され、これに類似した構造が得られます。

 example = {
    'audio_path' : {
        'original_source' : [
            'source1.wav' ,
            'source2.wav' ,
        ],
    },
    'speaker_id' : [
        'A' , 'B'  
    ],
    'num_samples' : {  # The structure under some keys mirrors the structure in 'audio_path'
        'original_source' : [
          1234 , 4321
        ]
    },
    'source_id' : [  # Reference to the source examples this mixture was created from
        'asdf1234' , 'asdf1235'
    ],
    ...
}

このような構造から始めて、サンプリングモジュールを適用して、例、たとえば発話のオフセットやスケーリングなど、より多くの情報を例に記入できます。

既存のサンプリングモジュールからカスタムデータベースを作成します

データベースのクラスまたは定義は、 mms_msg.databasesのいくつかの一般的なシナリオに対して提供されます。各データベースクラスは、2つの方法を定義する必要があります。

get_mixture_datasetは、「サンプリング」段階をカプセル化し、サンプリングモジュールのパイプラインを構築します。
load_exampleは、「シミュレーション」段階、つまり、オーディオデータの読み込みとミキシングを提供します。

基本的な（パラメーターフリー）データベースは次のようになります。

 from mms_msg . databases . database import MMSMSGDatabase
from lazy_dataset . database import JsonDatabase
import mms_msg

class MyDatabase ( JsonDatabase , MMSMSGDatabase ):
    def get_mixture_dataset ( self , name , rng ):
        ds = mms_msg . sampling . source_composition . get_composition_dataset (
            input_dataset = super (). get_dataset ( name ),
            num_speakers = 2 ,
            rng = rng ,
        )
        ds = ds . map ( mms_msg . sampling . pattern . classical . ConstantOffsetSampler ( 8000 ))
        ds = ds . map ( mms_msg . sampling . environment . scaling . ConstantScalingSampler ( 0 ))
        return ds

    def load_example ( self , example ):
        return mms_msg . simulation . anechoic . anechoic_scenario_map_fn ( example )

そして、インスタンス化することができます

 db = MyDatabase ( 'path/to/source/database.json' )

データセットサンプリングパイプラインの構造については、次のセクションで説明します。

パイプライン構造

これは、単一のデータセット用の単純なサンプリングパイプラインの例です。

 import mms_msg

input_ds = ...  # Get source utterance examples from somewhere

# Compute a composition of base examples. This makes sure that the speaker distribution
# in the mixtures is equal to the speaker distribution in the original database.
ds = mms_msg . sampling . source_composition . get_composition_dataset ( input_dataset = input_ds , num_speakers = 2 )

# If required: Offset the utterances
ds = ds . map ( mms_msg . sampling . pattern . classical . ConstantOffsetSampler ( 0 ))

# If required: Add log_weights to simulate volume differences
ds = ds . map ( mms_msg . sampling . environment . scaling . UniformScalingSampler ( max_weight = 5 ))

サンプリングプロセスは、常に「ソース構成」、すなわち各混合物のサンプリング（ベース）発話の作成から始まります。これはget_composition_datasetで行われます。これは、ソースデータベースからの各発言を同様に頻繁に使用するSMS-WSJと同様のサンプリングアルゴリズムを実装しています。

この後、サンプリングモジュールを適用して、さまざまなスピーキングパターンまたは環境をシミュレートできます。上記の例では、すべてのオフセットをゼロ（つまり、すべての発話が混合物の先頭から始まる）に設定し、 ConstantOffsetSamplerを使用して、均一なUniformScalingSamplerを使用して最大5dBのランダムスケールをサンプリングします。

他の多くのサンプリングモジュールが利用可能です。これには、会議スタイルのスピーキングパターンをシミュレートするものも含まれます。これの例は、このノートブックにあります。

カスタムサンプリングモジュールの書き込み

mms_msgの混合物は、個々のサンプリングモジュールを次々と例に適用することにより作成されます。各サンプリングモジュールは完全に決定論的です。つまり、その出力はハイパーパラメーターと入力例にのみ依存しますが、可変状態を維持することは許可されていません。これは、再現性を確保するためです。サンプリングは、混合物が生成される順序、モジュールが適用される数または順序に依存しません。

サンプリングモジュールは、（中間）混合物を辞書として受信し、それを変更し、返す呼び出し可能です。ハイパーパラメーターのない関数として実装された基本的なサンプリングモジュールは、次のようになります。

 import mms_msg
def my_sampling_module ( example : dict ) -> dict :
    # Get a deterministic random number generator based on the input example
    # and an additional seed string. The seed string ensures that the RNGs
    # differ between different sampling modules
    rng = mms_msg . sampling . utils . rng . get_rng_example ( example , 'my_sampler' )

    # Sample whatever based on RNG and possibly the contents of example
    example [ 'my_random_number' ] = rng . random ()
    return example

重要な部分は、 mms_msg.sampling.utils.rng.get_rng_example関数です。例の辞書（例-IDおよびデータセット）からの基本情報から計算されたシードと追加のシード文字列から計算された種子で初期化されたnp.random.Generatorオブジェクトを返します。つまり、モジュールで生成された乱数は、モジュールが同じ入力例に適用されるたびに等しくなることを意味します。

サンプリングモジュールにハイパーパラメーターがある場合は、不変性を確保するために凍結したデータカラスをお勧めします。

 import mms_msg
from dataclasses import dataclass

@ dataclass ( frozen = True )
class MySamplingModule :
    size : int = 42
    
    def __call__ ( self , example ):
        rng = mms_msg . sampling . utils . rng . get_rng_example ( example , 'my_sampler' )

        # Sample whatever based on RNG and possibly the contents of example
        example [ 'my_random_number' ] = rng . random ( self . size )
        return example

このノートブックには、より実用的な例が記載されています。

引用

MMS-MSGは、次の出版物で提案されました。

 @inproceedings { cordlandwehr2022mms_msg ,
title = { MMS-MSG: A Multi-purpose Multi-Speaker Mixture Signal Generator } ,
author = { Tobias Cord-Landwehr and Thilo von Neumann and Christoph Boeddeker and Reinhold Haeb-Umbach } ,
year = { 2022 } ,
booktitle = { International Workshop on Acoustic Signal Enhancement (IWAENC) } ,
publisher = { {IEEE} } ,
} ```