Adobe Research とノースウェスタン大学は協力して、革新的な AI システムである Sketch2Sound を作成しました。このシステムは、単純な音声模倣やテキスト説明をプロ級の音響効果に変換することができ、サウンド デザイン業界に前例のない効率の向上をもたらします。音声の大きさ、音色、ピッチを分析し、テキストの説明と組み合わせて、ユーザーが望む音響効果を生成します。そのユニークな文脈理解能力はさらに驚くべきもので、たとえば、単純な「森の雰囲気」と鳥の鳴き声の模倣を組み合わせることで、システムは追加の指示なしでリアルな鳥の鳴き声を自動的に生成できます。 Sketch2Sound は音楽作成もサポートしています。ユーザーはリズムをハミングして楽器の名前を入力するだけで、システムが自動的にピッチとリズムを一致させ、対応するドラム パターンを生成します。
このシステムは、音声入力の 3 つの重要な要素、つまり音量、音色 (音の明るさを決定する)、およびピッチを分析します。次に、システムはこれらの機能をテキストの説明と組み合わせて、目的のサウンドを生成します。
ビデオ: García 他、Adobe Research
Sketch2Sound の興味深い点は、コンテキストを理解できることです。たとえば、誰かが「森の雰囲気」と入力して短い音を出すと、システムは特別な指示を必要とせずに、それらの音は鳥の鳴き声であると自動的に認識します。
同じ知性が音楽にも当てはまります。ドラムパターンを作成する場合、ユーザーは「バスドラム、スネアドラム」を入力し、低音と高音を使ってリズムをハミングすることができます。システムは自動的にバスドラムを低音側に、スネアドラムを高音側に配置します。
専門家にきめ細かな制御を提供します研究チームは、ユーザーが生成されるサウンドの精度を調整および制御できるようにする特別なフィルター技術を組み込みました。サウンドデザイナーは、ニーズに応じて、正確で詳細な制御、またはよりリラックスした近似的なアプローチを選択できます。
この柔軟性により、Sketch2Sound はフォーリー アーティスト (映画やテレビ番組の音響効果を作成する専門家) にとって特に価値があります。物理的なオブジェクトを操作して音を出す代わりに、音声やテキストの説明を通じて効果をより迅速に作成できます。
研究者らは、入力録音の空間オーディオ特性が、結果として得られるサウンドに望ましくない形で影響を与える可能性があると指摘していますが、この問題の解決に取り組んでいます。 Adobe は、Sketch2Sound がいつ商用製品になるか、あるいは商用製品になるかどうかを発表していません。
Sketch2Sound の登場により、サウンド デザインの効率と利便性が大幅に向上することは間違いなく、映画、テレビ、ゲーム、その他の業界に新たなクリエイティブの可能性がもたらされます。まだ研究開発段階ではあるが、その可能性は無視できず、今後の発展が期待される。