オーディオ開発ツール (ADT)
これは、機械学習、オーディオ生成、オーディオ信号処理、サウンド合成、ゲーム オーディオ、デジタル オーディオ ワークステーション、空間オーディオ、音楽情報検索、音楽生成、音声認識、音声合成、歌声合成など。
目次
- 機械学習 (ML)
- オーディオ生成 (AG)
- オーディオ信号処理 (ASP)
- サウンド合成(SS)
- ゲームオーディオ (一般提供)
- デジタルオーディオワークステーション(DAW)
- 空間オーディオ (SA)
- Web オーディオ処理 (WAP)
- 音楽情報検索 (MIR)
- ミュージックジェネレーション (MG)
- 音声認識 (ASR)
- 音声合成 (TTS)
- 歌声合成(SVS)
プロジェクト一覧
機械学習 (ML)
- librosa - Librosa は、音楽およびオーディオ分析用の Python パッケージです。音楽情報検索システムの作成に必要な構成要素を提供します。
- Essentia - Essentia は、Affero GPLv3 ライセンスに基づいてリリースされた、オーディオ分析およびオーディオ ベースの音楽情報取得用のオープンソース C++ ライブラリです。これには、オーディオ入出力機能、標準デジタル信号処理ブロック、データの統計的特徴付け、およびスペクトル、時間、調性および高レベルの音楽記述子の大規模なセットを実装する、再利用可能なアルゴリズムの広範なコレクションが含まれています。 Python バインディングを含む、オーディオと音楽の分析、記述、合成のための C++ ライブラリ。
- DDSP - DDSP: 微分可能デジタル信号処理。 DDSP は、一般的な DSP 機能 (シンセサイザー、ウェーブシェイパー、フィルターなど) の微分可能なバージョンのライブラリです。これにより、これらの解釈可能な要素を深層学習モデルの一部として、特にオーディオ生成の出力層として使用できるようになります。
- MIDI-DDSP - MIDI-DDSP: 階層モデリングによる音楽パフォーマンスの詳細な制御。 MIDI-DDSP は、DDSP を拡張した MIDI 合成のための階層オーディオ生成モデルです。
- DDSP-VST - リアルタイム DDSP ニューラル シンセサイザーおよびエフェクト。 JUCE フレームワークと DDSP を使用して構築された VST3/AU プラグインとデスクトップ アプリケーション。
- torchsynth - オーディオ ML 研究者向けの、リアルタイムより 16200 倍高速な pytorch の GPU オプションのモジュラー シンセサイザー。
- aubio - aubio はオーディオ信号から注釈を抽出するために設計されたツールです。その機能には、各攻撃の前にサウンド ファイルをセグメント化し、ピッチ検出を実行し、ビートをタップし、ライブ オーディオから MIDI ストリームを生成することが含まれます。
- audioFlux - audioFlux は、オーディオと音楽の分析、特徴抽出のためのディープ ラーニング ツール ライブラリです。数十の時間-周波数解析変換手法と、対応する時間領域と周波数領域の特徴の数百の組み合わせをサポートします。トレーニングのために深層学習ネットワークに提供することができ、分類、分離、音楽情報検索(MIR)、ASRなどのオーディオ分野のさまざまなタスクの研究に使用されます。
- Polymath - Polymath は機械学習を使用して、あらゆる音楽ライブラリ (ハードドライブや YouTube など) を音楽制作サンプル ライブラリに変換します。このツールは自動的に曲をステム (ビート、ベースなど) に分割し、同じテンポとビートグリッド (例: 120bpm) に量子化し、音楽構造 (例: バース、コーラスなど)、キー (例: C4、E3) を分析します。 、など)およびその他の情報(音色、音量など)を取得し、オーディオを MIDI に変換します。その結果、音楽プロデューサー、DJ、ML オーディオ開発者のワークフローを合理化する検索可能なサンプル ライブラリが生まれました。
- IPython - IPython は、Python を対話的に使用して最大限に活用するのに役立つ豊富なツールキットを提供します。
- torchaudio - PyTorch のオーディオ ライブラリ。 PyTorch を利用したオーディオ信号処理のためのデータ操作と変換。
- TorchLibrosa - Librosa の PyTorch 実装。
- torch-audiomentations - PyTorch での高速オーディオ データ拡張。オーディオメンテーションからインスピレーションを受けています。ディープラーニングに役立ちます。
- PyTorch Audio Augmentations - 時間領域のオーディオ用の PyTorch 用のオーディオ データ拡張ライブラリ。
- Asteroid - Asteroid は、一般的なデータセットでの迅速な実験を可能にする Pytorch ベースのオーディオ ソース分離ツールキットです。これには、広範囲のデータセットとアーキテクチャをサポートするソース コードと、いくつかの重要な論文を再現するためのレシピのセットが付属しています。
- Kapre - Kapre: Keras オーディオ プリプロセッサ。 Keras オーディオ プリプロセッサ - STFT、InverseSTFT、Melspectrogram などを GPU でリアルタイムに計算します。
- praudio - 深層学習オーディオ アプリケーション用のオーディオ前処理フレームワーク。
- automix-toolkit - 深層学習自動混合モデルをトレーニングするためのモデルとデータセット。
- DeepAFx - DeepAFx: ディープ オーディオ エフェクト。オーディオ信号処理エフェクト (FX) は、さまざまなメディアのサウンド特性を操作するために使用されます。ただし、多くの FX は、特に初心者ユーザーにとって、使用するのが困難または退屈な場合があります。私たちの作業では、FX を直接使用して自動オーディオ制作タスクを実行するようにマシンをトレーニングすることで、オーディオ FX の使用方法を簡素化することを目指しています。使い慣れた既存のツールを使用して制御パラメーターを処理および提案することで、AI の力と人間の創造的な制御を融合してクリエイターに力を与える独自のパラダイムを作成できます。
- nnAudio - nnAudio は、PyTorch 畳み込みニューラル ネットワークをバックエンドとして使用するオーディオ処理ツールボックスです。そうすることで、ニューラル ネットワークのトレーニング中にオンザフライでオーディオからスペクトログラムを生成でき、フーリエ カーネル (CQT カーネルなど) をトレーニングできます。
- WavEncoder - WavEncoder は、オーディオ信号のエンコード、オーディオ拡張のための変換、および PyTorch バックエンドを使用したオーディオ分類モデルのトレーニングのための Python ライブラリです。
- SciPy - SciPy (「ため息パイ」と発音) は、数学、科学、工学用のオープンソース ソフトウェアです。これには、統計、最適化、統合、線形代数、フーリエ変換、信号および画像処理、ODE ソルバーなどのモジュールが含まれています。
- pyAudioAnalysis - Python オーディオ分析ライブラリ: 特徴抽出、分類、セグメンテーション、およびアプリケーション。
- Mutagen - Mutagen はオーディオ メタデータを処理する Python モジュールです。 ASF、FLAC、MP4、Monkey's Audio、MP3、Musepack、Ogg Opus、Ogg FLAC、Ogg Speex、Ogg Theora、Ogg Vorbis、True Audio、WavPack、OptimFROG、AIFF オーディオ ファイルをサポートしています。 ID3v2 のすべてのバージョンがサポートされており、すべての標準 ID3v2.4 フレームが解析されます。 Xing ヘッダーを読み取り、MP3 のビットレートと長さを正確に計算できます。 ID3 タグと APEv2 タグは、音声フォーマットに関係なく編集できます。また、個々のパケット/ページ レベルで Ogg ストリームを操作することもできます。
- LibXtract - LibXtract は、オーディオ特徴抽出関数のシンプルでポータブルな軽量ライブラリです。このライブラリの目的は、抽出階層を作成するために「カスケード」されるように設計された特徴抽出プリミティブの比較的網羅的なセットを提供することです。
- dejavu - Python でのオーディオのフィンガープリントと認識。 Dejavu は、音声を一度聞いて指紋を採取することで、音声を記憶できます。次に、曲を再生し、マイク入力またはディスクからの読み取りを録音することで、Dejavu はデータベースに保持されている指紋とオーディオを照合し、再生中の曲を返します。
- マッチング - オープンソースのオーディオマッチングとマスタリング。 Matching 2.0 は、オーディオのマッチングとマスタリングのための新しいコンテナ化された Web アプリケーションおよびPython ライブラリです。
- TimeSide - TimeSide は、低レベルおよび高レベルのオーディオ分析、イメージング、トランスコーディング、ストリーミング、ラベル付けを可能にする Python フレームワークです。その高レベル API は、プラグイン アーキテクチャ、安全でスケーラブルなバックエンド、拡張可能な動的 Web フロントエンドを使用して、あらゆるオーディオまたはビデオ アセットの非常に大規模なデータセットに対する複雑な処理を可能にするように設計されています。
- Meyda - Meyda は Javascript オーディオ特徴抽出ライブラリです。 Meyda は、オフラインの特徴抽出と、Web Audio API を使用したリアルタイムの特徴抽出の両方をサポートしています。私たちはそれについて論文を書きました。それはここから入手できます。
- Audiomentations - オーディオ データ拡張用の Python ライブラリです。アルバムからインスピレーションを受けています。ディープラーニングに役立ちます。 CPUで動作します。モノラルオーディオとマルチチャンネルオーディオをサポートします。 Tensorflow/Keras や Pytorch などのトレーニング パイプラインに統合できます。 Kaggle コンテストで世界クラスの結果を得るのに貢献してきました。次世代オーディオ製品を製造する企業によって使用されています。
- soundata - サウンド データセットをダウンロード、ロード、操作するための Python ライブラリです。
- auraloss - PyTorch のオーディオに焦点を当てた損失関数のコレクション。
- Neutone – AI オーディオ プラグインおよびコミュニティ。 AI 研究と創造性の間のギャップを埋める
- Waveformer - リアルタイムのターゲットサウンド抽出のための効率的なアーキテクチャ。
- EfficientAT - 効率的な大規模オーディオのタグ付け。ダウンストリームのトレーニングとオーディオ埋め込みの抽出に対応できる、AudioSet の事前トレーニング済みモデルを提供します。
- EfficientAT_HEAR - オーディオ表現の総合評価ベンチマークで EfficientAT モデルを評価します。
- VAD-python - Python の音声アクティビティ検出器。音声アクティビティ検出器を wave ファイルに適用する Python コード。音声帯域のエネルギーと総エネルギーの比率に基づく音声アクティビティ検出器。
- Diffsynth - PyTorch の微分可能な音楽シンセサイザー。
- リアルタイム DDSP - neutone と互換性のある PyTorch のリアルタイム (ストリーミング) DDSP。
- pc-ddsp - ピッチ制御可能な DDSP ボコーダー。
- SSSSM-DDSP - 微分可能な DSP を使用した半教師ありシンセサイザー サウンド マッチング。
- GOLF - DDSP ベースのニューラル ボコーダー。
- audacitorch - audacity でモデルを使用するための PyTorch ラッパー!
- Scyclone - Scyclone は、ニューラル音色転送テクノロジーを利用して、オーディオ制作への新しいアプローチを提供するオーディオ プラグインです。
- Scyclone AI - Scyclone のプリセットを作成します: リアルタイム ニューラル音色転送プラグイン。
- マルチ タスク自動シンセサイザー プログラミング - これは、マルチ VST 自動シンセサイザー プログラミング プロジェクトのコードです。
- NeuralNote - 深層学習を使用したオーディオから MIDI へのトランスクリプション用のオーディオ プラグイン。
- AudioDec - オープンソースのストリーミング高忠実度ニューラル オーディオ コーデック。
- PaSST - パッチアウトを使用したオーディオトランスフォーマーの効率的なトレーニング。
- speech_data_augment - 音声データ拡張アルゴリズムの概要。
- AugLy - オーディオ、画像、テキスト、ビデオのデータ拡張ライブラリ。
- NeuraFuzz - カスタムのアナログ ファズ回路設計でトレーニングされたニューラル オーディオ プラグイン。
- Ultimate Vocal Remover GUI - ディープ ニューラル ネットワークを使用するボーカル リムーバーの GUI。
- Frechet Audio Distance - Frechet Audio Distance 計算用の軽量ライブラリ。
- LAPE - 低リソースのオーディオ処理と評価 (SSL 事前トレーニングとダウンストリーム微調整) のための統合フレームワーク。
- Azure SDK for Python - このリポジトリは、Azure SDK for Python のアクティブな開発用です。
- Panotti - Keras を使用したマルチチャネル ニューラル ネットワーク オーディオ分類器。
- Allie - Allie は、音声、テキスト、画像、ビデオ、または .CSV ファイルから機械学習モデルを構築するためのフレームワークです。
- Torchplugins - Pytorch モデルをロードするための Max/MSP、PureData、Unity プラグイン。
- aeiou - (ML) オーディオ エンジニアリング I/O ユーティリティ。
- BirdNET-Analyzer - 科学的な音声データ処理のための BirdNET アナライザー。
- spring-reverb-dl-models - 深層学習によるスプリング リバーブの仮想アナログ モデリング。
- EVAR ~ - EAR ~ オーディオ表現の評価パッケージ。
- Julius - オーディオおよび 1D 信号用の高速 PyTorch ベースの DSP。
- NeuralDX7 - 古典的な Yamaha DX7 に関連したランダムな機械学習の実験。
- HANCE - HANCE は、機械学習の専門家、サウンド エンジニア、オーディオ処理の専門家によって開発された最高品質の信号処理技術を提供します。当社のテクノロジーは、ノイズ、リバーブ、その他の信号障害を除去することで、ユーザーに最高のオーディオ体験を提供するように設計されています。
- IDEAW - 反転可能なデュアルエンベディングを備えた堅牢なニューラルオーディオ透かし。
- SyNEThesia - SyNEThesia は、深層学習ベースの音楽とサウンドのビジュアライザーであり、刺激を複数の方法で知覚する (たとえば、音を見るなど) 神経学的状態である共感覚に関する言葉遊びです。
- Voxaboxen - Voxaboxen は、録音内の (重複する可能性がある) サウンド イベントの開始時間と終了時間を見つけるように設計されたディープ ラーニング フレームワークです。
- ボーカルセパレート - ボーカルとバックグラウンドミュージックを分離するための非常にシンプルなツールで、2stems/4stems/5stems モデルを使用し、Web 操作用に完全にローカライズされています。
- 音声強化 - オーディオのノイズ除去のためのディープラーニング。
- SNAC - マルチスケール ニューラル オーディオ コーデック (SNAC) は、44.1 kHz オーディオを低ビットレートで個別のコードに圧縮します。
- スーパーボイス GPT - テキストから音声合成装置へのフィードに適した長さの音素に変換する GPT モデル。
- AudioEditing - DDPM 反転を使用したゼロショットの教師なしテキストベースのオーディオ編集。
- MAX-Audio-Classifier - IBM Developer Model Asset Exchange: オーディオ分類子。
- anira - リアルタイム オーディオ アプリケーションにおけるニューラル ネットワーク推論のためのアーキテクチャ。
- FakeSound - ディープフェイクの一般的な音声検出。
- Audio Mamba - オーディオ表現学習のための双方向状態空間モデル。
- SSAMBA - SSAMBA: Mamba 状態空間モデルを使用した自己教師あり音声表現学習。
- SLAM-LLM - SLAM-LLM は、研究者や開発者が音声、言語、音声、音楽の処理に焦点を当てたカスタム マルチモーダル大規模言語モデル (MLLM) をトレーニングできる深層学習ツールキットです。
- MIDI2vec - MIDI2vec: MIDI ベクトル空間表現の埋め込みを学習します。
^ 目次に戻る ^
オーディオ生成 (AG)
- AudioLCM - 潜在一貫性モデルを使用したテキストからオーディオへの生成。
- Auffusion - Auffusion: テキストからオーディオへの生成に拡散と大規模言語モデルの力を活用します。
- Audiobox - Audiobox: 自然言語プロンプトを使用した統合オーディオ生成。
- Amphion - Amphion: オープンソースのオーディオ、音楽、音声生成ツールキット。
- Nendo - Nendo AI オーディオ ツール スイート。
- 安定したオーディオ - 高速タイミング条件付き潜在オーディオ拡散。
- WavJourney - 大規模な言語モデルを使用した構成オーディオの作成。
- Audiocraft - Audiocraft は、オーディオ生成に関する深層学習研究のための PyTorch ライブラリです。
- vschaos2 - vschaos2: ビンテージ ニューラル オーディオ合成。
- Neural Resonator - 微分可能なモーダル共鳴器を使用した剛体サウンド合成。
- SoundStorm - SoundStorm: 効率的な並列オーディオ生成。
- SpeechGPT - SpeechGPT: 本質的なクロスモーダル会話能力を備えた大規模言語モデルの強化。
- CLAPSpeech - CLAPSpeech: 対照的な言語音声の事前トレーニングを使用してテキストのコンテキストから韻律を学習します。
- AudioGPT - AudioGPT: 音声、音楽、サウンド、トーキング ヘッドの理解と生成。
- Bark - Bark は、Suno によって作成されたトランスフォーマーベースのテキストからオーディオへのモデルです。 Bark は、非常にリアルな多言語音声だけでなく、音楽、背景ノイズ、単純な効果音などの他の音声も生成できます。
- TANGO - TANGO は、Text-to-Audio (TTA) 生成のための潜在拡散モデル (LDM) です。 TANGO は、人間の声、動物の声、自然および人工の音、テキストプロンプトからの効果音などのリアルなオーディオを生成できます。
- ArchiSound - PyTorch での拡散モデルを使用したオーディオ生成。
- WaveGAN - WaveGAN: 敵対的生成ネットワークを使用して生のオーディオを合成する方法を学びます。
- NeuralSound - 音響転送による学習ベースのモーダルサウンド合成。
- RAVE - RAVE: リアルタイム オーディオ バリエーション オートエンコーダー。高速かつ高品質のニューラル オーディオ合成のための変分オートエンコーダー。
- AudioLDM - AudioLDM: 潜在拡散モデルを使用したテキストからオーディオへの生成。
- Make-An-Audio - Make-An-Audio: プロンプト拡張拡散モデルによるテキストからオーディオへの生成。
- Make-An-Audio 3 - Make-An-Audio 3: フローベースの大型拡散トランスを介してテキストをオーディオに変換します。
- Moûsai - Moûsai: ロングコンテキスト潜在拡散によるテキストからオーディオへの変換。
- Im2Wav - 画像ガイド付きオーディオ生成。我々は、画像誘導型オープンドメインオーディオ生成システムであるIm2Wavを提案します。入力画像または一連の画像を指定すると、Im2Wav は意味的に関連したサウンドを生成します。
- Oobleck - ダウンストリームのニューラルオーディオ合成用のオープンなサウンドストリーム風の VAE コーデック。
- USS - これは、弱いラベルが付けられたデータを使用したユニバーサル ソース分離の PyTorch 実装です。 USS システムは、実際の録音からサウンド クラスを自動的に検出して分離できます。 USS システムは、階層的なオントロジー構造で最大数百のサウンド クラスを分離できます。
- ディフューザー - ? Diffusers は、画像、音声、さらには分子の 3D 構造を生成するための、最先端の事前トレーニング済み拡散モデルの頼りになるライブラリです。
- ONE-PEACE - 視覚、音声、言語モダリティにわたる一般的な表現モーダル。
- tiny-audio-diffusion - これは、短いオーディオ サンプルを生成し、2GB 未満の VRAM を備えた GPU で波形拡散モデルをトレーニングするためのリポジトリです。
- steady-audio-tools - 条件付きオーディオ生成のための生成モデル。
- CTAG - シンセサイザー プログラミングによるクリエイティブなテキストからオーディオへの生成。
- Audiogen Codec - 一般オーディオ用の低圧縮 48khz ステレオ ニューラル オーディオ コーデックで、オーディオの忠実度を最適化します。
- WavCraft - WavCraft はオーディオの作成と編集のための AI エージェントです。
- FoleyCraafter - FoleyCraafter: 本物のような同期したサウンドでサイレント ビデオに命を吹き込みます。
^ 目次に戻る ^
オーディオ信号処理 (ASP)
- SouPyX - SouPyX は、オーディオ探索のための非常にカラフルなスペースで、さまざまなオーディオ分野の研究と探索に適しています。 SouPyX では、オーディオ処理、サウンド合成、オーディオエフェクト、空間オーディオ、オーディオビジュアライゼーション、AI オーディオなどの研究と探索を実行できます。
- SoundFile - SoundFile は、libsndfile、CFFI、および NumPy に基づくオーディオ ライブラリです。
- Audio DSPy - audio_dspy は、オーディオ信号処理ツール用の Python パッケージです。
- pyAudioDspTools - pyAudioDspTools は、numpy を使用するだけでオーディオを操作するための Python 3 パッケージです。
- wave - wave モジュールは、WAV サウンド形式への便利なインターフェイスを提供します。圧縮/解凍はサポートしていませんが、モノラル/ステレオはサポートしています。
- FFmpeg - FFmpeg は、オーディオ、ビデオ、字幕、関連メタデータなどのマルチメディア コンテンツを処理するためのライブラリとツールのコレクションです。
- Opus - インターネット用の最新のオーディオ圧縮。
- Pedalboard - Pedalboard は、読み取り、書き込み、エフェクトの追加など、オーディオを操作するための Python ライブラリです。最も一般的なオーディオ ファイル形式と多くの一般的なオーディオ エフェクトをすぐにサポートし、サードパーティ プラグイン用の VST3 および Audio Unit 形式の使用も可能にします。
- PyAudio - PyAudio は、クロスプラットフォームのオーディオ I/O ライブラリである PortAudio v19 の Python バインディングを提供します。 PyAudio を使用すると、Python を使用して、GNU/Linux、Microsoft Windows、Apple macOS などのさまざまなプラットフォームでオーディオを簡単に再生および録音できます。
- PortAudio - PortAudio は、無料のクロスプラットフォーム、オープンソースのオーディオ I/O ライブラリです。これを使用すると、Windows、Macintosh OS X、Unix (OSS/ALSA) などの多くのプラットフォームでコンパイルして実行できる単純なオーディオ プログラムを「C」または C++ で作成できます。これは、異なるプラットフォーム上の開発者間でのオーディオ ソフトウェアの交換を促進することを目的としています。多くのアプリケーションは、オーディオ I/O に PortAudio を使用します。
- Pyo - pyo は、デジタル信号処理スクリプトの作成を支援するために C で書かれた Python モジュールです。Python DSP モジュールです。 pyo を使用すると、ユーザーは信号処理チェーンを Python スクリプトまたはプロジェクトに直接組み込み、インタープリターを通じてリアルタイムで操作できるようになります。
- tinytag - tinytag は、純粋な Python で最も一般的なオーディオ ファイルの音楽メタデータを読み取るためのライブラリです。 Python 2 または 3 を使用して、MP3、OGG、OPUS、MP4、M4A、FLAC、WMA、Wave、AIFF ファイルのオーディオと音楽のメタデータと長さを読み取ります。
- Friture - Friture は、ライブオーディオデータをリアルタイムで視覚化および分析するアプリケーションです。 Friture は、スコープ、スペクトラム アナライザー、ローリング 2D スペクトログラムなどのいくつかのウィジェットにオーディオ データを表示します。
- sounddevice - この Python モジュールは、PortAudio ライブラリのバインディングと、オーディオ信号を含む NumPy 配列を再生および記録するためのいくつかの便利な関数を提供します。
- Pydub - シンプルで簡単な高レベルのインターフェイスでオーディオを操作します。
- NAudio - .NET 用のオーディオおよび MIDI ライブラリ。
- SoundCard - SoundCard は、CPython 拡張機能に頼らずにオーディオを再生および録音するためのライブラリです。代わりに、素晴らしい CFFI と Linux、Windows、macOS のネイティブ オーディオ ライブラリを使用して実装されています。
- TarsosDSP - TarsosDSP はオーディオ処理用の Java ライブラリです。その目的は、他の外部依存関係を持たずに純粋な Java でできるだけ簡単に実装された実用的な音楽処理アルゴリズムへの使いやすいインターフェイスを提供することです。
- Maximilian - Maximilian は、クロスプラットフォームおよびマルチターゲットのオーディオ合成および信号処理ライブラリです。これは C++ で書かれており、JavaScript へのバインディングを提供します。
- Synthesis ToolKit in C++ (STK) - Synthesis ToolKit in C++ (STK) は、C++ プログラミング言語で記述されたオープン ソースのオーディオ信号処理およびアルゴリズム合成クラスのセットです。
- JUCE - JUCE は、VST、VST3、AU、AUv3、AAX、LV2 オーディオ プラグインおよびプラグイン ホストを含む、高品質のデスクトップおよびモバイル アプリケーションを作成するためのオープンソースのクロスプラットフォーム C++ アプリケーション フレームワークです。 JUCE は、CMake を介して既存のプロジェクトと簡単に統合できます。また、Xcode (macOS および iOS)、Visual Studio、Android Studio、Code::Blocks、および Linux Makefile のプロジェクトのエクスポートをサポートする Projucer を介してプロジェクト生成ツールとして使用することもできます。ソースコードエディタも含まれています。
- iPlug 2 - デスクトップ、モバイル、Web 用の C++ オーディオ プラグイン フレームワーク。
- CHOC - 最小限の依存関係を持つ基本的な便利なタスクを提供する、許可されたライセンスを持つヘッダーのみのクラスのコレクション。
- Q - Q は、オーディオ デジタル信号処理用のクロスプラットフォーム C++ ライブラリです。共振回路の品質を表す無次元パラメーターである「Q ファクター」にちなんで名付けられた Q DSP ライブラリは、その名前の単純さが示すようにシンプルかつエレガントで、小型のマイクロコントローラーで実行できるほど効率的になるように設計されています。
- BasicDSP - BasicDSP - オーディオの処理/信号処理の実験のためのツール。
- DaisySP - C++ の強力なオープンソース DSP ライブラリ。
- 音声信号処理ツールキット (SPTK) - 音声信号処理ツールキット (SPTK) は、UNIX 環境用の音声信号処理ツールのスイートです。たとえば、LPC 分析、PARCOR 分析、LSP 分析、PARCOR 合成フィルター、LSP 合成フィルター、ベクトル量子化技術などです。 、およびそれらのその他の拡張バージョン。
- eDSP - eDSP (easy Digital Signal Processing) は、最新の C++ で書かれたデジタル信号処理フレームワークで、デジタル信号処理、オーディオ エンジニアリング、電気通信システムで頻繁に使用される一般的な機能とアルゴリズムの一部を実装します。
- KFR - KFR は、高パフォーマンスに重点を置いたオープンソースの C++ DSP フレームワークです。高速で最新の C++ DSP フレームワーク、FFT、サンプル レート変換、FIR/IIR/Biquad フィルター (SSE、AVX、AVX-512、ARM NEON)。
- MWEngine - C++ で書かれた Android 用のオーディオ エンジンおよび DSP で、Java/Kotlin API を提供しながら音楽コンテキスト内で低レイテンシーのパフォーマンスを提供します。 OpenSL と AAudio の両方をサポートします。
- LabSound - LabSound は、C++ グラフベースのオーディオ エンジンです。このエンジンは、ゲーム、ビジュアライザー、インタラクティブ インストール、ライブ コーディング環境、VST プラグイン、オーディオ編集/シーケンス アプリケーションなど、さまざまな種類のソフトウェアへの統合を目的としたバッテリー付属の静的ライブラリとしてパッケージ化されています。
- Gist - Gist は C++ ベースのオーディオ分析ライブラリです。
- Realtime_PyAudio_FFT - Python でのリアルタイム オーディオ分析。PyAudio と Numpy を使用して、ストリーミング オーディオから FFT 特徴を抽出して視覚化します。
- スペクトル - Python でのスペクトル分析。 Spectrum は、フーリエ変換、パラメトリック手法、または固有値解析に基づいてパワー スペクトル密度を推定するツールを含む Python ライブラリです。フーリエ法は、コレログラム、ピリオドグラム、およびウェルチ推定に基づいています。標準的なテーパ ウィンドウ (Hann、Hamming、Blackman) と、よりエキゾチックなウィンドウ (DPSS、Taylor など) が利用可能です。
- tidstream - ライブ Vorbis および Opus ストリームを生成および操作するためのツール。
- AudioTraits - AudioTraits は、オーディオ処理のテストをより便利で読みやすくするために設計された抽象化です。 「オーディオ特性」は、特定のオーディオ信号 (そのチャネルの一部またはすべて) を分析し、特定のプロパティをチェックします。このチェックの結果はブール値であるため、任意の単体テスト フレームワークに簡単に統合できます。
- genMDM エディタ - Sega Mega Drive および Genesis 用の MIDI コントローラーである genMDM 用の Web ベースのインターフェイス。メガドライブのMIDIインターフェイスにも対応。
- 3DAudioVisualizers - オーディオと GUI に JUCE を使用した C++ の OpenGL オーディオ ビジュアライザー スイート。
- AudioStretchy - AudioStretchy は、ピッチを変更せずにオーディオ信号をタイムストレッチできる Python ライブラリです。
- SwiftAudio - SwiftAudioEx は、Swift で書かれた iOS オーディオ プレーヤーで、ストリームやファイルからのオーディオ再生を簡単に操作できるようにします。
- WaveTools - WaveTools はオーディオ ファイルを操作するためのフレームワークです。特に WAVE ファイル (.wav)。
- SimplyCoreAudio - ? macOS での Core Audio の使用の煩わしさを軽減することを目的とした Swift フレームワーク。
- DPF - DISTRHO プラグイン フレームワーク。 DPF は、新しいプラグインの開発を簡単で楽しい作業にするように設計されています。
- Neural Amp Modeler プラグイン - iPlug2 で構築された Neural Amp Modeler 用の VST3/AudioUnit プラグイン。
- lsp-dsp-lib - 信号処理用の DSP ライブラリ。
- Hip-Hop - Web ビューで UI を実行するオーディオ プラグインを作成するためのライブラリ。 DPFベース。
- MGT-python - Python 用の音楽ジェスチャー ツールボックス。
- ASP - オーディオ信号処理 Python ツール。
- TinyAudio - TinyAudio は、クロスプラットフォームのオーディオ出力ライブラリです。
- pymixconsole - Python のヘッドレス マルチトラック ミキシング コンソール.
- Effects-plugin - Elementary と JUCE を使用したオーディオ エフェクト プラグイン テンプレート。
- miniaudio - C で書かれた、単一のソース ファイル内のオーディオ再生およびキャプチャ ライブラリです。
- AudioMass - 無料のフル機能を備えた Web ベースのオーディオおよび波形編集ツール。
- ユニバーサル Android ミュージック プレーヤー サンプル - Android 用のサンプル オーディオ アプリ。
- jsfx - Reaper 用の JS (JesuSonic) プラグインの無料コレクション。
- Fourier - Rust の高速フーリエ変換 (FFT)。
- ProtoFaust - モジュラー シンセサイザー VCV Rack 用の Faust での DSP プロトタイピング。
- Polar - CUDA 処理用のオーディオ エンジン (Windows/Linux)。
- Audio-to-MIDI コンバーター - wav ファイルからピッチを検出し、時間的に量子化された MIDI を書き込むプログラム。
- AudioTSM - AudioTSM は、リアルタイムのオーディオ タイムスケール変更手順、つまりピッチを変更せずにオーディオ信号の速度を変更するアルゴリズム用の Python ライブラリです。
- Multi-Filter-Delay - Juce/C++ を通じてプログラムされたオリジナルのデジタル オーディオ エフェクト。
- convoLV2 - convoLV2 は、遅延ゼロでオーディオ信号を畳み込む LV2 プラグインです。
- Cloud Seed - Cloud Seed は、広大で無限の空間と変調されたエコーをエミュレートするために C# および C++ で構築されたアルゴリズム リバーブ プラグインです。
- バックグラウンド ミュージック - バックグラウンド ミュージック、macOS オーディオ ユーティリティ: 音楽を自動的に一時停止し、個々のアプリの音量を設定し、システム オーディオを録音します。
- audiowaveform - 波形データを生成し、オーディオ ファイルから波形イメージをレンダリングする C++ プログラム。
- Mutagen - オーディオメタデータを処理するための Python モジュール。
- lewton - 純粋な Rust で書かれた Vorbis デコーダ。
- Hound - Rust の wav エンコードおよびデコード ライブラリ.
- Rodio - Rust オーディオ再生ライブラリ.
- CPAL - 純粋な Rust のクロスプラットフォームオーディオ I/O ライブラリ。
- CSCore - CSCore は、完全に C# で書かれた無料の .NET オーディオ ライブラリです。
- TinyOSC - バニラ C で書かれた最小限の Open Sound Control (OSC) ライブラリ。
- TinyWav - (16b-int & 32b-float) WAV オーディオ ファイルの読み取りと書き込みのための最小限の C ライブラリ。
- JAsioHost - Java ベース (オーディオ ストリーム入力/出力) ASIO ホスト。
- PyWavelets - PyWavelets は、Python でのウェーブレット変換用の無料のオープンソース ライブラリです。ウェーブレットは、時間と周波数の両方で局所化された数学的な基底関数です。
- ChowMultiTool - マルチツールオーディオプラグイン。
- RE201models - Roland RE201 のデジタル モデル。 VST3、AU プラグインおよびソース コード。
- RtAudio - Linux (ネイティブ ALSA、JACK、PulseAudio および OSS)、Macintosh OS X (CoreAudio および JACK)、および Windows (DirectSound、ASIO、および WASAPI) にわたるリアルタイム オーディオ入出力用の共通 API を提供する C++ クラスのセットオペレーティング システム。
- RtAudio-rs - 安全な Rust ラッパーと RtAudio へのバインディング。
- PFFFT - かなり高速な FFT と PFFASTCONV による高速な畳み込み。
- SHAART - SHAART は、教育目的のための Python ベースのオーディオ分析ツールキットです。
- TD-JUCE - TouchDesigner の JUCE オーディオと VST。
- JIVE - JIVE は、UI 開発に対するより現代的なアプローチを実現したいという要望を中心とした JUCE モジュールのバンドルです。
- Ampluda - Amplituda - オーディオ ファイルを処理し、サンプルの配列を提供する FFMPEG に基づく Android ライブラリ。
- TagLib - TagLib オーディオ メタデータ ライブラリ。
- speexdsp - Speex エコー キャンセラー Python ライブラリ。
- PyPam - 受動音響モニタリング (PAM) 用の Python 受動音響分析ツール。
- AudioTools - GPU による拡張機能などを備えたオブジェクト指向のオーディオ データの処理。
- Equalize It - プロジェクトはイコライゼーション用の VST プラグインです。ユーザー インターフェイスには、スペクトラム アナライザー、フィルター コントロール パネル、周波数応答曲線、およびレベル メーターが含まれています。
- JDSP4Linux - PipeWire および PulseAudio クライアント用のオーディオ エフェクト プロセッサ。
- FIRconv - 有限インパルス応答 (FIR) フィルターの Python 実装。
- OpenDSP - オーディオおよびビデオ DSP 用のヘッドレス Linux 組み込みリアルタイム OS。
- Ultralight-juce - より美しい UI のために Ultralight C++/HTML レンダラーを JUCE と統合します。
- Vult - Vult は、オーディオ エフェクトやシンセサイザーなどのデジタル信号処理 (DSP) アルゴリズムをプログラミングする場合に特に役立ちます。
- CloudSeed [JUCE] - CloudSeed VST プラグイン用の JUCE ベースの UI。
- TFliteTemplatePlugin - 深層学習推論に TensorFlow lite を使用するための JUCE テンプレート プラグイン。
- DrumFixer - DrumFixer は、ミキシング エンジニアがより良いドラムサウンドを実現できるように設計されたオーディオ プラグインです。
- BasicAudioPlayer - AVAudioEngine ベースのオーディオ プレーヤーを簡単に作成できる Swift ライブラリ。
- PLAudioMixer - AVAudioEngine オフライン レンダリング モードに基づくシンプルなオーディオ ミキサー。
- estratto - Estratto は、デジタル オーディオ信号から豊富なオーディオ機能を抽出するために設計された強力でユーザー フレンドリーな Rust ライブラリです。
- vampy - Vamp オーディオ分析プラグインを Python で作成できるラッパー。
- SoundWave - SoundWave は、時間の経過に伴うサウンドを表すカスタマイズ可能なビューです。
- PyAV - PyAV は、FFmpeg ライブラリの Python バインディングです。
- audio-dsp - オーディオ プラグイン開発 + DSP をいじってみます。
- openSMILE - openSMILE (大空間抽出によるオープンソース音声および音楽解釈) は、特に音声および音楽アプリケーションを対象とした音声分析、処理、分類のための完全なオープンソース ツールキットです。
- Carla - Carla は、多くのオーディオ ドライバーとプラグイン形式をサポートする、完全な機能を備えたオーディオ プラグイン ホストです。
- JUCE-HEAVY - JUCE を Heavy C++ (HVCC) で生成されたソース ファイルと接続する方法を示すテンプレート JUCE プロジェクト。
- Dplug - オーディオ プラグイン フレームワーク。 Linux/macOS/Windows 用の VST2/VST3/AU/AAX/LV2。
- DAWNet - DAWNet は、リモートの Google Colab または Script に接続する DAW (デジタル オーディオ ワークステーション) プラグインです。
- Fish Audio Preprocessor - トレーニング用にオーディオを前処理します。
- clap-validator - 自動 CLAP 検証およびテスト ツール。
- DSP テストベンチ - JUCE フレームワークのユーザー向けの DSP テストベンチ。
- カプラー - カプラーは、Rust でオーディオ プラグインを作成するためのフレームワークです。現在、VST3 と CLAP API をサポートしていますが、近い将来 AUv2 と AAX もサポートする予定です。
- PyOgg - PyOgg は、Xiph.org の Opus、Vorbis、FLAC オーディオ ファイル形式および Ogg コンテナ形式の Python バインディングを提供します。
- streamlit-audiorecorder - streamlit 用のオーディオレコーダー。
- DtBlkFx - DtBlkFx は、高速フーリエ変換 (FFT) ベースの VST プラグインです。
- smartelectronix-すべてのbram @ smartelectronixプラグインのオープンソースバージョン。
- CookieJuce- CMakeで最新のJUCEプロジェクトを生成するためのコマンドラインツール。
- Auglib -Auglibは、オーディオ信号とファイルを変更するための変換を提供する拡張ライブラリです。
- Klang -Klangは、C ++でのリアルタイムオーディオプロセスの設計と開発の言語です。
^コンテンツに戻る ^
サウンド合成(SS)
- CSOUND -CSOUNDは、1985年にMIT Media LabでBarry Vercoeによって元々開発されたサウンドと音楽のコンピューティングシステムです。 90年代以来、コア開発者のグループによって開発されています。
- 純粋なデータ-Pure Data ( PD )は、1990年代にMiller Pucketteによって開発された視覚的なプログラミング言語で、インタラクティブなコンピューター音楽とマルチメディア作品を作成するための視覚的なプログラミング言語です。 Pucketteはプログラムの主な著者ですが、PDは新しい拡張機能に取り組んでいる大規模な開発者ベースを持つオープンソースプロジェクトです。 BSD-3-Clauseの下でリリースされます。 Linux、MacOS、iOS、Android "Android(オペレーティングシステム)")およびWindowsで実行されます。 FreeBSDとIrix用のポートが存在します。
- PlugData-オーディオ実験、プロトタイピング、教育用の視覚的なプログラミング環境。
- Max/MSP/Jitter -Max/MSP/Jitterとしても知られるMaxは、サンフランシスコに本拠を置くソフトウェア会社Cycling '74によって開発および維持されている音楽とマルチメディアの視覚的なプログラミング言語です。 30年以上の歴史の中で、作曲家、パフォーマー、ソフトウェアデザイナー、研究者、アーティストが録音、パフォーマンス、インスタレーションを作成するために使用されてきました。
- Kyma(Sound Design Language) - Kymaは、ミュージシャン、研究者、サウンドデザイナーが使用するサウンドデザインの視覚的なプログラミング言語です。 Kymaでは、ユーザーがMacintoshまたはWindowsコンピューターの画面でモジュールをグラフィカルに接続することにより、マルチプロセッサDSPをプログラムします。
- SuperCollider -SuperColliderは、音楽家、アーティスト、研究者がサウンドで作業する研究者が使用するオーディオ合成とアルゴリズム構成のプラットフォームです。音声合成とアルゴリズム構成のためのオーディオサーバー、プログラミング言語、およびIDE。
- Sonic Pi-ソニックPIは、 Ruby "Ruby(プログラミング言語)")に基づいたライブコーディング環境です。もともと、Cambridge Computer LaboratoryのSam AaronがRaspberry Piと協力して開発した学校でのコンピューティングと音楽レッスンの両方をサポートするように設計されています。財団。
- Reaktor -Reaktorは、Native Instruments(NI)が開発したグラフィカルモジュラーソフトウェア音楽スタジオです。ミュージシャンとサウンドスペシャリストは、独自の楽器、サンプラー「サンプラー(楽器)」)、エフェクト、サウンドデザインツールを設計および構築できます。古典的なシンセサイザーのエミュレーションから未来的なサウンドデザインツールまで、多くのすぐに使用できる機器と効果が提供されています。
- RTCMIX- RTCMIXは、デジタルサウンドシンセシスと信号処理を行うためのリアルタイムソフトウェア「言語」です。 C/C ++で記述されており、無料でオープンソースが分散されています。
- Chuck -Chuckは、リアルタイムのサウンド合成と音楽の作成のためのプログラミング言語です。 Chuckは、正確で表現力豊かなユニークな時間ベースの同時プログラミングモデル(これを強くタイミングしたものと呼びます)、動的制御レート、およびフライでコードを追加および変更する機能を提供します。さらに、ChuckはMIDI、OpenSoundControl、HIDデバイス、およびマルチチャネルオーディオをサポートしています。オープンソースで、MacOS X、Windows、Linuxで自由に利用できます。楽しくて学習しやすく、作曲家、研究者、パフォーマーに、複雑なオーディオ合成/分析プログラムを構築および実験するための強力なプログラミングツールを提供し、リアルタイムのインタラクティブな音楽を提供します。
- Faust-Faust(Functional Audio Stream)は、シンセサイザー、楽器、オーディオエフェクトなどの設計に重点を置いたサウンドシンシシスとオーディオ処理のための機能的なプログラミング言語です。さまざまなプラットフォームと標準用。
- 魂 - 魂のプログラミング言語とAPI。 Soul(Sound Language)は、高性能で低遅延のオーディオコードが書き込まれ実行される方法を近代化し、最適化する試みです。
- CMAJOR -CMAJORは、高速でポータブルなオーディオソフトウェアを作成するためのプログラミング言語です。 C、C ++、C#、Objective-C ...まあ、CメジャーはDSP信号処理コードを作成するために特別に設計されたCファミリー言語です。
- VCVラック - ラックは、VCV仮想ユーロラックモジュラーシンセサイザープラットフォームのホストアプリケーションです。
- Gwion -Gwionは、音楽を作ることを目的としたプログラミング言語です。チャックに強く触発されましたが、バンチの高レベルの機能を追加します。テンプレート、一流の機能など。シンプルで、小さく、速く、拡張可能で、組み込み可能であることを目指しています。
- Elementary Audio -ElementaryはJavaScriptフレームワークと高性能オーディオエンジンであり、迅速に構築して自信を持って出荷するのに役立ちます。 Webまたはネイティブアプリのオーディオソフトウェアを作成するための宣言的で機能的なフレームワーク。
- Elementary -Elementaryは、オーディオアプリケーションを構築するためのJavaScript/C ++ライブラリです。
- sound2synth -sound2synth:FMシンセサイザーパラメーターの推定を介した音の解釈。
- JSYN -JSYNは、Phil BurkのJavaのモジュラーオーディオシンセサイザーです。 JSYNを使用すると、Javaでインタラクティブなコンピューター音楽プログラムを開発できます。サウンドエフェクト、オーディオ環境、または音楽を生成するために使用できます。 JSYNは、複雑なサウンドを形成するために接続することができるユニットジェネレーターの従来のモデルに基づいています。
- Synthax -Jaxの高速モジュラーシンセサイザー⚡♥リアルタイム速度をはるかに超えてオーディオシンセシスを獲得することは、インテリジェントなオーディオ制作技術の進歩に重要な役割を果たします。 Synthaxは、Jaxで書かれた高速仮想モジュラーシンセサイザーです。ピーク時に、Synthaxはリアルタイムの60,000倍以上の速さを生成し、最先端の加速音色合成よりも大幅に高速になります。
- ミディカ - ミディカは音楽プログラミング言語の通訳です。ソースコードをMIDIに変換します。ただし、MIDIプレーヤー、MIDIコンパイラまたはディキャパイラ、カラオケプレーヤー、ALDAプレーヤー、ABCプレーヤー、LilyPondプレーヤー、またはMIDIファイルアナライザーとしても使用できます。サポートされている言語の1つ(MidIcapl、alda、またはABC)で音楽を書きます。
- 水銀 - 水銀は、アルゴリズムの電子音楽のライブコーディングのための最小限で人間が読みやすい言語です。言語のすべての要素は、コードをよりアクセスしやすくし、視聴者にとって難読化を行うことを中心に設計されています。この動機は、関数に明確な記述名と明確な構文を使用するコーディングスタイル自体にまで及びます。
- Alda -Aldaは、音楽構成のテキストベースのプログラミング言語です。これにより、テキストエディターとコマンドラインのみを使用して音楽を書き、再生できます。言語のデザインも同様に、美学、柔軟性、使いやすさを支持します。
- プラトニック音楽エンジン -プラトニック音楽エンジンは、過去、現在、未来の創造的な人間文化全体を表面的にシミュレートするコンピューターアルゴリズムを作成する試みです。これにより、インタラクティブな方法で、ユーザーはさまざまなパラメーターと設定を選択できるようにし、最終結果がユーザーに固有のものになり、作品に影響を与えた文化的アイデアを維持できます。
- Pyo-Tools-オーディオエフェクトを構築するためのすぐに使用できるPythonクラスのリポジトリとPYOでシンセ。
- Py -modular- Pythonのモジュラーおよび実験オーディオプログラミングフレームワーク。 Py-Modularは、Pythonの小さな実験的なオーディオプログラミング環境です。これは、新しいオーディオテクノロジーとワークフローを探索するためのベースになることを目的としています。 Py-modularのほとんどすべてがノードベースのワークフローを中心に構築されています。つまり、小さなクラスは小さなタスクを実行し、完全なシンセサイザーまたはより大きなアイデアを作成するためにパッチを適用できます。
- BACH:Automated Composer's Helper-マックスのパッチと外部のクロスプラットフォームセットと、コンピューター支援の構成の豊かさをリアルタイムの世界にもたらすことを目的としています。
- Audiokit -Audiokitは、iOS、MacOS(触媒を含む)、およびTVOのオーディオ統合、処理、および分析プラットフォームです。
- Twang-純粋なRust Advanced Audio Synthesisのライブラリ。
- Gensound -Pythonicオーディオ処理と生成フレームワーク。オーディオ処理と合成へのPython方法。
- OTTO-オットーは、シンセ、サンプラー、エフェクト、オーディオルーパー付きのシーケンサーを備えたデジタルハードウェアグルーブボックスです。インターフェイスはフラットで、モジュール式で使いやすいですが、何よりも実験を促進することを目的としています。
- ロリス - ロリスは、ケリー・フィッツとリポルド・ハケンがCERLサウンドグループで開発したサウンド分析、合成、モーフィングのライブラリです。 Lorisには、C ++クラスライブラリ、Pythonモジュール、Cリンク可能なインターフェイス、コマンドラインユーティリティ、ドキュメントが含まれています。
- IANNIX -IANNIXは、デジタルアート用のIannis Xenakis Worksに基づいたグラフィカルなオープンソースシーケンサーです。 Iannixは、オープンサウンドコントロール(OSC)イベントとリアルタイム環境への曲線を介して同期します。
- Leipzig- ClojureとClojureScriptのための音楽構成ライブラリ。
- ナイキスト - ナイキストは、LISPの構文と命令的な言語構文と強力な統合開発環境を提供する健全な合成と構成言語です。ナイキストは、機能プログラミングに基づくエレガントで強力なシステムです。
- OpenMusic(OM) - OpenMusic(OM)は、LISPに基づく視覚的なプログラミング言語です。視覚プログラムは、関数とデータ構造を表すアイコンを組み立てて接続することによって作成されます。ほとんどのプログラミングと操作は、特定の場所からアイコンをドラッグし、他の場所にドロップすることにより実行されます。組み込みの視覚制御構造(ループなど)が提供され、そのLISPのインターフェースが提供されます。既存のCommonLISP/CLOSコードはOMで簡単に使用でき、新しいコードは視覚的に開発できます。
- Orcλ -ORCAは、アルファベットのすべての文字が操作である手続き上のシーケンサーを迅速に作成するように設計された難解なプログラミング言語です。
- Overtone -Overtoneは、合成やサンプリングから楽器の構築、ライブコーディング、コラボレーションジャミングまで、新しい音楽のアイデアを探求するために設計されたオープンソースのオーディオ環境です。強力なSuperColliderオーディオエンジンを組み合わせたClojureであるClojureを最先端のLISPと組み合わせて、酔わせるインタラクティブなソニックエクスペリエンスを作成します。
- 縫い目 - 持続的な電気音響音楽 - ベース。持続的な電気音響音楽は、Alvise VidolinとNicola Bernardiniに触発されたプロジェクトです。
- Glicol -Glicol(「グラフ指向のライブコーディング言語」の頭字語)は、C/C ++の最新の代替品であるRustプログラミング言語で書かれた言語とオーディオエンジンの両方を備えたコンピューター音楽言語です。この低レベルの性質を考えると、Glicolはブラウザ、VSTプラグイン、Belaボードなど、さまざまなプラットフォームで実行できます。 Glicolのシンセのような構文と強力なオーディオエンジンは、高レベルのシンセまたはシーケンサーコントロールと低レベルのサンプルaccurateオーディオシンセシスをすべてリアルタイムで組み合わせることもできます。
- PaperSynth-シンセに手書きのテキスト! PaperSynthは、紙に書いたキーワードを読み、電話で再生できるシンセサイザーに変換することを目的としたプロジェクトです。
- ニューラル共振器VST-これは、ニューラルネットワークを使用して任意の2D形状と材料に基づいてフィルターを生成するVSTプラグインです。 MIDIを使用して、これらのフィルターを励起して単純なインパルスをトリガーすることができます。さらに、任意のオーディオ信号は、フィルターへの入力として使用できます。
- Scyclone -Scycloneは、ニューラルの音色転写技術を利用してオーディオ制作への新しいアプローチを提供するオーディオプラグインです。プラグインは、リアルタイムオーディオ変動オートエンコーダーであるRave Methodologyに基づいており、単一およびカップルの推論モードの両方で神経音色の転送を促進します。
- Mlinmax -MLサイクリングでのサウンド生成と処理のためのML 74の最大プログラミング言語。
- ADLPLUG -FMチップシンセサイザー - OPL&OPN - VST/LV2/スタンドアロン。
- サージ - シンセサイザープラグイン(以前はVemberオーディオサージとしてリリースされました)。
- CSTOP -CSTOPは、Mac用のAU&VST3で利用可能なテープストップオーディオエフェクトプラグインです(Windowsが近日公開)。
- Compufart -cmajorのbart音シンセサイザーとアルゴリズム。
- py -js -max / mspのpython3 externals。
- PD -LUA -LUA 5.3+用に更新されたPDのLUAバインディング。
- Live 4 Life -Supercollider用の空間パフォーマンスツール。
- Caesarlooper -Caesarlooperは、エキスパートスリーパーによるAugustus Loop VSTプラグインのスーパーコライダークローンです。
- Dexed -DX7 FMマルチプラフォーム/マルチフォーマットプラグイン。
- 最大の跳躍 - サイクリング用の外部外部外部'74 max。
- Kontakt -Public-ネイティブ楽器のリソースKontakt Builders。
- Pylive -PythonからのクエリおよびコントロールAbleton Live。
- ML -LIB-最大データと純粋なデータ用の機械学習ライブラリ。
- Zengarden -Zengardenは、純粋なデータパッチを実行するためのスタンドアロンライブラリです。
- MAX -SDK-サイクリング'74によるMAX用ソフトウェア開発キット。
- PD-HVCC-重いコンパイラに基づいて、PD用のGen〜-like環境を作成します。
- Kuroscillators -Coupluedオシレーターのネットワークを使用したオーディオおよびリズミカルな合成用の最大/MSPオブジェクト。
- Ascii -Audio- ASCII文字列からPCMオーディオを生成します。テキストは、スペクトログラム画像に表示されます。
- Belaminimoo -gemulation-アンチアライアスされた波形とムーグラダーフィルターのレクリエーションを備えた最小限のアナログシンセサイザーのデジタル実装。
- Edisyn-シンセサイザーパッチエディター。
- Soundgen -Rパッケージサウンド合成と音響分析のためのパッケージ。
- Cardinal-仮想モジュラーシンセサイザープラグイン。
- フラッターエコーモデリング - このリポジトリは、フラッターエコーの合成のためのMATLABデモを提供します。
- おっと - おっと葉になりました!埋め込まれたアプリケーション用のオーディオ合成と処理用のACライブラリ。
- ソニックPIツール - ? PythonのコマンドラインからソニックPiを制御します。
- sonicpi.vim-vim用のソニックPIプラグイン。
- 制御されたチェオス-max4liveユークリッドリズムジェネレーター。
- KPSTRONG-これは、BelaハードウェアでリアルタイムでC ++として実行される、carplus-strongシンセの実装です。
- NN_TILDE-リアルタイムAIオーディオ処理用の最大 / PD外部。
- Grainbow-ピッチ検出を使用して粒状合成またはサンプリングの候補を選択するシンセサイザー。
- SignalFlow-複雑な音楽のアイデアの明確で簡潔な表現のために設計されたPythonのサウンド合成フレームワーク。
- Syntheon-音楽シンセサイザーのパラメーター推論サウンドデザインプロセスを簡素化します。重要でデクスしたサポート。
- RNBOJUCETEMPLATE -MAXMSPのRNBO〜で作成された最小限のシンセサイザーを含むJUCEテンプレートは、RNBOObjectの状態を、最新のオーディオプロセッサツリーバリューステートファッションを使用してJUCEのオーディオプロセッサにカプセル化します。
- fluidsynth.clap- fluidsynthへの拍手bridu橋。
- LaunchPadx -Novation LaunchPadxコントローラー用のシンプルなスーパーコライダーインターフェイス。
- Faug -Faustで書かれたDSP部分を使用したMinimoog Model Dエミュレーション。ムーグ + faust = faug。
- ブロック-Blocksは、WindowsおよびMacOSのスタンドアロン、VST3およびAUとして利用可能なモジュラーシンセサイザーです。
- Bessel's Trick -Bessel's Trickは、周波数変調(FM)合成を使用した楽器の音の高速でライブトーン変換のためのニューラルオーディオプラグインです。
^コンテンツに戻る ^
ゲームオーディオ(GA)
- Chunity-団結のチャック。 UnityでChuckを使用するためのプラグイン。 Unity Asset Storeで入手できます。
- Raveler -Raveモデルを実行するWwiseプラグインは、ゲームオーディオ設定でニューラルオーディオシンセシスを介してリアルタイムの音色転送を可能にします。
- LASP -Unityのための低遅延オーディオ信号処理プラグイン。
- ピレアパー - 死神のためのPythonラッパー。
- 死神 - 死神のためのvim-bindings。
- Reaper Tools -Audiokinetic Reaper Toolsリポジトリ。死神のための拡張機能、スクリプト、ツールのコレクション。
- ReawWise -ReawWiseは、Sound DesignersがReaperからWwiseプロジェクトにオーディオファイルを転送するために使用できるReaper拡張機能です。
- WWISER -WWISEエンジンを使用したゲームからのオーディオの処理を支援するWWISE .BNKパーサー。
- Waapi-text-to-speech-Wwise外部エディターを使用したテキストからスピーチへの統合。
- WwiseのJSFXR -JSFXR(SFXRから移植された)Wwise接続を追加し、電子に埋め込みます。
- Soloud -Soloudは、ゲーム用の使いやすく、無料のポータブルC/C ++オーディオエンジンです。
- audiotoys -dsp doodles for Unity。
- Dolby.io Virtual World Plugin for Unity -Dolby.io Virtual World Plugin for Unityを使用すると、Dolby.io Spatial Audioを簡単に統合できます。
- dolby.io Virtual Worlds Unreal Engineのプラグイン - Unreal Engine用のDolby.io Virtual Worldsプラグインを使用すると、Dolby.io Spatial Audioを簡単に統合できます。
- エンジンシミュレーター - 現実的なオーディオを生成する燃焼エンジンシミュレーター。
- Jack Audio for Unity-このライブラリ/プラグインは、Unity3DとJackaudioの間のマルチチャネルオーディオルーティングを可能にします。
- Voxelプラグイン-Voxelプラグインでは、非現実的なエンジンで完全に破壊可能な無限の世界を作成できます。 4.24、4.25、4.26、4.27、およびUnreal 5と互換性があります。
- Rev Unity -Rev Unity Tachometerデモ。
- Unity Audio Manager(UAM) - ? Play/Change/Stop/Mute/... 2Dおよび3Dでの特定の状況またはイベントでの1つまたは複数のサウンドに使用されます。コード。
- Audio-Manager-for-Unity-ノードベースのエディターのUnityでオーディオ動作を定義および実行するためのツール。
- Unity Wwiseアドレッシタブル - このパッケージは、Unityアドレスタブルシステムを使用して、Wwiseアセットの分散とロードのサポートを追加します。
- RFXGEN-シンプルで使いやすいFXサウンドジェネレーター。
- ULIPSYNC-MFCCベースのLipsyncプラグインジョブシステムとバーストコンパイラを使用したUnity用。
- Godot-Fmod-Integration-FMOD Studio Middleware Integration and Scripting API Bindings for the Godotゲームエンジン。
- FMODオーディオシステム - FMODを使用したUnityオーディオシステム。
- WW2OGG -Audiokinetic Wwise riff/rifx vorbisを標準のogg vorbisに変換します。
- Cavern-Dolby Atmosレンダリング、部屋の修正、HRTF、ワンクリックUnityオーディオテイクオーバーなど、オブジェクトベースのオーディオエンジンとコーデックパック。
- RNBO UNITYオーディオプラグイン-Unityのネイティブオーディオプラグイン用のRNBOアダプター。
- RNBO MetaSounds -MetaSundノードを実装するRNBOアダプター。
^コンテンツに戻る ^
デジタルオーディオワークステーション(DAW)
- Audacity-Audacityは、Windows、MacOS、GNU/Linux、その他のオペレーティングシステム用の使いやすいマルチトラックオーディオエディターおよびレコーダーです。
- Tracktion -Tracktionは、直感的なユーザーインターフェイスと強力なオーディオ編集とミキシング機能を備えたクロスプラットフォームベースのオープンソースオーディオワークステーションです。
- Pro Tools Scripting SDK -Pro Tools Scripting SDKを使用すると、言語に依存しないAPIを使用してProツールをスクリプト化して、Proツールで新しい自動化されたワークフローを作成できます。
- Reapy- Reaperの再スクリプトPython APIのPythonicラッパー。
- Reaper -SDK -Reaper C/C ++ Extension SDK。
- RECORCTIONS -X -RaymのCockos Reaperの無料のオープンソーススクリプト。
- recorction-ココスリーパースクリプト。
- Reablink -ReaperプラグインエクステンションAbleton Linkセッションのための再現バインディングを提供し、ReaperのAbletonリンクテストプランに準拠した実装を計画します。
- voodoohop-ableton-tools-ableton live harmony and Tempoツール。音楽の調和の直感的な視覚化でAbleton Liveを補強し、トラックのテンポダイナミクスがマスターテンポをリアルタイムで制御できるようにします。
- abletonparsing-pythonでableton asdクリップファイル(ワープマーカーなど)を解析します。
- Ableton Push-ブラウザでAbleton Pushを使用するためのライブラリ。
- Pyflp -fl Studio Projectファイルパーサー。
- VST3SDK -VST 3プラグインSDK。
- tuneflow-?+次世代のdawで音楽アルゴリズムとAIモデルを構築する
- tuneflow-py-tuneflow-pyは、tuneflowプラグインのpython sdkです。
- Tuneflow用のSO-VITS-SVCプラグイン-TuneFlowプラグインとしてのSO-VITS-SVC。
- ラジウム - グラフィカルミュージックエディター。次世代トラッカー。
- Bass Studio -Bass Studioは、C ++で書かれたデジタルオーディオワークステーション(DAW)です。 Windows、MacOS、Linuxビルドが提供されます。 VST2とCLAPプラグイン形式の両方がサポートされています。
- Gridsound-Gridsoundは、HTML5を使用して開発された進行中のオープンソースデジタルオーディオワークステーションで、より正確に新しいWeb Audio APIで開発されています。
- Meadowlark -Meadowlarkは、Linux、Mac、およびWindows用の無料およびオープンソースDAW(デジタルオーディオワークステーション)です。これは、世界中のアーティストのための強力な録音、作曲、編集、サウンドデザイン、ミキシング、マスター化ツールであり、直感的でカスタマイズ可能であることを目指しています。
- mixxx -mixxxは、ライブミックスを実行するために必要なすべてを提供する無料のDJソフトウェアです。
- Hybrid-DJ-Set-ライブパフォーマンスで仮想機器を階層化するための純粋なデータとDJソフトウェア(MIXXX)を同期させます。
- LV2 -LV2は、オーディオシステムのプラグイン標準です。プラグインの拡張可能なC APIと、プラグイン、メタデータ、その他のリソースを含む自己完結型の「バンドル」ディレクトリの形式を定義します。
- Ardor- Linux、MacOS、Windowsで録音、編集、ミックス。
- LMMS -LMMSは、FLStudio®などの商用プログラムに代わる無料のクロスプラットフォームです。これにより、コンピューターで音楽を制作できます。これには、メロディーとビートの作成、サウンドの合成と混合、サンプルの配置が含まれます。
- Qtractor -Qtractorは、QTフレームワークを使用してC ++で記述されたオーディオ/MIDIマルチトラックシーケンサーアプリケーションです。ターゲットプラットフォームはLinuxです。ここでは、オーディオ用のJack Audio Connection Kit(Jack)、MIDI用のAdvanced Linux Sound Architecture(ALSA)は、特に特別に特別なLinuxデスクトップオーディオワークステーションGUIとして進化する主要なインフラストラクチャです。個人的なホームスタディオ。
- Smart-Audio-Mixer-C ++/JUCEを使用した最新のデジタルオーディオワークステーション(DAW)。
- OpenVino™AIプラグインAudacity -Ai -Evenabled Effects、Generators、およびAnalyzers for Audacityのセット。
- Jackdaw- Avidのような非線形ビデオ編集者からいくつかのデザインの手がかりを得ている、キーボード中心のデジタルオーディオワークステーション(DAW)。
- OSSIAスコア - ビデオとハードウェアコントロール(OSC、MIDI、DMX、NDI、MQTT、COAPなど)だけでなく、オーディオ(VST、VST3、LV2、JSFXなど)をサポートするIntermediaシーケンサー
^コンテンツに戻る ^
空間オーディオ(SA)
- Spaudiopy -Spatial Audio Pythonパッケージ。 (これまでのところ)焦点は、空間オーディオエンコーダーとデコーダーにあります。パッケージには、球状の高調波処理と、VBAPやAllRadなどの(バイノーラルレンダリング)スピーカーデコーダーなどが含まれます。
- spatial_audio_framework(saf) - spatial_audio_framework(saf)は、C/C ++で空間オーディオ関連のアルゴリズムとソフトウェアを開発するためのオープンソースおよびクロスプラットフォームフレームワークです。もともとは、この分野の研究者のためのリソースとして意図されていたこのフレームワークは、多くの異なるモジュールを含むかなり大きくて十分に文書化されたコードベースに徐々に成長しました。各モジュールは、空間オーディオの特定のサブフィールドをターゲットにしています(例えば、アンビソニックスのエンコード/デコード、球状配列処理、振幅パン、HRIR処理、室内シミュレーションなど)。
- HO-SIRR-高次空間的インパルス応答レンダリング(HO-SIRR)はレンダリング方法であり、入力球体高調波(Ambisonic/B-Format)RIRを使用して出力スピーカーアレイルームインパルス応答(RIRS)を合成できます。高次空間インパルス応答レンダリング(HO-SIRR)アルゴリズムのMATLAB実装。スピーカーよりもアンビソニックリアを再現するための代替アプローチ。
- Spatgris -Spatgrisは、実世界のスピーカーセットアップの制約から作曲家やサウンドデザイナーを解放するサウンド空間化ソフトウェアです。 controlgrisプラグインをSpatgrisで配布すると、豊富な空間軌跡をDAWに直接構成し、スピーカーレイアウトでリアルタイムで再現できます。速く、安定した、クロスプラットフォームで、学習が簡単で、すでに知っているツールで動作します。 Spatgrisは、クアッド、5.1、オクトフォニックリングなどの2Dレイアウト、スピーカードーム、コンサートホール、劇場などの3Dレイアウトなど、スピーカーのセットアップをサポートしています。パン。
- Steam Audio -Steam Audioは、環境とリスナーのシミュレーションを統合するフル機能のオーディオソリューションを提供します。 HRTFは、VRへの没入を大幅に改善します。物理学ベースの音の伝播は、サウンドが仮想環境と一貫して相互作用する方法を一貫して再現することにより、聴覚浸漬を完了します。
- SpatialAudiokit -SpatialAudiokitは、Appleプラットフォームでの空間オーディオアプリのオーサリングを促進するための迅速なパッケージです。
- libmysofa-より良いHRTFを取得するためのAESソファファイルのリーダー。
- オムニトン - オムニトン:ウェブ上の空間オーディオレンダリング。 Omnitoneは、Web Audio APIで書かれた、Ambisonic DecodingとBinoulal Renderingの堅牢な実装です。そのレンダリングプロセスは、Web Audio API(GainNode and Convolver)の高速ネイティブ機能を搭載しており、最適なパフォーマンスを確保します。オムニトンの実装は、Google Spatial Media SpecificationとSadieのバイノーラルフィルターに基づいています。また、Resonance Audio SDK用のWebのパワーも供給します。
- MACH1 SPATIAL -MACH1 SPATIAL SDKにはAPIが含まれており、開発者がオーディオストリームからの空間オーディオレンダリングにエンコードまたはパンすることができるアプリケーションを設計したり、MACH1SPATIAL 8CHANNEL空間オーディオミックスをデコードして、ユーザーの正しいステレオ出力をデコードできるようにします。現在の方向。さらに、Mach1 Spatial SDKを使用すると、ユーザーはMach1spatialまたはMach1horizon VVBP形式との間のサラウンド/空間オーディオミックスを安全に変換できます。
- サウンドスペース - サウンドスペースは、視聴覚具体的なAI研究のためのリアルなアコースティックシミュレーションプラットフォームです。視聴覚ナビゲーション、視聴覚探査からエコーロケーション、視聴覚フロアプランの再構成まで、このプラットフォームは、具体化されたビジョン研究をより広範なトピックに拡張します。
- 視覚音響マッチング - 視覚的なアコースティックマッチングタスクを導入します。このタスクでは、オーディオクリップがターゲット環境で記録されたように聞こえるように変換されます。ターゲット環境の画像とソースオーディオの波形を考えると、目標は、目に見えるジオメトリと素材で示唆されるように、ターゲットルームの音響に一致するようにオーディオを再合成することです。
- Fast-RIR-これは、特定の音響環境のための室内インパルス応答(RIR)のためのニューラルネットワークベースの高速拡散室のインパルス応答ジェネレーター(Fast-RIR)の公式実装です。
- Pygsound-最先端の幾何学音響伝播エンジンに基づくインパルス応答生成。
- RIRIS -RIRISは、高速シアレット変換を使用した部屋の衝動応答補間のMATLAB実装です。
- 並列反復 - raytracer-ラスターグラフィックス照明技術の影響を受けたインパルス応答(リバーブ用)のレイトレーサー。
- 3Dスペースに配置された仮想オシレーターオブジェクトを備えたSynth 3D -VSTシンセサイザー。
- Libbasicsofa- Acoustics(SOFA)ファイルの空間的指向形式を読むための非常に基本的なライブラリ、Binuaral Audio Reproduction用のHRTFおよび/またはBRIRを保存するための形式。
- MESH2HRTF -Head関連転送関数の数値計算のためのオープンソフトウェア。
- オープンソフト - オープンソフトは、オープンな3DオーディオAPIのソフトウェア実装です。
- soundscape_ir -soundscape_irは、Soundscape InformationのPythonベースのツールボックスであり、Soundscape Recordingsの分析を支援することを目指しています。
- サウンドボディ - ヘッドセットマイクとボディポーズから人体の正確な3Dサウンドフィールドを入力として生成できるモデルを提示します。
- Soundscapy-サウンドスケープ評価を分析および視覚化するためのPythonライブラリ。
- Ambix-Cross-Platform Ambisonic VST、ReaperやArdorなどのデジタルオーディオワークステーション、またはJack Standaloneアプリケーションなどのデジタルオーディオワークステーションで使用する可変注文を備えたLV2プラグイン。
- HOAC-空間オーディオのための高次のAmbisonics Codec。
- OpenSoundLab -OpenSoundLab(OSL)は、Meta QuestのPassthroughモードを使用して、Mixed Reality Experienceで3次元にモジュラーサウンドをパッチするようにします。
- See-2-Sound? - ゼロショット空間環境から空間的なサウンド。
^コンテンツに戻る ^
Webオーディオ処理(WAP)
- WeBRTCオーディオ処理-WeBRTCオーディオ処理のPythonバインディング。
- WebChuck -WebChuckは、強くタイミングのオーディオプログラミング言語であるChuckをWebにもたらします! ChuckのC ++ソースコードは、WebAssembly(WASM)にコンパイルされており、Web Audio APIのAudioWorkLetnodeインターフェイスを介して実行されます。
- midi.js-? Web上でMidi-Appを作成するのが簡単になります。メモリ認識や奇抜な効果を生み出すために、あなたのアプリに共感覚をプログラムするライブラリが含まれています。サウンドフォントをギター、ベース、ドラム、エクトに変換します。ブラウザで読み取ることができるコードに。 Midi.jsは結び付けられ、Midiをブラウザに導くフレームワークに基づいて構築します。 Jasmidと組み合わせて、このデモと同様のWebラジオMIDIストリームを作成するか、3つのjs、sparks.js、またはglslを使用してオーディオ/視覚実験を作成します。
- Web Voice Processor -Webブラウザーでのリアルタイム音声処理用のライブラリ。
- tone.js -tone.jsは、ブラウザでインタラクティブな音楽を作成するためのWebオーディオフレームワークです。 Tone.jsのアーキテクチャは、ミュージシャンとオーディオプログラマーの両方にWebベースのオーディオアプリケーションを作成することを目指しています。高レベルでは、Toneは、同期やスケジューリングのためのグローバルなトランスポートや、事前に構築されたシンセやエフェクトなど、一般的なDAW(デジタルオーディオワークステーション)機能を提供します。さらに、Toneは高性能のビルディングブロックを提供して、独自のシンセサイザー、効果、および複雑な制御信号を作成します。
- audio.js -audiojsは、
<audio>
のタグをどこでも使用できるようにするドロップインJavaScriptライブラリです。利用可能な場合はネイティブ<audio>
を使用し、目に見えないフラッシュプレーヤーに戻り、他のブラウザー用にエミュレートします。また、使用されている標準CSSのスタイルとできるすべてのブラウザーに一貫したHTMLプレーヤーUIを提供します。 - Peaks.js -JavaScript UIコンポーネントオーディオ波形との対話。
- Howler.js -JavaScript Audio Library for the Modern Web。 Howler.jsは、すべてのプラットフォームでJavaScriptのオーディオを簡単に信頼できるようにします。 Howler.jsは、最新のWebのオーディオライブラリです。デフォルトでWeb Audio APIがあり、HTML5オーディオに戻ります。これにより、すべてのプラットフォームでJavaScriptのオーディオを簡単に信頼できるようにします。
- CoffeeCollider -CoffeeColliderは、HTML5のリアルタイムオーディオ合成とアルゴリズム組成の言語です。このプロジェクトのコンセプトは、「Coffeescriptを書き込み、スーパーコライダーとして処理される」として設計されています。
- Pico.js-クロスプラットフォーム用のオーディオプロセッサ。
- Timbre.js -Timbre.jsは、jqueryやnode.jsのような最新のJavaScriptの方法で、Webアプリで機能的な処理と合成オーディオを提供します。全体的なオーディオレンダリング用のグラフベースのルーティングを定義するために接続された多くのT-Object (正式に:Timbreオブジェクト)があります。このプロジェクトの目標は、Webの次世代オーディオ処理にアプローチすることです。
- Rythm.js-あなたのページを踊らせるJavaScriptライブラリ。
- P5.Sound -P5.Soundは、オーディオ入力、再生、分析、合成を含むWebオーディオ機能でP5を拡張します。
- WADJS-オーディオを操作するためのJavaScriptライブラリ。 WebオーディオDAW。ダイナミックサウンド合成には、WebオーディオAPIを使用してください。それはあなたの耳のためのjQueryのようなものです。
- ableton.js -ableton.jsを使用すると、node.jsを使用してabletonのインスタンスまたはインスタンスを制御できます。できるだけ多くの機能をカバーしようとします。
- sound.js- "Sound.js"はマイクロライブラリーで、ゲームやインタラクティブなアプリケーション向けのサウンドエフェクトと音楽をロード、プレイ、生成できます。それは非常に小さいです:800行未満のコードと依存関係はありません。ここをクリックして、インタラクティブなデモを試してみてください。 You can use it as-as, or integrate it into your existing framework.
- tuna - An audio effects library for the Web Audio API.
- XSound - XSound gives Web Developers Powerful Audio Features Easily !
- Pizzicato - A web audio Javascript library. Pizzicato aims to simplify the way you create and manipulate sounds via the Web Audio API. Take a look at the demo site here. Library to simplify the way you create and manipulate sounds with the Web Audio API.
- AudioMass - Free full-featured web-based audio & waveform editing tool.
- WebPd - Run your Pure Data patches on the web. WebPd is a compiler for the Pure Data audio programming language allowing to run .pd patches in web pages.
- DX7 Synth JS - DX7 FM synthesis using the Web Audio and Web MIDI API. Works in Chrome and Firefox. Use a MIDI or QWERTY keyboard to play the synth.
- WEBMIDI.js - WEBMIDI.js makes it easy to interact with MIDI instruments directly from a web browser or from Node.js. It simplifies the control of physical or virtual MIDI instruments with user-friendly functions such as playNote(), sendPitchBend() or sendControlChange(). It also allows reacting to inbound MIDI messages by adding listeners for events such as "noteon", "pitchbend" or "programchange".
- web-audio-beat-detector - A beat detection utility which is using the Web Audio API.
- Beep.js - Beep is a JavaScript toolkit for building browser-based synthesizers.
- Rust Web Audio API - A Rust implementation of the Web Audio API, for use in non-browser contexts.
- WASM Audio Decoders - Browser and NodeJS Web Assembly audio decoder libraries that are highly optimized for size and performance.
- Chrome Music Lab - A collection of experiments for exploring how music works, all built with the Web Audio API.
- JavaScript Karplus-Strong - JavaScript/Web Audio implementation of Karplus-Strong guitar synthesis.
- tonejs-instruments - A small instrument sample library with quick-loader for tone.js.
- wavesurfer.js - Navigable waveform built on Web Audio and Canvas.
- Aurora.js - JavaScript audio decoding framework.
- Pizzicato - Library to simplify the way you create and manipulate sounds with the Web Audio API.
- Pitch detection - Pitch detection in Web Audio using autocorrelation.
- SAT - Streaming Audiotransformers for online Audio tagging.
- WebAudioXML - An XML syntax for building Web Audio API applications.
- FaustWasm - The FaustWasm library presents a convenient, high-level API that wraps around Faust compiler.
- ContourViz - A package that charts musical contours into a web-based interactive using music21 and D3.js.
- wave-resampler - PCM audio resampler written entirely in JavaScript.
- useSound - A React Hook for playing sound effects.
- Naph.js - Naph is a Node.js Library that Allow Hosting Native Audio Plugins (VST, VST3, AAX, AU).
- audio-worklet-loader - Audio Worklet loader for webpack.
^ Back to Contents ^
Music Information Retrieval (MIR)
- Madmom - Madmom is an audio signal processing library written in Python with a strong focus on music information retrieval (MIR) tasks.
- Beets - Beets is the media library management system for obsessive music geeks. music library manager and MusicBrainz tagger.
- Mido - MIDI Objects for Python. Mido is a library for working with MIDI messages and ports.
- mirdata - Python library for working with Music Information Retrieval (MIR) datasets.
- Partitura - A python package for handling modern staff notation of music.
- Midifile - C++ classes for reading/writing Standard MIDI Files.
- MSAF - Music Structure Analysis Framework. A Python framework to analyze music structure. MSAF is a python package for the analysis of music structural segmentation algorithms. It includes a set of features, algorithms, evaluation metrics, and datasets to experiment with.
- mxml - MusicXML parsing and layout library. mxml is a C++ parser and layout generator for MusicXML files.
- Open-Unmix - Open-Unmix, Music Source Separation for PyTorch. Open-Unmix , is a deep neural network reference implementation for music source separation, applicable for researchers, audio engineers and artists. Open-Unmix provides ready-to-use models that allow users to separate pop music into four stems: vocals , drums , bass and the remaining other instruments.
- Spleeter - Spleeter is Deezer source separation library with pretrained models written in Python and uses Tensorflow. It makes it easy to train source separation model (assuming you have a dataset of isolated sources), and provides already trained state of the art model for performing various flavour of separation.
- AMPACT - Automatic Music Performance Analysis and Comparison Toolkit.
- Basic Pitch - A lightweight yet powerful audio-to-MIDI converter with pitch bend detection.
- crema - convolutional and recurrent estimators for music analysis.
- MIDIcontroller - A library for creating Teensy MIDI controllers with support for hold or latch buttons, potentiometers, encoders, capacitive sensors, Piezo transducers and other velocity sensitive inputs with aftertouch.
- MIDI Explorer - Yet another MIDI monitor, analyzer, debugger and manipulation tool.
- Music Exploration - App to explore latent spaces of music collections.
- LooPy - A data framework for music information retrieval focusing on electronic music.
- Automatic Music Transcription (AMT) Tools - Machine learning tools and framework for automatic music transcription.
- carat - Computer-aided rhythm analysis toolbox.
- miditoolkit - A python package for working with MIDI data.
- Midly - A feature-complete MIDI parser and writer focused on speed.
- libf0 - A Python Library for Fundamental Frequency Estimation in Music Recordings.
- PyRoll - A lightweight research library for processing symbolic music (such as MIDI) into piano-roll format.
- solfege.ai ? - Detect solfege hand signs using machine learning ?
- libfmp - Python package for teaching and learning Fundamentals of Music Processing (FMP).
- jams - A JSON Annotated Music Specification for Reproducible MIR Research.
- Piano Trainer - A music practice program with MIDI support.
- quickly - A LilyPond library for python (slated to become the successor of python-ly).
- ChordSymbol - The definitive chord symbol parser and renderer for Javascript/NodeJS.
- Midi Miner - Python MIDI track classifier and tonal tension calculation based on spiral array theory.
- Windows MIDI Services - This project is the next-generation MIDI API for Windows, including MIDI 1.0, MIDI CI, and MIDI 2.0. It includes enhancements, a new USB class driver, new transports, and a suite of essential tools.
- Parangonar - Parangonar is a Python package for note alignment of symbolic music.
- musicparser - Deep learning based dependency parsing for music sequences.
- musif - Music Feature Extraction and Analysis.
- pycompmusic - Tools to help researchers work with Dunya and CompMusic.
- CREPE notes - Post-processing for CREPE to turn f0 pitch estimates into discrete notes (MIDI).
- Piano transcription - Piano transcription is the task of transcribing piano recordings into MIDI files.
- pianotrans - Simple GUI for ByteDance's Piano Transcription with Pedals.
- PyABC - Python package for parsing and analyzing ABC music notation.
- mir_ref - A Representation Evaluation Framework for Music Information Retrieval tasks.
- MIDITrackView - Displays the notes of a MIDI file and follows along with playback.
- iimrp - Magnetic Resonator Piano tools from the Intelligent Instruments Lab.
- Music Encoding Initiative (MEI) - The Music Encoding Initiative (MEI) is an open-source effort to define a system for encoding musical documents in a machine-readable structure.
- musical-key-finder - A python project that uses Librosa and other libraries to analyze the key that a song (an .mp3) is in, ie F major or C# minor, using the Krumhansl-Schmuckler key-finding algorithm.
- midi-db - ? Data concerning MIDI standards.
^ Back to Contents ^
Music Generation (MG)
- isobar - isobar is a Python library for creating and manipulating musical patterns, designed for use in algorithmic composition, generative music and sonification. It makes it quick and easy to express complex musical ideas, and can send and receive events from various different sources including MIDI, MIDI files, and OSC.
- MusPy - MusPy is an open source Python library for symbolic music generation. It provides essential tools for developing a music generation system, including dataset management, data I/O, data preprocessing and model evaluation.
- music21 - music21 is a Toolkit for Computational Musicology.
- Msanii - Msanii: High Fidelity Music Synthesis on a Shoestring Budget.
- MusicLM - MusicLM: Generating Music From Text.
- SingSong - SingSong: Generating musical accompaniments from singing.
- Riffusion - Riffusion is a library for real-time music and audio generation with stable diffusion.
- Riffusion App - Riffusion is an app for real-time music generation with stable diffusion.
- RiffusionVST - A VST3 plugin for Riffusion based on JUCE.
- riffusionDJ - Multichannel Looper/Feedback System for Riffusion (with Automatic1111) made for live performance.
- Mozart - An optical music recognition (OMR) system. Converts sheet music to a machine-readable version. The aim of this project is to develop a sheet music reader. This is called Optical Music Recognition (OMR). Its objective is to convert sheet music to a machine-readable version. We take a simplified version where we convert an image of sheet music to a textual representation that can be further processed to produce midi files or audio files like wav or mp3.
- Muzic - Muzic: Music Understanding and Generation with Artificial Intelligence. Muzic is a research project on AI music that empowers music understanding and generation with deep learning and artificial intelligence. Muzic is pronounced as [ˈmjuːzeik] and '谬贼客' (in Chinese).
- MUSICAIZ - A python framework for symbolic music generation, evaluation and analysis.
- Jukebox - Code for the paper "Jukebox: A Generative Model for Music". We're introducing Jukebox, a neural net that generates music, including rudimentary singing, as raw audio in a variety of genres and artist styles. We're releasing the model weights and code, along with a tool to explore the generated samples.
- MidiTok - A convenient MIDI / symbolic music tokenizer for Deep Learning networks, with multiple strategies .?
- SCAMP - SCAMP is an computer-assisted composition framework in Python designed to act as a hub, flexibly connecting the composer-programmer to a wide variety of resources for playback and notation. SCAMP allows the user to manage the flow of musical time, play notes either using FluidSynth or via MIDI or OSC messages to an external synthesizer, and ultimately quantize and export the result to music notation in the form of MusicXML or Lilypond. Overall, the framework aims to address pervasive technical challenges while imposing as little as possible on the aesthetic choices of the composer-programmer.
- Facet - Facet is an open-source live coding system for algorithmic music. With a code editor in the browser and a NodeJS server running locally on your machine, Facet can generate and sequence audio and MIDI data in real-time.Facet is a live coding system for algorithmic music.
- Mingus - Mingus is a music package for Python. Mingus is a package for Python used by programmers, musicians, composers and researchers to make and analyse music.
- Audeo - Audeo is a novel system that gets as an input video frames of a musician playing the piano and generates the music for that video. Generation of music from visual cues is a challenging problem and it is not clear whether it is an attainable goal at all. Our main aim in this work is to explore the plausibility of such a transformation and to identify cues and components able to carry the association of sounds with visual events. To achieve the transformation we built a full pipeline named Audeo containing three components. We first translate the video frames of the keyboard and the musician hand movements into raw mechanical musical symbolic representation Piano-Roll (Roll) for each video frame which represents the keys pressed at each time step. We then adapt the Roll to be amenable for audio synthesis by including temporal correlations. This step turns out to be critical for meaningful audio generation. As a last step, we implement Midi synthesizers to generate realistic music. Audeo converts video to audio smoothly and clearly with only a few setup constraints.
- libatm -
libatm
is a library for generating and working with MIDI files. It was purpose-built for All the Music, LLC to assist in its mission to enable musicians to make all of their music without the fear of frivolous copyright lawsuits. All code is released into the public domain via the Creative Commons Attribution 4.0 International License. If you're looking for a command line tool to generate and work with MIDI files, check out the atm-cli
project that utilizes this library. For more information on All the Music, check out allthemusic.info. For more detailed library documentation, check out the crate documentation here. - Davidic - A minimalist procedural music creator. Randomly generate musical scale, MIDI instrument(s), chord progression, and rhythm, then lock-in what you like and regenerate to refine. Advanced controls: chord progressions and rhythms can be manually specified after selecting the Advanced Controls toggle, but UI support is minimal. Suggested usage is restricted to tweaking randomly-generated starting points.
- MERT - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training.
- PyMusicLooper - A script for creating seamless music loops, with play/export support.
- ChatGPT2midi - CLI Program for generating chord progressions with ChatGPT.
- linuxwave - Generate music from the entropy of Linux ??
- Chord2Melody - Automatic Music Generation AI.
- symbolic music diffusion - Symbolic Music Generation with Diffusion Models.
- AI-Pokemon-Music - Using AI (Transformers) to make original/ recreate Pokémon music.
- WalkingBass - A MuseScore 3 plugin that generates a walking bass line.
- DeBussy - Solo Piano Music AI Implementation.
- Writing music with ChatGPT - Tips and tools for writing music with the aid of ChatGPT.
- Somax 2 - Somax 2 is an application for musical improvisation and composition.
- Polyrhythmix - Polyrhythmix (Poly) is a command-line assistant designed to generate MIDI files from the description of drum parts.
- LaunchpadGPT - Language Model as Music Visualization Designer on Launchpad.
- Polyffusion - A Diffusion Model for Polyphonic Score Generation with Internal and External Controls.
- JAMMIN-GPT - Text-based Improvisation using LLMs in Ableton Live.
- Anticipatory - Anticipatory Music Transformer.
- MIDI Language Model - Generative modeling of MIDI files.
- modulo - A Toolkit for Tinkering with Digital Musical Instruments.
- MusicLang - MusicLang which simply stands for "music language" is a Python framework implementing a new language for tonal music. This language allows composers to load, write, transform and predict symbolic music in a simple, condensed and high level manner.
- FluxMusic - FluxMusic: Text-to-Music Generation with Rectified Flow Transformer.
^ Back to Contents ^
Speech Recognition (ASR)
- Kaldi - Kaldi is a toolkit for speech recognition, intended for use by speech recognition researchers and professionals.
- PaddleSpeech - Easy-to-use Speech Toolkit including SOTA/Streaming ASR with punctuation, influential TTS with text frontend, Speaker Verification System, End-to-End Speech Translation and Keyword Spotting.
- NVIDIA NeMo - NVIDIA NeMo is a conversational AI toolkit built for researchers working on automatic speech recognition (ASR), natural language processing (NLP), and text-to-speech synthesis (TTS). The primary objective of NeMo is to help researchers from industry and academia to reuse prior work (code and pretrained models) and make it easier to create new conversational AI models.
- Whisper - Whisper is a general-purpose speech recognition model. It is trained on a large dataset of diverse audio and is also a multi-task model that can perform multilingual speech recognition as well as speech translation and language identification.
- WhisperX - WhisperX: Automatic Speech Recognition with Word-level Timestamps (& Diarization).
- Whisper-AT - Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong Audio Event Taggers.
- Transformers - ? Transformers: State-of-the-art Machine Learning for Pytorch, TensorFlow, and JAX.
- Julius - Open-Source Large Vocabulary Continuous Speech Recognition Engine. "Julius" is a high-performance, small-footprint large vocabulary continuous speech recognition (LVCSR) decoder software for speech-related researchers and developers. The main platform is Linux and other Unix-based system, as well as Windows, Mac, Androids and other platforms.
- audino - audino is an open source audio annotation tool. It provides features such as transcription and labeling which enables annotation for Voice Activity Detection (VAD), Diarization, Speaker Identification, Automated Speech Recognition, Emotion Recognition tasks and more.
- Wenet - Wenet is an tansformer-based end-to-end ASR toolkit.
- SpeechBrain - SpeechBrain is an open-source and all-in-one conversational AI toolkit based on PyTorch. The goal is to create a single , flexible , and user-friendly toolkit that can be used to easily develop state-of-the-art speech technologies , including systems for speech recognition , speaker recognition , speech enhancement , speech separation , language identification , multi-microphone signal processing , and many others.
- ESPnet - ESPnet is an end-to-end speech processing toolkit, mainly focuses on end-to-end speech recognition and end-to-end text-to-speech. ESPnet is an end-to-end speech processing toolkit covering end-to-end speech recognition, text-to-speech, speech translation, speech enhancement, speaker diarization, spoken language understanding, and so on. ESPnet uses pytorch as a deep learning engine and also follows Kaldi style data processing, feature extraction/format, and recipes to provide a complete setup for various speech processing experiments.
- Espresso - Espresso is an open-source, modular, extensible end-to-end neural automatic speech recognition (ASR) toolkit based on the deep learning library PyTorch and the popular neural machine translation toolkit fairseq.
- Leon - ? Leon is your open-source personal assistant.
- DeepSpeech - DeepSpeech is an open source embedded (offline, on-device) speech-to-text engine which can run in real time on devices ranging from a Raspberry Pi 4 to high power GPU servers.
- SpeechRecognition - Speech recognition module for Python, supporting several engines and APIs, online and offline.
- annyang - annyang is a tiny javascript library that lets your visitors control your site with voice commands. annyang supports multiple languages, has no dependencies, weighs just 2kb and is free to use.
- PocketSphinx - This is PocketSphinx, one of Carnegie Mellon University's open source large vocabulary, speaker-independent continuous speech recognition engines.
- Kara - Open Source Voice Assistant. Simply put, Kara is a voice assistant that steals 0% of your data so you stay free! She is a actively maintained, modular, and designed to customize.
- Voice Lab - Voice Lab is an automated voice analysis software. What this software does is allow you to measure, manipulate, and visualize many voices at once, without messing with analysis parameters. You can also save all of your data, analysis parameters, manipulated voices, and full colour spectrograms and power spectra, with the press of one button.
- 3D-Speaker - 3D-Speaker is an open-source toolkit for single- and multi-modal speaker verification, speaker recognition, and speaker diarization. All pretrained models are accessible on ModelScope.
- FunASR - FunASR: A Fundamental End-to-End Speech Recognition Toolkit.
- Squeezeformer - An Efficient Transformer for Automatic Speech Recognition.
- dejavu - Audio fingerprinting and recognition in Python.
- Vosk Speech Recognition Toolkit - Offline speech recognition API for Android, iOS, Raspberry Pi and servers with Python, Java, C# and Node.
- OpenAV - An open-source library for recognition of speech commands in the user dictionary using audiovisual data of the speaker.
- MiniASR - A mini, simple, and fast end-to-end automatic speech recognition toolkit.
- UniSpeech - UniSpeech - Large Scale Self-Supervised Learning for Speech.
- paasr - Privacy Aware Automatic Speech Recognition.
- whisper-timestamped - Multilingual Automatic Speech Recognition with word-level timestamps and confidence.
- DisVoice - DisVoice is a python framework designed to compute features from speech files. Disvoice computes glottal, phonation, articulation, prosody, phonological, and features representation learnig strategies using autoencders.
- pypinyin - A Python tool for converting Chinese character to Pinyin.
- PyShengyun - A Python converter for Chinese Pinyin and Shengyun (initials and finals).
- KaldiFeat - A light-weight Python library for computing Kaldi-style acoustic features based on NumPy.
- Gruut IPA - Python library for manipulating pronunciations using the International Phonetic Alphabet (IPA).
- SALMONN - Speech Audio Language Music Open Neural Network.
- PraatIO - A python library for working with praat, textgrids, time aligned audio transcripts, and audio files. It is primarily used for extracting features from and making manipulations on audio files given hierarchical time-aligned transcriptions (utterance > word > syllable > phone, etc).
- WhisperKit - WhisperKit is a Swift package that integrates OpenAI's popular Whisper speech recognition model with Apple's CoreML framework for efficient, local inference on Apple devices.
- Language-Codec - Reducing the Gaps Between Discrete Codec Representation and Speech Language Models.
- PPGs - Training, evaluation, and inference of neural phonetic posteriorgrams (PPGs) in PyTorch.
- Whisper Burn - Rust Implementation of OpenAI's Whisper Transcription Model.
- TeleSpeech-ASR - TeleSpeech-ASR is pre-trained with 300,000 hours of unlabeled multi-dialect speech data and fine-tuned using 30 types of internal labeled data, breaking the dilemma that a single model can only recognize a specific single dialect.
- Speech-Emotion-Recognition - Speech emotion recognition implemented in Keras (LSTM, CNN, SVM, MLP).
- SwiftSpeech - A speech recognition framework designed for SwiftUI.
- SenseVoice - SenseVoice is a speech foundation model with multiple speech understanding capabilities, including automatic speech recognition (ASR), spoken language identification (LID), speech emotion recognition (SER), and audio event detection (AED).
- SenseVoice.cpp - Port of Funasr's Sense-voice model in C/C++.
^ Back to Contents ^
Speech Synthesis (TTS)
- VALL-E - VALL-E: Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers.
- SpeechGPT - SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities.
- VITS - VITS: Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech. Several recent end-to-end text-to-speech (TTS) models enabling single-stage training and parallel sampling have been proposed, but their sample quality does not match that of two-stage TTS systems. In this work, we present a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. Our method adopts variational inference augmented with normalizing flows and an adversarial training process, which improves the expressive power of generative modeling. We also propose a stochastic duration predictor to synthesize speech with diverse rhythms from input text.
- NeuralSpeech - NeuralSpeech is a research project in Microsoft Research Asia focusing on neural network based speech processing, including automatic speech recognition (ASR), text to speech (TTS), etc.
- Real-Time Voice Cloning - Clone a voice in 5 seconds to generate arbitrary speech in real-time. This repository is an implementation of Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS) with a vocoder that works in real-time. SV2TTS is a deep learning framework in three stages. In the first stage, one creates a digital representation of a voice from a few seconds of audio. In the second and third stages, this representation is used as reference to generate speech given arbitrary text.
- WaveNet - A TensorFlow implementation of DeepMind's WaveNet paper. The WaveNet neural network architecture directly generates a raw audio waveform, showing excellent results in text-to-speech and general audio generation (see the DeepMind blog post and paper for details).
- FastSpeech 2 - An implementation of Microsoft's "FastSpeech 2: Fast and High-Quality End-to-End Text to Speech".
- MelGAN - Generative Adversarial Networks for Conditional Waveform Synthesis.
- HiFi-GAN - HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis.
- edge-tts - Use Microsoft Edge's online text-to-speech service from Python (without needing Microsoft Edge/Windows or an API key).
- Vocode - Vocode is an open-source library for building voice-based LLM applications.
- TTS-dataset-tools - Automatically generates TTS dataset using audio and associated text. Make cuts under a custom length. Uses Google Speech to text API to perform diarization and transcription or aeneas to force align text to audio.
- Elevenlabs - The official Python API for ElevenLabs text-to-speech software. Eleven brings the most compelling, rich and lifelike voices to creators and developers in just a few lines of code.
- NaturalSpeech 2 - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers.
- TorToiSe - A multi-voice TTS system trained with an emphasis on quality.
- libvits-ncnn - libvits-ncnn is an ncnn implementation of the VITS library that enables cross-platform GPU-accelerated speech synthesis.?️
- SAM - Software Automatic Mouth - Tiny Speech Synthesizer. Sam is a very small Text-To-Speech (TTS) program written in C, that runs on most popular platforms.
- Lyrebird - ? Simple and powerful voice changer for Linux, written in GTK 3.
- Euterpe - Real-time Audio-to-audio Karaoke Generation System for Monaural Music.
- YourTTS - Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone.
- ElevenLabs - The official Python API for ElevenLabs text-to-speech software. Eleven brings the most compelling, rich and lifelike voices to creators and developers in just a few lines of code.
- Barkify - Barkify: an unoffical training implementation of Bark TTS by suno-ai.
- WeTTS - Production First and Production Ready End-to-End Text-to-Speech Toolkit.
- Piper - A fast, local neural text to speech system that sounds great and is optimized for the Raspberry Pi 4.
- Voicebox - The first generative AI model for speech to generalize across tasks with state-of-the-art performance.
- Fish Diffusion - An easy to understand TTS / SVS / SVC framework.
- TTS Generation WebUI - TTS Generation WebUI (Bark, MusicGen, Tortoise, RVC, Vocos, Demucs).
- xVA Synth - xVASynth 2.0 is a machine learning based speech synthesis app, using voices from characters/voice sets from video games.
- PlayHT - PlayHT Python SDK -- Text-to-Speech Audio Streaming.
- GPT-SoVITS - 1 min voice data can also be used to train a good TTS model! (ショット音声のクローンはほとんどありません)。
- MetaVoice-1B - MetaVoice-1B is a 1.2B parameter base model trained on 100K hours of speech for TTS (text-to-speech).
- RAD-MMM - A TTS model that makes a speaker speak new languages.
- BUD-E - A conversational and empathic AI Voice Assistant.
- Bridge-TTS - Schrodinger Bridges Beat Diffusion Models on Text-to-Speech Synthesis.
- lina-speech - linear attention based text-to-speech.
- ZMM-TTS - Zero-shot Multilingual and Multispeaker Speech Synthesis Conditioned on Self-supervised Discrete Speech Representations.
- RealtimeTTS - RealtimeTTS is a state-of-the-art text-to-speech (TTS) library designed for real-time applications.
- StableTTS - Next-generation TTS model using flow-matching and DiT, inspired by Stable Diffusion 3.
- ChatTTS - ChatTTS is a generative speech model for daily dialogue.
- StyleTTS 2 - StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models.
- Matcha-TTS - Matcha-TTS: A fast TTS architecture with conditional flow matching.
- MahaTTS - MahaTTS: An Open-Source Large Speech Generation Model.
- MeloTTS - MeloTTS is a high-quality multi-lingual text-to-speech library by MyShell.ai.
- OpenVoice - Instant voice cloning by MyShell.
- MetaVoice-1B - MetaVoice-1B is a 1.2B parameter base model trained on 100K hours of speech for TTS (text-to-speech).
- DEX-TTS - Diffusion-based EXpressive Text-to-Speech with Style Modeling on Time Variability.
- CosyVoice - Multi-lingual large voice generation model, providing inference, training and deployment full-stack ability.
- tortoise.cpp - tortoise.cpp: GGML implementation of tortoise-tts.
^ Back to Contents ^
Singing Voice Synthesis (SVS)
- NNSVS - Neural network-based singing voice synthesis library for research.
- Muskit - Muskit is an open-source music processing toolkit. Currently we mostly focus on benchmarking the end-to-end singing voice synthesis and expect to extend more tasks in the future. Muskit employs pytorch as a deep learning engine and also follows ESPnet and Kaldi style data processing, and recipes to provide a complete setup for various music processing experiments.
- OpenUtau - Open singing synthesis platform / Open source UTAU successor.
- so-vits-svc - SoftVC VITS Singing Voice Conversion.
- Real-Time Voice Cloning - Clone a voice in 5 seconds to generate arbitrary speech in real-time.
- Retrieval-based-Voice-Conversion-WebUI - An easy-to-use SVC framework based on VITS.
- Sinsy - Sinsy is an HMM/DNN-based singing voice synthesis system. You can generate a singing voice sample by uploading the musical score (MusicXML) to this website.
- DiffSinger - DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism.
- lessampler - lessampler is a Singing Voice Synthesizer. It provides complete pitch shifting, time stretching and other functions. Support multiple interface calls such as UTAU, Library, and Shine.
- Mellotron - Mellotron: a multispeaker voice synthesis model based on Tacotron 2 GST that can make a voice emote and sing without emotive or singing training data.
- VI-SVS - Use VITS and Opencpop to develop singing voice synthesis; Different from VISinger.
- midi2voice - Singing Synthesis from MIDI file.
- MoeGoe - Executable file for VITS inference.
- Voice Conversion - Voice Conversion Using Speech-to-Speech Neuro-Style Transfer.
- WGANSing - A Multi-Voice Singing Voice Synthesizer Based on the Wasserstein-GAN.
- clone-voice - A sound cloning tool with a web interface to record audio using your patch or any sound.
- OpenVoice - Instant voice cloning by MyShell.
^ Back to Contents ^