AI オーディオ データセット (AI-ADS) ?
AI オーディオ データセット (AI-ADS) – スピーチ、音楽、サウンドエフェクトを含み、生成 AI、AIGC、AI モデル トレーニング、インテリジェント オーディオ ツール開発、およびオーディオ アプリケーションのトレーニング データを提供できます。
目次
プロジェクト一覧
スピーチ
- AISHELL-1 - AISHELL-1 は、中国語の音声認識研究と音声認識システムの構築のためのコーパスです。
- AISHELL-3 - AISHELL-3 は、Beijing Shell Shell Technology Co.,Ltd によって発行された、大規模で忠実度の高いマルチ話者中国語音声コーパスです。これは、マルチ話者による Text-to-Speech (TTS) システムのトレーニングに使用できます。このコーパスには、218 人の中国語ネイティブ話者によるおよそ 85 時間の感情中立的な録音と、合計 88,035 の発話が含まれています。
- アラビア語音声コーパス - アラビア語音声コーパス (1.5 GB) は、音声合成用の現代標準アラビア語 (MSA) 音声コーパスです。このコーパスには、音素レベルで録音された音声と一致する 3.7 時間以上の MSA 音声の音声および正書法による転写が含まれています。注釈には、個々の音素上の単語の強勢マークが含まれます。
- AudioMNIST - データセットは、60 人の異なる話者の話された数字 (0 ~ 9) の 30,000 個の音声サンプルで構成されています。
- AVSpeech - AVSpeech は、干渉するバックグラウンド信号のない音声クリップで構成される大規模なオーディオビジュアル データセットです。セグメントの長さは 3 ~ 10 秒の間で異なり、各クリップでは、ビデオ内に表示される顔とサウンドトラック内で聞こえる唯一の音声が 1 人の話者に属します。データセットには合計で約 4,700 時間のビデオ セグメントが含まれており、約 150,000 人の異なる話者がおり、さまざまな人物、言語、顔のポーズに及びます。
- ATIS (航空旅行情報システム) - ATIS (航空旅行情報システム) は、自動航空旅行照会システムでフライト情報を求める人間に関する音声録音と、それに対応する手動トランスクリプトで構成されるデータセットです。データは 17 の固有のインテント カテゴリで構成されます。元の分割には、トレーニング セット、開発セット、テスト セットにそれぞれ 4478、500、および 893 の意図ラベル付き参照発話が含まれています。
- Carnatic Varnam データセット - Carnatic varnam データセットは、カルナティック ラーガのイントネーション分析の研究のために記録された 28 個のソロ ボーカル録音のコレクションです。このコレクションは、音声録音、時間調整されたターラサイクル注釈、および機械可読形式のスワラ注釈で構成されています。
- Casual Conversations - Casual Conversations データセットは、研究者がさまざまな年齢、性別、見かけの肌の色調、周囲の照明条件にわたってコンピューター ビジョンとオーディオ モデルの精度を評価できるように設計されています。
- CN-Celeb - CN-Celeb は、「実際に」収集された大規模な話者認識データセットです。このデータセットには、1,000 人の中国の有名人による 130,000 を超える発話が含まれており、現実世界の 11 の異なるジャンルをカバーしています。
- Clotho - Clotho は、4981 個の音声サンプルで構成される音声キャプション データセットであり、各音声サンプルには 5 つのキャプションがあります (合計 24 905 個のキャプション)。音声サンプルの長さは 15 ~ 30 秒で、キャプションの長さは 8 ~ 20 ワードです。
- Common Voice - Common Voice は、固有の MP3 と対応するテキスト ファイルで構成されるオーディオ データセットです。データセットには 9,283 時間が記録されています。このデータセットには、年齢、性別、アクセントなどの人口統計メタデータも含まれています。データセットは、60 言語で検証された 7,335 時間で構成されています。
- CoVoST - CoVoST は、大規模な多言語音声テキスト翻訳コーパスです。最新の第 2 バージョンでは、21 言語から英語への翻訳、および英語から 15 言語への翻訳がカバーされています。合計 2,880 時間の音声があり、78,000 人の話者と 66 のアクセントで多様化されています。
- CVSS - CVSS は、大規模な多言語から英語への音声翻訳 (S2ST) コーパスであり、21 の言語から英語への文レベルの並列 S2ST ペアをカバーしています。 CVSS は、最先端の TTS システムを使用して CoVoST 2 からの翻訳テキストを音声に合成することにより、Common Voice 音声コーパスと CoVoST 2 音声テキスト翻訳 (ST) コーパスから派生します。
- EasyCom - Easy Communications (EasyCom) データセットは、拡張現実 (AR) を動機とするマルチセンサーの自己中心的な世界観によるカクテル パーティーの影響を軽減するために設計された世界初のデータセットです。データセットには、AR グラスの自己中心的なマルチチャンネル マイク アレイ オーディオ、広視野 RGB ビデオ、音声ソース ポーズ、ヘッドセット マイク オーディオ、注釈付き音声アクティビティ、音声転写、頭と顔の境界ボックス、ソース識別ラベルが含まれています。私たちは、カクテル パーティーの問題に対するマルチモーダル AR ソリューションの研究を促進するために、このデータセットを作成し、公開しています。
- Emilia - Emilia データセットは、英語 (En)、中国語 (Zh)、ドイツ語 (De)、フランス語 (Fr)、日本語 (Ja)、韓国語の 6 つの言語で 101,000 時間以上の音声データを含む包括的な多言語リソースです。 (コ)。インターネット上の多数のビデオ プラットフォームやポッドキャストからのさまざまな話し方を表す多様な音声データが特徴で、トーク ショー、インタビュー、討論、スポーツ解説、オーディオブックなどの幅広いコンテンツ ジャンルが含まれます。
- ESD (感情音声データベース) - ESDは、音声変換研究のための感情音声データベースです。 ESD データベースは、10 人の英語母語話者と 10 人の中国語母語話者によって話された 350 の並列発話で構成され、5 つの感情カテゴリ (中立、幸せ、怒り、悲しみ、驚き) をカバーしています。 29 時間以上の音声データが、制御された音響環境で録音されました。このデータベースは、複数話者および言語間の感情音声変換の研究に適しています。
- FPT Open Speech Dataset (FOSD) - このデータセットは、2018 年に公開された 3 つのサブデータセット (合計約 30 時間) から手動で編集された 25,921 件のベトナム語音声記録 (トランスクリプトおよび各音声のラベル付き開始時刻と終了時刻付き) で構成されています。 FPT株式会社
- Free Spoken Digit Dataset (FSDD) - 音声数字の無料音声データセット。オーディオには MNIST を考えてください。8kHz の wav ファイルに話された数字の記録で構成される単純なオーディオ/音声データセットです。録音は、最初と最後にほぼ最小限の無音になるようにトリミングされています。
- Fluent Speech Commands - Fluent Speech Commands は、音声言語理解 (SLU) 実験用のオープンソースの音声データセットです。各発話には、「アクション」、「オブジェクト」、「場所」の値が付けられます。たとえば、「キッチンの照明をオンにする」には、ラベル {"action": "activate", "object": "lights", "location": "kitchen"} が付けられます。モデルはこれらの値をそれぞれ予測する必要があり、発話の予測はすべての値が正しい場合にのみ正しいとみなされます。
- Genshin データセット - SVC/SVS/TTS 用の Genshin データセット。
- GenshinVoice - 原神の音声データセット 原神语音データベース集
- GigaSpeech - GigaSpeech は、教師ありトレーニングに適した 10,000 時間の高品質ラベル付き音声と、半教師ありおよび教師なしトレーニングに適した合計 40,000 時間の音声を備えた、進化するマルチドメイン英語音声認識コーパスです。
- GigaSpeech 2 - 自動化されたクローリング、転写、改良を備えた、低リソース言語向けの進化する大規模なマルチドメイン ASR コーパスです。
- How2 - How2 データセットには 13,500 のビデオ、または 300 時間の音声が含まれており、185,187 のトレーニング、2022 の開発 (開発)、および 2361 のテスト発話に分割されています。英語の字幕とクラウドソーシングによるポルトガル語翻訳が付いています。
- inaGVAD - 音声アクティビティ検出 (VAD) と話者性別セグメンテーション (SGS) のアノテーションが付けられた、フランスの挑戦的なテレビおよびラジオ データセットです。評価スクリプトと、非音声イベント タイプ、話者の特徴、音声品質を詳細に示す詳細なアノテーション スキームが含まれています。
- KdConv - KdConv は、中国のマルチドメインのナレッジドリブン コンバージョン データセットであり、マルチターン会話のトピックをナレッジ グラフに基づいて作成します。 KdConv には、3 つのドメイン (映画、音楽、旅行) からの 4.5,000 の会話と、平均ターン数 19.0 の 86,000 の発話が含まれています。これらの会話には、関連トピックに関する詳細なディスカッションや複数のトピック間の自然な移行が含まれており、コーパスは転移学習やドメイン適応の探索にも使用できます。
- Libriheavy - Libriheavy: 句読点の大文字小文字とコンテキストを含む 50,000 時間の ASR コーパス。
- LibriSpeech - LibriSpeechコーパスは、LibriVox プロジェクトの一部である約 1,000 時間のオーディオブックのコレクションです。オーディオブックのほとんどは、Project Gutenberg から提供されています。トレーニング データは 100 時間、360 時間、500 時間セットの 3 つのパーティションに分割され、開発データとテスト データは、自動音声認識システムのパフォーマンスがどの程度優れているか、または難しいかに応じて、それぞれ「クリーン」および「その他」のカテゴリに分割されます。 。開発セットとテスト セットのそれぞれの音声の長さは約 5 時間です。
- LibriTTS - LibriTTS は、 Google Speech および Google Brain チーム メンバーの協力を得て Heiga Zen が作成した、24kHz サンプリング レートで約 585 時間の読み上げ英語音声を収録したマルチスピーカー英語コーパスです。 LibriTTS コーパスは、TTS 研究用に設計されています。これは、LibriSpeech コーパスの元の素材 (LibriVox の mp3 オーディオ ファイルと Project Gutenberg のテキスト ファイル) から派生しています。
- LibriTTS-R - LibriTTS-R: 復元されたマルチスピーカーのテキスト読み上げコーパス。これは、2,456 人の話者からの 24 kHz サンプリング レートでの 585 時間の音声データと対応するテキストで構成される LibriTTS コーパスに音声復元を適用することによって得られます。 LibriTTS-Rの構成サンプルはLibriTTSと同一であり、音質のみが向上しています。
- LJSpeech (LJ 音声データセット) - これは、7 冊のノンフィクション書籍の一節を朗読する 1 人の話者の 13,100 個の短いオーディオ クリップで構成されるパブリック ドメインの音声データセットです。各クリップにはトランスクリプションが提供されます。クリップの長さは 1 秒から 10 秒までさまざまで、合計の長さは約 24 時間です。テキストは 1884 年から 1964 年の間に出版され、パブリック ドメインにあります。この音声は LibriVox プロジェクトによって 2016 年から 2017 年にかけて録音されたもので、パブリック ドメインでもあります。
- LRS2 (読唇文 2) - Oxford-BBC の読唇文 2 (LRS2) データセットは、公開されている現存する読唇文の最大のデータセットの 1 つです。データベースは主に BBC 番組のニュースとトーク番組で構成されています。各文の長さは最大 100 文字です。
- LRW (Lip Reading in the Wild) - Lip Reading in the Wild (LRW) データセットは、1,000 人を超える話者からの 500 の異なる単語を含む大規模なオーディオビジュアル データベースです。各発話には 29 のフレームがあり、その境界はターゲット単語を中心にしています。データベースはトレーニング、検証、テスト セットに分かれています。トレーニング セットにはクラスごとに少なくとも 800 個の発話が含まれており、検証セットとテスト セットには 50 個の発話が含まれています。
- MuAViC - 堅牢な音声認識と堅牢な音声からテキストへの翻訳のための多言語オーディオビジュアル コーパス。
- MuST-C - MuST-C は現在、音声翻訳用に公的に利用可能な最大の多言語コーパス (1 対多) を表します。英語からドイツ語、スペイン語、フランス語、イタリア語、オランダ語、ポルトガル語、ルーマニア語、ロシア語まで、8 つの言語方向をカバーしています。このコーパスは、英語の TED 講演の音声、書き起こし、翻訳で構成されており、事前定義されたトレーニング、検証、およびテスト分割が付属しています。
- MetaQA (MoviE Text Audio QA) - MetaQA データセットは、WikiMovies データセットから派生した映画オントロジーと、自然言語で記述された 3 セットの質問と回答のペア (1 ホップ、2 ホップ、および 3 ホップ クエリ) で構成されます。
- MELD (マルチモーダル EmotionLines データセット) - マルチモーダル EmotionLines データセット (MELD) は、EmotionLines データセットを強化および拡張することによって作成されました。 MELD には、EmotionLines で使用できるのと同じダイアログ インスタンスが含まれていますが、テキストとともにオーディオおよびビジュアル モダリティも含まれています。 MELD には、フレンズ TV シリーズからの 1400 を超えるダイアログと 13000 の発話が収録されています。対話には複数の講演者が参加した。対話内の各発話には、怒り、嫌悪、悲しみ、喜び、中立、驚き、恐怖の 7 つの感情のいずれかがラベル付けされています。 MELD には、各発話に対する感情 (肯定的、否定的、中立的) アノテーションもあります。
- Microsoft スピーチ コーパス (インド言語) - Microsoft スピーチ コーパス (インド言語) リリースには、テルグ語、タミル語、グジャラート語の会話およびフレーズ音声トレーニングとテスト データが含まれています。データ パッケージには、音声と対応するトランスクリプトが含まれています。このデータセットで提供されるデータは、商業目的で使用してはなりません。データは研究目的にのみ使用できます。調査結果を公開する場合は、「Microsoft および SpeechOcean.com によって提供されたデータ」という帰属を提供する必要があります。
- PATS (ポーズ オーディオ トランスクリプト スタイル) - PATS データセットは、多様で大量の位置合わせされたポーズ、オーディオ、トランスクリプトで構成されます。このデータセットを使用して、自然で適切なジェスチャを生成する仮想エージェントのテクノロジーの開発に役立つベンチマークを提供したいと考えています。
- RealMAN - RealMAN: 動的音声強化とローカリゼーションのための、実際に録音され、注釈が付けられたマイク アレイ データセット。
- SAVEE (Surrey Audio-Visual Expressed Emotion) - Surrey Audio-Visual Expressed Emotion (SAVEE) データセットは、自動感情認識システム開発の前提条件として記録されました。このデータベースは、4 人の男性俳優による 7 つの異なる感情の録音、合計 480 のイギリス英語の発話で構成されています。文は標準的な TIMIT コーパスから選択され、各感情の音声バランスがとられています。
- SoS_Dataset - ストーリーのサウンド: オーディオを使用したマルチモーダル ストーリーテリング。現実世界では、ストーリーテリングはマルチモーダルです。ストーリーを語るとき、ストーリーそのものとともに視覚化や音声をすべて使用することがあります。しかし、ストーリーテリングのデータセットやタスクに関する先行研究では、音声もストーリーの意味のある意味論を伝えているにもかかわらず、音声にはほとんど注意が払われていませんでした。したがって、言語情報を持たない物語のコンテキストに基づいた音声である「背景音」と呼ばれる新しいコンポーネントを確立することにより、物語の理解と伝える領域を拡張することを提案します。
- 音声データセット コレクション - これは、音声関連の研究 (主に自動音声認識) 用に公開されている音声データセットの厳選されたリストです。このリポジトリには 110 を超える音声データセットが収集されており、追加の申請や登録を行わずに 70 を超えるデータセットを直接ダウンロードできます。
- 音声データセット ジェネレーター - 音声データセット ジェネレーターは、テキスト読み上げまたは音声からテキストへのモデルのトレーニングに適したデータセットの作成に特化しています。主な機能には、音声ファイルの文字起こし、必要に応じて音声品質の向上、データセットの生成が含まれます。
- 3D スピーカー データセット - 人間の音声の大規模なマルチデバイス、マルチディスタンス、マルチ方言オーディオ データセット。
- TED-LIUM - TED トークの音声転写。 1495 件の TED トーク音声録音とその録音の全文転写。メイン大学情報研究所 (LIUM) によって作成されました。
- Flickr オーディオ キャプション コーパス - Flickr 8k オーディオ キャプション コーパスには、8,000 枚の自然画像の 40,000 件の音声キャプションが含まれています。この情報は、教師なし音声パターン発見のためのマルチモーダル学習スキームを調査するために 2015 年に収集されました。
- The People's Speech - The People's Speechは、無料でダウンロードできる 30,000 時間の教師付き会話型英語音声認識データセットであり、CC-BY-SA (CC-BY サブセット付き) に基づいて学術的および商業的使用がライセンスされています。データは、既存の文字起こしを含む適切にライセンスされた音声データをインターネットで検索することによって収集されます。
- The Spoken Wikipedia Corpora - Spoken Wikipedia プロジェクトは、Wikipedia 記事のボランティア読者を団結させます。何らかの理由で記事の書き込みバージョンを利用できない、または利用したくないユーザーは、複数の言語で数百の音声記事を利用できます。
- TIMIT - DARPA TIMIT 音響音声連続音声コーパス。
- tts-frontend-dataset - TTS フロントエンド データセット: ポリフォン / 韻律 / テキスト正規化。
- VoxCeleb2 - VoxCeleb2 は、オープンソース メディアから自動的に取得される大規模な話者認識データセットです。 VoxCeleb2 は、6,000 人を超える話者による 100 万を超える発話で構成されています。データセットは「実際に」収集されたものであるため、音声セグメントは、笑い声、クロストーク、チャネル効果、音楽、その他の音を含む現実世界のノイズによって破損されています。データセットは多言語にも対応しており、145 の異なる国籍の話者による音声が収録されており、幅広いアクセント、年齢、民族、言語をカバーしています。
- VoxConverse - VoxConverse は、YouTube ビデオから抽出された人間の音声のマルチスピーカー クリップで構成されるオーディオビジュアルダイアリゼーション データセットです。
- VoxLingua107 - VoxLingua107 は、6628 時間 (言語ごとに平均 62 時間) の音声言語認識用のデータセットであり、1609 の検証済み発話の評価セットが付属しています。
- VoxPopuli - VoxPopuli は、23 言語で 10 万時間のラベルなし音声データを提供する大規模な多言語コーパスです。これは、教師なし表現学習および半教師あり学習にとって、これまでで最大のオープン データです。 VoxPopuli には、16 か国語で 1.8,000 時間のスピーチの文字起こしと、他の 5 つの言語への口頭通訳、合計 5.1,000 時間も含まれています。
- VoxForge - VoxForge は、フリーおよびオープンソースの音声認識エンジン (Linux、Windows、Mac 上) で使用するために書き起こされた音声を収集するために設定されたオープン音声データセットです。
- VocalSound - VocalSound は、3,365 人の固有の被験者からの笑い声、ため息、咳、咳払い、くしゃみ、鼻をすする音の 21,024 個のクラウドソーシング録音で構成される無料のデータセットです。 VocalSound データセットには、話者の年齢、性別、母国語、国、健康状態などのメタ情報も含まれています。
- VoiceBank + DEMAND - VoiceBank+DEMAND は、音声強調アルゴリズムと TTS モデルをトレーニングするためのノイズのある音声データベースです。このデータベースは、48kHz で動作する音声強調方法をトレーニングおよびテストするように設計されています。より詳細な説明は、データベースに関連する論文に記載されています。
- WaveFake - WaveFake はオーディオディープフェイク検出用のデータセットです。このデータセットは、100K を超える生成されたオーディオ クリップの大規模なデータセットで構成されています。
- WenetSpeech - WenetSpeech は、10,000 時間以上の高品質のラベル付き音声、2,400 時間以上の弱いラベル付き音声、および約 10,000 時間以上のラベルなし音声で構成され、合計 22,400 時間以上のマルチドメイン中国語コーパスです。著者らは、さまざまな話し方、シナリオ、領域、トピック、騒々しい状況をカバーするデータを YouTube とポッドキャストから収集しました。光学式文字認識 (OCR) ベースの方法が導入され、YouTube データの対応するビデオ キャプションのオーディオ/テキスト セグメンテーション候補が生成されます。
- WSJ0-2mix - WSJ0-2mixは、ウォール ストリート ジャーナル (WSJ0) コーパスの発話を使用した混合音声の音声認識コーパスです。
- ワム! (WSJ0 Hipster Ambient Mixtures) - WSJ0 Hipster Ambient Mixtures ( WHAM! ) データセットは、wsj0-2mix データセット内の各 2 スピーカーの混合を固有のノイズ背景シーンと組み合わせます。騒音音声は、2018 年後半にサンフランシスコ ベイエリアのさまざまな都市の場所で収集されました。環境は主にレストラン、カフェ、バー、公園で構成されています。音声は、地面から 1.0 ~ 1.5 メートルの距離で三脚に設置した Apogee Sennheiser バイノーラル マイクを使用して録音されました。
- YODAS - これは、YODAS データセットの YODAS 手動/自動サブセットで、369,510 時間の音声が含まれています。このデータセットには、YouTube からの音声発話と対応するキャプション (手動または自動) が含まれています。手動キャプションは、ユーザーによってアップロードされたことを示すだけであり、必ずしも人間によって文字起こしされるわけではないことに注意してください。
- YODAS2 - YODAS2 は、YODAS データセットの長い形式のデータセットです。 espnet/yodas と同じデータセットを提供しますが、YODAS2 には次の新機能があります。 1. オーディオがセグメント化されていないロングフォーム (ビデオレベル) でフォーマットされます。 2. オーディオは、より高いサンプリング レート (つまり 24k) を使用してエンコードされます。
- YTTTS - YouTube Text-To-Speech データセットは、英語の文字起こしとともに YouTube 動画から抽出された波形音声で構成されています。
^ 目次に戻る ^
音楽
- AAM: 人工オーディオ マルチトラック データセット - このデータセットには、豊富な注釈が付いた 3,000 個の人工音楽オーディオ トラックが含まれています。実際の楽器サンプルに基づいており、音楽理論に基づいたアルゴリズム構成によって生成されます。曲のフルミックスだけでなく、単一のインストゥルメントトラックも提供します。生成に使用したmidisも公開されています。注釈ファイルには、オンセット、ピッチ、楽器、キー、テンポ、セグメント、メロディ楽器、ビート、コードが含まれます。
- アカペラ - アカペラは、YouTbe からソースされた約 46 時間のアカペラ ソロ歌唱ビデオで構成され、さまざまな歌手や言語でサンプリングされています。英語、スペイン語、ヒンディー語などの 4 つの言語が考慮されます。
- 追加: audio-dataset-downloader - 音楽ジャンルのリストに基づいて、Youtube から N 時間のオーディオをダウンロードするためのシンプルな Python CLI スクリプト。
- ADL ピアノ MIDI - ADL ピアノ MIDI は、さまざまなジャンルの 11,086 曲のピアノ曲のデータセットです。このデータセットは、Million Song データセットのエントリと照合された 45,129 個の一意の MIDI ファイルのコレクションである Lakh MIDI データセットに基づいています。
- Aligned Scores and Performances (ASAP) - ASAP は、整列された楽譜 (MIDI と MusicXML の両方) とパフォーマンス (オーディオと MIDI) のデータセットで、すべてダウンビート、ビート、拍子記号、および調号の注釈が付いています。
- 注釈付き Jingju Arias データセット - 注釈付き Jingju Arias データセットは、ソフトウェア Praat を使用してさまざまなレベルに手動でセグメント化された 34 個の Jingju アリアのコレクションです。選択されたアリアには、京州の 2 つの主要な聖強、つまり西皮と二黄、および歌唱に関する 5 つの主要な役割タイプ、つまりダン、ジン、ラオダン、ラオシェン、シャオシェンのサンプルが含まれています。データセットは、各アリアの Praat TextGrid ファイルによって形成されます。このファイルには、アリア、MusicBrainz ID、アーティスト、学校、役割の種類、盛強、番詩、歌詞の行、音節、パーカッション パターンといった情報の階層が含まれています。
- Bach Doodle - Bach Doodle データセットは、Bach Doodle から送信された 2,160 万のハーモナイゼーションで構成されています。データセットには、楽曲に関するメタデータ (制作国やフィードバックなど) と、ユーザーが入力したメロディーの MIDI および生成されたハーモナイゼーションの MIDI の両方が含まれています。データセットには、ユーザーが入力した約 6 年分の音楽が含まれています。
- Bach Violin Dataset - バッハの独奏ヴァイオリンのためのソナタとパルティータ (BWV 1001–1006) の高品質な公開録音のコレクション。
- Batik-plays-Mozart データセット - Batik-plays-Mozart データセットは、ウィーンのコンサート ピアニスト、ローランド バティックがコンピューターで監視されたベーゼンドルファー グランド ピアノで演奏した 12 の完全なモーツァルト ピアノ ソナタ (36 の個別の楽章) を含むピアノ演奏データセットです。演奏は MIDI 形式 (対応するオーディオ ファイルは市販されています) で提供され、MusicXML の New Mozart Edition の楽譜と、以前に The Annotated Mozart Sonatas で公開された音楽学的ハーモニー、リズム、フレーズの注釈と音符レベルが調整されています。
- 京劇打楽器データセット - 京劇打楽器データセットは、京劇で使用される 4 つの打楽器クラスにわたる分離ストロークの 236 例のコレクションです。各打楽器のストロークモデルを構築するために使用できます。
- 京劇打楽器パターン データセット - 京劇打楽器パターン (BOPP) データセットは、5 つのパターン クラスをカバーする 133 のオーディオ パーカッション パターンのコレクションです。データセットには、パターンのオーディオおよび音節レベルの転写が含まれています (時間調整されていません)。打楽器の転写や分類タスクに役立ちます。パターンはアリアの音声録音から抽出され、音楽学者によってラベル付けされています。
- BiMMuDa - ビルボード メロディック ミュージック データセット (BiMMuDa) は、1950 年から 2022 年までの各年のビルボード年末シングル チャートのトップ 5 シングルのメイン メロディーの MIDI データセットです。このリポジトリには、データセットとそのメタデータが保存されています。そして付録。
- CAL500 (Computer Audition Lab 500) - CAL500 (Computer Audition Lab 500) は、音楽情報検索システムの評価を目的としたデータセットです。洋楽ポピュラー音楽から厳選した502曲で構成されています。オーディオは、各曲の波形上で 12 ミリ秒の半分オーバーラップする短時間ウィンドウをスライドさせることによって抽出された、最初の 13 のメル周波数ケプストラム係数 (およびその一次および二次導関数) の時系列として表されます。
- カルナティック ミュージック リズム データセット - カーナティック ミュージック リズム データセットは、オーディオ、関連するターラ関連のメタデータ、ターラ サイクルの進行を示す時間調整されたマーカーを備えた、カルナティック ミュージックの 4 つのターラからの 176 の抜粋 (16.6 時間) のサブコレクションです。これは、カルナティック音楽の多くの自動リズム分析タスクのテスト コーパスとして役立ちます。
- CCMixter - CCMixter は、さまざまな音楽ジャンルをフィーチャーした ccMixter の 50 のフルレングスのステレオ トラックで構成される歌声分離データセットです。各曲には、バックグラウンド ミュージック、音声信号、およびそれらの合計の 3 つの WAV ファイルが利用可能です。
- ChMusic - ChMusicは、楽器認識のトレーニング モデルとパフォーマンス評価のための中国の伝統的な音楽データセットです。このデータセットは、二胡、笛、三仙、地子、蘇那、珠琴、中阮、柳琴、古正、陽琴、盛からなる 11 の楽器をカバーしています。
- chongchong-free - Chongchong Piano Downloader は、Chongchong ピアノ楽譜のリンクを取得し、楽譜の内容を解析してファイルをエクスポートできる、Chongchong ピアノ楽譜を無料でダウンロードできるソフトウェアです。
- ComMU - ComMU には、プロの作曲家によって作成された短いノート シーケンスと、対応する 12 のメタデータで構成される 11,144 個の MIDI サンプルがあります。このデータセットは、自己回帰言語モデルを通じてメタデータのみを使用して多様で高品質な音楽を生成する、組み合わせ音楽生成という新しいタスクのために設計されています。
- CoSoD - CoSoD は、2010 年から 2019 年に発行されたビルボード「Hot 100」年末チャートのすべてのマルチアーティストのコラボレーションを含む 331 曲のコーパスのメタデータと分析データで構成されています。データセット内の各曲は、2 つの CSV ファイルに関連付けられています。 1 つはメタデータ用、もう 1 つは分析データ用です。
- DALI - DALI: 同期されたオーディオ、歌詞、ボーカルノートの大規模なデータセット。
- DadaGP - DadaGP は、739 の音楽ジャンルをカバーする GuitarPro 形式の 26,181 曲のスコアと、Transformer などの生成シーケンス モデルに適した付随のトークン化形式で構成される新しいシンボリック音楽データセットです。トークン化された形式は、シンボリック音楽生成モデルでよく使用されるイベントベースの MIDI エンコーディングからインスピレーションを得ています。データセットは、GuitarPro ファイルをトークンに変換したり逆に変換したりするエンコーダー/デコーダーとともにリリースされます。
- DeepScores - オブジェクト分類、セマンティック セグメンテーション、オブジェクト検出のための、書かれた音楽の 300,000 個の注釈付き画像の合成データセット。 MuseScore から取得した大規模な MusicXML ドキュメント セットに基づいて、洗練されたパイプラインを使用してソースを LilyPond ファイルに変換し、画像の彫刻と注釈付けに LilyPond が使用されます。
- dMelodies - dMelodies は、9 つの独立した潜在変動因子を使用して生成された単純な 2 小節のメロディーのデータセットであり、各データ ポイントは次の制約に基づいて固有のメロディーを表します。 - 各メロディーは固有のスケール (メジャー、マイナー、ブルースなど) に対応します。 。)。 - 各メロディーは、標準的な I-IV-VI のリズム コード パターンを使用してアルペジオを演奏します。 - 小節 1 は最初の 2 つのコード (6 音符) を演奏し、小節 2 は次の 2 つのコード (6 音符) を演奏します。 - 演奏される各音は 8 分音符です。
- DISCO-10M - DISCO-10M は、音楽の大規模機械学習モデルの研究を民主化するために作成された音楽データセットです。
- Dizi - Dizi は、北派と南派の音楽スタイルのデータセットです。 2 つの異なる音楽スタイルのメロディーと演奏テクニックが特徴です。
- DreamSound - 最近、テキスト音楽生成モデルは、指定されたテキスト プロンプトから高品質で多様な音楽サンプルを合成するという前例のない結果を達成しました。これらの進歩にもかかわらず、個人化されたユーザー固有の音楽コンセプトをどのように生成し、操作し、既存の音楽コンセプトと組み合わせることができるのかは依然として不明です。コンピューター ビジョンの文献に触発されて、私たちは 2 つの確立された方法、つまり Textual Inversion と Dreambooth を調査することにより、テキストから音楽への変換を調査します。定量的な指標とユーザー調査を使用して、わずかなサンプルを与えて新しい音楽コンセプトを再構築および修正する能力を評価します。最後に、新しいデータセットを提供し、この新しいタスクの評価プロトコルを提案します。
- EMOPIA - 感情認識と感情ベースの音楽生成のためのマルチモーダル ポップ ピアノ データセット。 EMOPIA (「イーモピウ」と発音) データセットは、ポップ ピアノ音楽で知覚される感情に焦点を当てた共有マルチモーダル (オーディオおよび MIDI) データベースであり、音楽の感情に関連するさまざまなタスクの研究を促進します。このデータセットには、387 曲からの 1,087 個の音楽クリップと、4 人の専任アノテーターによって注釈が付けられたクリップ レベルの感情ラベルが含まれています。
- ErhuPT (二胡演奏技法データセット) - このデータセットは、複数のプロの演奏家によって録音された約 1500 のオーディオ クリップを含むオーディオ データセットです。
- FiloBass - データセットとコーパスに基づいたジャズのベースラインの研究。 FiloBass: ジャズ伴奏におけるコントラバスの重要だが見落とされがちな役割に焦点を当てた、楽譜と注釈の新しいコーパス。ソリストの役割に光を当てた最近の研究に触発され、FiloSax データセットで使用されているバッキング トラックに基づいた、50,000 を超えるノート イベントで構成される、プロのジャズ ベーシストの手動で検証された 48 の転写のコレクションを提供します。録音ごとに、オーディオステム、スコア、演奏に合わせた MIDI、ビート、ダウンビート、コードシンボル、音楽形式のマーカーなどの関連メタデータが提供されます。
- トリを見つけて - トリを見つけて: 韓国民謡を分析するための自己教師あり学習。 1980 ~ 90 年代頃に録音された約 700 時間の韓国民謡のフィールド録音データセットのコンピューター分析を紹介します。
- FMA - Free Music Archive (FMA) は、音楽情報検索におけるいくつかのタスクを評価するための大規模なデータセットです。これは、16,341 人のアーティストと 14,854 枚のアルバムからの 106,574 トラックからの 343 日分のオーディオで構成され、161 ジャンルの階層分類で整理されています。フルレングスで高品質のオーディオ、事前に計算された機能に加えて、トラックレベルおよびユーザーレベルのメタデータ、タグ、伝記などの自由形式のテキストも提供します。
- GiantMIDI-Piano - GiantMIDI-Piano は、2,786 人の作曲家の 10,855 MIDI ファイルを含むクラシック ピアノ MIDI データセットです。作曲家の姓を制限して厳選されたサブセットには、1,787 人の作曲家の 7,236 MIDI ファイルが含まれています。
- Groove (Groove MIDI データセット) - Groove MIDI データセット (GMD) は、13.6 時間の調整された MIDI と、人間が演奏し、テンポが調整された表現力豊かなドラム演奏の (合成) オーディオで構成されています。データセットには、1,150のMIDIファイルと22,000を超える測定値が含まれています。
- Gtsinger -gtsinger:すべての歌唱タスクに現実的な音楽スコアを備えたグローバルマルチテクニックシンギングコーパス。 GTSingerは、すべての歌のタスクに合わせてベンチマークとともに設計された、現実的な音楽スコアを備えた、大規模でマルチテクニック、無料の高品質の高品質の歌手を紹介します。
- ギターセット - ギターセット:ギター転写のためのデータセット。
- Hindustani Music Rhythm Dataset -Hindustani Music Rhythm Datasetは、Hindustani音楽の4つのTaalsで151(5時間)のサブ収集、Audio、関連するTAAL関連メタデータ、およびTAALサイクルの進行を示す時間アライメントマーカーです。データセットは、Hindustani音楽の多くの自動リズム分析タスクのテストコーパスとして役立ちます。
- Humtrans-データセットは、ハミングメロディーベースの音楽生成など、下流のタスクの基盤としても機能します。さまざまなジャンルと言語の500の音楽作曲で構成されており、各作曲は複数のセグメントに分割されています。合計で、データセットは1000の音楽セグメントで構成されています。このハミングデータセットを収集するために、私たちは10人の大学生を雇用しましたが、そのすべては音楽専攻であるか、少なくとも1つの楽器を演奏するのに熟練しています。それらのそれぞれは、設計されたWebサイトが提供するWebレコーディングインターフェイスを使用して、すべてのセグメントを2回ハミングしました。ハミングの録音は、44,100 Hzの周波数でサンプリングされました。
- インドのアートミュージックトニックデータセット - このデータセットは、それぞれがリードアーティストの強壮剤で手動で注釈を付けたインドのアートミュージック(ヒンドゥスタニとカルナティックミュージック)の597の市販のオーディオ音楽録音で構成されています。このデータセットは、強壮剤識別アプローチの開発のためのテストコーパスとして使用されます。
- ジャズハーモニーツリーバンク - このリポジトリには、シャナハンらによってZenodoに掲載されたIrealProコーパスから選択されたジャズコードシーケンスの階層高調波分析のコーパスであるジャズハーモニーツリーバンクが含まれています。
- JazzNet -JazzNet:音楽オーディオ機械学習研究のための基本的なピアノパターンのデータセット。このペーパーでは、音楽情報検索(MIR)における機械学習(ML)アルゴリズムを開発するための基本的なジャズピアノ音楽パターンのデータセットであるJazzNetデータセットを紹介します。このデータセットには、コード、アルペジオ、スケール、転回形を含むコード進行を含む 162,520 個のラベル付きピアノ パターンが含まれており、その結果、オーディオは 26,000 時間以上、合計サイズは 95 GB になります。
- jingju a cappella singing pitch contour dataset -jingju a cappella singing pitch contour datasetは、39 jingju a cappella singingレコーディングのピッチ輪郭セグメントグラウンドトゥルースのコレクションです。データセットには、(1)メロディック転写、(2)ピッチの輪郭セグメンテーションのグラウンドトゥルースが含まれています。メロディック転写とピッチの輪郭セグメンテーションタスクに役立ちます。ピッチの輪郭は、オーディオ録音から抽出され、音楽学者によって手動で修正およびセグメント化されています。
- Jingju Music Scores Collection-これは、音楽システムの観点からJingju Singingの分析のために収集された92のJingju Musicスコアのコレクションです。彼らは、元の印刷されたソースから、MuseScoreを使用して、MuseXMLにエクスポートする機械の読み取り可能な形式に転写されました。
- JS Fake Chorales- KS_Chorusアルゴリズムによって生成された500の4部構成のChoralesのMIDIデータセットは、数百人のリスニングテスト参加者の結果が注釈が付けられ、300人の発表されていないChoralesがあります。
- Laion-Disco-12M-Laion-Disco-12Mデータセットには、Disco-10Mの方法論に触発されたYouTubeの音楽への12mのリンクが含まれています。アーティストの最初のシードリストから始めて、「ファンかもしれない」セクションにリストされているアーティストを再帰的に探索することで、新しいアーティストを発見できます。新しいアーティストを見つけることができる限り、関連するアーティストのグラフを探ります。
- lakh musenet midiデータセット - フルlakh midiデータセットがMusenet midi出力形式(9機器 +ドラム)に変換されました。
- Los Angeles Midi Dataset -Sota KiloスケールMIDIデータセットと音楽AI目的。
- LP-Musiccaps-LP-Musiccaps:LLMベースの擬似音楽キャプション。
- Lyra Dataset -Lyraは、ギリシャ語の伝統音楽と民俗音楽のデータセットであり、1570個を含む、約80時間のデータで合計しています。データセットには、YouTubeのタイムスタンプ付きリンクが、オーディオとビデオを取得するためのリンクと、とりわけ、計装、地理、ジャンルなどに関する豊富なメタデータ情報が組み込まれています。
- Maestro- Maestroデータセットには、10年以上の国際的なピアノ-E競争からの200時間以上のペアオーディオとMIDIの録音が含まれています。 MIDIデータには、主要なストライキ速度とSustain/Sostenuto/Una Corda Pedal Positionsが含まれます。オーディオファイルとMIDIファイルは、約3ミリ秒の精度で整合されており、作曲家、タイトル、および年間の年間が注釈が付けられた個々の音楽作品にスライスされています。非圧縮オーディオは、CDの品質以上です(44.1〜48 kHz 16ビットPCMステレオ)。
- Magnatagatune -Magnatagatune Datasetには25,863の音楽クリップが含まれています。各クリップは、5223曲、445枚のアルバム、230人のアーティストに属する29秒の長さの抜粋です。クリップは、クラシック、ニューエイジ、エレクトロニカ、ロック、ポップ、ワールド、ジャズ、ブルース、メタル、パンクなどの幅広いジャンルに及びます。各オーディオクリップには、188タグのバイナリ注釈のベクトルが付属されています。
- 「ポピュラーミュージックの進化:USA 1960–2010」のメインデータセット - これは、列ヘッダーを備えたコンマ分離データ形式のEvolutionPopusa_maindata.csvと呼ばれる大きなファイル(〜20MB)です。各行は録音に対応します。ファイルは任意のテキストエディターで表示可能であり、Excelで開くか、他のデータ処理プログラムにインポートすることもできます。
- メタミディデータセット - 436,631 MIDIファイルとメタデータの大規模なコレクションであるメタミディデータセット(MMD)を紹介します。 MIDIファイルに加えて、利用可能な場合にスクレイピングプロセス中に収集されたアーティスト、タイトル、ジャンルメタデータを提供します。 MIDIS IN(MMD)は、Spotifyから取得した32,000,000 30秒のオーディオクリップのコレクションと一致し、10,796,557以上のオーディオMIDIマッチをもたらしました。
- 百万曲データセット - このデータセットには、1922年から2011年の100万曲が含まれており、アーティストはeChonest(現在はSpotifyの一部)から情報をタグ付けされ、オーディオ測定やその他の関連情報が含まれています。
- miR-1K-miR-1K(マルチメディア情報検索ラボ、1000曲クリップ)は、音声分離を歌うために設計されたデータセットです。
- Mridangam Stroke Dataset -Mridangam Stroke Datasetは、さまざまなトニックにおけるMridangamの個々のストロークの7162オーディオ例のコレクションです。データセットは、6つの異なる強壮剤値を持つMridangamsで再生された10の異なるストロークで構成されています。データセットは、mridangamストロークごとにトレーニングモデルに使用できます。
- Mridangam Tani-Avarthanam Dataset-Mridangam Tani-Avarthanam Datasetは、有名なMridangam Maestro Padmavibhushan Umayalpuram K. Sivaramanが演じる2つのタニアバルタナムの転写コレクションです。このオーディオは、インドのIITマドラスで録音され、プロのカルナティックパーカッショニストによって注釈が付けられました。約24分のオーディオと8800ストロークで構成されています。
- MIRMLPOP-1)miR-Mlpopデータセットの注釈、2)データセットのオーディオを取得するソースコード、3)ソースコードmiR-Mlpopでウィスパーを微調整するために使用したソースコード(両方の歌詞アライメントと歌詞の転写の両方) 、および4)評価のためのソースコード。
- MSD(Million Song Dataset)-Million Song Datasetは、100万の現代的なポピュラー音楽トラックのオーディオ機能とメタデータの自由に利用できるコレクションです。データセットのコアは、Echo Nestが提供する100万曲の機能分析とメタデータです。
- MTG-Jamendo Dataset-MTG-Jamendo Dataset、Music Auto-Taggingの新しいオープンデータセットを提示します。 JamendoでCreative Commonsのライセンスとコンテンツのアップローダーが提供するタグの下で利用できる音楽を使用して構築されています。データセットには、ジャンル、楽器、ムード/テーマのカテゴリから195のタグを備えた55,000を超えるフルオーディオトラックが含まれています。研究者に詳細なデータスプリットを提供し、ジャンル、楽器、ムード/テーマ、トップ50、および全体の5つの異なるタグセットの単純なベースラインアプローチのパフォーマンスを報告します。
- MTG-Jamendo- MTG-Jamendo Datasetは、音楽の自動タグ付けのためのオープンデータセットです。データセットには、195のタグカテゴリ(87のジャンルタグ、40の機器タグ、56のムード/テーマタグ)を備えた55,000を超えるフルオーディオトラックが含まれています。 JamendoでCreative Commonsのライセンスとコンテンツのアップローダーが提供するタグの下で利用できる音楽を使用して構築されています。すべてのオーディオは、320kbps MP3形式で配布されています。
- 計算音楽研究のための音楽データ共有プラットフォーム(CCMUSICデータセット) - このプラットフォームは、計算音楽学研究のための多機能音楽データ共有プラットフォームです。中国の伝統的な楽器のサウンド情報や、Computational Musicologyの研究者が無料で使用できる中国のポップミュージックのラベル付け情報など、多くの音楽データが含まれています。
- 音楽感情認識(MER) - パーソナライズされた音楽感情認識(MER)システムの分析のためのデータセットを提示します。そのようなシステムへの入力として必要ないわゆる「グラウンドトゥルース」の集まりと分析を改善することを目的とした音楽愛好家プラットフォームを開発しました。
- ムーサン -ムーサンは音楽、スピーチ、ノイズのコーパスです。このデータセットは、音声アクティビティ検出(VAD)および音楽/音声差別のトレーニングモデルに適しています。データセットは、いくつかのジャンルからの音楽、12の言語からのスピーチ、および技術的および非技術的なノイズの幅広い品揃えで構成されています。
- MUSDB-XL-TRAIN-MUSDB-XL-TRAINデータセットは、4秒のオーディオセグメントと100個のオリジナル曲のリミッターが適用された300,000セグメントで構成されています。各セグメントについて、MUSDB-HQトレーニングサブセットの4つの茎(ボーカル、ベース、ドラム、その他)でランダムに任意のセグメントを選択し、ランダムに混合しました。次に、各ステムに商用リミッタープラグインを適用しました。
- MusicBench- MusicBench Datasetは、テキストから音楽の世代向けに設計されたMustangoテキストから音楽モデルでリリースされたMusic-Textペアのコレクションです。 MusicCapsデータセットは、5,521サンプルから52,768のトレーニングと400のテストサンプルに拡張され、 MusicBenchを作成します。
- MusicNet -MusicNetは、330の自由にライセンスされたクラシック音楽録音のコレクションと、すべての録音の各音符の正確な時間を示す100万を超える注釈付きラベル、各メモを再生する機器、および構成。ラベルは、ダイナミックタイムワーピングにより、録音に合わせた音楽スコアから取得されます。ラベルは訓練されたミュージシャンによって検証されています。 4%の標識エラー率を推定します。トレーニングモデルのリソースとして、および結果を比較するための共通のベンチマークとして、機械学習および音楽コミュニティにMusicNetラベルを提供しています。
- MusicCaps -MusicCapsは、5.5Kの音楽テキストペアで構成されるデータセットであり、人間の専門家によって提供される豊富なテキストの説明があります。
- Musedata -Musedataは、CCARHのオーケストラとピアノのクラシック音楽の電子図書館です。約3MBの783ファイルで構成されています。
- MUSDB18 -MUSDB18は、孤立したドラム、ベース、ボーカル、その他のステムとともに、異なるジャンルの150のフルレングス音楽トラック(〜10時間の持続時間)のデータセットです。データセットは、それぞれ100曲と50曲のトレーニングセットとテストセットに分割されます。すべての信号はステレオフォニックで、44.1kHzでエンコードされています。
- 音楽トピックとメタデータ - このデータセットは、1950年から2019年までの歌詞のリストを提供し、音楽メタデータを悲しみ、ダンセービリティ、ラウドネス、アコースティなどとして説明しています。また、自然言語処理に使用できる歌詞としての情報も提供します。
- 音楽ジャンルデータセット - それぞれが200曲を含む1494のジャンルのデータセット。
- Multimodal楽譜データセット-MSMDは、微調整されたレベルで並べられたピースのオーディオ表現とスコア表現の両方を含む497個の(クラシック)音楽の合成データセットです(音声/MIDIカウンターパートに合わせたノートヘッドの344,742ペア)。
- Muvi-sync- Muvi-Syncデータセットは、合計748から抽出された音楽機能(コード、キー、ラウドネス、ノート密度)とビデオ機能(シーンオフセット、感情、動き、セマンティック)を含むマルチモデルデータセットです。ミュージックビデオ。
- Nlakh -Nlakhは、楽器検索のデータセットです。これは、多数の機器を提供するNSYNTHデータセットと、マルチトラックMIDIデータを提供するLakhデータセットの組み合わせです。
- NSYNTH -NSYNTHは、ユニークなピッチ、音色、エンベロープを備えた305,979の音符を含む、ワンショットインストゥルメンタルノートのデータセットです。サウンドは、市販のサンプルライブラリから1006機の機器から収集され、ソース(音響、電子、または合成)、機器ファミリ、ソニックの品質に基づいて注釈が付けられています。注釈で使用される楽器ファミリは、低音、真鍮、フルート、ギター、キーボード、マレット、オルガン、リード、ストリング、シンセリード、ボーカルです。機器のために、4秒のモノフォニック16kHzオーディオスニペット(注)が生成されました。
- NES-MDB(Nintendo Entertainment System Music Database) - Nintendo Entertainment System Music Database(NES-MDB)は、NESオーディオシンセサイザー向けの自動音楽構成システムを構築するためのデータセットです。 397 NESゲームのサウンドトラックから5278曲で構成されています。データセットは296個のユニークな作曲家を表し、曲には200万個以上のノートが組み合わされています。 MIDI、スコア、NLM(NES言語モデリング)のファイル形式オプションがあります。
- NIKOコード進行データセット-NIKOコード進行データセットはAccomontage2で使用されています2。スタイルでラベル付けされた5K+コードの進行ピースが含まれています。合計には4つのスタイルがあります:ポップ標準、ポップコンプレックス、ダーク、R&B。
- Onair Music Dataset-? Onairロイヤリティフリーミュージックプロジェクトからの音楽デミキス研究のための新しいSTEMデータセット。
- OpenCPop -OpenCPopは、公開されている高品質のマンダリンシンギングコーパスであり、Singing Voice Synthesis(SVS)システム用に設計されています。このコーパスは、プロの女性歌手によって録音された100のユニークなマンダリンの歌で構成されています。すべてのオーディオファイルは、プロフェッショナルレコーディングスタジオ環境で44,100 Hzのサンプリングレートでスタジオ品質で記録されました。
- OpenGufeng-中国のグフェン音楽のメロディーとコード進行データセット。
- PBSCSR -Piano Botleg Score Composer Style認識データセット。私たちの包括的な目標は、「Mnistと同じくらいアクセス可能であり、Imagenetと同じくらい挑戦的」である作曲家スタイルの認識を研究するためのデータセットを作成することでした。この目標を達成するために、IMSLPのピアノ楽譜画像からの固定長の海賊版スコアフラグメントをサンプリングします。データセット自体には、9ウェイ分類タスクの40,000 62x64ブートルグスコア画像、100ウェイ分類タスクの100,000 62x64ブートルグスコア画像、および29,310の非標識変動長bootlegスコアイメージが事前渡されます。
- POP909 -POP909は、プロのミュージシャンが作成した909人の人気曲のピアノアレンジメントの複数のバージョンを含むデータセットです。データセットの本体には、ボーカルメロディー、リードインストルメントメロディー、および各曲のピアノの伴奏が、元のオーディオファイルに整列されたMIDI形式のピアノの伴奏が含まれています。さらに、テンポ、ビート、キー、およびコードの注釈が提供されます。ここでは、テンポの曲線が手書きで、その他はmiRアルゴリズムによって行われます。
- PROGGP- DADAGPの仕様に従って、GuitarPro形式とトークン形式の両方で、173のプログレッシブメタルソングのデータセット。
- RWC(Real World Computing Music Database)-RWC(Real World Computing)Music Databaseは、研究者が研究の共通の基盤として利用できる著作権承認の音楽データベース(DB)です。手動でラベル付けされたセクションの境界を持つ約100の完全な曲が含まれています。 50の楽器の場合、ハーフトーン間隔での個々のサウンドは、演奏スタイル、ダイナミクス、楽器メーカー、ミュージシャンのいくつかのバリエーションでキャプチャされました。
- Sangeet -Hindustaniクラシック音楽用のXMLデータセット。 Sangeetは、メタデータ、構造、表記、リズミカル、メロディック情報を含む特定の構成のすべての情報を、標準化された方法で、音楽情報を簡単かつ効率的に保存し、抽出するために標準化された方法で保存します。データセットは、音楽情報研究タスクのグラウンドトゥルース情報を提供することを目的としており、機械学習の観点からいくつかのデータ駆動型分析をサポートしています。
- Singkt -Dataset -SingKTは、KTの分野の音楽パフォーマンス評価データセットであり、学習者の光景能力の動的な変化をキャプチャするために知識トレース方法を利用しようとします。データセットは、パブリックインテリジェントサイトの実践プラットフォームであるSingMasterからデータを収集します。 SingKTデータセットには、メインの応答レコードデータテーブル(RECORDDS)と2つの補足情報データテーブル(userds、opernds)が含まれています。 userdsテーブルは、データセットに含まれる1074人の学習者の視覚情報を記録し、Operndsテーブルは音楽シート情報を記録します。
- SLAKH2100-合成されたLakh(SLAKH)データセットは、プロのグレードのサンプルベースの仮想機器を使用して、Lakh MIDIデータセットv0.1から合成されるオーディオソース分離のデータセットです。 Slakh2100と呼ばれるSlakhのこの最初のリリースには、2100の自動化された混合トラックと、プロのグレードサンプリングエンジンを使用して合成されたMIDIファイルが付随するMIDIファイルが含まれています。 Slakh2100のトラックは、トレーニング(1500トラック)、検証(375トラック)、およびテスト(225トラック)サブセットに分割され、合計145時間の混合物です。
- SymphonyNet-SymponyNetは、Symphonyのような複雑なマルチトラックとマルチインストゥルメントの音楽を生成することを目的としたオープンソースプロジェクトです。私たちの方法は、ポップ、ピアノ、ソロミュージックなど、他のタイプの音楽と完全に互換性があります。
- Table Solo Dataset -Tabla Solo Datasetは、Ptが演じる6つの異なるGharanas of Tablaの構成にまたがるタブラソロオーディオ録音の転写コレクションです。 Arvind Mulgaonkar。データセットは、オーディオと時間アライメントされたBOL転写で構成されています。
- Tegridy Midiデータセット-Tegridy Midiデータセットの正確で効果的な音楽AIモデルの作成。
- Lakh Midiデータセット-LakhMidiデータセットは、176,581個のユニークなMIDIファイルのコレクションであり、そのうち45,129が一致し、百万曲データセットのエントリに合わせられています。その目標は、シンボリック(MIDIファイルのみを使用)とオーディオコンテンツベース(一致したオーディオファイルの注釈としてMIDIファイルから抽出された情報を使用)の両方で、大規模な音楽情報検索を促進することです。
- イタリアの音楽データセット - データセットは、SpotifyとSoundCloud APIを利用することで構築されています。有名なイタリアのミュージシャンとあまり有名なミュージシャンの両方の14,500以上の異なる曲で構成されています。データセット内の各曲は、Spotify IDとタイトルによって識別されます。 Tracksのメタデータには、レンマティックおよびPOSタグ付きの歌詞も含まれており、ほとんどの場合、Spotifyから直接収集された10の音楽機能が含まれています。音楽の特徴には、アコースティ(フロート)、ダンセービリティ(フロート)、duration_ms(int)、エネルギー(フロート)、楽器(フロート)、livenives(float)、loudness(float)、speechiness(float)、tempo(float)and Valence(フロート)。
- ペルシャピアノコーパス - ペルシャのピアノコーパスは、初期の作曲家から現代の人物に至るまで、ペルシャのピアノ音楽の包括的なコレクションです。研究者が特別な調査を探求し、新しい発見に貢献できるようにすることを目指して、細心の注意を払って編集され、公開されました。機器ベースのアプローチは、関連するラベルや包括的なメタデータなど、ペルシャのピアノに関連する完全なコーパスを提供します。
- 曲デスクリバーデータセット - 曲デクリバーデータセット:音楽と言語の評価のためのオーディオキャプションのコーパス。 Song Describer Datasetは、706のライセンスされた音楽録音の約1.1Kキャプションで作られた評価データセットです。
- ユニバーサルミュージックシンボル分類器 - 音楽シンボルを区別するために深いニューラルネットワークを訓練するPythonプロジェクト。
- URMP(ロチェスター大学マルチモーダルミュージカルパフォーマンス) - URMP(ロチェスター大学マルチモーダルミュージカルパフォーマンス)は、音楽パフォーマンスの視聴覚分析を促進するためのデータセットです。データセットは、個々のトラックの調整されたが個別に録音されたパフォーマンスから組み立てられた44のシンプルなマルチインストゥモンミュージカルの作品で構成されています。各ピースについて、データセットはMIDI形式のスコア、高品質の個別の機器オーディオ録音、および組み立てられた作品のビデオを提供しました。
- VGMIDIデータセット-VGMIDIは、ビデオゲームのサウンドトラックのピアノアレンジメントのデータセットです。感情に従ってラベル付けされた200個のMIDIピースと3,850個のラベルのないピースが含まれています。各ラベルの付いたピースは、感情のCircumplex(Valence-Arousal)モデルに従って30人の人間の被験者によって注釈が付けられました。
- Virtuoso文字列-Virtuoso文字列は、弦楽器のソフト開始セット検出のデータセットです。これは、HaydnのString Quartet opからの抜粋の専門的なパフォーマンスの144を超える録音で構成されています。 74 No. 1フィナーレ、それぞれに対応する個別のインストルメンタル開始注釈があります。
- wikimute -wikimute:音楽オーディオのセマンティック説明のWebソースのデータセット。この研究では、音楽の豊富なセマンティックな説明を含む新しいオープンデータセットであるWikimuteを提示します。このデータは、音楽作品をカバーする記事のウィキペディアの豊富なカタログから調達されています。専用のテキストマイニングパイプラインを使用して、ジャンル、スタイル、ムード、計装、テンポなどの音楽コンテンツに関連する幅広いトピックをカバーする長い形式と短編の両方の説明を抽出します。
- YM2413-MDB- YM2413-MDBは、マルチラベル感情アノテーションを備えた80年代のFMビデオゲームミュージックデータセットです。 FMに基づいたプログラム可能なサウンドジェネレーターであるYM2413を使用して、80年代のSEGAおよびMSX PCゲームの音楽の669のオーディオファイルとMIDIファイルが含まれています。収集されたゲームミュージックには、15個のモノフォニックインスツルメンツのサブセットと1つのドラム楽器が配置されています。
^コンテンツに戻る ^
効果音
- Animal Sound Dataset -875の動物音で構成されるこのデータには、10種類の動物の音が含まれています。この動物のサウンドデータセットには、200匹の猫、200犬、200羽、75頭の牛、45匹の牛、40羊、35カログ、30羽の鶏肉、25ロバ、25猿の音があります。
- オーディオセット - オーディオセットは、2mを超える人間が発表した10秒のビデオクリップで構成されるオーディオイベントデータセットです。これらのクリップはYouTubeから収集されているため、その多くは品質が低く、複数のサウンドソースが含まれています。 632のイベントクラスの階層的オントロジーを使用して、これらのデータを注釈するために使用されます。つまり、同じサウンドを異なるラベルと注釈することができます。たとえば、barえる音は動物、ペット、犬として注釈が付けられています。すべてのビデオは、評価/バランストレイン/アンバランストレインセットに分割されます。
- audiocaps -audiocapsは、オーディオキャプションのタスクのために導入されたイベントの説明を備えたサウンドのデータセットであり、オーディオセットデータセットから供給されたサウンドです。アノテーターには、カテゴリのヒントとともにオーディオトラックが提供されました(必要に応じて追加のビデオヒントがあります)。
- Auto-ACD-革新的で自動オーディオキャプション生成パイプラインを提示し、1.9m以上のオーディオテキストペアを含むAuto-ACDと名付けられた大規模で高品質のオーディオ言語データセットを構築します。 Auto-ACDのテキストの説明には、長いテキスト(18語)と多様な語彙(23k)が含まれており、音が発生する周囲の聴覚環境(影付きのデータポイント)に関する情報を提供します。
- BBCサウンドエフェクト - BBCサウンドエフェクトデータセットには、テキストの説明がある33,066のサウンドエフェクトがあります。ジャンル:主にアンビエントサウンド。すべてのオーディオには自然なテキストの説明があります。
- DCase 2016 -DCase 2016は、サウンドイベント検出のデータセットです。 11のサウンドクラス(ClearThroat、引き出し、キーボードなどのオフィス環境から)の20の短いモノサウンドファイルで構成され、各ファイルには1つのサウンドイベントインスタンスが含まれています。サウンドファイルには、イベントオンとオフセットの時間で注釈が付けられますが、実際の物理的な音の間の沈黙(電話が鳴るなど)はマークされていないため、イベントに「含まれています」。
- 環境オーディオデータセット - このページは、環境オーディオの研究に適したデータセットのリストを維持しようとします。自由に利用可能なデータセットに加えて、完全性のために、独自および商用データセットもここにリストされています。データセットに加えて、ページの最後にオンラインサウンドサービスの一部がリストされています。
- ESC-50- ESC-50データセットは、環境サウンド分類のベンチマーク方法に適した2000年の環境オーディオ録音のラベルコレクションです。これも、freesound.orgから描かれた、自然、人間、および国内の音にわたる50の異なるクラスの2000 5Sクリップで構成されています。
- フェアプレイ - フェアプレイは、1,871のビデオクリップと、音楽室での対応するバイノーラルオーディオクリップで構成されるビデオオーディオデータセットです。同じインデックスのビデオクリップとバイノーラルクリップは、ほぼ揃っています。
- FSD50K(Freesound Database 50K)-Freesound Dataset 50K(または略してFSD50K )は、オーディオセットオントロジーから描かれた200クラスに不均等に分布している51,197のフリーソウンドクリップを含むヒューマンラベルのサウンドイベントのオープンデータセットです。 FSD50Kは、Pompeu Fabra大学のMusic Technology Groupで作成されました。それは主に、人間の音、物の音、動物、自然な音、楽器など、物理的な音源と生産メカニズムによって生成される健全なイベントで構成されています。
- FSDNOISY18K- FSDNOISY18Kデータセットは、少量の手動でラベル付けされたデータや多くの現実世界の騒々しいデータを含む、20のサウンドイベントクラスにわたって42.5時間のオーディオを含むオープンデータセットです。オーディオコンテンツはFreesoundから取得され、Freesoundアノテーターを使用してデータセットがキュレーションされました。 FSDNOISY18Kの騒々しいセットは15,813のオーディオクリップ(38.8H)で構成され、テストセットは正しいラベルを持つ947オーディオクリップ(1.4H)で構成されています。データセットには、2つの主要なラベルノイズの2つのタイプのラベルノイズがあります。In-Qualbulary(IV)とof-of-of-of-of-vocabulary(OOV)です。 IVは、誤ったまたは不完全な観測されたラベルを与えられた場合、真または欠落したラベルがターゲットクラスセットの一部である場合に適用されます。同様に、OOVとは、真または欠落しているラベルがこれらの20のクラスでカバーされていないことを意味します。
- fuss(無料のユニバーサルサウンド分離) - 無料のユニバーサルサウンド分離(fuss)データセットは、任意のサウンド分離の実験で使用するための、任意の音の混合物とソースレベルの参照のデータベースです。ファスはFSD50Kコーパスに基づいています。
- Inaturalist Sounds Dataset -5,500種以上のサウンドをキャプチャする230,000のオーディオファイルのコレクションであるInaturalist Sounds Dataset(Inatsounds)を紹介し、世界中の27,000人以上のレコーディストが提供しました。
- 感情的な意図でサウンドエフェクトをノックする - データセットは、2019年10月15日にストックホルムのFoleyworks StudiosでプロのFoleyアーティストのウルフオラウソンによって記録されました。私たちは、データセットで描かれる5つのタイプの感情を選択しました:怒り、恐怖、幸福、中立、悲しみ。
- MIMII-故障する産業機械調査と検査(MIMII)のためのサウンドデータセットは、産業用マシンサウンドのサウンドデータセットです。
- MIVIAオーディオイベントデータセット-MIVIAオーディオイベントデータセットは、監視アプリケーションの合計6000イベント、つまりガラス壊し、銃撃、叫び声で構成されています。 6000イベントは、トレーニングセット(4200イベントの構成)とテストセット(1800イベントの構成)に分割されます。
- ピッチオーディオデータセット(サージシンセサイザー)-3.4時間のオープンソースサージシンセサイザーを使用して3.4時間のオーディオ合成。これらは、「自然な」合成音を表しています---人間によって考案されたIepresets。 Velocity 64で3秒のメモ付き期間で再生される4秒のサンプルを生成しました。プリセットごとに、グランドピアノの範囲であるMIDI 21-108のピッチのみを変化させました。データセット内のすべてのサウンドは、正規化パッケージを使用してRMSレベルの正規化されました。このデータセットを削除するエレガントな方法はありませんでした。ただし、プリセットのごく一部(ドラムやサウンドエフェクトなど)のみには、知覚的なピッチの変動や順序がありませんでした。
- remfx -remfx:評価データセット。これらのデータセットは、最初にボーカルセット、ギターセット、DSD100、およびIDMT-SMT-DRUMSデータセットから調達されてから、データセット生成スクリプトで処理されます。データセットは、適用される効果の数(0-5)に従って命名されます。たとえば、2-2.zipには、各入力オーディオの例に適用される2つの効果が含まれています。ターゲットは手つかずのままです。適用されるオーディオ効果は、セット(歪み、遅延、ダイナミックレンジコンプレッサー、フェーザー、リバーブ)からのものであり、各例に置き換えずにランダムにサンプリングされます。
- SoundCam-SoundCam、これまでに公開された野生の部屋からのユニークなRIRの最大のデータセット。これには、部屋のインパルス応答の5,000チャンネルの現実世界測定と、制御された音響ラボ、野生のリビングルーム、異なる人間のある会議室など、3つの異なる部屋での音楽の2,000チャンネルの録音が含まれています。各部屋の位置に。
- Soundingearth -Soundingearthは、世界中の共同航空画像とオーディオサンプルで構成されています。
- Spatial Librispeech-Spatial Librispeechは、650時間以上の1次アンビゾおり、オプションのディストラクタノイズを備えた空間オーディオデータセットです(RAW 19チャンネルオーディオが近日公開されます)。 Spatial Librispeechは、機械学習モデルトレーニング用に設計されており、ソースポジション、スピーキング方向、部屋の音響、幾何学のラベルが含まれています。空間的Librispeechは、8K+合成室で200k+シミュレートされた音響条件を持つLibrispeechサンプルを増強することにより生成されました。
- Starss22(Sony-Tau Realistic Spatial Soundscapes 2022) - Sony-Tau Realistic Spatial Soundscapes 2022(StarsS22)データセットは、高チャネルカウント球状マイクロフォンアレイ(SMA)でキャプチャされた実際のシーンの記録で構成されています。録音は、フィンランドのタンメレにあるタンペレ大学と日本の東京のソニー施設の2つの異なるサイトの2つの異なるチームから行われます。両方のサイトでの録音は、同じキャプチャと注釈プロセス、および同様の組織を共有しています。
- TOYADMOS -TOYADMOSデータセットは、約540時間の通常の機械動作サウンドと、48kHzのサンプリングレートで4つのマイクで収集された異常な音の12,000を超えるサンプルのマシン操作データセットであり、Yuma KoizumiとNTT Media Intelligence Laboratoriesのメンバーが作成しました。
- TUT Sound Events 2017 -TUT Sound Events 2017データセットには、ストリート環境に24のオーディオ録音が含まれており、6つの異なるクラスが含まれています。これらのクラスは、スクイング、車、子供、大型車両、話す人、歩く人です。
- urbansound8k -Urban Sound 8Kは、10クラスの都市サウンドの8732ラベルのサウンド抜粋(<= 4s)を含むオーディオデータセットです。Air_Conditioner、car_horn、children_playing、dog_bark、掘削、enge_idling、gun_shot、jackhammer、seren、setred_music。クラスは、都市の音の分類法から引き出されます。すべての抜粋は、www.freesound.orgにアップロードされたフィールドレコーディングから取得されます。
- vgg-sound-大規模なオーディオビジュアルデータセット。 VGG-Soundは、YouTubeにアップロードされたビデオから抽出された、オーディオサウンドの短いクリップで構成されるオーディオ視聴覚特派員データセットです。
- Visually Indicated Sounds - Materials make distinctive sounds when they are hit or scratched — dirt makes a thud; ceramic makes a clink. These sounds reveal aspects of an object's material properties, as well as the force and motion of the physical interaction.
^ Back to Contents ^