AI 音訊資料集 (AI-ADS) ?
AI音訊資料集(AI-ADS),包括語音、音樂和音效,可為生成式AI、AIGC、AI模型訓練、智慧音訊工具開發和音訊應用提供訓練資料。
目錄
項目清單
演講
- AISHELL-1 - AISHELL-1 是一個用於語音辨識研究和建構普通話語音辨識系統的語料庫。
- AISHELL-3 - AISHELL-3是北京貝殼科技有限公司出版的大規模、高保真多語者普通話語音語料庫。它可用於訓練多說話人文字轉語音 (TTS) 系統。
- 阿拉伯語語音語料庫 - 阿拉伯語語音語料庫 (1.5 GB) 是用於語音合成的現代標準阿拉伯語 (MSA) 語音語料庫。該語料庫包含超過 3.7 小時的 MSA 語音的語音和正字法轉錄,與音素等級上錄製的語音對齊。註釋包括各個音素上的單字重音標記。
- AudioMNIST - 此資料集由 60 個不同說話者的口語數字 (0-9) 的 30000 個音訊樣本組成。
- AVSpeech - AVSpeech 是一個大型視聽資料集,包含沒有乾擾背景訊號的語音剪輯。這些片段的長度各不相同,長度在 3 到 10 秒之間,並且在每個片段中,影片中唯一可見的臉孔和配樂中可聽到的聲音屬於單一說話者。該資料集總共包含約 4700 小時的影片片段,涉及約 150,000 個不同的說話者,涵蓋各種人物、語言和臉部姿勢。
- ATIS(航空旅行資訊系統)- ATIS(航空旅行資訊系統)是一個資料集,由有關人類在自動航空旅行查詢系統上詢問航班資訊的錄音和相應的手動記錄組成。此數據由 17 個獨特的意圖類別組成。原始分割在訓練集、開發集和測試集分別包含 4478、500 和 893 個意圖標記的參考話語。
- Carnatic Varnam 資料集 - Carnatic varnam 資料集是 28 個獨唱錄音的集合,為我們對 Carnatic ragas 語調分析的研究而記錄。該集合包含機器可讀格式的音訊錄音、時間對齊的塔拉循環註釋和斯瓦拉符號。
- 休閒對話 - 休閒對話資料集旨在幫助研究人員評估其電腦視覺和音訊模型在不同年齡、性別、明顯膚色和環境照明條件下的準確性。
- CN-Celeb - CN-Celeb 是「在野外」收集的大型說話者識別資料集。該資料集包含 1,000 位中國名人的 130,000 多條話語,涵蓋現實世界中的 11 個不同流派。
- Clotho - Clotho 是一個音訊字幕資料集,由 4981 個音訊樣本組成,每個音訊樣本有 5 個字幕(總共 24905 個字幕)。音訊樣本的持續時間為 15 至 30 秒,字幕長度為 8 至 20 個單字。
- Common Voice - Common Voice 是一個音訊資料集,由唯一的 MP3 和對應的文字檔案組成。資料集中記錄了 9,283 小時。該資料集還包括年齡、性別和口音等人口統計元資料。該資料集包含 60 種語言的 7,335 個經過驗證的小時。
- CoVoST - CoVoST 是一個大規模的多語言語音到文字翻譯語料庫。其最新的第二版涵蓋了從 21 種語言翻譯成英語以及從英語翻譯成 15 種語言。它總共有 2880 小時的演講時間,有 78K 發言者和 66 種口音。
- CVSS - CVSS 是一個大規模的多語言到英語的語音到語音翻譯 (S2ST) 語料庫,涵蓋從 21 種語言到英語的句子級並行 S2ST 對。 CVSS 源自 Common Voice 語音語料庫和 CoVoST 2 語音到文字翻譯 (ST) 語料庫,透過使用最先進的 TTS 系統將 CoVoST 2 的翻譯文字合成為語音。
- EasyCom - Easy Communications (EasyCom) 資料集是世界首個資料集,旨在幫助減輕擴增實境 (AR) 驅動的多感測器自我中心世界觀的雞尾酒效應。此資料集包含AR 眼鏡以自我為中心的多通道麥克風陣列音訊、寬視野RGB 視訊、語音來源姿勢、耳機麥克風音訊、帶註釋的語音活動、語音轉錄、頭部和臉部邊界框以及來源識別標籤。我們創建並發布了這個數據集,以促進雞尾酒會問題的多模式 AR 解決方案的研究。
- Emilia - Emilia 資料集是一個綜合性多語言資源,包含六種不同語言的超過101,000 小時的語音資料:英語(En)、中文(Zh)、德語(De)、法語(Fr)、日語(Ja)和韓語(柯)。它具有來自互聯網上眾多視訊平台和播客的代表各種演講風格的多種語音數據,涵蓋脫口秀、採訪、辯論、體育評論和有聲讀物等多種內容類型。
- ESD(情緒語音資料庫)- ESD是用於語音轉換研究的情緒語音資料庫。 ESD 資料庫由 10 位英語母語者和 10 位中文母語者說出的 350 個平行話語組成,涵蓋 5 個情緒類別(中性、快樂、憤怒、悲傷和驚訝)。在受控聲學環境中記錄了超過 29 小時的語音數據。此資料庫適用於多說話者、跨語言的情緒語音轉換研究。
- FPT 開放語音資料集(FOSD) - 該資料集包含25,921 則越南語音語音記錄(包含其文字記錄以及每次語音的標記開始和結束時間),由2018 年公開發布的3 個子資料集(總共約30小時)手動編譯而成。
- 免費口語數位資料集 (FSDD) - 口語數字的免費音訊資料集。將 MNIST 視為音訊。錄音經過修剪,以便在開頭和結尾處幾乎保持最低限度的沉默。
- Fluent Speech Commands - Fluent Speech Commands 是用於口語理解 (SLU) 實驗的開源音訊資料集。每個話語都標有「動作」、「物件」和「位置」值;例如,「打開廚房裡的燈」的標籤為{“action”:“activate”,“object”:“lights”,“location”:“kitchen”}。模型必須預測這些值中的每一個,並且僅當所有值都正確時才認為對話語的預測是正確的。
- Genshin 資料集 - SVC/SVS/TTS 的 Genshin 資料集.
- GenshinVoice - Genshin Impact 原神語音資料集
- GigaSpeech - GigaSpeech,一個不斷發展的多領域英語語音識別語料庫,具有適合監督訓練的 10,000 小時高品質標記音頻,以及適合半監督和無監督訓練的 40,000 小時總音頻。
- GigaSpeech 2 - 一個不斷發展的大規模多領域 ASR 語料庫,適用於資源匱乏的語言,具有自動爬行、轉錄和細化功能。
- How2 - How2 資料集包含 13,500 個影片或 300 小時的語音,分為 185,187 個訓練、2022 個開發 (dev) 和 2361 個測試話語。它有英語字幕和眾包葡萄牙語翻譯。
- inaGVAD - 一個具有挑戰性的法國電視和廣播資料集,用於語音活動檢測(VAD)和說話者性別分割(SGS)註釋,具有評估腳本和詳細註釋方案,詳細說明非語音事件類型、說話者特徵和語音品質
- KdConv -KdConv 是一個中文多領域知識驅動的轉換資料集,將多輪對話中的主題紮根於知識圖譜。 KdConv 包含來自三個領域(電影、音樂和旅行)的 4.5K 對話,以及平均輪數為 19.0 的 86K 話語。這些對話包含對相關主題的深入討論以及多個主題之間的自然過渡,而語料庫還可以用於探索遷移學習和領域適應。
- Libriheavy - Libriheavy:一個 50,000 小時的 ASR 語料庫,包含標點符號大小寫和上下文。
- LibriSpeech - LibriSpeech語料庫收集了大約 1,000 小時的有聲讀物,是 LibriVox 專案的一部分。大多數有聲書來自古騰堡計劃。訓練資料分為3 個部分,分別為100 小時、360 小時和500 小時集,而開發和測試資料則分別分為「乾淨」和「其他」類別,取決於自動語音辨識系統的執行效果如何或具有挑戰性。每個開發和測試集的音訊長度約為 5 小時。
- LibriTTS - LibriTTS是一個多說話者英語語料庫,包含約 585 小時的以 24kHz 採樣率閱讀的英語演講,由 Heiga Zen 在 Google Speech 和 Google Brain 團隊成員的協助下準備。 LibriTTS 語料庫專為 TTS 研究而設計。它源自於 LibriSpeech 語料庫的原始材料(來自 LibriVox 的 mp3 音訊檔案和來自 Project Gutenberg 的文字檔案)。
- LibriTTS-R -LibriTTS-R:恢復的多說話者文本到語音語料庫.它是透過對 LibriTTS 語料庫應用語音恢復而得出的,該語料庫由 2,456 個說話者的 585 小時、24 kHz 採樣率的語音數據和相應的文本組成。 LibriTTS-R的構成樣本與LibriTTS相同,只是音質有所改善。
- LJSpeech(LJ 語音資料集) - 這是一個公共領域語音資料集,由單一說話者閱讀 7 本非小說類書籍中的段落的 13,100 個簡短音訊片段組成。每個剪輯均提供轉錄。剪輯長度從 1 秒到 10 秒不等,總長度約 24 小時。這些文本於 1884 年至 1964 年間出版,屬於公共領域。該音訊由 LibriVox 專案於 2016-17 年錄製,也屬於公共領域。
- LRS2(唇讀句 2) - Oxford-BBC 唇讀句子 2 (LRS2) 資料集是最大的公開可用的唇讀句子資料集之一。該資料庫主要由 BBC 節目的新聞和脫口秀節目組成。每個句子的長度最多為 100 個字元。
- LRW (Lip Reading in the Wild) - 野外唇讀 (LRW) 資料集是一個大型視聽資料庫,包含來自 1,000 多個說話者的 500 個不同單字。每個話語有 29 個幀,其邊界以目標字為中心。此資料庫分為訓練集、驗證集和測試集。訓練集每個類別至少包含 800 個話語,而驗證集和測試集包含 50 個話語。
- MuAViC - 用於強大的語音識別和強大的語音到文字翻譯的多語言視聽語料庫。
- MuST-C - MuST-C 目前代表了最大的公開可用的語音翻譯多語言語料庫(一對多)。它涵蓋八種語言方向,從英語到德語、西班牙語、法語、義大利語、荷蘭語、葡萄牙語、羅馬尼亞語和俄語。語料庫由英語 TED 演講的音訊、轉錄和翻譯組成,並附帶預先定義的訓練、驗證和測試分割。
- MetaQA(MoviE 文字音訊 QA) - MetaQA 資料集由源自 WikiMovies 資料集的電影本體和三組用自然語言編寫的問答對組成:1 跳、2 跳和 3 跳查詢。
- MELD(多模態 EmotionLines 資料集) - 多模態 EmotionLines 資料集(MELD)是透過增強和擴展 EmotionLines 資料集建立的。 MELD 包含與 EmotionLines 中相同的對話實例,但它還包含音訊和視覺模式以及文字。 MELD 擁有《老友記》電視劇中的 1400 多個對話和 13000 多個話語。多位發言者參與了對話。對話中的每句話都被標記為這七種情緒中的任何一種:憤怒、厭惡、悲傷、喜悅、中性、驚訝和恐懼。 MELD 也為每個話語提供情緒(正面、負面和中性)註釋。
- Microsoft 語音語料庫(印度語言)- Microsoft 語音語料庫(印度語言)版本包含泰盧固語、泰米爾語和古吉拉特語的會話和短語語音訓練和測試資料。資料包包括音訊和相應的文字記錄。本資料集中提供的資料不得用於商業目的。您只能將這些數據用於研究目的。如果您發布您的發現,則必須提供以下歸屬:「資料由 Microsoft 和 SpeechOcean.com 提供」。
- PATS(姿勢音訊轉錄樣式)-PATS 資料集由多種且大量對齊的姿勢、音訊和轉錄組成。透過這個資料集,我們希望提供一個基準,幫助開發產生自然且相關手勢的虛擬代理技術。
- RealMAN - RealMAN:用於動態語音增強和本地化的真實記錄和註釋的麥克風陣列資料集。
- SAVEE(薩裡視聽表達情緒)- 薩裡視聽表達情緒(SAVEE)資料集被記錄為發展自動情緒辨識系統的先決條件。資料庫由4位男演員7種不同情緒的錄音組成,共480條英式英語話語。這些句子是從標準 TIMIT 語料庫中選擇的,並且針對每種情緒進行了語音平衡。
- SoS_Dataset - 故事之聲:用音訊進行多模式講故事。現實世界中講故事是多模式的。當一個人講故事時,可以將所有的視覺化和聲音與故事本身一起使用。然而,先前關於講故事資料集和任務的研究很少關注聲音,儘管聲音也傳達了故事的有意義的語義。因此,我們建議透過建立一個名為「背景聲音」的新組件來擴展故事理解和講述領域,「背景聲音」是基於故事上下文的音頻,沒有任何語言資訊。
- 語音資料集集合 - 這是用於語音相關研究(主要用於自動語音識別)的開放語音資料集的精選清單。該儲存庫收集了110多個語音資料集,其中70多個資料集可以直接下載,無需進一步申請或註冊。
- 語音資料集產生器 - 語音資料集產生器致力於創建適合訓練文字轉語音或語音到文字模型的資料集。主要功能包括轉錄音訊檔案、必要時增強音訊品質以及生成資料集。
- 3D-Speaker-Datasets - 人類語音的大規模多設備、多距離和多方言音訊資料集。
- TED-LIUM - TED 演講的音訊轉錄。 1495 份 TED 演講錄音以及這些錄音的全文轉錄,由緬因大學資訊實驗室 (LIUM) 創建。
- Flickr 音訊字幕語料庫 - Flickr 8k 音訊字幕語料庫包含 8,000 個自然圖像的 40,000 個語音字幕。此資料收集於 2015 年,旨在研究用於無監督語音模式發現的多模式學習方案。
- The People's Speech - The People's Speech是一個免費下載的 30,000 小時且不斷增長的受監督會話英語語音識別資料集,根據 CC-BY-SA(帶有 CC-BY 子集)許可用於學術和商業用途。數據是透過在互聯網上搜尋具有現有轉錄的適當許可的音訊數據來收集的。
- 維基百科口語語料庫 - 維基百科口語計畫聯合維基百科文章的志願讀者。數以百計的多種語言的口頭文章可供那些出於某種原因無法或不願意閱讀文章的書面版本的用戶使用。
- TIMIT - DARPA TIMIT 聲學連續語音語料庫。
- tts-frontend-dataset -TTS 前端資料集:Polyphone / Prosody / TextNormalization.
- VoxCeleb2 - VoxCeleb2 是從開源媒體自動獲得的大規模說話者識別資料集。 VoxCeleb2 包含來自 6000 多個發言者的超過 100 萬條話語。由於資料集是在「野外」收集的,因此語音片段會被現實世界的噪音(包括笑聲、串擾、通道效應、音樂和其他聲音)破壞。該資料集也是多語言的,包含 145 個不同國籍的說話者的語音,涵蓋各種口音、年齡、種族和語言。
- VoxConverse -VoxConverse 是一個視聽二值化資料集,由從 YouTube 影片中提取的多說話人語音片段組成。
- VoxLingua107 - VoxLingua107 是一個 6628 小時的口語辨識資料集(每種語言平均 62 小時),並附有 1609 個經過驗證的話語的評估集。
- VoxPopuli - VoxPopuli 是一個大型多語言語料庫,提供 23 種語言的 10 萬小時未標記語音資料。它是迄今為止無監督表示學習和半監督學習的最大開放資料。 VoxPopuli 還包含 1800 小時的 16 種語言的轉錄演講及其對齊的 5 種其他語言的口譯,總計 5100 小時。
- VoxForge - VoxForge 是一個開放的語音資料集,旨在收集轉錄的語音,以便與免費開源語音識別引擎(在 Linux、Windows 和 Mac 上)一起使用。
- VocalSound - VocalSound 是一個免費資料集,包含 3,365 個獨特受試者的 21,024 個眾包錄音,包括笑聲、嘆息、咳嗽、清喉嚨、打噴嚏和嗅覺。 VocalSound 資料集還包含說話者年齡、性別、母語、國家/地區和健康狀況等元資訊。
- VoiceBank + DEMAND - VoiceBank+DEMAND 是一個帶有噪音的語音資料庫,用於訓練語音增強演算法和 TTS 模型。該資料庫旨在訓練和測試在 48kHz 下運行的語音增強方法。更詳細的描述可以在與資料庫相關的論文中找到。
- WaveFake - WaveFake 是用於音訊深度偽造檢測的資料集。該資料集由超過 100K 生成的音訊剪輯的大型資料集組成。
- WenetSpeech - WenetSpeech 是一個多領域普通話語料庫,由 10,000 多個小時的高品質標記語音、2,400 多個小時的弱標記語音和約 10,000 小時的無標記語音組成,總共 22,400 多個小時。作者從 YouTube 和 Podcast 收集了數據,其中涵蓋了各種演講風格、場景、領域、主題和嘈雜條件。引入基於光學字元辨識 (OCR) 的方法來產生 YouTube 資料及其對應視訊字幕的音訊/文字分割候選。
- WSJ0-2mix - WSJ0-2mix是使用《華爾街日報》(WSJ0) 語料庫中的話語的語音混合語音辨識語料庫。
- 砰! (WSJ0 Hipster Ambient Mixtures) - WSJ0 Hipster Ambient Mixtures ( WHAM! ) 資料集將 wsj0-2mix 資料集中的每個兩揚聲器混合與獨特的噪音背景場景配對。噪音音頻是 2018 年底在舊金山灣區的各個城市地點收集的。音訊是使用 Apogee Sennheiser 雙耳麥克風在離地面 1.0 至 1.5 公尺的三腳架上錄製的。
- YODAS - 這是我們 YODAS 資料集中的 YODAS 手動/自動子集,它有 369,510 小時的語音。此資料集包含來自 YouTube 的音訊話語和相應的字幕(手動或自動)。請注意,手動字幕僅表明它是由用戶上傳的,但不一定是由人類轉錄的。
- YODAS2 - YODAS2 是 YODAS 資料集的長格式資料集。它提供與 espnet/yodas 相同的資料集,但 YODAS2 具有以下新功能: 1. 以長格式(視訊層級)格式化,其中音訊不分段。 2. 音訊使用更高的取樣率(即24k)進行編碼。
- YTTTS - YouTube 文字轉語音資料集由 YouTube 影片擷取的波形音訊及其英文轉錄。
^ 返回目錄 ^
音樂
- AAM:人工音訊多軌資料集 - 此資料集包含 3,000 個具有豐富註解的人工音樂音軌。它基於真實的樂器樣本,並透過音樂理論的演算法創作生成。它提供了歌曲的完整混音以及單一樂器曲目。用於生成的 midis 也可用。註釋文件包括:起始、音調、樂器、調、節奏、片段、旋律樂器、節拍和和弦。
- Acappella - Acappella 包含來自 YouTbe 的約 46 小時的無伴奏獨唱視頻,採樣了不同歌手和語言。考慮四種語言:英語、西班牙語、印地語等。
- 新增:audio-dataset-downloader - 簡單的 Python CLI 腳本,用於根據音樂流派清單從 Youtube 下載 N 小時的音訊。
- ADL Piano MIDI - ADL Piano MIDI 是包含不同流派的 11,086 首鋼琴曲的資料集。該資料集基於 Lakh MIDI 資料集,該資料集是 45,129 個獨特 MIDI 檔案的集合,這些檔案已與百萬歌曲資料集中的條目相符。
- 對齊樂譜和表演 (ASAP) - ASAP 是對齊樂譜(MIDI 和 MusicXML)和表演(音訊和 MIDI)的資料集,全部帶有強拍、節拍、拍號和調號註釋。
- 帶註釋的京劇詠嘆調資料集 - 帶註釋的京劇詠嘆調資料集是使用 Praat 軟體手動分割為不同級別的 34 首京劇詠嘆調的集合。所選唱段包含了京劇兩大主要聲腔西皮、二黃和旦、淨、老旦、老生、小生五種主要唱腔類型。該資料集由每個詠嘆調的 Praat TextGrid 檔案組成,包含以下資訊的層級:詠嘆調、MusicBrainz ID、藝術家、學校、角色類型、聲腔、半詩、歌詞行、音節和打擊樂模式。
- Bach Doodle - 巴赫塗鴉資料集由巴赫塗鴉提交的 2160 萬個和聲組成。此資料集包含有關作曲的元資料(例如原產國和回饋),以及使用者輸入旋律的 MIDI 和生成的和聲的 MIDI。該資料集包含大約 6 年的用戶輸入的音樂。
- 巴赫小提琴資料集 - 巴赫獨奏小提琴奏鳴曲和帕蒂塔的高品質公共錄音集 (BWV 1001–1006)。
- Batik-plays-Mozart 資料集- Batik-plays-Mozart 資料集是一個鋼琴演奏資料集,包含12 首完整的莫札特鋼琴奏鳴曲(36 個不同的樂章),由維也納音樂會鋼琴家Roland Batik 在電腦監控的Bösendorfer 大鋼琴上演奏。演奏以MIDI 格式提供(相應的音訊檔案可在市場上購買),並且音符等級與MusicXML 中的新莫札特版本中的樂譜以及先前在《帶註釋的莫札特奏鳴曲》中發布的音樂和聲、節奏和樂句註釋保持一致。
- 京劇打擊樂器資料集 - 京劇打擊樂器資料集是涵蓋京劇使用的四個打擊樂器類別的 236 個獨立筆畫範例的集合。它可用於為每種打擊樂器建立行程模型。
- 京劇打擊樂模式資料集 - 京劇打擊樂模式 (BOPP) 資料集是涵蓋 5 個模式類別的 133 個音訊打擊樂模式的集合。此資料集包括模式的音訊和音節層級轉錄(非時間對齊)。它對於打擊樂轉錄和分類任務很有用。這些模式是從詠嘆調的錄音中提取的,並由音樂學家標記。
- BiMMuDa - Billboard Melodic Music Dataset (BiMMuDa) 是一個 MIDI 資料集,包含 1950 年至 2022 年每年 Billboard 年終單曲榜前五名單曲的主旋律。
- CAL500(電腦試聽實驗室 500) - CAL500(電腦試聽實驗室 500)是一個旨在評估音樂資訊檢索系統的資料集。它由502首選自西方流行音樂的歌曲組成。音訊表示為前 13 個梅爾頻率倒譜係數(及其一階和二階導數)的時間序列,透過在每首歌曲的波形上滑動 12 毫秒半重疊短時視窗來提取。
- 卡納提克音樂節奏資料集- 卡納提克音樂節奏資料集是四個塔拉音樂中176 個摘錄(16.6 小時)的子集合,其中包含音訊、相關塔拉相關元資料和指示塔拉週期進展的時間對齊標記。它可用作卡納提克音樂中許多自動節奏分析任務的測試語料庫。
- CCMixter - CCMixter 是一個歌聲分離資料集,由 ccMixter 的 50 個完整長度的立體聲軌道組成,具有許多不同的音樂流派。每首歌曲都有三個可用的 WAV 檔案:背景音樂、語音訊號及其總和。
- ChMusic - ChMusic是一個中國傳統音樂資料集,用於樂器識別的訓練模型和性能評估。此資料集涵蓋了二胡、琵琶、三弦、笛子、嗩吶、錐琴、中阮、柳琴、古箏、揚琴、笙等11種樂器。
- chongchong-free - 蟲蟲鋼琴下載器是一款蟲蟲鋼琴樂譜免費下載軟體,可獲得樂譜的連結、分析樂譜內容、匯出檔案。
- ComMU - ComMU 擁有 11,144 個 MIDI 樣本,由專業作曲家創建的短音符序列及其對應的 12 個元資料組成。該資料集是為新任務「組合音樂生成」而設計的,該任務僅透過自回歸語言模型使用元資料生成多樣化且高品質的音樂。
- CoSoD - CoSoD 由331 首歌曲語料庫的元數據和分析數據組成,其中包含2010 年至2019 年間發布的公告牌“熱門100”年終排行榜上的所有多位藝術家合作作品。與兩個CSV 檔案相關聯:一種用於元數據,一種用於分析數據。
- DALI - DALI:同步音訊、歌詞和聲音音符的大型資料集。
- DadaGP - DadaGP 是一個新的符號音樂資料集,包含 GuitarPro 格式的 26,181 首歌曲樂譜,涵蓋 739 種音樂流派,以及非常適合 Transformer 等生成序列模型的隨附標記化格式。標記化格式的靈感來自於基於事件的 MIDI 編碼,通常用於符號音樂生成模型。該資料集是透過編碼器/解碼器發布的,該編碼器/解碼器可以將 GuitarPro 檔案轉換為令牌並返回。
- DeepScores - 300000 個帶有註釋的書面音樂影像的合成資料集,用於物件分類、語義分割和物件檢測。基於從 MuseScore 獲得的大量 MusicXML 文檔,使用複雜的管道將來源文件轉換為 LilyPond 文件,並使用 LilyPond 來雕刻和註釋圖像。
- dMelodies - dMelodies 是使用9 個獨立的潛在變化因素產生的簡單2 小節旋律的資料集,其中每個資料點代表基於以下限制的獨特旋律: - 每個旋律將對應一個獨特的音階(大調、小調、布魯斯等) .)。 - 每個旋律都使用標準 I-IV-VI 節奏和弦模式來演奏琶音。 - 小節 1 演奏前 2 個和弦(6 個音符),小節 2 演奏後 2 個和弦(6 個音符)。 - 每個演奏的音符都是八分音符。
- DISCO-10M - DISCO-10M 是一個音樂資料集,旨在使大規模音樂機器學習模型的研究民主化。
- 笛子 - 笛子是北派和南派音樂風格的資料集。特色包括旋律和演奏技巧對兩種不同音樂風格的解構。
- DreamSound - 最近,文字到音樂生成模型在根據給定文字提示合成高品質和多樣化的音樂樣本方面取得了前所未有的成果。儘管取得了這些進步,但仍不清楚如何產生個人化的、用戶特定的音樂概念、操縱它們並將它們與現有的音樂概念相結合。受電腦視覺文獻的推動,我們透過探索兩種既定方法(即文本反轉和 Dreambooth)來研究文本到音樂。使用定量指標和用戶研究,我們僅在少量樣本的情況下評估他們重建和修改新音樂概念的能力。最後,我們提供了一個新的資料集,並為這個新任務提出了一個評估協議。
- EMOPIA - 用於情緒辨識和基於情緒的音樂生成的多模式流行鋼琴資料集。 EMOPIA(發音為「yee-mò-pi-uh」)資料集是一個共享的多模式(音訊和MIDI)資料庫,專注於流行鋼琴音樂中的感知情感,以促進與音樂情感相關的各種任務的研究。此資料集包含 387 首歌曲的 1,087 個音樂片段以及由四位專用註釋者註釋的片段級情緒標籤。
- ErhuPT(二胡演奏技巧資料集) - 此資料集是一個音訊資料集,包含約 1500 個由多位專業演奏者錄製的音訊片段。
- FiloBass - 基於資料集和語料庫的爵士低音線研究。 FiloBass:一個新穎的樂譜和註釋語料庫,重點關注低音提琴在爵士樂伴奏中的重要但經常被忽視的作用。受到最近揭示獨奏者角色的研究的啟發,我們提供了 48 個經過手動驗證的專業爵士貝斯手轉錄的集合,其中包含超過 50,000 個音符事件,這些事件基於 FiloSax 數據集中使用的背景音軌。對於每個錄音,我們提供音訊主幹、樂譜、與演奏一致的 MIDI 以及節拍、強拍、和弦符號和音樂形式標記的相關元資料。
- 尋找托里 - 尋找托里:分析韓國民歌的自我監督學習。我們介紹了 1980-90 年代錄製的大約 700 小時韓國民謠的現場錄音資料集的計算分析。
- FMA - 免費音樂檔案 (FMA) 是一個大型資料集,用於評估音樂資訊檢索中的多項任務。它包含 343 天的音頻,來自 16,341 位藝術家的 106,574 首曲目和 14,854 張專輯,按 161 種流派的分層分類法排列。它提供全長和高品質的音訊、預先計算的功能,以及曲目和使用者級元資料、標籤和自由格式文字(例如傳記)。
- GiantMIDI-Piano - GiantMIDI-Piano 是一個古典鋼琴 MIDI 資料集,包含 2,786 名作曲家的 10,855 個 MIDI 檔案。按作曲家姓氏篩選的子集包含 1,787 名作曲家的 7,236 個 MIDI 檔案。
- Groove(Groove MIDI 資料集)- Groove MIDI 資料集 (GMD) 由 13.6 小時的對齊 MIDI 和人類演奏的、節奏對齊的富有表現力的鼓樂(合成的)音訊組成。該資料集包含 1,150 個 MIDI 檔案和超過 22,000 個擊鼓小節。
- GTSinger - GTSinger:全球多技術歌唱語料庫,為所有歌唱任務提供逼真的樂譜.我們介紹 GTSinger,一個大型的全球性、多技術、免費使用、高品質的歌唱語料庫,具有逼真的樂譜,專為所有歌唱任務而設計,及其基準。
- GuitarSet - GuitarSet:吉他轉錄的資料集。
- 印度斯坦音樂節奏資料集- 印度斯坦音樂節奏資料集是4 塔爾(taal) 151 個印度斯坦音樂(5 小時) 的子集合,其中包含音訊、相關塔爾相關元資料和指示塔爾週期進展的時間對齊標記。此資料集可用作印度斯坦音樂中許多自動節奏分析任務的測試語料庫。
- HumTrans - 此資料集也可以作為下游任務的基礎,例如基於哼唱旋律的音樂生成。它由500首不同流派和語言的音樂作品組成,每首作品又分為多個片段。此資料集總共包含 1000 個音樂片段。為了收集這個哼唱資料集,我們僱用了 10 名大學生,他們都是音樂專業的或精通至少一種樂器。他們每個人都使用我們設計的網站提供的網路錄音介面將每個片段哼唱兩次。嗡嗡聲錄音的取樣頻率為 44,100 Hz。
- 印度藝術音樂主音資料集 - 該資料集包含 597 個印度藝術音樂(印度斯坦音樂和卡納提克音樂)的商業音訊音樂錄音,每個都手動註釋了首席藝術家的主音。此資料集用作開發主音識別方法的測試語料庫。
- Jazz Harmony Treebank - 該儲存庫包含 Jazz Harmony Treebank,這是一個對爵士和弦序列進行分層和聲分析的語料庫,選自 Shanahan 等人在 zenodo 上發布的 iRealPro 語料庫。
- jazznet -jazznet:音樂音訊機器學習研究的基本鋼琴模式資料集.本文介紹了 jazznet 資料集,這是一個基本爵士鋼琴音樂模式的資料集,用於開發音樂資訊檢索 (MIR) 中的機器學習 (ML) 演算法。此資料集包含 162520 個標記的鋼琴模式,包括和弦、琶音、音階以及和弦進行及其轉位,產生超過 26000 小時的音頻,總大小為 95GB。
- 京劇無伴奏合唱音高輪廓資料集 - 京劇無伴奏合唱音高輪廓資料集是 39 個京劇無伴奏合唱錄音的音高輪廓段地面實況集合。此資料集包括(1)旋律轉錄、(2)音高輪廓分割的基本事實。它對於旋律轉錄和音高輪廓分割任務非常有用。音高輪廓是從錄音中提取的,並由音樂學家手動校正和分割。
- 京劇樂譜集 - 為分析京劇歌唱的樂譜而收集的92首京劇樂譜。使用 MuseScore 將它們從原始印刷來源轉錄為機器可讀格式,並將其匯出到 MusicXML。
- JS Fake Chorales - 由 KS_Chorus 演算法產生的 500 個 4 部分合唱曲的 MIDI 資料集,以數百名聽力測試參與者的結果進行註釋,還有 300 個未註釋的合唱曲。
- LAION-DISCO-12M - LAION-DISCO-12M 資料集包含 YouTube 上的 1200 萬個音樂鏈接,其靈感來自 DISCO-10M 的方法。從最初的藝術家種子清單開始,我們可以透過遞歸探索「粉絲可能也喜歡」部分中列出的藝術家來發現新藝術家。只要我們能夠找到新的藝術家,我們就會探索相關的藝術家圖。
- LAKH MuseNet MIDI 資料集 - 完整的 LAKH MIDI 資料集轉換為 MuseNet MIDI 輸出格式(9 種樂器 + 鼓)。
- Los Angeles MIDI Dataset - 用於 MIR 和音樂 AI 目的的 SOTA 千級 MIDI 資料集.
- LP-MusicCaps - LP-MusicCaps:基於 LLM 的偽音樂字幕.
- Lyra 資料集 - Lyra 是希臘傳統和民間音樂的資料集,包含 1570 首作品,總計約 80 小時的資料。該資料集包含用於檢索音訊和視訊的 YouTube 時間戳鏈接,以及有關樂器、地理和流派等的豐富元資料資訊。
- MAESTRO - MAESTRO資料集包含十年國際鋼琴電子比賽中超過 200 小時的配對音訊和 MIDI 錄音。 MIDI 資料包括擊鍵速度和延音/延音/輕音踏板位置。音訊和 MIDI 檔案以 ∼3 毫秒的精度對齊,並分割成單獨的音樂作品,並附有作曲家、標題和演奏年份的註釋。未壓縮的音訊具有 CD 品質或更高品質(44.1–48 kHz 16 位元 PCM 立體聲)。
- MagnaTagATune - MagnaTagATune 資料集包含 25,863 個音樂剪輯。每個剪輯都是 29 秒長的摘錄,屬於 5223 首歌曲、445 張專輯和 230 位藝術家中的一首。這些剪輯涵蓋了廣泛的流派,如古典、新世紀、電子、搖滾、流行、世界、爵士、藍調、金屬、龐克等。每個音訊剪輯都提供 188 個標籤的二進位註釋向量。
- 「流行音樂的演變:美國 1960–2010」的主要資料集 - 這是一個名為 EvolutionPopUSA_MainData.csv 的大檔案 (~20MB),採用逗號分隔的資料格式和列標題。每一行對應一個記錄。該文件可以在任何文字編輯器中查看,也可以在 Excel 中開啟或匯入到其他資料處理程序中。
- MetaMIDI 資料集 - 我們引入了 MetaMIDI 資料集 (MMD),它是 436,631 個 MIDI 檔案和元資料的大規模集合。除了 MIDI 檔案之外,我們還提供在抓取過程中收集的藝術家、標題和流派元資料(如果可用)。 (MMD) 中的 MIDI 與從 Spotify 檢索的 32,000,000 個 30 秒音訊剪輯集合進行匹配,產生超過 10,796,557 個音訊 MIDI 匹配。
- 百萬歌曲資料集 - 該資料集包含 1922 年至 2011 年的一百萬首歌曲,以及來自 Echonest(現為 Spotify 的一部分)的藝術家標記信息,以及音頻測量和其他相關信息。
- MIR-1K - MIR-1K(多媒體資訊檢索實驗室,1000 個歌曲剪輯)是專為歌聲分離而設計的資料集。
- Mridangam Stroke 資料集 - Mridangam Stroke 資料集是各種補品中 Mridangam 各個筆畫的 7162 個音訊範例的集合。該資料集包含在 Mridangams 上演奏的 10 種不同擊球,具有 6 種不同的主音值。此資料集可用於訓練每個 Mridangam 筆畫的模型。
- Mridangam Tani-avarthanam 資料集 - Mridangam Tani-avarthanam 資料集是由著名的 Mridangam 大師 Padmavibhushan Umayalpuram K. Sivaraman 演奏的兩個 tani-avarthanam 的轉錄集合。音訊在印度馬德拉斯理工學院錄製,並由專業的卡納提克打擊樂手進行註釋。它由大約 24 分鐘的音訊和 8800 個筆畫組成。
- MIRMLPop - 它包含 1) MIR-MLPop 資料集的註釋,2) 獲取資料集音訊的源代碼,3) 我們用於在 MIR-MLPop 上微調 Whisper 的源代碼(歌詞對齊和歌詞轉錄)和4) 用於評估的原始碼。
- MSD(百萬歌曲資料集) - 百萬歌曲資料集是一百萬首當代流行音樂曲目的免費音訊功能和元資料集合。該資料集的核心是 The Echo Nest 提供的 100 萬首歌曲的特徵分析和元資料。
- MTG-Jamendo 資料集 - 我們推出了 MTG-Jamendo 資料集,這是一個用於音樂自動標記的新開放資料集。它是使用 Jamendo 上提供的音樂(根據知識共享許可和內容上傳者提供的標籤)構建的。該資料集包含超過 55,000 個完整音軌,其中包含 195 個來自流派、樂器和情緒/主題類別的標籤。我們為研究人員提供詳細的資料分割,並報告簡單基線方法在五組不同標籤上的表現:流派、樂器、情緒/主題、前 50 名和整體。
- MTG-Jamendo - MTG-Jamendo資料集是用於音樂自動標記的開放資料集.該資料集包含超過 55,000 個完整音軌,具有 195 個標籤類別(87 個流派標籤、40 個樂器標籤和 56 個情緒/主題標籤)。它是使用 Jamendo 上提供的音樂(根據知識共享許可和內容上傳者提供的標籤)構建的。所有音訊均以 320kbps MP3 格式分發。
- 計算音樂學研究音樂資料共享平台(CCMUSIC DATASET) - 該平台是計算音樂學研究的多功能音樂資料共享平台。它包含中國傳統樂器的聲音資訊、中國流行音樂的標籤資訊等眾多音樂數據,可供計算音樂學研究人員免費使用。
- 音樂情緒辨識 (MER) - 我們提供了一個用於分析個人化音樂情緒辨識 (MER) 系統的資料集。我們開發了音樂愛好者平台,旨在改進對作為此類系統輸入所需的所謂「基本事實」的收集和分析。
- MUSAN - MUSAN是音樂、語音和噪音的語料庫。此資料集適用於語音活動偵測(VAD)和音樂/語音辨別的訓練模型。該資料集包含多種流派的音樂、十二種語言的語音以及各種技術和非技術噪音。
- Musdb-XL-train - musdb-XL-train 資料集由應用了限制器的 300,000 個 4 秒音訊片段和 100 首原始歌曲組成。對於每個片段,我們在 musdb-HQ 訓練子集中的 4 個分支(人聲、貝斯、鼓、其他)中隨機選擇任意片段並隨機混合它們。然後,我們在每個主幹上應用了商業限制器插件。
- MusicBench - MusicBench資料集是音樂文本對的集合,專為文本到音樂生成而設計,並與 Mustango 文本到音樂模型一起發布。 MusicCaps 資料集從 5,521 個樣本擴展到 52,768 個訓練樣本和 400 個測試樣本以創建MusicBench !
- MusicNet - MusicNet 收集了 330 個免費許可的古典音樂錄音,以及超過 100 萬個帶註釋的標籤,指示每個錄音中每個音符的精確時間、演奏每個音符的樂器以及音符在韻律結構中的位置作品。這些標籤是透過動態時間扭曲從與錄音對齊的樂譜中獲得的。標籤由受過訓練的音樂家驗證;我們估計標籤錯誤率為 4%。我們向機器學習和音樂社群提供 MusicNet 標籤,作為訓練模型的資源和比較結果的通用基準。
- MusicCaps - MusicCaps 是 5.5k 個音樂文字對組成的資料集,其中包含由人類專家提供的豐富文字描述。
- MuseData - MuseData 是 CCARH 的管弦樂和鋼琴古典音樂電子圖書館。它由大約 3MB 的 783 個檔案組成。
- MUSDB18 - MUSDB18 是一個包含 150 個不同流派的完整長度音樂曲目(持續時間約 10 小時)及其獨立的鼓、貝斯、人聲和其他主幹的資料集。資料集分為訓練集和測試集,分別包含 100 首和 50 首歌曲。所有訊號均為立體聲並以 44.1kHz 編碼。
- 音樂主題和元資料- 該資料集提供了1950 年至2019 年的歌詞列表,將音樂元資料描述為悲傷、可舞性、響度、聲學等。 。
- 音樂流派資料集 - 1494 個流派的資料集,每個流派包含 200 首歌曲。
- 多模態樂譜資料集 - MSMD 是 497 首(古典)音樂的合成資料集,其中包含以細粒度等級對齊的音訊和樂譜表示(344,742 對符頭與音訊/MIDI 對應項對齊)。
- MuVi-Sync - MuVi-Sync資料集是一個多模型資料集,包含從總共748 個資料中提取的音樂特徵(和弦、調、響度和音符密度)和視訊特徵(場景偏移、情緒、運動和語義)音樂影片。
- Nlakh - Nlakh是樂器檢索的資料集。它是提供大量樂器的 NSynth 資料集和提供多軌 MIDI 資料的 Lakh 資料集的組合。
- NSynth - NSynth是一個一次性樂器音符的資料集,包含 305,979 個具有獨特音高、音色和包絡的音符。這些聲音是從商業樣本庫中的 1006 種樂器中收集的,並根據其來源(聲學、電子或合成)、樂器系列和聲音品質進行註釋。註釋中使用的樂器系列包括貝斯、銅管、長笛、吉他、鍵盤、木槌、管風琴、簧片、弦樂、合成主音和聲樂。為樂器產生了四秒單聲道 16kHz 音訊片段(音符)。
- NES-MDB(任天堂娛樂系統音樂資料庫) - 任天堂娛樂系統音樂資料庫(NES-MDB)是一個資料集,旨在為 NES 音訊合成器建立自動音樂創作系統。它包含來自 397 個 NES 遊戲原聲帶的 5278 首歌曲。該資料集代表了 296 位獨特的作曲家,歌曲總共包含超過 200 萬個音符。它具有 MIDI、樂譜和 NLM(NES 語言建模)的文件格式選項。
- Niko 和弦進程資料集 - Niko 和弦進程資料集用於 AccoMontage2。它包含 5k 多個和弦進行片段,並標有風格。共有四種風格:Pop Standard、Pop Complex、Dark 和 R&B。
- OnAir 音樂資料集 - ?來自 OnAir 免版稅音樂計畫的用於音樂解混研究的新乾資料集。
- Opencpop - Opencpop是一個公開的高品質國語歌唱語料庫,專為歌聲合成(SVS)系統而設計。語料庫由100首獨特的國語歌曲組成,由專業女歌手錄製。所有音訊檔案均在專業錄音室環境中以44,100 Hz取樣率錄製,並具有錄音室品質。
- OpenGufeng - 中國古風音樂的旋律和和弦進行資料集。
- PBSCSR - 鋼琴盜版樂譜作曲家風格辨識資料集。我們的首要目標是創建一個用於研究作曲家風格識別的資料集,該資料集「像 MNIST 一樣易於使用,並且像 ImageNet 一樣具有挑戰性」。為了實現這一目標,我們從 IMSLP 上的鋼琴樂譜影像中取樣了固定長度的盜版樂譜片段。該資料集本身包含用於 9 路分類任務的 40,000 個 62x64 bootleg 分數圖像、用於 100 路分類任務的 100,000 個 62x64 bootleg 分數圖像以及用於預訓練的 29,310 個未標記的可變長度 bootleg 分數圖像。
- POP909 - POP909 是一個資料集,包含由專業音樂家創作的 909 首流行歌曲的鋼琴編曲的多個版本。資料集的主體包含MIDI格式的每首歌曲的人聲旋律、主樂器旋律和鋼琴伴奏,與原始音訊檔案對齊。此外,還提供節奏、節拍、調和和弦的註釋,其中節奏曲線是手工標記的,其他曲線是透過 MIR 演算法完成的。
- ProgGP - 包含 173 首前衛金屬歌曲的資料集,採用 GuitarPro 和 token 格式,依照 DadaGP 的規範。
- RWC(真實世界計算音樂資料庫) - RWC(真實世界計算)音樂資料庫是一個版權明確的音樂資料庫 (DB),可供研究人員作為研究的共同基礎。它包含大約 100 首完整的歌曲,並帶有手動標記的部分邊界。對於 50 種樂器,以半音間隔捕捉各個聲音,並根據演奏風格、動態、樂器製造商和音樂家的多種變化進行捕捉。
- Sangeet - 印度斯坦古典音樂的 XML 資料集。 SANGEET 以標準化方式保留任何給定作品所需的所有信息,包括元數據、結構、記譜、節奏和旋律信息,以便輕鬆高效地存儲和提取音樂信息。該數據集旨在為音樂資訊研究任務提供真實訊息,從而從機器學習的角度支援多種數據驅動的分析。
- singKT-dataset - SingKT是KT領域的音樂表演評估資料集,試圖利用知識追蹤方法來捕捉學習者視唱能力的動態變化。此資料集採集自公共智慧視唱練習平台SingMaster的資料。 SingKT資料集包含主應答記錄資料表(RecordDS)和兩個補充資料資料表(UserDS、OpernDS)。 UserDS 表記錄了資料集中包含的 1074 位學習者的視唱訊息,OpernDS 表記錄了樂譜資訊。
- Slakh2100 - 合成的 Lakh (Slakh) 資料集是一個用於音訊來源分離的資料集,它是使用專業級基於樣本的虛擬樂器從 Lakh MIDI 資料集 v0.1 合成的。 Slakh 的第一個版本稱為 Slakh2100,包含 2100 個自動混合音軌以及使用專業級採樣引擎合成的隨附 MIDI 檔案。 Slakh2100 中的軌道被分成訓練(1500 個軌道)、驗證(375 個軌道)和測試(225 個軌道)子集,總共 145 小時的混合。
- SymphonyNet - SymponyNet 是一個開源項目,旨在產生複雜的多軌和多樂器音樂,如交響樂。我們的方法與其他類型的音樂完全相容,如流行音樂、鋼琴音樂、獨奏音樂等。
- Tabla Solo 資料集 - Tabla Solo 資料集是 Tabla 獨奏音訊錄音的轉錄集合,涵蓋由 Pt. 演奏的六個不同的 Tabla Gharanas 作品。阿爾溫德·馬爾岡卡.該資料集由音訊和時間對齊的 bol 轉錄組成。
- Tegridy MIDI Dataset - Tegridy MIDI 資料集用於精確有效的音樂 AI 模型創建.
- Lakh MIDI 資料集 - Lakh MIDI 資料集是 176,581 個獨特 MIDI 檔案的集合,其中 45,129 個已與百萬歌曲資料集中的條目進行匹配和對齊。其目標是促進大規模音樂資訊檢索,包括符號(僅使用 MIDI 檔案)和基於音訊內容(使用從 MIDI 檔案提取的資訊作為匹配音訊檔案的註釋)。
- 義大利音樂資料集 - 該資料集是透過利用 Spotify 和 SoundCloud API 建構的。它由 14,500 多首不同的歌曲組成,其中包括著名和不太出名的意大利音樂家。資料集中的每首歌曲都透過其 Spotify ID 和標題進行標識。曲目的元資料還包括詞形還原和 POS 標記的歌詞,在大多數情況下,還包括直接從 Spotify 收集的十個音樂特徵。音樂特徵包括聲學(float)、可舞性(float)、duration_ms(int)、能量(float)、器樂性(float)、活躍度(float)、響度(float)、言語性(float)、節奏(float)和價(float)(漂浮)。
- 波斯鋼琴語料庫 - 波斯鋼琴語料庫是波斯鋼琴音樂的綜合集合,涵蓋從早期作曲家到當代人物的作品。它經過精心編譯並公開發布,旨在使研究人員能夠探索專門的研究並為新的發現做出貢獻。基於樂器的方法提供了與波斯鋼琴相關的完整語料庫,包括相關標籤和全面的元資料。
- 歌曲描述資料集 - 歌曲描述資料集:用於音樂和語言評估的音訊字幕語料庫。 SongDescriber 資料集是一個評估資料集,由 706 個授權音樂錄音的約 1.1k 字幕組成。
- 通用音樂符號分類器 - 一個 Python 項目,用於訓練深度神經網路來區分音樂符號。
- URMP(羅徹斯特大學多模態音樂表演)-URMP(羅徹斯特大學多模態音樂表演)是一個用於促進音樂表演視聽分析的資料集。該資料集包含 44 首簡單的多樂器音樂作品,這些音樂作品由協調但單獨錄製的各個曲目的演奏組合而成。對於每首作品,資料集都提供了 MIDI 格式的樂譜、高品質的單一樂器錄音以及組合作品的影片。
- VGMIDI 資料集 - VGMIDI 是電玩配樂的鋼琴編曲資料集。它包含 200 個根據情緒標記的 MIDI 片段和 3,850 個未標記的片段。每個標記的片段均由 30 名人類受試者根據情緒的 Circumplex(效價喚醒)模型進行註釋。
- Virtuoso Strings - Virtuoso Strings 是用於弦樂器軟起始檢測的資料集.它包含超過 144 張專業演奏的海頓弦樂四重奏作品摘錄的錄音。 74 個第一結局,每個都有相應的單獨樂器開始註釋。
- WikiMuTe - WikiMuTe:來自網路的音樂音訊語意描述資料集。在這項研究中,我們提出了 WikiMuTe,一個新的開放資料集,其中包含豐富的音樂語義描述。資料來自維基百科豐富的音樂作品文章目錄。使用專用的文本挖掘管道,我們提取長短形式的描述,涵蓋與音樂內容相關的廣泛主題,例如流派、風格、情緒、樂器和節奏。
- YM2413-MDB - YM2413-MDB是一個 80 年代 FM 電玩音樂資料集,具有多標籤情緒註釋。它包含來自 80 年代 Sega 和 MSX PC 遊戲的 669 個音訊和 MIDI 音樂文件,使用 YM2413(基於 FM 的可編程聲音產生器)。收集的遊戲音樂由 15 種單音樂器和一種鼓樂器組成。
^ 返回目錄 ^
音效
- 動物聲音資料集 - 此資料由 875 個動物聲音組成,包含 10 種動物聲音。這個動物聲音資料集包含 200 個貓、200 個狗、200 個鳥、75 個牛、45 個獅子、40 個羊、35 個青蛙、30 個雞、25 個驢子、25 個猴子的聲音。
- AudioSet - Audioset 是一個音訊事件資料集,由超過 200 萬個人工註釋的 10 秒視訊剪輯組成。這些片段是從YouTube收集的,因此其中許多片段品質較差並且包含多個聲源。採用 632 個事件類別的分層本體來註釋這些數據,這意味著相同的聲音可以被註釋為不同的標籤。例如,吠叫的聲音被註釋為動物、寵物和狗。所有影片都分為評估/平衡訓練/不平衡訓練集。
- AudioCaps - AudioCaps是一個帶有事件描述的聲音資料集,是為音訊字幕任務引入的,聲音來自 AudioSet 資料集。向註釋者提供音軌以及類別提示(如果需要,還可以提供其他視訊提示)。
- Auto-ACD - 我們提出了一種創新的自動音訊字幕生成管道,建立了一個大規模、高品質的音訊語言資料集,名為 Auto-ACD,包含超過 190 萬個音訊文字對。 Auto-ACD中的文本描述包含長文本(18個單字)和豐富的詞彙(23K),並提供有關聲音發生的周圍聽覺環境(帶有陰影的數據點)的資訊。
- BBC 音效 - BBC 音效資料集中有 33,066 個音效,並附有文字描述。類型:主要是環境聲音。每個音訊都有自然的文字描述。
- DCASE 2016 -DCASE 2016 是用於聲音事件偵測的資料集。它由 20 個短單聲道聲音檔案組成,對應 11 個聲音類別(來自辦公室環境,如clearthroat、抽屜或鍵盤),每個檔案包含一個聲音事件實例。聲音檔案會以事件開啟和偏移時間進行註釋,但是實際實體聲音之間的靜音(例如電話鈴聲)不會被標記,因此「包含」在事件中。
- 環境音訊資料集 - 此頁面嘗試維護適合環境音訊研究的資料集清單。除了免費提供的資料集之外,為了完整起見,此處還列出了專有和商業資料集。除了資料集之外,頁面末尾還列出了一些線上聲音服務。
- ESC-50 - ESC-50資料集是 2000 個環境錄音的標籤集合,適用於環境聲音分類的基準方法。它包含 2000 個 5 剪輯,涵蓋自然、人類和家庭聲音的 50 個不同類別,同樣來自 Freesound.org。
- FAIR-Play - FAIR-Play 是一個視訊音訊資料集,由 1,871 個視訊剪輯及其在音樂室錄製的相應雙耳音訊剪輯組成。相同索引的影片剪輯和雙耳剪輯大致對齊。
- FSD50K(Freesound 資料庫 50K) - Freesound 資料集 50k(或簡稱FSD50K )是人類標記的聲音事件的開放資料集,包含來自 AudioSet 本體的 200 個類別中不均勻分佈的 51,197 個 Freesound 剪輯。 FSD50K 是由龐培法布拉大學音樂技術組創建的。它主要由物理聲源和產生機制產生的聲音事件組成,包括人聲、物聲、動物聲、自然聲、樂器聲等。
- FSDnoisy18k - FSDnoisy18k資料集是一個開放資料集,包含 20 個聲音事件類別的 42.5 小時音頻,包括少量手動標記資料和大量現實世界噪音資料。音訊內容取自 Freesound,資料集是使用 Freesound Annotator 整理的。 FSDnoisy18k 的噪音集由 15,813 個音訊片段(38.8h)組成,測試集由 947 個帶有正確標籤的音訊片段(1.4h)組成。此資料集具有兩種主要類型的標籤雜訊:詞彙內(IV)和詞彙外(OOV)。當觀察到的標籤不正確或不完整,而真實或缺少的標籤是目標類別集的一部分時,IV 適用。類似地,OOV 意味著真實或缺少的標籤不屬於這 20 個類別。
- FUSS(免費通用聲音分離) - 免費通用聲音分離(FUSS)資料集是任意聲音混合和源級參考的資料庫,用於任意聲音分離的實驗。 FUSS基於FSD50K語料庫。
- iNaturalist 聲音資料集 - 我們推出了 iNaturalist 聲音資料集 (iNatSounds),它是 230,000 個音訊檔案的集合,捕獲來自 5,500 多個物種的聲音,由全球 27,000 多名錄音師貢獻。
- 具有情感意圖的敲擊聲音效果 - 該資料集由專業擬音藝術家 Ulf Olausson 於 2019 年 10 月 15 日在斯德哥爾摩的 FoleyWorks 工作室錄製。我們選擇了五種情緒在資料集中描繪:憤怒、恐懼、快樂、中性和悲傷。
- MIMII - 故障工業機器調查和檢查的聲音資料集 (MIMII) 是工業機器聲音的聲音資料集。
- Mivia 音訊事件資料集 - MIVIA 音訊事件資料集由總共 6000 個監控應用事件組成,即玻璃破碎、槍聲和尖叫。將6000個事件分為訓練集(由4200個事件組成)和測試集(由1800個事件組成)。
- 音調音頻資料集(Surge 合成器) - 使用開源 Surge 合成器合成 3.4 小時的音頻,基於 Surge 包中包含的 2084 個預設。這些代表「自然」的合成聲音——即人類設計的預設。我們產生了以 64 速度播放的 4 秒樣本,音符持續時間為 3 秒。對於每個預設,我們僅改變音高,從 MIDI 21--108(三角鋼琴的音域)。資料集中的每個聲音都使用標準化套件進行了 RMS 級標準化。沒有優雅的方法來刪除該資料集的重複資料;然而,只有一小部分預設(如鼓和聲音效果)沒有感知音高變化或順序。
- RemFX -RemFX:評估資料集。這些資料集最初源自於 VocalSet、GuitarSet、DSD100 和 IDMT-SMT-Drums 資料集,然後在我們的資料集產生腳本中進行處理。資料集根據所應用的效果數量 (0-5) 命名。例如,2-2.zip 包含應用於每個輸入音訊範例的 2 個效果。目標不變。應用的音訊效果來自集合(失真、延遲、動態範圍壓縮器、相量、殘響),並且對每個範例進行隨機取樣,無需替換。
- SoundCam - SoundCam,迄今為止公開發布的野外房間中唯一 RIR 的最大數據集。它包括 5,000 個 10 通道真實世界的房間脈衝響應測量結果和 2,000 個 10 通道音樂錄音,這些房間位於三個不同的房間,包括受控聲學實驗室、野外客廳和會議室,其中有不同的人位於每個房間的各個位置。
- SoundingEarth - SoundingEarth 由世界各地位於同一位置的航空圖像和音訊樣本組成。
- Spatial LibriSpeech - Spatial LibriSpeech 是一個空間音訊資料集,具有超過 650 小時的一階 Ambisonics 和可選的干擾雜訊(即將推出原始 19 通道音訊)。 Spatial LibriSpeech 專為機器學習模型訓練而設計,包括來源位置、說話方向、房間聲學和幾何形狀的標籤。 Spatial LibriSpeech 是透過在 8k 多個合成房間中使用 200k 多個模擬聲學條件來增強 LibriSpeech 樣本而產生的。
- STARSS22 (Sony-TAu Realistic Spatial Soundscapes 2022) - Sony-TAu Realistic Spatial Soundscapes 2022(STARSS22) 資料集包含使用高通道數球形麥克風陣列 (SMA) 擷取的真實場景的錄音。這些錄音是由兩個不同的團隊在兩個不同的地點進行的:芬蘭坦米爾的坦佩雷大學和日本東京的索尼工廠。兩個站點的錄音共享相同的捕獲和註釋過程以及類似的組織。
- ToyADMOS - ToyADMOS 資料集是一個機器操作聲音資料集,包含約540 小時的正常機器操作聲音和超過12,000 個異常聲音樣本,這些樣本是用四個麥克風以48kHz 取樣率收集的,由Yuma Koizumi 和NTT Media Intelligence 實驗室的成員準備。
- TUT Sound Events 2017 - TUT Sound Events 2017 資料集包含街道環境中的 24 個音訊錄音,並包含 6 個不同的類別。這些類別是:煞車吱吱聲、汽車、兒童、大型車輛、說話的人和行走的人。
- UrbanSound8K - Urban Sound 8K 是一個音訊資料集,包含來自10 個類別的8732 個標籤的城市聲音摘錄(<=4 秒):空調、汽車喇叭、兒童玩耍、狗吠、鑽孔、enginge_idling、gun_shot、手提鑽、警報器和street_music。這些類別取自城市聲音分類法。所有摘錄均取自上傳至 www.freesound.org 的現場錄音。
- VGG-Sound - 大型視聽資料集。 VGG-Sound 是一個視聽通訊資料集,由上傳到 YouTube 的影片中提取的音訊短片組成。
- 視覺指示的聲音 - 材料在受到撞擊或刮擦時會發出獨特的聲音 - 污垢會發出重擊聲;陶瓷發出叮噹聲。這些聲音揭示了物體材料特性的各個方面,以及物理相互作用的力量和運動。
^ 返回目錄 ^