AI 音频数据集 (AI-ADS) ?
AI音频数据集(AI-ADS),包括语音、音乐和音效,可为生成式AI、AIGC、AI模型训练、智能音频工具开发和音频应用提供训练数据。
目录
项目清单
演讲
- AISHELL-1 - AISHELL-1 是一个用于语音识别研究和构建普通话语音识别系统的语料库。
- AISHELL-3 - AISHELL-3是北京贝壳科技有限公司出版的大规模、高保真多语者普通话语音语料库。它可用于训练多说话人文本转语音 (TTS) 系统。该语料库包含 218 位中文母语人士的约 85 小时的情感中性录音,总共 88035 个话语。
- 阿拉伯语语音语料库 - 阿拉伯语语音语料库 (1.5 GB) 是用于语音合成的现代标准阿拉伯语 (MSA) 语音语料库。该语料库包含超过 3.7 小时的 MSA 语音的语音和正字法转录,与音素级别上录制的语音对齐。注释包括各个音素上的单词重音标记。
- AudioMNIST - 该数据集由 60 个不同说话者的口语数字 (0-9) 的 30000 个音频样本组成。
- AVSpeech - AVSpeech 是一个大型视听数据集,包含没有干扰背景信号的语音剪辑。这些片段的长度各不相同,长度在 3 到 10 秒之间,并且在每个片段中,视频中唯一可见的面孔和配乐中可听到的声音属于单个说话者。该数据集总共包含大约 4700 小时的视频片段,涉及大约 150,000 个不同的说话者,涵盖各种人物、语言和面部姿势。
- ATIS(航空旅行信息系统)- ATIS(航空旅行信息系统)是一个数据集,由有关人类在自动航空旅行查询系统上询问航班信息的录音和相应的手动记录组成。该数据由 17 个独特的意图类别组成。原始分割在训练集、开发集和测试集分别包含 4478、500 和 893 个意图标记的参考话语。
- Carnatic Varnam 数据集 - Carnatic varnam 数据集是 28 个独唱录音的集合,为我们对 Carnatic ragas 语调分析的研究而记录。该集合包含机器可读格式的音频录音、时间对齐的塔拉循环注释和斯瓦拉符号。
- 休闲对话 - 休闲对话数据集旨在帮助研究人员评估其计算机视觉和音频模型在不同年龄、性别、明显肤色和环境照明条件下的准确性。
- CN-Celeb - CN-Celeb 是“在野外”收集的大型说话人识别数据集。该数据集包含 1,000 位中国名人的 130,000 多条话语,涵盖现实世界中的 11 个不同流派。
- Clotho - Clotho 是一个音频字幕数据集,由 4981 个音频样本组成,每个音频样本有 5 个字幕(总共 24905 个字幕)。音频样本的持续时间为 15 至 30 秒,字幕长度为 8 至 20 个单词。
- Common Voice - Common Voice 是一个音频数据集,由唯一的 MP3 和相应的文本文件组成。数据集中记录了 9,283 小时。该数据集还包括年龄、性别和口音等人口统计元数据。该数据集包含 60 种语言的 7,335 个经过验证的小时。
- CoVoST - CoVoST 是一个大规模的多语言语音到文本翻译语料库。其最新的第二版涵盖了从 21 种语言翻译成英语以及从英语翻译成 15 种语言。它总共有 2880 个小时的演讲时间,有 78K 发言者和 66 种口音。
- CVSS - CVSS 是一个大规模的多语言到英语的语音到语音翻译 (S2ST) 语料库,涵盖从 21 种语言到英语的句子级并行 S2ST 对。 CVSS 源自 Common Voice 语音语料库和 CoVoST 2 语音到文本翻译 (ST) 语料库,通过使用最先进的 TTS 系统将 CoVoST 2 的翻译文本合成为语音。
- EasyCom - Easy Communications (EasyCom) 数据集是世界首个数据集,旨在帮助减轻增强现实 (AR) 驱动的多传感器自我中心世界观的鸡尾酒会效应。该数据集包含 AR 眼镜以自我为中心的多通道麦克风阵列音频、宽视场 RGB 视频、语音源姿势、耳机麦克风音频、带注释的语音活动、语音转录、头部和面部边界框以及源识别标签。我们创建并发布了这个数据集,以促进鸡尾酒会问题的多模式 AR 解决方案的研究。
- Emilia - Emilia 数据集是一个综合性多语言资源,包含六种不同语言的超过 101,000 小时的语音数据:英语 (En)、中文 (Zh)、德语 (De)、法语 (Fr)、日语 (Ja) 和韩语(柯)。它具有来自互联网上众多视频平台和播客的代表各种演讲风格的多种语音数据,涵盖脱口秀、采访、辩论、体育评论和有声读物等多种内容类型。
- ESD(情感语音数据库)- ESD是用于语音转换研究的情感语音数据库。 ESD 数据库由 10 名英语母语者和 10 名中文母语者说出的 350 条平行话语组成,涵盖 5 个情绪类别(中性、快乐、愤怒、悲伤和惊讶)。在受控声学环境中记录了超过 29 小时的语音数据。该数据库适用于多说话人、跨语言的情感语音转换研究。
- FPT 开放语音数据集 (FOSD) - 该数据集包含 25,921 条越南语音语音记录(包含其文字记录以及每次语音的标记开始和结束时间),由 2018 年公开发布的 3 个子数据集(总共约 30 小时)手动编译而成。 FPT 公司。
- 免费口语数字数据集 (FSDD) - 口语数字的免费音频数据集。将 MNIST 视为音频。一个简单的音频/语音数据集,由 8kHz 的 wav 文件中的口语数字录音组成。录音经过修剪,以便在开头和结尾处几乎保持最低限度的沉默。
- Fluent Speech Commands - Fluent Speech Commands 是用于口语理解 (SLU) 实验的开源音频数据集。每个话语都标有“动作”、“对象”和“位置”值;例如,“打开厨房里的灯”的标签为{“action”:“activate”,“object”:“lights”,“location”:“kitchen”}。模型必须预测这些值中的每一个,并且仅当所有值都正确时才认为对话语的预测是正确的。
- Genshin 数据集 - SVC/SVS/TTS 的 Genshin 数据集.
- GenshinVoice - Genshin Impact 原神语音数据集
- GigaSpeech - GigaSpeech,一个不断发展的多领域英语语音识别语料库,具有适合监督训练的 10,000 小时高质量标记音频,以及适合半监督和无监督训练的 40,000 小时总音频。
- GigaSpeech 2 - 一个不断发展的大规模多领域 ASR 语料库,适用于资源匮乏的语言,具有自动爬行、转录和细化功能。
- How2 - How2 数据集包含 13,500 个视频或 300 小时的语音,分为 185,187 个训练、2022 个开发 (dev) 和 2361 个测试话语。它有英语字幕和众包葡萄牙语翻译。
- inaGVAD - 一个具有挑战性的法国电视和广播数据集,用于语音活动检测(VAD)和说话者性别分割(SGS)注释,具有评估脚本和详细注释方案,详细说明非语音事件类型、说话者特征和语音质量
- KdConv -KdConv 是一个中文多领域知识驱动的转换数据集,将多轮对话中的主题扎根于知识图谱。 KdConv 包含来自三个领域(电影、音乐和旅行)的 4.5K 对话,以及平均轮数为 19.0 的 86K 话语。这些对话包含对相关主题的深入讨论以及多个主题之间的自然过渡,而语料库还可以用于探索迁移学习和领域适应。
- Libriheavy - Libriheavy:一个 50,000 小时的 ASR 语料库,包含标点符号大小写和上下文。
- LibriSpeech - LibriSpeech语料库收集了大约 1,000 小时的有声读物,是 LibriVox 项目的一部分。大多数有声读物来自古腾堡计划。训练数据分为 3 个部分,分别为 100 小时、360 小时和 500 小时集,而开发和测试数据则分别分为“干净”和“其他”类别,具体取决于自动语音识别系统的执行效果如何或具有挑战性。 。每个开发和测试集的音频长度约为 5 小时。
- LibriTTS - LibriTTS是一个多说话者英语语料库,包含约 585 小时的以 24kHz 采样率阅读的英语演讲,由 Heiga Zen 在 Google Speech 和 Google Brain 团队成员的协助下准备。 LibriTTS 语料库专为 TTS 研究而设计。它源自 LibriSpeech 语料库的原始材料(来自 LibriVox 的 mp3 音频文件和来自 Project Gutenberg 的文本文件)。
- LibriTTS-R -LibriTTS-R:恢复的多说话者文本到语音语料库.它是通过对 LibriTTS 语料库应用语音恢复而得出的,该语料库由 2,456 个说话人的 585 小时、24 kHz 采样率的语音数据和相应的文本组成。 LibriTTS-R的构成样本与LibriTTS相同,只是音质有所改善。
- LJSpeech(LJ 语音数据集) - 这是一个公共领域语音数据集,由单个说话者阅读 7 本非小说类书籍中的段落的 13,100 个简短音频片段组成。每个剪辑均提供转录。剪辑长度从 1 秒到 10 秒不等,总长度约为 24 小时。这些文本于 1884 年至 1964 年间出版,属于公共领域。该音频由 LibriVox 项目于 2016-17 年录制,也属于公共领域。
- LRS2(唇读句子 2) - Oxford-BBC 唇读句子 2 (LRS2) 数据集是最大的公开可用的唇读句子数据集之一。该数据库主要由 BBC 节目的新闻和脱口秀节目组成。每个句子的长度最多为 100 个字符。
- LRW (Lip Reading in the Wild) - 野外唇读 (LRW) 数据集是一个大型视听数据库,包含来自 1,000 多个说话者的 500 个不同单词。每个话语有 29 个帧,其边界以目标词为中心。该数据库分为训练集、验证集和测试集。训练集每个类别至少包含 800 个话语,而验证集和测试集包含 50 个话语。
- MuAViC - 用于强大的语音识别和强大的语音到文本翻译的多语言视听语料库。
- MuST-C - MuST-C 目前代表了最大的公开可用的语音翻译多语言语料库(一对多)。它涵盖八种语言方向,从英语到德语、西班牙语、法语、意大利语、荷兰语、葡萄牙语、罗马尼亚语和俄语。该语料库由英语 TED 演讲的音频、转录和翻译组成,并附带预定义的训练、验证和测试分割。
- MetaQA(MoviE 文本音频 QA) - MetaQA 数据集由源自 WikiMovies 数据集的电影本体和三组用自然语言编写的问答对组成:1 跳、2 跳和 3 跳查询。
- MELD(多模态 EmotionLines 数据集) - 多模态 EmotionLines 数据集(MELD)是通过增强和扩展 EmotionLines 数据集创建的。 MELD 包含与 EmotionLines 中相同的对话实例,但它还包含音频和视觉模式以及文本。 MELD 拥有《老友记》电视剧中的 1400 多个对话和 13000 多个话语。多位发言者参与了对话。对话中的每句话都被标记为这七种情绪中的任何一种:愤怒、厌恶、悲伤、喜悦、中性、惊讶和恐惧。 MELD 还为每个话语提供情绪(积极、消极和中性)注释。
- Microsoft 语音语料库(印度语言)- Microsoft 语音语料库(印度语言)版本包含泰卢固语、泰米尔语和古吉拉特语的会话和短语语音训练和测试数据。数据包包括音频和相应的文字记录。本数据集中提供的数据不得用于商业目的。您只能将这些数据用于研究目的。如果您发布您的发现,则必须提供以下归属:“数据由 Microsoft 和 SpeechOcean.com 提供”。
- PATS(姿势音频转录样式)-PATS 数据集由多种且大量对齐的姿势、音频和转录组成。通过这个数据集,我们希望提供一个基准,帮助开发生成自然且相关手势的虚拟代理技术。
- RealMAN - RealMAN:用于动态语音增强和本地化的真实记录和注释的麦克风阵列数据集。
- SAVEE(萨里视听表达情感)- 萨里视听表达情感(SAVEE)数据集被记录为开发自动情感识别系统的先决条件。该数据库由4位男演员7种不同情绪的录音组成,共480条英式英语话语。这些句子是从标准 TIMIT 语料库中选择的,并且针对每种情绪进行了语音平衡。
- SoS_Dataset - 故事之声:用音频进行多模式讲故事。现实世界中讲故事是多模式的。当一个人讲故事时,可以将所有的可视化和声音与故事本身一起使用。然而,先前关于讲故事数据集和任务的研究很少关注声音,尽管声音也传达了故事的有意义的语义。因此,我们建议通过建立一个名为“背景声音”的新组件来扩展故事理解和讲述领域,“背景声音”是基于故事上下文的音频,没有任何语言信息。
- 语音数据集集合 - 这是用于语音相关研究(主要用于自动语音识别)的开放语音数据集的精选列表。该存储库收集了110多个语音数据集,其中70多个数据集可以直接下载,无需进一步申请或注册。
- 语音数据集生成器 - 语音数据集生成器致力于创建适合训练文本到语音或语音到文本模型的数据集。主要功能包括转录音频文件、必要时增强音频质量以及生成数据集。
- 3D-Speaker-Datasets - 人类语音的大规模多设备、多距离和多方言音频数据集。
- TED-LIUM - TED 演讲的音频转录。 1495 份 TED 演讲录音以及这些录音的全文转录,由缅因大学信息实验室 (LIUM) 创建。
- Flickr 音频字幕语料库 - Flickr 8k 音频字幕语料库包含 8,000 个自然图像的 40,000 个语音字幕。该数据收集于 2015 年,旨在研究用于无监督语音模式发现的多模式学习方案。
- The People's Speech - The People's Speech是一个免费下载的 30,000 小时且不断增长的受监督会话英语语音识别数据集,根据 CC-BY-SA(带有 CC-BY 子集)许可用于学术和商业用途。数据是通过在互联网上搜索具有现有转录的适当许可的音频数据来收集的。
- 维基百科口语语料库 - 维基百科口语项目联合维基百科文章的志愿者读者。数以百计的多种语言的口头文章可供那些出于某种原因无法或不愿意阅读文章的书面版本的用户使用。
- TIMIT - DARPA TIMIT 声学连续语音语料库。
- tts-frontend-dataset -TTS 前端数据集:Polyphone / Prosody / TextNormalization.
- VoxCeleb2 - VoxCeleb2 是从开源媒体自动获得的大规模说话人识别数据集。 VoxCeleb2 包含来自 6000 多个发言者的超过 100 万条话语。由于数据集是在“野外”收集的,因此语音片段会被现实世界的噪声(包括笑声、串扰、通道效应、音乐和其他声音)破坏。该数据集也是多语言的,包含 145 个不同国籍的说话者的语音,涵盖各种口音、年龄、种族和语言。
- VoxConverse -VoxConverse 是一个视听二值化数据集,由从 YouTube 视频中提取的多说话人语音片段组成。
- VoxLingua107 - VoxLingua107 是一个 6628 小时的口语识别数据集(每种语言平均 62 小时),并附有 1609 个经过验证的话语的评估集。
- VoxPopuli - VoxPopuli 是一个大型多语言语料库,提供 23 种语言的 10 万小时未标记语音数据。它是迄今为止无监督表示学习和半监督学习的最大开放数据。 VoxPopuli 还包含 1800 小时的 16 种语言的转录演讲及其对齐的 5 种其他语言的口译,总计 5100 小时。
- VoxForge - VoxForge 是一个开放的语音数据集,旨在收集转录的语音,以便与免费开源语音识别引擎(在 Linux、Windows 和 Mac 上)一起使用。
- VocalSound - VocalSound 是一个免费数据集,包含来自 3,365 个独特受试者的 21,024 个众包录音,包括笑声、叹息、咳嗽、清喉咙、打喷嚏和嗅觉。 VocalSound 数据集还包含说话者年龄、性别、母语、国家/地区和健康状况等元信息。
- VoiceBank + DEMAND - VoiceBank+DEMAND 是一个带噪声的语音数据库,用于训练语音增强算法和 TTS 模型。该数据库旨在训练和测试在 48kHz 下运行的语音增强方法。更详细的描述可以在与数据库相关的论文中找到。
- WaveFake - WaveFake 是用于音频深度伪造检测的数据集。该数据集由超过 100K 生成的音频剪辑的大型数据集组成。
- WenetSpeech - WenetSpeech 是一个多领域普通话语料库,由 10,000 多个小时的高质量标记语音、2,400 多个小时的弱标记语音和约 10,000 小时的无标记语音组成,总共 22,400 多个小时。作者从 YouTube 和 Podcast 收集了数据,其中涵盖了各种演讲风格、场景、领域、主题和嘈杂条件。引入基于光学字符识别 (OCR) 的方法来生成 YouTube 数据及其相应视频字幕的音频/文本分割候选。
- WSJ0-2mix - WSJ0-2mix是使用《华尔街日报》(WSJ0) 语料库中的话语的语音混合语音识别语料库。
- 砰! (WSJ0 Hipster Ambient Mixtures) - WSJ0 Hipster Ambient Mixtures ( WHAM! ) 数据集将 wsj0-2mix 数据集中的每个两扬声器混合与独特的噪声背景场景配对。噪音音频是 2018 年底在旧金山湾区的各个城市地点收集的。环境主要包括餐馆、咖啡馆、酒吧和公园。音频是使用 Apogee Sennheiser 双耳麦克风在距地面 1.0 至 1.5 米的三脚架上录制的。
- YODAS - 这是我们 YODAS 数据集中的 YODAS 手动/自动子集,它有 369,510 小时的语音。该数据集包含来自 YouTube 的音频话语和相应的字幕(手动或自动)。请注意,手动字幕仅表明它是由用户上传的,但不一定是由人转录的。
- YODAS2 - YODAS2 是 YODAS 数据集的长格式数据集。它提供与 espnet/yodas 相同的数据集,但 YODAS2 具有以下新功能: 1. 以长格式(视频级别)格式化,其中音频不分段。 2. 音频使用更高的采样率(即24k)进行编码。
- YTTTS - YouTube 文本转语音数据集由从 YouTube 视频中提取的波形音频及其英文转录组成。
^ 返回目录 ^
音乐
- AAM:人工音频多轨数据集 - 该数据集包含 3,000 个具有丰富注释的人工音乐音轨。它基于真实的乐器样本,并通过音乐理论的算法创作生成。它提供了歌曲的完整混音以及单一乐器曲目。用于生成的 midis 也可用。注释文件包括:起始、音调、乐器、调、节奏、片段、旋律乐器、节拍和和弦。
- Acappella - Acappella 包含来自 YouTbe 的约 46 小时的无伴奏独唱视频,采样了不同歌手和语言。考虑四种语言:英语、西班牙语、印地语等。
- 添加:audio-dataset-downloader - 简单的 Python CLI 脚本,用于根据音乐流派列表从 Youtube 下载 N 小时的音频。
- ADL Piano MIDI - ADL Piano MIDI 是包含不同流派的 11,086 首钢琴曲的数据集。该数据集基于 Lakh MIDI 数据集,该数据集是 45,129 个独特 MIDI 文件的集合,这些文件已与百万歌曲数据集中的条目相匹配。
- 对齐乐谱和表演 (ASAP) - ASAP 是对齐乐谱(MIDI 和 MusicXML)和表演(音频和 MIDI)的数据集,全部带有强拍、节拍、拍号和调号注释。
- 带注释的京剧咏叹调数据集 - 带注释的京剧咏叹调数据集是使用 Praat 软件手动分割为不同级别的 34 首京剧咏叹调的集合。所选唱段包含了京剧两大主要声腔西皮、二黄和旦、净、老旦、老生、小生五种主要唱腔类型。该数据集由每个咏叹调的 Praat TextGrid 文件组成,包含以下信息的层级:咏叹调、MusicBrainz ID、艺术家、学校、角色类型、声腔、半诗、歌词行、音节和打击乐模式。
- Bach Doodle - 巴赫涂鸦数据集由巴赫涂鸦提交的 2160 万个和声组成。该数据集包含有关作曲的元数据(例如原产国和反馈),以及用户输入旋律的 MIDI 和生成的和声的 MIDI。该数据集包含大约 6 年的用户输入的音乐。
- 巴赫小提琴数据集 - 巴赫独奏小提琴奏鸣曲和帕蒂塔的高质量公共录音集 (BWV 1001–1006)。
- Batik-plays-Mozart 数据集 - Batik-plays-Mozart 数据集是一个钢琴演奏数据集,包含 12 首完整的莫扎特钢琴奏鸣曲(36 个不同的乐章),由维也纳音乐会钢琴家 Roland Batik 在计算机监控的 Bösendorfer 大钢琴上演奏。演奏以 MIDI 格式提供(相应的音频文件可在市场上购买),并且音符级别与 MusicXML 中的新莫扎特版本中的乐谱以及先前在《带注释的莫扎特奏鸣曲》中发布的音乐和声、节奏和乐句注释保持一致。
- 京剧打击乐器数据集 - 京剧打击乐器数据集是涵盖京剧使用的四个打击乐器类别的 236 个独立笔画示例的集合。它可用于为每种打击乐器构建行程模型。
- 京剧打击乐模式数据集 - 京剧打击乐模式 (BOPP) 数据集是涵盖 5 个模式类别的 133 个音频打击乐模式的集合。该数据集包括模式的音频和音节级别转录(非时间对齐)。它对于打击乐转录和分类任务很有用。这些模式是从咏叹调的录音中提取的,并由音乐学家标记。
- BiMMuDa - Billboard Melodic Music Dataset (BiMMuDa) 是一个 MIDI 数据集,包含 1950 年至 2022 年每年 Billboard 年终单曲榜前五名单曲的主旋律。此存储库存储数据集及其元数据和附录。
- CAL500(计算机试听实验室 500) - CAL500(计算机试听实验室 500)是一个旨在评估音乐信息检索系统的数据集。它由502首选自西方流行音乐的歌曲组成。音频表示为前 13 个梅尔频率倒谱系数(及其一阶和二阶导数)的时间序列,通过在每首歌曲的波形上滑动 12 毫秒半重叠短时窗口来提取。
- 卡纳提克音乐节奏数据集 - 卡纳提克音乐节奏数据集是四个塔拉音乐中 176 个摘录(16.6 小时)的子集合,其中包含音频、相关塔拉相关元数据和指示塔拉周期进展的时间对齐标记。它可用作卡纳提克音乐中许多自动节奏分析任务的测试语料库。
- CCMixter - CCMixter 是一个歌声分离数据集,由 ccMixter 的 50 个完整长度的立体声轨道组成,具有许多不同的音乐流派。每首歌曲都有三个可用的 WAV 文件:背景音乐、语音信号及其总和。
- ChMusic - ChMusic是一个中国传统音乐数据集,用于乐器识别的训练模型和性能评估。该数据集涵盖了二胡、琵琶、三弦、笛子、唢呐、锥琴、中阮、柳琴、古筝、扬琴、笙等11种乐器。
- chongchong-free - 虫虫钢琴下载器是一款虫虫钢琴乐谱免费下载软件,可以获取乐谱的链接、分析乐谱内容、导出文件。
- ComMU - ComMU 拥有 11,144 个 MIDI 样本,由专业作曲家创建的短音符序列及其相应的 12 个元数据组成。该数据集是为新任务“组合音乐生成”而设计的,该任务仅通过自回归语言模型使用元数据生成多样化且高质量的音乐。
- CoSoD - CoSoD 由 331 首歌曲语料库的元数据和分析数据组成,其中包含 2010 年至 2019 年间发布的公告牌“热门 100”年终排行榜上的所有多位艺术家合作作品。数据集中的每首歌曲都与两个 CSV 文件相关联:一种用于元数据,一种用于分析数据。
- DALI - DALI:同步音频、歌词和声音音符的大型数据集。
- DadaGP - DadaGP 是一个新的符号音乐数据集,包含 GuitarPro 格式的 26,181 首歌曲乐谱,涵盖 739 种音乐流派,以及非常适合 Transformer 等生成序列模型的随附标记化格式。标记化格式的灵感来自于基于事件的 MIDI 编码,通常用于符号音乐生成模型。该数据集是通过编码器/解码器发布的,该编码器/解码器可以将 GuitarPro 文件转换为令牌并返回。
- DeepScores - 300000 个带注释的书面音乐图像的合成数据集,用于对象分类、语义分割和对象检测。基于从 MuseScore 获得的大量 MusicXML 文档,使用复杂的管道将源文件转换为 LilyPond 文件,并使用 LilyPond 来雕刻和注释图像。
- dMelodies - dMelodies 是使用 9 个独立的潜在变化因素生成的简单 2 小节旋律的数据集,其中每个数据点代表基于以下约束的独特旋律: - 每个旋律将对应一个独特的音阶(大调、小调、布鲁斯等) .)。 - 每个旋律都使用标准 I-IV-VI 节奏和弦模式来演奏琶音。 - 小节 1 演奏前 2 个和弦(6 个音符),小节 2 演奏后 2 个和弦(6 个音符)。 - 每个演奏的音符都是八分音符。
- DISCO-10M - DISCO-10M 是一个音乐数据集,旨在使大规模音乐机器学习模型的研究民主化。
- 笛子 - 笛子是北派和南派音乐风格的数据集。特点包括旋律和演奏技巧对两种不同音乐风格的解构。
- DreamSound - 最近,文本到音乐生成模型在根据给定文本提示合成高质量和多样化的音乐样本方面取得了前所未有的成果。尽管取得了这些进步,但仍不清楚如何生成个性化的、用户特定的音乐概念、操纵它们并将它们与现有的音乐概念相结合。受计算机视觉文献的推动,我们通过探索两种既定方法(即文本反转和 Dreambooth)来研究文本到音乐。使用定量指标和用户研究,我们仅在少量样本的情况下评估他们重建和修改新音乐概念的能力。最后,我们提供了一个新的数据集,并为这个新任务提出了一个评估协议。
- EMOPIA - 用于情感识别和基于情感的音乐生成的多模式流行钢琴数据集。 EMOPIA(发音为“yee-mò-pi-uh”)数据集是一个共享的多模式(音频和 MIDI)数据库,专注于流行钢琴音乐中的感知情感,以促进与音乐情感相关的各种任务的研究。该数据集包含来自 387 首歌曲的 1,087 个音乐片段以及由四位专用注释器注释的片段级情感标签。
- ErhuPT(二胡演奏技巧数据集) - 该数据集是一个音频数据集,包含由多名专业演奏者录制的约 1500 个音频片段。
- FiloBass - 基于数据集和语料库的爵士低音线研究。 FiloBass:一个新颖的乐谱和注释语料库,重点关注低音提琴在爵士乐伴奏中的重要但经常被忽视的作用。受到最近揭示独奏者角色的研究的启发,我们提供了 48 个经过手动验证的专业爵士贝斯手转录的集合,其中包含超过 50,000 个音符事件,这些事件基于 FiloSax 数据集中使用的背景音轨。对于每个录音,我们提供音频主干、乐谱、与演奏一致的 MIDI 以及节拍、强拍、和弦符号和音乐形式标记的相关元数据。
- 寻找托里 - 寻找托里:分析韩国民歌的自我监督学习。我们介绍了对 1980-90 年代录制的大约 700 小时韩国民歌的现场录音数据集的计算分析。
- FMA - 免费音乐档案 (FMA) 是一个大型数据集,用于评估音乐信息检索中的多项任务。它包含 343 天的音频,来自 16,341 位艺术家的 106,574 首曲目和 14,854 张专辑,按 161 种流派的分层分类法排列。它提供全长和高质量的音频、预先计算的功能,以及曲目和用户级元数据、标签和自由格式文本(例如传记)。
- GiantMIDI-Piano - GiantMIDI-Piano 是一个古典钢琴 MIDI 数据集,包含 2,786 名作曲家的 10,855 个 MIDI 文件。按作曲家姓氏筛选的子集包含 1,787 名作曲家的 7,236 个 MIDI 文件。
- Groove(Groove MIDI 数据集)- Groove MIDI 数据集 (GMD) 由 13.6 小时的对齐 MIDI 和人类演奏的、节奏对齐的富有表现力的鼓乐(合成的)音频组成。该数据集包含 1,150 个 MIDI 文件和超过 22,000 个击鼓小节。
- GTSinger - GTSinger:全球多技术歌唱语料库,为所有歌唱任务提供逼真的乐谱.我们介绍 GTSinger,一个大型的全球性、多技术、免费使用、高质量的歌唱语料库,具有逼真的乐谱,专为所有歌唱任务而设计,及其基准。
- GuitarSet - GuitarSet:吉他转录的数据集。
- 印度斯坦音乐节奏数据集 - 印度斯坦音乐节奏数据集是 4 塔尔 (taal) 151 个印度斯坦音乐 (5 小时) 的子集合,其中包含音频、相关塔尔相关元数据和指示塔尔周期进展的时间对齐标记。该数据集可用作印度斯坦音乐中许多自动节奏分析任务的测试语料库。
- HumTrans - 该数据集还可以作为下游任务的基础,例如基于哼唱旋律的音乐生成。它由500首不同流派和语言的音乐作品组成,每首作品又分为多个片段。总共数据集包含1000个音乐片段。为了收集这个嗡嗡声的数据集,我们雇用了10名大学生,他们都是音乐专业的学生,或者熟练弹奏至少一种乐器。他们每个部分都使用我们设计的网站提供的网络录制界面两次嗡嗡作响。嗡嗡声记录以44,100 Hz的频率采样。
- 印度艺术音乐补品数据集 - 该数据集包含597个印度艺术音乐(Hindustani和Carnatic Music)的市售录音录音,每个音乐都用主要艺术家的补品手动注释。该数据集用作开发补品识别方法的测试语料库。
- 爵士和谐树库 - 此存储库包含爵士和谐树库,这是对从Shanahan等人在Zenodo上发表的Irealpro语料库中选择的爵士和弦序列的层次谐波分析的语料库。
- Jazznet -Jazznet:音乐音频机器学习研究基本钢琴模式的数据集。本文介绍了Jazznet数据集,这是一个基本的爵士钢琴音乐模式的数据集,用于开发机器学习(ML)算法(MIR)。该数据集包含162520标记的钢琴模式,包括逆转的弦,arpeggios,scales和和弦进行,导致音频超过26k小时,总尺寸为95GB。
- jingju a gappella唱歌音调轮廓数据集-Jingju a cappella singing pitch Contour数据集是39 jingju a cappella唱歌录音的音高轮廓段地面真相的集合。该数据集包括(1)旋律转录,(2)音高轮廓分割的基础真相。它可用于旋律转录和音高轮廓分段任务。音高轮廓已从录音中提取,并由音乐学家手动纠正和细分。
- Jingju Music Scores Collection-这是收集的92个Jingju音乐得分的集合,用于分析Jingju唱歌的音乐系统。它们是使用MusesCore从原始印刷源转录为可读格式的,并将其导出到MusicXML中。
- JS假合唱团 - 由KS_CHORUS算法生成的500个4部分合唱的MIDI数据集,并注明了数百名聆听测试参与者的结果,其中300名未经通知的合唱团。
- LAION-DISCO-12M-LAION-DISCO-12M数据集在YouTube上包含了12m音乐的链接,灵感来自Disco-10m的方法。从艺术家的最初种子清单开始,我们可以通过递归探索“粉丝也可能也喜欢”部分中列出的艺术家来发现新艺术家。只要我们能够找到新的艺术家,我们就会探索相关的艺术家图。
- 十万MUSENET MIDI数据集 - 全十亿个MIDI数据集转换为Musenet Midi输出格式(9仪器 +鼓)。
- 洛杉矶MIDI数据集-Sota Kilo级MIDI数据集用于MIR和音乐AI目的。
- LP-Musiccaps-LP-Musiccaps:基于LLM的伪音乐字幕。
- Lyra数据集 - Lyra是用于希腊传统和民间音乐的数据集,其中包括1570件作品,总结了大约80个小时的数据。该数据集包含YouTube时间戳的链接,用于检索音频和视频,以及有关仪器,地理和类型等丰富的元数据信息。
- 大师 -大师数据集包含超过200个小时的配对音频和MIDI录音,这些录音是十年的国际钢琴竞争。 MIDI数据包括关键的打击速度和维持/sostenuto/una corda踏板位置。音频和MIDI文件与约3毫秒的精度对齐,并将其切成单独的音乐作品,并用作曲家,标题和表演年份注释。未压缩的音频具有CD质量或更高的音频(44.1–48 kHz 16位PCM立体声)。
- Magnatagatune -Magnatagatune数据集包含25,863个音乐剪辑。每个剪辑都是29秒长的摘录,属于5223首歌曲之一,445张专辑和230位艺术家。这些剪辑涵盖了各种流派,例如古典,新时代,电子,摇滚,流行音乐,世界,爵士,蓝调,金属,朋克等。每个音频剪辑都提供188个标签的二进制注释向量。
- 用于“流行音乐演变:1960–2010”的主数据集 - 这是一个称为EvolutionPopusa_maindata.csv的大文件(〜20MB),用comma分隔的数据格式,带有列标头。每行都对应于录制。该文件在任何文本编辑器中均可查看,也可以在Excel中打开或导入到其他数据处理程序。
- Metamidi数据集 - 我们介绍了Metamidi数据集(MMD),这是436,631个MIDI文件和元数据的大规模集合。除了MIDI文件外,我们还提供艺术家,标题和流派元数据,这些元数据是在刮擦过程中收集的。 MIDIS IN(MMD)与从Spotify取回的32,000,000 30秒音频剪辑的集合相匹配,导致超过10,796,557个音频米迪比赛。
- 数百万句话数据集 - 此数据集包含1922 - 2011年的一百万首歌曲,其中艺术家从Echonest(现为Spotify的一部分)标记了信息,以及音频测量以及其他相关信息。
- mir-1k-mir-1k(多媒体信息检索实验室,1000个歌曲剪辑)是一个旨在唱歌语音分离的数据集。
- Mridangam Stroke数据集 - Mridangam Stroke数据集是7162个音频示例的集合,这些音频示例是Mridangam在各种吨位中的单个中风。该数据集包含10种不同的滋补值的Mridangam上播放的10个不同笔触。该数据集可用于每个Mridangam中风的训练模型。
- Mridangam Tani-Avarthanam数据集 - Mridangam Tani-Avarthanam数据集是由著名的Mridangam Maestro Padmavibhushan umayalpuram K. Sivaraman播放的两个Tani-Avarthanams的转录集合。音频是在印度的IIT Madras录制的,并由专业的Carnatic打击乐手注释。它由大约24分钟的音频和8800杆组成。
- mirmlpop-其中包含1)mir-mlpop数据集的注释,2)获得数据集音频的源代码,3)我们用来微调mir-mlpop上的源代码(歌词对齐和歌词转录) ,和4)评估源代码。
- MSD(百万歌曲数据集) - 百万歌曲数据集是一百万个当代流行音乐曲目的自由收藏的音频功能和元数据集。数据集的核心是由Echo Nest提供的一百万首歌曲的功能分析和元数据。
- MTG-Jamendo数据集 - 我们提供MTG-Jamendo数据集,这是一种用于音乐自动标记的新开放数据集。它是使用Jamendo在Creative Commons许可证和内容上传者提供的标签下使用的音乐构建的。该数据集包含超过55,000个完整的音轨,其中包含来自类型,仪器和情绪/主题类别的195个标签。我们为研究人员提供详尽的数据拆分,并在五组标签上报告简单的基线方法的性能:类型,仪器,情绪/主题,TOP-50和总体。
- MTG-JAMENDO- MTG-JAMENDO数据集是用于音乐自动标记的开放数据集。该数据集包含超过55,000个完整的音轨,其中包括195个标签类别(87个类型标签,40个仪器标签和56个情绪/主题标签)。它是使用Jamendo在Creative Commons许可证和内容上传者提供的标签下使用的音乐构建的。所有音频均以320kbps mp3格式分发。
- 计算音乐学研究(CCMUSIC数据集)的音乐数据共享平台 - 该平台是计算音乐学研究的多功能音乐数据共享平台。它包含许多音乐数据,例如中国传统乐器的声音信息以及中国流行音乐的标签信息,可供计算音乐学研究人员免费使用。
- 音乐情感识别(MER) - 我们提供了一个数据集,用于分析个性化音乐情感识别(MER)系统。我们开发了音乐爱好者平台,旨在改善对此类系统所需的所谓“地面真相”的聚集和分析。
- Musan -Musan是音乐,言语和噪音的语料库。该数据集适用于语音活动检测(VAD)和音乐/语音歧视的培训模型。数据集由多种流派的音乐,十二种语言的演讲以及各种技术和非技术声音组成。
- MUSDB-XL-TRAIN- MUSDB-XL-TRAIN数据集由一个限制器应用的300,000个片段组成的4-SEC音频片段和100首原创歌曲组成。对于每个片段,我们在MUSDB-HQ训练子集中随机选择了4个茎(人声,低音,鼓,其他)和随机混合它们的任意段。然后,我们将一个商业限制器插件应用于每个茎。
- MusicBench- MusicBench数据集是音乐文本对的集合,专为文本到音乐生成而设计,并使用Mustango Toxt-tot Music模型发行。 MusicCaps数据集从5,521个样本扩展到52,768个培训和400个测试样品,以创建MusicBench !
- Musicnet -Musicnet是330个自由许可的古典音乐录音的集合,以及超过100万个带注释的标签,指示每个录音中每个音符的精确时间,播放每个音符的乐器以及音符在Muthical of Note的位置,以及该音符在Metrical结构中的位置作品。这些标签是通过动态时间扭曲与录音相符的音乐分数获得的。标签由训练有素的音乐家验证;我们估计标签错误率为4%。我们为机器学习和音乐社区提供音乐网标签,作为培训模型的资源,也是比较结果的常见基准。
- Musiccaps-音乐播放是一个数据集,由5.5k的音乐文本对组成,并提供了由人类专家提供的丰富文本描述。
- Musedata -Musedata是CCARH的管弦乐和钢琴古典音乐的电子库。它由约783个文件的3MB组成。
- MUSDB18- MUSDB18是一个由不同流派的150个全长音乐曲目(〜10h持续时间)的数据集,以及它们孤立的鼓,低音,人声和其他茎。该数据集分别分别为100和50首歌曲的培训和测试集。所有信号均为立体声并以 44.1kHz 编码。
- 音乐主题和元数据 - 该数据集提供了1950年至2019年的歌词列表,将音乐元数据描述为悲伤,舞蹈性,响度,声学等。我们还提供了一些信息,作为歌词,可用于自然语言处理。
- 音乐流派数据集 - 1494类流派的数据集,每张包含200首歌曲。
- 多模式乐谱数据集-MSMD是497片(经典)音乐的合成数据集,其中包含以细粒度对齐的零件的音频和得分表示(344,742对与其音频/MIDI相反的笔记本组合)。
- MUVI-SYNC- MUVI-SYNC数据集是一个多模型数据集,其中包括音乐功能(和弦,钥匙,响度和音符密度)和视频功能(场景偏移,情感,运动和语义),总共提取了7488888888。音乐视频。
- Nlakh -Nlakh是乐器检索的数据集。它是提供大量仪器的Nsynth数据集的组合,以及提供多轨MIDI数据的数十万个数据集。
- nsynth -nsynth是一张镜头音符的数据集,其中包含305,979张音符,带有独特的音调,音色和信封。这些声音是从商业样品库中的1006台仪器中收集的,并根据其来源(声学,电子或合成),仪器家族和声音品质进行注释。注释中使用的仪器系列是贝司,黄铜,长笛,吉他,键盘,槌槌,器官,芦苇,弦,合成器铅和声音。为乐器生成了四个第二个单声道16kHz音频片段(注释)。
- NES-MDB(Nintendo Entertainment System Music Database)-Nintendo Entertainment System Music Database(NES-MDB)是一个数据集,用于为NES音频合成器构建自动音乐构图系统。它由397场NES游戏配乐中的5278首歌曲组成。该数据集代表296个独特的作曲家,歌曲包含超过200万笔记。它具有MIDI,Score和NLM(NES语言建模)的文件格式选项。
- Niko Chord进程数据集 - Niko Chord进程数据集用于accomontage2。它包含5k+和弦的进度零件,标有样式。总共有四种样式:流行标准,流行综合体,黑暗和R&B。
- onair音乐数据集 - ?来自Onair免版税音乐项目的新的用于音乐研究的STEM数据集。
- OpenCPop -OpenCPop是一种公开可用的高质量的普通话唱歌语料库,旨在唱歌语音合成(SVS)系统。该语料库由100首独特的普通话歌曲组成,由一位专业女歌手录制。在专业录音室环境中,所有音频文件均以工作室质量的录制为44,100 Hz 。
- OpenGufeng-中国Gufeng音乐的旋律和和弦进步数据集。
- PBSCSR-钢琴盗版得分作曲家样式识别数据集。我们的总体目标是创建一个数据集来研究作曲家风格的识别,该识别“像Mnist一样易于访问,并且像Imagenet一样具有挑战性。”为了实现此目标,我们从IMSLP上的钢琴乐谱图像中采样了固定长度的盗版得分片段。该数据集本身包含40,000 62x64盗版分类任务的盗版得分图像,100,000 62x64 100个分类任务的盗版得分图像和29,310个未标记的可变长度练习式得分图像用于预处理。
- POP909 -POP909是一个数据集,其中包含由专业音乐家创建的909首流行歌曲的钢琴布置的多个版本。数据集的主体包含声乐旋律,铅仪旋律和每首歌曲中MIDI格式的钢琴伴奏,它们与原始音频文件保持一致。此外,提供了速度,节奏,钥匙和和弦的注释,其中节奏曲线是手工标记的,而其他曲线则由mir算法完成。
- proggp-根据达达格(Dadagp)的规格,吉他性和令牌格式的173首渐进金属歌曲的数据集。
- RWC(现实世界计算音乐数据库)-RWC(现实世界计算)音乐数据库是一个版权清除的音乐数据库(DB),可供研究人员作为研究的共同基础。它包含大约100首完整的歌曲,并带有手动标记的截面边界。对于50个乐器,以半音间隔的单独声音被捕获,并具有多种演奏风格,动态,仪器制造商和音乐家的变化。
- Sangeet-印度斯坦古典音乐的XML数据集。 Sangeet以标准化的方式保留了任何给定构图的所有必需信息,包括元数据,结构,符号,节奏和旋律信息,以易于有效地存储音乐信息。该数据集旨在为音乐信息研究任务提供基础真理信息,从而从机器学习的角度支持几个数据驱动的分析。
- Singkt -Dataset -Singkt是KT领域的音乐性能评估数据集,该数据集试图利用知识追踪方法来捕获学习者视力的动态变化。该数据集从公共智能景点实践平台Singmaster收集数据。 SINGKT数据集包含主要答案记录数据表(记录)和两个补充信息数据表(用户,OPERNDS)。用户表记录了数据集中包含的1074个学习者的视觉信息,OPERNDS表记录了音乐表信息。
- slakh2100-合成的数十万(slakh)数据集是用于音频源分离的数据集,使用基于专业级样本的虚拟仪器从十万MIDI数据集v0.1合成。 Slakh的第一个发行版本称为Slakh2100,包含2100个自动混合的轨道,并随附使用专业级采样引擎合成的MIDI文件。 Slakh2100中的轨道分为训练(1500个轨道),验证(375个轨道)和测试(225个轨道)子集,总计145小时的混合物。
- Symphonynet-symponynet是一个开源项目,旨在生成复杂的多轨和多功能音乐,例如交响乐。我们的方法与其他类型的音乐完全兼容,例如流行音乐,钢琴,独奏音乐。
- Tabla Solo数据集 - Tabla Solo数据集是由PT播放的六个不同Gharanas的Tabla Solo Audio Recordings的转录集合。 Arvind Mulgaonkar。数据集由音频和时间对齐的BOL转录组成。
- Tegridy MIDI数据集 - Tegridy Midi数据集,可用于精确有效的音乐AI模型创建。
- 数十万的MIDI数据集 - 十万MIDI数据集是176,581个独特的MIDI文件的集合,其中45,129个已匹配并与百万Song DataSet中的条目保持一致。它的目标是促进符号(单独使用MIDI文件)和基于音频内容的大规模音乐信息检索(使用MIDI文件中提取的信息作为匹配的音频文件的注释)。
- 意大利音乐数据集 - 数据集是通过利用Spotify和SoundCloud API来构建的。它由14,500多首著名和不太著名的意大利音乐家的歌曲组成。数据集中的每首歌曲都通过其Spotify ID及其标题来标识。 Tracks的元数据还包括诱人的和Pos标记的歌词,在大多数情况下,直接从Spotify收集了十个音乐功能。音乐功能包括声学(浮动),舞蹈性(float),duration_ms(int),能量(浮动),仪器(float),Livices(float),响度(浮动),言语(浮动),tempo(float),tempo(float)和Valence(Valence)和Valence(Valence)(漂浮)。
- 波斯钢琴语料库 - 波斯钢琴语料库是波斯钢琴音乐的综合集合,从早期作曲家到当代人物。它已经经过精心编译和公开访问,旨在使研究人员能够探索专业调查并为新发现做出贡献。基于仪器的方法提供了与波斯钢琴相关的完整语料库,包括相关标签和全面的元数据。
- 歌曲描述数据集 - 歌曲描述数据集:音乐和语言评估的音频字幕。歌曲描述数据集是一个评估数据集,该数据集由〜1.1K字幕制成,用于706个允许许可的音乐录音。
- 通用音乐符号分类器 - 一个Python项目,该项目训练深层神经网络以区分音乐符号。
- URMP(罗切斯特大学多模式音乐表演)-URMP(罗切斯特大学多模式音乐表演)是一个数据集,用于促进音乐表演的视听分析。该数据集由44个简单的多功能音乐作品组成,这些音乐作品是由协调但单独记录的单个轨道表演组成的。对于每个作品,数据集以MIDI格式,高质量的单个乐器录音和组装作品的视频提供了乐谱。
- VGMIDI数据集-VGMIDI是视频游戏配乐钢琴布置的数据集。它包含200个根据情感标记的MIDI作品和3,850个未标记的作品。根据Cipleumplex(Valence-arousal)情绪模型,将每个标记的作品注释了30个人类主题。
- Virtuoso字符串 - Virtuoso字符串是用于串联仪器的软ONESET检测的数据集。它由Haydn的String Quartet Op摘录的144多个专业表演录音组成。 74 No. 1结局,每个结局都有相应的单个仪器发作注释。
- Wikimute -Wikimute:音乐音频的语义描述的网络源数据集。在这项研究中,我们提出了Wikimute,这是一个新的开放数据集,其中包含音乐的丰富语义描述。数据来自Wikipedia丰富的涵盖音乐作品文章目录。使用专用的文本挖掘管道,我们提取了涵盖与音乐内容相关的广泛主题,例如类型,样式,情绪,仪器和节奏。
- YM2413-MDB- YM2413-MDB是具有多标签情感注释的80年代FM视频游戏音乐数据集。它包括80年代使用基于FM的可编程声音生成器YM2413的SEGA和MSX PC游戏中的669个音频和MIDI文件。收集的游戏音乐由15个单声乐器和一根鼓乐器组成。
^回到目录 ^
音效
- 动物声音数据集 - 该数据由875种动物声音组成,包含10种动物声音。该动物声音数据集组成了200个猫,200狗,200只鸟,75牛,45狮,40羊,35蛙,30鸡,25驴,25猴子。
- 音频集 - 音频集是一个音频事件数据集,由超过200万的人类注销的10秒视频剪辑组成。这些剪辑是从YouTube收集的,因此许多剪辑的质量较差,并且包含多个声源。使用632个事件类的分层本体来注释这些数据,这意味着可以将相同的声音注释为不同的标签。例如,吠叫声被注释为动物,宠物和狗。所有视频都分为评估/平衡训练/不平衡训练集。
- AudioCaps- AudioCaps是一个声音数据集,其中包含用于音频字幕任务的事件描述,并从Audioset数据集中采购声音。提供注释器和类别提示(如果需要的话)的音轨(以及其他视频提示)。
- Auto-ACD-我们提出了一个创新的自动音频字幕生成管道,构建了一个大规模,高质量的音频语言数据集,称为自动ACD,包含超过190万音频文本对。自动ACD中的文本说明包含长文本(18个单词)和多样的词汇(23k),并提供有关周围听觉环境(带有阴影的数据点)的信息,其中发生了声音。
- 英国广播公司的声音效果 - 英国广播公司声音效果数据集中有33,066个声音效果,并带有文本说明。类型:主要是环境声音。每个音频都有自然的文本描述。
- DCASE 2016 -DCASE 2016是声音事件检测的数据集。它由11个声音类中的每一个(来自Office环境,例如Clearthroat,Drawer或键盘)中的每个文件组成的每个文件,每个文件都包含20个简短的声音文件,每个文件都包含一个声音事件实例。声音文件在事件中和偏移时间带有注释,但是实际的物理声音之间的沉默(例如,手机铃声)没有标记,因此在事件中“包括”。
- 环境音频数据集 - 此页面试图维护适合环境音频研究的数据集列表。除了免费可用的数据集外,此处还列出了专有和商业数据集以备完整。除数据集外,页面末尾还列出了一些在线声音服务。
- ESC-50- ESC-50数据集是2000年环境音频录音的标签集,适用于基准测试环境声音分类的方法。它包括从自然,人类和家庭声音中的50个不同类别的2000个5S剪裁,再次从freesound.org绘制。
- Fair-Play- Fair-Play是一个视频Audio数据集,该数据集由1,871个视频剪辑及其相应的双耳音频剪辑组成,并在音乐室中录制。相同索引的视频剪辑和双耳剪辑大致对齐。
- FSD50K(FreeSound Database 50K)-FreeSound DataSet 50K(或简称FSD50K )是一个开放的人类标记的声音事件数据集,其中包含51,197个从Audioset本体学绘制的200个类中分布的51,197个自由剪辑。 FSD50K是在庞贝大学音乐技术集团创建的。它主要由身体声音和生产机制产生的声音事件组成,包括人类的声音,事物的声音,动物,自然声音,乐器等。
- FSDNOISY18K- FSDNOISY18K数据集是一个开放数据集,其中包含20个声音事件类别的42.5小时音频,包括少量手动标记的数据和大量的现实世界噪声数据。音频内容取自FreeSound,并使用FreeSound注释器策划数据集。 FSDNOISY18K的嘈杂集由15,813个音频剪辑(38.8h)组成,测试集由带有正确标签的947个音频夹(1.4h)组成。该数据集具有标签噪声的两种主要类型:唱机内(IV)和摄取量(OOV)。 iv适用于鉴于观察到的标签不正确或不完整,真实或缺失的标签是目标类集的一部分。类似地,OOV意味着这20个类并未涵盖真实或缺失的标签。
- 大惊小怪(免费的通用声音分离) - 自由通用声音分离(大惊小怪)数据集是一个任意声音混合物和源级参考的数据库,用于用于任意声音分离的实验。大惊小怪基于FSD50K语料库。
- inaturalist Sounds数据集 - 我们介绍了inaturalist Sounds数据集(Inatsounds),该数据集(Inatsounds)收集了230,000个音频文件,这些声音捕获了来自5500多种的声音,由全球27,000多名唱片人士贡献。
- 以情感意图敲击声音效果 - 该数据集是由专业的Foley艺术家Ulf Olausson在2019年10月15日在斯德哥尔摩的Foleyworks Studios上录制的。灵感来自先前关于敲门声音的工作。我们选择了在数据集中描绘的五种类型的情绪:愤怒,恐惧,幸福,中立和悲伤。
- MIMII-用于故障工业机器调查和检查(MIMII)的声音数据集(MIMII)是工业机器声音的声音数据集。
- Mivia音频事件数据集 - Mivia音频事件数据集由6000个事件组成,用于监视应用程序,即玻璃折断,枪支射击和尖叫。 6000事件分为训练集(组成4200个事件)和一个测试集(构成1800个事件)。
- 音调音频数据集(电涌合成器)-3.4小时,使用开源激增合成器合成的音频,该音频基于电涌套件中包含的2084个预设。这些代表``自然''合成声音---人类设计的IEPRESET。我们生成了4秒的样本在速度64上播放,持续时间为3秒。对于每个预设,我们只有在MIDI 21--108(大钢琴的范围)中变化。使用标准化软件包将数据集中的每个声音均归一化。没有优雅的方法来删除此数据集。但是,只有一小部分的预设(例如鼓和声音效应)没有感知的音高变化或订购。
- REMFX -REMFX:评估数据集。这些数据集最初来自Vocalset,Guitarset,DSD100和IDMT-SMT-DRUMS数据集,然后在我们的数据集生成脚本中处理。数据集根据所应用的效果数(0-5)命名。例如,2-2.zip包含2种应用于每个输入音频示例的效果。目标未触及。所应用的音频效果来自集合(失真,延迟,动态范围压缩机,相组,混响),并随机采样而无需替换每个示例。
- Soundcam-Soundcam,是迄今为止公开发布的野外房间中最大的独特RIR数据集。它包括5,000个10频道的现实世界,对房间冲动响应的测量和2,000个不同房间中的2,000张10频道录音,包括受控的声学实验室,野外客厅和一个带不同人类的会议室在每个房间的位置。
- Soundingearth-声明线由世界各地的共同定位的空中图像和音频样本组成。
- 空间LibrisPeech-空间库层是一个空间音频数据集,具有超过650个小时的一阶Ambisonics和可选的干扰器噪声(很快就会出现RAW 19通道音频)。空间LibrisPeech专为机器学习模型培训而设计,其中包括用于源位置,说话方向,房间声学和几何形状的标签。通过在8K+合成房间中增强具有200K+模拟声条件的Librispeech样品来生成空间librispeech。
- Starss22(Sony-Tau逼真的空间音景2022) - Sony-Tau逼真的空间景观2022(Starss22)数据集由用高频道计算符号捕获的真实场景组成,这些录音是由高通道计算机示例捕获的。录音是从两个不同地点的两个不同的团队进行的,分别是芬兰塔米尔的坦佩雷大学和日本东京的索尼设施。两个站点的记录共享相同的捕获和注释过程,以及一个类似的组织。
- ToyAdmos -ToyAdmos数据集是一种机器操作声音数据集,该数据集大约有540小时的普通机器操作声音和12,000多个用四个麦克风以48kHz采样率收集的异常声音,由Yuma Koizumi和NTT Media Intelligence Intelligence Laboratories中的成员准备了48kHz采样率。
- TUT Sound Events 2017- TUT Sound Events 2017数据集在街头环境中包含24个录音,并包含6个不同类别。这些课程是:刹车,汽车,孩子,大型车,人们说话和人行走。
- UrbanSound8K - Urban Sound 8K is an audio dataset that contains 8732 labeled sound excerpts (<=4s) of urban sounds from 10 classes: air_conditioner, car_horn, children_playing, dog_bark, drilling, enginge_idling, gun_shot, jackhammer, siren, and street_music.这些课程来自城市声音分类法。所有摘录均来自上传到www.freesound.org的现场记录。
- vgg-sound-大型视听数据集。 VGG-sound是一个视听通讯数据集,该数据集由简短的音频声音片段组成,这些声音从上传到YouTube的视频中提取。
- 视觉上指示的声音 - 材料被击中或刮伤时会发出独特的声音 - 污垢会敲响;陶瓷使叮当声。这些声音揭示了物体材料属性的各个方面,以及物理相互作用的力和运动。
^回到目录 ^