Наборы аудиоданных AI (AI-ADS)?
Наборы аудиоданных AI (AI-ADS) — включая речь, музыку и звуковые эффекты, которые могут предоставлять обучающие данные для генеративного искусственного интеллекта, AIGC, обучения моделей искусственного интеллекта, разработки интеллектуальных аудиоинструментов и аудиоприложений.
Оглавление
- Речь
- Музыка
- Звуковой эффект
Список проектов
Речь
- AISHELL-1 — AISHELL-1 — это корпус для исследований в области распознавания речи и создания систем распознавания речи для китайского языка.
- AISHELL-3 — AISHELL-3 — это крупномасштабный и высококачественный корпус речи на китайском языке с несколькими динамиками, выпущенный компанией Beijing Shell Shell Technology Co.,Ltd. Его можно использовать для обучения систем преобразования текста в речь (TTS) с несколькими динамиками. Корпус содержит около 85 часов эмоционально-нейтральных записей, произнесенных 218 носителями китайского языка, говорящих на китайском языке, и в общей сложности 88035 высказываний.
- Корпус арабской речи. Корпус арабской речи (1,5 ГБ) представляет собой речевой корпус современного стандартного арабского языка (MSA) для синтеза речи. Корпус содержит фонетические и орфографические транскрипции более 3,7 часов речи MSA, согласованные с записанной речью на фонемном уровне. Аннотации включают в себя знаки ударения на отдельных фонемах.
- AudioMNIST — набор данных состоит из 30 000 аудиосэмплов произносимых цифр (0–9) 60 различных говорящих.
- AVSpeech — AVSpeech — это крупномасштабный набор аудиовизуальных данных, содержащий речевые фрагменты без мешающих фоновых сигналов. Сегменты имеют разную длину, от 3 до 10 секунд, и в каждом клипе единственное видимое лицо в видео и слышимый звук в саундтреке принадлежат одному говорящему человеку. В общей сложности набор данных содержит около 4700 часов видеосегментов с участием примерно 150 000 различных говорящих, охватывающих самые разные люди, языки и позы лиц.
- ATIS (Информационные системы для авиаперевозок) — ATIS (Информационные системы для авиаперелетов) представляет собой набор данных, состоящий из аудиозаписей и соответствующих ручных расшифровок о том, как люди запрашивают информацию о рейсах в автоматизированных системах запроса поездок авиакомпаний. Данные состоят из 17 уникальных категорий намерений. Исходное разделение содержит 4478, 500 и 893 эталонных высказывания с метками намерений в наборах для обучения, разработки и тестирования соответственно.
- Набор данных Carnatic Varnam - Набор данных Carnatic Varnam представляет собой коллекцию из 28 сольных вокальных записей, записанных для нашего исследования интонационного анализа карнатических раг. Коллекция состоит из аудиозаписей, синхронизированных по времени аннотаций цикла тала и нотаций свары в машиночитаемом формате.
- Случайные разговоры. Набор данных «Казуальные разговоры» предназначен для того, чтобы помочь исследователям оценить точность своих компьютерных зрительных и аудиомоделей в зависимости от возраста, пола, видимого оттенка кожи и условий окружающего освещения.
- CN-Celeb — CN-Celeb — это крупномасштабный набор данных по распознаванию говорящих, собранный «в дикой природе». Этот набор данных содержит более 130 000 высказываний 1000 китайских знаменитостей и охватывает 11 различных жанров реального мира.
- Clotho — Clotho — это набор данных аудиосубтитров, состоящий из 4981 аудиосэмпла, каждый аудиосэмпл имеет пять субтитров (всего 24 905 субтитров). Аудиосэмплы имеют продолжительность от 15 до 30 секунд, а субтитры — от 8 до 20 слов.
- Common Voice — Common Voice — это набор аудиоданных, состоящий из уникального MP3 и соответствующего текстового файла. В наборе данных 9283 записанных часа. Набор данных также включает демографические метаданные, такие как возраст, пол и акцент. Набор данных состоит из 7335 проверенных часов на 60 языках.
- CoVoST — CoVoST — это крупномасштабный многоязычный корпус перевода речи в текст. Его последняя вторая версия охватывает переводы с 21 языка на английский и с английского на 15 языков. Всего он имеет 2880 часов речи и дополнен 78 тысячами динамиков и 66 акцентами.
- CVSS — CVSS — это массивный многоязычный корпус перевода речи в речь (S2ST), охватывающий параллельные пары S2ST на уровне предложений с 21 языка на английский. CVSS создан на основе речевого корпуса Common Voice и корпуса преобразования речи в текст (ST) CoVoST 2 путем синтеза текста перевода из CoVoST 2 в речь с использованием современных систем TTS.
- EasyCom — набор данных Easy Communications (EasyCom) — это первый в мире набор данных, разработанный, чтобы помочь смягчить эффект коктейльной вечеринки из-за мультисенсорного эгоцентрического взгляда на мир, мотивированного дополненной реальностью (AR). Набор данных содержит звук эгоцентрического многоканального микрофонного массива в очках AR, RGB-видео с широким полем обзора, позу источника речи, звук микрофона гарнитуры, аннотированную голосовую активность, транскрипцию речи, ограничивающие рамки головы и лица и метки идентификации источника. Мы создали и публикуем этот набор данных, чтобы облегчить исследование мультимодальных AR-решений проблемы коктейльных вечеринок.
- Emilia. Набор данных Emilia представляет собой комплексный многоязычный ресурс, включающий более 101 000 часов речевых данных на шести разных языках: английском (En), китайском (Zh), немецком (De), французском (Fr), японском (Ja) и корейском. (Ко). Он содержит разнообразные речевые данные, представляющие различные стили речи с многочисленных видеоплатформ и подкастов в Интернете, охватывающие широкий спектр жанров контента, таких как ток-шоу, интервью, дебаты, спортивные комментарии и аудиокниги.
- ESD (база данных эмоциональной речи) — ESD — это база данных эмоциональной речи для исследований преобразования голоса. База данных ESD состоит из 350 параллельных высказываний, произнесенных 10 носителями английского языка и 10 носителями китайского языка, и охватывает 5 категорий эмоций (нейтральные, счастливые, злые, грустные и удивленные). Более 29 часов речевых данных были записаны в контролируемой акустической среде. База данных подходит для исследований преобразования эмоционального голоса с участием нескольких говорящих и кросс-язычных.
- FPT Open Speech Dataset (FOSD). Этот набор данных состоит из 25 921 записанной речи на вьетнамском языке (с ее стенограммами и помеченными временами начала и окончания каждой речи), собранных вручную из трех субнаборов данных (всего около 30 часов), опубликованных публично в 2018 году. Корпорация ФПТ.
- Free Spoken Digit Dataset (FSDD) — бесплатный набор аудиоданных произнесенных цифр. Подумайте о MNIST для аудио. Простой набор аудио/речевых данных, состоящий из записей произнесенных цифр в файлах WAV с частотой 8 кГц. Записи обрезаются так, чтобы в начале и конце была минимальная тишина.
- Команды Fluent Speech — Команды Fluent Speech — это набор аудиоданных с открытым исходным кодом для экспериментов по распознаванию разговорной речи (SLU). Каждое высказывание помечается значениями «действие», «объект» и «местоположение»; например, «включить свет на кухне» имеет метку {»действие»: «активировать», «объект»: «свет», «локация»: «кухня»}. Модель должна предсказывать каждое из этих значений, а прогноз высказывания считается правильным только в том случае, если все значения верны.
- Наборы данных Genshin — Наборы данных Genshin для SVC/SVS/TTS.
- GenshinVoice — набор голосовых данных Genshin Impact 原神语音数据集
- GigaSpeech — GigaSpeech, развивающийся многодоменный корпус распознавания английской речи, содержащий 10 000 часов высококачественного маркированного звука, подходящего для контролируемого обучения, и 40 000 часов общего аудио, подходящего для полуконтролируемого и неконтролируемого обучения.
- GigaSpeech 2 — развивающийся крупномасштабный многодоменный корпус ASR для языков с ограниченными ресурсами с автоматическим сканированием, транскрипцией и уточнением.
- How2 — набор данных How2 содержит 13 500 видеороликов или 300 часов выступлений и разделен на 185 187 обучающих, 2022 разработок (разработка) и 2 361 тестовых высказываний. Он имеет субтитры на английском языке и краудсорсинговый перевод на португальский язык.
- inaGVAD — сложный набор данных французского телевидения и радио, снабженный аннотациями для обнаружения голосовой активности (VAD) и гендерной сегментации говорящих (SGS), со сценариями оценки и подробной схемой аннотаций, подробно описывающей тип неречевых событий, характеристики говорящего и качество речи.
- KdConv — KdConv — это китайский многодоменный набор данных конверсий, основанных на знаниях, который объединяет темы многоходовых разговоров в графики знаний. KdConv содержит 4,5 тыс. разговоров из трех областей (кино, музыка и путешествия) и 86 тыс. высказываний со средним числом поворотов 19,0. Эти беседы содержат углубленные обсуждения связанных тем и естественный переход между несколькими темами, а корпус также можно использовать для изучения трансферного обучения и адаптации предметной области.
- Libriheavy - Libriheavy: корпус ASR объемом 50 000 часов со знаками препинания и контекстом.
- LibriSpeech. Корпус LibriSpeech представляет собой коллекцию из примерно 1000 часов аудиокниг, которые являются частью проекта LibriVox. Большинство аудиокниг взято из проекта «Гутенберг». Данные обучения разделены на 3 раздела по 100, 360 и 500 часов, а данные разработки и тестирования разделены на «чистые» и «прочие» категории соответственно, в зависимости от того, насколько хорошо или сложно будут работать системы автоматического распознавания речи. . Продолжительность аудиозаписи каждого набора для разработки и тестирования составляет около 5 часов.
- LibriTTS — LibriTTS — это корпус английского языка с несколькими носителями, содержащий примерно 585 часов чтения английской речи с частотой дискретизации 24 кГц, подготовленный Хейгой Дзен при содействии членов команд Google Speech и Google Brain. Корпус LibriTTS предназначен для исследований TTS. Он создан на основе оригинальных материалов (аудиофайлов в формате mp3 из LibriVox и текстовых файлов из Project Gutenberg) корпуса LibriSpeech.
- LibriTTS-R - LibriTTS-R: восстановленный корпус преобразования текста в речь с несколькими динамиками. Он получен путем применения восстановления речи к корпусу LibriTTS, который состоит из 585 часов речевых данных с частотой дискретизации 24 кГц от 2456 говорящих и соответствующих текстов. Составляющие сэмплы LibriTTS-R идентичны сэмплам LibriTTS, только улучшено качество звука.
- LJSpeech (Набор речевых данных LJ) — это общедоступный набор речевых данных, состоящий из 13 100 коротких аудиоклипов, в которых один динамик читает отрывки из 7 научно-популярных книг. Транскрипция предоставляется для каждого клипа. Ролики различаются по продолжительности от 1 до 10 секунд и имеют общую продолжительность около 24 часов. Тексты были опубликованы между 1884 и 1964 годами и находятся в свободном доступе. Аудио было записано в 2016–2017 годах проектом LibriVox и также находится в свободном доступе.
- LRS2 (Предложения для чтения по губам 2). Набор данных Oxford-BBC «Предложения для чтения по губам 2» (LRS2) является одним из крупнейших общедоступных наборов данных для предложений для чтения по губам в дикой природе. База данных состоит в основном из новостей и ток-шоу из программ BBC. Каждое предложение имеет длину до 100 символов.
- LRW (Чтение по губам в дикой природе) — набор данных «Чтение по губам в дикой природе» (LRW), крупномасштабная аудиовизуальная база данных, содержащая 500 различных слов от более чем 1000 говорящих. Каждое высказывание состоит из 29 кадров, граница которых сосредоточена вокруг целевого слова. База данных разделена на обучающие, проверочные и тестовые наборы. Обучающий набор содержит не менее 800 высказываний для каждого класса, а проверочный и тестовый наборы содержат по 50 высказываний.
- MuAViC — многоязычный аудиовизуальный корпус для надежного распознавания речи и надежного перевода речи в текст.
- MuST-C. MuST-C в настоящее время представляет собой крупнейший общедоступный многоязычный корпус (один ко многим) для перевода речи. Он охватывает восемь языковых направлений: от английского до немецкого, испанского, французского, итальянского, голландского, португальского, румынского и русского. Корпус состоит из аудио, транскрипций и переводов выступлений TED на английском языке и включает заранее определенное разделение на обучение, проверку и тестирование.
- MetaQA (MoviE Text Audio QA). Набор данных MetaQA состоит из онтологии фильма, полученной из набора данных WikiMovies, и трех наборов пар вопрос-ответ, написанных на естественном языке: запросы с 1 переходом, 2 шага и 3 шага.
- MELD (Мультимодальный набор данных EmotionLines) — Мультимодальный набор данных EmotionLines (MELD) был создан путем улучшения и расширения набора данных EmotionLines. MELD содержит те же экземпляры диалогов, что и EmotionLines, но помимо текста он также включает в себя аудио- и визуальную модальность. В MELD более 1400 диалогов и 13000 высказываний из сериала «Друзья». В диалогах приняли участие несколько спикеров. Каждое высказывание в диалоге было отмечено любой из этих семи эмоций: гневом, отвращением, грустью, радостью, нейтральностью, удивлением и страхом. MELD также имеет аннотацию настроений (положительных, отрицательных и нейтральных) для каждого высказывания.
- Microsoft Speech Corpus (индийские языки) — выпуск Microsoft Speech Corpus (индийские языки) содержит данные для тренировки разговорной и фразовой речи, а также тестовые данные для телугу, тамильского и гуджаратского языков. Пакет данных включает в себя аудио и соответствующие расшифровки. Данные, представленные в этом наборе данных, не будут использоваться в коммерческих целях. Вы можете использовать данные исключительно в исследовательских целях. Если вы публикуете свои выводы, вы должны указать следующую ссылку: «Данные предоставлены Microsoft и SpeechOcean.com».
- PATS (стиль расшифровки аудио позы) — набор данных PATS состоит из разнообразного и большого количества согласованных поз, аудио и расшифровок. С помощью этого набора данных мы надеемся предоставить эталон, который поможет разработать технологии для виртуальных агентов, генерирующих естественные и релевантные жесты.
- RealMAN — RealMAN: набор данных массива микрофонов с записью в реальном времени и аннотациями для динамического улучшения и локализации речи.
- SAVEE (Surrey Audio-Visual Expressed Emotion) — набор данных Surrey Audio-Visual Expressed Emotion (SAVEE) был записан в качестве предварительного условия для разработки системы автоматического распознавания эмоций. База данных состоит из записей 4 актеров-мужчин с 7 различными эмоциями, всего 480 высказываний на британском английском языке. Предложения были выбраны из стандартного корпуса TIMIT и фонетически сбалансированы для каждой эмоции.
- SoS_Dataset — Звук истории: мультимодальное повествование с аудио. В реальном мире рассказывание историй является мультимодальным. Когда кто-то рассказывает историю, он может использовать все визуализации и звуки вместе с самой историей. Однако предыдущие исследования наборов данных и задач по рассказыванию историй мало обращали внимания на звук, хотя звук также передает значимую семантику истории. Поэтому мы предлагаем расширить области понимания и повествования истории, создав новый компонент, называемый «фоновым звуком», который представляет собой звук, основанный на контексте истории, без какой-либо лингвистической информации.
- Коллекция наборов речевых данных — это тщательно подобранный список открытых наборов речевых данных для исследований, связанных с речью (в основном для автоматического распознавания речи). В этом хранилище собрано более 110 наборов речевых данных, и более 70 наборов данных можно загрузить напрямую без дальнейшего применения или регистрации.
- Генератор набора речевых данных — Генератор набора речевых данных предназначен для создания наборов данных, подходящих для обучения моделей преобразования текста в речь или речи в текст. Основная функциональность включает расшифровку аудиофайлов, улучшение качества звука при необходимости и создание наборов данных.
- 3D-Speaker-Datasets — крупномасштабный набор аудиоданных человеческой речи, рассчитанный на несколько устройств, на несколько расстояний и на несколько диалектов.
- TED-LIUM — Аудиотранскрипция выступления TED. 1495 аудиозаписей выступлений TED, а также полнотекстовые транскрипции этих записей, созданные Лабораторией информатики Университета штата Мэн (LIUM).
- Корпус аудиозаголовков Flickr. Корпус аудиозаголовков Flickr 8k содержит 40 000 речевых подписей к 8 000 естественных изображений. Он был собран в 2015 году для исследования схем мультимодального обучения для обнаружения речевых моделей без присмотра.
- The People's Speech — The People's Speech — это бесплатный для скачивания 30 000-часовой и постоянно растущий контролируемый набор данных для распознавания разговорной английской речи, лицензированный для академического и коммерческого использования в соответствии с CC-BY-SA (с подмножеством CC-BY). Данные собираются путем поиска в Интернете лицензированных соответствующим образом аудиоданных с существующими транскрипциями.
- The Spoken Wikipedia Corpora — проект Spoken Wikipedia, объединяющий добровольных читателей статей Википедии. Сотни устных статей на нескольких языках доступны пользователям, которые по той или иной причине не могут или не хотят использовать письменную версию статьи.
- TIMIT — Акустически-фонетический корпус непрерывной речи DARPA TIMIT.
- tts-frontend-dataset — набор данных TTS FrontEnd: Polyphone/Prosody/TextNormalization.
- VoxCeleb2 — VoxCeleb2 — это крупномасштабный набор данных для распознавания говорящих, автоматически полученный из носителей с открытым исходным кодом. VoxCeleb2 состоит из более миллиона высказываний от более чем 6 тысяч говорящих. Поскольку набор данных собирается «в естественных условиях», сегменты речи искажаются реальным шумом, включая смех, перекрестные помехи, эффекты каналов, музыку и другие звуки. Набор данных также является многоязычным: речь идет от носителей 145 разных национальностей, охватывающих широкий спектр акцентов, возрастов, этнических групп и языков.
- VoxConverse — VoxConverse — это аудиовизуальный набор данных диаризации, состоящий из фрагментов человеческой речи, произнесенных несколькими динамиками, извлеченных из видеороликов YouTube.
- VoxLingua107 - VoxLingua107 представляет собой набор данных для распознавания разговорной речи продолжительностью 6628 часов (в среднем 62 часа на каждый язык) и сопровождается оценочным набором из 1609 проверенных высказываний.
- VoxPopuli — VoxPopuli — это крупномасштабный многоязычный корпус, предоставляющий 100 тысяч часов неразмеченных речевых данных на 23 языках. На сегодняшний день это крупнейшие открытые данные для обучения представлению без учителя, а также для обучения с полуконтролем. VoxPopuli также содержит 1,8 тыс. часов расшифровок выступлений на 16 языках и их согласованных устных переводов на 5 других языков общей продолжительностью 5,1 тыс. часов.
- VoxForge — VoxForge — это открытый набор речевых данных, который был настроен для сбора транскрибированной речи для использования с бесплатными и открытыми системами распознавания речи (в Linux, Windows и Mac).
- VocalSound — VocalSound — это бесплатный набор данных, состоящий из 21 024 краудсорсинговых записей смеха, вздохов, кашля, покашливания, чихания и фырканья от 3365 уникальных субъектов. Набор данных VocalSound также содержит метаинформацию, такую как возраст говорящего, пол, родной язык, страна и состояние здоровья.
- VoiceBank + DEMAND — VoiceBank+DEMAND — это база данных шумной речи для обучения алгоритмам улучшения речи и моделям TTS. База данных была разработана для обучения и тестирования методов улучшения речи, работающих на частоте 48 кГц. Более подробное описание можно найти в документе, связанном с базой данных.
- WaveFake — WaveFake — это набор данных для обнаружения дипфейков в аудио. Набор данных состоит из крупномасштабного набора данных, содержащего более 100 тысяч сгенерированных аудиоклипов.
- WenetSpeech — WenetSpeech — это многодоменный корпус мандаринского языка, состоящий из более 10 000 часов высококачественной размеченной речи, более 2400 часов слаборазмеченной речи и около 10 000 часов неразмеченной речи, всего более 22 400 часов. Авторы собрали данные с YouTube и Podcast, которые охватывают различные стили речи, сценарии, области, темы и шумные условия. Введен метод, основанный на оптическом распознавании символов (OCR), для генерации кандидатов на сегментацию аудио/текста для данных YouTube в соответствующих субтитрах к видео.
- WSJ0-2mix — WSJ0-2mix — это корпус речевых смесей для распознавания речи, использующий высказывания из корпуса Wall Street Journal (WSJ0).
- БАМ! (WSJ0 Hipster Ambient Mixtures) — набор данных WSJ0 Hipster Ambient Mixtures ( WHAM! ) объединяет каждую смесь двух динамиков в наборе данных wsj0-2mix с уникальной шумовой фоновой сценой. Шумовой звук был собран в различных городских районах района залива Сан-Франциско в конце 2018 года. В основном это рестораны, кафе, бары и парки. Звук был записан с помощью бинаурального микрофона Apogee Sennheiser, установленного на штативе на высоте от 1,0 до 1,5 метров над землей.
- YODAS — это подмножество ручного/автоматического режима YODAS из нашего набора данных YODAS, в нем 369 510 часов речи. Этот набор данных содержит аудиовысказывания и соответствующие субтитры (вручную или автоматические) с YouTube. Обратите внимание, что подпись, созданная вручную, указывает только на то, что она загружена пользователями, но не обязательно расшифрована человеком.
- YODAS2 — YODAS2 — это длинный набор данных из набора данных YODAS. Он предоставляет тот же набор данных, что и espnet/yodas, но YODAS2 имеет следующие новые функции: 1. форматирование в длинной форме (на уровне видео), где аудио не сегментируется. 2. аудио кодируются с использованием более высоких частот дискретизации (т. е. 24k).
- YTTTS. Набор данных преобразования текста в речь YouTube состоит из аудиосигналов, извлеченных из видеороликов YouTube, а также их английских транскрипций.
^ Вернуться к содержанию ^
Музыка
- AAM: Набор данных многодорожечных искусственных аудио. Этот набор данных содержит 3000 звуковых дорожек искусственной музыки с богатыми аннотациями. Он основан на реальных образцах инструментов и создан путем алгоритмической композиции с учетом теории музыки. Он предоставляет полные миксы песен, а также треки с отдельными инструментами. Также доступны миди, используемые для генерации. Файлы аннотаций включают в себя: начала, высоту тона, инструменты, тональности, темпы, сегменты, мелодический инструмент, доли и аккорды.
- Acappella - Acappella включает около 46 часов видео сольного пения а капелла, взятых с YouTube и отобранных разными певцами и на разных языках. Рассматриваются четыре языка: английский, испанский, хинди и другие.
- ДОБАВИТЬ: audio-dataset-downloader — простой скрипт Python CLI для загрузки N часов аудио с Youtube на основе списка музыкальных жанров.
- ADL Piano MIDI — ADL Piano MIDI представляет собой набор данных из 11 086 фортепианных пьес разных жанров. Этот набор данных основан на наборе данных Lakh MIDI, который представляет собой коллекцию из 45 129 уникальных MIDI-файлов, сопоставленных с записями в наборе данных Million Song.
- Согласованные партитуры и исполнения (ASAP). ASAP представляет собой набор данных согласованных музыкальных партитур (как MIDI, так и MusicXML) и исполнений (аудио и MIDI), все с аннотациями мрачных долей, тактов, тактового размера и тональностей.
- Аннотированный набор данных арий Цзинджу - Аннотированный набор данных арий Цзинджу представляет собой коллекцию из 34 арий Цзинджу, сегментированных вручную на различных уровнях с помощью программного обеспечения Praat. Отобранные арии содержат образцы двух основных шэнцян в цинджу, а именно сипи и эрхуан, а также пяти основных ролевых типов с точки зрения пения, а именно: дань, цзин, лаодань, лаошэн и сяошэн. Набор данных формируется из файлов Praat TextGrid для каждой арии, содержащих уровни для следующей информации: ария, идентификатор MusicBrainz, исполнитель, школа, тип роли, шэнцян, банши, строка текста, слоги и образцы ударных инструментов.
- Bach Doodle — набор данных Bach Doodle состоит из 21,6 миллиона гармонизаций, представленных из Bach Doodle. Набор данных содержит как метаданные о композиции (например, страну происхождения и обратную связь), так и MIDI введенной пользователем мелодии и MIDI сгенерированной гармонизации. Набор данных содержит музыку, введенную пользователем за последние 6 лет.
- Набор данных для скрипки Баха — коллекция высококачественных публичных записей сонат и партит Баха для скрипки соло (BWV 1001–1006).
- Набор данных Batik-plays-Mozart. Набор данных Batik-plays-Mozart представляет собой набор данных по исполнению на фортепиано, содержащий 12 полных фортепианных сонат Моцарта (36 различных частей), исполненных на рояле Bösendorfer с компьютерным контролем венского концертирующего пианиста Роланда Батика. Исполнения предоставляются в формате MIDI (соответствующие аудиофайлы имеются в продаже) и соответствуют уровням нот партитурам в New Mozart Edition в MusicXML, а также музыковедческим аннотациям по гармонии, каденции и фразам, ранее опубликованным в «Аннотированных сонатах Моцарта».
- Набор данных ударных инструментов Пекинской оперы. Набор данных ударных инструментов Пекинской оперы представляет собой набор из 236 примеров изолированных ударов, охватывающих четыре класса ударных инструментов, используемых в Пекинской опере. Его можно использовать для построения моделей ударов для каждого ударного инструмента.
- Набор данных о моделях перкуссии Пекинской оперы. Набор данных о моделях перкуссии Пекинской оперы (BOPP) представляет собой набор из 133 звуковых образцов перкуссии, охватывающих пять классов образцов. Набор данных включает в себя транскрипции шаблонов на уровне аудио и слогов (не выровненные по времени). Это полезно для задач перкуссионной транскрипции и классификации. Паттерны были извлечены из аудиозаписей арий и промаркированы музыковедом.
- BiMMuDa — набор данных мелодической музыки Billboard (BiMMuDa) — это набор MIDI-данных основных мелодий пяти лучших синглов из годового чарта синглов Billboard за каждый год с 1950 по 2022 год. В этом репозитории хранятся набор данных, а также его метаданные. и приложения.
- CAL500 (Computer Audition Lab 500) — CAL500 (Computer Audition Lab 500) — это набор данных, предназначенный для оценки систем поиска музыкальной информации. Он состоит из 502 песен, выбранных из западной популярной музыки. Звук представлен как временной ряд первых 13 кепстральных коэффициентов Mel-частоты (а также их первой и второй производных), извлеченных путем сдвига полуперекрывающегося кратковременного окна длительностью 12 мс по форме волны каждой песни.
- Набор данных о музыкальных ритмах Carnatic. Набор данных о музыкальных ритмах Carnatic представляет собой подколлекцию из 176 отрывков (16,6 часов) из четырех таал музыки Carnatic со звуком, соответствующими метаданными, связанными с талой, и маркерами, выровненными по времени, указывающими продвижение по циклам тала. Он полезен в качестве тестового корпуса для многих задач автоматического анализа ритма в музыке Карнатика.
- CCMixter — CCMixter — это набор данных разделения певческого голоса, состоящий из 50 полноформатных стереотреков от ccMixter, представляющих множество различных музыкальных жанров. Для каждой песни доступны три WAV-файла: фоновая музыка, голосовой сигнал и их сумма.
- ChMusic — ChMusic — это традиционный китайский музыкальный набор данных для обучения модели и оценки эффективности распознавания музыкальных инструментов. Этот набор данных охватывает 11 музыкальных инструментов, в том числе эрху, пипа, саньсянь, дизи, суона, чжуйцинь, чжунжуань, люцинь, гучжэн, янцинь и шэн.
- chongchong-free - Chongchong Piano Downloader - это программное обеспечение для бесплатной загрузки партитуры Chongchong, которое позволяет получить ссылку на партитуру, проанализировать ее содержание и экспортировать файл.
- ComMU — ComMU содержит 11 144 MIDI-сэмплов, которые состоят из коротких последовательностей нот, созданных профессиональными композиторами, с соответствующими 12 метаданными. Этот набор данных предназначен для новой задачи — комбинаторной генерации музыки, которая генерирует разнообразную и высококачественную музыку только с метаданными с помощью авторегрессионной языковой модели.
- CoSoD — CoSoD состоит из метаданных и аналитических данных корпуса из 331 песни, включающего все совместные работы нескольких артистов в чартах Billboard «Hot 100» на конец года, опубликованных в период с 2010 по 2019 год. Каждая песня в наборе данных связана с двумя CSV-файлами: один для метаданных и один для аналитических данных.
- DALI - DALI: большой набор данных синхронизированных аудио, текстов и вокальных нот.
- DadaGP — DadaGP — это новый набор символических музыкальных данных, содержащий 26 181 партитуру песен в формате GuitarPro, охватывающую 739 музыкальных жанров, а также сопутствующий токенизированный формат, хорошо подходящий для моделей генеративных последовательностей, таких как Transformer. Токенизированный формат основан на MIDI-кодировании на основе событий, часто используемом в моделях символической генерации музыки. Набор данных поставляется с кодировщиком/декодером, который преобразует файлы GuitarPro в токены и обратно.
- DeepScores — синтетический набор данных из 300 000 аннотированных изображений написанной музыки для классификации объектов, семантической сегментации и обнаружения объектов. На основе большого набора документов MusicXML, полученных от MuseScore, используется сложный конвейер для преобразования исходного кода в файлы LilyPond, для которых LilyPond используется для гравировки и аннотирования изображений.
- dMelodies — dMelodies — это набор данных простых двухтактовых мелодий, созданных с использованием 9 независимых скрытых факторов вариации, где каждая точка данных представляет собой уникальную мелодию на основе следующих ограничений: — Каждая мелодия будет соответствовать уникальной гамме (мажор, минор, блюз и т. д.). .). - Каждая мелодия воспроизводится арпеджио, используя стандартный образец аккордов I-IV-VI. - В такте 1 воспроизводятся первые 2 аккорда (6 нот), в такте 2 — вторые 2 аккорда (6 нот). - Каждая сыгранная нота является восьмой.
- DISCO-10M — DISCO-10M — это набор музыкальных данных, созданный для демократизации исследований крупномасштабных моделей машинного обучения для музыки.
- Дизи - Дизи представляет собой набор музыкальных стилей Северной школы и Южной школы. Характеристики включают в себя деконструкцию мелодии и техники игры двух разных музыкальных стилей.
- DreamSound — в последнее время модели генерации текста в музыку достигли беспрецедентных результатов в синтезе высококачественных и разнообразных музыкальных сэмплов из заданной текстовой подсказки. Несмотря на эти достижения, остается неясным, как можно создавать персонализированные, специфичные для пользователя музыкальные концепции, манипулировать ими и комбинировать их с существующими. Вдохновленные литературой по компьютерному зрению, мы исследуем преобразование текста в музыку, изучая два признанных метода, а именно текстовую инверсию и Dreambooth. Используя количественные показатели и исследование пользователей, мы оцениваем их способность реконструировать и модифицировать новые музыкальные концепции, используя всего несколько образцов. Наконец, мы предоставляем новый набор данных и предлагаем протокол оценки для этой новой задачи.
- EMOPIA — мультимодальный набор данных для поп-фортепиано для распознавания эмоций и создания музыки на основе эмоций. Набор данных EMOPIA (произносится как «йи-мо-пи-ух») представляет собой общую мультимодальную (аудио и MIDI) базу данных, ориентированную на воспринимаемые эмоции в поп-фортепианной музыке и предназначенную для облегчения исследования различных задач, связанных с музыкальными эмоциями. Набор данных содержит 1087 музыкальных клипов из 387 песен и метки эмоций на уровне клипов, аннотированные четырьмя специальными аннотаторами.
- ErhuPT (набор данных о технике игры на эрху) — этот набор данных представляет собой набор аудиоданных, содержащий около 1500 аудиоклипов, записанных несколькими профессиональными музыкантами.
- FiloBass — исследование джазовых бас-линий на основе наборов данных и корпусов. FiloBass: новый сборник партитур и аннотаций, в котором основное внимание уделяется важной, но часто упускаемой из виду роли контрабаса в джазовом аккомпанементе. Вдохновленные недавней работой, проливающей свет на роль солиста, мы предлагаем коллекцию из 48 проверенных вручную транскрипций профессиональных джазовых басистов, содержащую более 50 000 нотных событий, основанных на минусовках, используемых в наборе данных FiloSax. Для каждой записи мы предоставляем звуковые основы, партитуры, MIDI-файлы, соответствующие исполнению, и связанные с ними метаданные для долей, сильных долей, символов аккордов и маркеров музыкальной формы.
- В поисках Тори - В поисках Тори: самостоятельное обучение анализу корейской народной песни. мы представляем компьютерный анализ набора данных полевых записей, состоящего примерно из 700 часов корейских народных песен, которые были записаны примерно в 1980-90-х годах.
- FMA — Бесплатный музыкальный архив (FMA) — это крупномасштабный набор данных для оценки нескольких задач по поиску музыкальной информации. Он состоит из 343 дней аудиозаписи из 106 574 треков от 16 341 исполнителя и 14 854 альбомов, организованных в иерархическую таксономию из 161 жанра. Он обеспечивает полноценный и высококачественный звук, предварительно рассчитанные функции, а также метаданные на уровне трека и пользователя, теги и текст в свободной форме, например биографии.
- GiantMIDI-Piano — GiantMIDI-Piano — это набор MIDI-данных для классического фортепиано, содержащий 10 855 MIDI-файлов 2786 композиторов. Курируемое подмножество с ограничением фамилий композиторов содержит 7236 MIDI-файлов 1787 композиторов.
- Groove (набор MIDI-данных Groove) — набор MIDI-данных Groove (GMD) состоит из 13,6 часов согласованных MIDI и (синтезированных) аудио выразительных ударных, исполняемых человеком и выровненных по темпу. Набор данных содержит 1150 MIDI -файлов и более 22 000 показателей барабанов.
- Gtsinger - Gtsinger: глобальное многотехнологичное пение с реалистичными музыкальными оценками для всех задач пою. Мы представляем Gtsinger, крупный глобальный, многотехнологичный, бесплатный, высококачественный поющий корпус с реалистичными музыкальными оценками, предназначенным для всех задач пения, наряду с его критериями.
- Guitarset - Guitarset: набор данных для гитарной транскрипции.
- Набор данных Music Rhythm Hindustani - Набор данных Music Rhythm Hindustani представляет собой субболь 151 (5 часов) в четырех даалах музыки Hindustani с аудио, связанными связанными с таал метаданные и маркеры, указывающие на прогрессию через циклы TAAL. Набор данных полезен в качестве тестового корпуса для многих задач автоматического анализа ритма в музыке Hindustani.
- HUMTRANS - Набор данных также может служить основой для нисходящих задач, таких как гриппа, генерация музыки на основе мелодий. Он состоит из 500 музыкальных композиций разных жанров и языков, причем каждая композиция разделена на несколько сегментов. В общей сложности набор данных включает 1000 музыкальных сегментов. Чтобы собрать этот набор данных, мы наняли 10 студентов колледжа, все из которых либо являются музыкальными специалистами, либо опытными в игре хотя бы на одном музыкальном инструменте. Каждый из них дважды напекал каждый сегмент, используя интерфейс веб -записи, предоставленный нашим разработанным веб -сайтом. Копечные записи были отобраны на частоте 44 100 Гц.
- Индийская художественная музыка Tonic Dataets - Этот набор данных включает в себя 597 коммерчески доступных аудио музыкальных записей индийской художественной музыки (Hindustani и Carnatic Music), каждая из которых вручную аннотирована с тонией ведущего исполнителя. Этот набор данных используется в качестве тестового корпуса для разработки подходов к тонической идентификации.
- Джазовая гармония Treebank - Этот репозиторий содержит джазовую гармонию Treebank, корпус иерархического гармонического анализа последовательностей джазовых аккордов, отобранных из корпуса Irealpro, опубликованного на zenodo Shanahan et al.
- Jazznet - Jazznet: набор данных фундаментальных фортепианных узоров для исследований музыкального аудио -машинного обучения. В этом документе представлена набор данных Jazznet, набор данных фундаментальных джазовых фортепианных музыкальных узоров для разработки алгоритмов машинного обучения (ML) в поиске музыки (MIR). Набор данных содержит 162520, помеченные для фортепианных шаблонов, включая аккорды, арпеджио, масштаб и хорды с их инверсиями, что приводит к более чем 26 тысячам часов звука и общему размеру 95 ГБ.
- Jingju A Cappella Singing Contour Datourtound Contour Datous - Jingju A Cappella Singing Contour Datourset - это коллекция сегмента контура высоты тона для 39 jingju a cappella singing recorings. Набор данных включает в себя основную истину для (1) мелодичной транскрипции, (2) сегментации контура высоты тона. Это полезно для задач сегментации мелодической транскрипции и контуров высоты. Контуры высоты тона были извлечены из аудиозаписей и вручную корректированы и сегментированы музыкологом.
- Коллекция Music Rates Music - это коллекция из 92 музыки Jingju, собравшихся для анализа пения Jingju с точки зрения ее музыкальной системы. Они были расшифрованы из своих оригинальных печатных источников в читабельный формат машины, используя Musescore и экспортируя их в MusicXML.
- JS Fake Chorales - набор данных MIDI из 500 хорал с 4 частями, сгенерированные алгоритмом KS_CHORUS, аннотированный с результатами сотен участников прослушивания, с 300 еще без аннотированных хорал.
- LAION-DISCO-12M-Набор данных LAION-DISCO-12M содержит 12 млн ссылок на музыку на YouTube, вдохновленную методологией DISCO-10M. Начиная с начального списка семян артистов, мы можем открыть для себя новых артистов, рекурсивно исследуя артистов, перечисленных в разделе «Поклонники также могут понравиться». Мы исследуем график связанных художников до тех пор, пока мы можем найти новых художников.
- Набор данных LAKH MUSENET MIDI - Полный набор данных LAKH MIDI преобразован в формат вывода MuseNet MIDI (9 инструментов + барабаны).
- Набор данных Los Angeles MIDI - набор данных MIDI SOTA -Kilo для MIDI для MIR и Music AI.
- LP-MUSICCAPS-LP-MUSICCAPS: Подпись псевдо-музыки на основе LLM.
- Набор данных Lyra - Lyra - это набор данных для греческой традиционной и народной музыки, которая включает 1570 пьес, суммируя примерно 80 часов данных. Набор данных включает в себя TimeStemed Links для получения аудио и видео, а также богатую информацию о метаданных в отношении инструментов, географии и жанра, среди прочего.
- MAESTRO-Набор данных Maestro содержит более 200 часов парных аудио и MIDI-записей от десяти лет международного соревнования на фортепиано-E. Данные MIDI включают в себя скорости ключевых ударов и положения педали Sustainto/Sostenuto/Una Corda. Аудио и MIDI -файлы выровнены с точностью ~ 3 мс и нарезаны на отдельные музыкальные произведения, которые аннотируются с композитором, заголовком и году производительности. Несоцененный звук имеет качество CD или выше (164,1–48 кГц 16-битная PCM Stereo).
- Magnatagatune - набор данных Magnatagatune содержит 25 863 музыкальных клипов. Каждый клип-это 29-секундная выдержка, принадлежащая одной из 5223 песен, 445 альбомов и 230 артистов. Клипы охватывают широкий спектр жанров, таких как классическая, новая эйдж, электроника, рок, поп, мир, джаз, блюз, металл, панк и многое другое. Каждый аудиоклип поставляется с вектором бинарных аннотаций из 188 тегов.
- Основной набор данных для «Эволюции популярной музыки: США 1960–2010» - это большой файл (~ 20 МБ), называемый evolutionPopusa_maindata.csv, в формате данных, разделенных запятыми, с заголовками столбцов. Каждая строка соответствует записи. Файл можно просмотреть в любом текстовом редакторе и также может быть открыт в Excel или импортирован в другие программы обработки данных.
- Набор данных Metamidi - мы вводим набор данных Metamidi (MMD), крупномасштабную коллекцию из 436 631 MIDI -файлов и метаданных. В дополнение к MIDI -файлам мы предоставляем метаданные художника, заголовок и жанров, которые были собраны в процессе скребки, когда они были доступны. MIDI в (MMD) были сопоставлены с коллекцией из 32 000 000 30-секундных аудио-клипов, извлеченных из Spotify, что привело к более чем 10 796 557 матчам аудио-миди.
- Миллион набора данных песни - этот набор данных содержит миллион песен с 1922 по 2011 год, а художник с тегами из Echonest (теперь часть Spotify), а также измерения звука и другая соответствующая информация.
- MiR-1K-miR-1K (Lab MultiMedia Information Lab, 1000 Song Clips)-это набор данных, предназначенный для разлуки голоса пения.
- Набор данных инсульта Mridangam - набор данных инсульта Mridangam представляет собой коллекцию из 7162 аудио примеров отдельных ударов мридангама в различных тониках. Набор данных состоит из 10 различных ударов, сыгранных на мридангамах с 6 различными тоническими значениями. Набор данных можно использовать для обучающих моделей для каждого хода Mridangam.
- Набор данных Mridangam Tani-Avarthanam-набор данных Mridangam Tani-Avarthanam представляет собой транскрибированную коллекцию двух тани-авартанам, которых играет известный Mridangam Maestro Padmavibhushan Umayalpuram K. sivaraman. Аудио было записано в IIT Madras, Индия и аннотирован профессиональными карнатичными перкуссионистами. Он состоит из около 24 минут аудио и 8800 ударов.
- MIRMLPOP-он содержит 1) аннотацию набора данных miR-MLPOP, 2) исходный код для получения звука набора данных, 3) исходный код, который мы использовали, для четкого шепота на miR-mlpop (оба выравнивания текстов и текст текста) Транскрипция) и 4) исходный код для оценки.
- MSD (набор данных Million Song) - набор данных Million Song - это свободно доступная коллекция аудио функций и метаданных для миллиона современных популярных музыкальных треков. Ядром набора данных является анализ функций и метаданные для миллиона песен, предоставленных Echo Gont.
- Набор данных Mtg-Jamendo-мы представляем набор данных Mtg-Jamendo, новый открытый набор данных для автоматического загрязнения музыки. Он построен с использованием музыки, доступной в Jamendo в рамках лицензий Creative Commons и тегов, предоставленных загрузчиками контента. Набор данных содержит более 55 000 полных аудиотерелей с 195 тегами из жанра, инструмента и категорий настроения/тем. Мы предоставляем подробные разделения данных для исследователей и сообщаем о производительности простого базового подхода на пяти различных наборах тегов: жанр, инструмент, настроение/тема, топ-50 и в целом.
- Mtg-Jamendo-Набор данных Mtg-Jamendo -это открытый набор данных для автоматического загрязнения музыки. Набор данных содержит более 55 000 полных аудиотерелей с 195 категориями тегов (87 жанровых тегов, 40 тегов приборов и 56 тегов Mood/Theme). Он построен с использованием музыки, доступной в Jamendo в рамках лицензий Creative Commons и тегов, предоставленных загрузчиками контента. Весь аудио распространяется в формате MP3 320 кбит / с.
- Платформа совместного использования музыкальных данных для вычислительной музыкальной исследования (набор данных CCMUSIC) - эта платформа представляет собой многофункциональную платформу обмена музыкальными данными для вычислительных музыкальных исследований. Он содержит множество музыкальных наборов, таких как звуковая информация о китайских традиционных музыкальных инструментах и информация о маркировке китайской поп -музыки, которая доступна для бесплатного использования исследователями компьютерной музыки.
- Распознавание эмоций музыки (MER) - Мы представляем набор данных для анализа систем персонализированного распознавания эмоций музыки (MER). Мы разработали платформу энтузиастов музыки, направленную на улучшение сбора и анализа так называемой «основной истины», необходимой в качестве вклада для таких систем.
- Мусан - Мусан - это корпус музыки, речи и шума. Этот набор данных подходит для обучения моделей обнаружения голосовой активности (VAD) и дискриминации музыки/речи. Набор данных состоит из музыки из нескольких жанров, речи двенадцати языков и широкого ассортимента технических и нетехнических шумов.
- Musdb-xl-train-набор данных Musdb-xl-train состоит из 300 000 сегментов, применяемых ограничителями 4-секундных аудио сегментов и 100 оригинальных песен. Для каждого сегмента мы случайным образом выбрали произвольный сегмент в 4 стеблях (вокал, бас, барабаны, другие) подгруппы обучения MusDB-HQ и случайным образом смешали их. Затем мы применили плагин для коммерческого ограничителя на каждый стебель.
- Musicbench- Musicbench DataSet-это коллекция музыкальных текстов, которая была разработана для генерации текста в музыку и выпущена с Mustango Text-Music Model. Набор данных MusicCaps расширяется с 5521 образца до 52 768 тренингов и 400 тестовых образцов для создания MusicBench !
- Musicnet - Musicnet - это коллекция из 330 свободно лицензированных записей классической музыки, а также более 1 миллиона аннотированных этикет состав. Ярлыки приобретаются из музыкальных результатов, выровненных с записями путем динамического деформации времени. Ярлыки подтверждаются обученными музыкантами; Мы оцениваем частоту ошибок маркировки 4%. Мы предлагаем лейблы Musicnet для машинного обучения и музыкальных сообществ в качестве ресурса для обучающих моделей и общего эталона для сравнения результатов.
- MusicCaps - MusicCaps - это набор данных, состоящий из 5,5K музыкальных текстов, с богатыми текстовыми описаниями, предоставленными человеческими экспертами.
- Musedata - Musedata - это электронная библиотека оркестровой и фортепианной классической музыки от CCARH. Он состоит из около 3 МБ из 783 файлов.
- Musdb18 - Musdb18 - это набор данных из 150 музыкальных треков в полной длине (продолжительность ~ 10 часов) различных жанров, а также их изолированные барабаны, бас, вокал и другие стебли. Набор данных разделен на обучающие и тестовые наборы с 100 и 50 песнями соответственно. Все сигналы стереофонические и закодированы при 44,1 кГц.
- Музыкальные темы и метаданные - этот набор данных содержит список текстов с 1950 по 2019 год, описывающие музыкальные метаданные как грусть, танцевальность, громкость, акустичность и т. Д. Мы также предоставляем некоторую информацию как тексты, которые можно использовать для обработки естественного языка.
- Набор данных музыкальных жанров - набор данных из 1494 жанров, каждый из которых содержит 200 песен.
- Набор данных мультимодальной ноты - MSMD - это синтетический набор данных из 497 произведений (классической) музыки, которая содержит как аудио, так и оценки репрезентаций произведений, выровненных на мелкозернистых уровнях (344 742 пары Noteheads, выровненные по их аудио/MIDI).
- Muvi-Sync-Набор данных Muvi-Sync представляет собой многомодельный набор данных, включающий как музыкальные функции (аккорд, ключ, громкость и плотность заметок), так и видео-функции (смещение сцены, эмоции, движение и семантическое), извлеченные из всего 748 музыкальные клипы.
- Nlakh - Nlakh - это набор данных для поиска музыкальных инструментов. Это комбинация набора данных NSYNTH, которая предоставляет большое количество инструментов, и набор данных LAKH, который предоставляет многоцелевые данные MIDI.
- NSYNTH - NSYNTH - это набор данных из одного инструментального инструментального примечания, содержащего 305,979 музыкальных нот с уникальным шагом, тембром и конвертом. Звуки были собраны из 1006 инструментов из коммерческих образцов библиотек и аннотированы на основе их источника (акустическая, электронная или синтетическая), семейство инструментов и звуковые качества. Семейства приборов, используемые в аннотации, - это бас, латунь, флейта, гитара, клавиатура, молоток, орган, тростник, струна, синтезаторство и вокал. Были созданы четыре секунды монофонических аудио -фрагментов на 16 кГц (примечания) для инструментов.
- NES-MDB (Nintendo Entertainment System Music Database)-музыкальная база данных Nintendo Entertainment System (NES-MDB)-это набор данных, предназначенный для создания автоматических систем музыкальной композиции для аудио-синтезатора NES. Он состоит из 5278 песен из саундтреков 397 игр NES. Набор данных представляет 296 уникальных композиторов, а песни содержат более двух миллионов заметок вместе взятых. У него есть параметры формата файлов для MIDI, оценки и NLM (NES Language Modeling).
- Niko Acord Devicesset - набор данных прогрессирования Niko аккорда используется в Accomontage2. Он содержит кусочки прогрессирования 5K+, помеченные стилями. Всего есть четыре стиля: POP Standard, Pop Complex, Dark и R & B.
- Набор данных по музыкальному образу Onair -? Новый набор данных STEM для исследования музыки по демикциям, из музыкального проекта Onair без роялти.
- OpenCpop - Opencpop , общедоступный высококачественный поющий корпус мандарина, предназначен для систем пения синтеза голоса (SVS). Этот корпус состоит из 100 уникальных песен мандарина , которые были записаны профессиональной певиной. Все аудиофайлы были записаны с качеством студийного качества с частотой выборки 44 100 Гц в профессиональной студийной среде .
- OpenGUFENG - набор данных о прогрессировании мелодии и аккорда для китайской музыки Гуфэна.
- PBSCSR - Набор данных по распознаванию стиля композитора с баллом фортепиано. Наша всеобъемлющая цель состояла в том, чтобы создать набор данных для изучения распознавания стиля композитора, который «такой же доступный, как и Mnist и такой же сложный, как ImageNet». Чтобы достичь этой цели, мы попробовали фрагменты баллов с фиксированной длиной из изображений фортепиано ноты на IMSLP. Сам набор данных содержит 40 000 изображений 62x64 баллов для 9-й классификационной задачи, 100 000 изображений 62x64 баллов для заработной платы на 100 цепей и 29,310 нематборенных изображений с баллами с переменной длиной длиной для предварительной подготовки.
- POP909 - POP909 - это набор данных, который содержит несколько версий фортепианных аранжировок 909 популярных песен, созданных профессиональными музыкантами. Основная часть набора данных содержит вокальную мелодию, мелодию ведущего инструмента и аккомпанемент фортепиано для каждой песни в формате MIDI, которые выровнены с оригинальными аудиофайлами. Кроме того, аннотации предоставляются из темпа, бита, ключа и аккордов, где кривые темпа мечены вручную, а другие делаются алгоритмами MIR.
- PROGGP - набор данных из 173 прогрессивных металлических песен, как в форматах GuitarPro, так и в токенах, в соответствии с спецификациями в DadAGP.
- RWC (Relate World Computing Music Database) - музыкальная база данных RWC (реальная компьютерная) музыкальная база данных - это музыкальная база данных, очищенная авторским правом (DB), которая доступна для исследователей в качестве общей основы для исследований. Он содержит около 100 полных песен с мармированными границами разделов вручную. Для 50 инструментов индивидуальные звуки с половиной интервалов были захвачены несколькими вариациями стилей игры, динамики, производителей инструментов и музыкантов.
- Sangeet - набор данных XML для классической музыки Hindustani. Sangeet сохраняет всю необходимую информацию о любой заданной композиции, включая метаданные, структурные, нотационные, ритмические и мелодичную информацию стандартизированным способом для простого и эффективного хранения и извлечения музыкальной информации. Набор данных предназначен для предоставления основной информации об истине для задач исследования музыки, тем самым поддерживая несколько анализов, управляемых данными с точки зрения машинного обучения.
- Singkt -Dataset - Singkt - это набор данных по оценке музыки в области KT, который пытается использовать методы отслеживания знаний для захвата динамических изменений в способности учащихся. Набор данных собирает данные с платформы для практики Public Intelligent Practicing, Singmaster. Набор данных Singkt содержит основную таблицу данных записи ответа (Recordds) и две дополнительные таблицы данных информации (Userds, Opernds). Таблица пользователей записывает информацию о достопримечательностях для 1074 учеников, содержащихся в наборе данных, а таблица Opernds записывает информацию о музыкальном листе.
- SLAKH2100-Синтезированный набор данных LAKH (SLAKH) является набором данных для разделения аудио-источника, который синтезируется из набора данных LAKH MIDI V0.1 с использованием виртуальных инструментов на основе образцов профессионального класса. Этот первый выпуск Slakh, называемый Slakh2100, содержит 2100 автоматически смешанные дорожки и сопровождающие MIDI-файлы, синтезированные с использованием двигателя отбора проб профессионального класса. Треки в Slakh2100 разделены на обучение (1500 дорожек), валидацию (375 треков) и тестовые (225 треков) подмножества, составляя 145 часов смесей.
- Symphonynet-Symponynet-это проект с открытым исходным кодом, направленный на создание сложной мульти-трека и мультиинструментальной музыки, такой как Symphony. Наш метод полностью совместим с другими типами музыки, такими как POP, Piano, Solo Music..etc.
- Набор данных Solo Table - набор данных TABLA Solo представляет собой транскрибированную коллекцию сольных аудиозаписей TABLA Solo, охватывающих композиции из шести различных гаранов таблы, в исполнении PT. Арвинд Малгаонкар. Набор данных состоит из аудио и времени, выровненных транскрипций BOL.
- Набор данных Tegridy MIDI - набор данных Tegridy MIDI для точного и эффективного создания моделей Music AI.
- Набор данных Lakh MIDI - набор данных Lakh MIDI представляет собой коллекцию из 176 581 уникальных MIDI -файлов, 45 129 из которых были сопоставлены и выровнены с записями в наборе данных миллионов песен. Его цель состоит в том, чтобы облегчить извлечение музыкальной информации, как символическое (используя только файлы MIDI), так и на основе аудио-контента (используя информацию, извлеченную из MIDI-файлов в качестве аннотаций для соответствующих аудиофайлов).
- Итальянский музыкальный набор данных - набор данных создан путем использования API Spotify и SoundCloud. Он состоит из более чем 14 500 различных песен как известных, так и менее известных итальянских музыкантов. Каждая песня в наборе данных идентифицирована по идентификатору Spotify и его названием. Метаданные треков включают также Lemmatized и POS-меченные тексты и, в большинстве случаев, десять музыкальных функций, непосредственно собравшихся из Spotify. Музыкальные особенности включают акустинность (поплавок), танцовщица (поплавок), duration_ms (int), энергия (поплавок), инструментальность (поплавка), Livenies плавать).
- Персидский фортепианный корпус - Persian Piano Corpus - это всеобъемлющая коллекция персидской фортепианной музыки, охватывающей ранние композиторы до современных фигур. Он был тщательно скомпилирован и стал общедоступным, с целью позволить исследователям исследовать специализированные исследования и внести свой вклад в новые открытия. Подход на основе инструмента обеспечивает полный корпус, связанный с персидским пианино, включая соответствующие этикетки и комплексные метаданные.
- Набор данных описания песни-набор данных Descriper Song: корпус аудио подписей для оценки музыки и языка. Набор данных по описанию песни представляет собой набор данных оценки, изготовленный из подписей ~ 1,1K для 706 допустимых музыкальных записей.
- Универсальный музыкальный классификатор символов - проект Python, который обучает глубокую нейронную сеть для различения символов музыки.
- URMP (Мультимодальное музыкальное представление Университета Рочестера)-URMP (Мультимодальное музыкальное представление URMP Университета Рочестера)-это набор данных для облегчения аудиовизуального анализа музыкальных выступлений. Набор данных состоит из 44 простых мультиинструментальных музыкальных произведений, собранных из скоординированных, но отдельно записанных выступлений отдельных треков. Для каждого произведения набор данных предоставил музыкальный счет в формате MIDI, высококачественных аудиозаписи индивидуальных инструментов и видео собравшихся произведений.
- Набор данных VGMIDI - VGMIDI - это набор данных фортепианных аранжировщиков саундтреков для видеоигр. Он содержит 200 пьес MIDI, помеченные в соответствии с эмоциями и 3850 немечненных произведений. Каждое обозначенное произведение была аннотирована 30 человеческими субъектами в соответствии с моделью эмоций Circumplex (валентность).
- Строки виртуоза - Virtuoso Strings - это набор данных для обнаружения мягких настроек для струнных инструментов. Он состоит из более чем 144 записей профессиональных выступлений выдержки из струнного квартета Гайдна. 74 Финал № 1, каждый с соответствующими индивидуальными инструментальными аннотациями начала начала.
- Wikimute - Wikimute: набор данных из семантических описаний для музыкального звука. В этом исследовании мы представляем Wikimute, новый и открытый набор данных, содержащий богатые семантические описания музыки. Данные поставляются из богатого каталога статей Википедии, посвященных музыкальным произведениям. Используя выделенный текстовый трубопровод, мы извлекаем как длинные, так и короткие описания, охватывающие широкий спектр тем, связанных с музыкальным контентом, таким как жанр, стиль, настроение, инструменты и темп.
- YM2413-MDB- YM2413-MDB -это музыкальный набор видеоигр FM 80-х годов с мульти-маршрутными эмоциональными аннотациями. Он включает в себя 669 звуковых и MIDI -файлов музыки из Sega и MSX PC Games в 80 -х годах с использованием YM2413, программируемого звукового генератора на основе FM. Собранная игра -музыка организована с подмножеством из 15 монофонических инструментов и одним барабанным инструментом.
^ Назад к содержимому ^
Звуковой эффект
- Набор данных Animal Sound - эти данные, состоящие из 875 звуков животных, содержит 10 типов звуков животных. Этот набор данных Animal Sounds состоит из 200 кошек, 200 собак, 200 птиц, 75 коров, 45 Lion, 40 овец, 35 лягушка, 30 курица, 25 осла, 25 звуков обезьян.
- Audioset-Audioset-это набор данных аудио-событий, который состоит из более 2-метровых 10-секундных видеоклипов, а также 10-секундных видеоклипов. Эти зажимы собираются с YouTube, поэтому многие из которых находятся в низком качестве и содержат несколько звуковых источников. Иерархическая онтология 632 классов событий используется для аннотирования этих данных, что означает, что тот же звук может быть аннотирован как разные этикетки. Например, звук лая аннотируется как животные, домашние животные и собака. Все видео разделены на оценку/сбалансированный набор трена/несбалансированного поезда.
- Audiocaps - Audiocaps - это набор звуков с описаниями событий, который был введен для задачи подписания звука, со звуками, полученными из набора данных Audioset. Анонаторам были предоставлены аудиологические дорожки вместе с подсказками категорий (и с дополнительными видео подсказок, если это необходимо).
- Auto-ACD-мы представляем инновационный и автоматический конвейер с подготовительным конвейером аудио, создаем крупномасштабный высококачественный набор данных аудиозвуаров, названный как Auto-ACD, включающий более 1,9-метровые аудио текстовые пары. Описания текста в Auto-ACD содержат длинные тексты (18 слов) и разнообразные словесные слова (23K) и предоставляют информацию о окружающей слуховой среде (точка данных с тенью), в которой происходят звуки.
- Звуковые эффекты BBC - в наборе данных BBC Sound Effects существует 33 066 звуковых эффектов с описаниями текста. Жанр: в основном окружающий звук. Каждый аудио имеет естественное текстовое описание.
- DSACE 2016 - DCASE 2016 - это набор данных для обнаружения звуковых событий. Он состоит из 20 коротких моно -звуковых файлов для каждого из 11 классов звука (из офисных сред, таких как Clearthroat, ящик или клавиатура), каждый файл, содержащий один экземпляр события звука. Звуковые файлы аннотируются с временем события и смещения, однако молчание между реальными физическими звуками (как с звонком телефона) не помечены и, следовательно, «включены» в событие.
- Наборы данных экологического аудио - эта страница пытается поддерживать список наборов данных, подходящих для исследования экологических аудио. В дополнение к свободно доступному набору данных, также проприетарные и коммерческие наборы данных перечислены здесь для полноты. В дополнение к наборам данных, некоторые из онлайн-сервисов звука перечислены в конце страницы.
- ESC-50-Набор данных ESC-50 представляет собой маркированную коллекцию 2000 Экологических аудиозаписей, подходящих для методов сравнительного анализа классификации звука окружающей среды. Он состоит из 2000 5S-клипов из 50 различных классов по естественным, человеческим и домашним звукам, опять же, взятым из Freesound.org.
- Fair-Play-Fair-Play-это набор данных Video-Audio, состоящий из 1871 видеоклипов и их соответствующих бинауральных звуковых клипов в музыкальной комнате. Видеороп и бинауральный клип того же индекса примерно выровнен.
- FSD50K (FreeSound Database 50K) - Набор данных Freesound 50K (или FSD50K для краткости) - это открытый набор данных, меченных человеком звуковых событий, содержащих 51 197 клипов FreeSound, неравномерно распределенные в 200 классах, взятых из онтологии Audioset. FSD50K был создан в группе Music Technology Universitat Pompeu Fabra. Он состоит в основном из звуковых событий, создаваемых физическими источниками звука и производственными механизмами, включая человеческие звуки, звуки вещей, животных, естественные звуки, музыкальные инструменты и многое другое.
- FSDNOISY18K-Набор данных FSDNOISY18K представляет собой открытый набор данных, содержащий 42,5 часа аудио в 20 классах звуковых событий, включая небольшое количество меченных вручную данных и большего количества шумных данных в реальном мире. Аудио контент взят из FreeSound, а набор данных был курирован с использованием аннотатора FreeSound. Чудому набору FSDNOISY18K состоит из 15 813 аудиок -клипов (38,8H), а набор тестирования состоит из 947 аудио -клипов (1,4 часа) с правильными метками. Набор данных имеет два основных типа шума метки: в вокабулярный (IV) и вне вокабуляции (OOV). IV применимо, когда, учитывая наблюдаемую метку, которая является неверной или неполной, истинная или отсутствующая метка является частью целевого класса. Аналогично, OOV означает, что истинная или отсутствующая метка не покрывается этими 20 классами.
- Fuss (бесплатное универсальное разделение звука) - набор данных свободного универсального разделения звука (FUSS) представляет собой базу данных произвольных звуковых смесей и ссылок на источник, для использования в экспериментах по произвольному разделению звука. Судья основана на корпусе FSD50K.
- Набор данных Inaturalist Sounds - мы представляем набор данных Inaturalist Sounds (Inatsounds), коллекцию из 230 000 звуковых файлов, захватывающих звуки из более чем 5500 видов, внесенных более чем 27 000 звукозаписи по всему миру.
- Сбив звуковые эффекты с эмоциональными намерениями - набор данных был записан профессиональным художником Фоли Ульфом Олауссоном в студии Foleyworks в Стокгольме 15 октября 2019 года. Вдохновленный предыдущей работой на стучащие звуки. Мы выбрали пять эмоций, которые будут изображены в наборе данных: гнев, страх, счастье, нейтральное и грусть.
- MIMII - звуковой набор данных для неисправности исследований и осмотра промышленных машин (MIMII) - это звуковой набор данных звуков промышленных машин.
- Набор данных Audio Events Mivia - набор данных Mivia Audio состоит из 6000 событий для применения наблюдения, а именно разрыва стекла, выстрела оружия и крика. Событие 6000 делятся на учебный набор (состав из 4200 событий) и тестовый набор (Compose of 1800 Event).
- Набор данных звука высоты (синтезатор Surge) - 3,4 часа аудио, синтезированного с использованием синтезатора Surge с открытым исходным кодом, на основе 2084 предварительных наборов, включенных в пакет Surge. Они представляют собой звуки синтеза «естественный»-iepresets, разработанные людьми. Мы сгенерировали 4-секундные образцы, играющие на скорости 64 с продолжительностью записки 3 секунды. Для каждой предустановки мы варьировали только шаг, от MIDI 21--108, диапазон великого пианино. Каждый звук в наборе данных был нормализован на уровне среднеквадратичного уровня с использованием пакета Normalize. Не было элегантного способа сделать этот набор данных; Однако только небольшой процент пресетов (например, барабаны и звуковые эффекты) не имел изменения или упорядочения перцептивного шага.
- REMFX - REMFX: наборы данных оценки. Эти наборы данных первоначально поставляются из наборов данных Vocalset, Guitarset, DSD100 и IDMT-SMT-Drums, прежде чем обрабатывать в нашем сценарии генерации наборов данных. Наборы данных названы в соответствии с количеством применяемых эффектов (0-5). Например, 2-2.zip содержит 2 эффекта, применяемые к каждому примеру входного аудио. Цели остаются нетронутыми. Применяемые звуковые эффекты взяты из набора (искажение, задержка, компрессор динамического диапазона, фазор, реверберация) и случайным образом отбираются без замены для каждого примера.
- Soundcam-Soundcam, самый большой набор данных уникальных RIRS из комнат в Wild, публично выпущенных на сегодняшний день. Он включает в себя 5000 10-канальных измерений реального мира в помещении импульсных ответов и 2000 10-канальных записей музыки в трех разных комнатах, включая контролируемую акустическую лабораторию, гостиную в ветке и конференц-зал с разными людьми в положениях по всей каждой комнате.
- Звук - звучание состоит из совместных аэрофотоснимков и образцов звука по всему миру.
- Spatial Librispeech-Spatial Librispeech, представляет собой пространственный набор данных аудио с более чем 650 часами амбисонных средств первого порядка и дополнительным шумом отвлекающих факторов (с необработанным 19-канальным звуком в ближайшее время). Spatial Librispeech предназначен для обучения модели машинного обучения и включает в себя этикетки для позиции источника, направления разговора, акустики комнаты и геометрии. Пространственный Librispeech был сгенерирован путем увеличения образцов Librispeech с 200К+ имитируемыми акустическими условиями в синтетических комнатах 8K+.
- Stars22 (Sony-Tau Realistic Spatial Soundscapes 2022)-Набор данных Sony-Tau Realistic Spatial Soundscapes 2022 (Starss22) состоит из записей реальных сцен, захваченных сферическими микрофонами с высоким содержанием канала (SMA). Записи проводятся из двух разных команд на двух разных местах, Университете Тампер в Таммере, Финляндии и Sony в Токио, Япония. Записи на обоих сайтах имеют один и тот же процесс захвата и аннотации, а также аналогичную организацию.
- Toyadmos - Набор данных Toyadmos - это набор данных Machine Opering Sounds, из которых составляет приблизительно 540 часов обычных рабочих звуков машины и более 12 000 образцов аномальных звуков, собранных с четырьмя микрофонами с частотой выборки 48 кГц, подготовленными Юма Койзуми и членами NTT Media Laboratories.
- Tut Sound Events 2017 - набор данных Tut Sound Events 2017 содержит 24 аудиозаписи в уличной среде и содержит 6 различных классов. Эти классы: тормоза скриза, автомобиль, дети, большой автомобиль, люди, говорящие и люди идут.
- Urbansound8k - Urban Sound 8K - это аудиота набор данных, который содержит 8732 помеченных звуковых отрывков (<= 4S) городских звуков из 10 классов: Air_conditioner, Car_horn, Children_playing, Dog_bark, Drilling, Enginging_idling, Gun_shot, Jackhammer, Siren и Street_music. Занятия взяты из таксономии Urban Sound. Все выдержки взяты из полевых записей, загруженных на www.freesound.org.
- VGG-Sound - A large scale audio-visual dataset. VGG-Sound is an audio-visual correspondent dataset consisting of short clips of audio sounds, extracted from videos uploaded to YouTube.
- Visually Indicated Sounds - Materials make distinctive sounds when they are hit or scratched — dirt makes a thud; ceramic makes a clink. These sounds reveal aspects of an object's material properties, as well as the force and motion of the physical interaction.
^ Back to Contents ^