Conjuntos de dados de áudio AI (AI-ADS)?
Conjuntos de dados de áudio de IA (AI-ADS)?, incluindo fala, música e efeitos sonoros, que podem fornecer dados de treinamento para IA generativa, AIGC, treinamento de modelo de IA, desenvolvimento de ferramentas de áudio inteligentes e aplicativos de áudio.
Índice
- Discurso
- Música
- Efeito sonoro
Lista de Projetos
Discurso
- AISHELL-1 - AISHELL-1 é um corpus para pesquisa de reconhecimento de fala e construção de sistemas de reconhecimento de fala para mandarim.
- AISHELL-3 - AISHELL-3 é um corpus de fala mandarim com vários alto-falantes em grande escala e alta fidelidade publicado pela Beijing Shell Shell Technology Co., Ltd. Ele pode ser usado para treinar sistemas de conversão de texto em fala (TTS) com vários alto-falantes. O corpus contém cerca de 85 horas de gravações com emoção neutra faladas por 218 falantes nativos de mandarim chinês e um total de 88.035 expressões.
- Corpus de fala árabe - O Corpus de fala árabe (1,5 GB) é um corpus de fala árabe padrão moderno (MSA) para síntese de fala. O corpus contém transcrições fonéticas e ortográficas de mais de 3,7 horas de fala MSA alinhadas com fala gravada em nível de fonema. As anotações incluem marcas de acentuação de palavras nos fonemas individuais.
- AudioMNIST - O conjunto de dados consiste em 30.000 amostras de áudio de dígitos falados (0-9) de 60 falantes diferentes.
- AVSpeech - AVSpeech é um conjunto de dados audiovisuais em grande escala que compreende clipes de fala sem interferência de sinais de fundo. Os segmentos têm duração variável, entre 3 e 10 segundos, e em cada clipe o único rosto visível no vídeo e som audível na trilha sonora pertencem a uma única pessoa que fala. No total, o conjunto de dados contém cerca de 4.700 horas de segmentos de vídeo com aproximadamente 150.000 falantes distintos, abrangendo uma ampla variedade de pessoas, idiomas e poses faciais.
- ATIS (Airline Travel Information Systems) - O ATIS (Airline Travel Information Systems) é um conjunto de dados que consiste em gravações de áudio e transcrições manuais correspondentes sobre humanos solicitando informações de voo em sistemas automatizados de consulta de viagens aéreas. Os dados consistem em 17 categorias de intenções exclusivas. A divisão original contém 4.478, 500 e 893 declarações de referência rotuladas com intenção em conjunto de treinamento, desenvolvimento e teste, respectivamente.
- Carnatic Varnam Dataset - Carnatic varnam dataset é uma coleção de 28 gravações vocais solo, gravadas para nossa pesquisa sobre análise de entonação de ragas Carnatic. A coleção consiste em gravações de áudio, anotações do ciclo tala alinhadas no tempo e notações swara em um formato legível por máquina.
- Conversas casuais - o conjunto de dados de conversas casuais foi projetado para ajudar os pesquisadores a avaliar sua visão computacional e modelos de áudio quanto à precisão em um conjunto diversificado de idade, sexo, tons de pele aparentes e condições de iluminação ambiente.
- CN-Celeb - CN-Celeb é um conjunto de dados de reconhecimento de falantes em grande escala coletado "na natureza". Este conjunto de dados contém mais de 130.000 declarações de 1.000 celebridades chinesas e abrange 11 gêneros diferentes no mundo real.
- Clotho - Clotho é um conjunto de dados de legendas de áudio, composto por 4.981 amostras de áudio, e cada amostra de áudio possui cinco legendas (um total de 24.905 legendas). As amostras de áudio têm duração de 15 a 30 segundos e as legendas têm de oito a 20 palavras.
- Common Voice - Common Voice é um conjunto de dados de áudio que consiste em um MP3 exclusivo e um arquivo de texto correspondente. Existem 9.283 horas registradas no conjunto de dados. O conjunto de dados também inclui metadados demográficos como idade, sexo e sotaque. O conjunto de dados consiste em 7.335 horas validadas em 60 idiomas.
- CoVoST - CoVoST é um corpus multilíngue de tradução de fala para texto em grande escala. Sua segunda versão mais recente abrange traduções de 21 idiomas para o inglês e do inglês para 15 idiomas. Possui um total de 2.880 horas de fala e é diversificado com 78 mil alto-falantes e 66 sotaques.
- CVSS - CVSS é um corpus de tradução de fala para fala (S2ST) massivamente multilíngue para inglês, cobrindo pares S2ST paralelos em nível de frase de 21 idiomas para o inglês. CVSS é derivado do corpus de fala Common Voice e do corpus de tradução de fala para texto (ST) CoVoST 2, sintetizando o texto de tradução do CoVoST 2 em fala usando sistemas TTS de última geração.
- EasyCom - O conjunto de dados Easy Communications (EasyCom) é o primeiro conjunto de dados do mundo projetado para ajudar a mitigar o efeito coquetel de uma visão de mundo egocêntrica multisensor motivada por realidade aumentada (AR). O conjunto de dados contém áudio de conjunto de microfone multicanal egocêntrico de óculos AR, vídeo RGB de amplo campo de visão, pose de fonte de fala, áudio de microfone de fone de ouvido, atividade de voz anotada, transcrições de fala, caixas delimitadoras de cabeça e rosto e rótulos de identificação de fonte. Criamos e estamos lançando este conjunto de dados para facilitar a pesquisa em soluções de AR multimodais para o problema dos coquetéis.
- Emilia - O conjunto de dados Emilia é um recurso multilíngue abrangente que inclui mais de 101.000 horas de dados de fala em seis idiomas diferentes: inglês (En), chinês (Zh), alemão (De), francês (Fr), japonês (Ja) e coreano (Ko). Ele apresenta diversos dados de fala representando vários estilos de fala de inúmeras plataformas de vídeo e podcasts na Internet, abrangendo uma ampla variedade de gêneros de conteúdo, como talk shows, entrevistas, debates, comentários esportivos e audiolivros.
- ESD (Emotional Speech Database) - ESD é um banco de dados de fala emocional para pesquisa de conversão de voz. O banco de dados ESD consiste em 350 expressões paralelas faladas por 10 falantes nativos de inglês e 10 falantes nativos de chinês e abrange 5 categorias de emoções (neutro, feliz, zangado, triste e surpresa). Mais de 29 horas de dados de fala foram gravadas em ambiente acústico controlado. O banco de dados é adequado para estudos de conversão de voz emocional multi-falante e multilíngue.
- FPT Open Speech Dataset (FOSD) - Este conjunto de dados consiste em 25.921 discursos vietnamitas gravados (com suas transcrições e os horários de início e término de cada discurso) compilados manualmente a partir de 3 subconjuntos de dados (aproximadamente 30 horas no total) divulgados publicamente em 2018 por Corporação FPT.
- Conjunto de dados de dígitos falados gratuitos (FSDD) - Um conjunto de dados de áudio gratuito de dígitos falados. Pense em MNIST para áudio. Um conjunto de dados simples de áudio/fala que consiste em gravações de dígitos falados em arquivos wav a 8kHz. As gravações são cortadas para que tenham um silêncio quase mínimo no início e no fim.
- Fluent Speech Commands - Fluent Speech Commands é um conjunto de dados de áudio de código aberto para experimentos de compreensão de linguagem falada (SLU). Cada expressão é rotulada com valores de “ação”, “objeto” e “localização”; por exemplo, "acender as luzes da cozinha" tem o rótulo {"action": "activate", "object": "lights", "location": "kitchen"}. Um modelo deve prever cada um desses valores, e uma previsão para uma expressão é considerada correta somente se todos os valores estiverem corretos.
- Conjuntos de dados Genshin - Conjuntos de dados Genshin para SVC/SVS/TTS.
- GenshinVoice - Conjunto de dados de voz de Genshin Impact 原神语音数据集
- GigaSpeech - GigaSpeech, um corpus de reconhecimento de fala em inglês multidomínio em evolução com 10.000 horas de áudio rotulado de alta qualidade adequado para treinamento supervisionado e 40.000 horas de áudio total adequado para treinamento semissupervisionado e não supervisionado.
- GigaSpeech 2 - Um corpus ASR em evolução, em grande escala e com vários domínios para idiomas de poucos recursos com rastreamento, transcrição e refinamento automatizados.
- How2 – O conjunto de dados How2 contém 13.500 vídeos, ou 300 horas de fala, e é dividido em 185.187 treinamentos, 2022 desenvolvimento (dev) e 2.361 declarações de teste. Possui legendas em inglês e traduções crowdsourced para o português.
- inaGVAD - um conjunto de dados desafiador de TV e rádio francesa anotado para detecção de atividade de voz (VAD) e segmentação de gênero do locutor (SGS) com scripts de avaliação e esquema de anotação detalhado detalhando o tipo de evento não-fala, características do locutor e qualidade da fala
- KdConv - KdConv é um conjunto de dados chinês de conversão orientado ao conhecimento de vários domínios, que fundamenta os tópicos em conversas múltiplas em gráficos de conhecimento. KdConv contém 4,5 mil conversas de três domínios (filme, música e viagens) e 86 mil expressões com um número médio de turnos de 19,0. Essas conversas contêm discussões aprofundadas sobre tópicos relacionados e transição natural entre vários tópicos, enquanto o corpus também pode ser usado para exploração de aprendizagem por transferência e adaptação de domínio.
- Libriheavy - Libriheavy: um corpus ASR de 50.000 horas com pontuação e contexto.
- LibriSpeech - O corpus LibriSpeech é uma coleção de aproximadamente 1.000 horas de audiolivros que fazem parte do projeto LibriVox. A maioria dos audiolivros vem do Projeto Gutenberg. Os dados de treinamento são divididos em 3 partições de conjuntos de 100 horas, 360 horas e 500 horas, enquanto os dados de desenvolvimento e de teste são divididos nas categorias 'limpo' e 'outros', respectivamente, dependendo de quão bom ou desafiador os sistemas de reconhecimento automático de fala funcionariam contra . Cada um dos conjuntos de desenvolvimento e teste tem cerca de 5 horas de duração de áudio.
- LibriTTS - LibriTTS é um corpus multifalante em inglês de aproximadamente 585 horas de leitura de fala em inglês a uma taxa de amostragem de 24 kHz, preparado por Heiga Zen com a ajuda dos membros da equipe do Google Speech e do Google Brain. O corpus LibriTTS é projetado para pesquisa TTS. É derivado dos materiais originais (arquivos de áudio mp3 do LibriVox e arquivos de texto do Projeto Gutenberg) do corpus LibriSpeech.
- LibriTTS-R - LibriTTS-R: um corpus de conversão de texto em fala com vários alto-falantes restaurado. É derivado da aplicação da restauração de fala ao corpus LibriTTS, que consiste em 585 horas de dados de fala a uma taxa de amostragem de 24 kHz de 2.456 falantes e os textos correspondentes. As amostras constituintes do LibriTTS-R são idênticas às do LibriTTS, apenas com a qualidade do som melhorada.
- LJSpeech (The LJ Speech Dataset) - Este é um conjunto de dados de fala de domínio público que consiste em 13.100 clipes de áudio curtos de um único locutor lendo passagens de 7 livros de não ficção. Uma transcrição é fornecida para cada clipe. Os clipes variam em duração de 1 a 10 segundos e têm duração total de aproximadamente 24 horas. Os textos foram publicados entre 1884 e 1964 e são de domínio público. O áudio foi gravado em 2016-17 pelo projeto LibriVox e também é de domínio público.
- LRS2 (Lip Reading Sentences 2) - O conjunto de dados Oxford-BBC Lip Reading Sentences 2 (LRS2) é um dos maiores conjuntos de dados disponíveis publicamente para frases de leitura labial em estado selvagem. O banco de dados consiste principalmente em notícias e talk shows de programas da BBC. Cada frase tem até 100 caracteres.
- LRW (Lip Reading in the Wild) - O conjunto de dados Lip Reading in the Wild (LRW) é um banco de dados audiovisual em grande escala que contém 500 palavras diferentes de mais de 1.000 falantes. Cada enunciado possui 29 frames, cujo limite é centrado em torno da palavra alvo. O banco de dados é dividido em conjuntos de treinamento, validação e teste. O conjunto de treinamento contém pelo menos 800 declarações para cada classe, enquanto os conjuntos de validação e teste contêm 50 declarações.
- MuAViC - Um Corpus Audiovisual Multilíngue para Reconhecimento Robusto de Fala e Tradução Robusta de Fala para Texto.
- MuST-C - MuST-C representa atualmente o maior corpus multilíngue disponível publicamente (um para muitos) para tradução de fala. Abrange oito direções linguísticas, do inglês ao alemão, espanhol, francês, italiano, holandês, português, romeno e russo. O corpus consiste em áudio, transcrições e traduções de palestras TED em inglês e vem com treinamento, validação e divisão de teste predefinidos.
- MetaQA (MoviE Text Audio QA) - O conjunto de dados MetaQA consiste em uma ontologia de filme derivada do conjunto de dados WikiMovies e três conjuntos de pares de perguntas e respostas escritos em linguagem natural: consultas de 1 salto, 2 saltos e 3 saltos.
- MELD (Conjunto de dados Multimodal EmotionLines) - O conjunto de dados Multimodal EmotionLines (MELD) foi criado aprimorando e estendendo o conjunto de dados EmotionLines. MELD contém as mesmas instâncias de diálogo disponíveis no EmotionLines, mas também abrange a modalidade áudio e visual junto com o texto. MELD tem mais de 1.400 diálogos e 13.000 enunciados da série de TV Friends. Vários palestrantes participaram dos diálogos. Cada expressão num diálogo foi rotulada por qualquer uma destas sete emoções – Raiva, Nojo, Tristeza, Alegria, Neutro, Surpresa e Medo. MELD também possui anotação de sentimento (positivo, negativo e neutro) para cada expressão.
- Microsoft Speech Corpus (idiomas indianos) - A versão Microsoft Speech Corpus (idiomas indianos) contém treinamento de fala coloquial e frasal e dados de teste para os idiomas Telugu, Tamil e Gujarati. O pacote de dados inclui áudio e transcrições correspondentes. Os dados fornecidos neste conjunto de dados não devem ser usados para fins comerciais. Você pode usar os dados exclusivamente para fins de pesquisa. Se você publicar suas descobertas, deverá fornecer a seguinte atribuição: “Dados fornecidos pela Microsoft e SpeechOcean.com”.
- PATS (Pose Audio Transcript Style) - O conjunto de dados PATS consiste em uma grande e diversa quantidade de poses, áudio e transcrições alinhadas. Com este conjunto de dados, esperamos fornecer um benchmark que ajude a desenvolver tecnologias para agentes virtuais que gerem gestos naturais e relevantes.
- RealMAN - RealMAN: um conjunto de dados de conjunto de microfones gravados e anotados para aprimoramento e localização dinâmica de fala.
- SAVEE (Surrey Audio-Visual Expressed Emotion) - O conjunto de dados Surrey Audio-Visual Expressed Emotion (SAVEE) foi registrado como um pré-requisito para o desenvolvimento de um sistema automático de reconhecimento de emoções. O banco de dados consiste em gravações de 4 atores masculinos em 7 emoções diferentes, 480 declarações em inglês britânico no total. As sentenças foram escolhidas no corpus padrão TIMIT e balanceadas foneticamente para cada emoção.
- SoS_Dataset - Som da história: narrativa multimodal com áudio. Contar histórias é multimodal no mundo real. Quando se conta uma história, pode-se usar todas as visualizações e sons junto com a própria história. No entanto, estudos anteriores sobre conjuntos de dados e tarefas de narração de histórias prestaram pouca atenção ao som, embora o som também transmita uma semântica significativa da história. Portanto, propomos ampliar as áreas de compreensão e narração de histórias, estabelecendo um novo componente chamado "som de fundo", que é o áudio baseado no contexto da história, sem qualquer informação linguística.
- Coleção de conjuntos de dados de fala - Esta é uma lista selecionada de conjuntos de dados de fala abertos para pesquisas relacionadas à fala (principalmente para reconhecimento automático de fala). Mais de 110 conjuntos de dados de fala são coletados neste repositório, e mais de 70 conjuntos de dados podem ser baixados diretamente, sem necessidade de inscrição ou registro adicional.
- Speech Dataset Generator - Speech Dataset Generator é dedicado à criação de conjuntos de dados adequados para treinar modelos de conversão de texto em fala ou de fala em texto. A funcionalidade principal envolve a transcrição de arquivos de áudio, o aprimoramento da qualidade do áudio quando necessário e a geração de conjuntos de dados.
- 3D-Speaker-Datasets - Um conjunto de dados de áudio de fala humana em grande escala para vários dispositivos, várias distâncias e vários dialetos.
- TED-LIUM - Transcrição de áudio da palestra TED. 1495 Gravações de áudio da palestra TED junto com transcrições de texto completo dessas gravações, criadas pelo Laboratoire d'Informatique de l'Université du Maine (LIUM).
- O Flickr Audio Caption Corpus - O Flickr 8k Audio Caption Corpus contém 40.000 legendas faladas de 8.000 imagens naturais. Foi coletado em 2015 para investigar esquemas de aprendizagem multimodal para descoberta de padrões de fala não supervisionados.
- The People's Speech - The People's Speech é um conjunto de dados de reconhecimento de fala em inglês conversacional supervisionado, de download gratuito e crescente, de 30.000 horas, licenciado para uso acadêmico e comercial sob CC-BY-SA (com um subconjunto CC-BY). Os dados são coletados através de pesquisas na Internet por dados de áudio devidamente licenciados com transcrições existentes.
- The Spoken Wikipedia Corpora - O projeto Spoken Wikipedia une leitores voluntários do artigo da Wikipedia. Centenas de artigos falados em vários idiomas estão disponíveis para usuários que – por um motivo ou outro – não conseguem ou não querem consumir a versão escrita do artigo.
- TIMIT - O Corpus de Fala Contínua Acústico-Fonética DARPA TIMIT.
- tts-frontend-dataset - Conjunto de dados TTS FrontEnd: Polyphone/Prosódia/TextNormalização.
- VoxCeleb2 - VoxCeleb2 é um conjunto de dados de reconhecimento de alto-falantes em grande escala obtido automaticamente de mídia de código aberto. VoxCeleb2 consiste em mais de um milhão de declarações de mais de 6 mil alto-falantes. Como o conjunto de dados é coletado “em estado selvagem”, os segmentos de fala são corrompidos por ruídos do mundo real, incluindo risos, conversas cruzadas, efeitos de canal, música e outros sons. O conjunto de dados também é multilíngue, com falas de falantes de 145 nacionalidades diferentes, abrangendo uma ampla gama de sotaques, idades, etnias e línguas.
- VoxConverse - VoxConverse é um conjunto de dados de diarização audiovisual que consiste em clipes de fala humana em vários alto-falantes, extraídos de vídeos do YouTube.
- VoxLingua107 - VoxLingua107 é um conjunto de dados para reconhecimento de linguagem falada de 6.628 horas (62 horas por idioma em média) e é acompanhado por um conjunto de avaliação de 1.609 enunciados verificados.
- VoxPopuli - VoxPopuli é um corpus multilíngue em grande escala que fornece 100 mil horas de dados de fala não rotulados em 23 idiomas. É o maior dado aberto até o momento para aprendizagem de representação não supervisionada, bem como aprendizagem semissupervisionada. VoxPopuli também contém 1,8 mil horas de discursos transcritos em 16 idiomas e suas interpretações orais alinhadas em 5 outros idiomas, totalizando 5,1 mil horas.
- VoxForge - VoxForge é um conjunto de dados de fala aberta que foi configurado para coletar fala transcrita para uso com mecanismos de reconhecimento de fala de código aberto e gratuito (em Linux, Windows e Mac).
- VocalSound - VocalSound é um conjunto de dados gratuito que consiste em 21.024 gravações crowdsourced de risos, suspiros, tosses, pigarros, espirros e fungadelas de 3.365 indivíduos únicos. O conjunto de dados VocalSound também contém metainformações, como idade do falante, sexo, idioma nativo, país e estado de saúde.
- VoiceBank + DEMAND - VoiceBank+DEMAND é um banco de dados de fala ruidosa para treinar algoritmos de aprimoramento de fala e modelos TTS. O banco de dados foi projetado para treinar e testar métodos de aprimoramento de fala que operam em 48kHz. Uma descrição mais detalhada pode ser encontrada no artigo associado ao banco de dados.
- WaveFake - WaveFake é um conjunto de dados para detecção de deepfake de áudio. O conjunto de dados consiste em um conjunto de dados em grande escala com mais de 100 mil clipes de áudio gerados.
- WenetSpeech - WenetSpeech é um corpus de mandarim de vários domínios que consiste em mais de 10.000 horas de fala rotulada de alta qualidade, mais de 2.400 horas de fala fracamente rotulada e cerca de 10.000 horas de fala não rotulada, com mais de 22.400 horas no total. Os autores coletaram dados do YouTube e do Podcast, que abrangem uma variedade de estilos de fala, cenários, domínios, tópicos e condições ruidosas. Um método baseado em reconhecimento óptico de caracteres (OCR) é introduzido para gerar os candidatos à segmentação de áudio/texto para os dados do YouTube em suas legendas de vídeo correspondentes.
- WSJ0-2mix - WSJ0-2mix é um corpus de reconhecimento de fala de misturas de fala usando declarações do corpus do Wall Street Journal (WSJ0).
- UAU! (WSJ0 Hipster Ambient Mixtures) - O conjunto de dados WSJ0 Hipster Ambient Mixtures ( WHAM! ) emparelha cada mistura de dois alto-falantes no conjunto de dados wsj0-2mix com uma cena de fundo de ruído exclusiva. O ruído de áudio foi coletado em vários locais urbanos na área da Baía de São Francisco no final de 2018. Os ambientes consistem principalmente em restaurantes, cafés, bares e parques. O áudio foi gravado utilizando um microfone binaural Apogee Sennheiser montado em um tripé entre 1,0 e 1,5 metros do solo.
- YODAS - Este é o subconjunto YODAS manual/automático do nosso conjunto de dados YODAS, possui 369.510 horas de fala. Este conjunto de dados contém declarações de áudio e legendas correspondentes (manuais ou automáticas) do YouTube. Observe que a legenda manual indica apenas que foi carregada por usuários, mas não necessariamente transcrita por um ser humano.
- YODAS2 - YODAS2 é o conjunto de dados de formato longo do conjunto de dados YODAS. Ele fornece o mesmo conjunto de dados que espnet/yodas, mas YODAS2 tem os seguintes novos recursos: 1. formatado no formato longo (nível de vídeo) onde os áudios não são segmentados. 2. os áudios são codificados usando taxas de amostragem mais altas (ou seja, 24k).
- YTTTS - O conjunto de dados Text-To-Speech do YouTube é composto por áudio em forma de onda extraído de vídeos do YouTube junto com suas transcrições em inglês.
^ Voltar ao conteúdo ^
Música
- AAM: Conjunto de dados multipistas de áudio artificial - Este conjunto de dados contém 3.000 faixas de áudio de música artificial com anotações ricas. É baseado em amostras de instrumentos reais e geradas por composição algorítmica com relação à teoria musical. Ele fornece mixagens completas das músicas, bem como faixas de instrumentos únicos. Os midis usados para geração também estão disponíveis. Os arquivos de anotação incluem: inícios, tons, instrumentos, tonalidades, andamentos, segmentos, instrumento de melodia, batidas e acordes.
- Acappella - Acappella compreende cerca de 46 horas de vídeos cantando solo a cappella provenientes do YouTbe, amostrados em diferentes cantores e idiomas. São considerados quatro idiomas: inglês, espanhol, hindi e outros.
- ADICIONAR: audio-dataset-downloader - Script CLI Python simples para baixar N horas de áudio do Youtube, com base em uma lista de gêneros musicais.
- ADL Piano MIDI - O ADL Piano MIDI é um conjunto de dados de 11.086 peças de piano de diferentes gêneros. Este conjunto de dados é baseado no conjunto de dados Lakh MIDI, que é uma coleção de 45.129 arquivos MIDI exclusivos que foram combinados com entradas no conjunto de dados Million Song.
- Pontuações e performances alinhadas (ASAP) - ASAP é um conjunto de dados de partituras musicais alinhadas (MIDI e MusicXML) e performances (áudio e MIDI), todas com anotações de batida forte, batida, fórmula de compasso e armadura de clave.
- Conjunto de dados anotado Jingju Arias - O conjunto de dados anotado Jingju Arias é uma coleção de 34 árias jingju segmentadas manualmente em vários níveis usando o software Praat. As árias selecionadas contêm amostras dos dois principais shengqiang em jingju, nomeadamente xipi e erhuang, e dos cinco principais tipos de papéis em termos de canto, nomeadamente, dan, jing, laodan, laosheng e xiaosheng. O conjunto de dados é formado por arquivos Praat TextGrid para cada ária, contendo camadas para as seguintes informações: ária, MusicBrainz ID, artista, escola, tipo de função, shengqiang, banshi, linha da letra, sílabas e padrões de percussão.
- Bach Doodle - O Bach Doodle Dataset é composto por 21,6 milhões de harmonizações enviadas pelo Bach Doodle. O conjunto de dados contém metadados sobre a composição (como país de origem e feedback), bem como um MIDI da melodia inserida pelo usuário e um MIDI da harmonização gerada. O conjunto de dados contém cerca de 6 anos de músicas inseridas pelo usuário.
- Conjunto de dados de violino de Bach - Uma coleção de gravações públicas de alta qualidade das sonatas e partitas de Bach para violino solo (BWV 1001–1006).
- Conjunto de dados Batik-plays-Mozart - O conjunto de dados Batik-plays-Mozart é um conjunto de dados de performance de piano contendo 12 Sonatas para piano de Mozart completas (36 movimentos distintos) executadas em um piano de cauda Bösendorfer monitorado por computador pelo pianista vienense Roland Batik. As performances são fornecidas em formato MIDI (os arquivos de áudio correspondentes estão disponíveis comercialmente) e em nível de nota alinhado com partituras na New Mozart Edition em MusicXML e harmonia musicológica, cadência e anotações de frase publicadas anteriormente em The Annotated Mozart Sonatas.
- Conjunto de dados de instrumentos de percussão da Ópera de Pequim - O conjunto de dados de percussão da Ópera de Pequim é uma coleção de 236 exemplos de traços isolados abrangendo as quatro classes de instrumentos de percussão usadas na Ópera de Pequim. Ele pode ser usado para construir modelos de toque para cada instrumento de percussão.
- Conjunto de dados do Padrão de Percussão da Ópera de Pequim - O conjunto de dados do Padrão de Percussão da Ópera de Pequim (BOPP) é uma coleção de 133 padrões de percussão de áudio cobrindo cinco classes de padrões. O conjunto de dados inclui as transcrições de áudio e de nível de sílaba para os padrões (não alinhados no tempo). É útil para tarefas de transcrição e classificação de percussão. Os padrões foram extraídos de gravações de áudio de árias e rotulados por um musicólogo.
- BiMMuDa - The Billboard Melodic Music Dataset (BiMMuDa) é um conjunto de dados MIDI das principais melodias dos cinco melhores singles das paradas de singles de fim de ano da Billboard para cada ano de 1950 a 2022. Este repositório armazena o conjunto de dados, bem como seus metadados e apêndices.
- CAL500 (Computer Audition Lab 500) - CAL500 (Computer Audition Lab 500) é um conjunto de dados voltado para avaliação de sistemas de recuperação de informação musical. Consiste em 502 canções escolhidas da música popular ocidental. O áudio é representado como uma série temporal dos primeiros 13 coeficientes cepstrais de frequência Mel (e suas primeira e segunda derivadas) extraídos deslizando uma janela de tempo curto semi-sobreposta de 12 ms sobre a forma de onda de cada música.
- Conjunto de dados de ritmo de música carnática - O conjunto de dados de ritmo de música carnática é uma subcoleção de 176 trechos (16,6 horas) em quatro taalas de música carnática com áudio, metadados relacionados ao tala associados e marcadores alinhados no tempo indicando a progressão através dos ciclos de tala. É útil como corpus de teste para muitas tarefas de análise automática de ritmo na música carnática.
- CCMixter - CCMixter é um conjunto de dados de separação de voz cantada que consiste em 50 faixas estéreo completas do ccMixter apresentando muitos gêneros musicais diferentes. Para cada música existem três arquivos WAV disponíveis: a música de fundo, o sinal de voz e sua soma.
- ChMusic - ChMusic é um conjunto de dados de música tradicional chinesa para modelo de treinamento e avaliação de desempenho de reconhecimento de instrumentos musicais. Este conjunto de dados abrange 11 instrumentos musicais, consistindo em Erhu, Pipa, Sanxian, Dizi, Suona, Zhuiqin, Zhongruan, Liuqin, Guzheng, Yangqin e Sheng.
- chongchong-free - Chongchong Piano Downloader é um software para download gratuito da partitura de piano de Chongchong, que pode obter o link da partitura, analisar o conteúdo da partitura e exportar o arquivo.
- ComMU - ComMU possui 11.144 amostras MIDI que consistem em sequências de notas curtas criadas por compositores profissionais com seus 12 metadados correspondentes. Este conjunto de dados foi projetado para uma nova tarefa, geração combinatória de música que gera música diversificada e de alta qualidade apenas com metadados por meio de modelo de linguagem auto-regressivo.
- CoSoD - CoSoD consiste em metadados e dados analíticos de um corpus de 331 músicas que compreende todas as colaborações de vários artistas nas paradas de final de ano “Hot 100” da Billboard publicadas entre 2010 e 2019. Cada música no conjunto de dados está associada a dois arquivos CSV: um para metadados e outro para dados analíticos.
- DALI - DALI: um grande conjunto de dados de áudio, letras e notas vocais sincronizados.
- DadaGP - DadaGP é um novo conjunto de dados musicais simbólicos que compreende 26.181 partituras de músicas no formato GuitarPro cobrindo 739 gêneros musicais, juntamente com um formato tokenizado adequado para modelos de sequência generativa, como o Transformer. O formato tokenizado é inspirado em codificações MIDI baseadas em eventos, frequentemente usadas em modelos de geração de música simbólica. O conjunto de dados é lançado com um codificador/decodificador que converte arquivos GuitarPro em tokens e vice-versa.
- DeepScores - Conjunto de dados sintético de 300.000 imagens anotadas de música escrita para classificação de objetos, segmentação semântica e detecção de objetos. Com base em um grande conjunto de documentos MusicXML obtidos do MuseScore, um pipeline sofisticado é usado para converter a fonte em arquivos LilyPond, para os quais o LilyPond é usado para gravar e anotar as imagens.
- dMelodies - dMelodies é um conjunto de dados de melodias simples de 2 compassos geradas usando 9 fatores latentes de variação independentes, onde cada ponto de dados representa uma melodia única com base nas seguintes restrições: - Cada melodia corresponderá a uma escala única (maior, menor, blues, etc. .). - Cada melodia toca os arpejos usando o padrão de acordes de cadência I-IV-VI padrão. - O compasso 1 toca os 2 primeiros acordes (6 notas), o compasso 2 toca os 2 segundos acordes (6 notas). - Cada nota tocada é uma colcheia.
- DISCO-10M - DISCO-10M é um conjunto de dados musicais criado para democratizar a pesquisa em modelos de aprendizado de máquina em grande escala para música.
- Dizi - Dizi é um conjunto de dados de estilos musicais da Escola do Norte e da Escola do Sul. As características incluem a melodia e as técnicas de execução dos dois estilos musicais diferentes são desconstruídas.
- DreamSound - Recentemente, modelos de geração de texto para música alcançaram resultados sem precedentes na síntese de amostras musicais diversas e de alta qualidade a partir de um determinado prompt de texto. Apesar destes avanços, ainda não está claro como é possível gerar conceitos musicais personalizados e específicos para o usuário, manipulá-los e combiná-los com os já existentes. Motivados pela literatura sobre visão computacional, investigamos a conversão de texto em música explorando dois métodos estabelecidos, nomeadamente Inversão Textual e Dreambooth. Utilizando métricas quantitativas e um estudo de usuário, avaliamos sua capacidade de reconstruir e modificar novos conceitos musicais, dados apenas alguns exemplos. Finalmente, fornecemos um novo conjunto de dados e propomos um protocolo de avaliação para esta nova tarefa.
- EMOPIA - Um conjunto de dados de piano pop multimodal para reconhecimento de emoções e geração de música baseada em emoções. O conjunto de dados EMOPIA (pronuncia-se 'yee-mò-pi-uh') é um banco de dados multimodal compartilhado (áudio e MIDI) com foco na emoção percebida na música pop de piano, para facilitar a pesquisa em várias tarefas relacionadas à emoção musical. O conjunto de dados contém 1.087 clipes musicais de 387 músicas e rótulos emocionais em nível de clipe anotados por quatro anotadores dedicados.
- ErhuPT (Conjunto de dados de técnica de jogo Erhu) - Este conjunto de dados é um conjunto de dados de áudio contendo cerca de 1.500 clipes de áudio gravados por vários jogadores profissionais.
- FiloBass - Um estudo baseado em conjunto de dados e corpus de linhas de baixo de jazz. FiloBass: um novo corpus de partituras e anotações que enfoca o papel importante, mas muitas vezes esquecido, do contrabaixo no acompanhamento de jazz. Inspirados em trabalhos recentes que esclarecem o papel do solista, oferecemos uma coleção de 48 transcrições verificadas manualmente de baixistas profissionais de jazz, compreendendo mais de 50.000 eventos de notas, que são baseadas nas faixas de apoio usadas no conjunto de dados FiloSax. Para cada gravação, fornecemos hastes de áudio, partituras, MIDI alinhado ao desempenho e metadados associados para batidas, batidas fortes, símbolos de acordes e marcadores para forma musical.
- Finding Tori - Finding Tori: Aprendizagem auto-supervisionada para analisar canções folclóricas coreanas. apresentamos uma análise computacional do conjunto de dados de gravação de campo de aproximadamente 700 horas de canções folclóricas coreanas, que foram gravadas por volta de 1980-90.
- FMA - The Free Music Archive (FMA) é um conjunto de dados em grande escala para avaliar diversas tarefas de recuperação de informação musical. Consiste em 343 dias de áudio de 106.574 faixas de 16.341 artistas e 14.854 álbuns, organizados em uma taxonomia hierárquica de 161 gêneros. Ele fornece áudio completo e de alta qualidade, recursos pré-computados, juntamente com metadados em nível de faixa e usuário, tags e texto de formato livre, como biografias.
- GiantMIDI-Piano - GiantMIDI-Piano é um conjunto de dados MIDI de piano clássico que contém 10.855 arquivos MIDI de 2.786 compositores. O subconjunto selecionado restringindo os sobrenomes dos compositores contém 7.236 arquivos MIDI de 1.787 compositores.
- Groove (Groove MIDI Dataset) - O Groove MIDI Dataset (GMD) é composto por 13,6 horas de MIDI alinhado e áudio (sintetizado) de bateria expressiva executada por humanos e alinhada ao tempo. O conjunto de dados contém 1.150 arquivos MIDI e mais de 22.000 medidas de bateria.
- GTSINGER - GTSINGER: Um corpus global de canto multi -técnica com pontuações musicais realistas para todas as tarefas de canto. Introduzimos o GTSinger, um grande corpus global, multi-técnica, gratuito e de alta qualidade, com pontuações musicais realistas, projetadas para todas as tarefas de canto, juntamente com seus benchmarks.
- Guitarset - Guitarset: um conjunto de dados para transcrição de guitarra.
- Conjunto de dados de ritmo musical hindustani - O conjunto de dados de ritmo musical hindustani é uma subcolção de 151 (5 horas) em quatro taals de música hindustani com áudio, metadados relacionados ao Taal associados e marcadores alinhados com o tempo indicando a progressão através dos ciclos Taal. O conjunto de dados é útil como um corpus de teste para muitas tarefas automáticas de análise de ritmo na música hindustani.
- HUMTRANS - O conjunto de dados também pode servir de base para tarefas a jusante, como a geração musical baseada em melodia. Consiste em 500 composições musicais de diferentes gêneros e idiomas, com cada composição dividida em vários segmentos. No total, o conjunto de dados compreende 1000 segmentos de música. Para coletar esse conjunto de dados Humming, empregamos 10 estudantes universitários, todos os quais são cursos de música ou proficientes em tocar pelo menos um instrumento musical. Cada um deles cantarolou cada segmento duas vezes usando a interface de gravação da Web fornecida pelo nosso site projetado. As gravações Humming foram amostradas a uma frequência de 44.100 Hz.
- Os conjuntos de dados da Indian Art Music Tonic - esse conjunto de dados compreende 597 gravações de música de áudio disponíveis no mercado de música de arte indiana (Hindustani e Carnatic Music), cada uma anotada manualmente com o tônico do artista principal. Esse conjunto de dados é usado como corpus de teste para o desenvolvimento de abordagens de identificação tônica.
- Jazz Harmony Treebank - Este repositório contém o Jazz Harmony Treebank, um corpus de análises harmônicas hierárquicas de sequências de acordes de jazz selecionadas do Irealpro Corpus publicado em Zenodo por Shanahan et al.
- JazzNet - JazzNet: um conjunto de dados de padrões fundamentais de piano para pesquisa de aprendizado de máquina de áudio musical. Este artigo apresenta o conjunto de dados do JazzNet, um conjunto de dados de padrões de música de piano de jazz fundamentais para o desenvolvimento de algoritmos de aprendizado de máquina (ML) na recuperação de informações musicais (MIR). O conjunto de dados contém 162520 padrões de piano rotulados, incluindo acordes, arpejos, escalas e progressões de acordes com suas inversões, resultando em mais de 26 mil horas de áudio e um tamanho total de 95 GB.
- Jingju A Cappella Singing Pitch Contour DataSet - Jingju A Cappella Singing Pitch Contour DataSet é uma coleção de gravações de arremesso de segmento de contorno para 39 Jingju A Cappella Singing Recordings. O conjunto de dados inclui a verdade do solo para (1) transcrição melódica, (2) segmentação de contorno de afinação. É útil para tarefas de segmentação de transcrição melódica e contorno de afinação. Os contornos de pitch foram extraídos das gravações de áudio e corrigidos manualmente e segmentados por um musicólogo.
- Coleção de pontuações da Jingju Music - Esta é uma coleção de 92 pontuações musicais Jingju reunidas para a análise de Jingju cantando em termos de seu sistema musical. Eles foram transcritos de suas fontes impressas originais em um formato legível por máquina, usando o MuseScore e exportando -os para o MusicXML.
- JS Chorales Fake - Um conjunto de dados MIDI de 500 corais de 4 partes gerados pelo algoritmo KS_CHORUS, anotados com resultados de centenas de participantes dos testes de escuta, com 300 corales não anotados.
- Laion-Disco-12m-O conjunto de dados Laion-Disco-12m contém links de 12m para a música no YouTube, inspirada na metodologia do DISCO-10M. Começando a partir de uma lista inicial de sementes de artistas, podemos descobrir novos artistas explorando recursivamente os artistas listados na seção "Os fãs também podem gostar". Exploramos o gráfico de artistas relacionados enquanto somos capazes de encontrar novos artistas.
- Conjunto de dados de midi musenet de lakh - conjunto de dados completos do midi lakh convertido em formato de saída midi musenet (9 instrumentos + tambores).
- Conjunto de dados de Los Angeles MIDI - conjunto de dados MIDI em escala SOTA para fins de MIR e Music AI.
- LP-MUSICCAPS-LP-MusicCaps: LLM Pseudo-Music Legending.
- DataSet Lyra - Lyra é um conjunto de dados para música tradicional e folclórica grega que inclui 1570 peças, resumindo em cerca de 80 horas de dados. O conjunto de dados incorpora links de registro de data e hora do YouTube para recuperar áudio e vídeo, juntamente com informações ricas em metadados com relação à instrumentação, geografia e gênero, entre outros.
- Maestro-O conjunto de dados do Maestro contém mais de 200 horas de gravações de áudio e MIDI emparelhadas de dez anos de competição internacional de piano-e. Os dados MIDI incluem velocidades de ataque chave e posições de pedal Sustain/Sostenuto/Una CORDA. Os arquivos de áudio e MIDI estão alinhados com precisão de ± 3 ms e cortados com peças musicais individuais, que são anotadas com compositor, título e ano de desempenho. O áudio não compactado é de qualidade de CD ou superior (44,1-48 kHz estéreo PCM de 16 bits).
- Magnatagatune - O conjunto de dados Magnatagatune contém 25.863 clipes de música. Cada clipe é um trecho de 29 segundos pertencentes a uma das 5223 músicas, 445 álbuns e 230 artistas. Os clipes abrangem uma ampla gama de gêneros como clássico, nova era, eletrônica, rock, pop, mundo, jazz, blues, metal, punk e muito mais. Cada clipe de áudio é fornecido com um vetor de anotações binárias de 188 tags.
- DataSet principal para "Evolução da música popular: EUA 1960-2010" - Este é um arquivo grande (~ 20 MB) chamado evolutionpopusa_maindata.csv, no formato de dados separado por vírgula com cabeçalhos de colunas. Cada linha corresponde a uma gravação. O arquivo é visível em qualquer editor de texto e também pode ser aberto no Excel ou importado para outros programas de processamento de dados.
- DataSet Metamidi - Introduzimos o conjunto de dados Metamidi (MMD), uma coleção em larga escala de 436.631 arquivos MIDI e metadados. Além dos arquivos MIDI, fornecemos metadados de artistas, títulos e gêneros que foram coletados durante o processo de raspagem, quando disponíveis. O MIDIS in (MMD) foi comparado com uma coleção de 32.000.000 clipes de áudio de 30 segundos recuperados do Spotify, resultando em mais de 10.796.557 partidas de áudio-midi.
- Million Song DataSet - Este conjunto de dados contém um milhão de músicas de 1922-2011, com informações marcadas com o Artist do ECHONEST (agora parte do Spotify), juntamente com medições de áudio e outras informações relevantes.
- MIR-1K-MIR-1K (Laboratório de Recuperação de Informações Multimídia, 1000 Clipes de Song) é um conjunto de dados projetado para cantar separação por voz.
- Conjunto de dados de AVC de Mridangam - O conjunto de dados Mridangam Stroke é uma coleção de 7162 exemplos de áudio de traços individuais do Mridangam em vários tônicos. O conjunto de dados é composto por 10 derrames diferentes jogados em mridangams com 6 valores tônicos diferentes. O conjunto de dados pode ser usado para modelos de treinamento para cada golpe de Mridangam.
- Conjunto de dados de Mridangam Tani-Avarthanam-O conjunto de dados Mridangam Tani-Avarthanam é uma coleção transcrita de dois tani-Avarthanams interpretados pelo renomado maestro de Mridangam Padmavibhushan Umayalpuram K. Sivaraman. O áudio foi gravado no IIT Madras, Índia e anotado por percussionistas carnáticos profissionais. Consiste em cerca de 24 minutos de áudio e 8800 golpes.
- Mirmlpop-ele contém 1) anotação do conjunto de dados do miR-mlpop, 2) o código-fonte para obter o áudio do conjunto de dados, 3) código-fonte que usamos para ajustar o sussurro no miR-mlpop (alinhamento das letras e transcrição das letras) e 4) código -fonte para avaliação.
- MSD (Million Song DataSet) - O conjunto de dados Million Song é uma coleção de recursos de áudio e metadados gratuitamente para um milhão de faixas de música popular contemporânea. O núcleo do conjunto de dados é a análise de recursos e os metadados de um milhão de músicas, fornecidas pelo Echo Nest.
- Conjunto de dados MTG-Jamendo-Apresentamos o conjunto de dados MTG-Jamendo, um novo conjunto de dados aberto para marcar automaticamente. Ele é construído usando músicas disponíveis no Jamendo sob licenças e tags do Creative Commons fornecidas pelos uploads de conteúdo. O conjunto de dados contém mais de 55.000 faixas completas de áudio com 195 tags de categorias de gênero, instrumento e humor/tema. Fornecemos divisões de dados elaboradas para pesquisadores e relatamos o desempenho de uma abordagem de linha de base simples em cinco conjuntos diferentes de tags: gênero, instrumento, humor/tema, 50 top-50 e geral.
- MTG-Jamendo-O conjunto de dados MTG-Jamendo é um conjunto de dados aberto para marcar automaticamente. O conjunto de dados contém mais de 55.000 faixas completas de áudio com 195 tags de tags (87 tags de gênero, 40 tags de instrumentos e 56 tags de humor/tema). Ele é construído usando músicas disponíveis no Jamendo sob licenças e tags do Creative Commons fornecidas pelos uploads de conteúdo. Todo o áudio é distribuído no formato MP3 de 320kbps.
- Plataforma de compartilhamento de dados de música para pesquisa de musicologia computacional (conjunto de dados CCMusic) - Esta plataforma é uma plataforma multifuncional de compartilhamento de dados musicais para pesquisa de musicologia computacional. Ele contém muitos dados de música, como as informações sonoras dos instrumentos musicais tradicionais chineses e as informações de rotulagem da música pop chinesa, que estão disponíveis para uso gratuito por pesquisadores de musicologia computacional.
- Reconhecimento de Emoção Música (MER) - Apresentamos um conjunto de dados para a análise de sistemas personalizados de reconhecimento de emoção musical (MER). Desenvolvemos a plataforma de entusiastas da música com o objetivo de melhorar a reunião e a análise da chamada "verdade do solo" necessária como entrada para esses sistemas.
- Musan - Musan é um corpus de música, fala e barulho. Esse conjunto de dados é adequado para modelos de treinamento para detecção de atividades de voz (VAD) e discriminação musical/fala. O conjunto de dados consiste em música de vários gêneros, discursos de doze idiomas e uma ampla variedade de ruídos técnicos e não técnicos.
- MUSDB-XL-TRAIN-O conjunto de dados MUSDB-XL-TRAIN consiste em um segmentos de 300.000 segmentos aplicados por limitadores de segmentos de áudio de 4 SEC e das 100 músicas originais. Para cada segmento, escolhemos aleatoriamente o segmento arbitrário em 4 hastes (vocais, baixo, bateria, outros) do subconjunto de treinamento de MusdB-HQ e os misturamos aleatoriamente. Em seguida, aplicamos um plug-in de limitador comercial a cada haste.
- MusicBench-O conjunto de dados MusicBench é uma coleção de pares de texto musical que foi projetado para geração de texto para música e lançado com o modelo de texto para música Mustango. O conjunto de dados MusicCaps é expandido de 5.521 amostras para 52.768 treinamento e 400 amostras de teste para criar o MusicBench !
- MusicNet - MusicNet é uma coleção de 330 gravações de música clássica livremente licenciada, juntamente com mais de 1 milhão de etiquetas anotadas, indicando o tempo preciso de cada nota em cada gravação, o instrumento que reproduz cada nota e a posição da nota na estrutura métrica do composição. Os rótulos são adquiridos de pontuações musicais alinhadas a gravações por deformação dinâmica do tempo. Os rótulos são verificados por músicos treinados; Estimamos uma taxa de erro de rotulagem de 4%. Oferecemos as etiquetas MusicNet para as comunidades de aprendizado de máquina e música como um recurso para modelos de treinamento e uma referência comum para comparar resultados.
- MusicCaps - MusicCaps é um conjunto de dados composto por pares de texto de 5,5k de música, com descrições de texto ricas fornecidas por especialistas humanos.
- Musedata - Musedata é uma biblioteca eletrônica de música clássica orquestral e piano da CCARH. Consiste em cerca de 3 MB de 783 arquivos.
- MUSDB18 - O MUSDB18 é um conjunto de dados de 150 faixas musicais completas (duração ~ 10H) de diferentes gêneros, juntamente com sua bateria isolada, baixo, vocais e outros hastes. O conjunto de dados é dividido em conjuntos de treinamento e teste com 100 e 50 músicas, respectivamente. Todos os sinais são estereofônicos e codificados a 44,1kHz.
- Tópicos de música e metadados - Este conjunto de dados fornece uma lista de letras de 1950 a 2019, descrevendo metadados musicais como tristeza, dançarabilidade, sonoridade, acústica etc. Também fornecemos algumas informações como letras que podem ser usadas para o processamento de linguagem natural.
- GENRES MUSIC DATASET - DATASET de 1494 gêneros, cada um contendo 200 músicas.
- Partocina multimodal conjunto de dados - MSMD é um conjunto de dados sintéticos de 497 peças de músicas (clássicas) que contêm representações de áudio e pontuação das peças alinhadas em um nível de grão fino (344.742 pares de pontas de notas alinhadas ao áudio/contrapartida Midi).
- Muvi-Sync-O conjunto de dados Muvi-Sync é um conjunto de dados de vários modelos que compreende recursos musicais (acorde, chave, volume e densidade de anotações) e recursos de vídeo (deslocamento da cena, emoção, movimento e semântico) extraídos de um total de 748 videoclipes.
- Nlakh - Nlakh é um conjunto de dados para recuperação de instrumentos musicais. É uma combinação do conjunto de dados NSYNTH, que fornece um grande número de instrumentos e o conjunto de dados lakh, que fornece dados MIDI de várias faixas.
- NSYNTH - NSYNTH é um conjunto de dados de uma foto instrumental, contendo 305.979 notas musicais com tom, timbre e envelope exclusivos. Os sons foram coletados de 1006 instrumentos das bibliotecas de amostras comerciais e são anotados com base em sua fonte (acústica, eletrônica ou sintética), família de instrumentos e qualidades sônicas. As famílias de instrumentos usadas na anotação são graves, latão, flauta, guitarra, teclado, martelo, órgão, junta, cordas, chumbo e vocal. Foram gerados quatro segundos trechos de áudio monofônicos de 16kHz (notas) para os instrumentos.
- NES-MDB (banco de dados de música do sistema de entretenimento Nintendo)-O Nintendo Entertainment System Music Database (NES-MDB) é um conjunto de dados destinado à criação de sistemas de composição musical automática para o sintetizador de áudio da NES. Consiste em 5278 músicas das trilhas sonoras de 397 jogos NES. O conjunto de dados representa 296 compositores exclusivos, e as músicas contêm mais de dois milhões de notas combinadas. Possui opções de formato de arquivo para MIDI, SCORE e NLM (Modelagem de Idiomas NES).
- Conjunto de dados de progressão de acordes Niko - O conjunto de dados de progressão de acordes Niko é usado no Accomontage2. Ele contém peças de progressão de 5k+ acordes, rotuladas com estilos. Existem quatro estilos no total: Standard, complexo pop, escuro e R&B.
- ONAIR MUSIC DATASET -? Um novo conjunto de dados STEM para pesquisas de desmacatamento musical, do projeto musical da OnAir Royalty-Free.
- OpenCpop - OpenCpop , um corpus de mandarim de alta qualidade disponível ao público, foi projetado para cantar sistemas de síntese de voz (SVS). Este corpus consiste em 100 músicas únicas de mandarim , gravadas por uma cantora profissional. Todos os arquivos de áudio foram gravados com a qualidade do estúdio a uma taxa de amostragem de 44.100 Hz em um ambiente de estúdio de gravação profissional .
- OpenGufeng - Um conjunto de dados de progressão de melodia e acordes para música chinesa Gufeng.
- PBSCSR - O conjunto de dados de reconhecimento de estilo compositor de pontuação do piano Bootleg. Nosso objetivo abrangente era criar um conjunto de dados para estudar o reconhecimento do estilo compositor que é "tão acessível quanto o MNIST e o mais desafiador que o Imagenet". Para atingir esse objetivo, amostramos fragmentos de pontuação de piano de piano de imagens de partituras de piano no IMSLP. O próprio conjunto de dados contém 40.000 imagens de pontuação de 62x64 para uma tarefa de classificação de 9 vias, 100.000 imagens de pontuação de 62x64 para uma tarefa de classificação de 100 vias e 29.310 imagens de pontuação de limpeza de variável não identificada para pré-treinamento.
- POP909 - POP909 é um conjunto de dados que contém várias versões dos arranjos de piano de 909 músicas populares criadas por músicos profissionais. O corpo principal do conjunto de dados contém a melodia vocal, a melodia do instrumento principal e o acompanhamento de piano para cada música no formato MIDI, que estão alinhados aos arquivos de áudio originais. Além disso, são fornecidas anotações de ritmo, batida, chave e acordes, onde as curvas de ritmo são marcadas à mão e outras são feitas pelos algoritmos MIR.
- Proggp - Um conjunto de dados de 173 músicas progressivas de metal, nos formatos Guitarpro e Token, conforme as especificações no DADAGP.
- RWC (Banco de Dados de Música de Computação do Mundo Real) - O Banco de Dados de Música RWC (World World Computing) é um banco de dados de música com direitos autorais (DB) que está disponível para pesquisadores como uma base comum para a pesquisa. Ele contém cerca de 100 músicas completas com limites de seção rotulados manualmente. Para os 50 instrumentos, os sons individuais em intervalos de meio tom foram capturados com várias variações de estilos de jogo, dinâmica, fabricantes de instrumentos e músicos.
- Sangeet - Um conjunto de dados XML para a música clássica Hindustani. A Sangeet preserva todas as informações necessárias de qualquer composição, incluindo metadados, informações estruturais, notacionais, rítmicas e melódicas de maneira padronizada para armazenamento e extração fáceis e eficientes de informações musicais. O conjunto de dados tem como objetivo fornecer as informações da verdade para as tarefas de pesquisa de informações musicais, apoiando assim várias análises orientadas a dados de uma perspectiva de aprendizado de máquina.
- Singkt -Dataset - Singkt é um conjunto de dados de avaliação de desempenho musical no campo do KT, que tenta utilizar métodos de rastreamento de conhecimento para capturar as mudanças dinâmicas nas habilidades de visão dos alunos. O conjunto de dados coleta dados de uma plataforma de prática de visão inteligente pública, Singmaster. O conjunto de dados Singkt contém a tabela de dados de registro de resposta principal (registros) e duas tabelas de dados de informações suplementares (Userds, opernds). A tabela Userds registra informações de visão para os 1074 alunos contidos no conjunto de dados e as informações da folha de músicas da tabela Opernds registra.
- SLAKH2100-O conjunto de dados Synthesized Lakh (SLAKH) é um conjunto de dados para a separação da fonte de áudio que é sintetizada a partir do conjunto de dados do lakh midi v0.1 usando instrumentos virtuais baseados em amostras de grau profissional. Esta primeira versão do SLAKH, chamada SLAKH2100, contém 2100 faixas automaticamente mixadas e os arquivos MIDI que acompanham sintetizados usando um mecanismo de amostragem de grau profissional. As faixas no SLAKH2100 são divididas em treinamento (1500 faixas), validação (375 faixas) e subconjuntos de teste (225 faixas), totalizando 145 horas de misturas.
- SymphonyNet-O SymPonyNet é um projeto de código aberto, com o objetivo de gerar músicas complexas de várias faixas e multi-instrumentos como a Symphony. Nosso método é totalmente compatível com outros tipos de músicas, como pop, piano, música solo.
- DataSet solo da Tabla - O conjunto de dados solo da Tabla é uma coleção transcrita de gravações de áudio solo da Tabla Spanning Compositions de seis gharanas diferentes de tabla, tocados pelo PT. Arvind Mulgaonkar. O conjunto de dados consiste em transcrições de BOL alinhadas em áudio e tempo.
- Conjunto de dados do TEGRIDY MIDI - DATASET TEGRIDY MIDI PARA CREAÇÃO DE MODELOS DE MÚSICA DE MÚSICA PRÓXIMA E EFICATIVA.
- O conjunto de dados do Lakh MIDI - O conjunto de dados do Lakh Midi é uma coleção de 176.581 arquivos MIDI exclusivos, 45.129 dos quais foram correspondidos e alinhados às entradas no conjunto de dados de milhões de músicas. Seu objetivo é facilitar a recuperação de informações musicais em larga escala, simbólica (usando os arquivos MIDI) e baseados em conteúdo de áudio (usando informações extraídas dos arquivos MIDI como anotações para os arquivos de áudio correspondentes).
- O conjunto de dados de música italiana - o conjunto de dados é construído explorando as APIs Spotify e SoundCloud. É composto por mais de 14.500 músicas diferentes de músicos italianos famosos e menos famosos. Cada música no conjunto de dados é identificada por seu ID do Spotify e seu título. Os metadados das faixas incluem também letras lematizadas e marcadas com POS e, na maioria dos casos, dez recursos musicais diretamente reunidos do Spotify. As características musicais incluem acústica (flutuação), Danceability (Float), Duration_ms (int), energia (flutuação), instrumental (flutuação), LIVRE (FLOAT), volume (flutuação), fala (flutuação), ritmo (float) e valência ( flutuador).
- O corpus do piano persa - O corpus do piano persa é uma coleção abrangente de música de piano persa, que abrange dos primeiros compositores a figuras contemporâneas. Foi meticulosamente compilado e tornado publicamente acessível, com o objetivo de permitir que os pesquisadores explorem investigações especializadas e contribuam para novas descobertas. A abordagem baseada em instrumentos fornece um corpus completo relacionado ao piano persa, incluindo rótulos relevantes e metadados abrangentes.
- O conjunto de dados do descrição da música-o conjunto de dados do Descritor Song: um corpus de legendas de áudio para avaliação musical e linguagem. O conjunto de dados do Song Descrester é um conjunto de dados de avaliação feito de ~ 1,1k de legendas para 706 gravações musicais licenciadas permissivamente.
- Classificador de símbolo da música universal - um projeto Python que treina uma profunda rede neural para distinguir entre símbolos musicais.
- URMP (Performance musical multimodal da Universidade de Rochester)-URMP (performance musical multimodal da Universidade de Rochester) é um conjunto de dados para facilitar a análise audiovisual de apresentações musicais. O conjunto de dados compreende 44 peças musicais simples multi-instrumentos montadas a partir de performances coordenadas, mas gravadas separadamente de faixas individuais. Para cada peça, o conjunto de dados forneceu a pontuação musical no formato MIDI, as gravações de áudio de instrumentos individuais de alta qualidade e os vídeos das peças montadas.
- DataSet VGMIDI - VGMIDI é um conjunto de dados de arranjos de piano de trilhas sonoras de videogame. Ele contém 200 peças MIDI rotuladas de acordo com a emoção e 3.850 peças não marcadas. Cada peça rotulada foi anotada por 30 sujeitos humanos de acordo com o modelo de emoção Circumplex (Valência-Ausal).
- Virtuoso Strings - Virtuoso Strings é um conjunto de dados para detecção de onsets suaves para instrumentos de string. Consiste em mais de 144 gravações de performances profissionais de um trecho do String Quartet Op de Haydn. 74 Nº 1 final, cada um com anotações de início instrumental correspondentes.
- Wikimute - Wikimute: um conjunto de dados de descrições semânticas para o áudio da música. Neste estudo, apresentamos o Wikimute, um conjunto de dados novo e aberto que contém ricos descrições semânticas da música. Os dados são provenientes do rico catálogo de artigos da Wikipedia, cobrindo obras musicais. Usando um pipeline de mineração de texto dedicado, extraímos descrições de formato longo e curto, cobrindo uma ampla gama de tópicos relacionados ao conteúdo musical, como gênero, estilo, humor, instrumentação e ritmo.
- YM2413-MDB- YM2413-MDB é um conjunto de dados de música de videogame FM dos anos 80 com anotações emocionais de vários rótulos. Inclui 669 arquivos de música e MIDI de músicas dos jogos de PC Sega e MSX nos anos 80 usando o YM2413, um gerador de som programável baseado no FM. A música de jogo coletada é organizada com um subconjunto de 15 instrumentos monofônicos e um instrumento de bateria.
^ De volta ao conteúdo ^
Efeito sonoro
- DataSet de som animal - esses dados que consistem em 875 sons animais contêm 10 tipos de sons de animais. Este conjunto de dados Animal Sounds consiste em 200 gatos, 200 cães, 200 pássaros, 75 vaca, 45 leão, 40 ovelhas, 35 sapo, 30 frango, 25 burro, 25 sons de macacos.
- Audioset-O Audioset é um conjunto de dados de eventos de áudio, que consiste em mais de 2 milhões de videoclipes de anotamento humano de 10 segundos. Esses clipes são coletados no YouTube, portanto, muitos dos quais estão em baixa qualidade e contêm várias fontes sonoras. Uma ontologia hierárquica das classes de 632 eventos é empregada para anotar esses dados, o que significa que o mesmo som pode ser anotado como etiquetas diferentes. Por exemplo, o som do latido é anotado como animal, animais de estimação e cachorro. Todos os vídeos são divididos em avaliação/conjunto de trens/trenantes equilibrados.
- Audiocaps - Audiocaps é um conjunto de dados de sons com descrições de eventos que foram introduzidas para a tarefa de legendamento de áudio, com sons provenientes do conjunto de dados do Audioset. Os anotadores receberam as faixas de áudio juntamente com dicas de categoria (e com dicas de vídeo adicionais, se necessário).
- AUTO-ACD-Apresentamos um pipeline de geração de legenda de áudio inovador e automático, construímos um conjunto de dados em larga escala, de alta qualidade e linguagem de áudio, nomeado como ATO-ACD, compreendendo mais de pares de áudio-texto de 1,9M. As descrições de texto em ACD automático contêm textos longos (18 palavras) e diversos vocabulários (23K) e fornecem informações sobre o ambiente auditivo circundante (Data Point With Shadow) em que os sons ocorrem.
- Efeitos sonoros da BBC - Existem 33.066 efeitos sonoros no conjunto de dados de efeitos sonoros da BBC, com descrições de texto. Gênero: principalmente som ambiente. Cada áudio tem uma descrição textual natural.
- DCase 2016 - DCase 2016 é um conjunto de dados para detecção de eventos de som. Consiste em 20 arquivos de som mono curtos para cada uma das 11 classes de som (de ambientes de escritório, como Clearthroat, Gavet ou teclado), cada arquivo que contém uma instância de evento de som. Os arquivos de som são anotados com os tempos de evento e deslocamento, no entanto, os silêncios entre sons físicos reais (como com um telefone tocando) não são marcados e, portanto, "incluídos" no evento.
- Conjuntos de dados de áudio ambiental - Esta página tenta manter uma lista de conjuntos de dados adequados para pesquisa de áudio ambiental. Além do conjunto de dados disponível gratuitamente, também os conjuntos de dados proprietários e comerciais estão listados aqui para completar. Além dos conjuntos de dados, também alguns dos serviços de som on-line estão listados no final da página.
- ESC-50-O conjunto de dados ESC-50 é uma coleção rotulada de 2000 gravações de áudio ambiental adequadas para métodos de benchmarking de classificação de som ambiental. Compreende 2000 clipes 5S de 50 classes diferentes em sons naturais, humanos e domésticos, novamente, extraídos do Freesound.org.
- Fair-Play-Fair-Play é um conjunto de dados de Audio de vídeo composto por 1.871 videoclipes e seus correspondentes clipes de áudio binaural em uma sala de música. O videoclipe e o clipe binaural do mesmo índice estão alinhados aproximadamente.
- FSD50K (Banco de Dados de Freesound 50K) - DataSet de Freesound 50K (ou FSD50K para curta) é um conjunto de dados aberto de eventos sonoros marcados com humanos contendo 51.197 clipes de freesound distribuídos de maneira desigual em 200 classes extraídas da ontologia do Audioset. O FSD50K foi criado no grupo de tecnologia da música da Universitat Pompeu Fabra. Consiste principalmente em eventos sólidos produzidos por fontes de som físicas e mecanismos de produção, incluindo sons humanos, sons de coisas, animais, sons naturais, instrumentos musicais e muito mais.
- FSDNOISY18K-O conjunto de dados FSDNOISY18K é um conjunto de dados aberto que contém 42,5 horas de áudio em 20 aulas de eventos de som, incluindo uma pequena quantidade de dados marcados manualmente e uma quantidade maior de dados barulhentos do mundo real. O conteúdo de áudio é retirado do Freesound e o conjunto de dados foi com curadoria usando o Annotador Freesound. O conjunto barulhento de fsdnoisy18k consiste em 15.813 clipes de áudio (38,8h), e o conjunto de testes consiste em 947 clipes de áudio (1,4h) com rótulos corretos. O conjunto de dados possui dois tipos principais de ruído da etiqueta: in-vocabular (iv) e fora do vocabulário (OOV). O IV se aplica quando, dada a um rótulo observado incorreto ou incompleto, o rótulo verdadeiro ou ausente faz parte do conjunto da classe de destino. Analogamente, Oov significa que o rótulo verdadeiro ou ausente não é coberto por essas 20 classes.
- Fuss (separação de som universal livre) - O conjunto de dados de separação de som universal gratuito (FUSS) é um banco de dados de misturas de som arbitrárias e referências no nível da fonte, para uso em experimentos em separação de som arbitrária. O FUSS é baseado no FSD50K Corpus.
- Conjunto de conjuntos de sons inaturalistas - apresentamos o conjunto de dados de sons inaturalistas (Inatsounds), uma coleção de 230.000 arquivos de áudio que capturam sons de mais de 5.500 espécies, contribuídos por mais de 27.000 gravações em todo o mundo.
- Bate os efeitos sonoros com as intenções emocionais - o conjunto de dados foi gravado pelo artista profissional Foley Ulf Olausson no Foleyworks Studios em Estocolmo em 15 de outubro de 2019. Inspirado por trabalhos anteriores sobre sons de bate. Escolhemos cinco tipos de emoções a serem retratados no conjunto de dados: raiva, medo, felicidade, neutro e tristeza.
- MIMII - o conjunto de dados de som para investigação e inspeção de máquinas industriais (MIMII) funcionar com mau funcionamento é um conjunto de dados de sons de máquinas industriais.
- Conjunto de dados de eventos de áudio da MIVIA - O conjunto de dados de eventos de áudio da MIVIA é compor um total de 6000 eventos para aplicação de vigilância, ou seja, quebra de vidro, armas e gritos. O evento 6000 está dividido em um conjunto de treinamento (compor o evento 4200) e um conjunto de testes (composição de 1800 Evento).
- DataSet de áudio Pitch (Surge Synthesizer) - 3,4 horas de áudio sintetizadas usando o sintetizador de pico de código aberto, com base em 2084 predefinições incluídas no pacote de surto. Estes representam sons de síntese `` natural ''-iepresets criados pelos seres humanos. Geramos amostras de 4 segundos jogando na velocidade 64 com uma duração de anotações de 3 segundos. Para cada predefinição, variamos apenas o tom, de Midi 21-108, o alcance de um piano de cauda. Todo som no conjunto de dados foi normalizado no nível RMS usando o pacote normalizado. Não havia uma maneira elegante de deduzir esse conjunto de dados; No entanto, apenas uma pequena porcentagem de predefinições (como bateria e efeitos sonoros) não teve variação ou pedidos de afinação perceptiva.
- REMFX - REMFX: conjuntos de dados de avaliação. Esses conjuntos de dados são originários de dados Vocalset, Guitarset, DSD100 e IDMT-SMT-DRUMS antes de serem processados em nosso script de geração de dados. Os conjuntos de dados são nomeados de acordo com o número de efeitos aplicados (0-5). Por exemplo, 2-2.ZIP contém 2 efeitos aplicados a cada exemplo de áudio de entrada. Os alvos são deixados intocados. Os efeitos de áudio aplicados são do conjunto (distorção, atraso, compressor de faixa dinâmica, phasor, reverb) e amostrados aleatoriamente sem substituição para cada exemplo.
- Soundcam-Soundcam, o maior conjunto de dados de rirs exclusivos de salas de Wild lançadas publicamente até o momento. Inclui 5.000 medidas de 10 canais no mundo real das respostas de impulso da sala e 2.000 gravações de música em 10 canais em três salas diferentes, incluindo um laboratório acústico controlado, uma sala de estar no wild e uma sala de conferências, com humanos diferentes em posições em cada quarto.
- SOLEAREARTH - O SOUNDINGINEEMTE CONSTECIMENTO DE IMAGEMAS APERIAIS CO -LOCATIVAS E AMOSTRAS DE ÁUDIO EM TODO O MUNDO.
- Bibliotecha espacial-Biblioteca espacial, é um conjunto de dados de áudio espacial com mais de 650 horas de ambisonics de primeira ordem e ruído opcional do distrator (com áudio bruto de 19 canais em breve). O Spatial Librispeech foi projetado para treinamento de modelos de aprendizado de máquina e inclui rótulos para posição de fonte, direção de fala, acústica da sala e geometria. A bibliotecia espacial foi gerada aumentando as amostras de bibliotecia com condições acústicas simuladas de 200k+ em salas sintéticas de 8k+.
- STARS22 (paisagens sonoras espaciais realistas da Sony-Tau 2022)-A paisagem sonora espacial realista da Sony-tau 2022 (STARS22) o conjunto de dados consiste em gravações de cenas reais capturadas com a matriz esférica de microfones de alta contagem de canais (SMA). As gravações são realizadas a partir de duas equipes diferentes em dois locais diferentes, a Universidade Tampere em Tammere, Finlândia e Sony Instalações em Tóquio, Japão. As gravações em ambos os sites compartilham o mesmo processo de captura e anotação e uma organização semelhante.
- TOYADMOS - O conjunto de dados ToyAdmos é um conjunto de dados de sons de operação de máquina de aproximadamente 540 horas de sons de operação de máquina normais e mais de 12.000 amostras de sons anômalos coletados com quatro microfones em uma taxa de amostragem de 48kHz, preparada por Yuma Koizumi e membros em trabalhadores de inteligência de mídia NTT.
- Tut Sound Events 2017 - O conjunto de dados Tut Sound Events 2017 contém 24 gravações de áudio em um ambiente de rua e contém 6 classes diferentes. Essas aulas são: freios chiando, carro, crianças, veículos grandes, pessoas falando e pessoas andando.
- Urbansound8K - Urban Sound 8K é um conjunto de dados de áudio que contém 8732 trechos de som rotulados (<= 4s) de sons urbanos de 10 classes: Air_condicionador, car_horn, Children_Playing, Dog_Bark, Drilling, Enginge_idling, Gun_Shot, Jackhammer, Siren, e Street_mernic. As classes são extraídas da taxonomia do som urbano. Todos os trechos são retirados das gravações de campo enviadas para www.freesound.org.
- VGG-Sound - A large scale audio-visual dataset. VGG-Sound is an audio-visual correspondent dataset consisting of short clips of audio sounds, extracted from videos uploaded to YouTube.
- Visually Indicated Sounds - Materials make distinctive sounds when they are hit or scratched — dirt makes a thud; ceramic makes a clink. These sounds reveal aspects of an object's material properties, as well as the force and motion of the physical interaction.
^ Back to Contents ^