¿Conjuntos de datos de audio AI (AI-ADS)?
Conjuntos de datos de audio de IA (AI-ADS)?, que incluyen voz, música y efectos de sonido, que pueden proporcionar datos de entrenamiento para IA generativa, AIGC, entrenamiento de modelos de IA, desarrollo de herramientas de audio inteligentes y aplicaciones de audio.
Tabla de contenido
- Discurso
- Música
- Efecto de sonido
Lista de proyectos
Discurso
- AISHELL-1 - AISHELL-1 es un corpus para la investigación del reconocimiento de voz y la construcción de sistemas de reconocimiento de voz para mandarín.
- AISHELL-3 - AISHELL-3 es un corpus de voz en mandarín de múltiples hablantes a gran escala y de alta fidelidad publicado por Beijing Shell Shell Technology Co., Ltd. Se puede utilizar para entrenar sistemas de texto a voz (TTS) de múltiples hablantes. El corpus contiene aproximadamente 85 horas de grabaciones de emociones neutrales habladas por 218 hablantes nativos de chino mandarín y un total de 88035 expresiones.
- Corpus de voz árabe: el corpus de voz árabe (1,5 GB) es un corpus de voz en árabe estándar moderno (MSA) para síntesis de voz. El corpus contiene transcripciones fonéticas y ortográficas de más de 3,7 horas de habla MSA alineadas con habla grabada a nivel de fonemas. Las anotaciones incluyen marcas de acento en los fonemas individuales.
- AudioMNIST: el conjunto de datos consta de 30000 muestras de audio de dígitos hablados (0-9) de 60 hablantes diferentes.
- AVSpeech: AVSpeech es un conjunto de datos audiovisuales a gran escala que comprende clips de voz sin señales de fondo que interfieran. Los segmentos tienen una duración variable, entre 3 y 10 segundos, y en cada clip el único rostro visible en el vídeo y sonido audible en la banda sonora pertenece a una sola persona que habla. En total, el conjunto de datos contiene aproximadamente 4.700 horas de segmentos de vídeo con aproximadamente 150.000 hablantes distintos, que abarcan una amplia variedad de personas, idiomas y poses faciales.
- ATIS (Sistemas de información de viajes de aerolíneas): ATIS (Sistemas de información de viajes de aerolíneas) es un conjunto de datos que consta de grabaciones de audio y las correspondientes transcripciones manuales sobre humanos que solicitan información de vuelos en sistemas automatizados de consulta de viajes de aerolíneas. Los datos constan de 17 categorías de intención únicas. La división original contiene 4478, 500 y 893 expresiones de referencia etiquetadas con intención en el conjunto de tren, desarrollo y prueba, respectivamente.
- Conjunto de datos de Carnatic Varnam: el conjunto de datos de Carnatic varnam es una colección de 28 grabaciones vocales solistas, grabadas para nuestra investigación sobre el análisis de la entonación de Carnatic ragas. La colección consta de grabaciones de audio, anotaciones de ciclos de tala alineadas en el tiempo y notaciones swara en un formato legible por máquina.
- Conversaciones casuales: el conjunto de datos de Conversaciones casuales está diseñado para ayudar a los investigadores a evaluar la precisión de sus modelos de audio y visión por computadora en un conjunto diverso de edades, géneros, tonos de piel aparentes y condiciones de iluminación ambiental.
- CN-Celeb: CN-Celeb es un conjunto de datos de reconocimiento de hablantes a gran escala recopilados "en la naturaleza". Este conjunto de datos contiene más de 130.000 declaraciones de 1.000 celebridades chinas y cubre 11 géneros diferentes en el mundo real.
- Cloto: Cloto es un conjunto de datos de subtítulos de audio que consta de 4981 muestras de audio y cada muestra de audio tiene cinco subtítulos (un total de 24 905 subtítulos). Las muestras de audio tienen una duración de 15 a 30 segundos y los subtítulos tienen entre ocho y 20 palabras.
- Common Voice: Common Voice es un conjunto de datos de audio que consta de un MP3 único y el archivo de texto correspondiente. Hay 9.283 horas registradas en el conjunto de datos. El conjunto de datos también incluye metadatos demográficos como edad, sexo y acento. El conjunto de datos consta de 7.335 horas validadas en 60 idiomas.
- CoVoST: CoVoST es un corpus de traducción de voz a texto multilingüe a gran escala. Su última segunda versión cubre traducciones de 21 idiomas al inglés y del inglés a 15 idiomas. Tiene un total de 2880 horas de discurso y está diversificado con 78.000 hablantes y 66 acentos.
- CVSS: CVSS es un corpus de traducción de voz a voz (S2ST) masivamente multilingüe a inglés, que cubre pares S2ST paralelos a nivel de oración de 21 idiomas al inglés. CVSS se deriva del corpus de voz Common Voice y del corpus de traducción de voz a texto (ST) CoVoST 2, sintetizando el texto traducido de CoVoST 2 en voz utilizando sistemas TTS de última generación.
- EasyCom: el conjunto de datos Easy Communications (EasyCom) es un conjunto de datos pionero en el mundo diseñado para ayudar a mitigar el efecto cóctel desde una visión del mundo egocéntrica de múltiples sensores motivada por la realidad aumentada (AR). El conjunto de datos contiene audio de matriz de micrófono multicanal egocéntrico de gafas AR, video RGB de amplio campo de visión, pose de fuente de voz, audio de micrófono de auriculares, actividad de voz anotada, transcripciones de voz, cuadros delimitadores de cabeza y rostro y etiquetas de identificación de fuente. Hemos creado y estamos publicando este conjunto de datos para facilitar la investigación de soluciones de RA multimodal para el problema de los cócteles.
- Emilia: el conjunto de datos de Emilia es un recurso multilingüe integral que incluye más de 101 000 horas de datos de voz en seis idiomas diferentes: inglés (En), chino (Zh), alemán (De), francés (Fr), japonés (Ja) y coreano. (Ko). Presenta diversos datos de voz que representan varios estilos de habla de numerosas plataformas de vídeo y podcasts en Internet, abarcando una amplia gama de géneros de contenido como programas de entrevistas, entrevistas, debates, comentarios deportivos y audiolibros.
- ESD (Base de datos del habla emocional): ESD es una base de datos del habla emocional para la investigación de la conversión de voz. La base de datos de ESD consta de 350 expresiones paralelas pronunciadas por 10 hablantes nativos de inglés y 10 hablantes nativos de chino y cubre 5 categorías de emociones (neutral, feliz, enojado, triste y sorpresa). Se registraron más de 29 horas de datos de voz en un entorno acústico controlado. La base de datos es adecuada para estudios de conversión de voz emocional en varios hablantes y en varios idiomas.
- Conjunto de datos de discurso abierto de FPT (FOSD): este conjunto de datos consta de 25,921 discursos vietnamitas grabados (con sus transcripciones y las horas de inicio y finalización etiquetadas de cada discurso) compilados manualmente a partir de 3 subconjuntos de datos (aproximadamente 30 horas en total) publicados públicamente en 2018 por Corporación FPT.
- Conjunto de datos de dígitos hablados gratuito (FSDD): un conjunto de datos de audio gratuito de dígitos hablados. Piense en MNIST para audio. Un conjunto de datos de audio/voz simple que consta de grabaciones de dígitos hablados en archivos wav a 8 kHz. Las grabaciones se recortan para que tengan un silencio casi mínimo al principio y al final.
- Fluent Speech Commands: Fluent Speech Commands es un conjunto de datos de audio de código abierto para experimentos de comprensión del lenguaje hablado (SLU). Cada expresión está etiquetada con valores de "acción", "objeto" y "ubicación"; por ejemplo, "encender las luces de la cocina" tiene la etiqueta {"acción": "activar", "objeto": "luces", "ubicación": "cocina"}. Un modelo debe predecir cada uno de estos valores, y una predicción para un enunciado se considera correcta sólo si todos los valores son correctos.
- Conjuntos de datos de Genshin: conjuntos de datos de Genshin para SVC/SVS/TTS.
- GenshinVoice: conjunto de datos de voz de Genshin Impact 原神语音数据集
- GigaSpeech: GigaSpeech, un corpus de reconocimiento de voz en inglés multidominio y en evolución con 10 000 horas de audio etiquetado de alta calidad adecuado para capacitación supervisada y 40 000 horas de audio total adecuadas para capacitación semisupervisada y no supervisada.
- GigaSpeech 2: un corpus ASR multidominio, de gran escala y en evolución para lenguajes de bajos recursos con rastreo, transcripción y refinamiento automatizados.
- How2: el conjunto de datos de How2 contiene 13 500 videos o 300 horas de discurso y se divide en 185 187 expresiones de capacitación, 2022 de desarrollo (dev) y 2361 expresiones de prueba. Tiene subtítulos en inglés y traducciones al portugués colaboradas.
- inaGVAD: un desafiante conjunto de datos de radio y televisión francesa anotado para la detección de actividad de voz (VAD) y segmentación de género del hablante (SGS) con guiones de evaluación y un esquema de anotación detallado que detalla el tipo de evento no relacionado con el habla, los rasgos del hablante y la calidad del habla.
- KdConv: KdConv es un conjunto de datos chino de conversión de datos basado en el conocimiento y multidominio, que basa los temas en conversaciones de varios turnos en gráficos de conocimiento. KdConv contiene 4,5 000 conversaciones de tres dominios (cine, música y viajes) y 86 000 expresiones con un número de turnos promedio de 19,0. Estas conversaciones contienen discusiones en profundidad sobre temas relacionados y una transición natural entre múltiples temas, mientras que el corpus también se puede utilizar para la exploración del aprendizaje por transferencia y la adaptación de dominios.
- Libriheavy - Libriheavy: un corpus ASR de 50.000 horas con puntuación y contexto.
- LibriSpeech: el corpus LibriSpeech es una colección de aproximadamente 1000 horas de audiolibros que forman parte del proyecto LibriVox. La mayoría de los audiolibros provienen del Proyecto Gutenberg. Los datos de entrenamiento se dividen en 3 particiones de conjuntos de 100 horas, 360 horas y 500 horas, mientras que los datos de desarrollo y prueba se dividen en las categorías "limpio" y "otro", respectivamente, dependiendo de qué tan bien o desafiantes se comportarían los sistemas de reconocimiento automático de voz. . Cada uno de los conjuntos de desarrollo y prueba tiene una duración de audio de aproximadamente 5 horas.
- LibriTTS: LibriTTS es un corpus de inglés para varios hablantes de aproximadamente 585 horas de lectura de voz en inglés a una frecuencia de muestreo de 24 kHz, preparado por Heiga Zen con la ayuda de los miembros del equipo de Google Speech y Google Brain. El corpus LibriTTS está diseñado para la investigación de TTS. Se deriva de los materiales originales (archivos de audio mp3 de LibriVox y archivos de texto del Proyecto Gutenberg) del corpus LibriSpeech.
- LibriTTS-R - LibriTTS-R: un corpus de conversión de texto a voz para varios hablantes restaurado. Se obtiene aplicando la restauración del habla al corpus LibriTTS, que consta de 585 horas de datos de voz a una frecuencia de muestreo de 24 kHz de 2456 hablantes y los textos correspondientes. Las muestras que componen LibriTTS-R son idénticas a las de LibriTTS, sólo que se mejora la calidad del sonido.
- LJSpeech (The LJ Speech Dataset): este es un conjunto de datos de voz de dominio público que consta de 13.100 clips de audio cortos de un solo orador leyendo pasajes de 7 libros de no ficción. Se proporciona una transcripción para cada clip. Los clips varían en duración de 1 a 10 segundos y tienen una duración total de aproximadamente 24 horas. Los textos fueron publicados entre 1884 y 1964, y son de dominio público. El audio fue grabado en 2016-17 por el proyecto LibriVox y también es de dominio público.
- LRS2 (Lip Reading Sentences 2): el conjunto de datos Oxford-BBC Lip Reading Sentences 2 (LRS2) es uno de los conjuntos de datos más grandes disponibles públicamente para oraciones de lectura de labios en estado salvaje. La base de datos se compone principalmente de noticias y programas de entrevistas de la BBC. Cada oración tiene hasta 100 caracteres de longitud.
- LRW (Lip Reading in the Wild): el conjunto de datos Lip Reading in the Wild (LRW), una base de datos audiovisual a gran escala que contiene 500 palabras diferentes de más de 1000 hablantes. Cada expresión tiene 29 cuadros, cuyo límite se centra alrededor de la palabra objetivo. La base de datos se divide en conjuntos de entrenamiento, validación y prueba. El conjunto de entrenamiento contiene al menos 800 expresiones para cada clase, mientras que los conjuntos de validación y prueba contienen 50 expresiones.
- MuAViC: un corpus audiovisual multilingüe para un reconocimiento de voz sólido y una traducción de voz a texto sólida.
- MuST-C: MuST-C representa actualmente el corpus multilingüe (uno a muchos) disponible públicamente más grande para traducción de voz. Cubre ocho direcciones lingüísticas, del inglés al alemán, español, francés, italiano, holandés, portugués, rumano y ruso. El corpus consta de audio, transcripciones y traducciones de charlas TED en inglés, y viene con una división predefinida de capacitación, validación y prueba.
- MetaQA (MoviE Text Audio QA): el conjunto de datos MetaQA consta de una ontología de películas derivada del conjunto de datos WikiMovies y tres conjuntos de pares de preguntas y respuestas escritas en lenguaje natural: consultas de 1 salto, 2 saltos y 3 saltos.
- MELD (Conjunto de datos Multimodal EmotionLines): el conjunto de datos Multimodal EmotionLines (MELD) se ha creado mejorando y ampliando el conjunto de datos EmotionLines. MELD contiene las mismas instancias de diálogo disponibles en EmotionLines, pero también abarca modalidad audio y visual junto con texto. MELD tiene más de 1400 diálogos y 13000 declaraciones de la serie de televisión Friends. Varios oradores participaron en los diálogos. Cada expresión en un diálogo ha sido etiquetada por cualquiera de estas siete emociones: ira, disgusto, tristeza, alegría, neutral, sorpresa y miedo. MELD también tiene anotaciones de sentimiento (positivo, negativo y neutral) para cada expresión.
- Microsoft Speech Corpus (idiomas indios): la versión de Microsoft Speech Corpus (idiomas indios) contiene datos de prueba y entrenamiento de habla conversacional y de frases para los idiomas telugu, tamil y gujarati. El paquete de datos incluye audio y las transcripciones correspondientes. Los datos proporcionados en este conjunto de datos no se utilizarán con fines comerciales. Puede utilizar los datos únicamente con fines de investigación. Si publica sus hallazgos, debe proporcionar la siguiente atribución: "Datos proporcionados por Microsoft y SpeechOcean.com".
- PATS (Estilo de transcripción de audio de pose): el conjunto de datos PATS consta de una gran y diversa cantidad de transcripciones, audio y poses alineados. Con este conjunto de datos, esperamos proporcionar un punto de referencia que ayude a desarrollar tecnologías para agentes virtuales que generen gestos naturales y relevantes.
- RealMAN - RealMAN: un conjunto de datos de matriz de micrófonos grabados y anotados en tiempo real para la localización y mejora dinámica del habla.
- SAVEE (Surrey Audio-Visual Expressed Emotion): el conjunto de datos Surrey Audio-Visual Expressed Emotion (SAVEE) se registró como requisito previo para el desarrollo de un sistema automático de reconocimiento de emociones. La base de datos consta de grabaciones de 4 actores masculinos en 7 emociones diferentes, 480 expresiones en inglés británico en total. Las oraciones fueron elegidas del corpus estándar TIMIT y balanceadas fonéticamente para cada emoción.
- SoS_Dataset - Sonido de la historia: narración multimodal con audio. La narración de historias es multimodal en el mundo real. Cuando uno cuenta una historia, puede utilizar todas las visualizaciones y sonidos junto con la historia misma. Sin embargo, estudios anteriores sobre conjuntos de datos y tareas de narración han prestado poca atención al sonido, aunque el sonido también transmite una semántica significativa de la historia. Por lo tanto, proponemos ampliar las áreas de comprensión y narración de historias mediante el establecimiento de un nuevo componente llamado "sonido de fondo", que es audio basado en el contexto de la historia sin ninguna información lingüística.
- Colección de conjuntos de datos de voz: esta es una lista seleccionada de conjuntos de datos de voz abiertos para investigaciones relacionadas con el habla (principalmente para el reconocimiento automático de voz). En este repositorio se recopilan más de 110 conjuntos de datos de voz y más de 70 conjuntos de datos se pueden descargar directamente sin necesidad de más solicitudes o registros.
- Speech Dataset Generator: Speech Dataset Generator se dedica a crear conjuntos de datos adecuados para entrenar modelos de texto a voz o de voz a texto. La funcionalidad principal implica transcribir archivos de audio, mejorar la calidad del audio cuando sea necesario y generar conjuntos de datos.
- Conjuntos de datos de altavoces 3D: un conjunto de datos de audio a gran escala para múltiples dispositivos, múltiples distancias y múltiples dialectos del habla humana.
- TED-LIUM - Transcripción de audio de la charla TED. 1495 grabaciones de audio de charlas TED junto con transcripciones de texto completo de esas grabaciones, creadas por el Laboratoire d'Informatique de l'Université du Maine (LIUM).
- El corpus de subtítulos de audio de Flickr: el corpus de subtítulos de audio de Flickr 8k contiene 40.000 subtítulos hablados de 8.000 imágenes naturales. Se recopiló en 2015 para investigar esquemas de aprendizaje multimodal para el descubrimiento de patrones de habla no supervisados.
- The People's Speech - The People's Speech es un conjunto de datos de reconocimiento de voz conversacional en inglés supervisado y en crecimiento de 30.000 horas de descarga gratuita y con licencia para uso académico y comercial bajo CC-BY-SA (con un subconjunto CC-BY). Los datos se recopilan mediante la búsqueda en Internet de datos de audio con la licencia adecuada y con transcripciones existentes.
- The Spoken Wikipedia Corpora: el proyecto Spoken Wikipedia une a lectores voluntarios de artículos de Wikipedia. Cientos de artículos hablados en varios idiomas están disponibles para los usuarios que, por una razón u otra, no pueden o no quieren consumir la versión escrita del artículo.
- TIMIT: el corpus de habla continua acústico-fonética de DARPA TIMIT.
- tts-frontend-dataset - Conjunto de datos TTS FrontEnd: polífono/prosodia/normalización de texto.
- VoxCeleb2: VoxCeleb2 es un conjunto de datos de reconocimiento de locutores a gran escala obtenido automáticamente de medios de código abierto. VoxCeleb2 consta de más de un millón de declaraciones de más de 6.000 hablantes. Dado que el conjunto de datos se recopila "en la naturaleza", los segmentos de voz están corrompidos con ruido del mundo real, incluidas risas, conversaciones cruzadas, efectos de canal, música y otros sonidos. El conjunto de datos también es multilingüe, con habla de hablantes de 145 nacionalidades diferentes, abarcando una amplia gama de acentos, edades, etnias e idiomas.
- VoxConverse: VoxConverse es un conjunto de datos de diarización audiovisual que consta de clips de habla humana de varios hablantes, extraídos de vídeos de YouTube.
- VoxLingua107 - VoxLingua107 es un conjunto de datos para el reconocimiento del lenguaje hablado de 6628 horas (62 horas por idioma en promedio) y va acompañado de un conjunto de evaluación de 1609 expresiones verificadas.
- VoxPopuli: VoxPopuli es un corpus multilingüe a gran escala que proporciona 100.000 horas de datos de voz sin etiquetar en 23 idiomas. Se trata de los datos abiertos más grandes hasta la fecha para el aprendizaje de representación no supervisado, así como para el aprendizaje semisupervisado. VoxPopuli también contiene 1,8 mil horas de discursos transcritos en 16 idiomas y sus interpretaciones orales alineadas en otros cinco idiomas, por un total de 5,1 mil horas.
- VoxForge: VoxForge es un conjunto de datos de voz abierto que se configuró para recopilar voz transcrita para su uso con motores de reconocimiento de voz gratuitos y de código abierto (en Linux, Windows y Mac).
- VocalSound: VocalSound es un conjunto de datos gratuito que consta de 21.024 grabaciones colaborativas de risas, suspiros, tos, carraspeos, estornudos y olfateos de 3.365 sujetos únicos. El conjunto de datos de VocalSound también contiene metainformación, como la edad, el sexo, el idioma nativo, el país y el estado de salud del hablante.
- VoiceBank + DEMAND: VoiceBank+DEMAND es una base de datos de voz ruidosa para entrenar algoritmos de mejora del habla y modelos TTS. La base de datos fue diseñada para entrenar y probar métodos de mejora del habla que funcionan a 48 kHz. Puede encontrar una descripción más detallada en el documento asociado con la base de datos.
- WaveFake: WaveFake es un conjunto de datos para la detección de audio deepfake. El conjunto de datos consta de un conjunto de datos a gran escala de más de 100.000 clips de audio generados.
- WenetSpeech: WenetSpeech es un corpus en mandarín multidominio que consta de más de 10 000 horas de voz etiquetada de alta calidad, más de 2400 horas de voz débilmente etiquetada y aproximadamente 10 000 horas de voz sin etiquetar, con más de 22 400 horas en total. Los autores recopilaron datos de YouTube y Podcast, que cubren una variedad de estilos de habla, escenarios, dominios, temas y condiciones ruidosas. Se introduce un método basado en reconocimiento óptico de caracteres (OCR) para generar candidatos de segmentación de audio/texto para los datos de YouTube en sus subtítulos de vídeo correspondientes.
- WSJ0-2mix: WSJ0-2mix es un corpus de reconocimiento de voz de mezclas de voz que utiliza expresiones del corpus del Wall Street Journal (WSJ0).
- ¡ZA! (WSJ0 Hipster Ambient Mixtures): el conjunto de datos WSJ0 Hipster Ambient Mixtures ( ¡WHAM! ) combina cada mezcla de dos altavoces en el conjunto de datos wsj0-2mix con una escena de fondo de ruido única. El audio del ruido se recopiló en varios lugares urbanos del Área de la Bahía de San Francisco a finales de 2018. Los entornos consisten principalmente en restaurantes, cafeterías, bares y parques. El audio se grabó utilizando un micrófono binaural Apogee Sennheiser colocado en un trípode a entre 1,0 y 1,5 metros del suelo.
- YODAS: este es el subconjunto manual/automático de YODAS de nuestro conjunto de datos de YODAS, tiene 369,510 horas de conversación. Este conjunto de datos contiene expresiones de audio y subtítulos correspondientes (manuales o automáticos) de YouTube. Tenga en cuenta que el título manual solo indica que lo cargan los usuarios, pero no necesariamente lo transcribe un ser humano.
- YODAS2: YODAS2 es el conjunto de datos de formato largo del conjunto de datos YODAS. Proporciona el mismo conjunto de datos que espnet/yodas, pero YODAS2 tiene las siguientes características nuevas: 1. Formateado en formato largo (nivel de video) donde los audios no están segmentados. 2. Los audios se codifican utilizando velocidades de muestreo más altas (es decir, 24k).
- YTTTS: el conjunto de datos de conversión de texto a voz de YouTube se compone de audio de forma de onda extraído de vídeos de YouTube junto con sus transcripciones en inglés.
^ Volver al contenido ^
Música
- AAM: conjunto de datos de pistas múltiples de audio artificial: este conjunto de datos contiene 3000 pistas de audio de música artificial con ricas anotaciones. Está basado en muestras de instrumentos reales y generado mediante composición algorítmica con respecto a la teoría musical. Proporciona mezclas completas de las canciones, así como pistas de un solo instrumento. También están disponibles los midis utilizados para la generación. Los archivos de anotaciones incluyen: inicios, tonos, instrumentos, tonalidades, tempos, segmentos, instrumento de melodía, tiempos y acordes.
- Acappella - Acappella comprende alrededor de 46 horas de videos de canto en solitario a capella provenientes de YouTbe, muestreados en diferentes cantantes e idiomas. Se consideran cuatro idiomas: inglés, español, hindi y otros.
- AGREGAR: audio-dataset-downloader: script CLI de Python simple para descargar N horas de audio de Youtube, basado en una lista de géneros musicales.
- ADL Piano MIDI: ADL Piano MIDI es un conjunto de datos de 11.086 piezas para piano de diferentes géneros. Este conjunto de datos se basa en el conjunto de datos Lakh MIDI, que es una colección de 45,129 archivos MIDI únicos que se han comparado con entradas en el conjunto de datos Million Song.
- Partituras e interpretaciones alineadas (ASAP): ASAP es un conjunto de datos de partituras musicales alineadas (tanto MIDI como MusicXML) e interpretaciones (audio y MIDI), todas con anotaciones de tiempo fuerte, compás, tipo de compás y armadura.
- Conjunto de datos anotado de Jingju Arias: el conjunto de datos anotado de Jingju Arias es una colección de 34 arias jingju segmentadas manualmente en varios niveles utilizando el software Praat. Las arias seleccionadas contienen muestras de los dos shengqiang principales del jingju, a saber, xipi y erhuang, y los cinco tipos de roles principales en términos de canto, a saber, dan, jing, laodan, laosheng y xiaosheng. El conjunto de datos está formado por archivos Praat TextGrid para cada aria, que contienen niveles para la siguiente información: aria, ID de MusicBrainz, artista, escuela, tipo de rol, shengqiang, banshi, línea de letra, sílabas y patrones de percusión.
- Bach Doodle: el conjunto de datos del Bach Doodle se compone de 21,6 millones de armonizaciones enviadas desde el Bach Doodle. El conjunto de datos contiene metadatos sobre la composición (como el país de origen y comentarios), así como un MIDI de la melodía ingresada por el usuario y un MIDI de la armonización generada. El conjunto de datos contiene aproximadamente 6 años de música ingresada por los usuarios.
- Conjunto de datos de violín de Bach: una colección de grabaciones públicas de alta calidad de las sonatas y partitas de Bach para violín solo (BWV 1001–1006).
- Conjunto de datos Batik-plays-Mozart: el conjunto de datos Batik-plays-Mozart es un conjunto de datos de interpretación de piano que contiene 12 sonatas para piano de Mozart completas (36 movimientos distintos) interpretadas en un piano de cola Bösendorfer monitoreado por computadora por el concertista de piano vienés Roland Batik. Las interpretaciones se proporcionan en formato MIDI (los archivos de audio correspondientes están disponibles comercialmente) y el nivel de nota está alineado con las partituras de la Nueva Edición Mozart en MusicXML y con anotaciones musicológicas de armonía, cadencia y frases publicadas previamente en The Annotated Mozart Sonatas.
- Conjunto de datos de instrumentos de percusión de la Ópera de Beijing: el conjunto de datos de percusión de la Ópera de Beijing es una colección de 236 ejemplos de golpes aislados que abarcan las cuatro clases de instrumentos de percusión utilizados en la Ópera de Beijing. Se puede utilizar para construir modelos de trazo para cada instrumento de percusión.
- Conjunto de datos de patrones de percusión de la Ópera de Beijing: el conjunto de datos de patrones de percusión de la Ópera de Beijing (BOPP) es una colección de 133 patrones de percusión de audio que cubren cinco clases de patrones. El conjunto de datos incluye las transcripciones de nivel de sílaba y audio para los patrones (no alineados en el tiempo). Es útil para tareas de transcripción y clasificación de percusión. Los patrones han sido extraídos de grabaciones de audio de arias y etiquetados por un musicólogo.
- BiMMuDa: el conjunto de datos de música melódica de Billboard (BiMMuDa) es un conjunto de datos MIDI de las principales melodías de los cinco mejores sencillos de las listas de sencillos de fin de año de Billboard para cada año desde 1950 hasta 2022. Este repositorio almacena el conjunto de datos, así como sus metadatos. y apéndices.
- CAL500 (Computer Audition Lab 500) - CAL500 (Computer Audition Lab 500) es un conjunto de datos destinado a la evaluación de sistemas de recuperación de información musical. Consta de 502 canciones extraídas de la música popular occidental. El audio se representa como una serie temporal de los primeros 13 coeficientes cepstrales de frecuencia Mel (y sus primeras y segundas derivadas) extraídos deslizando una ventana de tiempo corto de 12 ms que se superpone hasta la mitad sobre la forma de onda de cada canción.
- Conjunto de datos de ritmo de música carnática: el conjunto de datos de ritmo de música carnática es una subcolección de 176 extractos (16,6 horas) en cuatro taalas de música carnática con audio, metadatos asociados relacionados con tala y marcadores alineados en el tiempo que indican la progresión a través de los ciclos de tala. Es útil como corpus de prueba para muchas tareas de análisis automático de ritmo en la música Carnatic.
- CCMixter: CCMixter es un conjunto de datos de separación de voces cantadas que consta de 50 pistas estéreo completas de ccMixter que presentan muchos géneros musicales diferentes. Para cada canción hay tres archivos WAV disponibles: la música de fondo, la señal de voz y su suma.
- ChMusic: ChMusic es un conjunto de datos de música tradicional china para el modelo de entrenamiento y la evaluación del desempeño del reconocimiento de instrumentos musicales. Este conjunto de datos cubre 11 instrumentos musicales, incluidos Erhu, Pipa, Sanxian, Dizi, Suona, Zhuiqin, Zhongruan, Liuqin, Guzheng, Yangqin y Sheng.
- chongchong-free - Chongchong Piano Downloader es un software para descargar gratuitamente partituras de piano de Chongchong, que puede obtener el enlace de la partitura, analizar el contenido de la partitura y exportar el archivo.
- ComMU: ComMU tiene 11,144 muestras MIDI que consisten en secuencias de notas cortas creadas por compositores profesionales con sus 12 metadatos correspondientes. Este conjunto de datos está diseñado para una nueva tarea, la generación de música combinatoria que genera música diversa y de alta calidad solo con metadatos a través de un modelo de lenguaje autorregresivo.
- CoSoD: CoSoD consta de metadatos y datos analíticos de un corpus de 331 canciones que comprende todas las colaboraciones de varios artistas en las listas de fin de año "Hot 100" de Billboard publicadas entre 2010 y 2019. Cada canción del conjunto de datos está asociada con dos archivos CSV: uno para metadatos y otro para datos analíticos.
- DALI - DALI: un gran conjunto de datos de audio, letras y notas vocales sincronizadas.
- DadaGP: DadaGP es un nuevo conjunto de datos de música simbólica que comprende 26,181 partituras de canciones en formato GuitarPro que cubren 739 géneros musicales, junto con un formato tokenizado que lo acompaña, muy adecuado para modelos de secuencia generativa como Transformer. El formato tokenizado está inspirado en codificaciones MIDI basadas en eventos, que se utilizan a menudo en modelos de generación de música simbólica. El conjunto de datos se publica con un codificador/decodificador que convierte archivos GuitarPro en tokens y viceversa.
- DeepScores: conjunto de datos sintéticos de 300.000 imágenes anotadas de música escrita para clasificación de objetos, segmentación semántica y detección de objetos. Basado en un gran conjunto de documentos MusicXML obtenidos de MuseScore, se utiliza un sofisticado proceso para convertir el código fuente en archivos LilyPond, para lo cual se utiliza LilyPond para grabar y anotar las imágenes.
- dMelodies: dMelodies es un conjunto de datos de melodías simples de 2 compases generadas utilizando 9 factores de variación latentes independientes donde cada punto de datos representa una melodía única basada en las siguientes restricciones: - Cada melodía corresponderá a una escala única (mayor, menor, blues, etc.) .). - Cada melodía reproduce los arpegios utilizando el patrón de acordes de cadencia estándar I-IV-VI. - El compás 1 toca los 2 primeros acordes (6 notas), el compás 2 toca los 2 segundos acordes (6 notas). - Cada nota tocada es una octava nota.
- DISCO-10M: DISCO-10M es un conjunto de datos musicales creado para democratizar la investigación sobre modelos de aprendizaje automático a gran escala para música.
- Dizi - Dizi es un conjunto de datos del estilo musical de la escuela del Norte y la Escuela del Sur. Las características incluyen la melodía y las técnicas de ejecución de los dos estilos musicales diferentes que se deconstruyen.
- DreamSound: recientemente, los modelos de generación de texto a música han logrado resultados sin precedentes en la síntesis de muestras musicales diversas y de alta calidad a partir de un mensaje de texto determinado. A pesar de estos avances, aún no está claro cómo se pueden generar conceptos musicales personalizados y específicos del usuario, manipularlos y combinarlos con los existentes. Motivados por la literatura sobre visión por computadora, investigamos la conversión de texto a música explorando dos métodos establecidos, a saber, Textual Inversion y Dreambooth. Utilizando métricas cuantitativas y un estudio de usuarios, evaluamos su capacidad para reconstruir y modificar nuevos conceptos musicales, tomando sólo unas pocas muestras. Finalmente, proporcionamos un nuevo conjunto de datos y proponemos un protocolo de evaluación para esta nueva tarea.
- EMOPIA: un conjunto de datos de piano pop multimodal para el reconocimiento de emociones y la generación de música basada en emociones. El conjunto de datos EMOPIA (pronunciado 'yee-mò-pi-uh') es una base de datos multimodal compartida (audio y MIDI) que se centra en la emoción percibida en la música pop de piano, para facilitar la investigación sobre diversas tareas relacionadas con la emoción musical. El conjunto de datos contiene 1.087 clips musicales de 387 canciones y etiquetas de emociones a nivel de clip anotadas por cuatro anotadores dedicados.
- ErhuPT (Conjunto de datos sobre técnicas de reproducción de Erhu): este conjunto de datos es un conjunto de datos de audio que contiene alrededor de 1500 clips de audio grabados por varios reproductores profesionales.
- FiloBass: un estudio basado en corpus y conjuntos de datos de líneas de bajo de jazz. FiloBass: un corpus novedoso de partituras y anotaciones musicales que se centra en el papel importante, pero a menudo pasado por alto, del contrabajo en el acompañamiento del jazz. Inspirándonos en trabajos recientes que arrojan luz sobre el papel del solista, ofrecemos una colección de 48 transcripciones verificadas manualmente de bajistas de jazz profesionales, que comprenden más de 50.000 eventos de notas, que se basan en las pistas de acompañamiento utilizadas en el conjunto de datos de FiloSax. Para cada grabación proporcionamos bases de audio, partituras, MIDI alineado con la interpretación y metadatos asociados para tiempos, tiempos fuertes, símbolos de acordes y marcadores de forma musical.
- Finding Tori - Finding Tori: aprendizaje autosupervisado para analizar canciones populares coreanas. Introducimos un análisis computacional del conjunto de datos de grabación de campo de aproximadamente 700 horas de canciones populares coreanas, que fueron grabadas alrededor de los años 1980-90.
- FMA: Free Music Archive (FMA) es un conjunto de datos a gran escala para evaluar varias tareas en recuperación de información musical. Consta de 343 días de audio de 106.574 pistas de 16.341 artistas y 14.854 álbumes, organizados en una taxonomía jerárquica de 161 géneros. Proporciona audio completo y de alta calidad, funciones precalculadas, junto con metadatos, etiquetas y texto de formato libre, como biografías, a nivel de pista y de usuario.
- GiantMIDI-Piano - GiantMIDI-Piano es un conjunto de datos MIDI de piano clásico que contiene 10,855 archivos MIDI de 2,786 compositores. El subconjunto seleccionado restringiendo los apellidos de los compositores contiene 7236 archivos MIDI de 1787 compositores.
- Groove (Groove MIDI Dataset): el Groove MIDI Dataset (GMD) se compone de 13,6 horas de MIDI alineado y audio (sintetizado) de percusión expresiva alineada con el tempo interpretada por humanos. El conjunto de datos contiene 1,150 archivos MIDI y más de 22,000 medidas de tambores.
- GTSINGER - GTSINGER: un corpus de canto múltiple global con puntajes musicales realistas para todas las tareas de canto. Presentamos a Gtsinger, un gran corpus de canto global, multitecnique, gratuito y de alta calidad con puntajes musicales realistas, diseñados para todas las tareas de canto, junto con sus puntos de referencia.
- GuitarSet - Guitarset: un conjunto de datos para la transcripción de guitarra.
- Hindustani Music Rhythm Datasset: el conjunto de datos de ritmo musical hindustani es una subcolección de 151 (5 horas) en cuatro taals de música hindustani con audio, metadatos relacionados con Taal asociados y marcadores alineados por tiempo que indican la progresión a través de los ciclos Taal. El conjunto de datos es útil como un corpus de prueba para muchas tareas de análisis de ritmo automático en la música hindustani.
- HUMTRANS: el conjunto de datos también puede servir como base para tareas aguas abajo, como la generación musical basada en la melodía. Consiste en 500 composiciones musicales de diferentes géneros e idiomas, con cada composición dividida en múltiples segmentos. En total, el conjunto de datos comprende 1000 segmentos de música. Para recolectar este conjunto de datos, empleamos a 10 estudiantes universitarios, todos los cuales son especializaciones de música o competentes para tocar al menos un instrumento musical. Cada uno de ellos tarareó cada segmento dos veces utilizando la interfaz de grabación web proporcionada por nuestro sitio web diseñado. Las grabaciones de zumbido se tomaron muestras a una frecuencia de 44,100 Hz.
- Conjuntos de datos tónicos de música india: este conjunto de datos comprende 597 grabaciones de música de audio disponibles comercialmente de música artística india (música hindustani y carnática), cada una anotada manualmente con el tónico del artista principal. Este conjunto de datos se utiliza como Corpus de prueba para el desarrollo de enfoques de identificación tónica.
- Jazz Harmony Treebank: este repositorio contiene el Jazz Harmony Treebank, un corpus de análisis armónicos jerárquicos de secuencias de acordes de jazz seleccionados del Corpus de Irealpro publicado en Zenodo por Shanahan et al.
- Jazznet - Jazznet: un conjunto de datos de patrones de piano fundamentales para la investigación de aprendizaje automático de audio musical. Este documento presenta el conjunto de datos Jazznet, un conjunto de datos de patrones de música de piano de jazz fundamental para el desarrollo de algoritmos de aprendizaje automático (ML) en la recuperación de información musical (MIR). El conjunto de datos contiene 162520 patrones de piano etiquetados, incluidos acordes, arpegios, escalas y progresiones de acordes con sus inversiones, lo que resulta en más de 26k horas de audio y un tamaño total de 95 GB.
- Jingju A Cappella Singing Pitch Contorn Datasset - Jingju A Cappella Singing Pitch Contour DataSet es una colección de la verdad del segmento de contorno de lanzamiento para 39 Jingju A Cappella Singing Recordings. El conjunto de datos incluye la verdad del suelo para (1) transcripción melódica, (2) segmentación de contorno de tono. Es útil para las tareas de segmentación de contorno de transcripción melódica y contorno de tono. Los contornos de tono se han extraído de las grabaciones de audio y un musicólogo corregido y segmentado manualmente.
- Colección Jingju Music Scores: esta es una colección de 92 puntajes musicales Jingju reunidos para el análisis de Jingju Singing en términos de su sistema musical. Fueron transcritos de sus fuentes impresas originales en un formato legible por máquina, utilizando MuseScore y exportándolas a MusicXML.
- JS Fake Chorales: un conjunto de datos MIDI de 500 corales de 4 partes generados por el algoritmo KS_Chorus, anotado con los resultados de cientos de participantes de la prueba de escucha, con 300 corales no anotados adicionales.
- LAION-DISCO-12M-El conjunto de datos Laion-Disco-12M contiene 12M enlaces a la música en YouTube, inspirada en la metodología de Disco-10m. A partir de una lista inicial de semillas de artistas, podemos descubrir nuevos artistas explorando recursivamente a los artistas que figuran en la sección "Fans también les puede gustar". Exploramos el gráfico de artistas relacionados mientras podamos encontrar nuevos artistas.
- Lakh Musenet Midi DataSet - LAKH Midi DataSet de lakh Midi convertido en formato de salida MUDI MUSENET (9 instrumentos + tambores).
- Elet de datos MIDI de Los Ángeles: conjunto de datos MIDI a escala de kilo de SOTA para MIR y Music AI.
- LP-MusicCaps-LP-MusicCaps: subtitulación de pseudo música basada en LLM.
- Lyra DataSet: Lyra es un conjunto de datos para la música griega tradicional y folk que incluye 1570 piezas, sumando en alrededor de 80 horas de datos. El conjunto de datos incorpora enlaces de YouTube Timestamped para recuperar audio y video, junto con información de metadatos ricos con respecto a la instrumentación, la geografía y el género, entre otros.
- Maestro-El conjunto de datos Maestro contiene más de 200 horas de grabaciones de audio y MIDI emparejadas de diez años de competición internacional de piano-e. Los datos MIDI incluyen velocidades de ataque clave y posiciones de pedal de sostenimiento/sostenuta/una Corda. Los archivos de audio y MIDI están alineados con la precisión de ∼3 ms y cortes en piezas musicales individuales, que se anotan con compositor, título y año de rendimiento. El audio sin comprimir es de calidad de CD o superior (estéreo PCM de 16 bits de 44.1–48 kHz).
- Magnatagatune - Magnatagatune DataSet contiene 25,863 clips de música. Cada clip es un extracto de 29 segundos de largo que pertenece a una de las 5223 canciones, 445 álbumes y 230 artistas. Los clips abarcan una amplia gama de géneros como clásica, nueva era, electrónica, rock, pop, mundo, jazz, blues, metal, punk y más. Cada clip de audio se suministra con un vector de anotaciones binarias de 188 etiquetas.
- DataSet principal para "Evolución de la música popular: EE. UU. 1960–2010": este es un archivo grande (~ 20mb) llamado EvolutionPopusa_MainData.csv, en formato de datos separado por comas con encabezados de columnas. Cada fila corresponde a una grabación. El archivo se puede ver en cualquier editor de texto, y también se puede abrir en Excel o importarse a otros programas de procesamiento de datos.
- DataSet Metamidi: presentamos el conjunto de datos Metamidi (MMD), una colección a gran escala de 436,631 archivos MIDI y metadatos. Además de los archivos MIDI, proporcionamos metadatos de artista, título y género que se recopiló durante el proceso de raspado cuando está disponible. Midis en (MMD) se combinaron con una colección de 32,000,000 de clips de audio de 30 segundos recuperados de Spotify, lo que resulta en más de 10,796,557 coincidencias de audio-Midi.
- Million Song DataSet: este conjunto de datos contiene un millón de canciones de 1922-2011, con el artista etiquetado con información de Echonest (ahora parte de Spotify), junto con mediciones de audio y otra información relevante.
- MiR-1k-miR-1k (laboratorio de recuperación de información multimedia, 1000 clips de canción) es un conjunto de datos diseñado para cantar la separación de voz.
- Mridangam Stroke DataSet: el conjunto de datos de accidente cerebrovascular Mridangam es una colección de 7162 ejemplos de audio de trazos individuales del mridangam en varios tónicos. El conjunto de datos consta de 10 trazos diferentes jugados en Mridangams con 6 valores tónicos diferentes. El conjunto de datos se puede utilizar para modelos de entrenamiento para cada trazo de Mridangam.
- Mridangam Tani-Avarthanam DataSet-El conjunto de datos Mridangam tani-avarthanam es una colección transcrita de dos tani-avarthanams interpretados por el famoso maestro de mridangam Padmavibhushan Umayalpuram K. Sivaraman. El audio fue grabado en IIT Madras, India y anotado por percusionistas carnáticos profesionales. Consiste en aproximadamente 24 minutos de audio y 8800 golpes.
- MIRMLPOP-Contiene 1) anotación del conjunto de datos de miR-MLPOP, 2) el código fuente para obtener el audio del conjunto de datos, 3) código fuente que usamos para ajustar susurros en miR-mlpop (ambas letras de alineación y transcripción de letras) y 4) Código fuente para la evaluación.
- MSD (Million Song DataSet): el Million Song DataSet es una colección libremente disponible de funciones de audio y metadatos para un millón de pistas de música populares contemporáneas. El núcleo del conjunto de datos es el análisis de características y los metadatos para un millón de canciones, proporcionadas por Echo Nest.
- MTG-JAMENDO DATASET-Presentamos el conjunto de datos MTG-Jamendo, un nuevo conjunto de datos abierto para la auto-etiqueta automática. Se crea con la música disponible en Jamendo con licencias y etiquetas de Creative Commons proporcionadas por los cargadores de contenido. El conjunto de datos contiene más de 55,000 pistas de audio completas con 195 etiquetas de las categorías de género, instrumento y estado de ánimo/tema. Proporcionamos divisiones de datos elaboradas para los investigadores e informamos el rendimiento de un enfoque de referencia simple en cinco conjuntos diferentes de etiquetas: género, instrumento, estado de ánimo/tema, top-50 y en general.
- MTG-JAMENDO-El conjunto de datos MTG-Jamendo es un conjunto de datos abierto para el auto-etiquetado de música. El conjunto de datos contiene más de 55,000 pistas de audio completas con 195 categorías de etiquetas (87 etiquetas de género, 40 etiquetas de instrumentos y 56 etiquetas de humor/tema). Se crea con la música disponible en Jamendo con licencias y etiquetas de Creative Commons proporcionadas por los cargadores de contenido. Todo el audio se distribuye en formato MP3 de 320kbps.
- Plataforma de intercambio de datos musicales para la investigación de musicología computacional (conjunto de datos CCMUSIC): esta plataforma es una plataforma multifuncional de intercambio de datos musicales para la investigación de musicología computacional. Contiene muchos datos musicales, como la información sólida de los instrumentos musicales tradicionales chinos y la información de etiquetado de la música pop china, que está disponible para uso gratuito de los investigadores de musicología computacional.
- Reconocimiento de emociones musicales (MER): presentamos un conjunto de datos para el análisis de los sistemas de reconocimiento de emociones musicales personalizadas (MER). Desarrollamos la plataforma de entusiastas de la música con el objetivo de mejorar la recopilación y el análisis de la llamada "verdad terrestre" necesaria como entrada a dichos sistemas.
- Musán - Musán es un corpus de música, habla y ruido. Este conjunto de datos es adecuado para modelos de capacitación para la detección de actividades de voz (VAD) y la discriminación de música/habla. El conjunto de datos consiste en música de varios géneros, discurso de doce idiomas y una amplia variedad de ruidos técnicos y no técnicos.
- MusDB-XL-Train: el conjunto de datos MusdB-XL-Train consta de 300,000 segmentos aplicados por limitadores de segmentos de audio de 4 segundos y las 100 canciones originales. Para cada segmento, elegimos aleatoriamente el segmento arbitrario en 4 tallos (voces, bajo, tambores, otro) del subconjunto de entrenamiento MusdB-HQ y los mezclamos al azar. Luego, aplicamos un complemento de limitador comercial a cada tallo.
- MusicBench- MusicBench DataSet es una colección de pares de texto musical que fue diseñado para la generación de texto a música y se lanzó con el modelo de texto a musica Mustango. ¡El conjunto de datos de MusicCaps se amplía de 5,521 muestras a 52,768 de entrenamiento y 400 muestras de prueba para crear MusicBench !
- MusicNet - MusicNet es una colección de 330 grabaciones de música clásica con licencia libre, junto con más de 1 millón de etiquetas anotadas que indican el tiempo preciso de cada nota en cada grabación, el instrumento que reproduce cada nota y la posición de la nota en la estructura metrical de composición. Las etiquetas se adquieren a partir de puntajes musicales alineados con las grabaciones mediante deformación de tiempo dinámico. Las etiquetas son verificadas por músicos capacitados; Estimamos una tasa de error de etiquetado del 4%. Ofrecemos las etiquetas de MusicNet a las comunidades de aprendizaje automático y música como un recurso para modelos de capacitación y un punto de referencia común para comparar los resultados.
- MusicCaps: MusicCaps es un conjunto de datos compuesto por 5.5k pares de texto musical, con ricas descripciones de texto proporcionadas por expertos humanos.
- Musedata - Musedata es una biblioteca electrónica de música clásica orquestal y de piano de Ccarh. Consiste en alrededor de 3MB de 783 archivos.
- MUSDB18 - El MusDB18 es un conjunto de datos de 150 pistas de música de longitudes completas (~ 10h duración) de diferentes géneros junto con sus tambores aislados, graves, voces y otros tallos. El conjunto de datos se divide en conjuntos de entrenamiento y prueba con 100 y 50 canciones, respectivamente. Todas las señales son estereofónicas y codifican a 44.1 kHz.
- Temas y metadatos musicales: este conjunto de datos proporciona una lista de letras de 1950 a 2019 que describen los metadatos musicales como tristeza, baile, capacidad de volumen, acústica, etc. También proporcionamos algunas informaciones como letras que pueden usarse para el procesamiento del lenguaje natural.
- Conjunto de datos de géneros musicales: conjunto de datos de 1494 géneros, cada uno que contiene 200 canciones.
- Multimodal Sheet Music DataSet: MSMD es un conjunto de datos sintético de 497 piezas de música (clásica) que contiene representaciones de audio y de puntuación de las piezas alineadas a un nivel de grano fino (344,742 pares de notas alineadas con su contraparte de audio/MIDI).
- Muvi-Sync: el conjunto de datos Muvi-Sync es un conjunto de datos multimodelo que comprende las características musicales (acorde, clave, volumen y densidad de notas) y características de video (compensación de escena, emoción, movimiento y semántica) extraídas de un total de 748 vídeos musicales.
- Nlakh - Nlakh es un conjunto de datos para la recuperación de instrumentos musicales. Es una combinación del conjunto de datos NSYNTH, que proporciona una gran cantidad de instrumentos, y el conjunto de datos Lakh, que proporciona datos MIDI múltiples.
- NSYNTH - NSYNTH es un conjunto de datos de un solo disparo de notas instrumentales, que contienen 305,979 notas musicales con tono, timbre y sobre únicos. Los sonidos se recolectaron de 1006 instrumentos de bibliotecas de muestras comerciales y se anotan en función de su fuente (acústica, electrónica o sintética), la familia de instrumentos y las cualidades sonoras. Las familias de instrumentos utilizadas en la anotación son bajo, latón, flauta, guitarra, teclado, mazo, órgano, caña, cuerda, plomo de sintetizador y vocal. Se generaron cuatro fragmentos monofónicos de audio monofónicos de 16 kHz (notas) para los instrumentos.
- NES-MDB (Base de datos de música del sistema de entretenimiento Nintendo): la base de datos de música del sistema de entretenimiento Nintendo (NES-MDB) es un conjunto de datos destinado a construir sistemas de composición de música automática para el sintetizador de audio NES. Consiste en 5278 canciones de las bandas sonoras de 397 juegos NES. El conjunto de datos representa 296 compositores únicos, y las canciones contienen más de dos millones de notas combinadas. Tiene opciones de formato de archivo para MIDI, Score y NLM (modelado de idiomas NES).
- Conjunto de datos de progresión de acorde de Niko: el conjunto de datos de progresión de acorde de Niko se usa en Accomontage2. Contiene piezas de progresión de acorde de 5k+, etiquetadas con estilos. Hay cuatro estilos en total: Pop Standard, Pop Complex, Dark y R&B.
- Onair Music DataSet -? Un nuevo conjunto de datos STEM para la investigación de la música, del Proyecto de Música Libre de Royalty Free.
- OPENCPOP - OPENCPOP , un Corpus Mandarin Singing de alta calidad disponible públicamente, está diseñado para cantar sistemas de síntesis de voz (SVS). Este corpus consta de 100 canciones de mandarín únicas , que fueron grabadas por una cantante profesional. Todos los archivos de audio se grabaron con calidad de estudio a una tasa de muestreo de 44,100 Hz en un entorno de estudio de grabación profesional .
- OpenFeng: un conjunto de datos de progresión de melodía y acordes para música china Gufeng.
- PBSCSR: el conjunto de datos de reconocimiento de estilo de estilo Piano Bootleg Score. Nuestro objetivo general era crear un conjunto de datos para estudiar el reconocimiento de estilo compositor que es "tan accesible como Mnist y tan desafiante como Imagenet". Para lograr este objetivo, probamos fragmentos de puntuación de contrabando de longitud fija de imágenes de piano de partitura en IMSLP. El conjunto de datos en sí contiene 40,000 imágenes de puntaje de contrabando 62x64 para una tarea de clasificación de 9 vías, 100,000 imágenes de puntaje de contrabando de contrabando de 100.000 62x64 para una tarea de clasificación de 100 vías y 29,310 imágenes de puntaje de contrabando variable de longitud variable para preventiva.
- POP909 - POP909 es un conjunto de datos que contiene múltiples versiones de los arreglos de piano de 909 canciones populares creadas por músicos profesionales. El cuerpo principal del conjunto de datos contiene la melodía vocal, la melodía del instrumento principal y el acompañamiento de piano para cada canción en formato MIDI, que están alineados con los archivos de audio originales. Además, se proporcionan anotaciones de tempo, ritmo, llave y acordes, donde las curvas de tempo están marcadas a mano y otras se realizan por algoritmos MIR.
- PROGGP: un conjunto de datos de 173 canciones de metal progresivo, tanto en formatos de guitarra como de tokens, según las especificaciones en DADAGP.
- RWC (Base de datos de música de computación de Real World): la base de datos de música RWC (Real World Computing) es una base de datos de música (DB) aprobada por derechos de autor que está disponible para los investigadores como una base común para la investigación. Contiene alrededor de 100 canciones completas con límites de sección etiquetados manualmente. Para los 50 instrumentos, se capturaron sonidos individuales a intervalos de medio tono con varias variaciones de estilos de reproducción, dinámica, fabricantes de instrumentos y músicos.
- Sangeet: un conjunto de datos XML para la música clásica de Hindustani. Sangeet preserva toda la información requerida de cualquier composición dada, incluidos metadatos, estructural, notacional, rítmica y melódica de una manera estandarizada para un almacenamiento y extracción de información musical fácil y eficiente. El conjunto de datos está destinado a proporcionar la información de la verdad de tierra para las tareas de investigación de información musical, lo que respalda varios análisis basados en datos desde una perspectiva de aprendizaje automático.
- Singkt -Dataset - Singkt es un conjunto de datos de evaluación de la interpretación de la música en el campo de KT, que intenta utilizar métodos de rastreo de conocimiento para capturar los cambios dinámicos en las habilidades de visualización de los alumnos. El conjunto de datos recopila datos de una plataforma de práctica pública de visualización inteligente, Singmaster. El conjunto de datos Singkt contiene la principal tabla de datos de registro de respuesta (Recordds) y dos tablas de datos de información complementarias (Userds, Opernds). La tabla de usuarios registra información visual de los 1074 alumnos contenidos en el conjunto de datos, y la tabla de Opernds registra información de la hoja de música.
- SLAKH2100-El conjunto de datos Lakh (Slakh) sintetizado es un conjunto de datos para la separación de la fuente de audio que se sintetiza a partir del conjunto de datos MIDI lakh V0.1 utilizando instrumentos virtuales basados en muestras de grado profesional. Esta primera versión de Slakh, llamada Slakh2100, contiene 2100 pistas mixtas automáticamente y acompañando archivos MIDI sintetizados con un motor de muestreo de grado profesional. Las pistas en Slakh2100 se dividen en entrenamiento (1500 pistas), validación (375 pistas) y subconjuntos de prueba (225 pistas), totalizando 145 horas de mezclas.
- Symphonynet-Symponynet es un proyecto de código abierto con el objetivo de generar música compleja de múltiples vías y instrumentos múltiples como Symphony. Nuestro método es totalmente compatible con otros tipos de música como pop, piano, música solista ... Etc.
- Tarta Solo DataSet: el conjunto de datos de Tabla Solo es una colección transcrita de grabaciones de audio en solitario de tabla que abarcan composiciones de seis gharanas diferentes de tabla, interpretadas por Pt. Arvind Mulgaonkar. El conjunto de datos consiste en transcripciones BOL alineadas de audio y tiempo.
- TEGRIDY MIDI DATASET - TEGRIDY MIDI DATASET para la creación de modelos de IA de música precisa y efectiva.
- El conjunto de datos MIDI Lakh: el conjunto de datos MIDI Lakh es una colección de 176,581 archivos MIDI únicos, 45,129 de los cuales han sido emparejados y alineados con las entradas en el millón de datos de canciones. Su objetivo es facilitar la recuperación de información musical a gran escala, tanto simbólicas (usando los archivos MIDI) y basado en contenido de audio (utilizando información extraída de los archivos MIDI como anotaciones para los archivos de audio coincidentes).
- El conjunto de datos de música italiana: el conjunto de datos se crea explotando las API Spotify y SoundCloud. Se compone de más de 14,500 canciones diferentes de músicos italianos famosos y menos famosos. Cada canción en el conjunto de datos se identifica por su ID de Spotify y su título. Los metadatos de las pistas incluyen también letras lemmatizadas y etiquetadas con POS y, en la mayoría de los casos, diez características musicales directamente reunidas de Spotify. Las características musicales incluyen acústica (flotante), baile de danza (flotante), duración_ms (int), energía (flotante), instrumental (flotante), vida (flotador), volumen (flotador), habla (flotante), tempo (flotador) y valencia ( flotar).
- El corpus de piano persa: el corpus de piano persa es una colección integral de música de piano persa, que abarca desde los primeros compositores hasta figuras contemporáneas. Se ha compilado y hecho meticulosamente accesible públicamente, con el objetivo de permitir a los investigadores explorar investigaciones especializadas y contribuir a nuevos descubrimientos. El enfoque basado en instrumentos proporciona un corpus completo relacionado con el piano persa, incluidas las etiquetas relevantes y los metadatos integrales.
- El conjunto de datos de descriptores de canciones: el conjunto de datos de descriptores de canciones: un corpus de subtítulos de audio para la evaluación de música y lenguaje. El conjunto de datos de descriptores de canciones es un conjunto de datos de evaluación hecho de ~ 1.1k subtítulos para 706 grabaciones de música con licencia permisiva.
- Clasificador de símbolos musicales universales: un proyecto de Python que entrena una red neuronal profunda para distinguir entre símbolos musicales.
- URMP (Performance musical multimodal de la Universidad de Rochester)-URMP (University of Rochester MultiModal Musical Performance) es un conjunto de datos para facilitar el análisis audiovisual de actuaciones musicales. El conjunto de datos comprende 44 piezas musicales simples de instrumentos múltiples ensamblados a partir de actuaciones coordinadas pero grabadas por separado de pistas individuales. Para cada pieza, el conjunto de datos proporcionó la partitura musical en formato MIDI, las grabaciones de audio individuales de alta calidad de instrumentos y los videos de las piezas ensambladas.
- VGMIDI DATASET - VGMIDI es un conjunto de datos de arreglos de piano de las bandas sonoras de videojuegos. Contiene 200 piezas MIDI etiquetadas según la emoción y 3.850 piezas sin etiqueta. Cada pieza etiquetada fue anotada por 30 sujetos humanos de acuerdo con el modelo de emoción Circumplex (Valence-ARousal).
- Virtuoso Strings: las cadenas virtuosas es un conjunto de datos para la detección de servicios suaves para instrumentos de cadena. Consiste en más de 144 grabaciones de actuaciones profesionales de un extracto del cuarteto de cuerdas de Haydn. 74 No. 1 Final, cada uno con anotaciones de inicio instrumental individual correspondientes.
- Wikimute - Wikimute: un conjunto de datos de origen web de descripciones semánticas para audio musical. En este estudio, presentamos Wikimute, un conjunto de datos nuevo y abierto que contiene ricas descripciones semánticas de la música. Los datos provienen del rico catálogo de artículos de Wikipedia que cubren obras musicales. Utilizando una tubería de minería de texto dedicada, extraemos descripciones de forma larga y corta que cubren una amplia gama de temas relacionados con el contenido de la música como el género, el estilo, el estado de ánimo, la instrumentación y el tempo.
- YM2413-MDB- YM2413-MDB es un conjunto de datos de música de videojuegos FM de los 80 con anotaciones de emociones de etiqueta múltiple. Incluye 669 archivos de música de audio y MIDI de los juegos SEGA y MSX PC en los años 80 usando YM2413, un generador de sonido programable basado en FM. La música de juego recopilada está organizada con un subconjunto de 15 instrumentos monofónicos y un instrumento de batería.
^ Volver al contenido ^
Efecto de sonido
- Conjunto de datos de sonido animal: estos datos que constan de 875 sonidos animales contienen 10 tipos de sonidos animales. Este conjunto de datos de Sounds Animal consiste en 200 gatos, 200 perros, 200 aves, 75 vacas, 45 leones, 40 ovejas, 35 ranas, 30 pollo, 25 burros, 25 sonidos de mono.
- AUDIOSET-Audioset es un conjunto de datos de eventos de audio, que consta de videos de 10 segundos anotados por humanos de más de 2 m. Estos clips se recogen de YouTube, por lo tanto, muchos de los cuales tienen una calidad de mala y contienen múltiples fuentes de sonido. Se emplea una ontología jerárquica de 632 clases de eventos para anotar estos datos, lo que significa que el mismo sonido podría anotarse como etiquetas diferentes. Por ejemplo, el sonido de los ladridos se anota como animales, mascotas y perro. Todos los videos se dividen en un conjunto de evaluación/entrenamiento equilibrado/trenquetado.
- AudioCaps: AudioCaps es un conjunto de datos de sonidos con descripciones de eventos que se introdujo para la tarea de subtítulos de audio, con sonidos procedentes del conjunto de datos del audio. Los anotadores recibieron las pistas de audio junto con sugerencias de categoría (y con sugerencias adicionales de video si es necesario).
- AUTO-ACD: presentamos una tubería innovadora y automática de generación de leyes de audio, construimos un conjunto de datos de audio a gran escala, de alta calidad, llamado Auto-ACD, que comprende más de 1,9 millones de pares de texto de audio. Las descripciones de texto en Auto-ACD contienen textos largos (18 palabras) y diversos vocabularios (23k), y proporcionan información sobre el entorno auditivo circundante (punto de datos con sombra) en el que tienen lugar los sonidos.
- Efectos de sonido de la BBC: hay 33,066 efectos de sonido en el conjunto de datos de efectos de sonido de la BBC, con descripciones de texto. Género: Principalmente sonido ambiental. Cada audio tiene una descripción textual natural.
- Dcase 2016 - Dcase 2016 es un conjunto de datos para la detección de eventos de sonido. Consiste en 20 archivos de sonido mono cortos para cada una de las 11 clases de sonido (de entornos de oficina, como ClearThroat, Drawer o Keyboard), cada archivo que contiene una instancia de evento de sonido. Los archivos de sonido se anotan con los tiempos de activación y desplazamiento del evento, sin embargo, los silencios entre los sonidos físicos reales (como con un teléfono sonando) no están marcados y, por lo tanto, "incluidos" en el evento.
- Conjuntos de datos de audio ambiental: esta página intenta mantener una lista de conjuntos de datos adecuados para la investigación de audio ambiental. Además del conjunto de datos disponible gratuitamente, también los conjuntos de datos comerciales y patentados se enumeran aquí para completar. Además de los conjuntos de datos, también algunos de los servicios de sonido en línea se enumeran al final de la página.
- ESC-50-El conjunto de datos ESC-50 es una colección etiquetada de grabaciones de audio ambientales 2000 adecuadas para métodos de benchmarking de clasificación de sonido ambiental. Comprende 2000 clips 5s de 50 clases diferentes a través de sonidos naturales, humanos y domésticos, nuevamente, extraídos de Freesound.org.
- Fair-Play-Fair-Play es un conjunto de datos de Audio de video que consta de 1,871 videoclips y sus correspondientes clips de audio binaural en una sala de música. El video clip y el clip binaural del mismo índice están más o menos alineados.
- FSD50K (base de datos de Freesound 50K) - Freesound DataSet 50k (o FSD50K para abreviar) es un conjunto de datos abierto de eventos de sonido marcados por humanos que contienen 51,197 clips de libre distribuidos de manera desigual distribuida en 200 clases dibujadas de la ontología Audioset. FSD50K ha sido creado en el grupo de tecnología musical de Universitat Pompeu Fabra. Consiste principalmente en eventos de sonido producidos por fuentes de sonido físicas y mecanismos de producción, incluidos los sonidos humanos, los sonidos de las cosas, los animales, los sonidos naturales, los instrumentos musicales y más.
- FSDNOISY18K-El conjunto de datos FSDNOISY18K es un conjunto de datos abierto que contiene 42.5 horas de audio en 20 clases de eventos de sonido, incluida una pequeña cantidad de datos marcados manualmente y una mayor cantidad de datos ruidosos del mundo real. El contenido de audio se toma de Freesound, y el conjunto de datos se seleccionó utilizando el anotador Freesound. El conjunto ruidoso de FSDNOISY18K consta de 15,813 clips de audio (38.8h), y el conjunto de pruebas consta de 947 clips de audio (1.4 h) con etiquetas correctas. El conjunto de datos presenta dos tipos principales de ruido de etiquetas: en vocabulario (IV) y fuera del vocabulario (OOV). IV se aplica cuando, dada una etiqueta observada que es incorrecta o incompleta, la etiqueta verdadera o faltante es parte del conjunto de clase de destino. Analógicamente, OOV significa que la etiqueta verdadera o faltante no está cubierta por esas 20 clases.
- Fuss (separación de sonido universal gratuita): el conjunto de datos de separación de sonido universal gratuito (Fuss) es una base de datos de mezclas de sonido arbitrarias y referencias a nivel de origen, para su uso en experimentos sobre separación de sonido arbitraria. Fuss se basa en FSD50K Corpus.
- Inaturalist Sounds DataSet: presentamos el conjunto de datos de sonidos inaturalistas (inatosos), una colección de 230,000 archivos de audio que capturan sonidos de más de 5,500 especies, contribuido por más de 27,000 registros en todo el mundo.
- Efectos de sonido de golpe con intenciones emocionales: el conjunto de datos fue grabado por el artista profesional de Foley Ulf Olausson en los Foleyworks Studios en Estocolmo el 15 de octubre de 2019. Inspirado en trabajos anteriores sobre sonidos. Elegimos cinco tipos de emociones para ser retratados en el conjunto de datos: ira, miedo, felicidad, neutral y tristeza.
- MIMII - El conjunto de datos de sonido para la investigación e inspección de la máquina industrial de mal funcionamiento (MIMII) es un conjunto de datos de sonido de sonidos de máquina industrial.
- Mivia Audio Events Datasset: el conjunto de datos de eventos de audio de Mivia compuso un total de 6000 eventos para la aplicación de vigilancia, a saber, la ruptura de vidrio, el disparo de armas y el grito. El evento 6000 se divide en un conjunto de capacitación (composición del evento 4200) y un conjunto de pruebas (Evento de composición de 1800).
- Pitch Audio DataSet (Synthesizer) - 3.4 horas de audio sintetizados utilizando el sintetizador de sobretensiones de código abierto, basado en 2084 preestablecidos incluidos en el paquete de sobretensiones. Estos representan sonidos de síntesis `` `` naturales '' --- Iepresets ideados por los humanos. Generamos muestras de 4 segundos jugando a Velocity 64 con una duración de nota de 3 segundos. Para cada preajuste, variamos solo el campo, desde Midi 21-108, el rango de un piano de cola. Cada sonido en el conjunto de datos se normalizó a nivel RMS usando el paquete Normalize. No había una forma elegante de deducir este conjunto de datos; Sin embargo, solo un pequeño porcentaje de preajustes (como la batería y los efectos de sonido) no tenía variación o pedido de tono perceptivo.
- REMFX - REMFX: conjuntos de datos de evaluación. Estos conjuntos de datos se obtienen inicialmente de los conjuntos de datos Vocalset, Guitarset, DSD100 e IDMT-SMT-DRUMS antes de ser procesado en nuestro script de generación de conjuntos de datos. Los conjuntos de datos se nombran de acuerdo con el número de efectos aplicados (0-5). Por ejemplo, 2-2.ZIP contiene 2 efectos aplicados a cada ejemplo de audio de entrada. Los objetivos quedan intactos. Los efectos de audio aplicados son del conjunto (distorsión, retraso, compresor de rango dinámico, fasor, reverb) y se muestrean aleatoriamente sin reemplazo para cada ejemplo.
- SoundCam-SoundCam, el conjunto de datos más grande de RIR únicos de habitaciones en las zonas libres lanzadas públicamente hasta la fecha. Incluye 5,000 mediciones de 10 canales del mundo real de respuestas de impulso de la sala y 2,000 grabaciones de música de 10 canales en tres habitaciones diferentes, incluido un laboratorio acústico controlado, una sala de estar en el suelo y una sala de conferencias, con diferentes humanos en posiciones en cada habitación.
- Soundingearth: Soundingearth consiste en imágenes aéreas ubicadas y muestras de audio en todo el mundo.
- Librispeech espacial-Librispeech espacial, es un conjunto de datos de audio espacial con más de 650 horas de ambisis de primer orden y ruido de distractor opcional (con audio RAW de 19 canales próximamente). Librispeech espacial está diseñado para la capacitación en modelos de aprendizaje automático, e incluye etiquetas para la posición de origen, dirección de oratoria, acústica de habitación y geometría. Librispeech espacial se generó aumentando las muestras de Librispeech con condiciones acústicas simuladas de 200k+ en habitaciones sintéticas de 8K+.
- Stars22 (paisajes sonoros espaciales realistas de Sony-Tau 2022): los paisajes sonoros espaciales realistas de Sony-Tau 2022 (Stars22) el conjunto de datos consiste en grabaciones de escenas reales capturadas con una matriz de micrófonos esféricos (SMA) de alta calidad de canal (SMA). Las grabaciones se realizan de dos equipos diferentes en dos sitios diferentes, Tampere University en Tammere, Finlandia y Sony en Tokio, Japón. Las grabaciones en ambos sitios comparten el mismo proceso de captura y anotación, y una organización similar.
- ToyAdmos: el conjunto de datos Toyadmos es un conjunto de datos de sonidos que operan a máquina de aproximadamente 540 horas de sonidos de operación de máquina normales y más de 12,000 muestras de sonidos anómalos recolectados con cuatro micrófonos a una tasa de muestreo de 48 kHz, preparadas por Yuma Koizumi y miembros en Laboratorias de Inteligencia Media NTT Media.
- Tut Sound Events 2017 - El conjunto de datos Tut Sound Events 2017 contiene 24 grabaciones de audio en un entorno callejero y contiene 6 clases diferentes. Estas clases son: frenos chillidos, automóvil, niños, vehículos grandes, personas que hablan y personas caminando.
- UrbanSound8K - Urban Sound 8K es un conjunto de datos de audio que contiene 8732 Expertos de sonido etiquetados (<= 4s) de sonidos urbanos de 10 clases: Air_conditioner, Car_horn, Children_playing, Dog_Bark, Drilling, Enginge_idling, Gun_Shot, Jackhammer, Siren y Street_Music. Las clases provienen de la taxonomía urbana del sonido. Todos los extractos se toman de grabaciones de campo cargadas a www.freesound.org.
- VGG-Sound - A large scale audio-visual dataset. VGG-Sound is an audio-visual correspondent dataset consisting of short clips of audio sounds, extracted from videos uploaded to YouTube.
- Visually Indicated Sounds - Materials make distinctive sounds when they are hit or scratched — dirt makes a thud; ceramic makes a clink. These sounds reveal aspects of an object's material properties, as well as the force and motion of the physical interaction.
^ Back to Contents ^