Ensembles de données audio AI (AI-ADS) ?
Ensembles de données audio AI (AI-ADS) ?, y compris la parole, la musique et les effets sonores, qui peuvent fournir des données de formation pour l'IA générative, l'AIGC, la formation de modèles d'IA, le développement d'outils audio intelligents et les applications audio.
Table des matières
- Discours
- Musique
- Effet sonore
Liste des projets
Discours
- AISHELL-1 - AISHELL-1 est un corpus destiné à la recherche sur la reconnaissance vocale et à la création de systèmes de reconnaissance vocale pour le mandarin.
- AISHELL-3 - AISHELL-3 est un corpus de discours en mandarin multi-locuteurs à grande échelle et haute fidélité publié par Beijing Shell Shell Technology Co., Ltd. Il peut être utilisé pour former des systèmes de synthèse vocale (TTS) multi-locuteurs. Le corpus contient environ 85 heures d'enregistrements neutres en termes d'émotion prononcés par 218 locuteurs natifs du mandarin chinois et un total de 88 035 énoncés.
- Corpus vocal arabe - Le Corpus vocal arabe (1,5 Go) est un corpus vocal arabe standard moderne (MSA) pour la synthèse vocale. Le corpus contient des transcriptions phonétiques et orthographiques de plus de 3,7 heures de discours MSA alignées sur le discours enregistré au niveau phonémique. Les annotations incluent des marques d'accentuation des mots sur les phonèmes individuels.
- AudioMNIST - L'ensemble de données se compose de 30 000 échantillons audio de chiffres parlés (0-9) de 60 locuteurs différents.
- AVSpeech - AVSpeech est un ensemble de données audiovisuelles à grande échelle comprenant des clips vocaux sans signaux de fond interférents. Les segments sont de durée variable, entre 3 et 10 secondes, et dans chaque clip, le seul visage visible dans la vidéo et le son audible dans la bande sonore appartiennent à une seule personne qui parle. Au total, l'ensemble de données contient environ 4 700 heures de segments vidéo avec environ 150 000 locuteurs distincts, couvrant une grande variété de personnes, de langues et de poses de visage.
- ATIS (Airline Travel Information Systems) - L'ATIS (Airline Travel Information Systems) est un ensemble de données composé d'enregistrements audio et de transcriptions manuelles correspondantes sur des humains demandant des informations de vol sur les systèmes automatisés d'enquête sur les voyages en avion. Les données se composent de 17 catégories d'intention uniques. La division originale contient respectivement 4 478, 500 et 893 énoncés de référence étiquetés par intention dans l'ensemble de train, de développement et de test.
- Ensemble de données Carnatic Varnam - L'ensemble de données Carnatic Varnam est une collection de 28 enregistrements vocaux solo, enregistrés pour notre recherche sur l'analyse de l'intonation des ragas carnatiques. La collection se compose d'enregistrements audio, d'annotations de cycles tala alignées dans le temps et de notations swara dans un format lisible par machine.
- Conversations occasionnelles - L'ensemble de données Casual Conversations est conçu pour aider les chercheurs à évaluer la précision de leurs modèles de vision par ordinateur et d'audio sur un ensemble diversifié d'âge, de sexe, de tons de peau apparents et de conditions d'éclairage ambiant.
- CN-Celeb - CN-Celeb est un ensemble de données de reconnaissance de locuteurs à grande échelle collectées « dans la nature ». Cet ensemble de données contient plus de 130 000 déclarations de 1 000 célébrités chinoises et couvre 11 genres différents dans le monde réel.
- Clotho - Clotho est un ensemble de données de sous-titres audio, composé de 4 981 échantillons audio, et chaque échantillon audio comporte cinq sous-titres (un total de 24 905 sous-titres). Les échantillons audio durent de 15 à 30 s et les sous-titres comptent de huit à 20 mots.
- Common Voice - Common Voice est un ensemble de données audio composé d'un fichier MP3 unique et d'un fichier texte correspondant. Il y a 9 283 heures enregistrées dans l’ensemble de données. L'ensemble de données comprend également des métadonnées démographiques telles que l'âge, le sexe et l'accent. L'ensemble de données comprend 7 335 heures validées dans 60 langues.
- CoVoST - CoVoST est un corpus de traduction parole-texte multilingue à grande échelle. Sa dernière 2ème version couvre les traductions de 21 langues vers l'anglais et de l'anglais vers 15 langues. Il compte au total 2 880 heures de parole et est diversifié avec 78 000 locuteurs et 66 accents.
- CVSS - CVSS est un corpus de traduction parole-parole (S2ST) massivement multilingue vers l'anglais, couvrant des paires S2ST parallèles au niveau des phrases de 21 langues vers l'anglais. CVSS est dérivé du corpus vocal Common Voice et du corpus de traduction parole-texte (ST) CoVoST 2, en synthétisant le texte traduit de CoVoST 2 en parole à l'aide de systèmes TTS de pointe.
- EasyCom - L'ensemble de données Easy Communications (EasyCom) est un ensemble de données inédit conçu pour aider à atténuer l'effet cocktail d'une vision du monde égocentrique multi-capteurs motivée par la réalité augmentée (RA). L'ensemble de données contient des lunettes AR, un réseau audio de microphones multicanaux égocentriques, une vidéo RVB à large champ de vision, la pose de la source vocale, l'audio du microphone du casque, l'activité vocale annotée, les transcriptions vocales, les cadres de délimitation de la tête et du visage et les étiquettes d'identification de la source. Nous avons créé et publions cet ensemble de données pour faciliter la recherche de solutions AR multimodales au problème des cocktails.
- Emilia - L'ensemble de données Emilia est une ressource multilingue complète qui comprend plus de 101 000 heures de données vocales dans six langues différentes : anglais (En), chinois (Zh), allemand (De), français (Fr), japonais (Ja) et coréen. (Ko). Il présente diverses données vocales représentant différents styles de parole provenant de nombreuses plateformes vidéo et podcasts sur Internet, englobant un large éventail de genres de contenu tels que des talk-shows, des interviews, des débats, des commentaires sportifs et des livres audio.
- ESD (Emotional Speech Database) - ESD est une base de données de parole émotionnelle pour la recherche sur la conversion vocale. La base de données ESD se compose de 350 énoncés parallèles prononcés par 10 locuteurs natifs anglais et 10 locuteurs natifs chinois et couvre 5 catégories d'émotions (neutre, heureux, en colère, triste et surprise). Plus de 29 heures de données vocales ont été enregistrées dans un environnement acoustique contrôlé. La base de données convient aux études de conversion vocale émotionnelle multi-locuteurs et multilingues.
- Ensemble de données FPT Open Speech (FOSD) - Cet ensemble de données comprend 25 921 discours vietnamiens enregistrés (avec leurs transcriptions et les heures de début et de fin étiquetées de chaque discours) compilés manuellement à partir de 3 sous-ensembles de données (environ 30 heures au total) rendus publics en 2018 par Société FPT.
- Free Spoken Digit Dataset (FSDD) - Un ensemble de données audio gratuit de chiffres parlés. Pensez à MNIST pour l'audio. Un ensemble de données audio/parole simple composé d'enregistrements de chiffres prononcés dans des fichiers wav à 8 kHz. Les enregistrements sont tronqués de manière à ce qu'ils aient un silence presque minimal au début et à la fin.
- Fluent Speech Commands - Fluent Speech Commands est un ensemble de données audio open source pour les expériences de compréhension du langage parlé (SLU). Chaque énoncé est étiqueté avec les valeurs « action », « objet » et « emplacement » ; par exemple, "allumer les lumières dans la cuisine" a le libellé {"action": "activate", "object": "lights", "location": "kitchen"}. Un modèle doit prédire chacune de ces valeurs, et une prédiction pour un énoncé n'est considérée comme correcte que si toutes les valeurs sont correctes.
- Ensembles de données Genshin - Ensembles de données Genshin pour SVC/SVS/TTS.
- GenshinVoice - Ensemble de données vocales de Genshin Impact 原神语音数据集
- GigaSpeech - GigaSpeech, un corpus de reconnaissance vocale anglais multi-domaine évolutif avec 10 000 heures d'audio étiqueté de haute qualité adapté à une formation supervisée, et 40 000 heures d'audio total adapté à une formation semi-supervisée et non supervisée.
- GigaSpeech 2 - Un corpus ASR évolutif, à grande échelle et multidomaine pour les langues à faibles ressources avec exploration, transcription et raffinement automatisés.
- How2 - L'ensemble de données How2 contient 13 500 vidéos, soit 300 heures de discours, et est divisé en 185 187 formations, 2 022 développements (développement) et 2 361 énoncés de test. Il est sous-titré en anglais et traduit en portugais par le biais d'un crowdsourcing.
- inaGVAD - un ensemble de données de télévision et de radio françaises annoté pour la détection de l'activité vocale (VAD) et la segmentation selon le sexe du locuteur (SGS) avec des scripts d'évaluation et un schéma d'annotation détaillé détaillant le type d'événement non vocal, les caractéristiques du locuteur et la qualité de la parole.
- KdConv - KdConv est un ensemble de données chinois multi-domaines de conversion basée sur les connaissances, ancré les sujets dans des conversations à plusieurs tours sur des graphiques de connaissances. KdConv contient 4,5K conversations provenant de trois domaines (film, musique et voyage) et 86K énoncés avec un nombre de tours moyen de 19,0. Ces conversations contiennent des discussions approfondies sur des sujets connexes et une transition naturelle entre plusieurs sujets, tandis que le corpus peut également être utilisé pour l'exploration de l'apprentissage par transfert et de l'adaptation de domaine.
- Libriheavy - Libriheavy : un corpus ASR de 50 000 heures avec boîtier de ponctuation et contexte.
- LibriSpeech - Le corpus LibriSpeech est une collection d'environ 1 000 heures de livres audio faisant partie du projet LibriVox. La plupart des livres audio proviennent du Projet Gutenberg. Les données d'entraînement sont divisées en 3 partitions d'ensembles de 100 heures, 360 heures et 500 heures, tandis que les données de développement et de test sont divisées respectivement en catégories « propres » et « autres », en fonction de l'efficacité ou de la difficulté des systèmes de reconnaissance vocale automatique. . Chacun des ensembles de développement et de test dure environ 5 heures en audio.
- LibriTTS - LibriTTS est un corpus anglais multi-locuteurs d'environ 585 heures de lecture de discours anglais à un taux d'échantillonnage de 24 kHz, préparé par Heiga Zen avec l'aide des membres de l'équipe Google Speech et Google Brain. Le corpus LibriTTS est conçu pour la recherche TTS. Il est dérivé des matériaux originaux (fichiers audio mp3 de LibriVox et fichiers texte du projet Gutenberg) du corpus LibriSpeech.
- LibriTTS-R - LibriTTS-R : un corpus de synthèse vocale multi-locuteurs restauré. Il est dérivé de l'application de la restauration vocale au corpus LibriTTS, qui comprend 585 heures de données vocales à une fréquence d'échantillonnage de 24 kHz provenant de 2 456 locuteurs et les textes correspondants. Les échantillons constitutifs de LibriTTS-R sont identiques à ceux de LibriTTS, seule la qualité sonore est améliorée.
- LJSpeech (The LJ Speech Dataset) - Il s'agit d'un ensemble de données vocales du domaine public composé de 13 100 courts clips audio d'un seul locuteur lisant des passages de 7 livres de non-fiction. Une transcription est fournie pour chaque clip. La durée des clips varie de 1 à 10 secondes et a une durée totale d'environ 24 heures. Les textes ont été publiés entre 1884 et 1964 et sont dans le domaine public. L'audio a été enregistré en 2016-17 par le projet LibriVox et est également dans le domaine public.
- LRS2 (Lip Reading Sentences 2) - L'ensemble de données Oxford-BBC Lip Reading Sentences 2 (LRS2) est l'un des plus grands ensembles de données accessibles au public pour les phrases de lecture labiale dans la nature. La base de données comprend principalement des informations et des talk-shows issus des programmes de la BBC. Chaque phrase peut contenir jusqu'à 100 caractères.
- LRW (Lip Reading in the Wild) - L'ensemble de données Lip Reading in the Wild (LRW), une base de données audiovisuelle à grande échelle contenant 500 mots différents provenant de plus de 1 000 locuteurs. Chaque énoncé comporte 29 images dont la limite est centrée autour du mot cible. La base de données est divisée en ensembles de formation, de validation et de test. L'ensemble de formation contient au moins 800 énoncés pour chaque classe tandis que les ensembles de validation et de test contiennent 50 énoncés.
- MuAViC - Un corpus audiovisuel multilingue pour une reconnaissance vocale robuste et une traduction parole-texte robuste.
- MuST-C - MuST-C représente actuellement le plus grand corpus multilingue accessible au public (un vers plusieurs) pour la traduction vocale. Il couvre huit directions linguistiques, de l'anglais à l'allemand, en passant par l'espagnol, le français, l'italien, le néerlandais, le portugais, le roumain et le russe. Le corpus se compose d'audio, de transcriptions et de traductions de conférences TED en anglais, et il est accompagné d'une répartition prédéfinie de la formation, de la validation et des tests.
- MetaQA (MoviE Text Audio QA) - L'ensemble de données MetaQA se compose d'une ontologie de film dérivée de l'ensemble de données WikiMovies et de trois ensembles de paires question-réponse écrites en langage naturel : requêtes à 1 saut, 2 sauts et 3 sauts.
- MELD (Multimodal EmotionLines Dataset) - L'ensemble de données multimodal EmotionLines (MELD) a été créé en améliorant et en étendant l'ensemble de données EmotionLines. MELD contient les mêmes instances de dialogue disponibles dans EmotionLines, mais il englobe également les modalités audio et visuelles ainsi que le texte. MELD contient plus de 1 400 dialogues et 13 000 déclarations tirées de la série télévisée Friends. Plusieurs intervenants ont participé aux dialogues. Chaque énoncé dans un dialogue a été étiqueté par l'une de ces sept émotions : colère, dégoût, tristesse, joie, neutre, surprise et peur. MELD a également une annotation de sentiment (positif, négatif et neutre) pour chaque énoncé.
- Microsoft Speech Corpus (langues indiennes) - La version Microsoft Speech Corpus (langues indiennes) contient des données de formation et de test de la parole conversationnelle et phrasée pour les langues telugu, tamoule et gujarati. Le paquet de données comprend l'audio et les transcriptions correspondantes. Les données fournies dans cet ensemble de données ne doivent pas être utilisées à des fins commerciales. Vous pouvez utiliser les données uniquement à des fins de recherche. Si vous publiez vos résultats, vous devez fournir l'attribution suivante : « Données fournies par Microsoft et SpeechOcean.com ».
- PATS (Pose Audio Transcript Style) - L'ensemble de données PATS se compose d'une grande quantité diversifiée de poses, d'audio et de transcriptions alignées. Avec cet ensemble de données, nous espérons fournir une référence qui aiderait à développer des technologies pour agents virtuels générant des gestes naturels et pertinents.
- RealMAN - RealMAN : un ensemble de données de réseau de microphones enregistrés et annotés réels pour l'amélioration et la localisation dynamiques de la parole.
- SAVEE (Surrey Audio-Visual Expressed Emotion) - L'ensemble de données Surrey Audio-Visual Expressed Emotion (SAVEE) a été enregistré comme condition préalable au développement d'un système de reconnaissance automatique des émotions. La base de données se compose d'enregistrements de 4 acteurs masculins dans 7 émotions différentes, soit 480 énoncés en anglais britannique au total. Les phrases ont été choisies dans le corpus standard TIMIT et phonétiquement équilibrées pour chaque émotion.
- SoS_Dataset - Sound of Story : narration multimodale avec audio. La narration est multimodale dans le monde réel. Lorsqu'on raconte une histoire, on peut utiliser toutes les visualisations et tous les sons ainsi que l'histoire elle-même. Cependant, les études antérieures sur les ensembles de données et les tâches de narration ont accordé peu d’attention au son, même si le son transmet également une sémantique significative de l’histoire. Par conséquent, nous proposons d'étendre les domaines de compréhension et de narration de l'histoire en établissant un nouveau composant appelé « son de fond », qui est un son basé sur le contexte de l'histoire, sans aucune information linguistique.
- Collection d'ensembles de données vocales - Il s'agit d'une liste organisée d'ensembles de données vocales ouvertes pour la recherche liée à la parole (principalement pour la reconnaissance automatique de la parole). Plus de 110 ensembles de données vocales sont collectés dans ce référentiel, et plus de 70 ensembles de données peuvent être téléchargés directement sans demande ni enregistrement supplémentaire.
- Générateur d'ensembles de données vocales - Speech Dataset Generator est dédié à la création d'ensembles de données adaptés à la formation de modèles de synthèse vocale ou de synthèse vocale. La fonctionnalité principale consiste à transcrire des fichiers audio, à améliorer la qualité audio si nécessaire et à générer des ensembles de données.
- Ensembles de données de haut-parleurs 3D - Un ensemble de données audio à grande échelle multi-appareils, multi-distances et multi-dialectes de la parole humaine.
- TED-LIUM - Transcription audio de la conférence TED. 1495 enregistrements audio de discussions TED ainsi que les transcriptions en texte intégral de ces enregistrements, créés par le Laboratoire d'Informatique de l'Université du Maine (LIUM).
- Le corpus de légendes audio Flickr – Le corpus de légendes audio Flickr 8k contient 40 000 légendes vocales de 8 000 images naturelles. Elle a été collectée en 2015 pour étudier les schémas d'apprentissage multimodaux pour la découverte de modèles de parole non supervisés.
- The People's Speech - The People's Speech est un ensemble de données de reconnaissance vocale conversationnelle en anglais supervisé, téléchargeable gratuitement, d'une durée de 30 000 heures et en croissance, sous licence pour un usage académique et commercial sous CC-BY-SA (avec un sous-ensemble CC-BY). Les données sont collectées via une recherche sur Internet de données audio sous licence appropriée avec des transcriptions existantes.
- The Spoken Wikipedia Corpora - Le projet Spoken Wikipedia rassemble des lecteurs bénévoles de l'article Wikipédia. Des centaines d’articles parlés dans plusieurs langues sont disponibles pour les utilisateurs qui – pour une raison ou une autre – ne peuvent pas ou ne veulent pas consommer la version écrite de l’article.
- TIMIT - Le corpus de parole continue acoustique-phonétique DARPA TIMIT.
- tts-frontend-dataset - TTS FrontEnd DataSet : Polyphone / Prosodie / TextNormalization.
- VoxCeleb2 - VoxCeleb2 est un ensemble de données de reconnaissance de locuteurs à grande échelle obtenu automatiquement à partir de médias open source. VoxCeleb2 comprend plus d'un million d'énoncés provenant de plus de 6 000 locuteurs. Étant donné que l'ensemble de données est collecté « dans la nature », les segments vocaux sont corrompus par du bruit réel, notamment des rires, des conversations croisées, des effets de canal, de la musique et d'autres sons. L'ensemble de données est également multilingue, avec des discours de locuteurs de 145 nationalités différentes, couvrant un large éventail d'accents, d'âges, d'origines ethniques et de langues.
- VoxConverse - VoxConverse est un ensemble de données de diarisation audiovisuelle composé de clips multi-locuteurs de parole humaine, extraits de vidéos YouTube.
- VoxLingua107 - VoxLingua107 est un ensemble de données de reconnaissance de langues parlées de 6628 heures (62 heures par langue en moyenne) et il est accompagné d'un ensemble d'évaluation de 1609 énoncés vérifiés.
- VoxPopuli - VoxPopuli est un corpus multilingue à grande échelle fournissant 100 000 heures de données vocales non étiquetées dans 23 langues. Il s’agit de la plus grande donnée ouverte à ce jour pour l’apprentissage des représentations non supervisé ainsi que pour l’apprentissage semi-supervisé. VoxPopuli contient également 1,8K heures de discours transcrits dans 16 langues et leurs interprétations orales alignées dans 5 autres langues, totalisant 5,1K heures.
- VoxForge - VoxForge est un ensemble de données vocales ouvertes qui a été configuré pour collecter la parole transcrite à utiliser avec les moteurs de reconnaissance vocale gratuits et open source (sous Linux, Windows et Mac).
- VocalSound - VocalSound est un ensemble de données gratuit composé de 21 024 enregistrements participatifs de rires, soupirs, toux, raclements de gorge, éternuements et reniflements provenant de 3 365 sujets uniques. L'ensemble de données VocalSound contient également des méta-informations telles que l'âge, le sexe, la langue maternelle, le pays et l'état de santé du locuteur.
- VoiceBank + DEMAND - VoiceBank+DEMAND est une base de données vocale bruyante pour la formation des algorithmes d'amélioration de la parole et des modèles TTS. La base de données a été conçue pour former et tester des méthodes d’amélioration de la parole fonctionnant à 48 kHz. Une description plus détaillée peut être trouvée dans le document associé à la base de données.
- WaveFake - WaveFake est un ensemble de données pour la détection des deepfakes audio. L'ensemble de données consiste en un ensemble de données à grande échelle de plus de 100 000 clips audio générés.
- WenetSpeech - WenetSpeech est un corpus mandarin multidomaine composé de plus de 10 000 heures de parole étiquetée de haute qualité, de plus de 2 400 heures de parole faiblement étiquetée et d'environ 10 000 heures de parole non étiquetée, avec plus de 22 400 heures au total. Les auteurs ont collecté les données sur YouTube et Podcast, qui couvrent une variété de styles de parole, de scénarios, de domaines, de sujets et de conditions bruyantes. Une méthode basée sur la reconnaissance optique de caractères (OCR) est introduite pour générer les candidats à la segmentation audio/texte pour les données YouTube sur ses sous-titres vidéo correspondants.
- WSJ0-2mix - WSJ0-2mix est un corpus de reconnaissance vocale de mélanges de paroles utilisant des énoncés du corpus du Wall Street Journal (WSJ0).
- PAN! (WSJ0 Hipster Ambient Mixtures) - L'ensemble de données WSJ0 Hipster Ambient Mixtures ( WHAM! ) associe chaque mélange de deux haut-parleurs de l'ensemble de données wsj0-2mix à une scène de fond sonore unique. Le bruit audio a été collecté dans divers sites urbains de la région de la baie de San Francisco fin 2018. Les environnements sont principalement constitués de restaurants, de cafés, de bars et de parcs. L'audio a été enregistré à l'aide d'un microphone binaural Apogee Sennheiser sur un trépied entre 1,0 et 1,5 mètres du sol.
- YODAS - Il s'agit du sous-ensemble manuel/automatique YODAS de notre ensemble de données YODAS, il compte 369 510 heures de parole. Cet ensemble de données contient des énoncés audio et les sous-titres correspondants (manuels ou automatiques) de YouTube. Notez que la légende manuelle indique uniquement qu'elle est téléchargée par les utilisateurs, mais pas nécessairement transcrite par un humain.
- YODAS2 - YODAS2 est l'ensemble de données long de l'ensemble de données YODAS. Il fournit le même ensemble de données qu'espnet/yodas mais YODAS2 présente les nouvelles fonctionnalités suivantes : 1. formaté au format long (niveau vidéo) où les audios ne sont pas segmentés. 2. Les audios sont codés en utilisant des taux d'échantillonnage plus élevés (c'est-à-dire 24k).
- YTTTS - L'ensemble de données YouTube Text-To-Speech est composé de formes d'onde audio extraites de vidéos YouTube ainsi que de leurs transcriptions en anglais.
^ Retour au sommaire ^
Musique
- AAM : Artificial Audio Multitracks Dataset - Cet ensemble de données contient 3 000 pistes audio de musique artificielle avec de riches annotations. Il est basé sur des échantillons d'instruments réels et générés par composition algorithmique dans le respect de la théorie musicale. Il fournit des mixages complets des chansons ainsi que des pistes d'instrument unique. Les midis utilisés pour la génération sont également disponibles. Les fichiers d'annotation comprennent : les débuts, les hauteurs, les instruments, les touches, les tempos, les segments, l'instrument mélodique, les battements et les accords.
- Acappella - Acappella comprend environ 46 heures de vidéos de chant solo a cappella provenant de YouTbe, échantillonnées auprès de différents chanteurs et langues. Quatre langues sont prises en compte : anglais, espagnol, hindi et autres.
- AJOUTER : audio-dataset-downloader - Script Python CLI simple pour télécharger N heures d'audio à partir de Youtube, basé sur une liste de genres musicaux.
- ADL Piano MIDI - L'ADL Piano MIDI est un ensemble de données de 11 086 morceaux de piano de différents genres. Cet ensemble de données est basé sur l'ensemble de données Lakh MIDI, qui est une collection de 45 129 fichiers MIDI uniques qui ont été mis en correspondance avec les entrées de l'ensemble de données Million Song.
- Partitions et performances alignées (ASAP) - ASAP est un ensemble de données de partitions musicales alignées (à la fois MIDI et MusicXML) et de performances (audio et MIDI), toutes avec des annotations de temps fort, de rythme, de signature rythmique et de signature clé.
- Ensemble de données annoté Jingju Arias - L'ensemble de données annoté Jingju Arias est une collection de 34 airs jingju segmentés manuellement en différents niveaux à l'aide du logiciel Praat. Les airs sélectionnés contiennent des échantillons des deux principaux shengqiang du jingju, à savoir xipi et erhuang, ainsi que des cinq principaux types de rôles en termes de chant, à savoir dan, jing, laodan, laosheng et xiaosheng. L'ensemble de données est constitué de fichiers Praat TextGrid pour chaque air, contenant des niveaux pour les informations suivantes : air, identifiant MusicBrainz, artiste, école, type de rôle, shengqiang, banshi, ligne de paroles, syllabes et modèles de percussions.
- Bach Doodle - L'ensemble de données Bach Doodle est composé de 21,6 millions d'harmonisations soumises à partir du Bach Doodle. L'ensemble de données contient à la fois des métadonnées sur la composition (telles que le pays d'origine et les commentaires), ainsi qu'un MIDI de la mélodie saisie par l'utilisateur et un MIDI de l'harmonisation générée. L'ensemble de données contient environ 6 ans de musique saisie par l'utilisateur.
- Bach Violin Dataset - Une collection d'enregistrements publics de haute qualité des sonates et partitas pour violon seul de Bach (BWV 1001-1006).
- Ensemble de données Batik-plays-Mozart - L'ensemble de données Batik-plays-Mozart est un ensemble de données d'interprétation au piano contenant 12 sonates pour piano complètes de Mozart (36 mouvements distincts) interprétées sur un piano à queue Bösendorfer surveillé par ordinateur par le pianiste de concert viennois Roland Batik. Les performances sont fournies au format MIDI (les fichiers audio correspondants sont disponibles dans le commerce) et alignées au niveau des notes avec les partitions de la nouvelle édition Mozart en MusicXML et les annotations d'harmonie musicologique, de cadence et de phrases précédemment publiées dans Les Sonates annotées de Mozart.
- Ensemble de données sur les instruments de percussion de l'Opéra de Pékin - L'ensemble de données sur les percussions de l'Opéra de Pékin est une collection de 236 exemples de coups isolés couvrant les quatre classes d'instruments de percussion utilisées à l'Opéra de Pékin. Il peut être utilisé pour créer des modèles de frappe pour chaque instrument de percussion.
- Ensemble de données sur les modèles de percussions de l'opéra de Pékin - L'ensemble de données sur les modèles de percussions de l'opéra de Pékin (BOPP) est une collection de 133 modèles de percussions audio couvrant cinq classes de modèles. L'ensemble de données comprend les transcriptions au niveau audio et syllabique pour les modèles (non alignées dans le temps). Il est utile pour les tâches de transcription et de classification par percussion. Les motifs ont été extraits d'enregistrements audio d'airs et étiquetés par un musicologue.
- BiMMuDa - Le Billboard Melodic Music Dataset (BiMMuDa) est un ensemble de données MIDI des principales mélodies des cinq meilleurs singles du Billboard Year-End Singles Charts pour chaque année de 1950 à 2022. Ce référentiel stocke l'ensemble de données, ainsi que ses métadonnées. et annexes.
- CAL500 (Computer Audition Lab 500) - CAL500 (Computer Audition Lab 500) est un ensemble de données destiné à l'évaluation des systèmes de recherche d'informations musicales. Il se compose de 502 chansons tirées de la musique populaire occidentale. L'audio est représenté comme une série chronologique des 13 premiers coefficients cepstraux de fréquence Mel (et de leurs dérivées première et seconde) extraits en faisant glisser une fenêtre de courte durée de 12 ms se chevauchant à moitié sur la forme d'onde de chaque chanson.
- Ensemble de données sur le rythme de la musique carnatique - L'ensemble de données sur le rythme de la musique carnatique est une sous-collection de 176 extraits (16,6 heures) dans quatre taalas de musique carnatique avec audio, métadonnées associées au tala et marqueurs alignés dans le temps indiquant la progression à travers les cycles du tala. Il est utile comme corpus de test pour de nombreuses tâches d'analyse automatique du rythme dans la musique carnatique.
- CCMixter - CCMixter est un ensemble de données de séparation de voix chantées composé de 50 pistes stéréo complètes de ccMixter présentant de nombreux genres musicaux différents. Pour chaque chanson, trois fichiers WAV sont disponibles : la musique de fond, le signal vocal et leur somme.
- ChMusic - ChMusic est un ensemble de données musicales traditionnelles chinoises pour le modèle de formation et l'évaluation des performances de la reconnaissance des instruments de musique. Cet ensemble de données couvre 11 instruments de musique, comprenant Erhu, Pipa, Sanxian, Dizi, Suona, Zhuiqin, Zhongruan, Liuqin, Guzheng, Yangqin et Sheng.
- chongchong-free - Chongchong Piano Downloader est un logiciel de téléchargement gratuit de la partition pour piano de Chongchong, qui permet d'obtenir le lien de la partition, d'analyser le contenu de la partition et d'exporter le fichier.
- ComMU - ComMU contient 11 144 échantillons MIDI constitués de courtes séquences de notes créées par des compositeurs professionnels avec leurs 12 métadonnées correspondantes. Cet ensemble de données est conçu pour une nouvelle tâche, la génération de musique combinatoire qui génère de la musique diversifiée et de haute qualité uniquement avec des métadonnées via un modèle de langage auto-régressif.
- CoSoD - CoSoD se compose de métadonnées et de données analytiques d'un corpus de 331 chansons comprenant toutes les collaborations multi-artistes du palmarès de fin d'année Billboard « Hot 100 » publié entre 2010 et 2019. Chaque chanson de l'ensemble de données est associée à deux fichiers CSV : un pour les métadonnées et un pour les données analytiques.
- DALI - DALI : un vaste ensemble de données synchronisées entre audio, paroles et notes vocales.
- DadaGP - DadaGP est un nouvel ensemble de données musicales symboliques comprenant 26 181 partitions de chansons au format GuitarPro couvrant 739 genres musicaux, ainsi qu'un format tokenisé qui l'accompagne bien adapté aux modèles de séquences génératives tels que Transformer. Le format tokenisé s'inspire des encodages MIDI basés sur des événements, souvent utilisés dans les modèles de génération de musique symbolique. L'ensemble de données est publié avec un encodeur/décodeur qui convertit les fichiers GuitarPro en jetons et inversement.
- DeepScores - Ensemble de données synthétiques de 300 000 images annotées de musique écrite pour la classification d'objets, la segmentation sémantique et la détection d'objets. Basé sur un large ensemble de documents MusicXML obtenus auprès de MuseScore, un pipeline sophistiqué est utilisé pour convertir la source en fichiers LilyPond, pour lesquels LilyPond est utilisé pour graver et annoter les images.
- dMelodies - dMelodies est un ensemble de données de mélodies simples à 2 mesures générées à l'aide de 9 facteurs de variation latents indépendants où chaque point de données représente une mélodie unique basée sur les contraintes suivantes : - Chaque mélodie correspondra à une gamme unique (majeur, mineur, blues, etc. .). - Chaque mélodie joue les arpèges en utilisant le modèle d'accords de cadence standard I-IV-VI. - La mesure 1 joue les 2 premiers accords (6 notes), la mesure 2 joue les 2 seconds accords (6 notes). - Chaque note jouée est une croche.
- DISCO-10M - DISCO-10M est un ensemble de données musicales créé pour démocratiser la recherche sur les modèles d'apprentissage automatique à grande échelle pour la musique.
- Dizi - Dizi est un ensemble de données sur le style musical de l'école du Nord et de l'école du Sud. Les caractéristiques incluent la mélodie et les techniques de jeu des deux styles de musique différents sont déconstruites.
- DreamSound - Récemment, les modèles de génération de texte en musique ont obtenu des résultats sans précédent dans la synthèse d'échantillons musicaux diversifiés et de haute qualité à partir d'une invite de texte donnée. Malgré ces progrès, on ne sait toujours pas comment générer des concepts musicaux personnalisés et spécifiques à l'utilisateur, les manipuler et les combiner avec ceux existants. Motivés par la littérature sur la vision par ordinateur, nous étudions la conversion texte-musique en explorant deux méthodes établies, à savoir l'inversion textuelle et Dreambooth. À l’aide de mesures quantitatives et d’une étude utilisateur, nous évaluons leur capacité à reconstruire et modifier de nouveaux concepts musicaux, à partir de quelques échantillons seulement. Enfin, nous fournissons un nouvel ensemble de données et proposons un protocole d'évaluation pour cette nouvelle tâche.
- EMOPIA - Un ensemble de données de piano pop multimodal pour la reconnaissance des émotions et la génération de musique basée sur les émotions. L'ensemble de données EMOPIA (prononcé « yee-mò-pi-uh ») est une base de données multimodale partagée (audio et MIDI) axée sur l'émotion perçue dans la musique pop pour piano, afin de faciliter la recherche sur diverses tâches liées à l'émotion musicale. L'ensemble de données contient 1 087 clips musicaux provenant de 387 chansons et des étiquettes d'émotion au niveau des clips annotées par quatre annotateurs dédiés.
- ErhuPT (Erhu Playing Technique Dataset) - Cet ensemble de données est un ensemble de données audio contenant environ 1 500 clips audio enregistrés par plusieurs lecteurs professionnels.
- FiloBass - Une étude basée sur un ensemble de données et un corpus sur les lignes de basse de jazz. FiloBass : un nouveau corpus de partitions musicales et d'annotations qui se concentre sur le rôle important mais souvent négligé de la contrebasse dans l'accompagnement du jazz. Inspirés par des travaux récents mettant en lumière le rôle du soliste, nous proposons une collection de 48 transcriptions vérifiées manuellement de bassistes de jazz professionnels, comprenant plus de 50 000 événements de notes, basées sur les pistes d'accompagnement utilisées dans l'ensemble de données FiloSax. Pour chaque enregistrement, nous fournissons des tiges audio, des partitions, du MIDI aligné sur les performances et des métadonnées associées pour les temps, les temps forts, les symboles d'accords et les marqueurs de forme musicale.
- Finding Tori - Finding Tori : apprentissage auto-supervisé pour analyser la chanson folklorique coréenne. nous introduisons une analyse informatique de l'ensemble de données d'enregistrement sur le terrain d'environ 700 heures de chansons folkloriques coréennes, enregistrées vers les années 1980-90.
- FMA - The Free Music Archive (FMA) est un ensemble de données à grande échelle permettant d'évaluer plusieurs tâches de recherche d'informations musicales. Il se compose de 343 jours d'audio provenant de 106 574 titres de 16 341 artistes et de 14 854 albums, disposés selon une taxonomie hiérarchique de 161 genres. Il fournit un son complet et de haute qualité, des fonctionnalités précalculées, ainsi que des métadonnées au niveau de la piste et de l'utilisateur, des balises et du texte de forme libre tel que des biographies.
- GiantMIDI-Piano - GiantMIDI-Piano est un ensemble de données MIDI pour piano classique contenant 10 855 fichiers MIDI de 2 786 compositeurs. Le sous-ensemble organisé en limitant les noms de famille des compositeurs contient 7 236 fichiers MIDI de 1 787 compositeurs.
- Groove (Groove MIDI Dataset) - L'ensemble de données Groove MIDI (GMD) est composé de 13,6 heures de MIDI aligné et d'audio (synthétisé) de batterie expressive interprétée par des humains et alignée sur le tempo. L'ensemble de données contient 1 150 fichiers MIDI et plus de 22 000 mesures de batterie.
- GTSINGER - GTSINGER: Un corpus mondial de chant multi-techniques avec des scores de musique réalistes pour toutes les tâches de chant. Nous présentons GTSinger, un grand corpus de chant de haute qualité mondial, multi-technique, gratuit, conçu pour toutes les tâches de chant, ainsi que ses références.
- GuitarSet - GuitarSet: un ensemble de données pour la transcription de la guitare.
- L'ensemble de données de rythme de musique hindustani - L'ensemble de données Hindustani Music Rhythm est une sous-collection de 151 (5 heures) dans quatre Taals de la musique hindoustani avec l'audio, les métadonnées liées au Taal associées et les marqueurs alignés par le temps indiquant la progression à travers les cycles Taal. L'ensemble de données est utile comme corpus de test pour de nombreuses tâches d'analyse de rythme automatique dans la musique hindoustani.
- HUMTRANS - L'ensemble de données peut également servir de base à des tâches en aval telles que la génération de musique basée sur la mélodie. Il se compose de 500 compositions musicales de différents genres et langues, chaque composition divisée en plusieurs segments. Au total, l'ensemble de données comprend 1000 segments de musique. Pour collecter cet ensemble de données de bourdonnement, nous avons employé 10 étudiants, qui sont tous soit des majors musicaux ou compétents pour jouer au moins un instrument de musique. Chacun d'eux a fredonné chaque segment deux fois en utilisant l'interface d'enregistrement Web fournie par notre site Web conçu. Les enregistrements de colibri ont été échantillonnés à une fréquence de 44 100 Hz.
- Ensembles de données toniques de musique d'art indien - Cet ensemble de données comprend 597 enregistrements de musique audio disponible dans le commerce de la musique d'art indien (hindoustani et musique carnatique), chacune annotée manuellement avec le tonique de l'artiste principal. Cet ensemble de données est utilisé comme corpus de test pour le développement d'approches d'identification tonique.
- Jazz Harmony Treebank - Ce référentiel contient le Jazz Harmony Treebank, un corpus d'analyses harmoniques hiérarchiques des séquences d'accords jazz sélectionnées dans le corpus Irealpro publié sur Zenodo par Shanahan et al.
- Jazznet - Jazznet: un ensemble de données de modèles de piano fondamentaux pour la recherche sur l'apprentissage de la machine audio musicale. Cet article présente l'ensemble de données Jazznet, un ensemble de données de modèles de musique de piano jazz fondamental pour développer des algorithmes d'apprentissage automatique (ML) dans la recherche d'informations musicales (MIR). L'ensemble de données contient 162520 motifs de piano étiquetés, y compris les accords, les arpèges, les échelles et les progressions d'accords avec leurs inversions, entraînant plus de 26 000 heures d'audio et une taille totale de 95 Go.
- Jingju a cappella chantant le pitch contour Dataset - Jingju a cappella chantant le jeu de données de contour de pitch est une collection de segments de pitch segments Ground Truth pour 39 Jingju A cappella Singing Recordings. L'ensemble de données comprend la vérité au sol pour (1) la transcription mélodique, (2) la segmentation des contours de hauteur. Il est utile pour la transcription mélodique et les tâches de segmentation des contour de tangage. Les contours de pitch ont été extraits des enregistrements audio et corrigées manuellement et segmentées par un musicologue.
- Jingju Music Scores Collection - Il s'agit d'une collection de 92 scores de musique Jingju rassemblés pour l'analyse de Jingju Singing en termes de système musical. Ils ont été transcrits de leurs sources imprimées d'origine dans un format lisible par la machine, en utilisant MuseScore et les exportant dans MusicXML.
- JS Fake Chorales - Un ensemble de données MIDI de 500 chorales en 4 parties générés par l'algorithme KS_Chorus, annoté avec des résultats de centaines de participants aux tests d'écoute, avec 300 autres chorales non annotées.
- LAION-DISCO-12M - L'ensemble de données LAION-DISCO-12M contient des liens 12m vers de la musique sur YouTube, inspiré par la méthodologie de DISCO-10M. À partir d'une première liste de semences d'artistes, nous pouvons découvrir de nouveaux artistes en explorant récursivement les artistes répertoriés dans la section "Les fans pourraient aussi aimer". Nous explorons le graphique des artistes connexes aussi longtemps que nous pouvons trouver de nouveaux artistes.
- Lakh Musenet MIDI Dataset - Full Lakh MIDI Dataset converti au format de sortie Mudi Mudi (9 instruments + batterie).
- Ensemble de données MIDI de Los Angeles - ensemble de données MIDI Sota Kilo-Sched à des fins MIR et Music AI.
- LP-MUSICCAPS - LP-MUSICCAPS: LLM PSEUDO MUSIQUE CONNUTÉ.
- Lyra DataSet - Lyra est un ensemble de données pour la musique grecque traditionnelle et folklorique qui comprend 1570 pièces, résumant environ 80 heures de données. L'ensemble de données intègre des liens horodatrices YouTube pour récupérer l'audio et la vidéo, ainsi que des informations de métadonnées riches en ce qui concerne l'instrumentation, la géographie et le genre, entre autres.
- MAESTRO - L'ensemble de données Maestro contient plus de 200 heures d'enregistrements audio et MIDI appariés de dix ans de compétition piano-e. Les données MIDI comprennent des vitesses de frappe clés et des positions de pédale SUSTR / SOSTENUTO / UNA CORDA. Les fichiers audio et MIDI sont alignés sur la précision de ∼3 ms et tranchés sur des pièces musicales individuelles, qui sont annotées avec le compositeur, le titre et l'année de performance. L'audio non compressé est de qualité CD ou plus (44,1–48 kHz stéréo PCM 16 bits).
- MAGNATAGATUNE - Le jeu de données Magnatagatune contient 25 863 clips de musique. Chaque clip est un extrait de 29 secondes appartenant à l'une des 5223 chansons, 445 albums et 230 artistes. Les clips s'étendent sur un large éventail de genres comme le classique, le nouvel âge, l'électronica, le rock, la pop, le monde, le jazz, le blues, le métal, le punk et plus encore. Chaque clip audio est fourni avec un vecteur d'annotations binaires de 188 balises.
- Ensemble de données principal pour "Evolution of Popular Music: USA 1960–2010" - Il s'agit d'un grand fichier (~ 20 Mo) appelé Evolutionpopusa_MainData.csv, au format de données séparé des virgules avec des en-têtes de colonne. Chaque ligne correspond à un enregistrement. Le fichier est visible dans n'importe quel éditeur de texte et peut également être ouvert dans Excel ou importé dans d'autres programmes de traitement des données.
- Ensemble de données Metamidi - Nous introduisons l'ensemble de données Metamidi (MMD), une collection à grande échelle de fichiers MIDI 436 631 et de métadonnées. En plus des fichiers MIDI, nous fournissons des métadonnées d'artistes, de titre et de genre qui ont été collectées pendant le processus de grattage lorsqu'ils sont disponibles. Midis in (MMD) a été jumelé avec une collection de 32 000 000 clips audio de 30 secondes récupérés de Spotify, entraînant plus de 10 796 557 matchs audio-Midi.
- Ensemble de données Million Song - Cet ensemble de données contient un million de chansons de 1922 à 2011, avec des informations étiquetées d'artiste d'Echonest (maintenant partie de Spotify), ainsi que des mesures audio et d'autres informations pertinentes.
- MIR-1K - MIR-1K (Multimedia Information Retrieval Lab, 1000 Song Clips) est un ensemble de données conçu pour chanter la séparation de la voix.
- Ensemble de données sur les AVC par Mridangam - L'ensemble de données sur les accidents vasculaires cérébraux Mridangam est une collection de 7162 exemples audio de traits individuels du Mridangam en diverses toniques. L'ensemble de données comprend 10 traits différents joués sur les mridangams avec 6 valeurs toniques différentes. L'ensemble de données peut être utilisé pour les modèles de formation pour chaque ARVE Mridangam.
- Mridangam Tani-Avarthanam Dataset - L'ensemble de données Mridangam Tani-Avarthanam est une collection transcrite de deux tani-avarthanams joués par le célèbre Maestro Mridangam Padmavibhushan Omeayalpuram K. Sivaraman. L'audio a été enregistré à l'IIT Madras, en Inde et annoté par des percussionnistes carnatiques professionnels. Il se compose d'environ 24 min d'audio et 8800 accidents vasculaires cérébraux.
- MIRMLPOP - Il contient 1) Annotation de l'ensemble de données MIR-MLPOP, 2) le code source pour obtenir l'audio de l'ensemble de données, 3) le code source que nous avons utilisé pour affiner le chuchotement sur Mir-MLPOP (les deux paroles d'alignement et de paroles) et 4) Code source pour l'évaluation.
- MSD (Million Song DataSet) - The Million Song DataSet est une collection librement disponible de fonctionnalités audio et de métadonnées pour un million de pistes musicales populaires contemporaines. Le cœur de l'ensemble de données est l'analyse des fonctionnalités et les métadonnées pour un million de chansons, fournies par le nid Echo.
- Ensemble de données MTG-Jamendo - Nous présentons l'ensemble de données MTG-Jamendo, un nouvel ensemble de données ouvert pour la musique automatique. Il est construit en utilisant de la musique disponible chez Jamendo sous Creative Commons Licences et Tags fournies par des chargeurs de contenu. L'ensemble de données contient plus de 55 000 pistes audio complètes avec 195 balises des catégories de genre, d'instruments et d'humeur / thème. Nous fournissons des divisions de données élaborées pour les chercheurs et rapportons les performances d'une approche de base simple sur cinq ensembles différents de balises: genre, instrument, humeur / thème, top-50 et global.
- MTG-JAMENDO - L'ensemble de données MTG-Jamendo est un ensemble de données ouvert pour la musique musicale. L'ensemble de données contient plus de 55 000 pistes audio complètes avec 195 catégories de balises (87 balises de genre, 40 balises d'instrument et 56 balises d'humeur / thème). Il est construit en utilisant de la musique disponible chez Jamendo sous Creative Commons Licences et Tags fournies par des chargeurs de contenu. Tout l'audio est distribué au format MP3 de 320 Kbps.
- Plateforme de partage de données musicales pour la recherche en musicologie computationnelle (ensemble de données CCMUSIC) - Cette plate-forme est une plate-forme multi-fonctionnaire de partage de données musicales pour la recherche de musicologie computationnelle. Il contient de nombreuses données musicales telles que les informations solides des instruments de musique traditionnels chinois et les informations d'étiquetage de la musique pop chinoise, qui est disponible gratuitement par des chercheurs en musicologie.
- Music Emotion Recognition (Mer) - Nous présentons un ensemble de données pour l'analyse des systèmes de reconnaissance personnalisée de la musique d'émotion de la musique (MER). Nous avons développé la plate-forme des amateurs de musique visant à améliorer la collecte et l'analyse de la soi-disant «vérité du sol» nécessaire en tant que contribution à ces systèmes.
- Musan - Musan est un corpus de musique, de discours et de bruit. Cet ensemble de données convient aux modèles de formation pour la détection des activités vocales (VAD) et la discrimination musicale / parole. L'ensemble de données se compose de musique de plusieurs genres, de la parole de douze langues et d'un large assortiment de bruits techniques et non techniques.
- MUSDB-XL-TRAIN - L'ensemble de données MUSDB-XL-TRAIN se compose d'un 300 000 segments appliqués par limitère de segments audio 4-SEC et des 100 chansons originales. Pour chaque segment, nous avons choisi au hasard le segment arbitraire dans 4 tiges (voix, basse, tambours, autres) de sous-ensemble de formation MUSDB-HQ et les mélangés au hasard. Ensuite, nous avons appliqué un plug-in Limiter commercial à chaque tige.
- MusicBench - MusicBench DataSet est une collection de paires de texte musical conçues pour la génération de texte à musique et publiée avec un modèle de texte à musique Mustango. L'ensemble de données MusicCaps est passé de 5 521 échantillons à 52 768 échantillons de formation et 400 échantillons de test pour créer MusicBench !
- MusicNet - Musicnet est une collection de 330 enregistrements de musique classique licenciée, ainsi que plus d'un million d'étiquettes annotées indiquant le temps précis de chaque note dans chaque enregistrement, l'instrument qui joue chaque note et la position de la note dans la structure métrique de la composition. Les étiquettes sont acquises à partir de scores musicaux alignés sur les enregistrements par Dynamic Time Warping. Les étiquettes sont vérifiées par des musiciens formés; Nous estimons un taux d'erreur d'étiquetage de 4%. Nous offrons les étiquettes MusicNet aux communautés d'apprentissage automatique et de musique comme ressource pour les modèles de formation et une référence commune pour comparer les résultats.
- MusicCaps - MusicCaps est un ensemble de données composé de paires de texte musical 5,5k, avec de riches descriptions de texte fournies par des experts humains.
- Musedata - Musedata est une bibliothèque électronique de musique classique orchestrale et piano de CCARH. Il se compose d'environ 3 Mo de 783 fichiers.
- MUSDB18 - Le MUSDB18 est un ensemble de données de 150 pistes musicales complètes (~ 10h durée) de différents genres ainsi que leurs tiges de batterie, de basse, de voix et autres isolés. L'ensemble de données est divisé en ensembles de formation et de test avec 100 et 50 chansons, respectivement. Tous les signaux sont stéréophoniques et codés à 44,1 kHz.
- Sujets musicaux et métadonnées - Cet ensemble de données fournit une liste de paroles de 1950 à 2019 décrivant les métadonnées musicales comme de la tristesse, de la danseabilité, du volume, de l'acoustique, etc. Nous fournissons également quelques informations comme des paroles qui peuvent être utilisées au traitement du langage naturel.
- Ensemble de données de genres musicaux - ensemble de données de 1494 genres, contenant chacun 200 chansons.
- Ensemble de données de partitions multimodales - MSMD est un ensemble de données synthétique de 497 pièces de musique (classique) qui contient à la fois des représentations audio et du score des pièces alignées à un niveau à grain fin (344 742 paires de têtes de notes alignées sur leur compteur audio / MIDI).
- MUVI-Sync - L'ensemble de données Muvi-Sync est un ensemble de données multimodel comprenant à la fois des fonctionnalités musicales (accord, clé, volume et densité de notes) et des fonctionnalités vidéo (décalage de scène, émotion, mouvement et sémantique) extrait d'un total de 748 clip vidéo.
- Nlakh - Nlakh est un ensemble de données pour la récupération d'instruments de musique. Il s'agit d'une combinaison de l'ensemble de données NSYNTH, qui fournit un grand nombre d'instruments, et l'ensemble de données Lakh, qui fournit des données MIDI multi-track.
- NSYNTH - NSYNTH est un ensemble de données de notes instrumentales, contenant 305 979 notes de musique avec une hauteur, un timbre et une enveloppe uniques. Les sons ont été collectés à partir de 1006 instruments dans des bibliothèques d'échantillons commerciaux et sont annotés en fonction de leur source (acoustique, électronique ou synthétique), de la famille des instruments et des qualités sonores. Les familles d'instruments utilisées dans l'annotation sont la basse, le laiton, la flûte, la guitare, le clavier, le maillet, l'orgue, le roseau, la corde, le plomb et le vocal. Quatre secondes extraits audio monophoniques de 16 kHz ont été générés (notes) pour les instruments.
- NES-MDB (Nintendo Entertainment System Music Base) - La base de données Music de Nintendo Entertainment System (NES-MDB) est un ensemble de données destiné à créer des systèmes de composition musicale automatiques pour le synthétiseur audio NES. Il se compose de 5278 chansons des bandes sonores de 397 jeux NES. L'ensemble de données représente 296 compositeurs uniques, et les chansons contiennent plus de deux millions de notes combinées. Il a des options de format de fichier pour MIDI, Score et NLM (modélisation du langage NES).
- Ensemble de données de progression de Niko Chord - L'ensemble de données de progression de la chorde Niko est utilisé dans Accomontage2. Il contient des pièces de progression de 5k + d'accords, étiquetées avec des styles. Il y a quatre styles au total: standard pop, complexe pop, sombre et R&B.
- Ensemble de données de musique Onair -? Un nouvel ensemble de données STEM pour la recherche musicale démixant, du projet musical libre de droits.
- OpenCPOP - OpenCCPOP , un corpus de chant mandarin de haute qualité accessible au public, est conçu pour les systèmes de synthèse vocale chanteuse (SVS). Ce corpus se compose de 100 chansons de mandarin uniques , qui ont été enregistrées par une chanteuse professionnelle. Tous les fichiers audio ont été enregistrés avec une qualité studio à un taux d'échantillonnage de 44 100 Hz dans un environnement de studio d'enregistrement professionnel .
- Opengufeng - Un ensemble de données de progression de la mélodie et de la corde pour la musique chinoise Gufeng.
- PBSCSR - L'ensemble de données de reconnaissance de style compositeur de score de Piano Bootleg. Notre objectif primordial était de créer un ensemble de données pour étudier la reconnaissance de style compositeur qui est "aussi accessible que MNIST et aussi difficile que Imagenet". Pour atteindre cet objectif, nous échantillons les fragments de score de bootleg de longueur fixe à partir d'images de partitions de piano sur IMSLP. L'ensemble de données lui-même contient 40 000 images de score de bootleg 62x64 pour une tâche de classification à 9 voies, 100 000 images de score de bootleg 62x64 pour une tâche de classification à 100 voies et 29,310 images de score de bootleg de longueur variable pour la pré-élaction.
- POP909 - POP909 est un ensemble de données qui contient plusieurs versions des arrangements de piano de 909 chansons populaires créées par des musiciens professionnels. Le corps principal de l'ensemble de données contient la mélodie vocale, la mélodie de l'instrument principal et l'accompagnement du piano pour chaque chanson au format MIDI, qui sont alignées sur les fichiers audio originaux. De plus, des annotations sont fournies par le tempo, le rythme, la clé et les accords, où les courbes de tempo sont étiquetées à la main et d'autres sont réalisées par des algorithmes Mir.
- PROGGP - Un ensemble de données de 173 chansons de métal progressive, dans les formats Guitarpro et jetons, selon les spécifications de Dadagp.
- RWC (Real World Computing Music Base) - La base de données musicale RWC (Real World Computing) est une base de données musicale (DB). Il contient environ 100 chansons complètes avec des limites de section étiquetées manuellement. Pour les 50 instruments, les sons individuels à intervalles demi-tons ont été capturés avec plusieurs variations de styles de jeu, de dynamique, de fabricants d'instruments et de musiciens.
- Sangeet - un ensemble de données XML pour la musique classique hindoustani. Sangeet préserve toutes les informations requises d'une composition donnée, y compris les métadonnées, les informations structurelles, notationnelles, rythmiques et mélodiques de manière standardisée pour un stockage et une extraction faciles et efficaces des informations musicales. L'ensemble de données est destiné à fournir les informations de vérité sur le terrain pour les tâches de recherche sur les informations musicales, soutenant ainsi plusieurs analyses basées sur les données du point de vue de l'apprentissage automatique.
- Singkt-Dataset - Singkt est un ensemble de données d'évaluation de la performance musicale dans le domaine de KT, qui tente d'utiliser des méthodes de traçage des connaissances pour saisir les changements dynamiques dans les capacités de séance des apprenants. L'ensemble de données recueille des données auprès d'une plate-forme de pratique publique publique, Singmaster. L'ensemble de données SINGKT contient le tableau de données d'enregistrement de réponse principale (enregistrements) et deux tables de données d'informations supplémentaires (utilisateurs, opernnds). La table des utilisateurs enregistre des informations de respect pour les apprenants 1074 contenus dans l'ensemble de données, et la table Opernnds enregistre les informations sur les feuilles de musique.
- SLAKH2100 - L'ensemble de données synthétisé Lakh (SLAKH) est un ensemble de données pour la séparation des sources audio qui est synthétisé à partir de l'ensemble de données MIDI LAKH V0.1 à l'aide d'instruments virtuels basés sur des échantillons de qualité professionnelle. Cette première version de SLAKH, appelée SLAKH2100, contient 2100 pistes mixtes automatiquement et les fichiers MIDI d'accompagnement synthétisés à l'aide d'un moteur d'échantillonnage de qualité professionnelle. Les pistes de SLAKH2100 sont divisées en formation (1500 pistes), validation (375 pistes) et sous-ensembles (225 pistes), totalisant 145 heures de mélanges.
- SymphonyNet - SymponyNet est un projet open-source visant à générer de la musique multi-track et multi-instrument complexe comme Symphony. Notre méthode est entièrement compatible avec d'autres types de musique comme la pop, le piano, la musique solo..etc.
- Tabla Solo DataSet - L'ensemble de données Tabla Solo est une collection transcrite d'enregistrements audio solo tabla couvrant des compositions de six gharanas différents de tabla, joué par Pt. Arvind Mulgaonkar. L'ensemble de données se compose de transcriptions BOL alignées audio et au temps.
- TEGRIDY MIDI DATASet - TEGRIDY MIDI DATASet pour la création de modèles AI de musique précis et efficace.
- L'ensemble de données MIDI LAKH - L'ensemble de données MIDI LAKH est une collection de 176 581 fichiers MIDI uniques, dont 45 129 ont été appariés et alignés sur les entrées dans le million de données de chansons. Son objectif est de faciliter la récupération d'informations de musique à grande échelle, à la fois symbolique (en utilisant les fichiers MIDI seul) et basés sur du contenu audio (en utilisant des informations extraites des fichiers MIDI comme annotations pour les fichiers audio correspondants).
- L'ensemble de données de la musique italienne - L'ensemble de données est construit en exploitant les API Spotify et SoundCloud. Il est composé de plus de 14 500 chansons différentes de musiciens italiens célèbres et moins célèbres. Chaque chanson de l'ensemble de données est identifiée par son ID Spotify et son titre. Les métadonnées de Tracks incluent également des paroles lemmatisées et marquées par Pos et, dans le plus de cas, dix caractéristiques musicales directement rassemblées auprès de Spotify. Les caractéristiques musicales incluent l'acoustique (float), la danseabilité (float), la durée_ms (int), l'énergie (float), l'instrumentalité (flotteur), la vivacité (flotteur), le volume (flotteur), la parole (float), le tempo (flotteur) et la valence ( flotter).
- The Persian Piano Corpus - Le Corpus de piano persan est une collection complète de musique de piano perse, allant des premiers compositeurs aux figures contemporaines. Il a été méticuleusement compilé et rendu public, visant à permettre aux chercheurs d'explorer des enquêtes spécialisées et de contribuer à de nouvelles découvertes. L'approche basée sur l'instrument fournit un corpus complet lié au piano persan, y compris les étiquettes pertinentes et les métadonnées complètes.
- L'ensemble de données de descripteurs de chansons - The Song Describer DataSet: A Corpus of Audio Légendes pour l'évaluation de la musique et du langage. L'ensemble de données sur le descripteurs est un ensemble de données d'évaluation composé de légendes de ~ 1,1k pour 706 enregistrements de musique sous licence avec permis.
- Classificateur de symboles de musique universel - un projet Python qui forme un réseau neuronal profond pour distinguer les symboles musicaux.
- URMP (Performance musicale multimodale de l'Université de Rochester) - URMP (Performance musicale multimodale de l'Université de Rochester) est un ensemble de données pour faciliter l'analyse audiovisuelle des performances musicales. L'ensemble de données comprend 44 pièces musicales multi-instruments simples assemblées à partir de performances coordonnées mais enregistrées séparément des pistes individuelles. Pour chaque pièce, l'ensemble de données a fourni la partition musicale au format MIDI, les enregistrements audio individuels de haute qualité et les vidéos des pièces assemblées.
- Ensemble de données VGMIDI - VGMIDI est un ensemble de données d'arrangements de piano de bandes sonores de jeux vidéo. Il contient 200 pièces MIDI marquées selon l'émotion et 3 850 pièces non marquées. Chaque pièce marquée a été annotée par 30 sujets humains selon le modèle d'émotion Circumplex (valence-arelal).
- Virtuoso Strings - Virtuoso Strings est un ensemble de données pour la détection des ensembles de soft pour les instruments de chaîne. Il se compose de plus de 144 enregistrements de performances professionnelles d'un extrait de Haydn's String Quartet Op. 74 Finale n ° 1, chacune avec des annotations de début instrumental individuelles correspondantes.
- Wikimute - Wikimute: un ensemble de données sur le Web de descriptions sémantiques pour l'audio musical. Dans cette étude, nous présentons WikiMute, un ensemble nouveau et ouvert contenant de riches descriptions sémantiques de la musique. Les données proviennent du riche catalogue d'articles de Wikipedia couvrant les œuvres musicales. À l'aide d'un pipeline d'exploitation de texte dédié, nous extraissons des descriptions longues et courtes couvrant un large éventail de sujets liés à un contenu musical tel que le genre, le style, l'humeur, l'instrumentation et le tempo.
- YM2413-MDB - YM2413-MDB est un ensemble de données de musique de jeu vidéo FM des années 80 avec des annotations d'émotion multi-étiquettes. Il comprend 669 fichiers audio et MIDI de musique à partir de jeux SEGA et MSX PC dans les années 80 à l'aide de YM2413, un générateur de son programmable basé sur FM. La musique de jeu collectée est organisée avec un sous-ensemble de 15 instruments monophoniques et un instrument de batterie.
^ Retour au contenu ^
Effet sonore
- Ensemble de données sur le son d'animaux - Ces données composées de 875 sons animaux contient 10 types de sons animaux. Cet ensemble de données sur les sons d'animaux comprend 200 chat, 200 chiens, 200 oiseau, 75 vache, 45 lion, 40 moutons, 35 grenouille, 30 poulet, 25 ânes, 25 sons de singe.
- AUDIOSET - AUDIOSET est un ensemble de données d'événements audio, qui se compose de plus de 2 millions de clips vidéo de 10 secondes annotés par l'homme. Ces clips sont collectés sur YouTube, dont beaucoup sont dans une qualité médiocre et contiennent plusieurs sources sonores. Une ontologie hiérarchique de 632 classes d'événements est utilisée pour annoter ces données, ce qui signifie que le même son pourrait être annoté que différentes étiquettes. Par exemple, le son des aboiements est annoté comme animal, animaux de compagnie et chien. Toutes les vidéos sont divisées en un ensemble d'évaluation / drogue équilibré / transfert de transfert.
- AudioCaps - AudioCaps est un ensemble de données de sons avec des descriptions d'événements qui a été introduite pour la tâche de sous-titrage audio, avec des sons provenant de l'ensemble de données Audioset. Les annotateurs ont reçu les pistes audio avec des conseils de catégorie (et avec des indices vidéo supplémentaires si nécessaire).
- Auto-ACD - Nous présentons un pipeline de génération de légendes audio innovant et automatique, construisons un ensemble de données en langue audio de haute qualité, de haute qualité, nommé Auto-ACD, comprenant plus de 1,9 million de paires de texte audio. Les descriptions de texte dans Auto-ACD contiennent de longs textes (18 mots) et divers vocabulaires (23k) et fournissent des informations sur l'environnement auditif environnant (point de données avec l'ombre) dans lequel les sons ont lieu.
- Effets sonores de la BBC - Il y a 33 066 effets sonores dans l'ensemble de données des effets sonores de la BBC, avec des descriptions de texte. Genre: Sound principalement ambiant. Chaque audio a une description textuelle naturelle.
- DCASE 2016 - DCASE 2016 est un ensemble de données pour la détection d'événements sonores. Il se compose de 20 courts fichiers sonores mono pour chacune des 11 classes sonores (à partir des environnements de bureau, comme Clearthroat, Drawer ou Keyboard), chaque fichier contenant une instance d'événement sonore. Les fichiers sonores sont annotés avec des temps sur et de décalage des événements, mais les silences entre les sons physiques réels (comme avec un téléphone qui sonne) ne sont pas marqués et donc «inclus» dans l'événement.
- Environnement de données audio - Cette page essaie de maintenir une liste des ensembles de données adaptés à la recherche audio environnementale. En plus de l'ensemble de données disponibles, des ensembles de données propriétaires et commerciaux sont également répertoriés ici pour l'exhaustivité. En plus des ensembles de données, certains des services sonores en ligne sont également répertoriés à la fin de la page.
- ESC-50 - L'ensemble de données ESC-50 est une collection étiquetée de 2000 enregistrements audio environnementaux adaptés aux méthodes d'analyse comparative de classification sonore environnementale. Il comprend 2000 5s Clips de 50 classes différentes à travers des sons naturels, humains et domestiques, encore une fois, tirés de freeSound.org.
- Fair-Play - Fair-Play est un ensemble de données Video-Audio composé de 1 871 clips vidéo et de leurs clips audio binauraux correspondants dans une salle de musique. Le clip vidéo et le clip binaural du même index sont à peu près alignés.
- FSD50K (FreeSound Database 50K) - FreeSound DataSet 50K (ou FSD50K pour faire court) est un ensemble de données ouvert d'événements sonores marqués par l'homme contenant 51 197 clips freesounds distribués inégalement dans 200 classes tirées de l'ontologie de l'audition. FSD50K a été créé au Music Technology Group of Universitat Pompeu Fabra. Il se compose principalement d'événements sonores produits par des sources sonores physiques et des mécanismes de production, y compris les sons humains, les sons des choses, les animaux, les sons naturels, les instruments de musique et plus encore.
- FSDNOISY18K - L'ensemble de données FSDNOISY18K est un ensemble de données ouvert contenant 42,5 heures d'audio sur 20 classes d'événements sonores, y compris une petite quantité de données marquées manuellement et une plus grande quantité de données bruyantes réelles. Le contenu audio est tiré de FreeSound et l'ensemble de données a été organisé à l'aide de l'annotateur FreeSound. L'ensemble bruyant de FSDNOISY18K se compose de 15 813 clips audio (38,8h), et l'ensemble de tests se compose de 947 clips audio (1,4H) avec des étiquettes correctes. L'ensemble de données dispose de deux types principaux de bruit d'étiquette: le vocabulaire (IV) et hors vocabulaire (OOV). IV s'applique lorsque, étant donné une étiquette observée qui est incorrecte ou incomplète, l'étiquette vraie ou manquante fait partie de l'ensemble de classe cible. De manière analogue, OOV signifie que l'étiquette vraie ou manquante n'est pas couverte par ces 20 classes.
- Fuss (Free Universal Sound Séparation) - L'ensemble de données de séparation du son universel libre (FUSS) est une base de données de mélanges sonores arbitraires et de références au niveau de la source, pour une utilisation dans des expériences sur la séparation du son arbitraire. Fuss est basé sur le corpus FSD50K.
- L'ensemble de données des sons inaturalistes - nous présentons l'ensemble de données Inaturalist Sounds (inatsOnds), une collection de 230 000 fichiers audio capturant des sons de plus de 5 500 espèces, apportées par plus de 27 000 enregistreurs dans le monde.
- Faire tomber des effets sonores avec des intentions émotionnelles - l'ensemble de données a été enregistré par l'artiste professionnel de Foley Ulf Olausson dans les studios Foleyworks à Stockholm le 15 octobre 2019. Inspiré par les travaux précédents sur les sons de coups. Nous avons choisi cinq types d'émotions à représenter dans l'ensemble de données: la colère, la peur, le bonheur, le neutre et la tristesse.
- MIMII - ensemble de données sonores pour une enquête et une inspection industrielles industrielles (MIMII) est un ensemble de données solides des sons de la machine industrielle.
- Ensemble de données sur les événements audio Mivia - L'ensemble de données d'événements audio Mivia est composé d'un total de 6000 événements pour une application de surveillance, à savoir la rupture de verre, le coup de feu et le cri. L'événement 6000 est divisé en un ensemble de formation (composi de 4200 événement) et un ensemble de tests (composi de l'événement 1800).
- Ensemble de données audio Pitch (Synthesizer Surge) - 3,4 heures de synthétisé audio à l'aide du synthétiseur de surtension open source, sur la base de 2084 préréglages inclus dans le package de surtension. Ceux-ci représentent des sons de synthèse `` naturels '' - des Iepresets conçus par les humains. Nous avons généré des échantillons de 4 secondes jouant à Velocity 64 avec une durée de note de 3 secondes. Pour chaque préréglage, nous n'avons varié que le terrain, du MIDI 21-108, la gamme d'un piano à queue. Chaque son de l'ensemble de données était normalisé au niveau RMS à l'aide du package de normalisation. Il n'y avait aucun moyen élégant de déduir cet ensemble de données; Cependant, seul un petit pourcentage de préréglages (comme les tambours et les effets sonores) n'avait aucune variation de hauteur perceptuelle ni commande.
- REMFX - REMFX: ensembles de données d'évaluation. Ces ensembles de données proviennent initialement des ensembles de données VocalSet, GuitarSet, DSD100 et IDMT-SMT-Drums avant d'être traités dans notre script de génération de données. Les ensembles de données sont nommés selon le nombre d'effets appliqués (0-5). Par exemple, 2-2.zip contient 2 effets appliqués à chaque exemple audio d'entrée. Les cibles sont restées intactes. Les effets audio appliqués proviennent de l'ensemble (distorsion, retard, compresseur de plage dynamique, phaseur, réverbération) et échantillonnés au hasard sans remplacement pour chaque exemple.
- Soundcam - Soundcam, le plus grand ensemble de données de rires uniques des salles in-the-wild publiées publiquement à ce jour. Il comprend 5 000 mesures réelles à 10 canaux des réponses à l'impulsion de la pièce et 2 000 enregistrements de musique à 10 canaux dans trois pièces différentes, y compris un laboratoire acoustique contrôlé, un salon dans la volonté et une salle de conférence, avec différents humains en positions dans chaque pièce.
- SoundingEarth - SoundingEarth se compose d'images aériennes colocalisées et d'échantillons audio partout dans le monde.
- Spatial LibRispenech - Spatial LibrisPeleeCH, est un ensemble de données audio spatial avec plus de 650 heures d'ambisonics de premier ordre et un bruit de distracteur en option (avec un son brut à 19 canaux à venir). Spatial LibRispenech est conçu pour la formation du modèle d'apprentissage automatique, et il comprend des étiquettes pour la position de la source, la direction de la parole, l'acoustique de la pièce et la géométrie. Le bibliothèque spatiale a été généré par des échantillons de bibliothèque augmentant avec des conditions acoustiques simulées de 200K + dans des salles synthétiques 8K +.
- STARSS22 (Sony-Tau Spatial Soundscapes réalistes 2022) - L'ensemble de données Spatial Soundcapes 2022 (Stars22) de Sony-Tau se compose de enregistrements de scènes réelles capturées avec un tableau de microphone sphérique à comptoir à canal élevé (SMA). Les enregistrements sont effectués à partir de deux équipes différentes de deux sites différents, Université Tampere à Tammere, en Finlande, et Sony à Tokyo, au Japon. Les enregistrements sur les deux sites partagent le même processus de capture et d'annotation, et une organisation similaire.
- Toyadmos - ToyAdmos DataSet est un ensemble de données de sons de fonctionnement de machine d'environ 540 heures de sons de fonctionnement normaux de machine et plus de 12 000 échantillons de sons anormaux collectés avec quatre microphones à un taux d'échantillonnage de 48 kHz, préparé par Yuma Koizumi et des membres dans les laboratoires de l'intelligence NTT Media.
- Tut Sound Events 2017 - L'ensemble de données Tut Sound Events 2017 contient 24 enregistrements audio dans un environnement de rue et contient 6 classes différentes. Ces cours sont: les freins grincer, la voiture, les enfants, le grand véhicule, les personnes qui parlent et les gens qui marchent.
- Urbansound8k - Urban Sound 8k est un ensemble de données audio qui contient 8732 Extraits de son étiquetés (<= 4S) de sons urbains de 10 classes: Air_conditioner, Car_Horn, Children_Playing, Dog_bark, Drilling, Enleing_idling, Gun_shot, Jackhammer, Siren et Street_Music. Les classes sont tirées de la taxonomie sonore urbaine. Tous les extraits sont tirés des enregistrements sur le terrain téléchargés sur www.freesound.org.
- VGG-Sound - A large scale audio-visual dataset. VGG-Sound is an audio-visual correspondent dataset consisting of short clips of audio sounds, extracted from videos uploaded to YouTube.
- Visually Indicated Sounds - Materials make distinctive sounds when they are hit or scratched — dirt makes a thud; ceramic makes a clink. These sounds reveal aspects of an object's material properties, as well as the force and motion of the physical interaction.
^ Back to Contents ^