KI-Audiodatensätze (AI-ADS)?
KI-Audiodatensätze (AI-ADS) ?, einschließlich Sprache, Musik und Soundeffekte, die Trainingsdaten für generative KI, AIGC, KI-Modelltraining, intelligente Audio-Tool-Entwicklung und Audioanwendungen bereitstellen können.
Inhaltsverzeichnis
Projektliste
Rede
- AISHELL-1 – AISHELL-1 ist ein Korpus für die Spracherkennungsforschung und den Aufbau von Spracherkennungssystemen für Mandarin.
- AISHELL-3 – AISHELL-3 ist ein umfangreiches und hochauflösendes Mandarin-Sprachkorpus mit mehreren Sprechern, das von Beijing Shell Shell Technology Co.,Ltd. herausgegeben wird. Es kann zum Trainieren von Text-to-Speech-Systemen (TTS) mit mehreren Sprechern verwendet werden. Das Korpus enthält etwa 85 Stunden emotionsneutrale Aufnahmen, gesprochen von 218 chinesischen Mandarin-Muttersprachlern und insgesamt 88035 Äußerungen.
- Arabisches Sprachkorpus – Das Arabische Sprachkorpus (1,5 GB) ist ein modernes Standardarabisch-Sprachkorpus (MSA) für die Sprachsynthese. Das Korpus enthält phonetische und orthografische Transkriptionen von mehr als 3,7 Stunden MSA-Sprache, abgestimmt auf aufgezeichnete Sprache auf Phonemebene. Die Anmerkungen enthalten Wortbetonungszeichen auf den einzelnen Phonemen.
- AudioMNIST – Der Datensatz besteht aus 30.000 Audioproben gesprochener Ziffern (0-9) von 60 verschiedenen Sprechern.
- AVSpeech – AVSpeech ist ein großer audiovisueller Datensatz, der Sprachclips ohne störende Hintergrundsignale umfasst. Die Segmente sind unterschiedlich lang, zwischen 3 und 10 Sekunden lang, und in jedem Clip gehören das einzige sichtbare Gesicht im Video und der hörbare Ton im Soundtrack einer einzelnen sprechenden Person. Insgesamt enthält der Datensatz etwa 4.700 Stunden Videosegmente mit etwa 150.000 verschiedenen Sprechern und einer Vielzahl von Personen, Sprachen und Gesichtshaltungen.
- ATIS (Airline Travel Information Systems) – Das ATIS (Airline Travel Information Systems) ist ein Datensatz, der aus Audioaufzeichnungen und entsprechenden manuellen Transkripten über Menschen besteht, die in automatisierten Flugreise-Auskunftssystemen nach Fluginformationen fragen. Die Daten bestehen aus 17 eindeutigen Absichtskategorien. Die ursprüngliche Aufteilung enthält 4478, 500 und 893 mit der Absicht gekennzeichnete Referenzäußerungen im Zug-, Entwicklungs- und Testsatz.
- Carnatic Varnam-Datensatz – Der Carnatic Varnam-Datensatz ist eine Sammlung von 28 Sologesangsaufnahmen, die für unsere Forschung zur Intonationsanalyse karnatischer Ragas aufgezeichnet wurden. Die Sammlung besteht aus Audioaufnahmen, zeitlich ausgerichteten Anmerkungen zum Tala-Zyklus und Swara-Notationen in einem maschinenlesbaren Format.
- Casual Conversations – Der Datensatz „Casual Conversations“ soll Forschern dabei helfen, ihre Computer-Vision- und Audio-Modelle hinsichtlich der Genauigkeit bei verschiedenen Altersgruppen, Geschlechtern, sichtbaren Hauttönen und Umgebungslichtbedingungen zu bewerten.
- CN-Celeb – CN-Celeb ist ein umfangreicher Sprechererkennungsdatensatz, der „in freier Wildbahn“ gesammelt wurde. Dieser Datensatz enthält mehr als 130.000 Äußerungen von 1.000 chinesischen Prominenten und deckt 11 verschiedene Genres in der realen Welt ab.
- Clotho – Clotho ist ein Audio-Untertiteldatensatz, der aus 4981 Audiobeispielen besteht, und jedes Audiobeispiel verfügt über fünf Untertitel (insgesamt 24.905 Untertitel). Die Audiobeispiele dauern 15 bis 30 Sekunden und die Untertitel sind acht bis 20 Wörter lang.
- Common Voice – Common Voice ist ein Audiodatensatz, der aus einer eindeutigen MP3- und einer entsprechenden Textdatei besteht. Der Datensatz enthält 9.283 aufgezeichnete Stunden. Der Datensatz umfasst auch demografische Metadaten wie Alter, Geschlecht und Akzent. Der Datensatz besteht aus 7.335 validierten Stunden in 60 Sprachen.
- CoVoST – CoVoST ist ein umfangreiches mehrsprachiges Sprache-zu-Text-Übersetzungskorpus. Die neueste 2. Version umfasst Übersetzungen aus 21 Sprachen ins Englische und aus dem Englischen in 15 Sprachen. Es verfügt über insgesamt 2880 Sprachstunden und ist mit 78.000 Lautsprechern und 66 Akzenten abwechslungsreich.
- CVSS – CVSS ist ein massiv mehrsprachiges Korpus für die Sprach-zu-Sprache-Übersetzung (S2ST), das parallele S2ST-Paare auf Satzebene aus 21 Sprachen ins Englische abdeckt. CVSS wird aus dem Common Voice-Sprachkorpus und dem Speech-to-Text-Übersetzungskorpus (ST) von CoVoST 2 abgeleitet, indem der Übersetzungstext aus CoVoST 2 mithilfe modernster TTS-Systeme in Sprache synthetisiert wird.
- EasyCom – Der Easy Communications (EasyCom)-Datensatz ist ein weltweit einzigartiger Datensatz, der dazu beitragen soll, den Cocktailparty-Effekt einer durch Augmented Reality (AR) motivierten, multisensorischen egozentrischen Weltanschauung abzuschwächen. Der Datensatz enthält AR-Brillen, egozentrisches Mehrkanal-Mikrofonarray-Audio, RGB-Video mit weitem Sichtfeld, Sprachquellenposition, Headset-Mikrofon-Audio, kommentierte Sprachaktivität, Sprachtranskriptionen, Begrenzungsrahmen für Kopf und Gesicht sowie Quellenidentifikationsetiketten. Wir haben diesen Datensatz erstellt und veröffentlichen ihn, um die Erforschung multimodaler AR-Lösungen für das Cocktailparty-Problem zu erleichtern.
- Emilia – Der Emilia-Datensatz ist eine umfassende mehrsprachige Ressource, die über 101.000 Stunden Sprachdaten in sechs verschiedenen Sprachen umfasst: Englisch (En), Chinesisch (Zh), Deutsch (De), Französisch (Fr), Japanisch (Ja) und Koreanisch (Ko). Es enthält vielfältige Sprachdaten, die verschiedene Sprechstile aus zahlreichen Videoplattformen und Podcasts im Internet repräsentieren und ein breites Spektrum an Inhaltsgenres wie Talkshows, Interviews, Debatten, Sportkommentare und Hörbücher umfassen.
- ESD (Emotional Speech Database) – ESD ist eine Emotional Speech Database für die Stimmkonvertierungsforschung. Die ESD-Datenbank besteht aus 350 parallelen Äußerungen, die von 10 englischen und 10 chinesischen Muttersprachlern gesprochen wurden, und deckt 5 Emotionskategorien ab (neutral, glücklich, wütend, traurig und überrascht). Mehr als 29 Stunden Sprachdaten wurden in einer kontrollierten akustischen Umgebung aufgezeichnet. Die Datenbank eignet sich für mehrsprachige und sprachübergreifende Studien zur emotionalen Stimmkonvertierung.
- FPT Open Speech Dataset (FOSD) – Dieser Datensatz besteht aus 25.921 aufgezeichneten vietnamesischen Reden (mit ihren Transkripten und den gekennzeichneten Start- und Endzeiten jeder Rede), die manuell aus 3 Unterdatensätzen (insgesamt etwa 30 Stunden) zusammengestellt wurden und 2018 öffentlich veröffentlicht wurden von FPT Corporation.
- Free Spoken Digit Dataset (FSDD) – Ein kostenloser Audiodatensatz gesprochener Ziffern. Denken Sie an MNIST für Audio. Ein einfacher Audio-/Sprachdatensatz, der aus Aufzeichnungen gesprochener Ziffern in WAV-Dateien mit 8 kHz besteht. Die Aufnahmen sind so gekürzt, dass sie am Anfang und am Ende nahezu minimale Stille aufweisen.
- Fluent Speech Commands – Fluent Speech Commands ist ein Open-Source-Audiodatensatz für Experimente zum Verständnis gesprochener Sprache (SLU). Jede Äußerung ist mit den Werten „Aktion“, „Objekt“ und „Ort“ gekennzeichnet. Beispielsweise hat „Schalte das Licht in der Küche an“ die Bezeichnung {„Aktion“: „Aktivieren“, „Objekt“: „Lichter“, „Standort“: „Küche“}. Ein Modell muss jeden dieser Werte vorhersagen, und eine Vorhersage für eine Äußerung gilt nur dann als korrekt, wenn alle Werte korrekt sind.
- Genshin-Datensätze – Genshin-Datensätze für SVC/SVS/TTS.
- GenshinVoice – Sprachdatensatz von Genshin Impact 原神语音数据集
- GigaSpeech – GigaSpeech, ein sich weiterentwickelndes, domänenübergreifendes Spracherkennungskorpus für Englisch mit 10.000 Stunden hochwertiger, gekennzeichneter Audioqualität, die für überwachtes Training geeignet ist, und 40.000 Stunden Gesamtaudio, das für halbüberwachtes und unbeaufsichtigtes Training geeignet ist.
- GigaSpeech 2 – Ein sich weiterentwickelndes, umfangreiches und domänenübergreifendes ASR-Korpus für ressourcenarme Sprachen mit automatisiertem Crawling, Transkription und Verfeinerung.
- How2 – Der How2-Datensatz enthält 13.500 Videos oder 300 Stunden Sprache und ist in 185.187 Trainings-, 2022-Entwicklungs- (Entwickler-) und 2361 Testäußerungen unterteilt. Es verfügt über Untertitel in Englisch und Crowdsourcing-Übersetzungen ins Portugiesische.
- inaGVAD – ein anspruchsvoller Datensatz für französisches Fernsehen und Radio, annotiert für die Sprachaktivitätserkennung (VAD) und die Sprecher-Geschlechtssegmentierung (SGS) mit Bewertungsskripten und einem detaillierten Annotationsschema, das den Typ des Nicht-Sprachereignisses, die Sprechereigenschaften und die Sprachqualität detailliert beschreibt
- KdConv – KdConv ist ein chinesischer wissensgesteuerter Konvertierungsdatensatz für mehrere Domänen, der die Themen in Multi-Turn-Gesprächen auf Wissensgraphen gründet. KdConv enthält 4,5.000 Konversationen aus drei Bereichen (Film, Musik und Reisen) und 86.000 Äußerungen mit einer durchschnittlichen Rundenzahl von 19,0. Diese Gespräche enthalten ausführliche Diskussionen zu verwandten Themen und natürlichen Übergängen zwischen mehreren Themen, während das Korpus auch zur Erforschung von Transferlernen und Domänenanpassungen verwendet werden kann.
- Libriheavy – Libriheavy: ein 50.000 Stunden umfassendes ASR-Korpus mit Satzzeichen, Groß- und Kleinschreibung und Kontext.
- LibriSpeech – Das LibriSpeech- Korpus ist eine Sammlung von etwa 1.000 Stunden Hörbüchern, die Teil des LibriVox-Projekts sind. Die meisten Hörbücher stammen vom Projekt Gutenberg. Die Trainingsdaten werden in drei Partitionen mit 100-Stunden-, 360-Stunden- und 500-Stunden-Sätzen aufgeteilt, während die Entwicklungs- und Testdaten in die Kategorien „sauber“ und „andere“ aufgeteilt werden, je nachdem, wie gut oder anspruchsvoll automatische Spracherkennungssysteme dagegen abschneiden würden . Die Audiolänge jedes Entwicklungs- und Testsets beträgt etwa 5 Stunden.
- LibriTTS – LibriTTS ist ein mehrsprachiger englischer Korpus mit etwa 585 Stunden gelesener englischer Sprache mit einer Abtastrate von 24 kHz, erstellt von Heiga Zen mit Unterstützung von Google Speech- und Google Brain-Teammitgliedern. Das LibriTTS-Korpus ist für die TTS-Forschung konzipiert. Es ist aus den Originalmaterialien (MP3-Audiodateien von LibriVox und Textdateien von Project Gutenberg) des LibriSpeech-Korpus abgeleitet.
- LibriTTS-R – LibriTTS-R: Ein wiederhergestellter Text-to-Speech-Korpus für mehrere Sprecher. Es wird durch die Anwendung der Sprachwiederherstellung auf den LibriTTS-Korpus abgeleitet, der aus 585 Stunden Sprachdaten mit einer Abtastrate von 24 kHz von 2.456 Sprechern und den entsprechenden Texten besteht. Die einzelnen Samples von LibriTTS-R sind mit denen von LibriTTS identisch, lediglich die Klangqualität ist verbessert.
- LJSpeech (The LJ Speech Dataset) – Dies ist ein gemeinfreier Sprachdatensatz, der aus 13.100 kurzen Audioclips eines einzelnen Sprechers besteht, der Passagen aus 7 Sachbüchern liest. Für jeden Clip wird eine Transkription bereitgestellt. Die Länge der Clips variiert zwischen 1 und 10 Sekunden und die Gesamtlänge beträgt etwa 24 Stunden. Die Texte wurden zwischen 1884 und 1964 veröffentlicht und sind gemeinfrei. Der Ton wurde 2016–17 vom LibriVox-Projekt aufgenommen und ist ebenfalls gemeinfrei.
- LRS2 (Lip Reading Sentences 2) – Der Oxford-BBC Lip Reading Sentences 2 (LRS2)-Datensatz ist einer der größten öffentlich verfügbaren Datensätze für Lippenlesesätze in freier Wildbahn. Die Datenbank besteht hauptsächlich aus Nachrichten und Talkshows aus BBC-Programmen. Jeder Satz ist bis zu 100 Zeichen lang.
- LRW (Lip Reading in the Wild) – Der Lip Reading in the Wild (LRW)-Datensatz ist eine umfangreiche audiovisuelle Datenbank, die 500 verschiedene Wörter von über 1.000 Sprechern enthält. Jede Äußerung besteht aus 29 Frames, deren Grenze um das Zielwort herum zentriert ist. Die Datenbank ist in Trainings-, Validierungs- und Testsätze unterteilt. Der Trainingssatz enthält mindestens 800 Äußerungen für jede Klasse, während die Validierungs- und Testsätze 50 Äußerungen enthalten.
- MuAViC – Ein mehrsprachiges audiovisuelles Korpus für robuste Spracherkennung und robuste Sprache-zu-Text-Übersetzung.
- MuST-C – MuST-C stellt derzeit das größte öffentlich verfügbare mehrsprachige Korpus (eins-zu-viele) für Sprachübersetzungen dar. Es deckt acht Sprachrichtungen ab, von Englisch über Deutsch, Spanisch, Französisch, Italienisch, Niederländisch, Portugiesisch, Rumänisch und Russisch. Das Korpus besteht aus Audio, Transkriptionen und Übersetzungen englischer TED-Vorträge und enthält eine vordefinierte Schulungs-, Validierungs- und Testaufteilung.
- MetaQA (MoviE Text Audio QA) – Der MetaQA-Datensatz besteht aus einer Filmontologie, die aus dem WikiMovies-Datensatz abgeleitet ist, und drei Sätzen von Frage-Antwort-Paaren, die in natürlicher Sprache geschrieben sind: 1-Hop-, 2-Hop- und 3-Hop-Abfragen.
- MELD (Multimodal EmotionLines Dataset) – Der Multimodal EmotionLines Dataset (MELD) wurde durch die Verbesserung und Erweiterung des EmotionLines-Datensatzes erstellt. MELD enthält die gleichen Dialoginstanzen wie EmotionLines, umfasst aber neben Text auch Audio- und visuelle Modalitäten. MELD verfügt über mehr als 1400 Dialoge und 13000 Äußerungen aus Friends-TV-Serien. An den Dialogen beteiligten sich mehrere Redner. Jeder Äußerung in einem Dialog wurde eine dieser sieben Emotionen zugeordnet: Wut, Ekel, Traurigkeit, Freude, Neutralität, Überraschung und Angst. MELD verfügt außerdem über Stimmungsanmerkungen (positiv, negativ und neutral) für jede Äußerung.
- Microsoft Speech Corpus (Indische Sprachen) – Die Version von Microsoft Speech Corpus (Indische Sprachen) enthält Konversations- und Phrasensprachtrainings- und Testdaten für die Sprachen Telugu, Tamil und Gujarati. Das Datenpaket umfasst Audio und entsprechende Transkripte. Die in diesem Datensatz bereitgestellten Daten dürfen nicht für kommerzielle Zwecke verwendet werden. Sie dürfen die Daten ausschließlich zu Forschungszwecken verwenden. Wenn Sie Ihre Ergebnisse veröffentlichen, müssen Sie die folgende Quellenangabe angeben: „Daten bereitgestellt von Microsoft und SpeechOcean.com“.
- PATS (Pose Audio Transcript Style) – Der PATS-Datensatz besteht aus einer vielfältigen und großen Menge ausgerichteter Posen-, Audio- und Transkripte. Wir hoffen, mit diesem Datensatz einen Benchmark bereitzustellen, der bei der Entwicklung von Technologien für virtuelle Agenten hilft, die natürliche und relevante Gesten erzeugen.
- RealMAN – RealMAN: Ein real aufgezeichneter und kommentierter Mikrofon-Array-Datensatz zur dynamischen Sprachverbesserung und -lokalisierung.
- SAVEE (Surrey Audio-Visual Expressed Emotion) – Der Surrey Audio-Visual Expressed Emotion (SAVEE)-Datensatz wurde als Voraussetzung für die Entwicklung eines automatischen Emotionserkennungssystems aufgezeichnet. Die Datenbank besteht aus Aufnahmen von 4 männlichen Schauspielern in 7 verschiedenen Emotionen, insgesamt 480 britischen englischen Äußerungen. Die Sätze wurden aus dem Standard-TIMIT-Korpus ausgewählt und für jede Emotion phonetisch ausgewogen.
- SoS_Dataset – Sound of Story: Multimodales Storytelling mit Audio. Storytelling ist in der realen Welt multimodal. Wenn man eine Geschichte erzählt, kann man neben der Geschichte selbst auch alle Visualisierungen und Geräusche verwenden. Allerdings haben frühere Studien zu Datensätzen und Aufgaben zum Geschichtenerzählen dem Klang wenig Aufmerksamkeit geschenkt, obwohl Klang auch eine sinnvolle Semantik der Geschichte vermittelt. Daher schlagen wir vor, die Bereiche des Geschichtenverständnisses und des Erzählens durch die Einführung einer neuen Komponente namens „Hintergrundklang“ zu erweitern, bei der es sich um kontextbasiertes Audio der Geschichte ohne sprachliche Informationen handelt.
- Sammlung von Sprachdatensätzen – Dies ist eine kuratierte Liste offener Sprachdatensätze für sprachbezogene Forschung (hauptsächlich für die automatische Spracherkennung). In diesem Repository werden über 110 Sprachdatensätze gesammelt und mehr als 70 Datensätze können ohne weitere Anwendung oder Registrierung direkt heruntergeladen werden.
- Speech Dataset Generator – Der Speech Dataset Generator dient der Erstellung von Datensätzen, die für das Training von Text-to-Speech- oder Speech-to-Text-Modellen geeignet sind. Die Hauptfunktion besteht darin, Audiodateien zu transkribieren, die Audioqualität bei Bedarf zu verbessern und Datensätze zu generieren.
- 3D-Speaker-Datasets – Ein umfangreicher Audiodatensatz menschlicher Sprache für mehrere Geräte, mehrere Entfernungen und mehrere Dialekte.
- TED-LIUM – Audiotranskription des TED-Vortrags. 1495 TED-Talk-Audioaufnahmen zusammen mit Volltexttranskriptionen dieser Aufnahmen, erstellt vom Laboratoire d'Informatique de l'Université du Maine (LIUM).
- Das Flickr Audio Caption Corpus – Das Flickr 8k Audio Caption Corpus enthält 40.000 gesprochene Untertitel von 8.000 natürlichen Bildern. Es wurde 2015 gesammelt, um multimodale Lernschemata für die unbeaufsichtigte Erkennung von Sprachmustern zu untersuchen.
- The People's Speech – The People's Speech ist ein kostenlos herunterladbarer, 30.000 Stunden langer und wachsender überwachter Datensatz zur Spracherkennung im englischen Konversationsformat, der für die akademische und kommerzielle Nutzung unter CC-BY-SA (mit einer CC-BY-Untergruppe) lizenziert ist. Die Datenerhebung erfolgt über die Suche im Internet nach entsprechend lizenzierten Audiodaten mit vorhandenen Transkriptionen.
- The Spoken Wikipedia Corpora – Das Spoken Wikipedia-Projekt vereint freiwillige Leser von Wikipedia-Artikeln. Hunderte von gesprochenen Artikeln in mehreren Sprachen stehen Benutzern zur Verfügung, die aus dem einen oder anderen Grund nicht in der Lage oder nicht bereit sind, die geschriebene Version des Artikels zu lesen.
- TIMIT – Der DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus.
- tts-frontend-dataset – TTS FrontEnd DataSet: Polyphone / Prosody / TextNormalization.
- VoxCeleb2 – VoxCeleb2 ist ein umfangreicher Sprechererkennungsdatensatz, der automatisch aus Open-Source-Medien abgerufen wird. VoxCeleb2 besteht aus über einer Million Äußerungen von über 6.000 Sprechern. Da der Datensatz „in freier Wildbahn“ gesammelt wird, werden die Sprachsegmente durch reale Geräusche wie Lachen, Übersprechen, Kanaleffekte, Musik und andere Geräusche verfälscht. Der Datensatz ist außerdem mehrsprachig, mit Reden von Sprechern aus 145 verschiedenen Nationalitäten, die ein breites Spektrum an Akzenten, Altersgruppen, Ethnien und Sprachen abdecken.
- VoxConverse – VoxConverse ist ein audiovisueller Tagebuchaufzeichnungsdatensatz, der aus Clips menschlicher Sprache für mehrere Sprecher besteht, die aus YouTube-Videos extrahiert wurden.
- VoxLingua107 – VoxLingua107 ist ein Datensatz zur Erkennung gesprochener Sprache von 6628 Stunden (durchschnittlich 62 Stunden pro Sprache) und wird von einem Bewertungssatz von 1609 verifizierten Äußerungen begleitet.
- VoxPopuli – VoxPopuli ist ein umfangreiches mehrsprachiges Korpus, das 100.000 Stunden unbeschriftete Sprachdaten in 23 Sprachen bereitstellt. Es handelt sich um die bisher umfangreichsten offenen Daten für unüberwachtes Repräsentationslernen sowie halbüberwachtes Lernen. VoxPopuli enthält außerdem 1,8.000 Stunden transkribierte Reden in 16 Sprachen und deren abgestimmte mündliche Interpretationen in fünf weitere Sprachen, insgesamt 5,1.000 Stunden.
- VoxForge – VoxForge ist ein offener Sprachdatensatz, der zum Sammeln transkribierter Sprache zur Verwendung mit kostenlosen und Open-Source-Spracherkennungs-Engines (unter Linux, Windows und Mac) eingerichtet wurde.
- VocalSound – VocalSound ist ein kostenloser Datensatz, der aus 21.024 Crowdsourcing-Aufnahmen von Lachen, Seufzen, Husten, Räuspern, Niesen und Schnüffeln von 3.365 einzigartigen Probanden besteht. Der VocalSound-Datensatz enthält auch Metainformationen wie Alter, Geschlecht, Muttersprache, Land und Gesundheitszustand des Sprechers.
- VoiceBank + DEMAND – VoiceBank+DEMAND ist eine Datenbank für verrauschte Sprache zum Trainieren von Sprachverbesserungsalgorithmen und TTS-Modellen. Die Datenbank wurde entwickelt, um Sprachverbesserungsmethoden zu trainieren und zu testen, die bei 48 kHz arbeiten. Eine detailliertere Beschreibung finden Sie in dem zur Datenbank gehörenden Artikel.
- WaveFake – WaveFake ist ein Datensatz zur Audio-Deepfake-Erkennung. Der Datensatz besteht aus einem umfangreichen Datensatz von über 100.000 generierten Audioclips.
- WenetSpeech – WenetSpeech ist ein Multi-Domain-Mandarin-Korpus, der aus über 10.000 Stunden hochwertiger, gekennzeichneter Sprache, über 2.400 Stunden schwach gekennzeichneter Sprache und etwa 10.000 Stunden unbeschrifteter Sprache besteht, insgesamt also über 22.400 Stunden. Die Autoren sammelten die Daten von YouTube und Podcast, die eine Vielzahl von Sprechstilen, Szenarien, Domänen, Themen und Lärmbedingungen abdecken. Eine auf optischer Zeichenerkennung (OCR) basierende Methode wird eingeführt, um die Audio-/Textsegmentierungskandidaten für die YouTube-Daten in den entsprechenden Videountertiteln zu generieren.
- WSJ0-2mix – WSJ0-2mix ist ein Spracherkennungskorpus von Sprachmischungen unter Verwendung von Äußerungen aus dem Wall Street Journal (WSJ0)-Korpus.
- WAM! (WSJ0 Hipster Ambient Mixtures) – Der WSJ0 Hipster Ambient Mixtures ( WHAM! )-Datensatz paart jede Zwei-Lautsprecher-Mischung im wsj0-2mix-Datensatz mit einer einzigartigen Geräuschhintergrundszene. Die Lärmgeräusche wurden Ende 2018 an verschiedenen städtischen Orten in der gesamten San Francisco Bay Area gesammelt. Die Umgebungen bestehen hauptsächlich aus Restaurants, Cafés, Bars und Parks. Der Ton wurde mit einem binauralen Mikrofon von Apogee Sennheiser auf einem Stativ in einer Höhe von 1,0 bis 1,5 Metern über dem Boden aufgenommen.
- YODAS – Dies ist die manuelle/automatische YODAS-Teilmenge aus unserem YODAS-Datensatz, sie umfasst 369.510 Sprachstunden. Dieser Datensatz enthält Audioäußerungen und entsprechende Untertitel (manuell oder automatisch) von YouTube. Beachten Sie, dass die manuelle Beschriftung nur anzeigt, dass sie von Benutzern hochgeladen, aber nicht unbedingt von einem Menschen transkribiert wurde.
- YODAS2 – YODAS2 ist der Langform-Datensatz aus dem YODAS-Datensatz. Es stellt den gleichen Datensatz wie espnet/yodas bereit, YODAS2 verfügt jedoch über die folgenden neuen Funktionen: 1. Formatiert in Langform (Videoebene), wobei Audios nicht segmentiert sind. 2. Audios werden mit höheren Abtastraten (z. B. 24 KB) codiert.
- YTTTS – Der YouTube Text-To-Speech-Datensatz besteht aus Wellenform-Audio, das aus YouTube-Videos extrahiert wurde, sowie aus deren englischen Transkriptionen.
^ Zurück zum Inhalt ^
Musik
- AAM: Artificial Audio Multitracks Dataset – Dieser Datensatz enthält 3.000 künstliche Musik-Audiotracks mit umfangreichen Anmerkungen. Es basiert auf echten Instrumenten-Samples und wird durch algorithmische Komposition unter Berücksichtigung der Musiktheorie generiert. Es bietet vollständige Mischungen der Songs sowie einzelne Instrumentenspuren. Die zur Generierung verwendeten Midis sind ebenfalls erhältlich. Die Anmerkungsdateien umfassen: Onsets, Tonhöhen, Instrumente, Tonarten, Tempo, Segmente, Melodieinstrument, Beats und Akkorde.
- Acappella – Acappella umfasst rund 46 Stunden A-cappella-Solo-Gesangsvideos von YouTbe, gesampelt von verschiedenen Sängern und Sprachen. Es werden vier Sprachen berücksichtigt: Englisch, Spanisch, Hindi und andere.
- HINZUFÜGEN: audio-dataset-downloader – Einfaches Python-CLI-Skript zum Herunterladen von N-Stunden Audio von YouTube, basierend auf einer Liste von Musikgenres.
- ADL Piano MIDI – Das ADL Piano MIDI ist ein Datensatz von 11.086 Klavierstücken aus verschiedenen Genres. Dieser Datensatz basiert auf dem Lakh-MIDI-Datensatz, einer Sammlung von 45.129 einzigartigen MIDI-Dateien, die mit Einträgen im Million Song-Datensatz abgeglichen wurden.
- Aligned Scores and Performances (ASAP) – ASAP ist ein Datensatz ausgerichteter Musikpartituren (sowohl MIDI als auch MusicXML) und Darbietungen (Audio und MIDI), alle mit Anmerkungen zu Downbeat, Beat, Taktart und Tonart.
- Annotierter Jingju-Arien-Datensatz – Der annotierte Jingju-Arien-Datensatz ist eine Sammlung von 34 Jingju-Arien, die mithilfe der Software Praat manuell in verschiedene Ebenen segmentiert wurden. Die ausgewählten Arien enthalten Beispiele der beiden wichtigsten Shengqiang im Jingju, nämlich Xipi und Erhuang, und der fünf gesanglichen Hauptrollentypen, nämlich Dan, Jing, Laodan, Laosheng und Xiaosheng. Der Datensatz besteht aus Praat TextGrid-Dateien für jede Arie und enthält Ebenen für die folgenden Informationen: Arie, MusicBrainz-ID, Künstler, Schule, Rollentyp, Shengqiang, Banshi, Textzeile, Silben und Schlagmuster.
- Bach Doodle – Der Bach Doodle-Datensatz besteht aus 21,6 Millionen Harmonisierungen, die vom Bach Doodle übermittelt wurden. Der Datensatz enthält sowohl Metadaten zur Komposition (z. B. Herkunftsland und Feedback) als auch ein MIDI der vom Benutzer eingegebenen Melodie und ein MIDI der generierten Harmonisierung. Der Datensatz enthält etwa 6 Jahre vom Benutzer eingegebene Musik.
- Bach Violin Dataset – Eine Sammlung hochwertiger öffentlicher Aufnahmen von Bachs Sonaten und Partiten für Solovioline (BWV 1001–1006).
- Batik-plays-Mozart-Datensatz – Der Batik-plays-Mozart-Datensatz ist ein Klavieraufführungsdatensatz mit 12 vollständigen Mozart-Klaviersonaten (36 verschiedene Sätze), die auf einem computerüberwachten Bösendorfer-Flügel vom Wiener Konzertpianisten Roland Batik aufgeführt wurden. Die Aufführungen werden im MIDI-Format bereitgestellt (die entsprechenden Audiodateien sind im Handel erhältlich) und auf Notenebene mit den Partituren der Neuen Mozart-Ausgabe in MusicXML sowie musikwissenschaftlichen Harmonie-, Kadenz- und Phrasenanmerkungen abgestimmt, die zuvor in den Annotated Mozart Sonatas veröffentlicht wurden.
- Datensatz für Perkussionsinstrumente der Peking-Oper – Der Perkussionsdatensatz der Peking-Oper ist eine Sammlung von 236 Beispielen isolierter Schläge, die sich über die vier in der Peking-Oper verwendeten Schlaginstrumentenklassen erstrecken. Damit können Schlaganfallmodelle für jedes Schlaginstrument erstellt werden.
- Beijing Opera Percussion Pattern-Datensatz – Der Beijing Opera Percussion Pattern (BOPP)-Datensatz ist eine Sammlung von 133 Audio-Percussion-Patterns, die fünf Musterklassen abdecken. Der Datensatz enthält die Transkriptionen auf Audio- und Silbenebene für die Muster (nicht zeitlich ausgerichtet). Es ist nützlich für Percussion-Transkriptions- und Klassifizierungsaufgaben. Die Muster wurden aus Audioaufnahmen von Arien extrahiert und von einem Musikwissenschaftler beschriftet.
- BiMMuDa – The Billboard Melodic Music Dataset (BiMMuDa) ist ein MIDI-Datensatz der Hauptmelodien der fünf besten Singles aus den Billboard Year-End Singles Charts für jedes Jahr von 1950 bis 2022. In diesem Repository werden der Datensatz sowie seine Metadaten gespeichert und Anhänge.
- CAL500 (Computer Audition Lab 500) – CAL500 (Computer Audition Lab 500) ist ein Datensatz zur Bewertung von Systemen zum Abrufen von Musikinformationen. Es besteht aus 502 Liedern aus der westlichen Popmusik. Das Audio wird als Zeitreihe der ersten 13 Cepstralkoeffizienten der Mel-Frequenz (und ihrer ersten und zweiten Ableitungen) dargestellt, die durch Schieben eines halbüberlappenden Kurzzeitfensters von 12 ms über die Wellenform jedes Songs extrahiert werden.
- Carnatic Music Rhythm Dataset – Der Carnatic Music Rhythm Dataset ist eine Untersammlung von 176 Auszügen (16,6 Stunden) in vier Taalas karnatischer Musik mit Audio, zugehörigen Tala-bezogenen Metadaten und zeitlich ausgerichteten Markierungen, die den Fortschritt durch die Tala-Zyklen anzeigen. Es eignet sich als Testkorpus für viele automatische Rhythmusanalyseaufgaben in der karnatischen Musik.
- CCMixter – CCMixter ist ein Datensatz zur Trennung von Gesangsstimmen, der aus 50 Stereospuren in voller Länge von ccMixter mit vielen verschiedenen Musikgenres besteht. Für jeden Song stehen drei WAV-Dateien zur Verfügung: die Hintergrundmusik, das Sprachsignal und deren Summe.
- ChMusic – ChMusic ist ein traditioneller chinesischer Musikdatensatz für das Trainingsmodell und die Leistungsbewertung der Erkennung von Musikinstrumenten. Dieser Datensatz umfasst 11 Musikinstrumente, bestehend aus Erhu, Pipa, Sanxian, Dizi, Suona, Zhuiqin, Zhongruan, Liuqin, Guzheng, Yangqin und Sheng.
- chongchong-free - Chongchong Piano Downloader ist eine Software zum kostenlosen Herunterladen von Chongchong-Klavierpartituren, mit der Sie den Link der Partitur abrufen, den Inhalt der Partitur analysieren und die Datei exportieren können.
- ComMU – ComMU verfügt über 11.144 MIDI-Samples, die aus kurzen Notensequenzen bestehen, die von professionellen Komponisten mit den entsprechenden 12 Metadaten erstellt wurden. Dieser Datensatz ist für eine neue Aufgabe konzipiert, die kombinatorische Musikgenerierung, die ausschließlich mit Metadaten durch ein autoregressives Sprachmodell vielfältige und qualitativ hochwertige Musik generiert.
- CoSoD – CoSoD besteht aus Metadaten und Analysedaten eines 331-Song-Korpus, der alle zwischen 2010 und 2019 veröffentlichten Multi-Künstler-Kollaborationen in den Billboard „Hot 100“-Jahresend-Charts umfasst. Jeder Song im Datensatz ist mit zwei CSV-Dateien verknüpft: eine für Metadaten und eine für analytische Daten.
- DALI – DALI: ein großer Datensatz synchronisierter Audio-, Text- und Gesangsnoten.
- DadaGP – DadaGP ist ein neuer symbolischer Musikdatensatz, der 26.181 Liedpartituren im GuitarPro-Format umfasst, die 739 Musikgenres abdecken, zusammen mit einem begleitenden tokenisierten Format, das sich gut für generative Sequenzmodelle wie den Transformer eignet. Das tokenisierte Format ist von ereignisbasierten MIDI-Kodierungen inspiriert, die häufig in symbolischen Musikerzeugungsmodellen verwendet werden. Der Datensatz wird mit einem Encoder/Decoder freigegeben, der GuitarPro-Dateien in Token und zurück konvertiert.
- DeepScores – Synthetischer Datensatz von 300.000 annotierten Bildern geschriebener Musik zur Objektklassifizierung, semantischen Segmentierung und Objekterkennung. Basierend auf einem großen Satz von MusicXML-Dokumenten, die von MuseScore bezogen wurden, wird eine ausgefeilte Pipeline verwendet, um die Quelle in LilyPond-Dateien zu konvertieren, für die LilyPond zum Gravieren und Kommentieren der Bilder verwendet wird.
- dMelodies – dMelodies ist ein Datensatz einfacher 2-Takt-Melodien, die unter Verwendung von 9 unabhängigen latenten Variationsfaktoren generiert wurden, wobei jeder Datenpunkt eine einzigartige Melodie basierend auf den folgenden Einschränkungen darstellt: – Jede Melodie entspricht einer einzigartigen Tonleiter (Dur, Moll, Blues usw.). .). - Jede Melodie spielt die Arpeggios mit dem standardmäßigen I-IV-VI-Trittfrequenz-Akkordmuster. - Takt 1 spielt die ersten 2 Akkorde (6 Noten), Takt 2 spielt die zweiten 2 Akkorde (6 Noten). - Jede gespielte Note ist eine Achtelnote.
- DISCO-10M – DISCO-10M ist ein Musikdatensatz, der erstellt wurde, um die Forschung an groß angelegten Modellen für maschinelles Lernen für Musik zu demokratisieren.
- Dizi – Dizi ist ein Datensatz zum Musikstil der Northern School und der Southern School. Dabei werden unter anderem Melodie und Spieltechniken der beiden unterschiedlichen Musikstile dekonstruiert.
- DreamSound – In jüngster Zeit haben Modelle zur Text-zu-Musik-Generierung beispiellose Ergebnisse bei der Synthese hochwertiger und vielfältiger Musikbeispiele aus einer bestimmten Textaufforderung erzielt. Trotz dieser Fortschritte bleibt unklar, wie man personalisierte, benutzerspezifische Musikkonzepte generieren, manipulieren und mit bestehenden kombinieren kann. Motiviert durch die Computer-Vision-Literatur untersuchen wir Text-zu-Musik, indem wir zwei etablierte Methoden erforschen, nämlich Textual Inversion und Dreambooth. Mithilfe quantitativer Metriken und einer Benutzerstudie bewerten wir ihre Fähigkeit, neue musikalische Konzepte anhand nur weniger Beispiele zu rekonstruieren und zu modifizieren. Abschließend stellen wir einen neuen Datensatz bereit und schlagen ein Bewertungsprotokoll für diese neue Aufgabe vor.
- EMOPIA – Ein multimodaler Pop-Piano-Datensatz zur Emotionserkennung und emotionsbasierten Musikerzeugung. Der EMOPIA-Datensatz (ausgesprochen „yee-mò-pi-uh“) ist eine gemeinsame multimodale Datenbank (Audio und MIDI), die sich auf wahrgenommene Emotionen in Pop-Klaviermusik konzentriert, um die Erforschung verschiedener Aufgaben im Zusammenhang mit Musikemotionen zu erleichtern. Der Datensatz enthält 1.087 Musikclips aus 387 Songs und Emotionslabels auf Clipebene, die von vier engagierten Kommentatoren kommentiert wurden.
- ErhuPT (Erhu Playing Technique Dataset) – Bei diesem Datensatz handelt es sich um einen Audiodatensatz, der etwa 1500 Audioclips enthält, die von mehreren professionellen Spielern aufgenommen wurden.
- FiloBass – Eine datensatz- und korpusbasierte Studie über Jazz-Basslinien. FiloBass: ein neuartiges Korpus aus Partituren und Anmerkungen, das sich auf die wichtige, aber oft übersehene Rolle des Kontrabasses in der Jazzbegleitung konzentriert. Inspiriert durch aktuelle Arbeiten, die die Rolle des Solisten beleuchten, bieten wir eine Sammlung von 48 manuell überprüften Transkriptionen professioneller Jazz-Bassisten mit über 50.000 Notenereignissen, die auf den im FiloSax-Datensatz verwendeten Backing-Tracks basieren. Für jede Aufnahme stellen wir Audio-Stems, Partituren, auf die Leistung abgestimmtes MIDI und zugehörige Metadaten für Beats, Downbeats, Akkordsymbole und Markierungen für die musikalische Form bereit.
- Tori finden - Tori finden: Selbstüberwachtes Lernen zur Analyse koreanischer Volkslieder. Wir stellen eine rechnerische Analyse des Feldaufzeichnungsdatensatzes von etwa 700 Stunden koreanischer Volkslieder vor, die in den 1980er und 1990er Jahren aufgenommen wurden.
- FMA – Das Free Music Archive (FMA) ist ein umfangreicher Datensatz zur Bewertung verschiedener Aufgaben beim Music Information Retrieval. Es besteht aus 343 Tagen Audio von 106.574 Titeln von 16.341 Künstlern und 14.854 Alben, geordnet in einer hierarchischen Taxonomie von 161 Genres. Es bietet Audio in voller Länge und in hoher Qualität, vorberechnete Funktionen sowie Metadaten auf Titel- und Benutzerebene, Tags und Freiformtext wie Biografien.
- GiantMIDI-Piano – GiantMIDI-Piano ist ein klassischer Klavier-MIDI-Datensatz, der 10.855 MIDI-Dateien von 2.786 Komponisten enthält. Die durch die Einschränkung der Komponistennamen kuratierte Teilmenge enthält 7.236 MIDI-Dateien von 1.787 Komponisten.
- Groove (Groove-MIDI-Datensatz) – Der Groove-MIDI-Datensatz (GMD) besteht aus 13,6 Stunden abgestimmtem MIDI und (synthetisiertem) Audio von von Menschen gespieltem, tempoangepasstem ausdrucksstarkem Schlagzeugspiel. Der Datensatz enthält 1.150 MIDI -Dateien und über 22.000 Messungen des Trommelns.
- Gtsinger - Gtsinger: Ein globales Multi -Technique -Singenkorpus mit realistischen Musikwerten für alle Gesangsaufgaben. Wir stellen Gtsinger vor, ein großes globales, multi-technisches, kostenlos zu bedienender, hochwertiger Gesangskorpus mit realistischen Musikwerten, die für alle Gesangsaufgaben sowie die Benchmarks entwickelt wurden.
- GuitarSet - GuitarSet: Ein Datensatz für die Gitarrentranskription.
- Hindustani Music Rhythmus -Datensatz - Der Hindustani -Musikrhythmus -Datensatz ist eine Untersammlung von 151 (5 Stunden) in vier Taals von Hindustani -Musik mit Audio, assoziierten Taal -verwandten Metadaten und zeitausgleichenden Markern, die die Fortschritte durch die Taal -Zyklen anzeigen. Der Datensatz ist als Testkorpus für viele automatische Rhythmusanalyseaufgaben in der Hindustani -Musik nützlich.
- HUMTRANS - Der Datensatz kann auch als Grundlage für nachgeschaltete Aufgaben wie das summende melodische Musikgenerierung dienen. Es besteht aus 500 musikalischen Kompositionen verschiedener Genres und Sprachen, wobei jede Komposition in mehrere Segmente unterteilt ist. Insgesamt umfasst der Datensatz 1000 Musiksegmente. Um diesen summenden Datensatz zu sammeln, haben wir 10 College -Studenten beschäftigt, die entweder Musikmajors sind oder mindestens ein Musikinstrument spielen. Jedes von ihnen summte jedes Segment zweimal mit der von unserer entworfenen Website bereitgestellten Webaufzeichnungsschnittstelle. Die Summenaufnahmen wurden mit einer Frequenz von 44.100 Hz abgetastet.
- Indische Kunstmusik -Tonic -Datensätze - Dieser Datensatz umfasst 597 im Handel erhältliche Audio -Musikaufnahmen der indischen Kunstmusik (Hindustani und Carnatic Music), die jeweils mit dem Tonic des Hauptkünstlers manuell kommentiert werden. Dieser Datensatz wird als Testkorpus für die Entwicklung von tonischen Identifikationsansätzen verwendet.
- Jazz Harmony Treebank - Dieses Repository enthält die Jazz Harmony Treebank, einen Korpus hierarchischer Harmonischer Analysen von Jazz -Akkordsequenzen, die aus dem von Shanahan et al.
- Jazznet - Jazznet: Ein Datensatz grundlegender Klaviermuster für die Forschung für Musik -Audio -Maschinenlernen. In diesem Artikel wird der JazzNet -Datensatz vorgestellt, ein Datensatz grundlegender Jazz -Klaviermusikmuster für die Entwicklung maschineller Lernalgorithmen (MIR). Der Datensatz enthält 162520 mit Klaviermustern, darunter Akkorde, Arpeggios, Skalen und Akkord -Fortschritte mit ihren Inversionen, was zu mehr als 26.000 Stunden Audio und einer Gesamtgröße von 95 GB führt.
- Jingju a cappella singing pitch contour dataset - Jingju a cappella singing pitch contour dataset ist eine Sammlung von Pitch Contour -Segment Grundwahrheit für 39 Jingju a cappella singende Aufnahmen. Der Datensatz enthält die Grundwahrheit für (1) melodische Transkription, (2) Pitch -Kontur -Segmentierung. Es ist nützlich für melodische Transkriptions- und Tonhöhenkontur -Segmentierungsaufgaben. Die Tonhöhenkonturen wurden aus Audioaufnahmen extrahiert und von einem Musikwissenschaftler manuell korrigiert und segmentiert.
- Jingju Music Scores Collection - Dies ist eine Sammlung von 92 Jingju -Musikwerten, die für die Analyse des Jingju -Gesangs in Bezug auf sein Musiksystem gesammelt wurden. Sie wurden aus ihren ursprünglichen gedruckten Quellen in ein maschinenlesbares Format mit Musiescore transkribiert und in MusicXML exportiert.
- JS Fake Chorales - Ein MIDI -Datensatz mit 500 4 -teiligen Chorales, der vom KS_Chorus -Algorithmus generiert wird und mit Ergebnissen von Hunderten von Hörtest -Teilnehmern mit 300 weiteren nicht annotierten Chores kommuniziert wurde.
- LAION-DISCO-12M-Der Laion-Disco-12m-Datensatz enthält 12 m Links zur Musik auf YouTube, inspiriert von der Methodik von Disco-10M. Ausgehend von einer anfänglichen Künstlerliste von Künstlern können wir neue Künstler entdecken, indem wir die in der Abteilung "Fans mögen auch" aufgeführten Künstler rekursiv untersuchen. Wir erforschen die verwandte Künstlergrafik, solange wir neue Künstler finden können.
- Lakh Musenet MIDI -Datensatz - Full Lakh MIDI -Datensatz in Musenet MIDI -Ausgangsformat (9 Instrumente + Schlagzeug).
- Los Angeles Midi Dataset - Sota Kilo -Scale MIDI -Datensatz für MIR- und Musik -AI -Zwecke.
- LP-MUSICCAPS-LP-MUSICCAPS: LLM-basierte Pseudo-Musikunterschrift.
- LYRA DATASET - Lyra ist ein Datensatz für traditionelle und Volksmusik für griechische und volkstuielle Musik, das 1570 Stück enthält und in rund 80 Stunden Daten summiert. Der Datensatz enthält YouTube Timestemped Links zum Abrufen von Audio und Videos sowie reiche Metadateninformationen in Bezug auf Instrumente, Geographie und Genre.
- MAESTRO-Der Maestro- Datensatz enthält über 200 Stunden gepaarte Audio- und MIDI-Aufnahmen aus zehn Jahren internationaler Klavier-E-Wettbewerb. Die MIDI -Daten umfassen wichtige Streikgeschwindigkeiten und Sustain/Sostenuto/Una Corda -Pedalpositionen. Audio- und MIDI -Dateien sind mit einer Genauigkeit von ~ 3 ms ausgerichtet und auf einzelne Musikstücke in Scheiben geschnitten, die mit Komponisten, Titeln und Leistungsjahr annotiert sind. Unkomprimiertes Audio ist von CD-Qualität oder höher (44,1–48 kHz 16-Bit-PCM-Stereoanlage).
- Magnatagatune - Magnatagatune -Datensatz enthält 25.863 Musikclips. Jeder Clip ist ein 29 Sekunden langes Auszug eines der 5223 Songs, 445 Alben und 230 Künstler. Die Clips umfassen eine breite Palette von Genres wie Klassiker, New Age, Electronica, Rock, Pop, World, Jazz, Blues, Metal, Punk und mehr. Jeder Audioclip wird mit einem Vektor von binären Annotationen von 188 Tags geliefert.
- Hauptdatensatz für "Evolution of Popular Music: USA 1960–2010" - Dies ist eine große Datei (~ 20 MB) namens EvolutionPopusa_Maindata.csv, im Komma -getrennten Datenformat mit Spaltenkopfzeilen. Jede Zeile entspricht einer Aufnahme. Die Datei ist in jedem Texteditor angezeigt und kann auch in Excel geöffnet oder in andere Datenverarbeitungsprogramme importiert werden.
- Metamidi -Datensatz - Wir stellen den Metamidi -Datensatz (MMD) vor, eine große Sammlung von 436.631 MIDI -Dateien und Metadaten. Zusätzlich zu den MIDI -Dateien stellen wir Künstler-, Titel- und Genre -Metadaten zur Verfügung, die während des Abkratzenprozesses gesammelt wurden, sofern verfügbar. MIDIS IN (MMD) wurde gegen eine Sammlung von 32.000.000 30-Sekunden-Audioclips mit Spotify abgestimmt, was über 10.796.557 Audio-MIDI-Spiele führte.
- Million Song Dataset - Dieser Datensatz enthält eine Million Songs von 1922-2011, wobei Künstler Informationen von Echonest (jetzt Teil von Spotify) sowie Audio -Messungen und andere relevante Informationen markiert haben.
- MIR-1K-MIR-1K (Multimedia Information Retrieval Lab, 1000 Song-Clips) ist ein Datensatz für die Gesangssprachtrennung.
- MRIDANGAM STROKE -Datensatz - Der MRIDANGAM -Stroke -Datensatz ist eine Sammlung von 7162 Audio -Beispielen für einzelne Striche des MRIDANGAM in verschiedenen Tonikern. Der Datensatz umfasst 10 verschiedene Striche, die auf Mridangams mit 6 verschiedenen Tonic -Werten gespielt werden. Der Datensatz kann für Trainingsmodelle für jeden Mridangam -Schlaganfall verwendet werden.
- Mridangam Tani-Avarthanam-Datensatz-Der MRIDANGAM TANI-AVARTHANAM-Datensatz ist eine transkribierte Sammlung von zwei Tani-Avarthanams, die von dem renommierten Mridangam Maestro Padmavibhushan Umayalpuram K. Sivaraman gespielt werden. Das Audio wurde bei IIT Madras, Indien, aufgezeichnet und von professionellen karnatischen Percussionisten kommentiert. Es besteht aus etwa 24 Minuten Audio und 8800 Strichen.
- MIRRLPOP-Es enthält 1) Annotation des miR-MLPOP-Datensatzes, 2) den Quellcode, um das Audio des Datensatzes zu erhalten. und 4) Quellcode zur Bewertung.
- MSD (Million Song Dataset) - Der Million Song Dataset ist eine frei verfügbare Sammlung von Audiofunktionen und Metadaten für eine Million zeitgenössischer Populärmusik -Tracks. Der Kern des Datensatzes ist die Feature -Analyse und Metadaten für eine Million Songs, die vom Echo Nest bereitgestellt werden.
- MTG-JAMENDO-Datensatz-Wir präsentieren den MTG-Jamendo-Datensatz, einen neuen offenen Datensatz für Musik automatisch. Es wurde mit Musik erstellt, die bei Jamendo unter Creative Commons -Lizenzen und -Tags von Content -Uploadern zur Verfügung stellt. Der Datensatz enthält über 55.000 vollständige Audio -Tracks mit 195 Tags aus den Kategorien Genre, Instrument und Stimmungs-/Themen. Wir bieten ausgearbeitete Datenspaltungen für Forscher und berichten über die Leistung eines einfachen Basisansatzes für fünf verschiedene TAGs-Sätze: Genre, Instrument, Stimmung/Thema, Top-50 und Gesamt.
- MTG-JAMENDO-Der MTG-Jamendo- Datensatz ist ein offener Datensatz für Musikauto-Tagging. Der Datensatz enthält über 55.000 vollständige Audio -Tracks mit 195 Tags -Kategorien (87 Genre -Tags, 40 Instrumenten -Tags und 56 Stimmungs-/Themen -Tags). Es wurde mit Musik erstellt, die bei Jamendo unter Creative Commons -Lizenzen und -Tags von Content -Uploadern zur Verfügung stellt. Alle Audioen sind im MP3 -Format von 320 kbit / s verteilt.
- Musikdaten -Sharing -Plattform für die Computer -Musikforschung (CCMusic Dataset) - Diese Plattform ist eine multifunktionale Musikdaten -Sharing -Plattform für die Forschung mit Computermusikologie. Es enthält viele Musikdaten wie die Toninformationen chinesischer traditioneller Musikinstrumente und die Kennzeichnungsinformationen der chinesischen Popmusik, die für die kostenlose Verwendung von Forschern der Computermusik zur Verfügung stehen.
- Musik Emotionserkennung (MER) - Wir präsentieren einen Datensatz für die Analyse personalisierter Musik -Emotions -Erkennungssysteme (MER). Wir haben die Plattform der Musikliebhaber entwickelt, die darauf abzielt, die Sammlung und Analyse der sogenannten „Grundwahrheit“ zu verbessern, die als Input zu solchen Systemen benötigt wird.
- Musan - Musan ist ein Korpus aus Musik, Sprache und Lärm. Dieser Datensatz eignet sich für Trainingsmodelle für die Erkennung von Sprachaktivitäten (VAD) und Musik-/Sprachdiskriminierung. Der Datensatz besteht aus Musik aus mehreren Genres, Sprache aus zwölf Sprachen und einer breiten Auswahl an technischen und nichttechnischen Geräuschen.
- MUSDB-XL-Train-Der MUSDB-XL-Train-Datensatz besteht aus einem Limiter-angelegten 300.000-Segmenten von 4-Sekunden-Audiosegmenten und den 100 Original-Songs. Für jedes Segment haben wir zufällig ein willkürliches Segment in 4 Stielen (Gesang, Bass, Trommeln, andere) der MUSDB-HQ-Trainingsuntergruppe gewählt und sie zufällig gemischt. Anschließend haben wir einen kommerziellen Limiter-Plug-In auf jeden Stamm angewendet.
- MusicBench- MusicBench Dataset ist eine Sammlung von Musik-Text-Paaren, die für die Erzeugung von Text-zu-Music-Generationen entwickelt und mit Mustango Text-to-Music-Modell veröffentlicht wurden. Der MusicCaps -Datensatz wird von 5.521 Proben auf 52.768 Training und 400 Testmuster erweitert, um MusicBench zu erstellen!
- Musicnet - MusicNet ist eine Sammlung von 330 frei lizenzierten klassischen Musikaufnahmen, zusammen mit über 1 Million kommentierten Etiketten, die die genaue Zeit jeder Notiz in jeder Aufnahme, das Instrument, das jede Note abspielt Zusammensetzung. Die Etiketten werden aus musikalischen Ergebnissen erworben, die auf Aufnahmen durch dynamische Zeitverzerrung ausgerichtet sind. Die Etiketten werden von ausgebildeten Musikern verifiziert; Wir schätzen eine Kennzeichnungsfehlerrate von 4%. Wir bieten den MusicNe -Labels den maschinellen Lern- und Musikgemeinschaften als Ressource für Trainingsmodelle und einen gemeinsamen Benchmark für den Vergleich der Ergebnisse an.
- MusicCaps - MusicCaps ist ein Datensatz, das aus 5,5K -Musik -Text -Paaren besteht, mit reichhaltigen Textbeschreibungen von menschlichen Experten.
- Musedata - musedata ist eine elektronische Bibliothek aus Orchester- und Klavier klassischer Musik von CCARH. Es besteht aus rund 3 MB 783 Dateien.
- MUSDB18 - Der MUSDB18 ist ein Datensatz von 150 Musik -Tracks in voller Länge (~ 10H Dauer) verschiedener Genres zusammen mit ihren isolierten Trommeln, Bass, Gesang und anderen Stielen. Der Datensatz ist in Trainings- und Testsätze mit 100 bzw. 50 Songs aufgeteilt. Alle Signale sind stereophon und bei 44,1 kHz codiert.
- Musikthemen und Metadaten - Dieser Datensatz enthält eine Liste von Texten von 1950 bis 2019, die Musikmetadaten als Traurigkeit, Tanzbarkeit, Lautstärke, Akustik usw. beschreiben. Wir bieten auch einige Informationen als Texte, die zur Verarbeitung natürlicher Sprache verwendet werden können.
- Musikgenres Datensatz - Datensatz von 1494 Genres, die jeweils 200 Songs enthalten.
- Multimodal Shee Music Dataset - MSMD ist ein synthetischer Datensatz mit 497 (klassischen) Musik, die sowohl Audio- als auch Score -Darstellungen der auf einem feinkörnigen Niveau ausgerichteten Stücke enthält (344.742 Paare von Notenköpfen, die an ihren Audio/MIDI -Gegenstück ausgerichtet sind).
- MUVI-Sync-Der Muvi-Sync- Datensatz ist ein Multi-Model-Datensatz, das sowohl Musikfunktionen (Akkord, Schlüssel, Lautstärke und Notizdichte) als auch Video-Funktionen (Szenenversetzt, Emotion, Bewegung und Semantik) aus insgesamt 748 umfasst Musikvideos.
- Nlakh - Nlakh ist ein Datensatz für das Abrufen von Musikinstrumenten. Es handelt sich um eine Kombination aus dem NSYNTH-Datensatz, der eine große Anzahl von Instrumenten bereitstellt, und des Lakh-Datensatzes, das Multi-Spur-MIDI-Daten liefert.
- Nsynth - Nsynth ist ein Datensatz von One Shot Instrumental Note, der 305.979 Musiktizen mit einzigartiger Tonhöhe, Timbre und Umschlag enthält. Die Geräusche wurden aus 1006 Instrumenten aus kommerziellen Stichprobenbibliotheken gesammelt und basierend auf ihrer Quelle (akustisch, elektronisch oder synthetisch), der Instrumentenfamilie und den Klangqualitäten. Die in der Annotation verwendeten Instrumentenfamilien sind Bass, Messing, Flöte, Gitarre, Keyboard, Schläger, Orgel, Schilf, String, Synth Lead und Vocal. Für die Instrumente wurden vier Sekunden -monophonische 16 -kHz -Audioausschnitte erzeugt (Anmerkungen).
- NES-MDB (Nintendo Entertainment System Music Database)-Die Nintendo Entertainment System Music Database (NES-MDB) ist ein Datensatz, das zum Erstellen automatischer Musik-Kompositionssysteme für den NES-Audio-Synthesizer bestimmt ist. Es besteht aus 5278 Songs aus den Soundtracks von 397 NES -Spielen. Der Datensatz repräsentiert 296 einzigartige Komponisten, und die Songs enthalten zusammen mehr als zwei Millionen Notizen. Es verfügt über Dateiformatoptionen für MIDI, Score und NLM (NES -Sprachmodellierung).
- Niko -Akkord -Progression -Datensatz - Der Datensatz des Niko -Akkordverlaufs wird in Accomontage2 verwendet. Es enthält 5k+ -Kord -Fortschritte mit Styles. Insgesamt gibt es vier Stile: Pop -Standard, Pop -Komplex, Dunkel und R & B.
- Onair -Musikdatensatz -? Ein neuer STEM-Datensatz für die Musiklemixing-Forschung vom Onair Lizenzfreiheitsprojekt.
- OpenCPOP - OpenCpop , ein öffentlich verfügbares hochwertiges Mandarin -Gesangskorpus, ist für Sanging Voice Synthesis (SVS) -Systeme entwickelt. Dieser Korpus besteht aus 100 einzigartigen Mandarin -Liedern , die von einer professionellen Sängerin aufgenommen wurden. Alle Audiodateien wurden mit Studioqualität mit einer Stichprobenrate von 44.100 Hz in einer professionellen Aufnahmestudioumgebung aufgenommen.
- OpenGufeng - Ein Datensatz für Melodie und Akkordfolge für chinesische Gufeng -Musik.
- PBSCSR - Der Erkennungsdatensatz des Piano Bootleg -Score Composer Style. Unser übergeordnetes Ziel war es, einen Datensatz für die Erkennung von Komponistenstilen zu erstellen, die "so zugänglich ist wie MNIST und so herausfordernd wie imagnet". Um dieses Ziel zu erreichen, probieren wir Stiefelablänge mit fester Länge von Piano-Notenbildern auf IMSLP. Der Datensatz selbst enthält 40.000 62x64 Bootleg-Score-Bilder für eine 9-Wege-Klassifizierungsaufgabe, 100.000 62x64 Bootleg-Bilder für eine 100-Wege-Klassifizierungsaufgabe und 29.310 nicht markierte Bootleg-Score-Bilder mit variabler Länge für die Vorbereitung.
- POP909 - POP909 ist ein Datensatz, der mehrere Versionen der Klavierarrangements von 909 populären Songs enthält, die von professionellen Musikern erstellt wurden. Der Hauptteil des Datensatzes enthält die Gesangsmelodie, die Lead -Instrument -Melodie und die Klavierbegleitung für jeden Song im MIDI -Format, der auf die ursprünglichen Audiodateien ausgerichtet ist. Darüber hinaus werden Anmerkungen aus Tempo, Beat, Schlüssel und Akkorden vorgesehen, bei denen die Tempokurven handbewegt und andere von Mir-Algorithmen durchgeführt werden.
- PROGGP - Ein Datensatz von 173 progressiven Metal -Songs sowohl in Guitarpro- als auch in Token -Formaten gemäß den Spezifikationen in Dadagp.
- RWC (Real World Computing Music Database) - Die Musikdatenbank von RWC (Real World Computing) ist eine urheberrechtlich geschlossene Musikdatenbank (DB), die Forschern als gemeinsame Grundlage für die Forschung zur Verfügung steht. Es enthält rund 100 komplette Songs mit manuell beschrifteten Abschnittsgrenzen. Für die 50 Instrumente wurden einzelne Klänge in halbton-Abständen mit verschiedenen Variationen von Spielstilen, Dynamik, Instrumentenherstellern und Musikern erfasst.
- Sangeet - Ein XML -Datensatz für die klassische Hindustani -Musik. Sangeet bewahrt alle erforderlichen Informationen einer bestimmten Komposition, einschließlich Metadaten, struktureller, notierender, rhythmischer und melodischer Informationen auf standardisierte Weise für eine einfache und effiziente Speicherung und Extraktion musikalischer Informationen. Der Datensatz soll die Grundwahrheitsinformationen für Musikinformationsforschungsaufgaben bereitstellen, wodurch mehrere datengesteuerte Analysen aus Sicht des maschinellen Lernens unterstützt werden.
- SINGKT -DATASET - SingKT ist ein Datensatz zur Bewertungsbewertung von Musik auf dem Gebiet von KT, das versucht, Wissensverfolgungsmethoden zu nutzen, um die dynamischen Veränderungen der Sehensfähigkeit der Lernenden zu erfassen. Der Datensatz sammelt Daten von einer öffentlichen Plattform für intelligente Sichtweise, Singmaster. Der SingKT -Datensatz enthält die Hauptdatentabelle (Repuation Respanning Recorddatds) und zwei zusätzliche Daten Tabellen (Benutzern, OPERNDS). In der Tabelle von Benutzern werden Sichtweite von Informationen für die 1074 im Datensatz enthaltenen Lernenden aufgezeichnet, und die OPERNDS -Tabelle zeichnet Music Sheet -Informationen auf.
- SLAKH2100-Der synthetisierte Lakh (SLAKH) -Datensatz ist ein Datensatz für die Audioquellen-Trennung, das aus dem Lakh MIDI-Datensatz v0.1 mit professionellen virtuellen Instrumenten synthetisiert wird. Diese erste Veröffentlichung von SLAKH namens SLAKH2100 enthält 2100 automatisch gemischte Tracks und begleitende MIDI-Dateien, die mit einem professionellen Stichprobenmaschinenmotor synthetisiert wurden. Die Tracks in SLAKH2100 werden in Training (1500 Tracks), Validierung (375 Tracks) und Test (225 Tracks) Untergruppen mit insgesamt 145 Stunden Gemischteilen unterteilt.
- SymphonyNet-Symponynet ist ein Open-Source-Projekt, das darauf abzielt, komplexe Multi-Track- und Multi-Instrument-Musik wie Symphonie zu generieren. Unsere Methode ist vollständig kompatibel mit anderen Musikarten wie Pop, Klavier, Solomusik..ETC.
- Tabla Solo -Datensatz - Der Tabla Solo -Datensatz ist eine transkribierte Sammlung von Tabla Solo -Audioaufnahmen, die Kompositionen aus sechs verschiedenen Gharanas von Tabla überspannen, gespielt von Pt. Arvind Mulgaonkar. Der Datensatz besteht aus Audio- und Zeitausrichtungs -BOL -Transkriptionen.
- Tegridy MIDI -Datensatz - Tegridy MIDI -Datensatz für präzise und effektive Musik -KI -Modelle erstellen.
- Der Lakh Midi -Datensatz - Der Lakh Midi -Datensatz ist eine Sammlung von 176.581 einzigartigen MIDI -Dateien, von denen 45.129 übereinstimmt und an Einträge im Million Song -Datensatz ausgerichtet wurden. Sein Ziel ist es, das Abrufen von Musikinformationen in großem Maßstab zu erleichtern, sowohl symbolisch (allein unter Verwendung der MIDI-Dateien) als auch von Audio-Inhalten (unter Verwendung von Informationen, die aus den MIDI-Dateien als Annotationen für die übereinstimmenden Audiodateien extrahiert wurden).
- Der italienische Musikdatensatz - Der Datensatz wird durch Nutzung der Spotify- und SoundCloud -APIs erstellt. Es besteht aus über 14.500 verschiedenen Songs sowohl berühmter als auch weniger berühmter italienischer Musiker. Jedes Lied im Datensatz wird durch seine Spotify -ID und seinen Titel identifiziert. Zu den Metadaten von Tracks gehören auch lemmatisierte und pos-markierte Texte und in den meisten Fällen zehn musikalische Merkmale, die direkt von Spotify gesammelt wurden. Musikalische Merkmale umfassen Akustik (Float), Tanzbarkeit (Float), Duration_ms (int), Energie (Float), Instrumentalheit (Float), Lebendigkeit (Float), Lautstärke (Float), Sprachiness (Float), Tempo (Float) und Valenz (Valenz (Valenz (Flohing schweben).
- Der Persian Piano Corpus - Der Persian Piano Corpus ist eine umfassende Sammlung persischer Klaviermusik, die von frühen Komponisten bis hin zu zeitgenössischen Figuren erstreckt. Es wurde akribisch zusammengestellt und öffentlich zugänglich gemacht, um es den Forschern zu ermöglichen, spezialisierte Untersuchungen zu untersuchen und zu neuen Entdeckungen beizutragen. Der instrumentbasierte Ansatz bietet einen vollständigen Korpus im Zusammenhang mit dem persischen Klavier, einschließlich relevanter Etiketten und umfassender Metadaten.
- Der Song DeScriber Dataset-Der Song DeScriber Dataset: Ein Korpus von Audiounterschriften für die Musik- und Sprachbewertung. Der Song DeScriber Dataset ist ein Evaluierungsdatensatz aus ~ 1,1K -Bildunterschriften für 706 zugelassene lizenzierte Musikaufnahmen.
- Universal Music Symbol -Klassifizierer - Ein Python -Projekt, das ein tiefes neuronales Netzwerk ausbildet, um zwischen Musiksymbolen zu unterscheiden.
- URMP (Multi-Modal-Musikleistung der Universität Rochester)-URMP (Multi-Modal-Musikleistung der Universität Rochester) ist ein Datensatz zur Erleichterung der audiovisuellen Analyse musikalischer Leistungen. Der Datensatz umfasst 44 einfache Multi-Instrument-Musikstücke, die aus koordinierten, aber separat aufgezeichneten Aufführungen einzelner Spuren zusammengestellt wurden. Für jedes Stück lieferte der Datensatz die musikalische Punktzahl im MIDI-Format, die hochwertigen individuellen Instrumenten-Audioaufnahmen und die Videos der zusammengesetzten Stücke.
- VGMIDI -Datensatz - VGMIDI ist ein Datensatz von Klavierarrangements von Videospiel -Soundtracks. Es enthält 200 MIDI -Stücke, die nach Emotionen und 3.850 nicht markierten Stücken beschriftet sind. Jedes markierte Stück wurde von 30 menschlichen Probanden gemäß dem Emotionsmodell von Circumplex (Valenz-Ausens) kommentiert.
- VirtuoSo Strings - Virtuoso Strings ist ein Datensatz für die Erkennung von Soft -Onsets für String -Instrumente. Es besteht aus über 144 Aufnahmen professioneller Leistungen eines Auszugs aus Haydns Streichquartett Op. 74 Nr. 1 Finale mit jeweils entsprechenden individuellen Annotationen für Instrumentalanmerkungen.
- Wikimute - Wikimute: Ein Web -Sourcing -Datensatz semantischer Beschreibungen für Musik -Audio. In dieser Studie präsentieren wir Wikimute, einen neuen und offenen Datensatz mit reichhaltigen semantischen Musikbeschreibungen. Die Daten stammen aus Wikipedias reichhaltigem Katalog von Artikeln, die musikalische Werke abdecken. Mit einer dedizierten Text-Mining-Pipeline extrahieren wir sowohl lange als auch Kurzform-Beschreibungen, die eine breite Palette von Themen im Zusammenhang mit Musikinhalten wie Genre, Stil, Stimmung, Instrumentierung und Tempo abdecken.
- YM2413-MDB- YM2413-MDB ist ein 80er-Jahre-FM-Videospiel-Musikdatensatz mit Multi-Label-Emotionsanmerkungen. Es enthält 669 Audio- und MIDI -Musikdateien von Musikdateien von SEGA- und MSX -PC -Spielen in den 80ern mit YM2413, einem programmierbaren Soundgenerator, der auf FM basiert. Die gesammelte Spielmusik ist mit einer Untergruppe von 15 monophonischen Instrumenten und einem Drum -Instrument arrangiert.
^ Zurück zum Inhalt ^
Klangeffekt
- Animal Sound Dataset - Diese Daten, die aus 875 Tierklängen bestehen, enthält 10 Arten von Tiergeräuschen. Dieses Tier -Sounds -Datensatz besteht aus 200 Katze, 200 Hund, 200 Bird, 75 Cow, 45 Lion, 40 Schafe, 35 Frosch, 30 Hühnchen, 25 Esel, 25 Affen -Sounds.
- Audioset-Audioset ist ein Audio-Event-Datensatz, das aus über 2 m von Menschen ankündigten 10-Sekunden-Videoclips besteht. Diese Clips werden von YouTube gesammelt, von denen viele in schlechter Qualität sind und mehrere Schallquellen enthalten. Eine hierarchische Ontologie von 632 Ereignisklassen wird verwendet, um diese Daten zu kommentieren, was bedeutet, dass der gleiche Klang als unterschiedliche Etiketten kommentiert werden kann. Zum Beispiel wird das Geräusch von Bellen als Tier, Haustiere und Hund annotiert. Alle Videos werden in Set Evaluation/Balanced-Train/Unbalanced-Train aufgeteilt.
- AUDIOCAPS - Audiocaps ist ein Datensatz von Sounds mit Ereignisbeschreibungen, die für die Aufgabe der Audio -Bildunterschrift eingeführt wurden, mit Sounds aus dem Audioset -Datensatz. Annotatoren erhielten die Audio -Tracks zusammen mit Kategorie -Tipps (und bei Bedarf zusätzliche Video -Hinweise).
- AUTO-ACD-Wir präsentieren eine innovative und automatische Pipeline für Audio-Bildunterschriften und konstruieren einen großflächigen, hochwertigen, audiosprachigen Datensatz, der als Auto-ACD bezeichnet wird und über 1,9 m Audio-Text-Paare besteht. Die Textbeschreibungen in automatischer ACD enthalten lange Texte (18 Wörter) und verschiedene Vokabulare (23K) und enthalten Informationen über die umgebende Hörumgebung (Datenpunkt mit Schatten), in der Geräusche stattfinden.
- BBC -Soundeffekte - im BBC -Soundeffekt -Datensatz enthält 33.066 Soundeffekte mit Textbeschreibungen. Genre: hauptsächlich Umgebungsklang. Jeder Audio hat eine natürliche Textbeschreibung.
- DCASTR 2016 - DCASE 2016 ist ein Datensatz für die Erkennung von Sound -Events. Es besteht aus 20 kurzen Mono -Sound -Dateien für jeden der 11 Klassenklassen (aus Büroumgebungen, wie Clearhroat, Schublade oder Tastatur), wobei jede Datei eine Sound -Ereignis -Instanz enthält. Sounddateien werden mit Ereignis- und Offset-Zeiten kommentiert, aber die Stille zwischen den tatsächlichen physischen Klängen (wie bei einem Telefon klingeln) sind jedoch im Ereignis nicht markiert und daher „enthalten“.
- Umwelt -Audio -Datensätze - Diese Seite versucht, eine Liste von Datensätzen zu verwalten, die für die Audioforschung zu Umwelt geeignet sind. Zusätzlich zum frei verfügbaren Datensatz sind hier auch proprietäre und kommerzielle Datensätze zur Vollständigkeit aufgeführt. Zusätzlich zu den Datensätzen sind auch einige der Online-Sounddienste am Ende der Seite aufgeführt.
- ESC-50-Der ESC-50 -Datensatz ist eine beschriftete Sammlung von 2000 Audioaufnahmen, die für Benchmarking-Methoden zur Klassifizierung von Umweltschall geeignet sind. Es umfasst 2000 5S-Clips von 50 verschiedenen Klassen über natürliche, menschliche und häusliche Geräusche, die wiederum von Freesound.org gezogen wurden.
- Fair-Play-Fair-Play ist ein Video-Audio-Datensatz, das aus 1.871 Videoclips und ihren entsprechenden binauralen Audioclips in einem Musikraum besteht. Der Videoclip und der binaurale Clip desselben Index sind grob ausgerichtet.
- FSD50K (Freesound -Datenbank 50K) - Freesound -Datensatz 50K (oder kurz FSD50K ) ist ein offener Datensatz von Sound -Ereignissen, die 51.197 Freesound -Clips enthält, die in 200 Klassen, die aus der Audioset Ontology gezogen wurden, ungleich verteilt sind. FSD50K wurde in der Music Technology Group von Universitat Pompeu Fabra erstellt. Es besteht hauptsächlich aus Soundereignissen, die durch physikalische Klangquellen und Produktionsmechanismen erzeugt werden, einschließlich menschlicher Geräusche, Geräusche von Dingen, Tieren, natürlichen Geräuschen, Musikinstrumenten und vielem mehr.
- FSDNOISY18K-Der FSDNOISY18K -Datensatz ist ein offener Datensatz, der 42,5 Stunden Audio in 20 Sound-Ereignisklassen enthält, einschließlich einer geringen Menge manuell markierter Daten und einer größeren Menge an realen lauten Daten. Der Audioinhalt wird von Freesound entnommen und der Datensatz wurde mit dem Freesound -Annotator kuratiert. Der laute Satz von FSDNOISY18K besteht aus 15.813 Audioclips (38,8H), und der Testsatz besteht aus 947 Audioclips (1,4H) mit korrekten Beschriftungen. Der Datensatz verfügt über zwei Haupttypen von Etikettenrauschen: In-Vokabular (IV) und Out-of-Vocabulary (OOV). IV gilt, wenn bei einem beobachteten Etikett, das falsch oder unvollständig ist, das wahre oder fehlende Etikett Teil des Zielklassensatzes ist. Analog bedeutet OOV, dass das wahre oder fehlende Etikett nicht von diesen 20 Klassen abgedeckt wird.
- FUSS (Free Universal Sound Trennung) - Der Datenbank mit freier Universal Sound Sequation (FUSS) ist eine Datenbank mit beliebigen Klangmischungen und Referenzen auf Quellenebene für die Verwendung in Experimenten zur beliebigen Klangtrennung. Fuss basiert auf dem FSD50K -Korpus.
- Inasaturalist Sounds Dataset - Wir präsentieren den Inaturalist Sounds Dataset (INATSOUNDS), eine Sammlung von 230.000 Audiodateien, die Sounds von über 5.500 Arten erfassen, die von mehr als 27.000 Rekorde weltweit beigetragen wurden.
- Klopfgeräusche mit emotionalen Absichten klopfen - der Datensatz wurde vom professionellen Foley -Künstler Ulf Olauson in den Foleyworks Studios in Stockholm am 15. Oktober 2019 aufgenommen. Inspiriert von früheren Arbeiten zum Klopfen. Wir haben fünf Arten von Emotionen ausgewählt, die im Datensatz dargestellt werden sollen: Wut, Angst, Glück, Neutral und Traurigkeit.
- MIMII - Sound -Datensatz für die Untersuchung und Inspektion von Industriemaschinen (MIMII) ist ein solider Datensatz von Industriemaschinen -Sounds.
- MIVIA Audio Events Dataset - Der Datensatz von Mivia -Audio -Ereignissen setzt sich für insgesamt 6000 Ereignisse für die Überwachungsanwendung zusammen, nämlich Glasbrecher, Schuss und Schreie. Das 6000 -Ereignis wird in ein Trainingssatz (Kompose von 4200 Ereignissen) und einen Testset (Kompose von 1800 Ereignis) unterteilt.
- Pitch Audio -Datensatz (Surge -Synthesizer) - 3,4 Stunden Audio mit dem Open -Source Surge -Synthesizer synthetisiert, basierend auf 2084 -Voreinstellungen im Surge -Paket. Diese repräsentieren "natürliche" Synthese-Sounds --- von Menschen entwickelte Iepresets. Wir haben 4-Sekunden-Proben erzeugt, die bei Geschwindigkeit 64 mit einer Notizdauer von 3 Sekunden spielten. Für jedes Voreinsatz variierten wir nur die Tonhöhe von MIDI 21-108, die Reichweite eines Grand Piano. Jeder Sound im Datensatz wurde mit dem Normalize-Paket RMS-Ebene normalisiert. Es gab keine elegante Möglichkeit, diesen Datensatz zu widmen. Nur ein kleiner Prozentsatz der Voreinstellungen (wie Drums und Soundeffekte) hatte jedoch keine Wahrnehmungsabweichung oder -bestellung.
- Remfx - Remfx: Bewertungsdatensätze. Diese Datensätze werden ursprünglich aus Datensätzen mit Gesang, Guitarset, DSD100 und IDMT-SMT-Drums bezogen, bevor sie in unserem Skript für Datensatzgenerierung verarbeitet werden. Die Datensätze werden gemäß der Anzahl der angewandten Effekte benannt (0-5). Beispielsweise enthält 2-2.zip 2 Effekte, die für jedes Eingangs-Audio-Beispiel angewendet wurden. Die Ziele bleiben unberührt. Die angewendeten Audio -Effekte stammen aus dem Satz (Verzerrung, Verzögerung, Dynamikbereichskompressor, Phasor, Hall) und zufällig ohne Ersatz für jedes Beispiel abgetastet.
- Soundcam-Soundcam, der größte Datensatz von einzigartigen RIRs aus den bisher öffentlich veröffentlichten In-the-Wild-Räumen. Es umfasst 5.000 10-Kanal-Messungen der Reaktionen von Raumimpulsen und 2.000 10-Kanal-Musikaufnahmen in drei verschiedenen Räumen, darunter ein kontrolliertes akustisches Labor, ein Wohnzimmer im Wildern und einen Konferenzraum mit verschiedenen Menschen in Positionen in jedem Raum.
- Soundingarth - Soundingarth besteht aus co -located Luftbildern und Audio -Proben auf der ganzen Welt.
- Räumliche librispeech-räumliche librispeech ist ein räumlicher Audio-Datensatz mit über 650 Stunden Ambisonics erster Ordnung und optionales Distraktorgeräusch (mit RAW 19-Kanal-Audio in Kürze). Das räumliche Librispeech ist für das Modell des maschinellen Lernens ausgelegt und enthält Etiketten für Quellenposition, Sprechrichtung, Raumakustik und Geometrie. Die räumliche Librispeech wurde durch Augmenting von Librispeech -Proben mit 200K+ simulierten akustischen Bedingungen über 8K+ -Synthetische Räume erzeugt.
- STARSS22 (Sony-Tau Realistic Spatial Soundscapes 2022)-Der Datensatz von Sony-Tau Realistic Spatial Soundscapes 2022 (StarSS22) besteht aus Aufzeichnungen von realen Szenen, die mit hochkanaler kugelförmigem Mikrofonarray (SMA) aufgenommen wurden. Die Aufnahmen werden von zwei verschiedenen Teams an zwei verschiedenen Standorten, der Tampere University in Tammere, Finnland, und Sony -Einrichtungen in Tokio, Japan, durchgeführt. Aufzeichnungen an beiden Websites teilen den gleichen Erfassungs- und Annotationsprozess und eine ähnliche Organisation.
- TOYADMOS - Toyadmos -Datensatz ist ein Maschinenbetriebsdatensatz von ca. 540 Stunden normaler Maschinenbetriebsgeräusche und über 12.000 Proben von anomalen Geräuschen, die mit vier Mikrofonen mit einer Probenahmequote von 48 kHz gesammelt wurden und von Yuma Koizumi und Mitgliedern in NTT -Medien -Intelligenz -Laboratoren erstellt wurden.
- Tut Sound Events 2017 - Der Datensatz von Tut Sound Events 2017 enthält 24 Audioaufnahmen in einer Straßenumgebung und 6 verschiedene Klassen. Diese Klassen sind: Bremsen quietschen, Auto, Kinder, großes Fahrzeug, Menschen sprechen und Menschen laufen.
- Urbansound8K - Urban Sound 8K ist ein Audio -Datensatz, der 8732 mit gekennzeichneten Soundauszügen (<= 4s) von Urban Sounds aus 10 Klassen enthält: Air_Conditioner, CAR_HORN, Children_playing, Dog_Bark, Drilling, Enginge_idling, Gun_Shot, Jackhammer, Siren und Street_Music. Die Klassen stammen aus der städtischen Tononomie. Alle Auszüge stammen aus Feldaufnahmen auf www.freesound.org.
- VGG-Sound - A large scale audio-visual dataset. VGG-Sound is an audio-visual correspondent dataset consisting of short clips of audio sounds, extracted from videos uploaded to YouTube.
- Visually Indicated Sounds - Materials make distinctive sounds when they are hit or scratched — dirt makes a thud; ceramic makes a clink. These sounds reveal aspects of an object's material properties, as well as the force and motion of the physical interaction.
^ Back to Contents ^