Eine Liste offener Sprachkorpora für die Forschung und Entwicklung im Bereich Sprachtechnologie.
Diese Liste bevorzugt kostenlose (dh keine $-Kosten) und wirklich offene Korpora (z. B. veröffentlicht unter einer Creative-Commons-Lizenz oder einem Community-Datenlizenzvertrag). Möglicherweise erfüllen nicht alle dieser Korpora diese Kriterien, aber alle folgenden Korpora sind für Forschungs- und/oder kommerzielle Zwecke zugänglich und nutzbar.
Fühlen Sie sich frei, Ergänzungen zur Liste vorzuschlagen!
Es gibt einen langen Rückstand an Korpora, die den Issues hinzugefügt werden müssen, und Pull-Requests sind sehr willkommen :)
KORPUS | SPRACHEN | # STD | # LAUTSPRECHER | HERUNTERLADEN | LIZENZ |
---|---|---|---|---|---|
Gemeinsame Stimme | Mehrsprachig | >15.000 Stunden (validiert); >20.000 Stunden (insgesamt) | Multi-Lautsprecher | https://voice.mozilla.org/en/datasets | CC-0 |
JaNein | hebräisch | 6 Min | ein Mann | http://www.openslr.org/1/ | CC-0 |
LJ Speech Corpus | Englisch | ~24 Stunden | eine Frau | https://data.keithito.com/data/speech/LJSpeech-1.1.tar.bz2 | CC-0 |
NST dänische ASR-Datenbank | dänisch | 229.992 Äußerungen | 616 Sprecher | Original: https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-19/, neu organisiert: https://www.nb.no/sprakbanken/en/resource-catalogue /oai-nb-no-sbr-55/ | CC-0 |
NST Dänisches Diktat | dänisch | 34.955 Äußerungen | 151 Sprecher | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-20/ | CC-0 |
NST dänische Sprachsynthese | dänisch | 4.108 Äußerungen | 1 männlicher Sprecher | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-21/ | CC-0 |
NST Schwedische ASR-Datenbank | Schwedisch | 366.000 Äußerungen | 1.000 Sprecher | Original: https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-16/, neu organisiert: https://www.nb.no/sprakbanken/en/resource-catalogue /oai-nb-no-sbr-56/ | CC-0 |
NST-schwedisches Diktat | Schwedisch | 45.620 Äußerungen | 195 Sprecher | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-17/ | CC-0 |
NST Schwedische Sprachsynthese | Schwedisch | 5.279 Äußerungen | 1 männlicher Sprecher | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-18/ | CC-0 |
NST Norwegische ASR-Datenbank | norwegisch | 359.760 Äußerungen | 980 Lautsprecher | Original: https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-13/, neu organisiert: https://www.nb.no/sprakbanken/en/resource-catalogue /oai-nb-no-sbr-54/ | CC-0 |
NST Norwegisches Diktat | norwegisch | 33.360 Äußerungen | 144 Sprecher | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-14/ | CC-0 |
NST Norwegische Sprachsynthese | norwegisch | 5.363 Äußerungen | 1 männlicher Sprecher | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-15/ | CC-0 |
NB Tale – Sprachdatenbank für Norwegisch | norwegisch | 7.600 Äußerungen + ~12 Stunden | 380 Lautsprecher | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-31/ | CC-0 |
Korpus der norwegischen Parlamentsreden (v0.1) | norwegisch | ~59 Stunden | 203 Sprecher | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-58/ | CC-0 |
Wikimedia Commons Odia | Odia | ~8 Stunden | ~20 Lautsprecher | https://commons.wikimedia.org/wiki/Category:Odia_pronunciation | meist(?) CC-0 |
Thorsten-21.02-neutral | Deutsch | ~24 Stunden | 1 männlicher Sprecher | https://www.Thorsten-Voice.de | CC-0 |
Thorsten-21.06-emotional | Deutsch | 2.400 Äußerungen (8 Emotionen) | 1 männlicher Sprecher | https://www.Thorsten-Voice.de | CC-0 |
KORPUS | SPRACHEN | # STD | # LAUTSPRECHER | HERUNTERLADEN | LIZENZ |
---|---|---|---|---|---|
ARU-Sprachkorpus | Englisch (UK) | 720 Äußerungen/Sprecher | 12 (6 Frauen; 6 Männer) | http://datacat.liverpool.ac.uk/681/1/ARU_Speech_Corpus_v1_0.zip | CC-BY 3.0 |
Korpus parlamentarischer Reden von Althingi | isländisch | 542 Stunden und 25 Minuten | 196 Sprecher | http://www.malfong.is/index.php?dlid=73&lang=en | CC-BY 4.0 |
Alþingisumræður Korpus parlamentarischer Reden | isländisch | ~21 Stunden | http://www.malfong.is/index.php?dlid=8&lang=en | CC-BY 3.0 | |
Hjal Corpus | isländisch | ~41.000 Aufnahmen | 883 Sprecher | http://www.malfong.is/index.php?dlid=5&lang=en | CC-BY 3.0 |
Der Malromur-Korpus | isländisch | 152 Stunden | 563 Sprecher | http://www.malfong.is/index.php?dlid=65&lang=en | CC-BY 4.0 |
Telekooperation Deutsches Korpus für Kinect | Deutsch | ~35 Stunden | ~180 Lautsprecher | http://www.repository.voxforge1.org/downloads/de/german-speechdata-TUDa-2015.tar.gz | CC-BY 2.0 |
African Speech Technology Englisch-Englisch-Sprachkorpus | Englisch | ~21 Stunden | https://repo.sadilar.org/handle/20.500.12185/283 | CC-BY 2.5 Südafrika | |
Afrikanische Sprachtechnologie isiXhosa Speech Corpus | isiXhosa | ~26 Stunden | https://repo.sadilar.org/handle/20.500.12185/305 | CC-BY 2.5 Südafrika | |
NCHLT Afrikaans | Afrikaans | 56 Stunden | 210 Referenten (98 Frauen / 112 Männer) | https://repo.sadilar.org/handle/20.500.12185/280 | CC-BY 3.0 |
NCHLT Englisch | Englisch | 56 Stunden | 210 Referenten (100 Frauen / 110 Männer) | https://repo.sadilar.org/handle/20.500.12185/274 | CC-BY 3.0 |
NCHLT isiNdebele | isiNdebele | 56 Stunden | 148 Referenten (78 Frauen / 70 Männer) | https://repo.sadilar.org/handle/20.500.12185/272 | CC-BY 3.0 |
NCHLT isiXhosa | isiXhosa | 56 Stunden | 209 Referenten (106 Frauen / 103 Männer) | https://repo.sadilar.org/handle/20.500.12185/279 | CC-BY 3.0 |
NCHLT isiZulu | isiZulu | 56 Stunden | 210 Referenten (98 Frauen / 112 Männer) | https://repo.sadilar.org/handle/20.500.12185/275 | CC-BY 3.0 |
NCHLT Sepedi | Sepedi | 56 Stunden | 210 Referenten (100 Frauen / 110 Männer) | https://repo.sadilar.org/handle/20.500.12185/270 | CC-BY 3.0 |
NCHLT Sesotho | Sesotho | 56 Stunden | 210 Referenten (113 Frauen / 97 Männer) | https://repo.sadilar.org/handle/20.500.12185/278 | CC-BY 3.0 |
NCHLT Setswana | Setswana | 56 Stunden | 210 Referenten (109 Frauen / 101 Männer) | https://repo.sadilar.org/handle/20.500.12185/281 | CC-BY 3.0 |
NCHLT Siswati | Siswati | 56 Stunden | 197 Referenten (96 Frauen / 101 Männer) | https://repo.sadilar.org/handle/20.500.12185/271 | CC-BY 3.0 |
NCHLT Tshivenda | Tshivenda | 56 Stunden | 208 Referenten (83 Frauen / 125 Männer) | https://repo.sadilar.org/handle/20.500.12185/276 | CC-BY 3.0 |
NCHLT Xitsonga | Xitsonga | 56 Stunden | 198 Referenten (95 Frauen/103 Männer) | https://repo.sadilar.org/handle/20.500.12185/277 | CC-BY 3.0 |
Lwazi II Crosslingualer Eigennamenkorpus | Afrikaans; Englisch; isiZulu; Sesotho | 2 Stunden 5 Min | 20 Sprecher | https://repo.sadilar.org/handle/20.500.12185/445 | CC-BY 3.0 |
Lwazi II Eigenname Call Routing Telefonkorpus | Englisch | 2 Stunden 7 Min | https://repo.sadilar.org/handle/20.500.12185/448 | CC-BY 3.0 | |
Lwazi II Afrikaans Trajectory Tracking Corpus | Afrikaans | 4 Stunden | ein Mann | https://repo.sadilar.org/handle/20.500.12185/442 | CC-BY 3.0 |
LibriSpeech | Englisch | ~1000 Stunden | 2484 Sprecher (1201 weiblich / 1283 männlich) | http://www.openslr.org/12/ | CC-BY 4.0 |
Nulloth-Koreanisch | Koreanisch | 52,8 Stunden | 115 Sprecher | http://www.openslr.org/40/ | CC-BY 4.0 |
Sprachbefehle | Englisch | 17,8 Stunden | >1.000 Sprecher | https://ai.googleblog.com/2017/08/launching-speech-commands-dataset.html | CC-BY 4.0 |
ParlamentParla | katalanisch | 320 Stunden | https://www.openslr.org/59/ | CC-BY 4.0 | |
SIWIS | Französisch | ~10 Stunden | eine Frau | http://datashare.is.ed.ac.uk/download/DS_10283_2353.zip | CC-BY 4.0 |
VCTK | Englisch | 44 Stunden | 109 Sprecher | http://datashare.is.ed.ac.uk/download/DS_10283_3443.zip | CC-BY 4.0 |
LibriTTS | Englisch | 586 Stunden | 2.456 Referenten (1.185 Frauen / 1.271 Männer) | http://www.openslr.org/60/ | CC-BY 4.0 |
Erweiterte LibriSpeech | Audio (Englisch); Text (Englisch, Französisch) | 236 Stunden | https://persyval-platform.univ-grenoble-alpes.fr/datasets/DS91 | CC-BY 4.0 | |
Prosodie-Korpus Helsinki | Englisch | 262,5 Stunden | 1.230 Sprecher | https://github.com/Helsinki-NLP/prosody | CC-BY 4.0 |
Tuva-Sprachdatenbank | norwegisch | 24 Stunden | 40 Sprecher | https://www.nb.no/sprakbanken/show?serial=oai:nb.no:sbr-44&lang= | CC-BY 4.0 |
COERLL Kʼicheʼ-Korpus | Kʼicheʼ | 34 Minuten | ? Lautsprecher | https://cl.indiana.edu/~ftyers/resources/utexas-kiche-audio.tar.gz | CC-BY 4.0 |
Timer und dergleichen v0.1 | Englisch (synthetisch: USA, real: verschiedene Nationalitäten) | synthetisch: 172 Stunden, real: 0,29 Stunden | 21 synthetische, 11 echte | https://zenodo.org/record/4110812#.X9j0RmBOkYM | CC-BY 4.0 |
Großes Korpus der Plenaranhörungen des tschechischen Parlaments | tschechisch | 444 Stunden | https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-3126 | CC-BY 4.0 |
KORPUS | SPRACHEN | # STD | # LAUTSPRECHER | HERUNTERLADEN | LIZENZ |
---|---|---|---|---|---|
Iban | Iban | 8 Stunden | http://www.openslr.org/24/ https://github.com/sarahjuan/iban | CC-BY-SA 2.0 | |
Vystadial 2013 | Englisch; tschechisch | 41 Stunden; 15 Stunden | http://www.openslr.org/6/ | CC-BY-SA 3.0 US | |
Vystadial 2016 Tschechisch | tschechisch | 77 Stunden; Enthält Vystadial 2013 Tschechisch | https://lindat.cz/repository/xmlui/handle/11234/1-1740 | CC-BY-SA 4.0 | |
Kostenloser Datensatz für gesprochene Ziffern | Englisch | 2.000 isolierte Ziffern | 4 Lautsprecher | https://github.com/Jakobovski/free-spoken-digit-dataset | CC-BY-SA 4.0 |
Google Javanisch | Javanisch | 296 Stunden | 1019 Sprecher | http://www.openslr.org/35/ | CC-BY-SA 4.0 |
Google Nepali | Nepali | 165 Stunden | 527 Sprecher | http://www.openslr.org/54/ | CC-BY-SA 4.0 |
Google Bengali | Bengali | 229 Stunden | 508 Lautsprecher | http://www.openslr.org/53/ | CC-BY-SA 4.0 |
Google Singhalesisch | Singhalesisch | 224 Stunden | 478 Sprecher | http://www.openslr.org/52/ | CC-BY-SA 4.0 |
Google Sundanesisch | Sundanesisch | 333 Stunden | 542 Sprecher | http://www.openslr.org/36/ | CC-BY-SA 4.0 |
Gesprochener Wikipedia-Korpus (SWC-2017) | Englisch; Deutsch; Niederländisch | 182 Stunden; 249 Stunden; 79 Stunden | 395 Sprecher; 339 Sprecher; 145 Sprecher | https://nats.gitlab.io/swc/ | CC-BY-SA 4.0 |
Tschuwaschisches TTS | Tschuwaschisch | 4 Stunden | 1 Lautsprecher | https://github.com/ftyers/Turkic_TTS | CC-BY-SA 4.0 |
Forschergeist | Deutsch | 2 Stunden | 2 Sprecher (1 weiblich, 1 männlich) | Sprecherin: https://goofy.zamia.org/zamia-speech/corpora/forschergeist/annettevogt-20180320-rec.tgz; männlicher Sprecher: https://goofy.zamia.org/zamia-speech/corpora/forschergeist/timpritlove-20180320-rec.tgz | CC-BY-SA 4.0 |
Malayalam Speech Corpus von SMC | Malayalam | 1:36 Stunden | 75 Sprecher (3 weiblich, 12 männlich, 60 unbekannt) | https://releases.smc.org.in/msc-reviewed-speech/ | CC-BY-SA 4.0 |
Google Malayalam | Malayalam | 3,02 Stunden | 24 Sprecher | http://www.openslr.org/63/ | CC-BY-SA 4.0 |
KORPUS | SPRACHEN | # STD | # LAUTSPRECHER | HERUNTERLADEN | LIZENZ |
---|---|---|---|---|---|
IBM Recorded Debates v1 | Englisch | 5 Stunden | 10 Lautsprecher | https://www.research.ibm.com/haifa/dept/vst/debating_data.shtml#Debate%20Speech%20Analysis | CC-BY-ND |
IBM Recorded Debates v2 | Englisch | ~14 Stunden | 14 Sprecher | https://www.research.ibm.com/haifa/dept/vst/debating_data.shtml#Debate%20Speech%20Analysis | CC-BY-ND |
KORPUS | SPRACHEN | # STD | # LAUTSPRECHER | HERUNTERLADEN | LIZENZ |
---|---|---|---|---|---|
TV3Parla | katalanisch | 240 Stunden | http://laklak.eu/share/tv3_0.3.tar.gz | CC-BY-NC 4.0 | |
Russian Open STT Corpus | Russisch | ~10.000 Stunden öffentlich, ~10.000 weitere auf Anfrage | https://github.com/snakers4/open_stt/#links | CC-BY-NC 4.0 mit einigen Ausnahmen | |
Russian Open TTS Corpus | Russisch | 145 Stunden | 3 Männer | https://github.com/snakers4/open_tts/#links | CC-BY-NC 4.0 mit einigen Erwartungen |
OVM – Otázky Václava Moravce | tschechisch | 35 Stunden | https://lindat.mff.cuni.cz/repository/xmlui/handle/11858/00-097C-0000-000D-EC98-3 | CC-BY-NC 3.0 |
KORPUS | SPRACHEN | # STD | # LAUTSPRECHER | HERUNTERLADEN | LIZENZ |
---|---|---|---|---|---|
CHiME-Home | Englisch | 6,8 Stunden | https://archive.org/details/chime-home | CC-BY-NC-SA 3.0 | |
Kameruner Pidgin-Englischkorpus | Kamerunisches Pidgin-Englisch | ~17 Stunden | http://ota.ox.ac.uk/text/2563.zip | CC-BY-NC-SA 3.0 |
KORPUS | SPRACHEN | # STD | # LAUTSPRECHER | HERUNTERLADEN | LIZENZ |
---|---|---|---|---|---|
Tatoeba-Eng | Englisch | ~250 Stunden (grobe Schätzung) | 6 Lautsprecher | https://voice.mozilla.org/en/datasets | CC-BY-NC 4.0 (einige Audiodateien) / CC-BY-NC-ND 3.0 (die meisten Audiodateien) / CC-BY 2.0 (alle Texte) |
TED-LIUM | Englisch | 118 Stunden | 685 Sprecher (36h weiblich / 81h männlich) | http://www.openslr.org/7/ | CC-BY-NC-ND 3.0 |
TED-LIUM-2 | Englisch | 207 Stunden | 1242 Sprecher (66h weiblich / 141h männlich) | http://www.openslr.org/19/ | CC-BY-NC-ND 3.0 |
TED-LIUM-3 | Englisch | 452 Stunden | 2028 Sprecher (134h weiblich / 316h männlich) | http://www.openslr.org/51/ | CC-BY-NC-ND 3.0 |
Pansori TEDxKR | Koreanisch | 3 Stunden | 41 Sprecher | http://www.openslr.org/58/ | CC-BY-NC-ND 4.0 |
Primewords Mandarin | Mandarin | 100 Stunden | 296 Sprecher | http://www.openslr.org/47/ | CC-BY-NC-ND 4.0 |
MuST-C v1.0 | Audio (Englisch); Text (Niederländisch, Französisch, Deutsch, Italienisch, Portugiesisch, Rumänisch, Russisch, Spanisch) | 408, 504, 492, 465, 442, 385, 432, 489 Stunden pro Sprachpaar | https://ict.fbk.eu/must-c-release-v1-0/ | CC-BY-NC-ND 4.0 | |
Sitzungen des tschechischen Parlaments | tschechisch | 88 Stunden | https://lindat.mff.cuni.cz/repository/xmlui/handle/11858/00-097C-0000-0005-CF9C-4 | CC-BY-NC-ND 3.0 | |
BembaSpeech | Bemba | 24 Stunden | 17 Referenten (9 männlich / 8 weiblich) | https://github.com/csikasote/BembaSpeech | CC-BY-NC-ND 4.0 |
KORPUS | SPRACHEN | # STD | # LAUTSPRECHER | HERUNTERLADEN | LIZENZ |
---|---|---|---|---|---|
DiPCo | Englisch | ~5 Stunden | 32 Referenten (13 weiblich, 19 männlich) | https://s3.amazonaws.com/dipco/DiPCo.tgz | CDLA-Permissive-1.0 |
KORPUS | SPRACHEN | # STD | # LAUTSPRECHER | HERUNTERLADEN | LIZENZ |
---|---|---|---|---|---|
VoxForge | Englisch | ~120 Stunden | ~2966 Lautsprecher | http://www.repository.voxforge1.org/downloads/en/Trunk/Audio/Main/16kHz_16bit/ https://voice.mozilla.org/en/datasets | GNU-GPL 3.0 |
VoxForge | Russisch | http://www.repository.voxforge1.org/downloads/ru/Trunk/Audio/Main/16kHz_16bit/ http://www.repository.voxforge1.org/downloads/Russian/Trunk/Audio/Main/16kHz_16bit/ | GNU-GPL 3.0 | ||
VoxForge | Deutsch | http://www.repository.voxforge1.org/downloads/de/Trunk/Audio/Main/16kHz_16bit/ | GNU-GPL 3.0 |
KORPUS | SPRACHEN | # STD | # LAUTSPRECHER | HERUNTERLADEN | LIZENZ |
---|---|---|---|---|---|
AISHELL-1 | Mandarin | 170 Stunden | 400 Sprecher | http://www.openslr.org/33/ | Apache 2.0 |
Tunesische_MSA | Modernes Hocharabisch (Tunesien) | 11,2 Stunden | 118 Sprecher | http://www.openslr.org/46/ | Apache 2.0 |
Französisch mit afrikanischem Akzent | Französisch | 22 Stunden | 232 Sprecher | http://www.openslr.org/57/ | Apache 2.0 |
THCHS-30 | Mandarin-Chinesisch | 33,57 Stunden (13.389 Äußerungen) | 40 Referenten (31 weiblich, 9 männlich) | http://www.openslr.org/18/ | Apache 2.0 |
Living Audio-Datensatz – Niederländisch | Niederländisch | 57:49 Min | 1 Lautsprecher | https://github.com/Idlak/Living-Audio-Dataset | Apache 2.0 |
Living Audio-Datensatz – Englisch | Englisch | 50:50 Min | 1 Lautsprecher | https://github.com/Idlak/Living-Audio-Dataset | Apache 2.0 |
Living Audio-Datensatz – Irisch | irisch | 61:56 Min | 1 Lautsprecher | https://github.com/Idlak/Living-Audio-Dataset | Apache 2.0 |
Living Audio-Datensatz – Russisch | Russisch | 34:58 Min | 1 Lautsprecher | https://github.com/Idlak/Living-Audio-Dataset | Apache 2.0 |
KORPUS | SPRACHEN | # STD | # LAUTSPRECHER | HERUNTERLADEN | LIZENZ |
---|---|---|---|---|---|
ALFFA | Amharisch;Hausa (bezahlt); Suaheli; Wolof | http://www.openslr.org/25/ https://github.com/besacier/ALFFA_PUBLIC | MIT |
KORPUS | SPRACHEN | # STD | # LAUTSPRECHER | HERUNTERLADEN | LIZENZ |
---|---|---|---|---|---|
M-AILABS Deutscher Korpus | Deutsch | 237 Stunden und 22 Minuten | http://www.caito.de/data/Training/stt_tts/de_DE.tgz | M-AILABS-LIZENZ (eine datenspezifische BSD-3-Klausel-Lizenz) | |
M-AILABS Englischer Korpus der Königin | Englisch der Königin | 45 Stunden und 35 Minuten | http://www.caito.de/data/Training/stt_tts/en_UK.tgz | M-AILABS-LIZENZ (eine datenspezifische BSD-3-Klausel-Lizenz) | |
M-AILABS US English Corpus | Amerikanisches Englisch | 102 Stunden und 7 Minuten | http://www.caito.de/data/Training/stt_tts/en_US.tgz | M-AILABS-LIZENZ (eine datenspezifische BSD-3-Klausel-Lizenz) | |
M-AILABS Spanischer Korpus | Spanisch Spanisch | 108 Stunden und 34 Minuten | http://www.caito.de/data/Training/stt_tts/es_ES.tgz | M-AILABS-LIZENZ (eine datenspezifische BSD-3-Klausel-Lizenz) | |
M-AILABS Italienischer Korpus | Italienisch | 127 Stunden und 40 Minuten | http://www.caito.de/data/Training/stt_tts/it_IT.tgz | M-AILABS-LIZENZ (eine datenspezifische BSD-3-Klausel-Lizenz) | |
M-AILABS Ukrainischer Korpus | ukrainisch | 87 Stunden und 8 Minuten | http://www.caito.de/data/Training/stt_tts/uk_UK.tgz | M-AILABS-LIZENZ (eine datenspezifische BSD-3-Klausel-Lizenz) | |
M-AILABS Russischer Korpus | Russisch | 46 Stunden und 47 Minuten | http://www.caito.de/data/Training/stt_tts/ru_RU.tgz | M-AILABS-LIZENZ (eine datenspezifische BSD-3-Klausel-Lizenz) | |
M-AILABS Französisch-v0.9 Corpus | Französisch | 190 Stunden und 30 Minuten | http://www.caito.de/data/Training/stt_tts/fr_FR.tgz | M-AILABS-LIZENZ (eine datenspezifische BSD-3-Klausel-Lizenz) | |
M-AILABS Polnischer Korpus | Polieren | 53 Stunden und 50 Minuten | http://www.caito.de/data/Training/stt_tts/pl_PL.tgz | M-AILABS-LIZENZ (eine datenspezifische BSD-3-Klausel-Lizenz) |
KORPUS | SPRACHEN | # STD | # LAUTSPRECHER | HERUNTERLADEN | LIZENZ |
---|---|---|---|---|---|
Korpus für fließende Sprachbefehle | Englisch | 19 Stunden (30.043 Äußerungen) | 97 Sprecher | http://fluent.ai:2052/jf8398hf30f0381738rucj3828chfdnchs.tar.gz | Öffentliche Lizenz für Fluent Speech Commands |
CMU Wildnis | 700 Langs | Ohne Audio oder Text verteilte Ausrichtungen insgesamt: ~14.000 Stunden; pro Sprache: ~20 Stunden | https://github.com/festvox/datasets-CMU_Wilderness | https://live.bible.is/terms | |
CHiME-5 | Englisch | 50 Stunden | 48 Sprecher | http://spandh.dcs.shef.ac.uk/chime_challenge/data.html | CHiME-5-Lizenz |
Fearless Steps Corpus | Englisch | 19.000 Stunden (20 Stunden transkribiert) | ~450 Lautsprecher | https://fearless-steps.github.io/ChallengePhase3/#19k_Corpus_Access | Richtlinien zur Mediennutzung der NASA |
Microsoft Speech Corpus (indische Sprachen) | Telugu; Tamil; Gujarati | https://msropendata.com/datasets/7230b4b1-912d-400e-be58-f84e0512985e | Lizenz für Microsoft Speech Corpus (Indische Sprachen). | ||
Microsoft Speech Language Translation Corpus | Englisch; Chinesisch; japanisch | https://msropendata.com/datasets/54813518-4ea6-4c39-9bb2-b0d1e5f0c187 | Lizenzvereinbarung für Microsoft-Forschungsdaten | ||
Hallo Snips Corpus | Englisch | 11.000 positive „Hey Snips“ (~4,4 Stunden) und 87.000 negative (~89 Stunden) Äußerungen | 2215 Sprecher (positiv und negativ) und 4028 Sprecher (nur negativ) | https://research.snips.ai/datasets/keyword-spotting | Snips-Datenlizenz |
Snips SLU Corpus | Englisch; Französisch | 1660 „Smart Lights EN“ (~1,3 Stunden), 1286 „Smart Speaker EN“ (~55 Minuten), 1138 „Smart Speaker FR“ (~50 Minuten) Äußerungen | Englisch: 69 Sprecher; Französisch: 30 Sprecher | https://research.snips.ai/datasets/spoken-Language-Understanding | Snips-Datenlizenz |
CMU Sphinx-Gruppe – AN4 | Englisch | „an4_clstk“ (~50 Minuten) „an4test_clstk“ (~6 Minuten) | „an4_clstk“: 21 Frauen, 53 Männer „an4test_clstk“: 3 Frauen, 7 Männer | http://www.speech.cs.cmu.edu/databases/an4/an4_raw.bigendian.tar.gz | AN4 |
FT-Rede | dänisch | ~1.857 Stunden (1.017.244 Äußerungen) | 434 Referenten (176 Frauen, 258 Männer) | https://ftspeech.dk | FT-Sprachlizenz |
FalaBrasil-LAPS-Constituicao | Brasilianisch-Portugiesisch | 9 Stunden | 1 Lautsprecher | https://drive.google.com/uc?export=download&confirm=SrvW&id=1Nf849u-27CYRzJqedLaI-FaZfMRO7FT | „Normalisierte Audio-Transkript- und Text-Basen (sem pontuação, com extenso excritos, etc.) werden von der Grupo FalaBrasil formell kostenlos zur Verfügung gestellt. " |
FalaBrasil-LaPSMail | Brasilianisch-Portugiesisch | 1 Stunde | 25 Sprecher | https://drive.google.com/uc?export=download&confirm=PecV&id=1B_Vq8MDSE4fBQefVxqCGSl-EcKAcjJLb | „Normalisierte Audio-Transkript- und Text-Basen (sem pontuação, com extenso excritos, etc.) werden von der Grupo FalaBrasil formell kostenlos zur Verfügung gestellt. " |
FalaBrasil-LaPS-Benchmark | Brasilianisch-Portugiesisch | 1 Stunde | 1 Lautsprecher | https://drive.google.com/uc?export=download&confirm=XFfF&id=1nZ8L9nJTt4blFC0RGT9Y7XRu02aAvDIo | „Normalisierte Audio-Transkript- und Text-Basen (sem pontuação, com extenso excritos, etc.) werden von der Grupo FalaBrasil formell kostenlos zur Verfügung gestellt. " |