open speech corpora herunterladen - open speech corpora Quellcode herunterladen

open speech corpora

Anderer Quellcode

Herunterladen

? Offene Sprachkorpora

Eine Liste offener Sprachkorpora für die Forschung und Entwicklung im Bereich Sprachtechnologie.

Diese Liste bevorzugt kostenlose (dh keine $-Kosten) und wirklich offene Korpora (z. B. veröffentlicht unter einer Creative-Commons-Lizenz oder einem Community-Datenlizenzvertrag). Möglicherweise erfüllen nicht alle dieser Korpora diese Kriterien, aber alle folgenden Korpora sind für Forschungs- und/oder kommerzielle Zwecke zugänglich und nutzbar.

Fühlen Sie sich frei, Ergänzungen zur Liste vorzuschlagen!

Es gibt einen langen Rückstand an Korpora, die den Issues hinzugefügt werden müssen, und Pull-Requests sind sehr willkommen :)

CC-0

KORPUS	SPRACHEN	# STD	# LAUTSPRECHER	HERUNTERLADEN	LIZENZ
Gemeinsame Stimme	Mehrsprachig	>15.000 Stunden (validiert); >20.000 Stunden (insgesamt)	Multi-Lautsprecher	https://voice.mozilla.org/en/datasets	CC-0
JaNein	hebräisch	6 Min	ein Mann	http://www.openslr.org/1/	CC-0
LJ Speech Corpus	Englisch	~24 Stunden	eine Frau	https://data.keithito.com/data/speech/LJSpeech-1.1.tar.bz2	CC-0
NST dänische ASR-Datenbank	dänisch	229.992 Äußerungen	616 Sprecher	Original: https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-19/, neu organisiert: https://www.nb.no/sprakbanken/en/resource-catalogue /oai-nb-no-sbr-55/	CC-0
NST Dänisches Diktat	dänisch	34.955 Äußerungen	151 Sprecher	https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-20/	CC-0
NST dänische Sprachsynthese	dänisch	4.108 Äußerungen	1 männlicher Sprecher	https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-21/	CC-0
NST Schwedische ASR-Datenbank	Schwedisch	366.000 Äußerungen	1.000 Sprecher	Original: https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-16/, neu organisiert: https://www.nb.no/sprakbanken/en/resource-catalogue /oai-nb-no-sbr-56/	CC-0
NST-schwedisches Diktat	Schwedisch	45.620 Äußerungen	195 Sprecher	https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-17/	CC-0
NST Schwedische Sprachsynthese	Schwedisch	5.279 Äußerungen	1 männlicher Sprecher	https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-18/	CC-0
NST Norwegische ASR-Datenbank	norwegisch	359.760 Äußerungen	980 Lautsprecher	Original: https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-13/, neu organisiert: https://www.nb.no/sprakbanken/en/resource-catalogue /oai-nb-no-sbr-54/	CC-0
NST Norwegisches Diktat	norwegisch	33.360 Äußerungen	144 Sprecher	https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-14/	CC-0
NST Norwegische Sprachsynthese	norwegisch	5.363 Äußerungen	1 männlicher Sprecher	https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-15/	CC-0
NB Tale – Sprachdatenbank für Norwegisch	norwegisch	7.600 Äußerungen + ~12 Stunden	380 Lautsprecher	https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-31/	CC-0
Korpus der norwegischen Parlamentsreden (v0.1)	norwegisch	~59 Stunden	203 Sprecher	https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-58/	CC-0
Wikimedia Commons Odia	Odia	~8 Stunden	~20 Lautsprecher	https://commons.wikimedia.org/wiki/Category:Odia_pronunciation	meist(?) CC-0
Thorsten-21.02-neutral	Deutsch	~24 Stunden	1 männlicher Sprecher	https://www.Thorsten-Voice.de	CC-0
Thorsten-21.06-emotional	Deutsch	2.400 Äußerungen (8 Emotionen)	1 männlicher Sprecher	https://www.Thorsten-Voice.de	CC-0

CC-BY

KORPUS	SPRACHEN	# STD	# LAUTSPRECHER	HERUNTERLADEN	LIZENZ
ARU-Sprachkorpus	Englisch (UK)	720 Äußerungen/Sprecher	12 (6 Frauen; 6 Männer)	http://datacat.liverpool.ac.uk/681/1/ARU_Speech_Corpus_v1_0.zip	CC-BY 3.0
Korpus parlamentarischer Reden von Althingi	isländisch	542 Stunden und 25 Minuten	196 Sprecher	http://www.malfong.is/index.php?dlid=73&lang=en	CC-BY 4.0
Alþingisumræður Korpus parlamentarischer Reden	isländisch	~21 Stunden		http://www.malfong.is/index.php?dlid=8&lang=en	CC-BY 3.0
Hjal Corpus	isländisch	~41.000 Aufnahmen	883 Sprecher	http://www.malfong.is/index.php?dlid=5&lang=en	CC-BY 3.0
Der Malromur-Korpus	isländisch	152 Stunden	563 Sprecher	http://www.malfong.is/index.php?dlid=65&lang=en	CC-BY 4.0
Telekooperation Deutsches Korpus für Kinect	Deutsch	~35 Stunden	~180 Lautsprecher	http://www.repository.voxforge1.org/downloads/de/german-speechdata-TUDa-2015.tar.gz	CC-BY 2.0
African Speech Technology Englisch-Englisch-Sprachkorpus	Englisch	~21 Stunden		https://repo.sadilar.org/handle/20.500.12185/283	CC-BY 2.5 Südafrika
Afrikanische Sprachtechnologie isiXhosa Speech Corpus	isiXhosa	~26 Stunden		https://repo.sadilar.org/handle/20.500.12185/305	CC-BY 2.5 Südafrika
NCHLT Afrikaans	Afrikaans	56 Stunden	210 Referenten (98 Frauen / 112 Männer)	https://repo.sadilar.org/handle/20.500.12185/280	CC-BY 3.0
NCHLT Englisch	Englisch	56 Stunden	210 Referenten (100 Frauen / 110 Männer)	https://repo.sadilar.org/handle/20.500.12185/274	CC-BY 3.0
NCHLT isiNdebele	isiNdebele	56 Stunden	148 Referenten (78 Frauen / 70 Männer)	https://repo.sadilar.org/handle/20.500.12185/272	CC-BY 3.0
NCHLT isiXhosa	isiXhosa	56 Stunden	209 Referenten (106 Frauen / 103 Männer)	https://repo.sadilar.org/handle/20.500.12185/279	CC-BY 3.0
NCHLT isiZulu	isiZulu	56 Stunden	210 Referenten (98 Frauen / 112 Männer)	https://repo.sadilar.org/handle/20.500.12185/275	CC-BY 3.0
NCHLT Sepedi	Sepedi	56 Stunden	210 Referenten (100 Frauen / 110 Männer)	https://repo.sadilar.org/handle/20.500.12185/270	CC-BY 3.0
NCHLT Sesotho	Sesotho	56 Stunden	210 Referenten (113 Frauen / 97 Männer)	https://repo.sadilar.org/handle/20.500.12185/278	CC-BY 3.0
NCHLT Setswana	Setswana	56 Stunden	210 Referenten (109 Frauen / 101 Männer)	https://repo.sadilar.org/handle/20.500.12185/281	CC-BY 3.0
NCHLT Siswati	Siswati	56 Stunden	197 Referenten (96 Frauen / 101 Männer)	https://repo.sadilar.org/handle/20.500.12185/271	CC-BY 3.0
NCHLT Tshivenda	Tshivenda	56 Stunden	208 Referenten (83 Frauen / 125 Männer)	https://repo.sadilar.org/handle/20.500.12185/276	CC-BY 3.0
NCHLT Xitsonga	Xitsonga	56 Stunden	198 Referenten (95 Frauen/103 Männer)	https://repo.sadilar.org/handle/20.500.12185/277	CC-BY 3.0
Lwazi II Crosslingualer Eigennamenkorpus	Afrikaans; Englisch; isiZulu; Sesotho	2 Stunden 5 Min	20 Sprecher	https://repo.sadilar.org/handle/20.500.12185/445	CC-BY 3.0
Lwazi II Eigenname Call Routing Telefonkorpus	Englisch	2 Stunden 7 Min		https://repo.sadilar.org/handle/20.500.12185/448	CC-BY 3.0
Lwazi II Afrikaans Trajectory Tracking Corpus	Afrikaans	4 Stunden	ein Mann	https://repo.sadilar.org/handle/20.500.12185/442	CC-BY 3.0
LibriSpeech	Englisch	~1000 Stunden	2484 Sprecher (1201 weiblich / 1283 männlich)	http://www.openslr.org/12/	CC-BY 4.0
Nulloth-Koreanisch	Koreanisch	52,8 Stunden	115 Sprecher	http://www.openslr.org/40/	CC-BY 4.0
Sprachbefehle	Englisch	17,8 Stunden	>1.000 Sprecher	https://ai.googleblog.com/2017/08/launching-speech-commands-dataset.html	CC-BY 4.0
ParlamentParla	katalanisch	320 Stunden		https://www.openslr.org/59/	CC-BY 4.0
SIWIS	Französisch	~10 Stunden	eine Frau	http://datashare.is.ed.ac.uk/download/DS_10283_2353.zip	CC-BY 4.0
VCTK	Englisch	44 Stunden	109 Sprecher	http://datashare.is.ed.ac.uk/download/DS_10283_3443.zip	CC-BY 4.0
LibriTTS	Englisch	586 Stunden	2.456 Referenten (1.185 Frauen / 1.271 Männer)	http://www.openslr.org/60/	CC-BY 4.0
Erweiterte LibriSpeech	Audio (Englisch); Text (Englisch, Französisch)	236 Stunden		https://persyval-platform.univ-grenoble-alpes.fr/datasets/DS91	CC-BY 4.0
Prosodie-Korpus Helsinki	Englisch	262,5 Stunden	1.230 Sprecher	https://github.com/Helsinki-NLP/prosody	CC-BY 4.0
Tuva-Sprachdatenbank	norwegisch	24 Stunden	40 Sprecher	https://www.nb.no/sprakbanken/show?serial=oai:nb.no:sbr-44&lang=	CC-BY 4.0
COERLL Kʼicheʼ-Korpus	Kʼicheʼ	34 Minuten	? Lautsprecher	https://cl.indiana.edu/~ftyers/resources/utexas-kiche-audio.tar.gz	CC-BY 4.0
Timer und dergleichen v0.1	Englisch (synthetisch: USA, real: verschiedene Nationalitäten)	synthetisch: 172 Stunden, real: 0,29 Stunden	21 synthetische, 11 echte	https://zenodo.org/record/4110812#.X9j0RmBOkYM	CC-BY 4.0
Großes Korpus der Plenaranhörungen des tschechischen Parlaments	tschechisch	444 Stunden		https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-3126	CC-BY 4.0

CC-BY-SA

KORPUS	SPRACHEN	# STD	# LAUTSPRECHER	HERUNTERLADEN	LIZENZ
Iban	Iban	8 Stunden		http://www.openslr.org/24/ https://github.com/sarahjuan/iban	CC-BY-SA 2.0
Vystadial 2013	Englisch; tschechisch	41 Stunden; 15 Stunden		http://www.openslr.org/6/	CC-BY-SA 3.0 US
Vystadial 2016 Tschechisch	tschechisch	77 Stunden; Enthält Vystadial 2013 Tschechisch		https://lindat.cz/repository/xmlui/handle/11234/1-1740	CC-BY-SA 4.0
Kostenloser Datensatz für gesprochene Ziffern	Englisch	2.000 isolierte Ziffern	4 Lautsprecher	https://github.com/Jakobovski/free-spoken-digit-dataset	CC-BY-SA 4.0
Google Javanisch	Javanisch	296 Stunden	1019 Sprecher	http://www.openslr.org/35/	CC-BY-SA 4.0
Google Nepali	Nepali	165 Stunden	527 Sprecher	http://www.openslr.org/54/	CC-BY-SA 4.0
Google Bengali	Bengali	229 Stunden	508 Lautsprecher	http://www.openslr.org/53/	CC-BY-SA 4.0
Google Singhalesisch	Singhalesisch	224 Stunden	478 Sprecher	http://www.openslr.org/52/	CC-BY-SA 4.0
Google Sundanesisch	Sundanesisch	333 Stunden	542 Sprecher	http://www.openslr.org/36/	CC-BY-SA 4.0
Gesprochener Wikipedia-Korpus (SWC-2017)	Englisch; Deutsch; Niederländisch	182 Stunden; 249 Stunden; 79 Stunden	395 Sprecher; 339 Sprecher; 145 Sprecher	https://nats.gitlab.io/swc/	CC-BY-SA 4.0
Tschuwaschisches TTS	Tschuwaschisch	4 Stunden	1 Lautsprecher	https://github.com/ftyers/Turkic_TTS	CC-BY-SA 4.0
Forschergeist	Deutsch	2 Stunden	2 Sprecher (1 weiblich, 1 männlich)	Sprecherin: https://goofy.zamia.org/zamia-speech/corpora/forschergeist/annettevogt-20180320-rec.tgz; männlicher Sprecher: https://goofy.zamia.org/zamia-speech/corpora/forschergeist/timpritlove-20180320-rec.tgz	CC-BY-SA 4.0
Malayalam Speech Corpus von SMC	Malayalam	1:36 Stunden	75 Sprecher (3 weiblich, 12 männlich, 60 unbekannt)	https://releases.smc.org.in/msc-reviewed-speech/	CC-BY-SA 4.0
Google Malayalam	Malayalam	3,02 Stunden	24 Sprecher	http://www.openslr.org/63/	CC-BY-SA 4.0

CC-BY-ND

KORPUS	SPRACHEN	# STD	# LAUTSPRECHER	HERUNTERLADEN	LIZENZ
IBM Recorded Debates v1	Englisch	5 Stunden	10 Lautsprecher	https://www.research.ibm.com/haifa/dept/vst/debating_data.shtml#Debate%20Speech%20Analysis	CC-BY-ND
IBM Recorded Debates v2	Englisch	~14 Stunden	14 Sprecher	https://www.research.ibm.com/haifa/dept/vst/debating_data.shtml#Debate%20Speech%20Analysis	CC-BY-ND

CC-BY-NC

KORPUS	SPRACHEN	# STD	# LAUTSPRECHER	HERUNTERLADEN	LIZENZ
TV3Parla	katalanisch	240 Stunden		http://laklak.eu/share/tv3_0.3.tar.gz	CC-BY-NC 4.0
Russian Open STT Corpus	Russisch	~10.000 Stunden öffentlich, ~10.000 weitere auf Anfrage		https://github.com/snakers4/open_stt/#links	CC-BY-NC 4.0 mit einigen Ausnahmen
Russian Open TTS Corpus	Russisch	145 Stunden	3 Männer	https://github.com/snakers4/open_tts/#links	CC-BY-NC 4.0 mit einigen Erwartungen
OVM – Otázky Václava Moravce	tschechisch	35 Stunden		https://lindat.mff.cuni.cz/repository/xmlui/handle/11858/00-097C-0000-000D-EC98-3	CC-BY-NC 3.0

CC-BY-NC-SA

KORPUS	SPRACHEN	# STD	# LAUTSPRECHER	HERUNTERLADEN	LIZENZ
CHiME-Home	Englisch	6,8 Stunden		https://archive.org/details/chime-home	CC-BY-NC-SA 3.0
Kameruner Pidgin-Englischkorpus	Kamerunisches Pidgin-Englisch	~17 Stunden		http://ota.ox.ac.uk/text/2563.zip	CC-BY-NC-SA 3.0

CC-BY-NC-ND

KORPUS	SPRACHEN	# STD	# LAUTSPRECHER	HERUNTERLADEN	LIZENZ
Tatoeba-Eng	Englisch	~250 Stunden (grobe Schätzung)	6 Lautsprecher	https://voice.mozilla.org/en/datasets	CC-BY-NC 4.0 (einige Audiodateien) / CC-BY-NC-ND 3.0 (die meisten Audiodateien) / CC-BY 2.0 (alle Texte)
TED-LIUM	Englisch	118 Stunden	685 Sprecher (36h weiblich / 81h männlich)	http://www.openslr.org/7/	CC-BY-NC-ND 3.0
TED-LIUM-2	Englisch	207 Stunden	1242 Sprecher (66h weiblich / 141h männlich)	http://www.openslr.org/19/	CC-BY-NC-ND 3.0
TED-LIUM-3	Englisch	452 Stunden	2028 Sprecher (134h weiblich / 316h männlich)	http://www.openslr.org/51/	CC-BY-NC-ND 3.0
Pansori TEDxKR	Koreanisch	3 Stunden	41 Sprecher	http://www.openslr.org/58/	CC-BY-NC-ND 4.0
Primewords Mandarin	Mandarin	100 Stunden	296 Sprecher	http://www.openslr.org/47/	CC-BY-NC-ND 4.0
MuST-C v1.0	Audio (Englisch); Text (Niederländisch, Französisch, Deutsch, Italienisch, Portugiesisch, Rumänisch, Russisch, Spanisch)	408, 504, 492, 465, 442, 385, 432, 489 Stunden pro Sprachpaar		https://ict.fbk.eu/must-c-release-v1-0/	CC-BY-NC-ND 4.0
Sitzungen des tschechischen Parlaments	tschechisch	88 Stunden		https://lindat.mff.cuni.cz/repository/xmlui/handle/11858/00-097C-0000-0005-CF9C-4	CC-BY-NC-ND 3.0
BembaSpeech	Bemba	24 Stunden	17 Referenten (9 männlich / 8 weiblich)	https://github.com/csikasote/BembaSpeech	CC-BY-NC-ND 4.0

CDLA-Permissiv

KORPUS	SPRACHEN	# STD	# LAUTSPRECHER	HERUNTERLADEN	LIZENZ
DiPCo	Englisch	~5 Stunden	32 Referenten (13 weiblich, 19 männlich)	https://s3.amazonaws.com/dipco/DiPCo.tgz	CDLA-Permissive-1.0

GNU General Public License

KORPUS	SPRACHEN	# STD	# LAUTSPRECHER	HERUNTERLADEN	LIZENZ
VoxForge	Englisch	~120 Stunden	~2966 Lautsprecher	http://www.repository.voxforge1.org/downloads/en/Trunk/Audio/Main/16kHz_16bit/ https://voice.mozilla.org/en/datasets	GNU-GPL 3.0
VoxForge	Russisch			http://www.repository.voxforge1.org/downloads/ru/Trunk/Audio/Main/16kHz_16bit/ http://www.repository.voxforge1.org/downloads/Russian/Trunk/Audio/Main/16kHz_16bit/	GNU-GPL 3.0
VoxForge	Deutsch			http://www.repository.voxforge1.org/downloads/de/Trunk/Audio/Main/16kHz_16bit/	GNU-GPL 3.0

Apache-Lizenz

KORPUS	SPRACHEN	# STD	# LAUTSPRECHER	HERUNTERLADEN	LIZENZ
AISHELL-1	Mandarin	170 Stunden	400 Sprecher	http://www.openslr.org/33/	Apache 2.0
Tunesische_MSA	Modernes Hocharabisch (Tunesien)	11,2 Stunden	118 Sprecher	http://www.openslr.org/46/	Apache 2.0
Französisch mit afrikanischem Akzent	Französisch	22 Stunden	232 Sprecher	http://www.openslr.org/57/	Apache 2.0
THCHS-30	Mandarin-Chinesisch	33,57 Stunden (13.389 Äußerungen)	40 Referenten (31 weiblich, 9 männlich)	http://www.openslr.org/18/	Apache 2.0
Living Audio-Datensatz – Niederländisch	Niederländisch	57:49 Min	1 Lautsprecher	https://github.com/Idlak/Living-Audio-Dataset	Apache 2.0
Living Audio-Datensatz – Englisch	Englisch	50:50 Min	1 Lautsprecher	https://github.com/Idlak/Living-Audio-Dataset	Apache 2.0
Living Audio-Datensatz – Irisch	irisch	61:56 Min	1 Lautsprecher	https://github.com/Idlak/Living-Audio-Dataset	Apache 2.0
Living Audio-Datensatz – Russisch	Russisch	34:58 Min	1 Lautsprecher	https://github.com/Idlak/Living-Audio-Dataset	Apache 2.0

MIT-Lizenz

KORPUS	SPRACHEN	# STD	# LAUTSPRECHER	HERUNTERLADEN	LIZENZ
ALFFA	Amharisch;Hausa (bezahlt); Suaheli; Wolof			http://www.openslr.org/25/ https://github.com/besacier/ALFFA_PUBLIC	MIT

BSD-3-Klausel-Lizenz

KORPUS	SPRACHEN	# STD	HERUNTERLADEN	LIZENZ
M-AILABS Deutscher Korpus	Deutsch	237 Stunden und 22 Minuten	http://www.caito.de/data/Training/stt_tts/de_DE.tgz	M-AILABS-LIZENZ (eine datenspezifische BSD-3-Klausel-Lizenz)
M-AILABS Englischer Korpus der Königin	Englisch der Königin	45 Stunden und 35 Minuten	http://www.caito.de/data/Training/stt_tts/en_UK.tgz	M-AILABS-LIZENZ (eine datenspezifische BSD-3-Klausel-Lizenz)
M-AILABS US English Corpus	Amerikanisches Englisch	102 Stunden und 7 Minuten	http://www.caito.de/data/Training/stt_tts/en_US.tgz	M-AILABS-LIZENZ (eine datenspezifische BSD-3-Klausel-Lizenz)
M-AILABS Spanischer Korpus	Spanisch Spanisch	108 Stunden und 34 Minuten	http://www.caito.de/data/Training/stt_tts/es_ES.tgz	M-AILABS-LIZENZ (eine datenspezifische BSD-3-Klausel-Lizenz)
M-AILABS Italienischer Korpus	Italienisch	127 Stunden und 40 Minuten	http://www.caito.de/data/Training/stt_tts/it_IT.tgz	M-AILABS-LIZENZ (eine datenspezifische BSD-3-Klausel-Lizenz)
M-AILABS Ukrainischer Korpus	ukrainisch	87 Stunden und 8 Minuten	http://www.caito.de/data/Training/stt_tts/uk_UK.tgz	M-AILABS-LIZENZ (eine datenspezifische BSD-3-Klausel-Lizenz)
M-AILABS Russischer Korpus	Russisch	46 Stunden und 47 Minuten	http://www.caito.de/data/Training/stt_tts/ru_RU.tgz	M-AILABS-LIZENZ (eine datenspezifische BSD-3-Klausel-Lizenz)
M-AILABS Französisch-v0.9 Corpus	Französisch	190 Stunden und 30 Minuten	http://www.caito.de/data/Training/stt_tts/fr_FR.tgz	M-AILABS-LIZENZ (eine datenspezifische BSD-3-Klausel-Lizenz)
M-AILABS Polnischer Korpus	Polieren	53 Stunden und 50 Minuten	http://www.caito.de/data/Training/stt_tts/pl_PL.tgz	M-AILABS-LIZENZ (eine datenspezifische BSD-3-Klausel-Lizenz)

Benutzerdefinierte Lizenz

KORPUS	SPRACHEN	# STD	# LAUTSPRECHER	HERUNTERLADEN	LIZENZ
Korpus für fließende Sprachbefehle	Englisch	19 Stunden (30.043 Äußerungen)	97 Sprecher	http://fluent.ai:2052/jf8398hf30f0381738rucj3828chfdnchs.tar.gz	Öffentliche Lizenz für Fluent Speech Commands
CMU Wildnis	700 Langs	Ohne Audio oder Text verteilte Ausrichtungen insgesamt: ~14.000 Stunden; pro Sprache: ~20 Stunden		https://github.com/festvox/datasets-CMU_Wilderness	https://live.bible.is/terms
CHiME-5	Englisch	50 Stunden	48 Sprecher	http://spandh.dcs.shef.ac.uk/chime_challenge/data.html	CHiME-5-Lizenz
Fearless Steps Corpus	Englisch	19.000 Stunden (20 Stunden transkribiert)	~450 Lautsprecher	https://fearless-steps.github.io/ChallengePhase3/#19k_Corpus_Access	Richtlinien zur Mediennutzung der NASA
Microsoft Speech Corpus (indische Sprachen)	Telugu; Tamil; Gujarati			https://msropendata.com/datasets/7230b4b1-912d-400e-be58-f84e0512985e	Lizenz für Microsoft Speech Corpus (Indische Sprachen).
Microsoft Speech Language Translation Corpus	Englisch; Chinesisch; japanisch			https://msropendata.com/datasets/54813518-4ea6-4c39-9bb2-b0d1e5f0c187	Lizenzvereinbarung für Microsoft-Forschungsdaten
Hallo Snips Corpus	Englisch	11.000 positive „Hey Snips“ (~4,4 Stunden) und 87.000 negative (~89 Stunden) Äußerungen	2215 Sprecher (positiv und negativ) und 4028 Sprecher (nur negativ)	https://research.snips.ai/datasets/keyword-spotting	Snips-Datenlizenz
Snips SLU Corpus	Englisch; Französisch	1660 „Smart Lights EN“ (~1,3 Stunden), 1286 „Smart Speaker EN“ (~55 Minuten), 1138 „Smart Speaker FR“ (~50 Minuten) Äußerungen	Englisch: 69 Sprecher; Französisch: 30 Sprecher	https://research.snips.ai/datasets/spoken-Language-Understanding	Snips-Datenlizenz
CMU Sphinx-Gruppe – AN4	Englisch	„an4_clstk“ (~50 Minuten) „an4test_clstk“ (~6 Minuten)	„an4_clstk“: 21 Frauen, 53 Männer „an4test_clstk“: 3 Frauen, 7 Männer	http://www.speech.cs.cmu.edu/databases/an4/an4_raw.bigendian.tar.gz	AN4
FT-Rede	dänisch	~1.857 Stunden (1.017.244 Äußerungen)	434 Referenten (176 Frauen, 258 Männer)	https://ftspeech.dk	FT-Sprachlizenz
FalaBrasil-LAPS-Constituicao	Brasilianisch-Portugiesisch	9 Stunden	1 Lautsprecher	https://drive.google.com/uc?export=download&confirm=SrvW&id=1Nf849u-27CYRzJqedLaI-FaZfMRO7FT	„Normalisierte Audio-Transkript- und Text-Basen (sem pontuação, com extenso excritos, etc.) werden von der Grupo FalaBrasil formell kostenlos zur Verfügung gestellt. "
FalaBrasil-LaPSMail	Brasilianisch-Portugiesisch	1 Stunde	25 Sprecher	https://drive.google.com/uc?export=download&confirm=PecV&id=1B_Vq8MDSE4fBQefVxqCGSl-EcKAcjJLb	„Normalisierte Audio-Transkript- und Text-Basen (sem pontuação, com extenso excritos, etc.) werden von der Grupo FalaBrasil formell kostenlos zur Verfügung gestellt. "
FalaBrasil-LaPS-Benchmark	Brasilianisch-Portugiesisch	1 Stunde	1 Lautsprecher	https://drive.google.com/uc?export=download&confirm=XFfF&id=1nZ8L9nJTt4blFC0RGT9Y7XRu02aAvDIo	„Normalisierte Audio-Transkript- und Text-Basen (sem pontuação, com extenso excritos, etc.) werden von der Grupo FalaBrasil formell kostenlos zur Verfügung gestellt. "