Una lista de corpus de habla abierta para la investigación y el desarrollo de tecnología del habla.
Esta lista tiene preferencia por corpus gratuitos (es decir, sin costo alguno) y verdaderamente abiertos (por ejemplo, publicados bajo una licencia Creative Commons o un Acuerdo de licencia de datos comunitarios). Es posible que no todos estos corpus cumplan con esos criterios, pero todos los siguientes corpus son accesibles y utilizables para investigación y/o uso comercial.
¡Siéntete libre de proponer adiciones a la lista!
Hay una gran cantidad de corpus pendientes de agregar en los Issues, y las solicitudes de extracción son bienvenidas :)
CUERPO | IDIOMAS | # HORAS | # PONENTES | DESCARGAR | LICENCIA |
---|---|---|---|---|---|
Voz común | Plurilingüe | >15.000 horas (validado); >20.000 horas (total) | Multi-altavoz | https://voice.mozilla.org/en/datasets | CC-0 |
si no | hebreo | 6 minutos | un hombre | http://www.openslr.org/1/ | CC-0 |
Corpus del discurso de LJ | Inglés | ~24 horas | una mujer | https://data.keithito.com/data/speech/LJSpeech-1.1.tar.bz2 | CC-0 |
NST Base de datos danesa ASR | danés | 229.992 declaraciones | 616 oradores | original: https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-19/, reorganizado: https://www.nb.no/sprakbanken/en/resource-catalogue /oai-nb-no-sbr-55/ | CC-0 |
NST Dictado Danés | danés | 34.955 declaraciones | 151 oradores | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-20/ | CC-0 |
NST Síntesis del habla danesa | danés | 4.108 declaraciones | 1 altavoz masculino | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-21/ | CC-0 |
Base de datos ASR sueca NST | sueco | 366.000 declaraciones | 1.000 hablantes | original: https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-16/, reorganizado: https://www.nb.no/sprakbanken/en/resource-catalogue /oai-nb-no-sbr-56/ | CC-0 |
NST Dictado Sueco | sueco | 45.620 declaraciones | 195 oradores | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-17/ | CC-0 |
NST Síntesis del discurso sueco | sueco | 5.279 declaraciones | 1 altavoz masculino | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-18/ | CC-0 |
NST Base de datos ASR noruega | noruego | 359.760 declaraciones | 980 oradores | original: https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-13/, reorganizado: https://www.nb.no/sprakbanken/en/resource-catalogue /oai-nb-no-sbr-54/ | CC-0 |
NST Dictado de noruego | noruego | 33.360 declaraciones | 144 oradores | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-14/ | CC-0 |
NST Síntesis del habla noruega | noruego | 5.363 declaraciones | 1 altavoz masculino | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-15/ | CC-0 |
NB Tale – Base de datos de habla en noruego | noruego | 7.600 expresiones + ~12 horas | 380 parlantes | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-31/ | CC-0 |
Corpus de discursos parlamentarios noruegos (v0.1) | noruego | ~59 horas | 203 oradores | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-58/ | CC-0 |
Wikimedia Commons Odia | Odia | ~8 horas | ~20 hablantes | https://commons.wikimedia.org/wiki/Category:Odia_pronunciation | en su mayoría (?) CC-0 |
Thorsten-21.02-neutral | Alemán | ~24 horas | 1 altavoz masculino | https://www.Thorsten-Voice.de | CC-0 |
Thorsten-21.06-emocional | Alemán | 2.400 expresiones (8 emociones) | 1 altavoz masculino | https://www.Thorsten-Voice.de | CC-0 |
CUERPO | IDIOMAS | # HORAS | # PONENTES | DESCARGAR | LICENCIA |
---|---|---|---|---|---|
Corpus de discurso ARU | Inglés (Reino Unido) | 720 expresiones / hablante | 12 (6 mujeres; 6 hombres) | http://datacat.liverpool.ac.uk/681/1/ARU_Speech_Corpus_v1_0.zip | CC-BY 3.0 |
Corpus de discursos parlamentarios del Althingi | islandés | 542 horas y 25 minutos | 196 oradores | http://www.malfong.is/index.php?dlid=73&lang=en | CC-BY 4.0 |
Corpus de discursos parlamentarios de Alþingisumræður | islandés | ~21 horas | http://www.malfong.is/index.php?dlid=8&lang=en | CC-BY 3.0 | |
Hjal Corpus | islandés | ~41.000 grabaciones | 883 oradores | http://www.malfong.is/index.php?dlid=5&lang=en | CC-BY 3.0 |
El corpus de Malromur | islandés | 152 horas | 563 oradores | http://www.malfong.is/index.php?dlid=65&lang=en | CC-BY 4.0 |
Corpus alemán de telecooperación para Kinect | Alemán | ~35 horas | ~180 hablantes | http://www.repository.voxforge1.org/downloads/de/german-speechdata-TUDa-2015.tar.gz | CC-BY 2.0 |
Tecnología del habla africana Corpus del habla inglés-inglés | Inglés | ~21 horas | https://repo.sadilar.org/handle/20.500.12185/283 | CC-BY 2.5 Sudáfrica | |
Tecnología del habla africana isiXhosa Speech Corpus | isiXhosa | ~26 horas | https://repo.sadilar.org/handle/20.500.12185/305 | CC-BY 2.5 Sudáfrica | |
NCHLT afrikáans | africaans | 56 horas | 210 ponentes (98 mujeres / 112 hombres) | https://repo.sadilar.org/handle/20.500.12185/280 | CC-BY 3.0 |
NCHLT Inglés | Inglés | 56 horas | 210 ponentes (100 mujeres / 110 hombres) | https://repo.sadilar.org/handle/20.500.12185/274 | CC-BY 3.0 |
NCHLT isiNdebele | isiNdebele | 56 horas | 148 ponentes (78 mujeres / 70 hombres) | https://repo.sadilar.org/handle/20.500.12185/272 | CC-BY 3.0 |
NCHLT isiXhosa | isiXhosa | 56 horas | 209 ponentes (106 mujeres / 103 hombres) | https://repo.sadilar.org/handle/20.500.12185/279 | CC-BY 3.0 |
NCHLT isiZulu | isiZulu | 56 horas | 210 ponentes (98 mujeres / 112 hombres) | https://repo.sadilar.org/handle/20.500.12185/275 | CC-BY 3.0 |
NCHLT Sepedi | Sepedi | 56 horas | 210 ponentes (100 mujeres / 110 hombres) | https://repo.sadilar.org/handle/20.500.12185/270 | CC-BY 3.0 |
NCHLT Sesotho | sesoto | 56 horas | 210 ponentes (113 mujeres / 97 hombres) | https://repo.sadilar.org/handle/20.500.12185/278 | CC-BY 3.0 |
NCHLT Setswana | setswana | 56 horas | 210 ponentes (109 mujeres / 101 hombres) | https://repo.sadilar.org/handle/20.500.12185/281 | CC-BY 3.0 |
NCHLT Siswati | Siswati | 56 horas | 197 ponentes (96 mujeres / 101 hombres) | https://repo.sadilar.org/handle/20.500.12185/271 | CC-BY 3.0 |
NCHLT Tshivenda | Tshivenda | 56 horas | 208 ponentes (83 mujeres / 125 hombres) | https://repo.sadilar.org/handle/20.500.12185/276 | CC-BY 3.0 |
NCHLT Xitsonga | Xitsonga | 56 horas | 198 ponentes (95 mujeres/103 hombres) | https://repo.sadilar.org/handle/20.500.12185/277 | CC-BY 3.0 |
Corpus de nombres propios translingües Lwazi II | Africaans; Inglés; isiZulu; sesoto | 2 horas 5 minutos | 20 oradores | https://repo.sadilar.org/handle/20.500.12185/445 | CC-BY 3.0 |
Lwazi II Nombre propio Enrutamiento de llamadas Corpus telefónico | Inglés | 2 horas 7 minutos | https://repo.sadilar.org/handle/20.500.12185/448 | CC-BY 3.0 | |
Corpus de seguimiento de trayectoria en afrikáans de Lwazi II | africaans | 4 horas | un hombre | https://repo.sadilar.org/handle/20.500.12185/442 | CC-BY 3.0 |
LibriDiscurso | Inglés | ~1000 horas | 2484 hablantes (1201 mujeres / 1283 hombres) | http://www.openslr.org/12/ | CC-BY 4.0 |
Zeroth-coreano | coreano | 52,8 horas | 115 oradores | http://www.openslr.org/40/ | CC-BY 4.0 |
Comandos de voz | Inglés | 17,8 horas | >1.000 hablantes | https://ai.googleblog.com/2017/08/launching-speech-commands-dataset.html | CC-BY 4.0 |
ParlamentoParla | catalán | 320 horas | https://www.openslr.org/59/ | CC-BY 4.0 | |
SIWIS | Francés | ~10 horas | una mujer | http://datashare.is.ed.ac.uk/download/DS_10283_2353.zip | CC-BY 4.0 |
VCTK | Inglés | 44 horas | 109 oradores | http://datashare.is.ed.ac.uk/download/DS_10283_3443.zip | CC-BY 4.0 |
LibriTTS | Inglés | 586 horas | 2.456 hablantes (1.185 mujeres / 1.271 hombres) | http://www.openslr.org/60/ | CC-BY 4.0 |
LibriSpeech aumentada | Audio (inglés); Texto (inglés, francés) | 236 horas | https://persyval-platform.univ-grenoble-alpes.fr/datasets/DS91 | CC-BY 4.0 | |
Corpus de prosodia de Helsinki | Inglés | 262,5 horas | 1.230 hablantes | https://github.com/Helsinki-NLP/prosody | CC-BY 4.0 |
Base de datos de voz de Tuva | noruego | 24 horas | 40 oradores | https://www.nb.no/sprakbanken/show?serial=oai:nb.no:sbr-44&lang= | CC-BY 4.0 |
COERLL Corpus k'iche' | k'iche' | 34 minutos | ? altavoces | https://cl.indiana.edu/~ftyers/resources/utexas-kiche-audio.tar.gz | CC-BY 4.0 |
Temporizadores y demás v0.1 | Inglés (sintético: estadounidense, real: varias nacionalidades) | sintético: 172 horas, real: 0,29 horas | 21 sintéticos, 11 reales | https://zenodo.org/record/4110812#.X9j0RmBOkYM | CC-BY 4.0 |
Gran corpus de audiencias plenarias del Parlamento checo | checo | 444 horas | https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-3126 | CC-BY 4.0 |
CUERPO | IDIOMAS | # HORAS | # PONENTES | DESCARGAR | LICENCIA |
---|---|---|---|---|---|
iban | iban | 8 horas | http://www.openslr.org/24/ https://github.com/sarahjuan/iban | CC-BY-SA 2.0 | |
Vystadial 2013 | Inglés; checo | 41 horas; 15 horas | http://www.openslr.org/6/ | CC-BY-SA 3.0 EE. UU. | |
Vystadial 2016 checo | checo | 77 horas; incluye Vystadial 2013 checo | https://lindat.cz/repository/xmlui/handle/11234/1-1740 | CC-BY-SA 4.0 | |
Conjunto de datos de dígitos hablados gratuitos | Inglés | 2.000 dígitos aislados | 4 altavoces | https://github.com/Jakobovski/free-spoken-digit-dataset | CC-BY-SA 4.0 |
Google javanés | javanés | 296 horas | 1019 oradores | http://www.openslr.org/35/ | CC-BY-SA 4.0 |
Google nepalí | nepalí | 165 horas | 527 oradores | http://www.openslr.org/54/ | CC-BY-SA 4.0 |
Google bengalí | bengalí | 229 horas | 508 oradores | http://www.openslr.org/53/ | CC-BY-SA 4.0 |
Google cingalés | cingalés | 224 horas | 478 oradores | http://www.openslr.org/52/ | CC-BY-SA 4.0 |
Google sundanés | sundanés | 333 horas | 542 oradores | http://www.openslr.org/36/ | CC-BY-SA 4.0 |
Corpus de Wikipedia hablado (SWC-2017) | Inglés; Alemán; Holandés | 182 horas; 249 horas; 79 horas | 395 hablantes; 339 hablantes; 145 oradores | https://nats.gitlab.io/swc/ | CC-BY-SA 4.0 |
TTS de Chuvasia | chuvasio | 4 horas | 1 altavoz | https://github.com/ftyers/Turkic_TTS | CC-BY-SA 4.0 |
Forschergeist | Alemán | 2 horas | 2 altavoces (1 mujer; 1 hombre) | oradora: https://goofy.zamia.org/zamia-speech/corpora/forschergeist/annettevogt-20180320-rec.tgz; ponente masculino: https://goofy.zamia.org/zamia-speech/corpora/forschergeist/timpritlove-20180320-rec.tgz | CC-BY-SA 4.0 |
Corpus de habla malayalam por SMC | malayalam | 1:36 horas | 75 hablantes (3 mujeres, 12 hombres, 60 no identificados) | https://releases.smc.org.in/msc-reviewed-speech/ | CC-BY-SA 4.0 |
Google malayalam | malayalam | 3,02 horas | 24 parlantes | http://www.openslr.org/63/ | CC-BY-SA 4.0 |
CUERPO | IDIOMAS | # HORAS | # PONENTES | DESCARGAR | LICENCIA |
---|---|---|---|---|---|
Debates grabados de IBM v1 | Inglés | 5 horas | 10 oradores | https://www.research.ibm.com/haifa/dept/vst/debating_data.shtml#Debate%20Speech%20Analysis | CC-BY-ND |
Debates grabados de IBM v2 | Inglés | ~14 horas | 14 oradores | https://www.research.ibm.com/haifa/dept/vst/debating_data.shtml#Debate%20Speech%20Analysis | CC-BY-ND |
CUERPO | IDIOMAS | # HORAS | # PONENTES | DESCARGAR | LICENCIA |
---|---|---|---|---|---|
TV3Parla | catalán | 240 horas | http://laklak.eu/share/tv3_0.3.tar.gz | CC-BY-NC 4.0 | |
Corpus STT del Abierto de Rusia | ruso | ~10,000 horas públicas, ~10,000 más a pedido | https://github.com/snakers4/open_stt/#links | CC-BY-NC 4.0 con algunas excepciones | |
Corpus TTS abierto ruso | ruso | 145 horas | 3 machos | https://github.com/snakers4/open_tts/#links | CC-BY-NC 4.0 con algunas expectativas |
OVM – Otázky Václava Moravce | checo | 35 horas | https://lindat.mff.cuni.cz/repository/xmlui/handle/11858/00-097C-0000-000D-EC98-3 | CC-BY-NC 3.0 |
CUERPO | IDIOMAS | # HORAS | # PONENTES | DESCARGAR | LICENCIA |
---|---|---|---|---|---|
CHiME-Inicio | Inglés | 6,8 horas | https://archive.org/details/chime-home | CC-BY-NC-SA 3.0 | |
Corpus inglés pidgin de Camerún | Camerún Pidgin Inglés | ~17 horas | http://ota.ox.ac.uk/text/2563.zip | CC-BY-NC-SA 3.0 |
CUERPO | IDIOMAS | # HORAS | # PONENTES | DESCARGAR | LICENCIA |
---|---|---|---|---|---|
Tatoeba-Esp | Inglés | ~250 horas (estimación aproximada) | 6 parlantes | https://voice.mozilla.org/en/datasets | CC-BY-NC 4.0 (algo de audio) / CC-BY-NC-ND 3.0 (la mayor parte del audio) / CC-BY 2.0 (todo el texto) |
TED-LIUM | Inglés | 118 horas | 685 ponentes (36h mujeres / 81h hombres) | http://www.openslr.org/7/ | CC-BY-NC-ND 3.0 |
TED-LIUM-2 | Inglés | 207 horas | 1242 ponentes (66h mujeres / 141h hombres) | http://www.openslr.org/19/ | CC-BY-NC-ND 3.0 |
TED-LIUM-3 | Inglés | 452 horas | 2028 ponentes (134h mujeres / 316h hombres) | http://www.openslr.org/51/ | CC-BY-NC-ND 3.0 |
Pansori TEDxKR | coreano | 3 horas | 41 oradores | http://www.openslr.org/58/ | CC-BY-NC-ND 4.0 |
Palabras clave mandarín | mandarín | 100 horas | 296 oradores | http://www.openslr.org/47/ | CC-BY-NC-ND 4.0 |
Debe-C v1.0 | Audio (inglés); Texto (holandés, francés, alemán, italiano, portugués, rumano, ruso, español) | 408, 504, 492, 465, 442, 385, 432, 489 horas por par de idiomas | https://ict.fbk.eu/must-c-release-v1-0/ | CC-BY-NC-ND 4.0 | |
Reuniones del Parlamento checo | checo | 88 horas | https://lindat.mff.cuni.cz/repository/xmlui/handle/11858/00-097C-0000-0005-CF9C-4 | CC-BY-NC-ND 3.0 | |
BembaDiscurso | bemba | 24 horas | 17 ponentes (9 hombres / 8 mujeres) | https://github.com/csikasote/BembaSpeech | CC-BY-NC-ND 4.0 |
CUERPO | IDIOMAS | # HORAS | # PONENTES | DESCARGAR | LICENCIA |
---|---|---|---|---|---|
DiPCo | Inglés | ~5 horas | 32 ponentes (13 mujeres; 19 hombres) | https://s3.amazonaws.com/dipco/DiPCo.tgz | CDLA-Permisivo-1.0 |
CUERPO | IDIOMAS | # HORAS | # PONENTES | DESCARGAR | LICENCIA |
---|---|---|---|---|---|
VoxForge | Inglés | ~120 horas | ~2966 hablantes | http://www.repository.voxforge1.org/downloads/en/Trunk/Audio/Main/16kHz_16bit/ https://voice.mozilla.org/en/datasets | GNU-GPL 3.0 |
VoxForge | ruso | http://www.repository.voxforge1.org/downloads/ru/Trunk/Audio/Main/16kHz_16bit/ http://www.repository.voxforge1.org/downloads/Russian/Trunk/Audio/Main/16kHz_16bit/ | GNU-GPL 3.0 | ||
VoxForge | Alemán | http://www.repository.voxforge1.org/downloads/de/Trunk/Audio/Main/16kHz_16bit/ | GNU-GPL 3.0 |
CUERPO | IDIOMAS | # HORAS | # PONENTES | DESCARGAR | LICENCIA |
---|---|---|---|---|---|
AISHELL-1 | mandarín | 170 horas | 400 oradores | http://www.openslr.org/33/ | apache 2.0 |
tunecino_MSA | Árabe estándar moderno (Túnez) | 11,2 horas | 118 oradores | http://www.openslr.org/46/ | apache 2.0 |
Francés con acento africano | Francés | 22 horas | 232 oradores | http://www.openslr.org/57/ | apache 2.0 |
THCHS-30 | chino mandarín | 33,57 horas (13.389 expresiones) | 40 ponentes (31 mujeres; 9 hombres) | http://www.openslr.org/18/ | apache 2.0 |
Conjunto de datos de Living Audio: holandés | Holandés | 57:49 minutos | 1 altavoz | https://github.com/Idlak/Living-Audio-Dataset | apache 2.0 |
Conjunto de datos de Living Audio - Inglés | Inglés | 50:50 minutos | 1 altavoz | https://github.com/Idlak/Living-Audio-Dataset | apache 2.0 |
Conjunto de datos de Living Audio: irlandés | irlandés | 61:56 minutos | 1 altavoz | https://github.com/Idlak/Living-Audio-Dataset | apache 2.0 |
Conjunto de datos de Living Audio: ruso | ruso | 34:58 minutos | 1 altavoz | https://github.com/Idlak/Living-Audio-Dataset | apache 2.0 |
CUERPO | IDIOMAS | # HORAS | # PONENTES | DESCARGAR | LICENCIA |
---|---|---|---|---|---|
ALFA | amárico; hausa (pago); Swahili; wólof | http://www.openslr.org/25/ https://github.com/besacier/ALFFA_PUBLIC | MIT |
CUERPO | IDIOMAS | # HORAS | # PONENTES | DESCARGAR | LICENCIA |
---|---|---|---|---|---|
Corpus alemán de M-AILABS | Alemán | 237 horas y 22 minutos | http://www.caito.de/data/Training/stt_tts/de_DE.tgz | LICENCIA M-AILABS (una licencia BSD de 3 cláusulas específica para datos) | |
Corpus inglés de la reina M-AILABS | inglés de la reina | 45 horas y 35 minutos | http://www.caito.de/data/Training/stt_tts/en_UK.tgz | LICENCIA M-AILABS (una licencia BSD de 3 cláusulas específica para datos) | |
M-AILABS Corpus en inglés de EE. UU. | ingles americano | 102 horas y 7 minutos | http://www.caito.de/data/Training/stt_tts/en_US.tgz | LICENCIA M-AILABS (una licencia BSD de 3 cláusulas específica para datos) | |
Corpus en español de M-AILABS | español español | 108 horas y 34 minutos | http://www.caito.de/data/Training/stt_tts/es_ES.tgz | LICENCIA M-AILABS (una licencia BSD de 3 cláusulas específica para datos) | |
Corpus italiano M-AILABS | italiano | 127 horas y 40 minutos | http://www.caito.de/data/Training/stt_tts/it_IT.tgz | LICENCIA M-AILABS (una licencia BSD de 3 cláusulas específica para datos) | |
Corpus ucraniano de M-AILABS | ucranio | 87 horas y 8 minutos | http://www.caito.de/data/Training/stt_tts/uk_UK.tgz | LICENCIA M-AILABS (una licencia BSD de 3 cláusulas específica para datos) | |
Corpus ruso de M-AILABS | ruso | 46 horas y 47 minutos | http://www.caito.de/data/Training/stt_tts/ru_RU.tgz | LICENCIA M-AILABS (una licencia BSD de 3 cláusulas específica para datos) | |
Corpus M-AILABS Francés-v0.9 | Francés | 190 horas y 30 minutos | http://www.caito.de/data/Training/stt_tts/fr_FR.tgz | LICENCIA M-AILABS (una licencia BSD de 3 cláusulas específica para datos) | |
Corpus polaco de M-AILABS | Polaco | 53 horas y 50 minutos | http://www.caito.de/data/Training/stt_tts/pl_PL.tgz | LICENCIA M-AILABS (una licencia BSD de 3 cláusulas específica para datos) |
CUERPO | IDIOMAS | # HORAS | # PONENTES | DESCARGAR | LICENCIA |
---|---|---|---|---|---|
Corpus de comandos de habla fluida | Inglés | 19 horas (30.043 expresiones) | 97 oradores | http://fluent.ai:2052/jf8398hf30f0381738rucj3828chfdnchs.tar.gz | Licencia pública de comandos de habla fluida |
CMU Desierto | 700 lenguas | Alineaciones distribuidas sin audio ni texto total: ~14.000 horas; por idioma: ~20 horas | https://github.com/festvox/datasets-CMU_Wilderness | https://live.bible.is/terms | |
Campanilla-5 | Inglés | 50 horas | 48 oradores | http://spandh.dcs.shef.ac.uk/chime_challenge/data.html | Licencia CHiME-5 |
Corpus de pasos intrépidos | Inglés | 19.000 horas (20 horas transcritas) | ~450 hablantes | https://fearless-steps.github.io/ChallengePhase3/#19k_Corpus_Access | Pautas de uso de medios de la NASA |
Microsoft Speech Corpus (idiomas indios) | telugu; tamil; gujarati | https://msropendata.com/datasets/7230b4b1-912d-400e-be58-f84e0512985e | Licencia de Microsoft Speech Corpus (idiomas indios) | ||
Corpus de traducción de lenguaje de voz de Microsoft | Inglés; Chino; japonés | https://msropendata.com/datasets/54813518-4ea6-4c39-9bb2-b0d1e5f0c187 | Acuerdo de licencia de datos de investigación de Microsoft | ||
Hola, recortes de corpus | Inglés | 11.000 expresiones positivas "Hey Snips" (~4,4 horas) y 87.000 negativas (~89 horas) | 2215 parlantes (positivos y negativos) y 4028 parlantes (solo negativos) | https://research.snips.ai/datasets/keyword-spotting | Licencia de datos de recortes |
Corpus Snips SLU | Inglés; Francés | 1660 expresiones "Smart Lights EN" (~1,3 horas), 1286 "Smart Speaker EN" (~55 minutos), 1138 "Smart Speaker FR" (~50 minutos) | Inglés: 69 hablantes; Francés: 30 hablantes | https://research.snips.ai/datasets/spoken-language-understanding | Licencia de datos de recortes |
Grupo CMU Esfinge - AN4 | Inglés | "an4_clstk"(~50 minutos) "an4test_clstk" (~6 minutos) | "an4_clstk": 21 mujeres, 53 hombres "an4test_clstk": 3 mujeres, 7 hombres | http://www.speech.cs.cmu.edu/databases/an4/an4_raw.bigendian.tar.gz | AN4 |
Discurso de Financial Times | danés | ~1.857 horas (1.017.244 expresiones) | 434 hablantes (176 mujeres, 258 hombres) | https://ftspeech.dk | Licencia de voz FT |
FalaBrasil-LAPS-Constituicao | brasileño-portugués | 9 horas | 1 altavoz | https://drive.google.com/uc?export=download&confirm=SrvW&id=1Nf849u-27CYRzJqedLaI-FaZfMRO7FT | "Bases de áudio transcrito e bases de texto normalizadas (sem pontuação, com números escritos por extenso, etc.) disponibilizadas de forma gratuita* pelo Grupo FalaBrasil. [disponibilizadas de forma gratuita*] / Portanto, apenas as bases livres estão sendo disponibilizadas. " |
FalaBrasil-LaPSMail | brasileño-portugués | 1 hora | 25 oradores | https://drive.google.com/uc?export=download&confirm=PecV&id=1B_Vq8MDSE4fBQefVxqCGSl-EcKAcjJLb | "Bases de áudio transcrito e bases de texto normalizadas (sem pontuação, com números escritos por extenso, etc.) disponibilizadas de forma gratuita* pelo Grupo FalaBrasil. [disponibilizadas de forma gratuita*] / Portanto, apenas as bases livres estão sendo disponibilizadas. " |
Punto de referencia FalaBrasil-LaPS | brasileño-portugués | 1 hora | 1 altavoz | https://drive.google.com/uc?export=download&confirm=XFfF&id=1nZ8L9nJTt4blFC0RGT9Y7XRu02aAvDIo | "Bases de áudio transcrito e bases de texto normalizadas (sem pontuação, com números escritos por extenso, etc.) disponibilizadas de forma gratuita* pelo Grupo FalaBrasil. [disponibilizadas de forma gratuita*] / Portanto, apenas as bases livres estão sendo disponibilizadas. " |