Uma lista de corpora de discurso aberto para pesquisa e desenvolvimento em Tecnologia da Fala.
Esta lista tem preferência por corpora gratuitos (ou seja, sem custo em dólares) e verdadeiramente abertos (por exemplo, lançados sob uma licença Creative Commons ou um Contrato de Licença de Dados Comunitários). Nem todos esses corpora podem atender a esses critérios, mas todos os corpora a seguir são acessíveis e utilizáveis para pesquisa e/ou uso comercial.
Sinta-se à vontade para propor acréscimos à lista!
Há um longo acúmulo de corpora a serem adicionados nos Issues, e Pull Requests são muito bem-vindos :)
CORPO | IDIOMAS | # HORAS | # ALTO-FALANTES | DOWNLOAD | LICENÇA |
---|---|---|---|---|---|
Voz Comum | Multilíngue | >15.000 horas (validado); >20.000 horas (total) | Multi-alto-falante | https://voice.mozilla.org/en/datasets | CC-0 |
Sim não | hebraico | 6 minutos | um homem | http://www.openslr.org/1/ | CC-0 |
Corpus de fala LJ | Inglês | ~24 horas | uma mulher | https://data.keithito.com/data/speech/LJSpeech-1.1.tar.bz2 | CC-0 |
Banco de dados ASR dinamarquês NST | dinamarquês | 229.992 declarações | 616 alto-falantes | original: https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-19/, reorganizado: https://www.nb.no/sprakbanken/en/resource-catalogue /oai-nb-no-sbr-55/ | CC-0 |
Ditado dinamarquês NST | dinamarquês | 34.955 declarações | 151 alto-falantes | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-20/ | CC-0 |
Síntese de fala dinamarquesa NST | dinamarquês | 4.108 declarações | 1 alto-falante masculino | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-21/ | CC-0 |
Banco de dados ASR sueco NST | sueco | 366.000 declarações | 1.000 alto-falantes | original: https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-16/, reorganizado: https://www.nb.no/sprakbanken/en/resource-catalogue /oai-nb-no-sbr-56/ | CC-0 |
Ditado Sueco NST | sueco | 45.620 declarações | 195 alto-falantes | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-17/ | CC-0 |
Síntese de fala sueca NST | sueco | 5.279 declarações | 1 alto-falante masculino | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-18/ | CC-0 |
Banco de dados ASR norueguês NST | norueguês | 359.760 declarações | 980 alto-falantes | original: https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-13/, reorganizado: https://www.nb.no/sprakbanken/en/resource-catalogue /oai-nb-no-sbr-54/ | CC-0 |
Ditado Norueguês NST | norueguês | 33.360 declarações | 144 alto-falantes | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-14/ | CC-0 |
Síntese de fala norueguesa NST | norueguês | 5.363 declarações | 1 alto-falante masculino | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-15/ | CC-0 |
NB Tale – Banco de dados de fala para norueguês | norueguês | 7.600 declarações + aproximadamente 12 horas | 380 alto-falantes | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-31/ | CC-0 |
Corpus de Discurso Parlamentar Norueguês (v0.1) | norueguês | ~59 horas | 203 alto-falantes | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-58/ | CC-0 |
Wikimedia Commons Odia | Odia | ~8 horas | ~20 alto-falantes | https://commons.wikimedia.org/wiki/Category:Odia_pronunciation | principalmente (?) CC-0 |
Thorsten-21.02-neutro | Alemão | ~24 horas | 1 alto-falante masculino | https://www.Thorsten-Voice.de | CC-0 |
Thorsten-21.06-emocional | Alemão | 2.400 enunciados (8 emoções) | 1 alto-falante masculino | https://www.Thorsten-Voice.de | CC-0 |
CORPO | IDIOMAS | # HORAS | # ALTO-FALANTES | DOWNLOAD | LICENÇA |
---|---|---|---|---|---|
Corpus de fala da ARU | Inglês (Reino Unido) | 720 enunciados/alto-falante | 12 (6 mulheres; 6 homens) | http://datacat.liverpool.ac.uk/681/1/ARU_Speech_Corpus_v1_0.zip | CC-BY 3.0 |
Corpus de Discurso Parlamentar Althingi | islandês | 542 horas e 25 minutos | 196 alto-falantes | http://www.malfong.is/index.php?dlid=73&lang=en | CC-BY 4.0 |
Corpus de Discurso Parlamentar de Alþingisumræður | islandês | ~21 horas | http://www.malfong.is/index.php?dlid=8&lang=en | CC-BY 3.0 | |
Hjal Corpus | islandês | ~41.000 gravações | 883 alto-falantes | http://www.malfong.is/index.php?dlid=5&lang=en | CC-BY 3.0 |
O Corpo Malromur | islandês | 152 horas | 563 alto-falantes | http://www.malfong.is/index.php?dlid=65&lang=en | CC-BY 4.0 |
Corpus Alemão de Telecooperação para Kinect | Alemão | ~35 horas | ~180 alto-falantes | http://www.repository.voxforge1.org/downloads/de/german-speechdata-TUDa-2015.tar.gz | CC-BY 2.0 |
Tecnologia da Fala Africana Corpus de Fala Inglês-Inglês | Inglês | ~21 horas | https://repo.sadilar.org/handle/20.500.12185/283 | CC-BY 2.5 África do Sul | |
Tecnologia de Fala Africana isiXhosa Speech Corpus | isiXhosa | ~26 horas | https://repo.sadilar.org/handle/20.500.12185/305 | CC-BY 2.5 África do Sul | |
NCHLT Africâner | afrikaans | 56 horas | 210 alto-falantes (98 femininos / 112 masculinos) | https://repo.sadilar.org/handle/20.500.12185/280 | CC-BY 3.0 |
NCHLT Inglês | Inglês | 56 horas | 210 alto-falantes (100 femininos / 110 masculinos) | https://repo.sadilar.org/handle/20.500.12185/274 | CC-BY 3.0 |
NCHLT isiNdebele | isiNdebele | 56 horas | 148 alto-falantes (78 femininos / 70 masculinos) | https://repo.sadilar.org/handle/20.500.12185/272 | CC-BY 3.0 |
NCHLT isiXhosa | isiXhosa | 56 horas | 209 alto-falantes (106 femininos / 103 masculinos) | https://repo.sadilar.org/handle/20.500.12185/279 | CC-BY 3.0 |
NCHLT isiZulu | isiZulu | 56 horas | 210 alto-falantes (98 femininos / 112 masculinos) | https://repo.sadilar.org/handle/20.500.12185/275 | CC-BY 3.0 |
NCHLT Sepedi | Sepedi | 56 horas | 210 alto-falantes (100 femininos / 110 masculinos) | https://repo.sadilar.org/handle/20.500.12185/270 | CC-BY 3.0 |
NCHLT Sesoto | Sesoto | 56 horas | 210 alto-falantes (113 femininos / 97 masculinos) | https://repo.sadilar.org/handle/20.500.12185/278 | CC-BY 3.0 |
NCHLT Setswana | Setsuana | 56 horas | 210 alto-falantes (109 femininos / 101 masculinos) | https://repo.sadilar.org/handle/20.500.12185/281 | CC-BY 3.0 |
NCHLT Siswati | Siswati | 56 horas | 197 alto-falantes (96 femininos / 101 masculinos) | https://repo.sadilar.org/handle/20.500.12185/271 | CC-BY 3.0 |
NCHLT Tshivenda | Tshivenda | 56 horas | 208 alto-falantes (83 femininos / 125 masculinos) | https://repo.sadilar.org/handle/20.500.12185/276 | CC-BY 3.0 |
NCHLT Xitsonga | Xitsonga | 56 horas | 198 alto-falantes (95 femininos/103 masculinos) | https://repo.sadilar.org/handle/20.500.12185/277 | CC-BY 3.0 |
Corpus de nome próprio multilíngue Lwazi II | Afrikaans; Inglês; isiZulu; Sesoto | 2 horas e 5 minutos | 20 alto-falantes | https://repo.sadilar.org/handle/20.500.12185/445 | CC-BY 3.0 |
Corpus telefônico de roteamento de chamadas com nome próprio Lwazi II | Inglês | 2 horas e 7 minutos | https://repo.sadilar.org/handle/20.500.12185/448 | CC-BY 3.0 | |
Corpus de rastreamento de trajetória em africâner Lwazi II | afrikaans | 4 horas | um homem | https://repo.sadilar.org/handle/20.500.12185/442 | CC-BY 3.0 |
LibriSpeech | Inglês | ~1000 horas | 2.484 alto-falantes (1.201 fêmeas / 1.283 machos) | http://www.openslr.org/12/ | CC-BY 4.0 |
Zeroth-coreano | coreano | 52,8 horas | 115 alto-falantes | http://www.openslr.org/40/ | CC-BY 4.0 |
Comandos de fala | Inglês | 17,8 horas | >1.000 alto-falantes | https://ai.googleblog.com/2017/08/launching-speech-commands-dataset.html | CC-BY 4.0 |
ParlamentoParla | catalão | 320 horas | https://www.openslr.org/59/ | CC-BY 4.0 | |
SIWIS | Francês | ~10 horas | uma mulher | http://datashare.is.ed.ac.uk/download/DS_10283_2353.zip | CC-BY 4.0 |
VCTK | Inglês | 44 horas | 109 alto-falantes | http://datashare.is.ed.ac.uk/download/DS_10283_3443.zip | CC-BY 4.0 |
LibriTTS | Inglês | 586 horas | 2.456 alto-falantes (1.185 mulheres / 1.271 homens) | http://www.openslr.org/60/ | CC-BY 4.0 |
Biblioteca Aumentada | Áudio (Inglês); Texto (inglês, francês) | 236 horas | https://persyval-platform.univ-grenoble-alpes.fr/datasets/DS91 | CC-BY 4.0 | |
Corpus de Prosódia de Helsinque | Inglês | 262,5 horas | 1.230 alto-falantes | https://github.com/Helsinki-NLP/prosody | CC-BY 4.0 |
Banco de dados de fala de Tuva | norueguês | 24 horas | 40 alto-falantes | https://www.nb.no/sprakbanken/show?serial=oai:nb.no:sbr-44&lang= | CC-BY 4.0 |
Corpus COERLL K'iche' | Quiche' | 34 minutos | ? alto-falantes | https://cl.indiana.edu/~ftyers/resources/utexas-kiche-audio.tar.gz | CC-BY 4.0 |
Temporizadores e outros v0.1 | Inglês (sintético: EUA, real: várias nacionalidades) | sintético: 172 horas, real: 0,29 horas | 21 sintéticos, 11 reais | https://zenodo.org/record/4110812#.X9j0RmBOkYM | CC-BY 4.0 |
Grande corpus de audiências plenárias do Parlamento Checo | Tcheco | 444 horas | https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-3126 | CC-BY 4.0 |
CORPO | IDIOMAS | # HORAS | # ALTO-FALANTES | DOWNLOAD | LICENÇA |
---|---|---|---|---|---|
Iban | Iban | 8 horas | http://www.openslr.org/24/ https://github.com/sarahjuan/iban | CC-BY-SA 2.0 | |
Vistadial 2013 | Inglês; Tcheco | 41 horas; 15 horas | http://www.openslr.org/6/ | CC-BY-SA 3.0 EUA | |
Vystadial 2016 Tcheco | Tcheco | 77 horas; inclui Vystadial 2013 Tcheco | https://lindat.cz/repository/xmlui/handle/11234/1-1740 | CC-BY-SA 4.0 | |
Conjunto de dados de dígitos falados grátis | Inglês | 2.000 dígitos isolados | 4 alto-falantes | https://github.com/Jakobovski/free-spoken-digit-dataset | CC-BY-SA 4.0 |
Google javanês | javanês | 296 horas | 1019 alto-falantes | http://www.openslr.org/35/ | CC-BY-SA 4.0 |
Google nepalês | nepalês | 165 horas | 527 alto-falantes | http://www.openslr.org/54/ | CC-BY-SA 4.0 |
Google bengali | bengali | 229 horas | 508 alto-falantes | http://www.openslr.org/53/ | CC-BY-SA 4.0 |
Google cingalês | Cingalês | 224 horas | 478 alto-falantes | http://www.openslr.org/52/ | CC-BY-SA 4.0 |
Google Sudanês | Sudanês | 333 horas | 542 alto-falantes | http://www.openslr.org/36/ | CC-BY-SA 4.0 |
Corpus da Wikipédia Falada (SWC-2017) | Inglês; Alemão; Holandês | 182 horas; 249 horas; 79 horas | 395 alto-falantes; 339 alto-falantes; 145 alto-falantes | https://nats.gitlab.io/swc/ | CC-BY-SA 4.0 |
Chuváchia TTS | chuvache | 4 horas | 1 alto-falante | https://github.com/ftyers/Turkic_TTS | CC-BY-SA 4.0 |
Forschergeist | Alemão | 2 horas | 2 alto-falantes (1 fêmea; 1 macho) | palestrante feminina: https://goofy.zamia.org/zamia-speech/corpora/forschergeist/annettevogt-20180320-rec.tgz; palestrante masculino: https://goofy.zamia.org/zamia-speech/corpora/forschergeist/timpritlove-20180320-rec.tgz | CC-BY-SA 4.0 |
Corpus de fala malaiala por SMC | Malaiala | 1:36 horas | 75 falantes (3 mulheres, 12 homens, 60 não identificados) | https://releases.smc.org.in/msc-reviewed-speech/ | CC-BY-SA 4.0 |
Google Malaiala | Malaiala | 3,02 horas | 24 alto-falantes | http://www.openslr.org/63/ | CC-BY-SA 4.0 |
CORPO | IDIOMAS | # HORAS | # ALTO-FALANTES | DOWNLOAD | LICENÇA |
---|---|---|---|---|---|
Debates Gravados IBM v1 | Inglês | 5 horas | 10 alto-falantes | https://www.research.ibm.com/haifa/dept/vst/debating_data.shtml#Debate%20Speech%20Analysis | CC-POR-ND |
Debates Gravados IBM v2 | Inglês | ~14 horas | 14 alto-falantes | https://www.research.ibm.com/haifa/dept/vst/debating_data.shtml#Debate%20Speech%20Analysis | CC-POR-ND |
CORPO | IDIOMAS | # HORAS | # ALTO-FALANTES | DOWNLOAD | LICENÇA |
---|---|---|---|---|---|
TV3Parla | catalão | 240 horas | http://laklak.eu/share/tv3_0.3.tar.gz | CC-BY-NC 4.0 | |
Corpus STT do Aberto da Rússia | russo | ~10.000 horas públicas, ~10.000 mais mediante solicitação | https://github.com/snakers4/open_stt/#links | CC-BY-NC 4.0 com algumas exceções | |
Corpus TTS do Aberto da Rússia | russo | 145 horas | 3 machos | https://github.com/snakers4/open_tts/#links | CC-BY-NC 4.0 com algumas expectativas |
OVM – Otázky Václava Moravce | Tcheco | 35 horas | https://lindat.mff.cuni.cz/repository/xmlui/handle/11858/00-097C-0000-000D-EC98-3 | CC-BY-NC 3.0 |
CORPO | IDIOMAS | # HORAS | # ALTO-FALANTES | DOWNLOAD | LICENÇA |
---|---|---|---|---|---|
CHiME-Home | Inglês | 6,8 horas | https://archive.org/details/chime-home | CC-BY-NC-SA 3.0 | |
Camarões Pidgin English Corpus | Camarões Pidgin Inglês | ~17 horas | http://ota.ox.ac.uk/text/2563.zip | CC-BY-NC-SA 3.0 |
CORPO | IDIOMAS | # HORAS | # ALTO-FALANTES | DOWNLOAD | LICENÇA |
---|---|---|---|---|---|
Tatoeba-Eng | Inglês | ~250 horas (estimativa aproximada) | 6 alto-falantes | https://voice.mozilla.org/en/datasets | CC-BY-NC 4.0 (algum áudio) / CC-BY-NC-ND 3.0 (a maior parte do áudio) / CC-BY 2.0 (todo o texto) |
TED-LIUM | Inglês | 118 horas | 685 alto-falantes (36h feminino / 81h masculino) | http://www.openslr.org/7/ | CC-BY-NC-ND 3.0 |
TED-LIUM-2 | Inglês | 207 horas | 1242 alto-falantes (66h feminino / 141h masculino) | http://www.openslr.org/19/ | CC-BY-NC-ND 3.0 |
TED-LIUM-3 | Inglês | 452 horas | 2.028 alto-falantes (134h feminino / 316h masculino) | http://www.openslr.org/51/ | CC-BY-NC-ND 3.0 |
Pansori TEDxKR | coreano | 3 horas | 41 alto-falantes | http://www.openslr.org/58/ | CC-BY-NC-ND 4.0 |
Primewords Mandarim | Mandarim | 100 horas | 296 alto-falantes | http://www.openslr.org/47/ | CC-BY-NC-ND 4.0 |
MuST-C v1.0 | Áudio (Inglês); Texto (holandês, francês, alemão, italiano, português, romeno, russo, espanhol) | 408, 504, 492, 465, 442, 385, 432, 489 horas por par de idiomas | https://ict.fbk.eu/must-c-release-v1-0/ | CC-BY-NC-ND 4.0 | |
Reuniões do Parlamento Checo | Tcheco | 88 horas | https://lindat.mff.cuni.cz/repository/xmlui/handle/11858/00-097C-0000-0005-CF9C-4 | CC-BY-NC-ND 3.0 | |
BembaSpeech | Bemba | 24 horas | 17 alto-falantes (9 masculinos / 8 femininos) | https://github.com/csikasote/BembaSpeech | CC-BY-NC-ND 4.0 |
CORPO | IDIOMAS | # HORAS | # ALTO-FALANTES | DOWNLOAD | LICENÇA |
---|---|---|---|---|---|
DiPCo | Inglês | ~5 horas | 32 alto-falantes (13 mulheres; 19 homens) | https://s3.amazonaws.com/dipco/DiPCo.tgz | CDLA-Permissivo-1.0 |
CORPO | IDIOMAS | # HORAS | # ALTO-FALANTES | DOWNLOAD | LICENÇA |
---|---|---|---|---|---|
VoxForge | Inglês | ~120 horas | ~2.966 alto-falantes | http://www.repository.voxforge1.org/downloads/en/Trunk/Audio/Main/16kHz_16bit/ https://voice.mozilla.org/en/datasets | GNU-GPL 3.0 |
VoxForge | russo | http://www.repository.voxforge1.org/downloads/ru/Trunk/Audio/Main/16kHz_16bit/ http://www.repository.voxforge1.org/downloads/Russo/Trunk/Audio/Main/16kHz_16bit/ | GNU-GPL 3.0 | ||
VoxForge | Alemão | http://www.repository.voxforge1.org/downloads/de/Trunk/Audio/Main/16kHz_16bit/ | GNU-GPL 3.0 |
CORPO | IDIOMAS | # HORAS | # ALTO-FALANTES | DOWNLOAD | LICENÇA |
---|---|---|---|---|---|
AISHELL-1 | Mandarim | 170 horas | 400 alto-falantes | http://www.openslr.org/33/ | Apache 2.0 |
Tunísia_MSA | Árabe padrão moderno (Tunísia) | 11,2 horas | 118 alto-falantes | http://www.openslr.org/46/ | Apache 2.0 |
Francês com sotaque africano | Francês | 22 horas | 232 alto-falantes | http://www.openslr.org/57/ | Apache 2.0 |
THCHS-30 | Chinês mandarim | 33,57 horas (13.389 declarações) | 40 alto-falantes (31 mulheres; 9 homens) | http://www.openslr.org/18/ | Apache 2.0 |
Conjunto de dados de áudio vivo - holandês | Holandês | 57:49 minutos | 1 alto-falante | https://github.com/Idlak/Living-Audio-Dataset | Apache 2.0 |
Conjunto de dados de áudio vivo - inglês | Inglês | 50:50 minutos | 1 alto-falante | https://github.com/Idlak/Living-Audio-Dataset | Apache 2.0 |
Conjunto de dados de áudio vivo - irlandês | irlandês | 61:56 minutos | 1 alto-falante | https://github.com/Idlak/Living-Audio-Dataset | Apache 2.0 |
Conjunto de dados de áudio vivo - russo | russo | 34:58 minutos | 1 alto-falante | https://github.com/Idlak/Living-Audio-Dataset | Apache 2.0 |
CORPO | IDIOMAS | # HORAS | # ALTO-FALANTES | DOWNLOAD | LICENÇA |
---|---|---|---|---|---|
ALFA | Amárico;Hausa (pago); suaíli; Uolof | http://www.openslr.org/25/ https://github.com/besacier/ALFFA_PUBLIC | MIT |
CORPO | IDIOMAS | # HORAS | # ALTO-FALANTES | DOWNLOAD | LICENÇA |
---|---|---|---|---|---|
M-AILABS Corpus Alemão | Alemão | 237 horas e 22 minutos | http://www.caito.de/data/Training/stt_tts/de_DE.tgz | LICENÇA M-AILABS (uma licença BSD de 3 cláusulas específica para dados) | |
Corpus Inglês da Rainha M-AILABS | Inglês da Rainha | 45 horas e 35 minutos | http://www.caito.de/data/Training/stt_tts/en_UK.tgz | LICENÇA M-AILABS (uma licença BSD de 3 cláusulas específica para dados) | |
M-AILABS Corpus Inglês dos EUA | Inglês americano | 102 horas e 7 minutos | http://www.caito.de/data/Training/stt_tts/en_US.tgz | LICENÇA M-AILABS (uma licença BSD de 3 cláusulas específica para dados) | |
M-AILABS Corpus Espanhol | Espanhol Espanhol | 108 horas e 34 minutos | http://www.caito.de/data/Training/stt_tts/es_ES.tgz | LICENÇA M-AILABS (uma licença BSD de 3 cláusulas específica para dados) | |
M-AILABS Corpus Italiano | italiano | 127 horas e 40 minutos | http://www.caito.de/data/Training/stt_tts/it_IT.tgz | LICENÇA M-AILABS (uma licença BSD de 3 cláusulas específica para dados) | |
M-AILABS Corpus Ucraniano | ucraniano | 87 horas e 8 minutos | http://www.caito.de/data/Training/stt_tts/uk_UK.tgz | LICENÇA M-AILABS (uma licença BSD de 3 cláusulas específica para dados) | |
M-AILABS Corpus Russo | russo | 46 horas e 47 minutos | http://www.caito.de/data/Training/stt_tts/ru_RU.tgz | LICENÇA M-AILABS (uma licença BSD de 3 cláusulas específica para dados) | |
M-AILABS Francês-v0.9 Corpus | Francês | 190 horas e 30 minutos | http://www.caito.de/data/Training/stt_tts/fr_FR.tgz | LICENÇA M-AILABS (uma licença BSD de 3 cláusulas específica para dados) | |
M-AILABS Corpus Polonês | polonês | 53 horas e 50 minutos | http://www.caito.de/data/Training/stt_tts/pl_PL.tgz | LICENÇA M-AILABS (uma licença BSD de 3 cláusulas específica para dados) |
CORPO | IDIOMAS | # HORAS | # ALTO-FALANTES | DOWNLOAD | LICENÇA |
---|---|---|---|---|---|
Corpus de comandos de fala fluente | Inglês | 19 horas (30.043 enunciados) | 97 alto-falantes | http://fluent.ai:2052/jf8398hf30f0381738rucj3828chfdnchs.tar.gz | Licença pública de comandos de fala fluente |
Região selvagem da UMC | 700 Langs | Alinhamentos distribuídos sem áudio ou texto total: ~14.000 horas; por idioma: ~20 horas | https://github.com/festvox/datasets-CMU_Wilderness | https://live.bible.is/terms | |
CHiME-5 | Inglês | 50 horas | 48 alto-falantes | http://spandh.dcs.shef.ac.uk/chime_challenge/data.html | Licença CHiME-5 |
Corpus de passos destemidos | Inglês | 19.000 horas (20 horas transcritas) | ~450 alto-falantes | https://fearless-steps.github.io/ChallengePhase3/#19k_Corpus_Access | Diretrizes de uso de mídia da NASA |
Microsoft Speech Corpus (línguas indianas) | Telugu; Tâmil; Guzerate | https://msropendata.com/datasets/7230b4b1-912d-400e-be58-f84e0512985e | Licença Microsoft Speech Corpus (línguas indianas) | ||
Corpus de tradução de linguagem de fala da Microsoft | Inglês; Chinês; japonês | https://msropendata.com/datasets/54813518-4ea6-4c39-9bb2-b0d1e5f0c187 | Contrato de licença de dados de pesquisa da Microsoft | ||
Olá, Snips Corpus | Inglês | 11 mil declarações positivas de "Hey Snips" (~4,4 horas) e 87 mil negativas (~89 horas) | 2.215 alto-falantes (positivos e negativos) e 4.028 alto-falantes (somente negativos) | https://research.snips.ai/datasets/keyword-spotting | Licença de dados de recortes |
Recortes SLU Corpus | Inglês; Francês | 1660 "Smart Lights EN" (~1,3 horas), 1286 "Smart Speaker EN" (~55 minutos), 1138 "Smart Speaker FR" (~50 minutos) enunciados | Inglês: 69 falantes; Francês: 30 falantes | https://research.snips.ai/datasets/spoken-language-understanding | Licença de dados de recortes |
Grupo Esfinge CMU - AN4 | Inglês | "an4_clstk"(~50 minutos) "an4test_clstk" (~6 minutos) | "an4_clstk": 21 mulheres, 53 homens "an4test_clstk": 3 mulheres, 7 homens | http://www.speech.cs.cmu.edu/databases/an4/an4_raw.bigendian.tar.gz | AN4 |
Fala do FT | dinamarquês | ~1.857 horas (1.017.244 declarações) | 434 alto-falantes (176 femininos, 258 masculinos) | https://ftspeech.dk | Licença de fala FT |
FalaBrasil-LAPS-Constituição | Português-Brasileiro | 9 horas | 1 alto-falante | https://drive.google.com/uc?export=download&confirm=SrvW&id=1Nf849u-27CYRzJqedLaI-FaZfMRO7FT | "Bases de áudio transcrito e bases de texto normalizadas (sem pontuação, com números escritos por extenso, etc.) disponibilizadas de forma gratuita* pelo Grupo FalaBrasil. [disponibilizadas de forma gratuita*] / Portanto, apenas as bases livres estão sendo disponibilizadas. " |
FalaBrasil-LaPSMail | Português-Brasileiro | 1 hora | 25 alto-falantes | https://drive.google.com/uc?export=download&confirm=PecV&id=1B_Vq8MDSE4fBQefVxqCGSl-EcKAcjJLb | "Bases de áudio transcrito e bases de texto normalizadas (sem pontuação, com números escritos por extenso, etc.) disponibilizadas de forma gratuita* pelo Grupo FalaBrasil. [disponibilizadas de forma gratuita*] / Portanto, apenas as bases livres estão sendo disponibilizadas. " |
Benchmark FalaBrasil-LaPS | Português-Brasileiro | 1 hora | 1 alto-falante | https://drive.google.com/uc?export=download&confirm=XFfF&id=1nZ8L9nJTt4blFC0RGT9Y7XRu02aAvDIo | "Bases de áudio transcrito e bases de texto normalizadas (sem pontuação, com números escritos por extenso, etc.) disponibilizadas de forma gratuita* pelo Grupo FalaBrasil. [disponibilizadas de forma gratuita*] / Portanto, apenas as bases livres estão sendo disponibilizadas. " |