Une liste de corpus de parole ouverts pour la recherche et le développement des technologies vocales.
Cette liste privilégie les corpus gratuits (c'est-à-dire sans frais) et véritablement ouverts (par exemple publiés sous une licence Creative Commons ou un accord de licence de données communautaires). Tous ces corpus ne répondent pas à ces critères, mais tous les corpus suivants sont accessibles et utilisables à des fins de recherche et/ou d'utilisation commerciale.
N'hésitez pas à proposer des ajouts à la liste !
Il y a un long retard de corpus à ajouter dans les numéros, et les Pull Requests sont les bienvenues :)
CORPUS | LANGUES | # HEURES | # INTERVENANTS | TÉLÉCHARGER | LICENCE |
---|---|---|---|---|---|
Voix commune | Multilingue | >15 000 heures (validé); >20 000 heures (total) | Multi-haut-parleurs | https://voice.mozilla.org/en/datasets | CC-0 |
Ouinon | hébreu | 6 minutes | un mâle | http://www.openslr.org/1/ | CC-0 |
Corpus de discours LJ | Anglais | ~24 heures | une femelle | https://data.keithito.com/data/speech/LJSpeech-1.1.tar.bz2 | CC-0 |
Base de données ASR danoise NST | danois | 229 992 énoncés | 616 haut-parleurs | original : https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-19/, réorganisé : https://www.nb.no/sprakbanken/en/resource-catalogue /oai-nb-no-sbr-55/ | CC-0 |
Dictée danoise NST | danois | 34 955 déclarations | 151 haut-parleurs | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-20/ | CC-0 |
Synthèse vocale danoise NST | danois | 4 108 déclarations | 1 locuteur mâle | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-21/ | CC-0 |
Base de données ASR suédoise NST | suédois | 366 000 déclarations | 1 000 intervenants | original : https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-16/, réorganisé : https://www.nb.no/sprakbanken/en/resource-catalogue /oai-nb-no-sbr-56/ | CC-0 |
Dictée suédoise NST | suédois | 45 620 déclarations | 195 haut-parleurs | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-17/ | CC-0 |
Synthèse vocale suédoise NST | suédois | 5 279 déclarations | 1 locuteur mâle | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-18/ | CC-0 |
Base de données ASR norvégienne NST | norvégien | 359 760 déclarations | 980 haut-parleurs | original : https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-13/, réorganisé : https://www.nb.no/sprakbanken/en/resource-catalogue /oai-nb-no-sbr-54/ | CC-0 |
Dictée norvégienne NST | norvégien | 33 360 déclarations | 144 haut-parleurs | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-14/ | CC-0 |
Synthèse vocale norvégienne NST | norvégien | 5 363 énoncés | 1 locuteur mâle | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-15/ | CC-0 |
NB Tale – Base de données vocale pour le norvégien | norvégien | 7 600 énoncés + ~12 heures | 380 haut-parleurs | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-31/ | CC-0 |
Corpus de discours parlementaires norvégiens (v0.1) | norvégien | ~59 heures | 203 intervenants | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-58/ | CC-0 |
Wikimedia Commons Odia | Odia | ~8 heures | ~20 haut-parleurs | https://commons.wikimedia.org/wiki/Category:Odia_pronunciation | principalement (?) CC-0 |
Thorsten-21.02-neutre | Allemand | ~24 heures | 1 locuteur mâle | https://www.Thorsten-Voice.de | CC-0 |
Thorsten-21.06-émotionnel | Allemand | 2.400 énoncés (8 émotions) | 1 locuteur mâle | https://www.Thorsten-Voice.de | CC-0 |
CORPUS | LANGUES | # HEURES | # INTERVENANTS | TÉLÉCHARGER | LICENCE |
---|---|---|---|---|---|
Corpus de discours ARU | Anglais (Royaume-Uni) | 720 énoncés / locuteur | 12 (6 femelles ; 6 mâles) | http://datacat.liverpool.ac.uk/681/1/ARU_Speech_Corpus_v1_0.zip | CC-BY 3.0 |
Corpus de discours parlementaires de l'Althingi | islandais | 542 heures et 25 minutes | 196 haut-parleurs | http://www.malfong.is/index.php?dlid=73&lang=en | CC-BY 4.0 |
Corpus de discours parlementaires d'Alþingisumræður | islandais | ~21 heures | http://www.malfong.is/index.php?dlid=8&lang=en | CC-BY 3.0 | |
Corpus Hjal | islandais | ~41 000 enregistrements | 883 haut-parleurs | http://www.malfong.is/index.php?dlid=5&lang=en | CC-BY 3.0 |
Le corpus Malromur | islandais | 152 heures | 563 haut-parleurs | http://www.malfong.is/index.php?dlid=65&lang=en | CC-BY 4.0 |
Corpus allemand de télécoopération pour Kinect | Allemand | ~35 heures | ~180 haut-parleurs | http://www.repository.voxforge1.org/downloads/de/german-speechdata-TUDa-2015.tar.gz | CC-BY 2.0 |
Technologie vocale africaine Corpus vocal anglais-anglais | Anglais | ~21 heures | https://repo.sadilar.org/handle/20.500.12185/283 | CC-BY 2.5 Afrique du Sud | |
Technologie vocale africaine Corpus vocal isiXhosa | isiXhosa | ~26 heures | https://repo.sadilar.org/handle/20.500.12185/305 | CC-BY 2.5 Afrique du Sud | |
NCHLT Afrikaans | afrikaans | 56 heures | 210 haut-parleurs (98 femelles / 112 mâles) | https://repo.sadilar.org/handle/20.500.12185/280 | CC-BY 3.0 |
NCHLT Anglais | Anglais | 56 heures | 210 haut-parleurs (100 femelles / 110 mâles) | https://repo.sadilar.org/handle/20.500.12185/274 | CC-BY 3.0 |
NCHLT isiNdebele | isiNdebele | 56 heures | 148 haut-parleurs (78 femelles / 70 mâles) | https://repo.sadilar.org/handle/20.500.12185/272 | CC-BY 3.0 |
NCHLT isiXhosa | isiXhosa | 56 heures | 209 haut-parleurs (106 femmes / 103 hommes) | https://repo.sadilar.org/handle/20.500.12185/279 | CC-BY 3.0 |
NCHLT isiZulu | isiZulu | 56 heures | 210 haut-parleurs (98 femelles / 112 mâles) | https://repo.sadilar.org/handle/20.500.12185/275 | CC-BY 3.0 |
NCHLT Sepedi | Sepedi | 56 heures | 210 haut-parleurs (100 femelles / 110 mâles) | https://repo.sadilar.org/handle/20.500.12185/270 | CC-BY 3.0 |
NCHLT Sésotho | Sésotho | 56 heures | 210 haut-parleurs (113 femelles / 97 mâles) | https://repo.sadilar.org/handle/20.500.12185/278 | CC-BY 3.0 |
NCHLT Setswana | Setswana | 56 heures | 210 haut-parleurs (109 femmes / 101 hommes) | https://repo.sadilar.org/handle/20.500.12185/281 | CC-BY 3.0 |
NCHLT Siswati | Siswati | 56 heures | 197 locuteurs (96 femmes / 101 hommes) | https://repo.sadilar.org/handle/20.500.12185/271 | CC-BY 3.0 |
NCHLT Tshivenda | Tshivenda | 56 heures | 208 haut-parleurs (83 femelles / 125 mâles) | https://repo.sadilar.org/handle/20.500.12185/276 | CC-BY 3.0 |
NCHLT Xitsonga | Xitsonga | 56 heures | 198 haut-parleurs (95 femmes/103 hommes) | https://repo.sadilar.org/handle/20.500.12185/277 | CC-BY 3.0 |
Corpus multilingue des noms propres Lwazi II | Afrikaans; Anglais; isiZulu; Sésotho | 2 heures 5 minutes | 20 haut-parleurs | https://repo.sadilar.org/handle/20.500.12185/445 | CC-BY 3.0 |
Corpus téléphonique de routage d'appels de nom propre Lwazi II | Anglais | 2 heures 7 minutes | https://repo.sadilar.org/handle/20.500.12185/448 | CC-BY 3.0 | |
Corpus de suivi de trajectoire afrikaans Lwazi II | afrikaans | 4 heures | un mâle | https://repo.sadilar.org/handle/20.500.12185/442 | CC-BY 3.0 |
LibriDiscours | Anglais | ~1000 heures | 2484 haut-parleurs (1201 femelles / 1283 mâles) | http://www.openslr.org/12/ | CC-BY 4.0 |
Zeroth-coréen | coréen | 52,8 heures | 115 haut-parleurs | http://www.openslr.org/40/ | CC-BY 4.0 |
Commandes vocales | Anglais | 17,8 heures | >1 000 locuteurs | https://ai.googleblog.com/2017/08/launching-speech-commands-dataset.html | CC-BY 4.0 |
ParlementParla | catalan | 320 heures | https://www.openslr.org/59/ | CC-BY 4.0 | |
SIWIS | Français | ~10 heures | une femelle | http://datashare.is.ed.ac.uk/download/DS_10283_2353.zip | CC-BY 4.0 |
VCTK | Anglais | 44 heures | 109 haut-parleurs | http://datashare.is.ed.ac.uk/download/DS_10283_3443.zip | CC-BY 4.0 |
LibriTTS | Anglais | 586 heures | 2 456 locuteurs (1 185 femmes / 1 271 hommes) | http://www.openslr.org/60/ | CC-BY 4.0 |
LibriSpeech augmenté | Audio (anglais); Texte (anglais, français) | 236 heures | https://persyval-platform.univ-grenoble-alpes.fr/datasets/DS91 | CC-BY 4.0 | |
Corpus de prosodie d'Helsinki | Anglais | 262,5 heures | 1 230 intervenants | https://github.com/Helsinki-NLP/prosody | CC-BY 4.0 |
Base de données vocale Touva | norvégien | 24 heures | 40 haut-parleurs | https://www.nb.no/sprakbanken/show?serial=oai:nb.no:sbr-44&lang= | CC-BY 4.0 |
Corpus COERLL Kʼicheʼ | Kʼicheʼ | 34 minutes | ? haut-parleurs | https://cl.indiana.edu/~ftyers/resources/utexas-kiche-audio.tar.gz | CC-BY 4.0 |
Minuteries et autres v0.1 | Anglais (synthétique : US, réel : diverses nationalités) | synthétique : 172 heures, réel : 0,29 heures | 21 synthétiques, 11 réels | https://zenodo.org/record/4110812#.X9j0RmBOkYM | CC-BY 4.0 |
Grand corpus des auditions plénières du Parlement tchèque | tchèque | 444 heures | https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-3126 | CC-BY 4.0 |
CORPUS | LANGUES | # HEURES | # INTERVENANTS | TÉLÉCHARGER | LICENCE |
---|---|---|---|---|---|
Iban | Iban | 8 heures | http://www.openslr.org/24/ https://github.com/sarahjuan/iban | CC-BY-SA 2.0 | |
Vystadial 2013 | Anglais; tchèque | 41 heures ; 15 heures | http://www.openslr.org/6/ | CC-BY-SA 3.0 États-Unis | |
Vystadial 2016 tchèque | tchèque | 77 heures ; comprend Vystadial 2013 tchèque | https://lindat.cz/repository/xmlui/handle/11234/1-1740 | CC-BY-SA 4.0 | |
Ensemble de données de chiffres parlés gratuit | Anglais | 2 000 chiffres isolés | 4 haut-parleurs | https://github.com/Jakobovski/free-spoken-digit-dataset | CC-BY-SA 4.0 |
Google javanais | javanais | 296 heures | 1019 intervenants | http://www.openslr.org/35/ | CC-BY-SA 4.0 |
Google népalais | Népalais | 165 heures | 527 haut-parleurs | http://www.openslr.org/54/ | CC-BY-SA 4.0 |
Google bengali | bengali | 229 heures | 508 haut-parleurs | http://www.openslr.org/53/ | CC-BY-SA 4.0 |
Google cinghalais | Cinghalais | 224 heures | 478 haut-parleurs | http://www.openslr.org/52/ | CC-BY-SA 4.0 |
Google sundanais | Soundanais | 333 heures | 542 haut-parleurs | http://www.openslr.org/36/ | CC-BY-SA 4.0 |
Corpus Wikipédia parlé (SWC-2017) | Anglais; Allemand; Néerlandais | 182 heures ; 249 heures ; 79 heures | 395 intervenants ; 339 intervenants ; 145 haut-parleurs | https://nats.gitlab.io/swc/ | CC-BY-SA 4.0 |
TTS tchouvaches | Tchouvache | 4 heures | 1 haut-parleur | https://github.com/ftyers/Turkic_TTS | CC-BY-SA 4.0 |
Forschergeist | Allemand | 2 heures | 2 haut-parleurs (1 femelle ; 1 mâle) | conférencière : https://goofy.zamia.org/zamia-speech/corpora/forschergeist/annettevogt-20180320-rec.tgz ; locuteur masculin : https://goofy.zamia.org/zamia-speech/corpora/forschergeist/timpritlove-20180320-rec.tgz | CC-BY-SA 4.0 |
Corpus de discours malayalam par SMC | Malayalam | 1:36 heures | 75 locuteurs (3 femmes, 12 hommes, 60 non identifiés) | https://releases.smc.org.in/msc-reviewed-speech/ | CC-BY-SA 4.0 |
Google Malayalam | Malayalam | 3,02 heures | 24 haut-parleurs | http://www.openslr.org/63/ | CC-BY-SA 4.0 |
CORPUS | LANGUES | # HEURES | # INTERVENANTS | TÉLÉCHARGER | LICENCE |
---|---|---|---|---|---|
Débats enregistrés IBM v1 | Anglais | 5 heures | 10 haut-parleurs | https://www.research.ibm.com/haifa/dept/vst/debating_data.shtml#Debate%20Speech%20Analysis | CC-BY-ND |
Débats enregistrés IBM v2 | Anglais | ~14 heures | 14 haut-parleurs | https://www.research.ibm.com/haifa/dept/vst/debating_data.shtml#Debate%20Speech%20Analysis | CC-BY-ND |
CORPUS | LANGUES | # HEURES | # INTERVENANTS | TÉLÉCHARGER | LICENCE |
---|---|---|---|---|---|
TV3Parla | catalan | 240 heures | http://laklak.eu/share/tv3_0.3.tar.gz | CC-BY-NC 4.0 | |
Corpus STT de l'Open de Russie | russe | ~10 000 heures publiques, ~10 000 heures supplémentaires sur demande | https://github.com/snakers4/open_stt/#links | CC-BY-NC 4.0 avec quelques exceptions | |
Corpus TTS ouvert de Russie | russe | 145 heures | 3 mâles | https://github.com/snakers4/open_tts/#links | CC-BY-NC 4.0 avec quelques attentes |
OVM – Otázky Václava Moravce | tchèque | 35 heures | https://lindat.mff.cuni.cz/repository/xmlui/handle/11858/00-097C-0000-000D-EC98-3 | CC-BY-NC 3.0 |
CORPUS | LANGUES | # HEURES | # INTERVENANTS | TÉLÉCHARGER | LICENCE |
---|---|---|---|---|---|
CHiME-Accueil | Anglais | 6,8 heures | https://archive.org/details/chime-home | CC-BY-NC-SA 3.0 | |
Corpus anglais pidgin camerounais | Cameroun Pidgin Anglais | ~17 heures | http://ota.ox.ac.uk/text/2563.zip | CC-BY-NC-SA 3.0 |
CORPUS | LANGUES | # HEURES | # INTERVENANTS | TÉLÉCHARGER | LICENCE |
---|---|---|---|---|---|
Tatoeba-Fr | Anglais | ~250 heures (estimation approximative) | 6 haut-parleurs | https://voice.mozilla.org/en/datasets | CC-BY-NC 4.0 (certains fichiers audio) / CC-BY-NC-ND 3.0 (la plupart des fichiers audio) / CC-BY 2.0 (tout le texte) |
TED-LIUM | Anglais | 118 heures | 685 haut-parleurs (36h femelle / 81h mâle) | http://www.openslr.org/7/ | CC-BY-NC-ND 3.0 |
TED-LIUM-2 | Anglais | 207 heures | 1242 haut-parleurs (66h femelle / 141h mâle) | http://www.openslr.org/19/ | CC-BY-NC-ND 3.0 |
TED-LIUM-3 | Anglais | 452 heures | 2028 haut-parleurs (134h femelle / 316h mâle) | http://www.openslr.org/51/ | CC-BY-NC-ND 3.0 |
Pansori TEDxKR | coréen | 3 heures | 41 intervenants | http://www.openslr.org/58/ | CC-BY-NC-ND 4.0 |
Mots clés mandarin | mandarin | 100 heures | 296 haut-parleurs | http://www.openslr.org/47/ | CC-BY-NC-ND 4.0 |
Must-C v1.0 | Audio (anglais); Texte (néerlandais, français, allemand, italien, portugais, roumain, russe, espagnol) | 408, 504, 492, 465, 442, 385, 432, 489 heures par paire de langues | https://ict.fbk.eu/must-c-release-v1-0/ | CC-BY-NC-ND 4.0 | |
Réunions du Parlement tchèque | tchèque | 88 heures | https://lindat.mff.cuni.cz/repository/xmlui/handle/11858/00-097C-0000-0005-CF9C-4 | CC-BY-NC-ND 3.0 | |
BembaDiscours | Bemba | 24 heures | 17 haut-parleurs (9 mâles / 8 femelles) | https://github.com/csikasote/BembaSpeech | CC-BY-NC-ND 4.0 |
CORPUS | LANGUES | # HEURES | # INTERVENANTS | TÉLÉCHARGER | LICENCE |
---|---|---|---|---|---|
DiPCo | Anglais | ~5 heures | 32 locuteurs (13 femmes ; 19 hommes) | https://s3.amazonaws.com/dipco/DiPCo.tgz | CDLA-Permissive-1.0 |
CORPUS | LANGUES | # HEURES | # INTERVENANTS | TÉLÉCHARGER | LICENCE |
---|---|---|---|---|---|
VoxForge | Anglais | ~120 heures | ~2966 haut-parleurs | http://www.repository.voxforge1.org/downloads/en/Trunk/Audio/Main/16kHz_16bit/ https://voice.mozilla.org/en/datasets | GNU-GPL 3.0 |
VoxForge | russe | http://www.repository.voxforge1.org/downloads/ru/Trunk/Audio/Main/16kHz_16bit/ http://www.repository.voxforge1.org/downloads/russia/Trunk/Audio/Main/16kHz_16bit/ | GNU-GPL 3.0 | ||
VoxForge | Allemand | http://www.repository.voxforge1.org/downloads/de/Trunk/Audio/Main/16kHz_16bit/ | GNU-GPL 3.0 |
CORPUS | LANGUES | # HEURES | # INTERVENANTS | TÉLÉCHARGER | LICENCE |
---|---|---|---|---|---|
AISHELL-1 | mandarin | 170 heures | 400 haut-parleurs | http://www.openslr.org/33/ | Apache2.0 |
Tunisien_MSA | Arabe standard moderne (Tunisie) | 11,2 heures | 118 haut-parleurs | http://www.openslr.org/46/ | Apache2.0 |
Français aux accents africains | Français | 22 heures | 232 haut-parleurs | http://www.openslr.org/57/ | Apache2.0 |
THCHS-30 | Chinois mandarin | 33,57 heures (13 389 énoncés) | 40 locuteurs (31 femmes ; 9 hommes) | http://www.openslr.org/18/ | Apache2.0 |
Ensemble de données audio vivant - Néerlandais | Néerlandais | 57:49 minutes | 1 haut-parleur | https://github.com/Idlak/Living-Audio-Dataset | Apache2.0 |
Ensemble de données audio vivant - Anglais | Anglais | 50:50 minutes | 1 haut-parleur | https://github.com/Idlak/Living-Audio-Dataset | Apache2.0 |
Ensemble de données audio vivant - Irlandais | irlandais | 61:56 minutes | 1 haut-parleur | https://github.com/Idlak/Living-Audio-Dataset | Apache2.0 |
Ensemble de données audio vivantes - Russe | russe | 34:58 minutes | 1 haut-parleur | https://github.com/Idlak/Living-Audio-Dataset | Apache2.0 |
CORPUS | LANGUES | # HEURES | # INTERVENANTS | TÉLÉCHARGER | LICENCE |
---|---|---|---|---|---|
ALFA | amharique ; haoussa (payant) ; swahili; wolof | http://www.openslr.org/25/ https://github.com/besacier/ALFFA_PUBLIC | MIT |
CORPUS | LANGUES | # HEURES | # INTERVENANTS | TÉLÉCHARGER | LICENCE |
---|---|---|---|---|---|
Corpus allemand M-AILABS | Allemand | 237 heures et 22 minutes | http://www.caito.de/data/Training/stt_tts/de_DE.tgz | LICENCE M-AILABS (une licence BSD à 3 clauses spécifique aux données) | |
Corpus anglais de M-AILABS Queen | L'anglais de la reine | 45 heures et 35 minutes | http://www.caito.de/data/Training/stt_tts/en_UK.tgz | LICENCE M-AILABS (une licence BSD à 3 clauses spécifique aux données) | |
Corpus anglais américain M-AILABS | Anglais américain | 102 heures et 7 minutes | http://www.caito.de/data/Training/stt_tts/en_US.tgz | LICENCE M-AILABS (une licence BSD à 3 clauses spécifique aux données) | |
Corpus espagnol M-AILABS | espagnol espagnol | 108 heures et 34 minutes | http://www.caito.de/data/Training/stt_tts/es_ES.tgz | LICENCE M-AILABS (une licence BSD à 3 clauses spécifique aux données) | |
Corpus italien M-AILABS | italien | 127 heures et 40 minutes | http://www.caito.de/data/Training/stt_tts/it_IT.tgz | LICENCE M-AILABS (une licence BSD à 3 clauses spécifique aux données) | |
Corpus ukrainien M-AILABS | ukrainien | 87 heures et 8 minutes | http://www.caito.de/data/Training/stt_tts/uk_UK.tgz | LICENCE M-AILABS (une licence BSD à 3 clauses spécifique aux données) | |
Corpus russe M-AILABS | russe | 46 heures et 47 minutes | http://www.caito.de/data/Training/stt_tts/ru_RU.tgz | LICENCE M-AILABS (une licence BSD à 3 clauses spécifique aux données) | |
Corpus M-AILABS Français-v0.9 | Français | 190 heures et 30 minutes | http://www.caito.de/data/Training/stt_tts/fr_FR.tgz | LICENCE M-AILABS (une licence BSD à 3 clauses spécifique aux données) | |
Corpus polonais M-AILABS | polonais | 53 heures et 50 minutes | http://www.caito.de/data/Training/stt_tts/pl_PL.tgz | LICENCE M-AILABS (une licence BSD à 3 clauses spécifique aux données) |
CORPUS | LANGUES | # HEURES | # INTERVENANTS | TÉLÉCHARGER | LICENCE |
---|---|---|---|---|---|
Corpus de commandes vocales fluides | Anglais | 19 heures (30 043 énoncés) | 97 haut-parleurs | http://fluent.ai:2052/jf8398hf30f0381738rucj3828chfdnchs.tar.gz | Licence publique des commandes vocales fluides |
CMU Désert | 700 langues | Alignements distribués sans audio ni texte au total : ~ 14 000 heures ; par langue : ~20 heures | https://github.com/festvox/datasets-CMU_Wilderness | https://live.bible.is/terms | |
CARILLON-5 | Anglais | 50 heures | 48 haut-parleurs | http://spandh.dcs.shef.ac.uk/chime_challenge/data.html | Licence CHiME-5 |
Corpus des étapes intrépides | Anglais | 19 000 heures (20 heures transcrites) | ~450 haut-parleurs | https://fearless-steps.github.io/ChallengePhase3/#19k_Corpus_Access | Directives d'utilisation des médias de la NASA |
Microsoft Speech Corpus (langues indiennes) | télougou ; Tamoul; gujarati | https://msropendata.com/datasets/7230b4b1-912d-400e-be58-f84e0512985e | Licence Microsoft Speech Corpus (langues indiennes) | ||
Corpus de traduction vocale Microsoft | Anglais; Chinois; japonais | https://msropendata.com/datasets/54813518-4ea6-4c39-9bb2-b0d1e5f0c187 | Contrat de licence de données de recherche Microsoft | ||
Hé, Snips Corpus | Anglais | 11 000 énoncés positifs « Hey Snips » (~ 4,4 heures) et 87 000 négatifs (~ 89 heures) | 2215 haut-parleurs (positifs et négatifs) et 4028 haut-parleurs (négatifs uniquement) | https://research.snips.ai/datasets/keyword-spotting | Licence de données Snips |
Snips Corpus SLU | Anglais; Français | 1 660 « Smart Lights EN » (~ 1,3 heures), 1 286 « Smart Speaker EN » (~ 55 minutes), 1 138 « Smart Speaker FR » (~ 50 minutes) énoncés | Anglais : 69 locuteurs ; Français : 30 locuteurs | https://research.snips.ai/datasets/spoken-lingual-understanding | Licence de données Snips |
Groupe CMU Sphinx - AN4 | Anglais | "an4_clstk" (~ 50 minutes) "an4test_clstk" (~ 6 minutes) | "an4_clstk" : 21 femmes, 53 hommes "an4test_clstk" : 3 femmes, 7 hommes | http://www.speech.cs.cmu.edu/databases/an4/an4_raw.bigendian.tar.gz | AN4 |
Discours du FT | danois | ~1 857 heures (1 017 244 énoncés) | 434 locuteurs (176 femmes, 258 hommes) | https://ftspeech.dk | Licence vocale FT |
FalaBrasil-LAPS-Constituicao | Brésilien-Portugais | 9 heures | 1 haut-parleur | https://drive.google.com/uc?export=download&confirm=SrvW&id=1Nf849u-27CYRzJqedLaI-FaZfMRO7FT | "Bases de transcrito áudio et bases de texto normalizadas (sem pontuação, com números escritos por extenso, etc.) disponibilizadas de forma gratuita* pelo Grupo FalaBrasil. [disponibilizadas de forma gratuita*] / Portanto, apenas as livres bases estão sendo disponibilizadas. " |
FalaBrasil-LaPSMail | Brésilien-Portugais | 1 heure | 25 haut-parleurs | https://drive.google.com/uc?export=download&confirm=PecV&id=1B_Vq8MDSE4fBQefVxqCGSl-EcKAcjJLb | "Bases de transcrito áudio et bases de texto normalizadas (sem pontuação, com números escritos por extenso, etc.) disponibilizadas de forma gratuita* pelo Grupo FalaBrasil. [disponibilizadas de forma gratuita*] / Portanto, apenas as livres bases estão sendo disponibilizadas. " |
Référentiel FalaBrasil-LaPS | Brésilien-Portugais | 1 heure | 1 haut-parleur | https://drive.google.com/uc?export=download&confirm=XFfF&id=1nZ8L9nJTt4blFC0RGT9Y7XRu02aAvDIo | "Bases de transcrito áudio et bases de texto normalizadas (sem pontuação, com números escritos por extenso, etc.) disponibilizadas de forma gratuita* pelo Grupo FalaBrasil. [disponibilizadas de forma gratuita*] / Portanto, apenas as livres bases estão sendo disponibilizadas. " |