음성 기술 연구 및 개발을 위한 공개 음성 말뭉치 목록입니다.
이 목록에는 무료(즉, $ 비용 없음)와 진정한 개방형 말뭉치(예: 크리에이티브 커먼즈 라이선스 또는 커뮤니티 데이터 라이선스 계약에 따라 출시됨)가 우선적으로 적용됩니다. 이러한 말뭉치 모두가 해당 기준을 충족하는 것은 아니지만 다음 말뭉치 모두 연구 및/또는 상업적 용도로 액세스하고 사용할 수 있습니다.
목록에 추가할 사항을 제안해 보세요!
이슈에 추가할 말뭉치의 긴 백로그가 있으며 풀 요청(Pull Request)은 매우 환영합니다 :)
신체 | 언어 | # HOURS | # 스피커 | 다운로드 | 특허 |
---|---|---|---|---|---|
공통 음성 | 다국어 | >15,000시간(검증됨) >20,000시간(총) | 멀티 스피커 | https://voice.mozilla.org/en/datasets | CC-0 |
예아니요 | 헤브라이 사람 | 6분 | 한 남자 | http://www.openslr.org/1/ | CC-0 |
LJ 스피치 코퍼스 | 영어 | ~24시간 | 한 여성 | https://data.keithito.com/data/speech/LJSpeech-1.1.tar.bz2 | CC-0 |
NST 덴마크어 ASR 데이터베이스 | 덴마크 말 | 발화 229,992개 | 스피커 616개 | 원본: https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-19/, 재구성: https://www.nb.no/sprakbanken/en/resource-catalogue /oai-nb-no-sbr-55/ | CC-0 |
NST 덴마크어 받아쓰기 | 덴마크 말 | 발화 34,955개 | 스피커 151개 | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-20/ | CC-0 |
NST 덴마크어 음성 합성 | 덴마크 말 | 발화 4,108개 | 남성 스피커 1명 | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-21/ | CC-0 |
NST 스웨덴어 ASR 데이터베이스 | 스웨덴어 | 발화 366,000개 | 스피커 1,000명 | 원본: https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-16/, 재구성: https://www.nb.no/sprakbanken/en/resource-catalogue /oai-nb-no-sbr-56/ | CC-0 |
NST 스웨덴어 받아쓰기 | 스웨덴어 | 발화 45,620개 | 스피커 195명 | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-17/ | CC-0 |
NST 스웨덴어 음성 합성 | 스웨덴어 | 발화 5,279개 | 남성 스피커 1명 | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-18/ | CC-0 |
NST 노르웨이어 ASR 데이터베이스 | 노르웨이 인 | 발화 359,760개 | 스피커 980개 | 원본: https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-13/, 재구성: https://www.nb.no/sprakbanken/en/resource-catalogue /oai-nb-no-sbr-54/ | CC-0 |
NST 노르웨이어 받아쓰기 | 노르웨이 인 | 발화 33,360개 | 스피커 144개 | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-14/ | CC-0 |
NST 노르웨이어 음성 합성 | 노르웨이 인 | 5,363개의 발화 | 남성 스피커 1명 | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-15/ | CC-0 |
NB Tale – 노르웨이어용 음성 데이터베이스 | 노르웨이 인 | 7,600개의 발화 + ~12시간 | 스피커 380개 | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-31/ | CC-0 |
노르웨이 의회 연설 코퍼스(v0.1) | 노르웨이 인 | ~59시간 | 스피커 203개 | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-58/ | CC-0 |
위키미디어 공용 오디아 | 오디아 | ~8시간 | ~20명의 연설자 | https://commons.wikimedia.org/wiki/Category:Odia_pronunciation | 대부분(?) CC-0 |
Thorsten-21.02-중립 | 독일 사람 | ~24시간 | 남성 스피커 1명 | https://www.Thorsten-Voice.de | CC-0 |
Thorsten-21.06-감정적 | 독일 사람 | 2,400개의 발화(8개 감정) | 남성 스피커 1명 | https://www.Thorsten-Voice.de | CC-0 |
신체 | 언어 | # HOURS | # 스피커 | 다운로드 | 특허 |
---|---|---|---|---|---|
ARU 음성 코퍼스 | 영어(영국) | 720개의 발화/화자 | 12명(여성 6명, 남성 6명) | http://datacat.liverpool.ac.uk/681/1/ARU_Speech_Corpus_v1_0.zip | CC-BY 3.0 |
Althingi 의회 연설 코퍼스 | 아이슬란드어 | 542시간 25분 | 스피커 196개 | http://www.malfong.is/index.php?dlid=73&lang=en | CC-BY 4.0 |
Alþingisumræður 의회 연설 코퍼스 | 아이슬란드어 | ~21시간 | http://www.malfong.is/index.php?dlid=8&lang=en | CC-BY 3.0 | |
Hjal 코퍼스 | 아이슬란드어 | ~41,000개 녹음 | 883 스피커 | http://www.malfong.is/index.php?dlid=5&lang=en | CC-BY 3.0 |
말로무르 코퍼스 | 아이슬란드어 | 152시간 | 스피커 563개 | http://www.malfong.is/index.php?dlid=65&lang=en | CC-BY 4.0 |
Kinect용 원격협력 독일어 코퍼스 | 독일 사람 | ~35시간 | ~180명의 연설자 | http://www.repository.voxforge1.org/downloads/de/german-speechdata-TUDa-2015.tar.gz | CC-BY 2.0 |
아프리카 음성 기술 영어-영어 음성 코퍼스 | 영어 | ~21시간 | https://repo.sadilar.org/handle/20.500.12185/283 | CC-BY 2.5 남아프리카 | |
아프리카 음성 기술 isiXhosa 음성 코퍼스 | isiXhosa | ~26시간 | https://repo.sadilar.org/handle/20.500.12185/305 | CC-BY 2.5 남아프리카 | |
NCHLT 아프리칸스어 | 아프리카 어 | 56시간 | 스피커 210명 (여성 98명 / 남성 112명) | https://repo.sadilar.org/handle/20.500.12185/280 | CC-BY 3.0 |
NCHLT 영어 | 영어 | 56시간 | 스피커 210명(여성 100명 / 남성 110명) | https://repo.sadilar.org/handle/20.500.12185/274 | CC-BY 3.0 |
NCHLT isiNdebele | 이신데벨레 | 56시간 | 발언자 148명(여성 78명 / 남성 70명) | https://repo.sadilar.org/handle/20.500.12185/272 | CC-BY 3.0 |
NCHLT isiXhosa | isiXhosa | 56시간 | 연사 209명 (여성 106명 / 남성 103명) | https://repo.sadilar.org/handle/20.500.12185/279 | CC-BY 3.0 |
NCHLT isiZulu | isiZulu | 56시간 | 스피커 210명 (여성 98명 / 남성 112명) | https://repo.sadilar.org/handle/20.500.12185/275 | CC-BY 3.0 |
NCHLT 세페디 | 세페디 | 56시간 | 스피커 210명(여성 100명 / 남성 110명) | https://repo.sadilar.org/handle/20.500.12185/270 | CC-BY 3.0 |
NCHLT 세소토어 | 세소토어 | 56시간 | 연사 210명 (여성 113명 / 남성 97명) | https://repo.sadilar.org/handle/20.500.12185/278 | CC-BY 3.0 |
NCHLT 세트와나어 | 세츠와나어 | 56시간 | 연사 210명 (여성 109명 / 남성 101명) | https://repo.sadilar.org/handle/20.500.12185/281 | CC-BY 3.0 |
NCHLT 시스와티 | 시스와티 | 56시간 | 연사 197명 (여성 96명 / 남성 101명) | https://repo.sadilar.org/handle/20.500.12185/271 | CC-BY 3.0 |
NCHLT 트시벤다 | 치벤다 | 56시간 | 발언자 208명(여성 83명 / 남성 125명) | https://repo.sadilar.org/handle/20.500.12185/276 | CC-BY 3.0 |
NCHLT Xitsonga | Xitsonga | 56시간 | 화자 198명(여성 95명/남성 103명) | https://repo.sadilar.org/handle/20.500.12185/277 | CC-BY 3.0 |
Lwazi II 교차 언어 고유 이름 코퍼스 | 아프리카 어; 영어; isiZulu; 세소토어 | 2시간 5분 | 스피커 20명 | https://repo.sadilar.org/handle/20.500.12185/445 | CC-BY 3.0 |
Lwazi II 고유 이름 통화 라우팅 전화 코퍼스 | 영어 | 2시간 7분 | https://repo.sadilar.org/handle/20.500.12185/448 | CC-BY 3.0 | |
Lwazi II 아프리칸스어 궤적 추적 코퍼스 | 아프리카 어 | 4시간 | 한 남자 | https://repo.sadilar.org/handle/20.500.12185/442 | CC-BY 3.0 |
LibriSpeech | 영어 | ~1000시간 | 스피커 2484명(여성 1201명 / 남성 1283명) | http://www.openslr.org/12/ | CC-BY 4.0 |
제로스-한국어 | 한국인 | 52.8시간 | 스피커 115개 | http://www.openslr.org/40/ | CC-BY 4.0 |
음성 명령 | 영어 | 17.8시간 | >1,000명의 연설자 | https://ai.googleblog.com/2017/08/launching-speech-commands-dataset.html | CC-BY 4.0 |
의회Parla | 카탈로니아 사람 | 320시간 | https://www.openslr.org/59/ | CC-BY 4.0 | |
시위스 | 프랑스 국민 | ~10시간 | 한 여성 | http://datashare.is.ed.ac.uk/download/DS_10283_2353.zip | CC-BY 4.0 |
VCTK | 영어 | 44시간 | 스피커 109개 | http://datashare.is.ed.ac.uk/download/DS_10283_3443.zip | CC-BY 4.0 |
LibriTTS | 영어 | 586시간 | 연사 2,456명 (여성 1,185명 / 남성 1,271명) | http://www.openslr.org/60/ | CC-BY 4.0 |
증강된 LibriSpeech | 오디오(영어); 텍스트(영어, 프랑스어) | 236시간 | https://persyval-platform.univ-grenoble-alpes.fr/datasets/DS91 | CC-BY 4.0 | |
헬싱키 프로소디 코퍼스 | 영어 | 262.5시간 | 1,230명의 연사 | https://github.com/Helsinki-NLP/prosody | CC-BY 4.0 |
투바 음성 데이터베이스 | 노르웨이 인 | 24시간 | 스피커 40명 | https://www.nb.no/sprakbanken/show?serial=oai:nb.no:sbr-44&lang= | CC-BY 4.0 |
COERLL Kʼicheʼ 코퍼스 | 키체어 | 34분 | ? 스피커 | https://cl.indiana.edu/~ftyers/resources/utexas-kiche-audio.tar.gz | CC-BY 4.0 |
타이머 및 기타 v0.1 | 영어(합성: 미국, 실제: 다양한 국적) | 합성: 172시간, 실제: 0.29시간 | 합성 21개, 진짜 11개 | https://zenodo.org/record/4110812#.X9j0RmBOkYM | CC-BY 4.0 |
체코 의회 본회의 대규모 청문회 | 체코 사람 | 444시간 | https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-3126 | CC-BY 4.0 |
신체 | 언어 | # HOURS | # 스피커 | 다운로드 | 특허 |
---|---|---|---|---|---|
이반 | 이반 | 8시간 | http://www.openslr.org/24/ https://github.com/sarahjuan/iban | CC-BY-SA 2.0 | |
비스타디알 2013 | 영어; 체코 사람 | 41시간; 15시간 | http://www.openslr.org/6/ | CC-BY-SA 3.0 미국 | |
Vystadial 2016 체코어 | 체코 사람 | 77시간; Vystadial 2013 체코어 포함 | https://lindat.cz/repository/xmlui/handle/11234/1-1740 | CC-BY-SA 4.0 | |
무료 음성 숫자 데이터세트 | 영어 | 2,000개의 분리된 숫자 | 스피커 4개 | https://github.com/Jakobovski/free-spoken-digit-dataset | CC-BY-SA 4.0 |
구글 자바어 | 자바어 | 296시간 | 1019 스피커 | http://www.openslr.org/35/ | CC-BY-SA 4.0 |
구글 네팔어 | 네팔어 | 165시간 | 스피커 527개 | http://www.openslr.org/54/ | CC-BY-SA 4.0 |
구글 벵골어 | 벵골 사람 | 229시간 | 스피커 508개 | http://www.openslr.org/53/ | CC-BY-SA 4.0 |
구글 싱할라어 | 신할라어 | 224시간 | 스피커 478개 | http://www.openslr.org/52/ | CC-BY-SA 4.0 |
구글 순다어 | 순다어 | 333시간 | 스피커 542개 | http://www.openslr.org/36/ | CC-BY-SA 4.0 |
음성 위키피디아 코퍼스(SWC-2017) | 영어; 독일 사람; 네덜란드 사람 | 182시간; 249시간; 79시간 | 395명의 스피커; 스피커 339개; 스피커 145개 | https://nats.gitlab.io/swc/ | CC-BY-SA 4.0 |
추바시 TTS | 추바시어 | 4시간 | 스피커 1개 | https://github.com/ftyers/Turkic_TTS | CC-BY-SA 4.0 |
Forschergeist | 독일 사람 | 2시간 | 연사 2명(여성 1명, 남성 1명) | 여성 발표자: https://goofy.zamia.org/zamia-speech/corpora/forschergeist/annettevogt-20180320-rec.tgz; 남성 발표자: https://goofy.zamia.org/zamia-speech/corpora/forschergeist/timpritlove-20180320-rec.tgz | CC-BY-SA 4.0 |
SMC의 말라얄람어 음성 코퍼스 | 말라얄람어 | 1시 36분 | 화자 75명 (여성 3명, 남성 12명, 미확인 60명) | https://releases.smc.org.in/msc-reviewed-speech/ | CC-BY-SA 4.0 |
구글 말라얄람어 | 말라얄람어 | 3.02시간 | 스피커 24명 | http://www.openslr.org/63/ | CC-BY-SA 4.0 |
신체 | 언어 | # HOURS | # 스피커 | 다운로드 | 특허 |
---|---|---|---|---|---|
IBM 녹화 토론 v1 | 영어 | 5시간 | 스피커 10개 | https://www.research.ibm.com/haifa/dept/vst/debating_data.shtml#Debate%20Speech%20Analytic | CC-BY-ND |
IBM 녹화 토론 v2 | 영어 | ~14시간 | 스피커 14개 | https://www.research.ibm.com/haifa/dept/vst/debating_data.shtml#Debate%20Speech%20Analytic | CC-BY-ND |
신체 | 언어 | # HOURS | # 스피커 | 다운로드 | 특허 |
---|---|---|---|---|---|
TV3Parla | 카탈로니아 사람 | 240시간 | http://laklak.eu/share/tv3_0.3.tar.gz | CC-BY-NC 4.0 | |
러시안 오픈 STT 코퍼스 | 러시아인 | 공개 ~10,000시간, 요청 시 최대 10,000시간 추가 | https://github.com/snakers4/open_stt/#links | 일부 예외를 제외하고 CC-BY-NC 4.0 | |
러시안 오픈 TTS 코퍼스 | 러시아인 | 145시간 | 수컷 3명 | https://github.com/snakers4/open_tts/#links | CC-BY-NC 4.0에 대한 기대 |
OVM – Otázky Václava Moravce | 체코 사람 | 35시간 | https://lindat.mff.cuni.cz/repository/xmlui/handle/11858/00-097C-0000-000D-EC98-3 | CC-BY-NC 3.0 |
신체 | 언어 | # HOURS | # 스피커 | 다운로드 | 특허 |
---|---|---|---|---|---|
차임-홈 | 영어 | 6.8시간 | https://archive.org/details/chime-home | CC-BY-NC-SA 3.0 | |
카메룬 피진어 영어 코퍼스 | 카메룬 피진어 영어 | ~17시간 | http://ota.ox.ac.uk/text/2563.zip | CC-BY-NC-SA 3.0 |
신체 | 언어 | # HOURS | # 스피커 | 다운로드 | 특허 |
---|---|---|---|---|---|
Tatoeba-Eng | 영어 | ~250시간(대략적인 추정치) | 스피커 6개 | https://voice.mozilla.org/en/datasets | CC-BY-NC 4.0(일부 오디오) / CC-BY-NC-ND 3.0(대부분의 오디오) / CC-BY 2.0(모든 텍스트) |
테드리움 | 영어 | 118시간 | 스피커 685명(여성 36시간 / 남성 81시간) | http://www.openslr.org/7/ | CC-BY-NC-ND 3.0 |
TED-LIUM-2 | 영어 | 207시간 | 스피커 1242개(여성 66시간 / 남성 141시간) | http://www.openslr.org/19/ | CC-BY-NC-ND 3.0 |
TED-LIUM-3 | 영어 | 452시간 | 2028명의 스피커(여성 134시간 / 남성 316시간) | http://www.openslr.org/51/ | CC-BY-NC-ND 3.0 |
판소리 TEDxKR | 한국인 | 3시간 | 연사 41명 | http://www.openslr.org/58/ | CC-BY-NC-ND 4.0 |
프라임워드 중국어 | 만다린 오렌지 | 100시간 | 스피커 296개 | http://www.openslr.org/47/ | CC-BY-NC-ND 4.0 |
MuST-C v1.0 | 오디오(영어); 텍스트(네덜란드어, 프랑스어, 독일어, 이탈리아어, 포르투갈어, 루마니아어, 러시아어, 스페인어) | 언어쌍당 408, 504, 492, 465, 442, 385, 432, 489시간 | https://ict.fbk.eu/must-c-release-v1-0/ | CC-BY-NC-ND 4.0 | |
체코 의회 회의 | 체코 사람 | 88시간 | https://lindat.mff.cuni.cz/repository/xmlui/handle/11858/00-097C-0000-0005-CF9C-4 | CC-BY-NC-ND 3.0 | |
벰바연설 | 벰바 | 24시간 | 화자 17명(남자 9명 / 여자 8명) | https://github.com/csikasote/BembaSpeech | CC-BY-NC-ND 4.0 |
신체 | 언어 | # HOURS | # 스피커 | 다운로드 | 특허 |
---|---|---|---|---|---|
DiPCo | 영어 | ~5시간 | 연사 32명(여성 13명, 남성 19명) | https://s3.amazonaws.com/dipco/DiPCo.tgz | CDLA-허용-1.0 |
신체 | 언어 | # HOURS | # 스피커 | 다운로드 | 특허 |
---|---|---|---|---|---|
복스포지 | 영어 | ~120시간 | ~2966명의 스피커 | http://www.repository.voxforge1.org/downloads/en/Trunk/Audio/Main/16kHz_16bit/ https://voice.mozilla.org/en/datasets | GNU-GPL 3.0 |
복스포지 | 러시아인 | http://www.repository.voxforge1.org/downloads/ru/Trunk/Audio/Main/16kHz_16bit/ http://www.repository.voxforge1.org/downloads/Russian/Trunk/Audio/Main/16kHz_16bit/ | GNU-GPL 3.0 | ||
복스포지 | 독일 사람 | http://www.repository.voxforge1.org/downloads/de/Trunk/Audio/Main/16kHz_16bit/ | GNU-GPL 3.0 |
신체 | 언어 | # HOURS | # 스피커 | 다운로드 | 특허 |
---|---|---|---|---|---|
아이셸-1 | 만다린 오렌지 | 170시간 | 스피커 400명 | http://www.openslr.org/33/ | 아파치 2.0 |
튀니지_MSA | 현대 표준 아랍어(튀니지) | 11.2시간 | 스피커 118개 | http://www.openslr.org/46/ | 아파치 2.0 |
아프리카 액센트 프랑스어 | 프랑스 국민 | 22시간 | 스피커 232개 | http://www.openslr.org/57/ | 아파치 2.0 |
THCHS-30 | 중국어(북경어) | 33.57시간(발화 13,389개) | 연사 40명(여성 31명, 남성 9명) | http://www.openslr.org/18/ | 아파치 2.0 |
생활 오디오 데이터세트 - 네덜란드어 | 네덜란드 사람 | 57:49분 | 스피커 1개 | https://github.com/Idlak/Living-Audio-Dataset | 아파치 2.0 |
생활 오디오 데이터세트 - 영어 | 영어 | 50:50분 | 스피커 1개 | https://github.com/Idlak/Living-Audio-Dataset | 아파치 2.0 |
생활 오디오 데이터세트 - 아일랜드어 | 아일랜드 | 61:56분 | 스피커 1개 | https://github.com/Idlak/Living-Audio-Dataset | 아파치 2.0 |
생활 오디오 데이터세트 - 러시아어 | 러시아인 | 34:58분 | 스피커 1개 | https://github.com/Idlak/Living-Audio-Dataset | 아파치 2.0 |
신체 | 언어 | # HOURS | # 스피커 | 다운로드 | 특허 |
---|---|---|---|---|---|
알파 | 암하라어, 하우사어(유료); 스와힐리어; 월로프 | http://www.openslr.org/25/ https://github.com/besacier/ALFFA_PUBLIC | MIT |
신체 | 언어 | # HOURS | # 스피커 | 다운로드 | 특허 |
---|---|---|---|---|---|
M-AILABS 독일어 코퍼스 | 독일 사람 | 237시간 22분 | http://www.caito.de/data/Training/stt_tts/de_DE.tgz | M-AILABS LICENSE(데이터별 BSD 3조 라이선스) | |
M-AILABS 퀸즈 영어 코퍼스 | 여왕의 영어 | 45시간 35분 | http://www.caito.de/data/Training/stt_tts/en_UK.tgz | M-AILABS LICENSE(데이터별 BSD 3조 라이선스) | |
M-AILABS 미국 영어 코퍼스 | 미국식 영어 | 102시간 7분 | http://www.caito.de/data/Training/stt_tts/en_US.tgz | M-AILABS LICENSE(데이터별 BSD 3조 라이선스) | |
M-AILABS 스페인어 코퍼스 | 스페인어 스페인어 | 108시간 34분 | http://www.caito.de/data/Training/stt_tts/es_ES.tgz | M-AILABS LICENSE(데이터별 BSD 3조 라이선스) | |
M-AILABS 이탈리아어 코퍼스 | 이탈리아 사람 | 127시간 40분 | http://www.caito.de/data/Training/stt_tts/it_IT.tgz | M-AILABS LICENSE(데이터별 BSD 3조 라이선스) | |
M-AILABS 우크라이나어 코퍼스 | 우크라이나 말 | 87시간 8분 | http://www.caito.de/data/Training/stt_tts/uk_UK.tgz | M-AILABS LICENSE(데이터별 BSD 3조 라이선스) | |
M-AILABS 러시아어 코퍼스 | 러시아인 | 46시간 47분 | http://www.caito.de/data/Training/stt_tts/ru_RU.tgz | M-AILABS LICENSE(데이터별 BSD 3조 라이선스) | |
M-AILABS 프랑스어-v0.9 코퍼스 | 프랑스 국민 | 190시간 30분 | http://www.caito.de/data/Training/stt_tts/fr_FR.tgz | M-AILABS LICENSE(데이터별 BSD 3조 라이선스) | |
M-AILABS 폴란드어 코퍼스 | 광택 | 53시간 50분 | http://www.caito.de/data/Training/stt_tts/pl_PL.tgz | M-AILABS LICENSE(데이터별 BSD 3조 라이선스) |
신체 | 언어 | # HOURS | # 스피커 | 다운로드 | 특허 |
---|---|---|---|---|---|
유창한 음성 명령 코퍼스 | 영어 | 19시간(발화 30,043개) | 97명의 연설자 | http://fluent.ai:2052/jf8398hf30f0381738rucj3828chfdnchs.tar.gz | 유창한 음성 명령 공개 라이선스 |
CMU 황야 | 700랭 | 오디오나 텍스트 없이 배포된 정렬은 총 14,000시간입니다. 언어당: ~20시간 | https://github.com/festvox/datasets-CMU_Wilderness | https://live.bible.is/terms | |
차임-5 | 영어 | 50시간 | 스피커 48개 | http://spandh.dcs.shef.ac.uk/chime_challenge/data.html | CHiME-5 라이선스 |
Fearless Steps 코퍼스 | 영어 | 19,000시간(20시간 필사) | ~450명의 스피커 | https://fearless-steps.github.io/ChallengePhase3/#19k_Corpus_Access | NASA 미디어 사용 지침 |
Microsoft Speech Corpus(인도어) | 텔루구어; 타밀 사람; 구자라트어 | https://msropendata.com/datasets/7230b4b1-912d-400e-be58-f84e0512985e | Microsoft Speech Corpus(인도어) 라이선스 | ||
Microsoft 음성 언어 번역 코퍼스 | 영어; 중국인; 일본어 | https://msropendata.com/datasets/54813518-4ea6-4c39-9bb2-b0d1e5f0c187 | Microsoft 연구 데이터 라이선스 계약 | ||
안녕하세요 Snips 코퍼스 | 영어 | 11K 긍정적인 "Hey Snips"(~4.4시간) 및 87K 부정적(~89시간) 발화 | 2215개 스피커(포지티브 및 네거티브) 및 4028개 스피커(네거티브만) | https://research.snips.ai/datasets/keyword-spotting | 스닙스 데이터 라이센스 |
SLU 코퍼스를 자르다 | 영어; 프랑스 국민 | 1660번의 "Smart Lights EN"(~1.3시간), 1286번의 "Smart Speaker EN"(~55분), 1138번의 "Smart Speaker FR"(~50분) 발화 | 영어: 화자 69명; 프랑스어: 30명 | https://research.snips.ai/datasets/spoken-언어-understanding | 스닙스 데이터 라이센스 |
CMU 스핑크스 그룹 - AN4 | 영어 | "an4_clstk"(~50분) "an4test_clstk"(~6분) | "an4_clstk": 여성 21명, 남성 53명 "an4test_clstk": 여성 3명, 남성 7명 | http://www.speech.cs.cmu.edu/databases/an4/an4_raw.bigendian.tar.gz | AN4 |
FT 연설 | 덴마크 말 | ~1,857시간(발화 1,017,244개) | 화자 434명(여성 176명, 남성 258명) | https://ftspeech.dk | FT 연설 라이센스 |
Fala브라질-LAPS-Constituicao | 브라질-포르투갈어 | 9시간 | 스피커 1개 | https://drive.google.com/uc?export=download&confirm=SrvW&id=1Nf849u-27CYRzJqedLaI-FaZfMRO7FT | "Bases de áudio transcrito e bases de texto Normalizadas (sem pontuação, com números escritos por extenso, etc.) disponibilizadas de forma gratuita* pelo Grupo FalaBrasil. [disponibilizadas de forma gratuita*] / Portanto, apenas as bases livres estão sendo disponibilizadas." |
Fala브라질-LaPSMail | 브라질-포르투갈어 | 1시간 | 스피커 25명 | https://drive.google.com/uc?export=download&confirm=PecV&id=1B_Vq8MDSE4fBQefVxqCGSl-EcKAcjJLb | "Bases de áudio transcrito e bases de texto Normalizadas (sem pontuação, com números escritos por extenso, etc.) disponibilizadas de forma gratuita* pelo Grupo FalaBrasil. [disponibilizadas de forma gratuita*] / Portanto, apenas as bases livres estão sendo disponibilizadas." |
FalaBrasil-LaPS 벤치마크 | 브라질-포르투갈어 | 1시간 | 스피커 1개 | https://drive.google.com/uc?export=download&confirm=XFfF&id=1nZ8L9nJTt4blFC0RGT9Y7XRu02aAvDIo | "Bases de áudio transcrito e bases de texto Normalizadas (sem pontuação, com números escritos por extenso, etc.) disponibilizadas de forma gratuita* pelo Grupo FalaBrasil. [disponibilizadas de forma gratuita*] / Portanto, apenas as bases livres estão sendo disponibilizadas." |