รายชื่อกลุ่มคำพูดแบบเปิดสำหรับการวิจัยและพัฒนาเทคโนโลยีคำพูด
รายการนี้มีการตั้งค่าให้ฟรี (เช่น ไม่มีค่าใช้จ่าย $) และเปิดเนื้อหาอย่างแท้จริง (เช่น เผยแพร่ภายใต้ใบอนุญาต Creative Commons หรือข้อตกลงใบอนุญาตข้อมูลชุมชน) องค์กรเหล่านี้อาจไม่ตรงตามเกณฑ์ทั้งหมด แต่องค์กรต่อไปนี้ทั้งหมดสามารถเข้าถึงได้และใช้สำหรับการวิจัยและ/หรือการใช้งานเชิงพาณิชย์
อย่าลังเลที่จะประกอบรายการเพิ่มเติมในรายการ!
มีงานที่ค้างอยู่จำนวนมากที่จะเพิ่มในประเด็นต่างๆ และยินดีรับคำขอดึงข้อมูล :)
คอร์ปัส | ภาษา | # ชั่วโมง | # ลำโพง | ดาวน์โหลด | ใบอนุญาต |
---|---|---|---|---|---|
เสียงทั่วไป | พูดได้หลายภาษา | >15,000 ชั่วโมง (ตรวจสอบแล้ว); >20,000 ชั่วโมง (รวม) | ลำโพงหลายตัว | https://voice.mozilla.org/en/datasets | ซีซี-0 |
ใช่ | ภาษาฮีบรู | 6 นาที | ผู้ชายคนหนึ่ง | http://www.openslr.org/1/ | ซีซี-0 |
LJ Speech Corpus | ภาษาอังกฤษ | ~24ชม | ผู้หญิงคนหนึ่ง | https://data.keithito.com/data/speech/LJSpeech-1.1.tar.bz2 | ซีซี-0 |
ฐานข้อมูล ASR เดนมาร์ก NST | ภาษาเดนมาร์ก | 229,992 คำพูด | ลำโพง 616 ตัว | ต้นฉบับ: https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-19/ จัดระเบียบใหม่: https://www.nb.no/sprakbanken/en/resource-catalogue /oai-nb-no-sbr-55/ | ซีซี-0 |
การเขียนตามคำบอกภาษาเดนมาร์ก NST | ภาษาเดนมาร์ก | 34,955 คำพูด | วิทยากร 151 คน | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-20/ | ซีซี-0 |
การสังเคราะห์คำพูดภาษาเดนมาร์ก NST | ภาษาเดนมาร์ก | 4,108 คำพูด | วิทยากรชาย 1 ท่าน | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-21/ | ซีซี-0 |
ฐานข้อมูล ASR สวีเดน NST | ภาษาสวีเดน | 366,000 คำพูด | วิทยากร 1,000 คน | ต้นฉบับ: https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-16/ จัดระเบียบใหม่: https://www.nb.no/sprakbanken/en/resource-catalogue /oai-nb-no-sbr-56/ | ซีซี-0 |
การเขียนตามคำบอกภาษาสวีเดน NST | ภาษาสวีเดน | 45,620 คำพูด | วิทยากร 195 คน | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-17/ | ซีซี-0 |
การสังเคราะห์เสียงพูดภาษาสวีเดนของ NST | ภาษาสวีเดน | 5,279 คำพูด | วิทยากรชาย 1 ท่าน | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-18/ | ซีซี-0 |
ฐานข้อมูล ASR นอร์เวย์ NST | ภาษานอร์เวย์ | 359,760 คำพูด | ลำโพง 980 ตัว | ต้นฉบับ: https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-13/ จัดระเบียบใหม่: https://www.nb.no/sprakbanken/en/resource-catalogue /oai-nb-no-sbr-54/ | ซีซี-0 |
การเขียนตามคำบอกภาษานอร์เวย์ของ NST | ภาษานอร์เวย์ | 33,360 คำพูด | ลำโพง 144 ตัว | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-14/ | ซีซี-0 |
การสังเคราะห์เสียงพูดภาษานอร์เวย์ของ NST | ภาษานอร์เวย์ | 5,363 คำพูด | วิทยากรชาย 1 ท่าน | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-15/ | ซีซี-0 |
NB Tale – ฐานข้อมูลคำพูดสำหรับภาษานอร์เวย์ | ภาษานอร์เวย์ | 7,600 คำพูด + ~12 ชั่วโมง | ลำโพง 380 ตัว | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-31/ | ซีซี-0 |
คลังคำพูดของรัฐสภานอร์เวย์ (v0.1) | ภาษานอร์เวย์ | ~59ชม | วิทยากร 203 คน | https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-58/ | ซีซี-0 |
วิกิมีเดียคอมมอนส์ โอเดีย | โอเดีย | ~8ชม | วิทยากรประมาณ 20 คน | https://commons.wikimedia.org/wiki/Category:Odia_pronunciation | ส่วนใหญ่(?) CC-0 |
Thorsten-21.02-เป็นกลาง | เยอรมัน | ~24ชม | วิทยากรชาย 1 ท่าน | https://www.Thorsten-Voice.de | ซีซี-0 |
Thorsten-21.06-อารมณ์ | เยอรมัน | 2,400 คำพูด (8 อารมณ์) | วิทยากรชาย 1 ท่าน | https://www.Thorsten-Voice.de | ซีซี-0 |
คอร์ปัส | ภาษา | # ชั่วโมง | # ลำโพง | ดาวน์โหลด | ใบอนุญาต |
---|---|---|---|---|---|
ARU Speech Corpus | อังกฤษ (สหราชอาณาจักร) | 720 เสียงพูด / ลำโพง | 12 คน (หญิง 6 คน ชาย 6 คน) | http://datacat.liverpool.ac.uk/681/1/ARU_Speech_Corpus_v1_0.zip | CC-BY 3.0 |
คลังคำพูดของรัฐสภา Althingi | ไอซ์แลนด์ | 542 ชั่วโมง 25 นาที | วิทยากร 196 คน | http://www.malfong.is/index.php?dlid=73&lang=en | CC-BY 4.0 |
Alþingisumræður คลังคำพูดของรัฐสภา | ไอซ์แลนด์ | ~21ชม | http://www.malfong.is/index.php?dlid=8&lang=en | CC-BY 3.0 | |
ฮาล คอร์ปัส | ไอซ์แลนด์ | ประมาณ 41,000 การบันทึก | 883 ลำโพง | http://www.malfong.is/index.php?dlid=5&lang=en | CC-BY 3.0 |
มัลโรเมอร์ คอร์ปัส | ไอซ์แลนด์ | 152 ชม | ลำโพง 563 ตัว | http://www.malfong.is/index.php?dlid=65&lang=en | CC-BY 4.0 |
ความร่วมมือทางไกล German Corpus สำหรับ Kinect | เยอรมัน | ~35ชม | ~180 ลำโพง | http://www.repository.voxforge1.org/downloads/de/german-speechdata-TUDa-2015.tar.gz | CC-BY 2.0 |
เทคโนโลยีคำพูดแอฟริกัน English-English Speech Corpus | ภาษาอังกฤษ | ~21ชม | https://repo.sadilar.org/handle/20.500.12185/283 | CC-BY 2.5 แอฟริกาใต้ | |
เทคโนโลยีคำพูดของแอฟริกา isiXhosa Speech Corpus | isiXhosa | ~26 ชม | https://repo.sadilar.org/handle/20.500.12185/305 | CC-BY 2.5 แอฟริกาใต้ | |
NCHLT แอฟริกาใต้ | ชาวแอฟริกัน | 56 ชม | ลำโพง 210 ตัว (หญิง 98 ตัว / ตัวผู้ 112 ตัว) | https://repo.sadilar.org/handle/20.500.12185/280 | CC-BY 3.0 |
ภาษาอังกฤษ NCHLT | ภาษาอังกฤษ | 56 ชม | ลำโพง 210 ตัว (ผู้หญิง 100 ตัว / ตัวผู้ 110 ตัว) | https://repo.sadilar.org/handle/20.500.12185/274 | CC-BY 3.0 |
NCHLT คือเอ็นเดเบเล | isiNdebele | 56 ชม | ลำโพง 148 ตัว (ผู้หญิง 78 ตัว / ตัวผู้ 70 ตัว) | https://repo.sadilar.org/handle/20.500.12185/272 | CC-BY 3.0 |
NCHLT isiXhosa | isiXhosa | 56 ชม | ลำโพง 209 ตัว (ตัวเมีย 106 ตัว / ตัวผู้ 103 ตัว) | https://repo.sadilar.org/handle/20.500.12185/279 | CC-BY 3.0 |
NCHLT คือซูลู | ไอซิซูลู | 56 ชม | ลำโพง 210 ตัว (หญิง 98 ตัว / ตัวผู้ 112 ตัว) | https://repo.sadilar.org/handle/20.500.12185/275 | CC-BY 3.0 |
NCHLT Sepedi | เซเปดี | 56 ชม | ลำโพง 210 ตัว (ผู้หญิง 100 ตัว / ตัวผู้ 110 ตัว) | https://repo.sadilar.org/handle/20.500.12185/270 | CC-BY 3.0 |
NCHLT เซโซโท | เซโซโท | 56 ชม | ลำโพง 210 ตัว (ตัวเมีย 113 ตัว / ตัวผู้ 97 ตัว) | https://repo.sadilar.org/handle/20.500.12185/278 | CC-BY 3.0 |
NCHLT เศทวานา | เซทสวานา | 56 ชม | ลำโพง 210 ตัว (ผู้หญิง 109 คน / ชาย 101 คน) | https://repo.sadilar.org/handle/20.500.12185/281 | CC-BY 3.0 |
NCHLT ซิสวาตี | ศรีสวัสดิ์ | 56 ชม | วิทยากร 197 คน (หญิง 96 คน / ชาย 101 คน) | https://repo.sadilar.org/handle/20.500.12185/271 | CC-BY 3.0 |
เอ็นซีเอชแอลที ทชิเวนดา | ทชิเวนดา | 56 ชม | ลำโพง 208 ตัว (ผู้หญิง 83 คน / ชาย 125 คน) | https://repo.sadilar.org/handle/20.500.12185/276 | CC-BY 3.0 |
NCHLT ซิตซงก้า | ชิตซงกา | 56 ชม | วิทยากร 198 คน (หญิง 95 คน/ชาย 103 คน) | https://repo.sadilar.org/handle/20.500.12185/277 | CC-BY 3.0 |
Lwazi II อักษรชื่อเฉพาะข้ามภาษา | แอฟริกัน; ภาษาอังกฤษ; ไอซิซูลู; เซโซโท | 2 ชั่วโมง 5 นาที | วิทยากร 20 ท่าน | https://repo.sadilar.org/handle/20.500.12185/445 | CC-BY 3.0 |
Lwazi II ชื่อที่เหมาะสม Call Routing คลังข้อมูลโทรศัพท์ | ภาษาอังกฤษ | 2 ชั่วโมง 7 นาที | https://repo.sadilar.org/handle/20.500.12185/448 | CC-BY 3.0 | |
Lwazi II Afrikaans Trajectory Tracking Corpus | ชาวแอฟริกัน | 4 ชั่วโมง | ผู้ชายคนหนึ่ง | https://repo.sadilar.org/handle/20.500.12185/442 | CC-BY 3.0 |
LibriSpeech | ภาษาอังกฤษ | ~1,000 ชั่วโมง | ลำโพง 2484 ตัว (ตัวเมีย 1201 ตัว / ตัวผู้ 1283 ตัว) | http://www.openslr.org/12/ | CC-BY 4.0 |
Zeroth-เกาหลี | เกาหลี | 52.8 ชม | ลำโพง 115 ตัว | http://www.openslr.org/40/ | CC-BY 4.0 |
คำสั่งเสียง | ภาษาอังกฤษ | 17.8 ชม | วิทยากรมากกว่า 1,000 คน | https://ai.googleblog.com/2017/08/launching-speech-commands-dataset.html | CC-BY 4.0 |
พาร์ลาเมนท์พาร์ลา | คาตาลัน | 320 ชม | https://www.openslr.org/59/ | CC-BY 4.0 | |
ซิวิส | ภาษาฝรั่งเศส | ~10ชม | ผู้หญิงคนหนึ่ง | http://datashare.is.ed.ac.uk/download/DS_10283_2353.zip | CC-BY 4.0 |
วีซีทีเค | ภาษาอังกฤษ | 44 ชม | วิทยากร 109 คน | http://datashare.is.ed.ac.uk/download/DS_10283_3443.zip | CC-BY 4.0 |
LibriTTS | ภาษาอังกฤษ | 586 ชม | วิทยากร 2,456 คน (หญิง 1,185 คน / ชาย 1,271 คน) | http://www.openslr.org/60/ | CC-BY 4.0 |
เพิ่ม LibriSpeech | เสียง (อังกฤษ); ข้อความ (อังกฤษ, ฝรั่งเศส) | 236 ชม | https://persyval-platform.univ-grenoble-alpes.fr/datasets/DS91 | CC-BY 4.0 | |
เฮลซิงกิ Prosody Corpus | ภาษาอังกฤษ | 262.5 ชม | วิทยากร 1,230 คน | https://github.com/Helsinki-NLP/prosody | CC-BY 4.0 |
ฐานข้อมูลคำพูดของ Tuva | ภาษานอร์เวย์ | 24 ชม | วิทยากร 40 คน | https://www.nb.no/sprakbanken/show?serial=oai:nb.no:sbr-44&lang= | CC-BY 4.0 |
คลังข้อมูล COERLL K'iche' | คิเช่ | 34 นาที | - ลำโพง | https://cl.indiana.edu/~ftyers/resources/utexas-kiche-audio.tar.gz | CC-BY 4.0 |
ตัวจับเวลาและ v0.1 ดังกล่าว | อังกฤษ (สังเคราะห์: สหรัฐอเมริกา, จริง: หลากหลายเชื้อชาติ) | สังเคราะห์: 172 ชั่วโมง จริง: 0.29 ชั่วโมง | 21 สังเคราะห์ 11 จริง | https://zenodo.org/record/4110812#.X9j0RmBOkYM | CC-BY 4.0 |
การพิจารณาคดีชุดใหญ่ของรัฐสภาเช็ก | เช็ก | 444 ชม | https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-3126 | CC-BY 4.0 |
คอร์ปัส | ภาษา | # ชั่วโมง | # ลำโพง | ดาวน์โหลด | ใบอนุญาต |
---|---|---|---|---|---|
อิบาน | อิบาน | 8 ชม | http://www.openslr.org/24/ https://github.com/sarahjuan/iban | CC-BY-SA2.0 | |
วิสตาเดียล 2013 | ภาษาอังกฤษ; เช็ก | 41 ชั่วโมง; 15 ชม | http://www.openslr.org/6/ | CC-BY-SA 3.0 สหรัฐอเมริกา | |
Vystadial 2016 เช็ก | เช็ก | 77 ชั่วโมง; รวมถึง Vystadial 2013 เช็ก | https://lindat.cz/repository/xmlui/handle/11234/1-1740 | CC-BY-SA 4.0 | |
ชุดข้อมูล Spoken Digit ฟรี | ภาษาอังกฤษ | 2,000 หลักแยก | ลำโพง 4 ตัว | https://github.com/Jakobovski/free-spoken-digit-dataset | CC-BY-SA 4.0 |
Google ชวา | ชวา | 296 ชม | 1,019 ลำโพง | http://www.openslr.org/35/ | CC-BY-SA 4.0 |
Google เนปาล | เนปาล | 165 ชม | ลำโพง 527 ตัว | http://www.openslr.org/54/ | CC-BY-SA 4.0 |
Google เบงกาลี | เบงกาลี | 229 ชม | ลำโพง 508 ตัว | http://www.openslr.org/53/ | CC-BY-SA 4.0 |
Google สิงหล | สิงหล | 224 ชม | ลำโพง 478 ตัว | http://www.openslr.org/52/ | CC-BY-SA 4.0 |
Google ซุนดา | ซุนดา | 333 ชม | ลำโพง 542 ตัว | http://www.openslr.org/36/ | CC-BY-SA 4.0 |
พูด Wikipedia Corpus (SWC-2017) | ภาษาอังกฤษ; เยอรมัน; ภาษาดัตช์ | 182 ชั่วโมง; 249 ชั่วโมง; 79 ชม | วิทยากร 395 คน; วิทยากร 339 คน; ลำโพง 145 ตัว | https://nats.gitlab.io/swc/ | CC-BY-SA 4.0 |
ชูวัช ทีทีเอส | ชูวัช | 4 ชั่วโมง | ลำโพง 1 ตัว | https://github.com/ftyers/Turkic_TTS | CC-BY-SA 4.0 |
ฟอร์เชอร์ไกสต์ | เยอรมัน | 2 ชั่วโมง | ลำโพง 2 ตัว (หญิง 1 คน ชาย 1 คน) | วิทยากรหญิง: https://goofy.zamia.org/zamia-speech/corpora/forschergeist/annettevogt-20180320-rec.tgz; วิทยากรชาย: https://goofy.zamia.org/zamia-speech/corpora/forschergeist/timpritlove-20180320-rec.tgz | CC-BY-SA 4.0 |
Malayalam Speech Corpus โดย SMC | มาลายาลัม | 1:36 น | ผู้พูด 75 คน (หญิง 3 คน ชาย 12 คน ไม่ระบุชื่อ 60 คน) | https://releases.smc.org.in/msc-reviewed-speech/ | CC-BY-SA 4.0 |
Google มาลายาลัม | มาลายาลัม | 3.02 ชม | ลำโพง 24 ตัว | http://www.openslr.org/63/ | CC-BY-SA 4.0 |
คอร์ปัส | ภาษา | # ชั่วโมง | # ลำโพง | ดาวน์โหลด | ใบอนุญาต |
---|---|---|---|---|---|
การอภิปรายที่บันทึกไว้ของ IBM เวอร์ชัน 1.1 | ภาษาอังกฤษ | 5 ชั่วโมง | ลำโพง 10 ตัว | https://www.research.ibm.com/haifa/dept/vst/debating_data.shtml#Debate%20Speech%20Analysis | CC-BY-ND |
IBM บันทึกไว้ดีเบต v2 | ภาษาอังกฤษ | ~14ชม | ลำโพง 14 ตัว | https://www.research.ibm.com/haifa/dept/vst/debating_data.shtml#Debate%20Speech%20Analysis | CC-BY-ND |
คอร์ปัส | ภาษา | # ชั่วโมง | # ลำโพง | ดาวน์โหลด | ใบอนุญาต |
---|---|---|---|---|---|
TV3พาร์ลา | คาตาลัน | 240 ชม | http://laklak.eu/share/tv3_0.3.tar.gz | CC-BY-NC 4.0 | |
รัสเซียน โอเพ่น เอสทีที คอร์ปัส | ภาษารัสเซีย | ~10,000 ชั่วโมงสาธารณะ และอีก ~10,000 ชั่วโมงตามคำขอ | https://github.com/snakers4/open_stt/#links | CC-BY-NC 4.0 โดยมีข้อยกเว้นบางประการ | |
รัสเซียน โอเพ่น ทีทีเอส คอร์ปัส | ภาษารัสเซีย | 145 ชม | ชาย 3 คน | https://github.com/snakers4/open_tts/#links | CC-BY-NC 4.0 พร้อมความคาดหวังบางประการ |
OVM – โอตาซกี้ วาคลาวา โมราฟเช่ | เช็ก | 35 ชม | https://lindat.mff.cuni.cz/repository/xmlui/handle/11858/00-097C-0000-000D-EC98-3 | CC-BY-NC 3.0 |
คอร์ปัส | ภาษา | # ชั่วโมง | # ลำโพง | ดาวน์โหลด | ใบอนุญาต |
---|---|---|---|---|---|
CHiME-บ้าน | ภาษาอังกฤษ | 6.8 ชม | https://archive.org/details/chime-home | CC-BY-NC-SA 3.0 | |
แคเมอรูน พิดจิ้น อิงลิช คอร์ปัส | แคเมอรูนพิดจิ้นภาษาอังกฤษ | ~17ชม | http://ota.ox.ac.uk/text/2563.zip | CC-BY-NC-SA 3.0 |
คอร์ปัส | ภาษา | # ชั่วโมง | # ลำโพง | ดาวน์โหลด | ใบอนุญาต |
---|---|---|---|---|---|
ทาโทบา-อังกฤษ | ภาษาอังกฤษ | ~250 ชั่วโมง (ประมาณการคร่าวๆ) | ลำโพง 6 ตัว | https://voice.mozilla.org/en/datasets | CC-BY-NC 4.0 (เสียงบางส่วน) / CC-BY-NC-ND 3.0 (เสียงส่วนใหญ่) / CC-BY 2.0 (ข้อความทั้งหมด) |
เท็ด-ลิี่ยม | ภาษาอังกฤษ | 118 ชม | ลำโพง 685 ตัว (หญิง 36 ชม. / ชาย 81 ชม.) | http://www.openslr.org/7/ | CC-BY-NC-ND 3.0 |
เท็ด-ลิเธียม-2 | ภาษาอังกฤษ | 207 ชม | ลำโพง 1242 ตัว (ตัวเมีย 66 ชม. / ตัวผู้ 141 ชม.) | http://www.openslr.org/19/ | CC-BY-NC-ND 3.0 |
เท็ด-เลียม-3 | ภาษาอังกฤษ | 452 ชม | ลำโพงปี 2028 (หญิง 134 ชม. / ชาย 316 ชม.) | http://www.openslr.org/51/ | CC-BY-NC-ND 3.0 |
พันโซรี TEDxKR | เกาหลี | 3 ชั่วโมง | วิทยากร 41 คน | http://www.openslr.org/58/ | CC-BY-NC-ND 4.0 |
คำนำ ภาษาจีนกลาง | จีนกลาง | 100 ชม | วิทยากร 296 คน | http://www.openslr.org/47/ | CC-BY-NC-ND 4.0 |
MuST-C เวอร์ชัน 1.0 | เสียง (อังกฤษ); ข้อความ (ดัตช์, ฝรั่งเศส, เยอรมัน, อิตาลี, โปรตุเกส, โรมาเนีย, รัสเซีย, สเปน) | 408, 504, 492, 465, 442, 385, 432, 489 ชั่วโมงต่อคู่ภาษา | https://ict.fbk.eu/must-c-release-v1-0/ | CC-BY-NC-ND 4.0 | |
การประชุมรัฐสภาเช็ก | เช็ก | 88 ชม | https://lindat.mff.cuni.cz/repository/xmlui/handle/11858/00-097C-0000-0005-CF9C-4 | CC-BY-NC-ND 3.0 | |
BembaSpeech | เบมบ้า | 24 ชม | ลำโพง 17 ตัว (ชาย 9 คน / หญิง 8 คน) | https://github.com/csikasote/BembaSpeech | CC-BY-NC-ND 4.0 |
คอร์ปัส | ภาษา | # ชั่วโมง | # ลำโพง | ดาวน์โหลด | ใบอนุญาต |
---|---|---|---|---|---|
ดิปโก้ | ภาษาอังกฤษ | ~5ชม | วิทยากร 32 คน (หญิง 13 คน ชาย 19 คน) | https://s3.amazonaws.com/dipco/DiPCo.tgz | CDLA-อนุญาต-1.0 |
คอร์ปัส | ภาษา | # ชั่วโมง | # ลำโพง | ดาวน์โหลด | ใบอนุญาต |
---|---|---|---|---|---|
VoxForge | ภาษาอังกฤษ | ~120 ชม | ~ 2966 ผู้พูด | http://www.repository.voxforge1.org/downloads/en/Trunk/Audio/Main/16kHz_16bit/ https://voice.mozilla.org/en/datasets | GNU-GPL3.0 |
VoxForge | ภาษารัสเซีย | http://www.repository.voxforge1.org/downloads/ru/Trunk/Audio/Main/16kHz_16bit/ http://www.repository.voxforge1.org/downloads/Russian/Trunk/Audio/Main/16kHz_16bit/ | GNU-GPL3.0 | ||
VoxForge | เยอรมัน | http://www.repository.voxforge1.org/downloads/de/Trunk/Audio/Main/16kHz_16bit/ | GNU-GPL3.0 |
คอร์ปัส | ภาษา | # ชั่วโมง | # ลำโพง | ดาวน์โหลด | ใบอนุญาต |
---|---|---|---|---|---|
ไอเชลล์-1 | จีนกลาง | 170 ชม | วิทยากร 400 คน | http://www.openslr.org/33/ | อาปาเช่ 2.0 |
ตูนิเซีย_MSA | ภาษาอาหรับมาตรฐานสมัยใหม่ (ตูนิเซีย) | 11.2 ชม | ลำโพง 118 ตัว | http://www.openslr.org/46/ | อาปาเช่ 2.0 |
ภาษาฝรั่งเศสสำเนียงแอฟริกัน | ภาษาฝรั่งเศส | 22 ชม | ลำโพง 232 ตัว | http://www.openslr.org/57/ | อาปาเช่ 2.0 |
ทีเอชเอชเอส-30 | ภาษาจีนกลาง | 33.57 ชั่วโมง (13,389 คำพูด) | วิทยากร 40 คน (หญิง 31 คน ชาย 9 คน) | http://www.openslr.org/18/ | อาปาเช่ 2.0 |
ชุดข้อมูล Living Audio - ภาษาดัตช์ | ภาษาดัตช์ | 57:49 นาที | ลำโพง 1 ตัว | https://github.com/Idlak/Living-Audio-Dataset | อาปาเช่ 2.0 |
ชุดข้อมูล Living Audio - ภาษาอังกฤษ | ภาษาอังกฤษ | 50:50 นาที | ลำโพง 1 ตัว | https://github.com/Idlak/Living-Audio-Dataset | อาปาเช่ 2.0 |
ชุดข้อมูล Living Audio - ไอริช | ไอริช | 61:56 นาที | ลำโพง 1 ตัว | https://github.com/Idlak/Living-Audio-Dataset | อาปาเช่ 2.0 |
ชุดข้อมูล Living Audio - รัสเซีย | ภาษารัสเซีย | 34:58 นาที | ลำโพง 1 ตัว | https://github.com/Idlak/Living-Audio-Dataset | อาปาเช่ 2.0 |
คอร์ปัส | ภาษา | # ชั่วโมง | # ลำโพง | ดาวน์โหลด | ใบอนุญาต |
---|---|---|---|---|---|
อัลฟ่า | อัมฮาริก เฮาซา (จ่าย); สวาฮีลี; โวลอฟ | http://www.openslr.org/25/ https://github.com/besacier/ALFFA_PUBLIC | เอ็มไอที |
คอร์ปัส | ภาษา | # ชั่วโมง | # ลำโพง | ดาวน์โหลด | ใบอนุญาต |
---|---|---|---|---|---|
M-AILABS คลังข้อมูลเยอรมัน | เยอรมัน | 237 ชั่วโมง 22 นาที | http://www.caito.de/data/Training/stt_tts/de_DE.tgz | ใบอนุญาต M-AILABS (ใบอนุญาต BSD 3-Clause เฉพาะข้อมูล) | |
M-AILABS คลังข้อมูลภาษาอังกฤษของ Queen | ภาษาอังกฤษของราชินี | 45 ชั่วโมง 35 นาที | http://www.caito.de/data/Training/stt_tts/en_UK.tgz | ใบอนุญาต M-AILABS (ใบอนุญาต BSD 3-Clause เฉพาะข้อมูล) | |
M-AILABS US English Corpus | ภาษาอังกฤษแบบอเมริกัน | 102 ชั่วโมง 7 นาที | http://www.caito.de/data/Training/stt_tts/en_US.tgz | ใบอนุญาต M-AILABS (ใบอนุญาต BSD 3-Clause เฉพาะข้อมูล) | |
M-AILABS สเปนคอร์ปัส | สเปน สเปน | 108 ชั่วโมง 34 นาที | http://www.caito.de/data/Training/stt_tts/es_ES.tgz | ใบอนุญาต M-AILABS (ใบอนุญาต BSD 3-Clause เฉพาะข้อมูล) | |
M-AILABS อิตาเลียนคอร์ปัส | ภาษาอิตาลี | 127 ชั่วโมง 40 นาที | http://www.caito.de/data/Training/stt_tts/it_IT.tgz | ใบอนุญาต M-AILABS (ใบอนุญาต BSD 3-Clause เฉพาะข้อมูล) | |
M-AILABS ยูเครนคอร์ปัส | ภาษายูเครน | 87 ชั่วโมง 8 นาที | http://www.caito.de/data/Training/stt_tts/uk_UK.tgz | ใบอนุญาต M-AILABS (ใบอนุญาต BSD 3-Clause เฉพาะข้อมูล) | |
M-AILABS รัสเซียคอร์ปัส | ภาษารัสเซีย | 46 ชั่วโมง 47 นาที | http://www.caito.de/data/Training/stt_tts/ru_RU.tgz | ใบอนุญาต M-AILABS (ใบอนุญาต BSD 3-Clause เฉพาะข้อมูล) | |
M-AILABS ฝรั่งเศส-v0.9 คอร์ปัส | ภาษาฝรั่งเศส | 190 ชั่วโมง 30 นาที | http://www.caito.de/data/Training/stt_tts/fr_FR.tgz | ใบอนุญาต M-AILABS (ใบอนุญาต BSD 3-Clause เฉพาะข้อมูล) | |
M-AILABS โปแลนด์คอร์ปัส | ขัด | 53 ชั่วโมง 50 นาที | http://www.caito.de/data/Training/stt_tts/pl_PL.tgz | ใบอนุญาต M-AILABS (ใบอนุญาต BSD 3-Clause เฉพาะข้อมูล) |
คอร์ปัส | ภาษา | # ชั่วโมง | # ลำโพง | ดาวน์โหลด | ใบอนุญาต |
---|---|---|---|---|---|
คอร์ปัสคำสั่งคำพูดอย่างคล่องแคล่ว | ภาษาอังกฤษ | 19 ชั่วโมง (30,043 คำพูด) | วิทยากร 97 คน | http://fluent.ai:2052/jf8398hf30f0381738rucj3828chfdnchs.tar.gz | ใบอนุญาตสาธารณะคำสั่งคำพูดคล่องแคล่ว |
มช. ถิ่นทุรกันดาร | 700 แลง | การจัดตำแหน่งที่กระจายโดยไม่มีเสียงหรือข้อความทั้งหมด:~14,000 ชั่วโมง; ต่อภาษา: ~20 ชั่วโมง | https://github.com/festvox/datasets-CMU_Wilderness | https://live.bible.is/terms | |
ไชม์-5 | ภาษาอังกฤษ | 50 ชม | ลำโพง 48 ตัว | http://spandh.dcs.shef.ac.uk/chime_challenge/data.html | ใบอนุญาต CHiME-5 |
Fearless Steps คอร์ปัส | ภาษาอังกฤษ | 19,000 ชั่วโมง (ถอดเสียง 20 ชั่วโมง) | ลำโพงประมาณ 450 ตัว | https://fearless-steps.github.io/ChallengePhase3/#19k_Corpus_Access | แนวทางการใช้สื่อของ NASA |
Microsoft Speech Corpus (ภาษาอินเดีย) | เตลูกู; ทมิฬ; คุชราต | https://msropendata.com/datasets/7230b4b1-912d-400e-be58-f84e0512985e | สิทธิ์การใช้งาน Microsoft Speech Corpus (ภาษาอินเดีย) | ||
คลังข้อมูลการแปลภาษาคำพูดของ Microsoft | ภาษาอังกฤษ; ชาวจีน; ญี่ปุ่น | https://msropendata.com/datasets/54813518-4ea6-4c39-9bb2-b0d1e5f0c187 | ข้อตกลงสิทธิ์การใช้งานข้อมูลการวิจัยของ Microsoft | ||
เฮ้ สนิปส์ คอร์ปัส | ภาษาอังกฤษ | คำพูด "Hey Snips" เชิงบวก 11,000 ครั้ง (~4.4 ชั่วโมง) และคำพูดเชิงลบ 87,000 ครั้ง (~89 ชั่วโมง) | ลำโพง 2215 ตัว (ขั้วบวกและขั้วลบ) และลำโพง 4028 ตัว (ขั้วลบเท่านั้น) | https://research.snips.ai/datasets/keyword-spotting | สิทธิ์การใช้งานข้อมูล Snips |
สนิปส์ SLU Corpus | ภาษาอังกฤษ; ภาษาฝรั่งเศส | 1660 "Smart Lights EN" (~1.3 ชั่วโมง), 1286 "Smart Speaker EN" (~55 นาที), 1138 "Smart Speaker FR" (~50 นาที) คำพูด | ภาษาอังกฤษ: 69 คน; ภาษาฝรั่งเศส: ผู้พูด 30 คน | https://research.snips.ai/datasets/spoken-Language-understand | สิทธิ์การใช้งานข้อมูล Snips |
มช. กลุ่มสฟิงซ์ - AN4 | ภาษาอังกฤษ | "an4_clstk"(~50 นาที) "an4test_clstk" (~6 นาที) | "an4_clstk": หญิง 21 คน ชาย 53 คน "an4test_clstk": หญิง 3 คน ชาย 7 คน | http://www.speech.cs.cmu.edu/databases/an4/an4_raw.bigendian.tar.gz | อ.4 |
คำพูด FT | ภาษาเดนมาร์ก | ~1,857 ชั่วโมง (1,017,244 คำพูด) | ผู้พูด 434 คน (ผู้หญิง 176 คน ชาย 258 คน) | https://ftspeech.dk | ใบอนุญาตคำพูด FT |
FalaBrasil-LAPS-Constituicao | บราซิล-โปรตุเกส | 9 ชม | ลำโพง 1 ตัว | https://drive.google.com/uc?export=download&confirm=SrvW&id=1Nf849u-27CYRzJqedLaI-FaZfMRO7FT | "Bases de áudio transcrito e bases de texto Normalizadas (sem pontuação, com números escritos por extenso ฯลฯ) disponibilizadas de forma gratuita* pelo Grupo FalaBrasil. [disponibilizadas de forma gratuita*] / Portanto, apenas as bases livres estão sendo disponibilizadas " |
FalaBrasil-LaPSMail | บราซิล-โปรตุเกส | 1 ชั่วโมง | ลำโพง 25 ตัว | https://drive.google.com/uc?export=download&confirm=PecV&id=1B_Vq8MDSE4fBQefVxqCGSl-EcKAcjJLb | "Bases de áudio transcrito e bases de texto Normalizadas (sem pontuação, com números escritos por extenso ฯลฯ) disponibilizadas de forma gratuita* pelo Grupo FalaBrasil. [disponibilizadas de forma gratuita*] / Portanto, apenas as bases livres estão sendo disponibilizadas " |
เกณฑ์มาตรฐาน FalaBrasil-LaPS | บราซิล-โปรตุเกส | 1 ชั่วโมง | ลำโพง 1 ตัว | https://drive.google.com/uc?export=download&confirm=XFfF&id=1nZ8L9nJTt4blFC0RGT9Y7XRu02aAvDIo | "Bases de áudio transcrito e bases de texto Normalizadas (sem pontuação, com números escritos por extenso ฯลฯ) disponibilizadas de forma gratuita* pelo Grupo FalaBrasil. [disponibilizadas de forma gratuita*] / Portanto, apenas as bases livres estão sendo disponibilizadas " |