ชุดข้อมูลเสียง AI (AI-ADS) ?
ชุดข้อมูลเสียง AI (AI-ADS) รวมถึงคำพูด เพลง และเสียงเอฟเฟกต์ ซึ่งสามารถให้ข้อมูลการฝึกอบรมสำหรับ Generative AI, AIGC, การฝึกอบรมโมเดล AI, การพัฒนาเครื่องมือเสียงอัจฉริยะ และแอปพลิเคชันเสียง
สารบัญ
- คำพูด
- ดนตรี
- เอฟเฟกต์เสียง
รายการโครงการ
คำพูด
- AISHELL-1 - AISHELL-1 เป็นคลังข้อมูลสำหรับการวิจัยการรู้จำเสียงพูดและสร้างระบบรู้จำเสียงพูดสำหรับภาษาจีนกลาง
- AISHELL-3 - AISHELL-3 เป็นคลังคำพูดภาษาจีนกลางที่มีลำโพงหลายตัวขนาดใหญ่และมีความแม่นยำสูง จัดพิมพ์โดย Beijing Shell Shell Technology Co.,Ltd. สามารถใช้เพื่อฝึกระบบการอ่านออกเสียงข้อความ (TTS) ที่มีลำโพงหลายตัว คลังข้อมูลประกอบด้วยการบันทึกที่เป็นกลางทางอารมณ์ประมาณ 85 ชั่วโมงซึ่งพูดโดยผู้พูดภาษาจีนกลางของจีน 218 คน และคำพูดทั้งหมด 88,035 เสียง
- คลังคำพูดภาษาอาหรับ - คลังคำพูดภาษาอาหรับ (1.5 GB) เป็นคลังคำพูดภาษาอาหรับมาตรฐานสมัยใหม่ (MSA) สำหรับการสังเคราะห์เสียงพูด คลังข้อมูลประกอบด้วยการถอดเสียงและอักขรวิธีของคำพูด MSA มากกว่า 3.7 ชั่วโมงซึ่งสอดคล้องกับคำพูดที่บันทึกไว้ในระดับหน่วยเสียง คำอธิบายประกอบประกอบด้วยเครื่องหมายเน้นคำบนหน่วยเสียงแต่ละรายการ
- AudioMNIST - ชุดข้อมูลประกอบด้วยตัวอย่างเสียง 30,000 ตัวอย่างเสียงพูดหลัก (0-9) ของลำโพง 60 ตัว
- AVSpeech - AVSpeech เป็นชุดข้อมูลภาพและเสียงขนาดใหญ่ที่ประกอบด้วยคลิปคำพูดที่ไม่มีสัญญาณพื้นหลังรบกวน ส่วนต่างๆ มีความยาวต่างกันไป ระหว่าง 3 ถึง 10 วินาที และในแต่ละคลิป ใบหน้าที่มองเห็นได้ในวิดีโอและเสียงที่ได้ยินในเพลงประกอบเท่านั้นที่เป็นของคนพูดคนเดียว โดยรวมแล้ว ชุดข้อมูลประกอบด้วยส่วนวิดีโอประมาณ 4,700 ชั่วโมง โดยมีวิทยากรที่แตกต่างกันประมาณ 150,000 คน ซึ่งครอบคลุมผู้คน ภาษา และท่าทางใบหน้าที่หลากหลาย
- ATIS (ระบบข้อมูลการเดินทางของสายการบิน) - ATIS (ระบบข้อมูลการเดินทางของสายการบิน) เป็นชุดข้อมูลที่ประกอบด้วยการบันทึกเสียงและสำเนาคู่มือที่เกี่ยวข้องกับมนุษย์ที่ขอข้อมูลเที่ยวบินในระบบสอบถามการเดินทางของสายการบินอัตโนมัติ ข้อมูลประกอบด้วย 17 หมวดหมู่ความตั้งใจที่ไม่ซ้ำกัน การแยกต้นฉบับประกอบด้วยคำพูดอ้างอิงที่มีป้ายกำกับเจตจำนง 4478, 500 และ 893 ในชุดฝึก ชุดพัฒนา และชุดทดสอบตามลำดับ
- ชุดข้อมูล Carnatic Varnam - ชุดข้อมูล Carnatic Varnam คือชุดของการบันทึกเสียงร้องเดี่ยว 28 รายการ ซึ่งบันทึกไว้สำหรับการวิจัยของเราเกี่ยวกับการวิเคราะห์น้ำเสียงของ Carnatic ragas คอลเลกชันประกอบด้วยการบันทึกเสียง คำอธิบายประกอบวงจรทาลาตามเวลา และสัญลักษณ์สวาราในรูปแบบที่เครื่องอ่านได้
- Casual Conversations - ชุดข้อมูล Casual Conversations ได้รับการออกแบบมาเพื่อช่วยนักวิจัยประเมินคอมพิวเตอร์วิทัศน์และโมเดลเสียงเพื่อความแม่นยำในกลุ่มอายุ เพศ สีผิวที่ชัดเจน และสภาพแสงโดยรอบ
- CN-Celeb - CN-Celeb เป็นชุดข้อมูลการจดจำผู้พูดขนาดใหญ่ที่รวบรวม 'ในป่า' ชุดข้อมูลนี้ประกอบด้วยคำพูดมากกว่า 130,000 คำจากคนดังชาวจีน 1,000 คน และครอบคลุม 11 ประเภทที่แตกต่างกันในโลกแห่งความเป็นจริง
- Clotho - Clotho เป็นชุดข้อมูลคำบรรยายเสียงที่ประกอบด้วยตัวอย่างเสียง 4981 ตัวอย่าง และตัวอย่างเสียงแต่ละรายการจะมีคำบรรยาย 5 รายการ (รวมคำบรรยาย 24,905 รายการ) ตัวอย่างเสียงมีความยาว 15 ถึง 30 วินาที และคำบรรยายมีความยาวแปดถึง 20 คำ
- Common Voice - Common Voice เป็นชุดข้อมูลเสียงที่ประกอบด้วย MP3 ที่ไม่ซ้ำกันและไฟล์ข้อความที่เกี่ยวข้อง มี 9,283 ชั่วโมงที่บันทึกไว้ในชุดข้อมูล ชุดข้อมูลยังรวมถึงข้อมูลเมตาทางประชากร เช่น อายุ เพศ และสำเนียง ชุดข้อมูลประกอบด้วยชั่วโมงที่ตรวจสอบแล้ว 7,335 ชั่วโมงใน 60 ภาษา
- CoVoST - CoVoST เป็นคลังข้อมูลการแปลคำพูดเป็นข้อความหลายภาษาขนาดใหญ่ เวอร์ชันที่ 2 ล่าสุดครอบคลุมการแปลจาก 21 ภาษาเป็นภาษาอังกฤษ และจากภาษาอังกฤษเป็น 15 ภาษา มีเวลาในการพูดรวม 2,880 ชั่วโมง และมีความหลากหลายด้วยลำโพง 78K และ 66 สำเนียง
- CVSS - CVSS คือคลังข้อมูลการแปลคำพูดเป็นคำพูด (S2ST) หลายภาษาเป็นภาษาอังกฤษจำนวนมาก ซึ่งครอบคลุมคู่ S2ST คู่ขนานระดับประโยคจาก 21 ภาษาเป็นภาษาอังกฤษ CVSS มาจากคลังข้อมูลคำพูด Common Voice และคลังข้อมูลการแปลคำพูดเป็นข้อความ (ST) ของ CoVoST 2 โดยการสังเคราะห์ข้อความแปลจาก CoVoST 2 เป็นคำพูดโดยใช้ระบบ TTS ที่ล้ำสมัย
- EasyCom - ชุดข้อมูล Easy Communications (EasyCom) เป็นชุดข้อมูลชุดแรกของโลกที่ออกแบบมาเพื่อช่วยบรรเทาผลกระทบจากงานเลี้ยงค็อกเทลจากมุมมองโลกที่มีเซ็นเซอร์หลายตัวซึ่งมีแรงบันดาลใจจากความเป็นจริงเสริม (AR) ชุดข้อมูลประกอบด้วยแว่นตา AR เสียงอาเรย์ไมโครโฟนหลายช่องสัญญาณที่เป็นศูนย์กลาง, วิดีโอ RGB มุมมองกว้าง, ท่าทางแหล่งที่มาของคำพูด, เสียงไมโครโฟนของชุดหูฟัง, กิจกรรมเสียงที่มีคำอธิบายประกอบ, การถอดเสียงคำพูด, กล่องขอบเขตศีรษะและใบหน้า และป้ายระบุแหล่งที่มา เราได้สร้างและเผยแพร่ชุดข้อมูลนี้เพื่ออำนวยความสะดวกในการวิจัยในโซลูชัน AR หลายรูปแบบสำหรับปัญหางานเลี้ยงค็อกเทล
- Emilia - ชุดข้อมูล Emilia เป็นแหล่งข้อมูลหลายภาษาที่ครอบคลุมซึ่งประกอบด้วยข้อมูลคำพูดมากกว่า 101,000 ชั่วโมงในหกภาษาที่แตกต่างกัน: อังกฤษ (En) จีน (Zh) เยอรมัน (De) ฝรั่งเศส (Fr) ญี่ปุ่น (Ja) และเกาหลี (โก้). โดยนำเสนอข้อมูลคำพูดที่หลากหลายซึ่งแสดงถึงสไตล์การพูดที่หลากหลายจากแพลตฟอร์มวิดีโอและพอดแคสต์มากมายบนอินเทอร์เน็ต ครอบคลุมเนื้อหาหลากหลายประเภท เช่น รายการทอล์คโชว์ การสัมภาษณ์ การอภิปราย การวิจารณ์กีฬา และหนังสือเสียง
- ESD (ฐานข้อมูลคำพูดทางอารมณ์) - ESD เป็นฐานข้อมูลคำพูดทางอารมณ์สำหรับการวิจัยการแปลงเสียง ฐานข้อมูล ESD ประกอบด้วยคำพูดคู่ขนาน 350 คำที่พูดโดยเจ้าของภาษา 10 คน และเจ้าของภาษา 10 คน และครอบคลุม 5 หมวดหมู่อารมณ์ (กลาง มีความสุข โกรธ เศร้า และประหลาดใจ) ข้อมูลเสียงพูดมากกว่า 29 ชั่วโมงถูกบันทึกในสภาพแวดล้อมเสียงที่มีการควบคุม ฐานข้อมูลนี้เหมาะสำหรับการศึกษาการแปลงเสียงทางอารมณ์แบบหลายลำโพงและแบบข้ามภาษา
- ชุดข้อมูล FPT Open Speech (FOSD) - ชุดข้อมูลนี้ประกอบด้วยสุนทรพจน์ภาษาเวียดนามที่บันทึกไว้ 25,921 รายการ (พร้อมการถอดเสียงและเวลาเริ่มต้นและสิ้นสุดของแต่ละคำพูดที่มีป้ายกำกับ) รวบรวมด้วยตนเองจากชุดข้อมูลย่อย 3 ชุด (รวมประมาณ 30 ชั่วโมง) ที่เผยแพร่ต่อสาธารณะในปี 2561 โดย เอฟพีที คอร์ปอเรชั่น
- ชุดข้อมูลตัวเลขพูดฟรี (FSDD) - ชุดข้อมูลเสียงฟรีของตัวเลขพูด คิดว่า MNIST เป็นเสียง ชุดข้อมูลเสียง/คำพูดอย่างง่ายประกอบด้วยการบันทึกตัวเลขที่พูดในไฟล์ wav ที่ 8kHz การบันทึกจะถูกตัดแต่งเพื่อให้มีความเงียบน้อยที่สุดที่จุดเริ่มต้นและจุดสิ้นสุด
- Fluent Speech Commands - คำสั่งคำพูด Fluent เป็นชุดข้อมูลเสียงแบบโอเพ่นซอร์สสำหรับการทดลองความเข้าใจภาษาพูด (SLU) คำพูดแต่ละรายการจะมีป้ายกำกับว่าค่า "การกระทำ" "วัตถุ" และ "ตำแหน่ง" ตัวอย่างเช่น "เปิดไฟในห้องครัว" มีป้ายกำกับ {"action": "activate", "object": "lights", "location": "kitchen"} แบบจำลองจะต้องทำนายแต่ละค่าเหล่านี้ และการทำนายคำพูดจะถือว่าถูกต้องก็ต่อเมื่อค่าทั้งหมดถูกต้องเท่านั้น
- ชุดข้อมูล Genshin - ชุดข้อมูล Genshin สำหรับ SVC/SVS/TTS
- GenshinVoice - ชุดข้อมูลเสียงของ Genshin Impact 原神语音数据集
- GigaSpeech - GigaSpeech คลังข้อมูลการรู้จำเสียงภาษาอังกฤษแบบหลายโดเมนที่มีการพัฒนาอย่างต่อเนื่อง พร้อมด้วยเสียงที่มีป้ายกำกับคุณภาพสูง 10,000 ชั่วโมงซึ่งเหมาะสำหรับการฝึกอบรมแบบมีผู้ดูแล และเสียงทั้งหมด 40,000 ชั่วโมงเหมาะสำหรับการฝึกอบรมแบบกึ่งมีผู้ดูแลและไม่ได้รับผู้ดูแล
- GigaSpeech 2 - คลังข้อมูล ASR ขนาดใหญ่ที่มีการพัฒนาและหลายโดเมนสำหรับภาษาที่มีทรัพยากรต่ำพร้อมการรวบรวมข้อมูลอัตโนมัติ การถอดเสียง และการปรับแต่ง
- How2 - ชุดข้อมูล How2 ประกอบด้วยวิดีโอ 13,500 รายการหรือคำพูด 300 ชั่วโมง และแบ่งออกเป็นการฝึกอบรม 185,187 รายการ การพัฒนาปี 2022 (dev) และคำพูดทดสอบ 2,361 รายการ มีคำบรรยายเป็นภาษาอังกฤษและคำแปลภาษาโปรตุเกสที่รวบรวมจากฝูงชน
- inaGVAD - ชุดข้อมูลทีวีและวิทยุฝรั่งเศสที่ท้าทายซึ่งมีคำอธิบายประกอบสำหรับการตรวจจับกิจกรรมเสียง (VAD) และการแบ่งส่วนเพศของผู้พูด (SGS) พร้อมด้วยสคริปต์การประเมินผลและรูปแบบคำอธิบายประกอบโดยละเอียดที่ให้รายละเอียดเกี่ยวกับประเภทเหตุการณ์ที่ไม่ใช่คำพูด ลักษณะของผู้พูด และคุณภาพเสียงพูด
- KdConv - KdConv คือชุดข้อมูล Conversionsation ที่ขับเคลื่อนด้วยความรู้แบบหลายโดเมนของจีน โดยมีพื้นฐานหัวข้อในการสนทนาแบบหลายรอบเป็นกราฟความรู้ KdConv มีการสนทนา 4.5K จากสามโดเมน (ภาพยนตร์ เพลง และการเดินทาง) และคำพูด 86K โดยมีจำนวนเทิร์นเฉลี่ย 19.0 บทสนทนาเหล่านี้ประกอบด้วยการสนทนาเชิงลึกในหัวข้อที่เกี่ยวข้องและการเปลี่ยนแปลงตามธรรมชาติระหว่างหลายหัวข้อ ในขณะที่คลังข้อมูลยังสามารถใช้สำหรับการสำรวจการเรียนรู้แบบถ่ายโอนและการปรับตัวโดเมน
- Libriheavy - Libriheavy: คลังข้อมูล ASR 50,000 ชั่วโมงพร้อมเครื่องหมายวรรคตอนและบริบท
- LibriSpeech - คลังข้อมูล LibriSpeech คือชุดหนังสือเสียงประมาณ 1,000 ชั่วโมงซึ่งเป็นส่วนหนึ่งของโครงการ LibriVox หนังสือเสียงส่วนใหญ่มาจาก Project Gutenberg ข้อมูลการฝึกอบรมจะแบ่งออกเป็น 3 พาร์ติชัน ได้แก่ ชุด 100 ชั่วโมง 360 ชั่วโมง และ 500 ชั่วโมง ในขณะที่ข้อมูลการพัฒนาและการทดสอบจะแบ่งออกเป็นหมวดหมู่ 'สะอาด' และ 'อื่นๆ' ตามลำดับ ขึ้นอยู่กับว่าระบบการรู้จำเสียงอัตโนมัติจะทำงานได้ดีหรือท้าทายเพียงใด . ชุดการพัฒนาและการทดสอบแต่ละชุดมีความยาวเสียงประมาณ 5 ชั่วโมง
- LibriTTS - LibriTTS เป็นคลังข้อมูลภาษาอังกฤษที่มีลำโพงหลายตัวซึ่งมีความยาวประมาณ 585 ชั่วโมงในการอ่านคำพูดภาษาอังกฤษที่อัตราการสุ่มตัวอย่าง 24kHz จัดทำโดย Heiga Zen ด้วยความช่วยเหลือของ Google Speech และสมาชิกทีม Google Brain คลังข้อมูล LibriTTS ได้รับการออกแบบมาเพื่อการวิจัย TTS มันได้มาจากวัสดุต้นฉบับ (ไฟล์เสียง mp3 จาก LibriVox และไฟล์ข้อความจาก Project Gutenberg) ของคลังข้อมูล LibriSpeech
- LibriTTS-R - LibriTTS-R: คลังข้อความเป็นคำพูดหลายลำโพงที่ได้รับการฟื้นฟู ได้มาจากการใช้การฟื้นฟูคำพูดกับคลังข้อมูล LibriTTS ซึ่งประกอบด้วยข้อมูลคำพูด 585 ชั่วโมงที่อัตราการสุ่มตัวอย่าง 24 kHz จากลำโพง 2,456 ตัวและข้อความที่เกี่ยวข้อง ตัวอย่างที่เป็นส่วนประกอบของ LibriTTS-R นั้นเหมือนกับตัวอย่างของ LibriTTS โดยมีเพียงคุณภาพเสียงที่ได้รับการปรับปรุงเท่านั้น
- LJSpeech (ชุดข้อมูลคำพูดของ LJ) - นี่คือชุดข้อมูลคำพูดที่เป็นสาธารณสมบัติ ซึ่งประกอบด้วยคลิปเสียงสั้น 13,100 คลิปของผู้พูดคนเดียวที่อ่านข้อความจากหนังสือสารคดี 7 เล่ม มีการถอดเสียงเป็นคำสำหรับแต่ละคลิป คลิปมีความยาวแตกต่างกันไปตั้งแต่ 1 ถึง 10 วินาที และมีความยาวรวมประมาณ 24 ชั่วโมง ข้อความเหล่านี้ตีพิมพ์ระหว่างปี พ.ศ. 2427 ถึง พ.ศ. 2507 และเป็นสาธารณสมบัติ เสียงนี้ถูกบันทึกในปี 2559-2560 โดยโครงการ LibriVox และเป็นสาธารณสมบัติด้วย
- LRS2 (Lip Reading Sentences 2) - ชุดข้อมูล Oxford-BBC Lip Reading Sentences 2 (LRS2) เป็นหนึ่งในชุดข้อมูลที่ใหญ่ที่สุดที่เปิดเผยต่อสาธารณะสำหรับประโยคการอ่านริมฝีปากในป่า ฐานข้อมูลประกอบด้วยข่าวและทอล์คโชว์จากรายการ BBC เป็นหลัก แต่ละประโยคมีความยาวได้ถึง 100 อักขระ
- LRW (Lip Reading in the Wild) - ชุดข้อมูล Lip Reading in the Wild (LRW) เป็นฐานข้อมูลภาพและเสียงขนาดใหญ่ที่ประกอบด้วยคำศัพท์ที่แตกต่างกัน 500 คำจากผู้พูดมากกว่า 1,000 คน แต่ละคำพูดมี 29 เฟรม ซึ่งมีขอบเขตอยู่กึ่งกลางรอบคำเป้าหมาย ฐานข้อมูลแบ่งออกเป็นชุดการฝึกอบรม การตรวจสอบ และการทดสอบ ชุดการฝึกอบรมประกอบด้วยคำพูดอย่างน้อย 800 คำสำหรับแต่ละชั้นเรียน ในขณะที่ชุดการตรวจสอบและการทดสอบประกอบด้วยคำพูด 50 คำ
- MuAViC - คลังภาพและเสียงหลายภาษาสำหรับการรู้จำเสียงที่มีประสิทธิภาพและการแปลคำพูดเป็นข้อความที่มีประสิทธิภาพ
- MuST-C - ปัจจุบัน MuST-C เป็นตัวแทนของคลังข้อมูลหลายภาษาที่ใหญ่ที่สุดที่เปิดเผยต่อสาธารณะ (แบบหนึ่งต่อกลุ่ม) สำหรับการแปลคำพูด ครอบคลุมแปดภาษาตั้งแต่ภาษาอังกฤษเป็นเยอรมัน สเปน ฝรั่งเศส อิตาลี ดัตช์ โปรตุเกส โรมาเนีย และรัสเซีย คลังข้อมูลประกอบด้วยเสียง การถอดเสียง และการแปลคำพูด TED ภาษาอังกฤษ และมาพร้อมกับการฝึกอบรม การตรวจสอบ และการแบ่งการทดสอบที่กำหนดไว้ล่วงหน้า
- MetaQA (MoviE Text Audio QA) - ชุดข้อมูล MetaQA ประกอบด้วยภววิทยาภาพยนตร์ที่ได้มาจากชุดข้อมูล WikiMovies และคู่คำถาม-คำตอบสามชุดที่เขียนด้วยภาษาธรรมชาติ ได้แก่ ข้อความค้นหา 1-hop, 2-hop และ 3-hop
- MELD (ชุดข้อมูล Multimodal EmotionLines) - ชุดข้อมูล Multimodal EmotionLines (MELD) ได้รับการสร้างขึ้นโดยการปรับปรุงและขยายชุดข้อมูล EmotionLines MELD มีอินสแตนซ์บทสนทนาเดียวกันกับที่มีอยู่ใน EmotionLines แต่ยังรวมเอารูปแบบเสียงและภาพพร้อมกับข้อความไว้ด้วย MELD มีบทสนทนามากกว่า 1,400 รายการและคำพูด 13,000 รายการจากซีรีส์ Friends TV วิทยากรหลายคนเข้าร่วมในการสนทนา คำพูดแต่ละครั้งในบทสนทนาจะถูกระบุด้วยอารมณ์ทั้งเจ็ดนี้ ได้แก่ ความโกรธ ความรังเกียจ ความโศกเศร้า ความยินดี ความเป็นกลาง ความประหลาดใจ และความกลัว MELD ยังมีคำอธิบายประกอบเกี่ยวกับความรู้สึก (เชิงบวก ลบ และเป็นกลาง) สำหรับคำพูดแต่ละรายการ
- Microsoft Speech Corpus (ภาษาอินเดีย) - รุ่น Microsoft Speech Corpus (ภาษาอินเดีย) ประกอบด้วยการฝึกอบรมคำพูดการสนทนาและวลีและข้อมูลการทดสอบสำหรับภาษาเตลูกู ทมิฬ และคุชราต แพ็คเกจข้อมูลประกอบด้วยเสียงและการถอดเสียงที่เกี่ยวข้อง ข้อมูลที่ให้ไว้ในชุดข้อมูลนี้จะไม่ถูกนำไปใช้เพื่อวัตถุประสงค์ทางการค้า คุณสามารถใช้ข้อมูลเพื่อวัตถุประสงค์ในการวิจัยเท่านั้น หากคุณเผยแพร่สิ่งที่คุณค้นพบ คุณต้องระบุแหล่งที่มาต่อไปนี้: “ข้อมูลจาก Microsoft และ SpeechOcean.com”
- PATS (Pose Audio Transcript Style) - ชุดข้อมูล PATS ประกอบด้วยท่าทาง เสียง และการถอดเสียงที่หลากหลายและจำนวนมาก ด้วยชุดข้อมูลนี้ เราหวังว่าจะสร้างเกณฑ์มาตรฐานที่จะช่วยพัฒนาเทคโนโลยีสำหรับตัวแทนเสมือนที่สร้างท่าทางที่เป็นธรรมชาติและเกี่ยวข้อง
- RealMAN - RealMAN: ชุดข้อมูลอาร์เรย์ไมโครโฟนที่บันทึกจริงและมีคำอธิบายประกอบสำหรับการปรับปรุงคำพูดแบบไดนามิกและการแปลเป็นภาษาท้องถิ่น
- SAVEE (Surrey Audio-Visual Expressed Emotion) - ชุดข้อมูล Surrey Audio-Visual Expressed Emotion (SAVEE) ได้รับการบันทึกเป็นข้อกำหนดเบื้องต้นสำหรับการพัฒนาระบบการจดจำอารมณ์อัตโนมัติ ฐานข้อมูลประกอบด้วยบันทึกจากนักแสดงชาย 4 คน ใน 7 อารมณ์ที่แตกต่างกัน รวม 480 คำพูดภาษาอังกฤษแบบบริติช ประโยคถูกเลือกจากคลังข้อมูลมาตรฐานของ TIMIT และมีความสมดุลทางสัทศาสตร์สำหรับแต่ละอารมณ์
- SoS_Dataset - เสียงของเรื่องราว: การเล่าเรื่องหลายรูปแบบพร้อมเสียง การเล่าเรื่องมีหลายรูปแบบในโลกแห่งความเป็นจริง เมื่อใครคนหนึ่งเล่าเรื่องราว เราอาจจะใช้ภาพและเสียงทั้งหมดไปพร้อมกับเรื่องราวนั้นเอง อย่างไรก็ตาม การศึกษาก่อนหน้านี้เกี่ยวกับชุดข้อมูลและงานการเล่าเรื่องไม่ค่อยให้ความสนใจกับเสียง แม้ว่าเสียงจะสื่อความหมายที่มีความหมายของเรื่องราวด้วยก็ตาม ดังนั้นเราจึงเสนอให้ขยายขอบเขตการทำความเข้าใจและการเล่าเรื่องโดยการสร้างองค์ประกอบใหม่ที่เรียกว่า "เสียงพื้นหลัง" ซึ่งเป็นเสียงตามบริบทของเรื่องราวโดยไม่มีข้อมูลทางภาษาใดๆ
- คอลเลกชันชุดข้อมูลคำพูด - นี่คือรายการชุดข้อมูลคำพูดแบบเปิดที่รวบรวมไว้สำหรับการวิจัยที่เกี่ยวข้องกับคำพูด (ส่วนใหญ่สำหรับการรู้จำเสียงอัตโนมัติ) ชุดข้อมูลคำพูดมากกว่า 110 ชุดถูกรวบรวมไว้ในที่เก็บนี้ และสามารถดาวน์โหลดชุดข้อมูลมากกว่า 70 ชุดได้โดยตรง โดยไม่ต้องสมัครหรือลงทะเบียนเพิ่มเติม
- เครื่องมือสร้างชุดข้อมูลคำพูด - เครื่องมือสร้างชุดข้อมูลคำพูดมีไว้เพื่อสร้างชุดข้อมูลที่เหมาะสมสำหรับการฝึกอบรมโมเดลการแปลงข้อความเป็นคำพูดหรือคำพูดเป็นข้อความ ฟังก์ชันการทำงานหลักเกี่ยวข้องกับการถอดเสียงไฟล์เสียง การปรับปรุงคุณภาพเสียงเมื่อจำเป็น และการสร้างชุดข้อมูล
- ชุดข้อมูลลำโพง 3D - ชุดข้อมูลเสียงคำพูดของมนุษย์หลายอุปกรณ์ หลายระยะทาง และหลายภาษาขนาดใหญ่
- TED-LIUM - การถอดเสียงของการพูดคุย TED 1495 TED พูดคุยบันทึกเสียงพร้อมกับการถอดเสียงบันทึกเหล่านั้น จัดทำโดย Laboratoire d'Informatique de l'Université du Maine (LIUM)
- Flickr Audio Caption Corpus - Flickr 8k Audio Caption Corpus มีคำบรรยายเสียงพูด 40,000 ภาพจากภาพที่เป็นธรรมชาติ 8,000 ภาพ มีการเก็บรวบรวมในปี 2015 เพื่อตรวจสอบแผนการเรียนรู้หลายรูปแบบสำหรับการค้นพบรูปแบบคำพูดที่ไม่ได้รับการดูแล
- The People's Speech - The People's Speech เป็นชุดข้อมูลการรู้จำเสียงพูดภาษาอังกฤษที่อยู่ภายใต้การดูแลและควบคุมโดยให้ดาวน์โหลดฟรีความยาว 30,000 ชั่วโมงและกำลังเพิ่มขึ้นเรื่อยๆ ซึ่งได้รับใบอนุญาตสำหรับการใช้งานเชิงวิชาการและเชิงพาณิชย์ภายใต้ CC-BY-SA (พร้อมชุดย่อย CC-BY) ข้อมูลจะถูกรวบรวมผ่านการค้นหาทางอินเทอร์เน็ตเพื่อหาข้อมูลเสียงที่ได้รับลิขสิทธิ์อย่างเหมาะสมพร้อมการถอดเสียงที่มีอยู่
- The Spoken Wikipedia Corpora - โครงการ Spoken Wikipedia รวมอาสาสมัครผู้อ่านบทความ Wikipedia บทความที่พูดหลายร้อยรายการในหลายภาษาพร้อมให้ใช้งานสำหรับผู้ใช้ที่ไม่สามารถหรือไม่เต็มใจที่จะใช้เวอร์ชันการเขียนของบทความด้วยเหตุผลใดก็ตาม
- TIMIT - DARPA TIMIT คลังคำพูดต่อเนื่องแบบอะคูสติกและสัทศาสตร์
- tts-frontend-dataset - ชุดข้อมูล TTS FrontEnd: Polyphone / Prosody / TextNormalization
- VoxCeleb2 - VoxCeleb2 เป็นชุดข้อมูลการจดจำผู้พูดขนาดใหญ่ที่ได้รับโดยอัตโนมัติจากสื่อโอเพ่นซอร์ส VoxCeleb2 ประกอบด้วยคำพูดมากกว่าล้านคำพูดจากวิทยากรมากกว่า 6,000 คน เนื่องจากชุดข้อมูลถูกรวบรวม 'ในป่า' ส่วนคำพูดจึงเสียหายจากเสียงรบกวนในโลกแห่งความเป็นจริง รวมถึงเสียงหัวเราะ การพูดคุยข้ามสาย เอฟเฟกต์ของช่องเพลง ดนตรี และเสียงอื่น ๆ ชุดข้อมูลดังกล่าวยังมีหลายภาษา โดยมีคำพูดจากผู้พูดจาก 145 เชื้อชาติ ครอบคลุมสำเนียง อายุ ชาติพันธุ์ และภาษาที่หลากหลาย
- VoxConverse - VoxConverse เป็นชุดข้อมูลการแยกแยะภาพและเสียงที่ประกอบด้วยคลิปคำพูดของมนุษย์หลายลำโพง ที่ดึงมาจากวิดีโอ YouTube
- VoxLingua107 - VoxLingua107 เป็นชุดข้อมูลสำหรับการรู้จำภาษาพูด 6628 ชั่วโมง (โดยเฉลี่ย 62 ชั่วโมงต่อภาษา) และมาพร้อมกับชุดการประเมินคำพูดที่ตรวจสอบแล้ว 1609 รายการ
- VoxPopuli - VoxPopuli เป็นคลังข้อมูลหลายภาษาขนาดใหญ่ที่ให้ข้อมูลคำพูดที่ไม่มีป้ายกำกับเป็นเวลา 100,000 ชั่วโมงใน 23 ภาษา เป็นข้อมูลเปิดที่ใหญ่ที่สุดจนถึงปัจจุบันสำหรับการเรียนรู้แบบไม่มีผู้ดูแลและการเรียนรู้แบบกึ่งมีผู้ดูแล VoxPopuli ยังมีสุนทรพจน์ที่ถอดความ 1.8,000 ชั่วโมงใน 16 ภาษา และการตีความด้วยวาจาที่จัดเป็น 5 ภาษาอื่น ๆ รวม 5.1,000 ชั่วโมง
- VoxForge - VoxForge เป็นชุดข้อมูลคำพูดแบบเปิดที่ตั้งค่าเพื่อรวบรวมคำพูดที่ถอดเสียงเพื่อใช้กับกลไกการรู้จำเสียงแบบโอเพ่นซอร์สและฟรี (บน Linux, Windows และ Mac)
- VocalSound - VocalSound เป็นชุดข้อมูลฟรีที่ประกอบด้วยการบันทึกเสียงหัวเราะ การถอนหายใจ การไอ การล้างคอ การจาม และการสูดจมูกจากฝูงชนจำนวน 21,024 รายการจากหัวข้อที่ไม่ซ้ำกัน 3,365 หัวข้อ ชุดข้อมูล VocalSound ยังมีข้อมูลเมตา เช่น อายุของผู้พูด เพศ ภาษาแม่ ประเทศ และภาวะสุขภาพ
- VoiceBank + DEMAND - VoiceBank+DEMAND เป็นฐานข้อมูลคำพูดที่มีเสียงรบกวนสำหรับการฝึกอบรมอัลกอริธึมการเพิ่มประสิทธิภาพคำพูดและโมเดล TTS ฐานข้อมูลได้รับการออกแบบมาเพื่อฝึกและทดสอบวิธีการปรับปรุงเสียงพูดที่ทำงานที่ 48kHz คำอธิบายโดยละเอียดเพิ่มเติมสามารถพบได้ในเอกสารที่เกี่ยวข้องกับฐานข้อมูล
- WaveFake - WaveFake เป็นชุดข้อมูลสำหรับการตรวจจับเสียงแบบ Deepfake ชุดข้อมูลประกอบด้วยชุดข้อมูลขนาดใหญ่ที่มีคลิปเสียงที่สร้างขึ้นมากกว่า 100,000 รายการ
- WenetSpeech - WenetSpeech เป็นคลังข้อมูลภาษาจีนกลางแบบหลายโดเมน ซึ่งประกอบด้วยคำพูดที่มีป้ายกำกับคุณภาพสูงมากกว่า 10,000+ ชั่วโมง คำพูดที่มีป้ายกำกับไม่ชัดเจนมากกว่า 2,400 ชั่วโมง และคำพูดที่ไม่มีป้ายกำกับประมาณ 10,000 ชั่วโมง รวมทั้งหมด 22,400+ ชั่วโมง ผู้เขียนรวบรวมข้อมูลจาก YouTube และ Podcast ซึ่งครอบคลุมสไตล์การพูด สถานการณ์ ขอบเขต หัวข้อ และสภาวะที่มีเสียงรบกวนที่หลากหลาย มีการนำวิธีการรู้จำอักขระด้วยแสง (OCR) มาใช้เพื่อสร้างตัวเลือกการแบ่งส่วนเสียง/ข้อความสำหรับข้อมูล YouTube บนคำบรรยายวิดีโอที่เกี่ยวข้อง
- WSJ0-2mix - WSJ0-2mix เป็นคลังข้อมูลการรู้จำเสียงของการผสมคำพูดโดยใช้คำพูดจากคลังข้อมูล Wall Street Journal (WSJ0)
- อะไรนะ! (WSJ0 Hipster Ambient Mixtures) - ชุดข้อมูล WSJ0 Hipster Ambient Mixtures ( WHAM! ) จะจับคู่ชุดลำโพงสองตัวแต่ละตัวในชุดข้อมูล wsj0-2mix กับฉากพื้นหลังที่มีเสียงรบกวนเป็นเอกลักษณ์ เสียงรบกวนถูกรวบรวมตามสถานที่ต่างๆ ในเมืองทั่วบริเวณอ่าวซานฟรานซิสโกในช่วงปลายปี 2018 สภาพแวดล้อมส่วนใหญ่ประกอบด้วยร้านอาหาร ร้านกาแฟ บาร์ และสวนสาธารณะ เสียงถูกบันทึกโดยใช้ไมโครโฟนสองหู Apogee Sennheiser บนขาตั้งกล้องที่ความสูงระหว่าง 1.0 ถึง 1.5 เมตรจากพื้น
- YODAS - นี่คือชุดย่อยแบบแมนนวล/อัตโนมัติของ YODAS จากชุดข้อมูล YODAS ของเรา ซึ่งมีระยะเวลาในการพูด 369,510 ชั่วโมง ชุดข้อมูลนี้ประกอบด้วยเสียงพูดและคำบรรยายที่เกี่ยวข้อง (ด้วยตนเองหรืออัตโนมัติ) จาก YouTube โปรดทราบว่าคำอธิบายภาพแบบแมนนวลบ่งบอกเพียงว่ามีการอัปโหลดโดยผู้ใช้ แต่ไม่จำเป็นต้องถอดเสียงโดยมนุษย์
- YODAS2 - YODAS2 เป็นชุดข้อมูลแบบยาวจากชุดข้อมูล YODAS โดยให้ชุดข้อมูลเดียวกันกับ espnet/yodas แต่ YODAS2 มีคุณสมบัติใหม่ดังต่อไปนี้: 1. จัดรูปแบบในรูปแบบยาว (ระดับวิดีโอ) โดยที่ไม่มีการแบ่งส่วนเสียง 2. ไฟล์เสียงถูกเข้ารหัสโดยใช้อัตราการสุ่มตัวอย่างที่สูงขึ้น (เช่น 24k)
- YTTTS - ชุดข้อมูลการอ่านออกเสียงข้อความของ YouTube ประกอบด้วยเสียงรูปแบบคลื่นที่แยกจากวิดีโอ YouTube ควบคู่ไปกับการถอดเสียงเป็นภาษาอังกฤษ
^ กลับสู่เนื้อหา ^
ดนตรี
- AAM: ชุดข้อมูลมัลติแทร็กเสียงประดิษฐ์ - ชุดข้อมูลนี้ประกอบด้วยแทร็กเสียงเพลงประดิษฐ์ 3,000 รายการพร้อมคำอธิบายประกอบที่หลากหลาย มันขึ้นอยู่กับตัวอย่างเครื่องดนตรีจริงและสร้างโดยองค์ประกอบอัลกอริธึมที่เกี่ยวข้องกับทฤษฎีดนตรี มีมิกซ์เพลงเต็มรูปแบบและแทร็กเครื่องดนตรีเดี่ยว midis ที่ใช้สำหรับรุ่นก็มีวางจำหน่ายเช่นกัน ไฟล์คำอธิบายประกอบด้วย: การโจมตี ระดับเสียง เครื่องดนตรี คีย์ จังหวะ เซ็กเมนต์ เครื่องดนตรีเมโลดี้ จังหวะ และคอร์ด
- Acapella - Acapella ประกอบด้วยวิดีโอร้องเพลงเดี่ยวแคปเปลลาประมาณ 46 ชั่วโมงที่มาจาก YouTbe ซึ่งสุ่มตัวอย่างจากนักร้องและภาษาต่างๆ มีการพิจารณาสี่ภาษา: อังกฤษ สเปน ฮินดี และอื่นๆ
- เพิ่ม: audio-dataset-downloader - สคริปต์ Python CLI อย่างง่ายสำหรับการดาวน์โหลดเสียง N-hour จาก Youtube ตามรายการแนวเพลง
- ADL Piano MIDI - ADL Piano MIDI เป็นชุดข้อมูลเปียโน 11,086 ชิ้นจากประเภทต่างๆ ชุดข้อมูลนี้อิงตามชุดข้อมูล Lakh MIDI ซึ่งเป็นคอลเลกชันของไฟล์ MIDI ที่ไม่ซ้ำกัน 45,129 ไฟล์ ซึ่งตรงกับรายการในชุดข้อมูลล้านเพลง
- คะแนนและการแสดงที่สอดคล้อง (ASAP) - ASAP เป็นชุดข้อมูลของคะแนนดนตรีที่สอดคล้องกัน (ทั้ง MIDI และ MusicXML) และการแสดง (เสียงและ MIDI) ทั้งหมดนี้ประกอบด้วยดาวน์บีท จังหวะ ลายเซ็นเวลา และคำอธิบายประกอบที่เป็นลายเซ็นคีย์
- ชุดข้อมูล Jingju Arias ที่มีคำอธิบายประกอบ - ชุดข้อมูล Jingju Arias ที่มีคำอธิบายประกอบคือชุดของ Jingju arias จำนวน 34 รายการ ซึ่งแบ่งส่วนด้วยตนเองในระดับต่างๆ โดยใช้ซอฟต์แวร์ Praat อาเรียที่เลือกประกอบด้วยตัวอย่างเพลงเซิงเฉียงหลัก 2 เพลงในจิงจู ได้แก่ ซีปี้และเอ้อหวง และประเภทบทบาทหลัก 5 ประเภทในแง่ของการร้องเพลง ได้แก่ ตาน จิง เหลาตาน เลาเซิง และเซียวเซิง ชุดข้อมูลถูกสร้างขึ้นโดยไฟล์ Praat TextGrid สำหรับแต่ละ aria โดยมีชั้นสำหรับข้อมูลต่อไปนี้: aria, MusicBrainz ID, ศิลปิน, โรงเรียน, ประเภทบทบาท, shengqiang, banshi, บรรทัดของเนื้อเพลง, พยางค์ และรูปแบบเพอร์คัสชั่น
- Bach Doodle - ชุดข้อมูล Bach Doodle ประกอบด้วยการประสานกัน 21.6 ล้านรายการที่ส่งมาจาก Bach Doodle ชุดข้อมูลมีทั้งข้อมูลเมตาเกี่ยวกับการเรียบเรียง (เช่น ประเทศต้นทางและผลตอบรับ) รวมถึง MIDI ของทำนองที่ผู้ใช้ป้อนและ MIDI ของการประสานกันที่สร้างขึ้น ชุดข้อมูลประกอบด้วยเพลงที่ผู้ใช้ป้อนประมาณ 6 ปี
- ชุดข้อมูลไวโอลินของ Bach - คอลเลกชันบันทึกสาธารณะคุณภาพสูงของโซนาต้าและพาร์ติต้าของ Bach สำหรับไวโอลินเดี่ยว (BWV 1001–1006)
- ชุดข้อมูล Batik-plays-Mozart - ชุดข้อมูล Batik-plays-Mozart เป็นชุดข้อมูลการแสดงเปียโนที่ประกอบด้วย Mozart Piano Sonatas ครบชุด 12 ชุด (การเคลื่อนไหวที่แตกต่างกัน 36 แบบ) ซึ่งแสดงบนแกรนด์เปียโน Bösendorfer ที่ตรวจสอบด้วยคอมพิวเตอร์โดยนักเปียโนคอนเสิร์ตชาวเวียนนา Roland Batik การแสดงมีให้ในรูปแบบ MIDI (ไฟล์เสียงที่เกี่ยวข้องมีจำหน่ายทั่วไป) และระดับโน้ตที่สอดคล้องกับคะแนนใน New Mozart Edition ใน MusicXML และคำอธิบายประกอบทางดนตรี จังหวะ และวลีที่เผยแพร่ก่อนหน้านี้ใน The Annotated Mozart Sonatas
- ชุดข้อมูลเครื่องเพอร์คัชชันของ Beijing Opera - ชุดข้อมูลเครื่องเพอร์คัชชันของ Beijing Opera คือชุดของตัวอย่างจังหวะที่แยกได้ 236 ตัวอย่าง ซึ่งครอบคลุมประเภทเครื่องเพอร์คัชชันสี่ประเภทที่ใช้ใน Beijing Opera สามารถใช้สร้างแบบจำลองจังหวะสำหรับเครื่องเพอร์คัชชันแต่ละเครื่องได้
- ชุดข้อมูลรูปแบบเครื่องเพอร์คัชชันของปักกิ่ง Opera Percussion - ชุดข้อมูลรูปแบบเครื่องเพอร์คัชชันของปักกิ่ง Opera Percussion (BOPP) คือชุดของรูปแบบเครื่องกระทบเสียง 133 รูปแบบ ครอบคลุม 5 คลาสรูปแบบ ชุดข้อมูลประกอบด้วยการถอดเสียงและระดับพยางค์สำหรับรูปแบบ (ไม่ตรงเวลา) มันมีประโยชน์สำหรับงานถอดเสียงเพอร์คัชชันและการจำแนกประเภท รูปแบบดังกล่าวได้ดึงมาจากการบันทึกเสียงเพลงอาเรียและติดป้ายกำกับโดยนักดนตรี
- BiMMuDa - ชุดข้อมูลเพลงไพเราะของ Billboard (BiMMuDa) เป็นชุดข้อมูล MIDI ของท่วงทำนองหลักของซิงเกิลห้าอันดับแรกจาก Billboard Year-End Singles Charts ในแต่ละปีตั้งแต่ปี 1950 ถึง 2022 พื้นที่เก็บข้อมูลนี้จะจัดเก็บชุดข้อมูลตลอดจนเมตาดาต้าของชุดข้อมูล และภาคผนวก
- CAL500 (Computer Audition Lab 500) - CAL500 (Computer Audition Lab 500) เป็นชุดข้อมูลที่มีวัตถุประสงค์เพื่อประเมินระบบดึงข้อมูลเพลง ประกอบด้วยเพลง 502 เพลงที่คัดสรรมาจากเพลงยอดนิยมของตะวันตก เสียงจะแสดงเป็นอนุกรมเวลาของค่าสัมประสิทธิ์เซปสตรัลความถี่เมล 13 ตัวแรก (และอนุพันธ์ตัวแรกและตัวที่สอง) ที่แยกออกมาโดยการเลื่อนหน้าต่างเวลาสั้นที่ทับซ้อนกันครึ่งเวลา 12 มิลลิวินาทีเหนือรูปคลื่นของแต่ละเพลง
- ชุดข้อมูลจังหวะดนตรี Carnatic - ชุดข้อมูลจังหวะดนตรี Carnatic เป็นคอลเลกชันย่อยของ 176 ข้อความที่ตัดตอนมา (16.6 ชั่วโมง) ในสี่ taalas ของเพลง Carnatic พร้อมเสียง เมตาดาต้าที่เกี่ยวข้องกับ tala และเครื่องหมายจัดตำแหน่งเวลาบ่งชี้ความก้าวหน้าผ่านวงจร tala มันมีประโยชน์ในฐานะคลังข้อมูลการทดสอบสำหรับงานวิเคราะห์จังหวะอัตโนมัติหลายอย่างในดนตรีนาติค
- CCMixter - CCMixter เป็นชุดข้อมูลการแยกเสียงร้องที่ประกอบด้วยแทร็กสเตอริโอเต็มความยาว 50 แทร็กจาก ccMixter ที่มีแนวดนตรีที่แตกต่างกันมากมาย สำหรับแต่ละเพลงจะมีไฟล์ WAV สามไฟล์: เพลงพื้นหลัง สัญญาณเสียง และผลรวมของไฟล์เหล่านั้น
- ChMusic - ChMusic เป็นชุดข้อมูลเพลงจีนดั้งเดิมสำหรับแบบจำลองการฝึกและการประเมินประสิทธิภาพของการจดจำเครื่องดนตรี ชุดข้อมูลนี้ครอบคลุมเครื่องดนตรี 11 ชิ้น ได้แก่ Erhu, Pipa, Sanxian, Dizi, Suona, Zhuiqin, Zhongruan, Liuqin, Guzheng, Yangqin และ Sheng
- chongchong-free - Chongchong Piano Downloader เป็นซอฟต์แวร์สำหรับดาวน์โหลดฟรีโน้ตเปียโนของ Chongchong ซึ่งสามารถรับลิงก์ของคะแนน วิเคราะห์เนื้อหาของคะแนน และส่งออกไฟล์ได้
- ComMU - ComMU มีตัวอย่าง MIDI 11,144 ตัวอย่างที่ประกอบด้วยลำดับโน้ตสั้น ๆ ที่สร้างโดยนักประพันธ์เพลงมืออาชีพพร้อมข้อมูลเมตา 12 รายการที่เกี่ยวข้อง ชุดข้อมูลนี้ได้รับการออกแบบสำหรับงานใหม่ การสร้างเพลงแบบผสมผสานซึ่งสร้างเพลงที่หลากหลายและมีคุณภาพสูงด้วยเมทาดาทาเท่านั้นผ่านโมเดลภาษาแบบถดถอยอัตโนมัติ
- CoSoD - CoSoD ประกอบด้วยข้อมูลเมตาและข้อมูลการวิเคราะห์ของคลังเพลง 331 เพลงที่ประกอบด้วยการทำงานร่วมกันของศิลปินหลายรายในชาร์ตเพลงสิ้นปีของ Billboard “Hot 100” ที่เผยแพร่ระหว่างปี 2010 ถึง 2019 แต่ละเพลงในชุดข้อมูลจะเชื่อมโยงกับไฟล์ CSV สองไฟล์: หนึ่งรายการสำหรับข้อมูลเมตาและอีกรายการหนึ่งสำหรับข้อมูลเชิงวิเคราะห์
- DALI - DALI: ชุดข้อมูลขนาดใหญ่ที่ซิงโครไนซ์เสียง, LyrIcs และบันทึกเสียงร้อง
- DadaGP - DadaGP เป็นชุดข้อมูลเพลงเชิงสัญลักษณ์ใหม่ซึ่งประกอบด้วยโน้ตเพลง 26,181 เพลงในรูปแบบ GuitarPro ครอบคลุมแนวดนตรี 739 แนว พร้อมด้วยรูปแบบโทเค็นประกอบที่เหมาะสำหรับโมเดลลำดับเชิงกำเนิด เช่น Transformer รูปแบบโทเค็นได้รับแรงบันดาลใจจากการเข้ารหัส MIDI ตามเหตุการณ์ ซึ่งมักใช้ในโมเดลการสร้างเพลงเชิงสัญลักษณ์ ชุดข้อมูลถูกปล่อยออกมาพร้อมกับตัวเข้ารหัส/ตัวถอดรหัสซึ่งจะแปลงไฟล์ GuitarPro เป็นโทเค็นและด้านหลัง
- DeepScores - ชุดข้อมูลสังเคราะห์ของรูปภาพเพลงประกอบที่มีคำอธิบายประกอบ 300,000 ภาพสำหรับการจำแนกวัตถุ การแบ่งส่วนความหมาย และการตรวจจับวัตถุ จากเอกสาร MusicXML ชุดใหญ่ที่ได้รับจาก MuseScore ไปป์ไลน์ที่ซับซ้อนจะถูกนำมาใช้ในการแปลงแหล่งที่มาเป็นไฟล์ LilyPond ซึ่ง LilyPond ใช้ในการแกะสลักและใส่คำอธิบายประกอบภาพ
- dMelodies - dMelodies คือชุดข้อมูลของท่วงทำนอง 2 บาร์ธรรมดาที่สร้างขึ้นโดยใช้ปัจจัยแฝงอิสระ 9 ประการของการแปรผัน โดยแต่ละจุดข้อมูลแสดงถึงเมโลดี้ที่ไม่ซ้ำกันโดยขึ้นอยู่กับข้อจำกัดต่อไปนี้: - แต่ละเมโลดี้จะสอดคล้องกับสเกลที่ไม่ซ้ำกัน (เมเจอร์ ไมเนอร์ บลูส์ ฯลฯ .) - แต่ละทำนองจะเล่นอาร์เพจจิโอโดยใช้รูปแบบคอร์ดจังหวะ I-IV-VI มาตรฐาน - บาร์ที่ 1 เล่น 2 คอร์ดแรก (6 โน้ต) บาร์ที่ 2 เล่น 2 คอร์ดที่สอง (6 โน้ต) - แต่ละโน้ตที่เล่นคือโน้ตที่ 8
- DISCO-10M - DISCO-10M เป็นชุดข้อมูลเพลงที่สร้างขึ้นเพื่อทำให้การวิจัยเกี่ยวกับโมเดลแมชชีนเลิร์นนิงขนาดใหญ่สำหรับดนตรีเป็นประชาธิปไตย
- Dizi - Dizi เป็นชุดข้อมูลสไตล์ดนตรีของโรงเรียนภาคเหนือและโรงเรียนภาคใต้ ลักษณะรวมทำนองและเทคนิคการเล่นของดนตรีสองสไตล์ที่แตกต่างกันได้รับการถอดรหัส
- DreamSound - เมื่อเร็วๆ นี้ โมเดลการสร้างข้อความเป็นเพลงได้รับผลลัพธ์ที่ไม่เคยมีมาก่อนในการสังเคราะห์ตัวอย่างเพลงคุณภาพสูงและหลากหลายจากข้อความแจ้งที่กำหนด แม้จะมีความก้าวหน้าเหล่านี้ แต่ก็ยังไม่มีความชัดเจนว่าเราจะสามารถสร้างแนวคิดทางดนตรีเฉพาะบุคคลและเฉพาะผู้ใช้ จัดการและรวมเข้ากับแนวคิดที่มีอยู่ได้อย่างไร ด้วยแรงบันดาลใจจากวรรณกรรมด้านคอมพิวเตอร์วิทัศน์ เราตรวจสอบการแปลงข้อความเป็นเพลงโดยสำรวจวิธีการสองวิธีที่เป็นที่ยอมรับ ได้แก่ Textual Inversion และ Dreambooth เราประเมินความสามารถของพวกเขาในการสร้างและแก้ไขแนวคิดทางดนตรีใหม่โดยใช้ตัวชี้วัดเชิงปริมาณและการศึกษาผู้ใช้โดยพิจารณาจากตัวอย่างเพียงไม่กี่ตัวอย่าง สุดท้ายนี้ เราจัดเตรียมชุดข้อมูลใหม่และเสนอโปรโตคอลการประเมินผลสำหรับงานใหม่นี้
- EMOPIA - ชุดข้อมูลเปียโนป็อปหลายรูปแบบสำหรับการจดจำอารมณ์และการสร้างดนตรีตามอารมณ์ ชุดข้อมูล EMOPIA (ออกเสียงว่า 'yee-mò-pi-uh') เป็นฐานข้อมูลหลายรูปแบบ (เสียงและ MIDI) ที่ใช้ร่วมกัน โดยมุ่งเน้นที่การรับรู้อารมณ์ในเพลงเปียโนป็อป เพื่ออำนวยความสะดวกในการวิจัยงานต่างๆ ที่เกี่ยวข้องกับอารมณ์ทางดนตรี ชุดข้อมูลประกอบด้วยคลิปเพลง 1,087 คลิปจาก 387 เพลง และป้ายกำกับอารมณ์ระดับคลิปพร้อมคำอธิบายประกอบโดยผู้อธิบายประกอบเฉพาะสี่คน
- ErhuPT (ชุดข้อมูลเทคนิคการเล่น Erhu) - ชุดข้อมูลนี้เป็นชุดข้อมูลเสียงที่ประกอบด้วยคลิปเสียงประมาณ 1,500 คลิปที่บันทึกโดยผู้เล่นมืออาชีพหลายคน
- FiloBass - ชุดข้อมูลและการศึกษาเกี่ยวกับ Jazz Basslines FiloBass: คลังเพลงใหม่และคำอธิบายประกอบที่มุ่งเน้นไปที่บทบาทที่สำคัญ แต่มักถูกมองข้ามของดับเบิ้ลเบสในการเล่นดนตรีแจ๊ส ด้วยแรงบันดาลใจจากผลงานล่าสุดที่ให้ความกระจ่างเกี่ยวกับบทบาทของศิลปินเดี่ยว เรานำเสนอคอลเลกชันการถอดเสียงของมือเบสแจ๊สมืออาชีพ 48 บทที่ได้รับการตรวจสอบด้วยตนเอง ซึ่งประกอบด้วยกิจกรรมโน้ตมากกว่า 50,000 รายการ ซึ่งอิงตามเพลงสำรองที่ใช้ในชุดข้อมูล FiloSax สำหรับการบันทึกเสียงแต่ละครั้ง เรามีต้นกำเนิดเสียง คะแนน MIDI ที่สอดคล้องกับประสิทธิภาพ และข้อมูลเมตาที่เกี่ยวข้องสำหรับจังหวะ จังหวะดาวน์บีต สัญลักษณ์คอร์ด และเครื่องหมายสำหรับรูปแบบดนตรี
- Finding Tori - Finding Tori: การเรียนรู้ด้วยตนเองเพื่อวิเคราะห์เพลงพื้นบ้านของเกาหลี เราแนะนำการวิเคราะห์ทางคอมพิวเตอร์ของชุดข้อมูลการบันทึกภาคสนามของเพลงพื้นบ้านเกาหลีความยาวประมาณ 700 ชั่วโมง ซึ่งบันทึกในช่วงปี 1980-90
- FMA - Free Music Archive (FMA) เป็นชุดข้อมูลขนาดใหญ่สำหรับประเมินงานต่างๆ ในการเรียกค้นข้อมูลเพลง ประกอบด้วยเสียง 343 วันจาก 106,574 เพลงจากศิลปิน 16,341 คน และ 14,854 อัลบั้ม จัดเรียงตามลำดับชั้นของ 161 แนวเพลง โดยให้เสียงที่มีความยาวเต็มรูปแบบและมีคุณภาพสูง คุณสมบัติที่คำนวณไว้ล่วงหน้า พร้อมด้วยข้อมูลเมตาระดับแทร็กและระดับผู้ใช้ แท็ก และข้อความรูปแบบอิสระ เช่น ชีวประวัติ
- GiantMIDI-Piano - GiantMIDI-Piano เป็นชุดข้อมูล MIDI ของเปียโนคลาสสิกที่ประกอบด้วยไฟล์ MIDI 10,855 ไฟล์จากผู้แต่ง 2,786 คน ชุดย่อยที่ดูแลจัดการโดยการจำกัดนามสกุลของผู้แต่งประกอบด้วยไฟล์ MIDI 7,236 ไฟล์จากผู้แต่ง 1,787 คน
- Groove (ชุดข้อมูล Groove MIDI) - ชุดข้อมูล Groove MIDI (GMD) ประกอบด้วย MIDI ที่สอดคล้องกัน 13.6 ชั่วโมง และเสียง (สังเคราะห์) ของการตีกลองที่แสดงออกซึ่งแสดงโดยมนุษย์และสอดคล้องกับจังหวะ ชุดข้อมูลมีไฟล์ MIDI 1,150 ไฟล์และการตีกลองกว่า 22,000 ครั้ง
- GTSINGER - GTSINGER: คลังร้องเพลงหลายทางหลายทางทั่วโลกที่มีคะแนนดนตรีที่สมจริงสำหรับงานร้องเพลงทั้งหมด เราแนะนำ GTSINGER ซึ่งเป็นคลังเสียงร้องเพลงที่มีคุณภาพสูงทั่วโลกที่มีการใช้งานฟรีและมีคุณภาพสูงพร้อมคะแนนดนตรีที่สมจริงออกแบบมาสำหรับงานร้องเพลงทั้งหมดพร้อมกับเกณฑ์มาตรฐาน
- Guitarset - Guitarset: ชุดข้อมูลสำหรับการถอดความกีตาร์
- ชุดข้อมูลจังหวะดนตรีของ Hindustani - ชุดข้อมูลจังหวะเพลง Hindustani เป็นตัวรวบรวมย่อยของ 151 (5 ชั่วโมง) ในสี่เพลงของเพลง Hindustani ที่มีเสียงเมตาดาต้าที่เกี่ยวข้องกับ TAAL ที่เกี่ยวข้อง ชุดข้อมูลมีประโยชน์เป็นคลังการทดสอบสำหรับงานการวิเคราะห์จังหวะอัตโนมัติจำนวนมากในเพลง Hindustani
- HUMTRANS - ชุดข้อมูลยังสามารถใช้เป็นรากฐานสำหรับงานดาวน์สตรีมเช่นการสร้างเพลงที่ทำด้วยท่วงทำนอง ประกอบด้วยการแต่งเพลง 500 ประเภทของประเภทและภาษาที่แตกต่างกันโดยแต่ละองค์ประกอบแบ่งออกเป็นหลายส่วน โดยรวมแล้วชุดข้อมูลประกอบด้วย 1,000 เซ็กเมนต์เพลง ในการรวบรวมชุดข้อมูลที่ฮัมเพลงนี้เราใช้นักศึกษาวิทยาลัย 10 คนซึ่งทุกคนเป็นสาขาวิชาดนตรีหรือมีความเชี่ยวชาญในการเล่นเครื่องดนตรีอย่างน้อยหนึ่งเครื่อง แต่ละคนฮัมเพลงทุกส่วนสองครั้งโดยใช้อินเทอร์เฟซการบันทึกเว็บที่จัดทำโดยเว็บไซต์ที่เราออกแบบมา การบันทึกเสียงฮัมเพลงถูกสุ่มตัวอย่างที่ความถี่ 44,100 Hz
- ชุดข้อมูลโทนิคของ Indian Art Music - ชุดข้อมูลนี้ประกอบด้วยการบันทึกเสียงเพลงที่มีจำหน่ายทั่วไป 597 รายการของเพลงศิลปะอินเดีย (Hindustani และ Carnatic Music) แต่ละคำอธิบายประกอบด้วยตนเองด้วยยาชูกำลังของศิลปินนำ ชุดข้อมูลนี้ใช้เป็นคลังทดสอบสำหรับการพัฒนาวิธีการระบุโทนิก
- Jazz Harmony Treebank - พื้นที่เก็บข้อมูลนี้มี Jazz Harmony Treebank ซึ่งเป็นคลังข้อมูลของการวิเคราะห์แบบฮาร์มอนิกลำดับชั้นของลำดับคอร์ดแจ๊สที่เลือกจากคลังข้อมูล Irealpro ที่ตีพิมพ์ใน Zenodo โดย Shanahan et al.
- Jazznet - Jazznet: ชุดข้อมูลของรูปแบบเปียโนพื้นฐานสำหรับการวิจัยการเรียนรู้เครื่องเสียงเพลง บทความนี้แนะนำชุดข้อมูล JazzNet ซึ่งเป็นชุดข้อมูลของรูปแบบเพลงเปียโนแจ๊สพื้นฐานสำหรับการพัฒนาอัลกอริทึมการเรียนรู้ของเครื่อง (ML) ในการดึงข้อมูลเพลง (MIR) ชุดข้อมูลประกอบด้วยรูปแบบเปียโนที่มีป้ายกำกับ 162520 รวมถึงคอร์ด, Arpeggios, เครื่องชั่งและคอร์ดที่มีความก้าวหน้าด้วยการรุกรานของพวกเขาส่งผลให้เสียงมากกว่า 26k ชั่วโมงและขนาดรวม 95GB
- Jingju ชุดข้อมูล Cappella Singing Contour DataSet - Jingju A Cappella Singing Contour TataSet เป็นชุดของการตั้งระดับความจริงของ Contour Segment ความจริงสำหรับ 39 Jingju การบันทึกการร้องเพลงปากเปล่า ชุดข้อมูลรวมถึงความจริงภาคพื้นดินสำหรับ (1) การถอดความไพเราะ (2) การแบ่งส่วนรูปร่างพิทช์ มันมีประโยชน์สำหรับงานการถอดรหัสแบบไพเราะและการแบ่งส่วนระดับเสียง รูปทรงพิทช์ได้รับการสกัดจากการบันทึกเสียงและแก้ไขด้วยตนเองและแบ่งส่วนโดยนักดนตรี
- คอลเลกชันคะแนน Jingju Music Scores - นี่คือคอลเล็กชั่นคะแนนเพลง Jingju 92 รายการที่รวบรวมไว้สำหรับการวิเคราะห์การร้องเพลงของ Jingju ในแง่ของระบบดนตรี พวกเขาถูกถอดความจากแหล่งพิมพ์ต้นฉบับของพวกเขาในรูปแบบที่อ่านได้ของเครื่องโดยใช้ Musescore และส่งออกไปยัง MusicXML
- JS Fake Chorales - ชุดข้อมูล MIDI ของ 500 chorales 4 ส่วนที่สร้างขึ้นโดยอัลกอริทึม KS_CHORUS ซึ่งมีคำอธิบายประกอบกับผลลัพธ์จากผู้เข้าร่วมการทดสอบการฟังหลายร้อยคน
- LAION-DISCO-12M-ชุดข้อมูล LAION-DISCO-12M มีลิงก์ 12M ไปยังเพลงบน YouTube ซึ่งได้รับแรงบันดาลใจจากวิธีการของ Disco-10m เริ่มต้นจากรายการเมล็ดพันธุ์เริ่มต้นของศิลปินเราสามารถค้นพบศิลปินใหม่โดยการสำรวจศิลปินที่ระบุไว้ในส่วน "แฟน ๆ อาจชอบ" เราสำรวจกราฟศิลปินที่เกี่ยวข้องตราบเท่าที่เราสามารถค้นหาศิลปินใหม่ได้
- ชุดข้อมูล Lakh Musenet MIDI - ชุดข้อมูล MIDI เต็มรูปแบบเต็มแปลงเป็นรูปแบบเอาต์พุต Musenet MIDI (9 Instruments + Drums)
- ชุดข้อมูล Los Angeles MIDI - ชุดข้อมูล Sota Kilo -Scale MIDI สำหรับวัตถุประสงค์ MIR และ Music AI
- LP-MUSICCAPS-LP-MUSICCAPS: คำบรรยายภาพเพลงเทียมที่ใช้ LLM
- ชุดข้อมูล Lyra - Lyra เป็นชุดข้อมูลสำหรับเพลงดั้งเดิมและเพลงพื้นบ้านกรีกที่มี 1570 ชิ้นรวมกันประมาณ 80 ชั่วโมงของข้อมูล ชุดข้อมูลรวมลิงก์ที่มีการประทับเวลาของ YouTube สำหรับการดึงเสียงและวิดีโอพร้อมกับข้อมูลข้อมูลเมตาที่หลากหลายเกี่ยวกับเครื่องมือวัดภูมิศาสตร์และประเภทอื่น ๆ
- Maestro-ชุดข้อมูล Maestro มีการบันทึกเสียงและ MIDI มากกว่า 200 ชั่วโมงจากการแข่งขันเปียโนระหว่างประเทศสิบปี ข้อมูล MIDI รวมถึงความเร็วในการโจมตีที่สำคัญและตำแหน่งแป้นเหยียบ Suret/Sostenuto/UNA Corda ไฟล์เสียงและ MIDI นั้นสอดคล้องกับความแม่นยำ ∼3 ms และหั่นเป็นชิ้นส่วนดนตรีแต่ละชิ้นซึ่งมีคำอธิบายประกอบกับนักแต่งเพลงชื่อและปีของการแสดง เสียงที่ไม่บีบอัดมีคุณภาพของซีดีหรือสูงกว่า (44.1–48 kHz 16 บิตสเตอริโอ PCM)
- Magnatagatune - ชุดข้อมูล Magnatagatune มีคลิปเพลง 25,863 รายการ แต่ละคลิปเป็นข้อความที่ตัดตอนมายาว 29 วินาทีซึ่งเป็นหนึ่งใน 5223 เพลง 445 อัลบั้มและศิลปิน 230 คน คลิปครอบคลุมหลากหลายประเภทเช่นคลาสสิก, ยุคใหม่, อิเลคทรอนิก, ร็อค, ป๊อป, โลก, แจ๊ส, บลูส์, โลหะ, พังค์และอื่น ๆ คลิปเสียงแต่ละตัวจะมาพร้อมกับเวกเตอร์ของคำอธิบายประกอบแบบไบนารีที่ 188 แท็ก
- ชุดข้อมูลหลักสำหรับ "วิวัฒนาการของเพลงยอดนิยม: USA 1960–2010" - นี่คือไฟล์ขนาดใหญ่ (~ 20MB) ที่เรียกว่า EvolutionPopUSA_MAINDATA.CSV ในรูปแบบข้อมูลที่คั่นด้วยเครื่องหมายจุลภาคพร้อมส่วนหัวคอลัมน์ แต่ละแถวสอดคล้องกับการบันทึก ไฟล์สามารถดูได้ในตัวแก้ไขข้อความใด ๆ และยังสามารถเปิดได้ใน Excel หรือนำเข้าสู่โปรแกรมการประมวลผลข้อมูลอื่น ๆ
- ชุดข้อมูล Metamidi - เราแนะนำชุดข้อมูล Metamidi (MMD) ซึ่งเป็นคอลเลกชันขนาดใหญ่ของไฟล์ MIDI 436,631 ไฟล์และข้อมูลเมตา นอกเหนือจากไฟล์ MIDI แล้วเรายังให้บริการข้อมูลเมตาของศิลปินชื่อและประเภทที่เก็บรวบรวมในระหว่างกระบวนการขูดเมื่อมี MIDIS ใน (MMD) ถูกจับคู่กับคอลเล็กชั่นคลิปเสียง 32,000,000 30 วินาทีที่ดึงมาจาก Spotify ส่งผลให้มีการแข่งขันเสียงกลางเสียงกว่า 10,796,557 ครั้ง
- ชุดข้อมูล Million Song - ชุดข้อมูลนี้มีล้านเพลงตั้งแต่ปี 1922-2011 โดยมีศิลปินติดแท็กข้อมูลจาก Echonest (ตอนนี้เป็นส่วนหนึ่งของ Spotify) พร้อมกับการวัดเสียงและข้อมูลอื่น ๆ ที่เกี่ยวข้อง
- miR-1K-miR-1K (ห้องปฏิบัติการดึงข้อมูลมัลติมีเดีย, คลิปเพลง 1,000 คลิป) เป็นชุดข้อมูลที่ออกแบบมาสำหรับการแยกเสียงร้องเพลง
- ชุดข้อมูล Mridangam Stroke - ชุดข้อมูล Mridangam Stroke เป็นชุดของตัวอย่างเสียง 7162 ของจังหวะแต่ละจังหวะของ Mridangam ในโทนิคต่างๆ ชุดข้อมูลประกอบด้วย 10 จังหวะที่แตกต่างกันเล่นบน mridangams ที่มีค่าโทนิค 6 ที่แตกต่างกัน ชุดข้อมูลสามารถใช้สำหรับรูปแบบการฝึกอบรมสำหรับแต่ละจังหวะ mridangam
- ชุดข้อมูล Mridangam Tani-Avarthanam-ชุดข้อมูล Mridangam Tani-Avarthanam เป็นคอลเล็กชั่นการคัดลอกของสอง tani-avarthanams ที่เล่นโดย Mridangam Maestro Padmavibhushan Umayalpuram K. Sivaraman เสียงถูกบันทึกไว้ที่ IIT Madras, อินเดียและคำอธิบายประกอบโดยนักปรอทมืออาชีพ ประกอบด้วยเสียงประมาณ 24 นาทีและ 8800 จังหวะ
- MIRMLPOP-มันมี 1) คำอธิบายประกอบของชุดข้อมูล miR-MLPOP, 2) ซอร์สโค้ดเพื่อรับเสียงของชุดข้อมูล 3) ซอร์สโค้ดที่เราใช้เพื่อปรับแต่งเสียงกระซิบบน miR-MLPOP และ 4) ซอร์สโค้ดสำหรับการประเมินผล
- MSD (ชุดข้อมูลเพลงล้าน) - ชุดข้อมูล Million Song เป็นคอลเล็กชั่นคุณสมบัติเสียงและข้อมูลเมตาสำหรับเพลงยอดนิยมนับล้าน แกนหลักของชุดข้อมูลคือการวิเคราะห์คุณสมบัติและข้อมูลเมตาสำหรับหนึ่งล้านเพลงที่จัดทำโดย Echo Nest
- ชุดข้อมูล MTG-Jamendo-เรานำเสนอชุดข้อมูล MTG-Jamendo ซึ่งเป็นชุดข้อมูลแบบเปิดใหม่สำหรับการติดแท็กเพลงอัตโนมัติ มันถูกสร้างขึ้นโดยใช้เพลงที่ Jamendo ภายใต้ใบอนุญาตครีเอทีฟคอมมอนส์และแท็กที่จัดทำโดยการอัปโหลดเนื้อหา ชุดข้อมูลมีแทร็กเสียงเต็มจำนวนมากกว่า 55,000 แท็กที่มีแท็ก 195 แท็กจากประเภทเครื่องมือและหมวดหมู่อารมณ์/ธีม เราให้บริการข้อมูลที่อธิบายอย่างละเอียดสำหรับนักวิจัยและรายงานประสิทธิภาพของวิธีพื้นฐานที่เรียบง่ายบนแท็กห้าชุดที่แตกต่างกัน: ประเภท, เครื่องมือ, อารมณ์/ธีม, Top-50 และโดยรวม
- MTG-Jamendo-ชุดข้อมูล MTG-Jamendo เป็นชุดข้อมูลแบบเปิดสำหรับการติดแท็กเพลงอัตโนมัติ ชุดข้อมูลมีแทร็กเสียงเต็ม 55,000 แทร็กที่มีหมวดหมู่ 195 แท็ก (แท็ก 87 ประเภท, แท็กเครื่องมือ 40 แท็กและแท็กอารมณ์/ธีม 56) มันถูกสร้างขึ้นโดยใช้เพลงที่ Jamendo ภายใต้ใบอนุญาตครีเอทีฟคอมมอนส์และแท็กที่จัดทำโดยการอัปโหลดเนื้อหา เสียงทั้งหมดมีการกระจายในรูปแบบ 320kbps mp3
- แพลตฟอร์มการแชร์ข้อมูลเพลงสำหรับการวิจัยด้านดนตรีคอมพิวเตอร์ (ชุดข้อมูล CCMUSIC) - แพลตฟอร์มนี้เป็นแพลตฟอร์มการแบ่งปันข้อมูลเพลงอเนกประสงค์สำหรับการวิจัยด้านดนตรีเชิงคำนวณ มันมีข้อมูลเพลงมากมายเช่นข้อมูลเสียงของเครื่องดนตรีแบบดั้งเดิมของจีนและข้อมูลการติดฉลากของเพลงป๊อปจีนซึ่งมีให้บริการฟรีโดยนักวิจัยด้านดนตรีคอมพิวเตอร์
- การจดจำอารมณ์เพลง (MER) - เรานำเสนอชุดข้อมูลสำหรับการวิเคราะห์ระบบการจดจำอารมณ์ความรู้สึกส่วนตัว (MER) เราพัฒนาแพลตฟอร์มผู้ที่ชื่นชอบดนตรีโดยมีวัตถุประสงค์เพื่อปรับปรุงการรวบรวมและวิเคราะห์ความจริงที่เรียกว่า
- Musan - Musan เป็นคลังดนตรีการพูดและเสียงรบกวน ชุดข้อมูลนี้เหมาะสำหรับรูปแบบการฝึกอบรมสำหรับการตรวจจับกิจกรรมเสียง (VAD) และการเลือกปฏิบัติทางดนตรี/เสียงพูด ชุดข้อมูลประกอบด้วยเพลงจากหลายประเภทการพูดจากสิบสองภาษาและเสียงที่หลากหลายของเสียงและเสียงที่ไม่ใช่ด้านเทคนิค
- MUSDB-XL-TRAIN-ชุดข้อมูล MUSDB-XL-TRAIN ประกอบด้วยชุดเสียง 4-SEC ที่ใช้งานได้ จำกัด 300,000 ส่วนและเพลงต้นฉบับ 100 เพลง สำหรับแต่ละเซ็กเมนต์เราสุ่มเลือกกลุ่มโดยพลการใน 4 ลำต้น (เสียงร้อง, เบส, กลอง, อื่น ๆ ) ของชุดย่อยการฝึกอบรม MUSDB-HQ และผสมแบบสุ่ม จากนั้นเราใช้ปลั๊กอินตัว จำกัด เชิงพาณิชย์กับแต่ละลำต้น
- MusicBench-ชุดข้อมูล MusicBench เป็นคอลเลกชันของคู่ข้อความดนตรีที่ออกแบบมาสำหรับรุ่นข้อความถึงดนตรีและเปิดตัวด้วยโมเดล Mustango Text-to-Music ชุดข้อมูล MusicCaps ขยายจาก 5,521 ตัวอย่างเป็น 52,768 การฝึกอบรมและตัวอย่างทดสอบ 400 ตัวอย่างเพื่อสร้าง MusicBench !
- MusicNet - MusicNet เป็นคอลเล็กชั่นการบันทึกเพลงคลาสสิกที่ได้รับใบอนุญาต 330 รายการพร้อมกับฉลากที่มีคำอธิบายประกอบมากกว่า 1 ล้านรายการซึ่งบ่งบอกถึงเวลาที่แม่นยำของโน้ตแต่ละรายการในการบันทึกทุกครั้ง องค์ประกอบ. ฉลากได้มาจากคะแนนดนตรีที่สอดคล้องกับการบันทึกโดยการแปรปรวนเวลาแบบไดนามิก ฉลากได้รับการตรวจสอบโดยนักดนตรีที่ผ่านการฝึกอบรม เราประเมินอัตราความผิดพลาดในการติดฉลาก 4% เรานำเสนอป้ายกำกับ MusicNet ให้กับชุมชนการเรียนรู้ของเครื่องและชุมชนดนตรีเป็นแหล่งข้อมูลสำหรับรูปแบบการฝึกอบรมและมาตรฐานทั่วไปสำหรับการเปรียบเทียบผลลัพธ์
- MusicCaps - MusicCaps เป็นชุดข้อมูลที่ประกอบด้วยคู่ข้อความดนตรี 5.5K พร้อมคำอธิบายข้อความที่หลากหลายโดยผู้เชี่ยวชาญของมนุษย์
- Musedata - Musedata เป็นห้องสมุดอิเล็กทรอนิกส์ของดนตรีออเคสตร้าและเปียโนคลาสสิกจาก Ccarh ประกอบด้วยไฟล์ประมาณ 3MB จาก 783 ไฟล์
- MUSDB18 - MUSDB18 เป็นชุดข้อมูลของเพลงเพลงเต็มความยาว 150 เพลง (ระยะเวลา ~ 10h) ของประเภทที่แตกต่างกันพร้อมกับกลองที่แยกได้เบสเสียงร้องและอื่น ๆ ชุดข้อมูลจะถูกแบ่งออกเป็นชุดการฝึกอบรมและทดสอบด้วย 100 และ 50 เพลงตามลำดับ สัญญาณทั้งหมดเป็น stereophonic และเข้ารหัสที่ 44.1kHz
- หัวข้อเพลงและข้อมูลเมตา - ชุดข้อมูลนี้ให้รายการเนื้อเพลงตั้งแต่ปี 1950 ถึง 2019 อธิบายข้อมูลเมตาเพลงว่าเป็นความเศร้าความสามารถในการเต้นเสียงดังเสียงอคูสติก ฯลฯ เรายังให้ข้อมูลบางอย่างเป็นเนื้อเพลงที่สามารถใช้ในการประมวลผลภาษาธรรมชาติ
- ชุดข้อมูลประเภทเพลง - ชุดข้อมูลของ 1494 ประเภทแต่ละเพลงมี 200 เพลง
- ชุดข้อมูล Multimodal Sheet Music - MSMD เป็นชุดข้อมูลสังเคราะห์ของเพลง (คลาสสิก) 497 ชิ้นที่มีทั้งการแสดงเสียงและคะแนนของชิ้นส่วนที่จัดเรียงในระดับที่ละเอียด (344,742 คู่ของโน้ต
- MUVI-SYNC-ชุดข้อมูล MUVI-SYNC เป็นชุดข้อมูลแบบหลายรูปแบบประกอบด้วยคุณสมบัติทั้งสอง (คอร์ดคีย์ความดังและความหนาแน่นของโน้ต) และคุณสมบัติวิดีโอ (ชดเชยฉากอารมณ์การเคลื่อนไหวและความหมาย) สกัดจากทั้งหมด 748 มิวสิควิดีโอ
- NLAKH - NLAKH เป็นชุดข้อมูลสำหรับการดึงเครื่องดนตรี มันเป็นการรวมกันของชุดข้อมูล NSYNTH ซึ่งให้เครื่องมือจำนวนมากและชุดข้อมูล lakh ซึ่งให้ข้อมูล MIDI หลายแทร็ก
- NSYNTH - NSYNTH เป็นชุดข้อมูลของบันทึกการถ่ายภาพหนึ่งภาพที่มีโน้ตดนตรี 305,979 รายการพร้อมระดับเสียงที่ไม่เหมือนใครเสียงต่ำและซองจดหมาย เสียงถูกรวบรวมจาก 1006 Instruments จากห้องสมุดตัวอย่างเชิงพาณิชย์และมีคำอธิบายประกอบตามแหล่งที่มา (อะคูสติกอิเล็กทรอนิกส์หรือสังเคราะห์) ครอบครัวเครื่องมือและคุณภาพเสียง ครอบครัวเครื่องมือที่ใช้ในการเพิ่มความคิดเห็นคือเบส, ทองเหลือง, ฟลุต, กีตาร์, คีย์บอร์ด, ตะลุมพุก, ออร์แกน, กก, สตริง, ตะกั่ว synth และแกนนำ มีการสร้างตัวอย่างเสียง Monophonic 16KHz สี่วินาที (หมายเหตุ) สำหรับเครื่องมือ
- NES-MDB (ฐานข้อมูลเพลง Nintendo Entertainment System)-ฐานข้อมูลเพลง Nintendo Entertainment System (NES-MDB) เป็นชุดข้อมูลสำหรับการสร้างระบบองค์ประกอบเพลงอัตโนมัติสำหรับ NES Audio Synthesizer ประกอบด้วย 5278 เพลงจากซาวด์แทร็กของ 397 เกม NES ชุดข้อมูลแสดงถึงนักแต่งเพลงที่ไม่ซ้ำกัน 296 คนและเพลงมีโน้ตมากกว่าสองล้านรายการรวมกัน มันมีตัวเลือกรูปแบบไฟล์สำหรับ MIDI, คะแนนและ NLM (การสร้างแบบจำลองภาษา NES)
- ชุดข้อมูลความก้าวหน้าของคอร์ด Niko - ชุดข้อมูลความก้าวหน้าของคอร์ด Niko ใช้ใน Accomontage2 มันมีชิ้นความก้าวหน้า 5K+ คอร์ดที่มีสไตล์ มีสี่สไตล์ทั้งหมด: POP Standard, Pop Complex, Dark และ R&B
- ชุดข้อมูลเพลง Onair -? ชุดข้อมูล STEM ใหม่สำหรับการวิจัยเพลง Demixing จากโครงการดนตรีที่ปราศจากค่าลิขสิทธิ์ Onair
- OpenCpop - OpenCpop ซึ่งเป็นคลังร้องเพลงแมนดารินคุณภาพสูงที่เปิดเผยต่อสาธารณะได้รับการออกแบบมาสำหรับระบบการสังเคราะห์เสียง (SVS) คลังข้อมูลนี้ประกอบด้วย เพลงแมนดารินที่ไม่ซ้ำกัน 100 เพลง ซึ่งบันทึกโดย นักร้องหญิงมืออาชีพ ไฟล์เสียงทั้งหมดถูกบันทึกด้วยคุณภาพสตูดิโอในอัตราการสุ่มตัวอย่าง 44,100 Hz ใน สภาพแวดล้อมสตูดิโอบันทึกเสียงระดับมืออาชีพ
- OpenGufeng - ชุดข้อมูลการทำท่วงทำนองและคอร์ดสำหรับเพลง Gufeng จีน
- PBSCSR - ชุดข้อมูลการจดจำสไตล์เปียโนของนักแต่งเพลง เป้าหมายที่ครอบคลุมของเราคือการสร้างชุดข้อมูลสำหรับการศึกษาการจดจำสไตล์นักแต่งเพลงที่ "เข้าถึงได้เหมือน MNIST และท้าทายเท่ากับ Imagenet" เพื่อให้บรรลุเป้าหมายนี้เราได้สุ่มตัวอย่างชิ้นส่วนคะแนนความยาวคงที่จากภาพแผ่นเพลงเปียโนบน IMSLP ชุดข้อมูลนั้นมีรูปภาพคะแนน Bootleg 40,000 62x64 สำหรับงานการจำแนก 9-Way, 100,000 62x64 คะแนน Bootleg คะแนนสำหรับงานการจำแนก 100 ทางและ 29,310 คะแนน Bootleg ความยาวตัวแปรที่ไม่มีป้ายกำกับ
- POP909 - POP909 เป็นชุดข้อมูลที่มีการจัดเปียโนหลายรุ่นของเพลงยอดนิยม 909 เพลงที่สร้างโดยนักดนตรีมืออาชีพ ร่างกายหลักของชุดข้อมูลประกอบด้วยเสียงร้องเสียงเพลงนำหลักและการเล่นเปียโนสำหรับแต่ละเพลงในรูปแบบ MIDI ซึ่งสอดคล้องกับไฟล์เสียงต้นฉบับ นอกจากนี้คำอธิบายประกอบนั้นมีอยู่ในจังหวะ, จังหวะ, คีย์และคอร์ดที่ซึ่งเส้นโค้งจังหวะนั้นมีการติดฉลากด้วยมือและอื่น ๆ ทำโดยอัลกอริทึม MIR
- PROGGP - ชุดข้อมูลของ 173 เพลงโลหะก้าวหน้าทั้งในรูปแบบ GuitarPro และโทเค็นตามข้อกำหนดใน DADAGP
- RWC (ฐานข้อมูลเพลงในโลกแห่งความเป็นจริง) - ฐานข้อมูลเพลง RWC (โลกแห่งความจริง) เป็นฐานข้อมูลเพลงที่ผ่านการตรวจสอบลิขสิทธิ์ (DB) ซึ่งมีให้สำหรับนักวิจัยในฐานะรากฐานทั่วไปสำหรับการวิจัย มันมีเพลงที่สมบูรณ์ประมาณ 100 เพลงพร้อมขอบเขตส่วนที่มีป้ายกำกับด้วยตนเอง สำหรับเครื่องดนตรี 50 เครื่องเสียงส่วนบุคคลในช่วงครึ่งโทนถูกจับด้วยรูปแบบการเล่นหลายรูปแบบพลวัตผู้ผลิตเครื่องดนตรีและนักดนตรี
- Sangeet - ชุดข้อมูล XML สำหรับดนตรีคลาสสิกของ Hindustani Sangeet เก็บรักษาข้อมูลที่จำเป็นทั้งหมดขององค์ประกอบใด ๆ ที่กำหนดรวมถึงข้อมูลเมตา, โครงสร้าง, notational, จังหวะและข้อมูลไพเราะในวิธีที่ได้มาตรฐานสำหรับการจัดเก็บที่ง่ายและมีประสิทธิภาพและการสกัดข้อมูลทางดนตรี ชุดข้อมูลมีวัตถุประสงค์เพื่อให้ข้อมูลความจริงพื้นฐานสำหรับงานวิจัยข้อมูลเพลงซึ่งสนับสนุนการวิเคราะห์ข้อมูลที่ขับเคลื่อนด้วยข้อมูลหลายอย่างจากมุมมองการเรียนรู้ของเครื่อง
- Singkt -Dataset - Singkt เป็นชุดข้อมูลการประเมินประสิทธิภาพของเพลงในสาขา KT ซึ่งพยายามใช้วิธีการติดตามความรู้เพื่อจับการเปลี่ยนแปลงแบบไดนามิกในความสามารถในการมองเห็นของผู้เรียน ชุดข้อมูลรวบรวมข้อมูลจากแพลตฟอร์มการฝึกซ้อมอัจฉริยะสาธารณะ Singmaster ชุดข้อมูล SingKT มีตารางข้อมูลบันทึกการตอบรับหลัก (บันทึก) และตารางข้อมูลข้อมูลเพิ่มเติมสองตาราง (ผู้ใช้, opernds) ตารางผู้ใช้บันทึกข้อมูลการมองเห็นสำหรับผู้เรียน 1074 คนที่มีอยู่ในชุดข้อมูลและตาราง OperNDS บันทึกข้อมูลแผ่นเพลง
- SLAKH2100-ชุดข้อมูล lakh (SLAKH) สังเคราะห์เป็นชุดข้อมูลสำหรับการแยกแหล่งเสียงที่สังเคราะห์จากชุดข้อมูล MIDI LAKH V0.1 โดยใช้เครื่องมือเสมือนจริงตามระดับมืออาชีพ การเปิดตัวครั้งแรกของ SLAKH นี้เรียกว่า SLAKH2100 มี 2100 แทร็กผสมโดยอัตโนมัติและไฟล์ MIDI ที่สังเคราะห์ขึ้นโดยใช้เอ็นจิ้นการสุ่มตัวอย่างเกรดระดับมืออาชีพ แทร็กใน SLAKH2100 ถูกแบ่งออกเป็นการฝึกอบรม (1,500 แทร็ก), การตรวจสอบความถูกต้อง (375 แทร็ก) และการทดสอบ (225 แทร็ก) ชุดย่อยรวม 145 ชั่วโมงของการผสม
- Symphonynet-Symponynet เป็นโครงการโอเพนซอร์ซที่มีวัตถุประสงค์เพื่อสร้างเพลงหลายแทร็กและเพลงหลายเพลงที่ซับซ้อนเช่น Symphony วิธีการของเราเข้ากันได้อย่างสมบูรณ์กับเพลงประเภทอื่น ๆ เช่น Pop, Piano, Solo Music ..etc
- ชุดข้อมูล Tabla Solo - ชุดข้อมูล Tabla Solo เป็นคอลเลกชันที่ถอดความของการบันทึกเสียง Solo Tabla ที่ประกอบไปด้วยองค์ประกอบจากหก gharanas ที่แตกต่างกันของ Tabla ที่เล่นโดย Pt Arvind Mulgaonkar ชุดข้อมูลประกอบด้วยเสียงและเวลาที่จัดตำแหน่งการถอดรหัส BOL
- ชุดข้อมูล Tegridy MIDI - ชุดข้อมูล Tegridy MIDI สำหรับการสร้างโมเดล AI เพลงที่แม่นยำและมีประสิทธิภาพ
- ชุดข้อมูล Lakh MIDI - ชุดข้อมูล LAKH MIDI เป็นคอลเล็กชั่นไฟล์ MIDI ที่ไม่ซ้ำกัน 176,581 ไฟล์ 45,129 ไฟล์ซึ่งได้รับการจับคู่และจัดเรียงกับรายการในชุดข้อมูลล้าน เป้าหมายคือการอำนวยความสะดวกในการดึงข้อมูลเพลงขนาดใหญ่ทั้งสองสัญลักษณ์ (โดยใช้ไฟล์ MIDI เพียงอย่างเดียว) และเนื้อหาเสียง (โดยใช้ข้อมูลที่แยกออกมาจากไฟล์ MIDI เป็นคำอธิบายประกอบสำหรับไฟล์เสียงที่ตรงกัน)
- ชุดข้อมูลเพลงอิตาลี - ชุดข้อมูลถูกสร้างขึ้นโดยใช้ประโยชน์จาก Spotify และ SoundCloud APIs ประกอบด้วยเพลงที่แตกต่างกันกว่า 14,500 เพลงของนักดนตรีชาวอิตาลีที่มีชื่อเสียงและมีชื่อเสียงน้อยกว่า แต่ละเพลงในชุดข้อมูลจะถูกระบุโดย Spotify ID และชื่อของมัน ข้อมูลเมตาของ Tracks รวมถึงเนื้อเพลง lemmatized และ pos-tagged และในกรณีส่วนใหญ่คุณสมบัติทางดนตรีสิบรายการที่รวบรวมโดยตรงจาก Spotify คุณสมบัติทางดนตรีรวมถึงอะคูสติก (ลอย), ความสามารถในการเต้น (ลอย), duration_ms (int), พลังงาน (ลอย), เครื่องมือ (ลอย), ความมีชีวิตชีวา (ลอย), เสียงดัง (ลอย), บทกวี (ลอย), จังหวะ (ลอย) ลอย).
- The Persian Piano Corpus - เปอร์เซียเปียโนคลังข้อมูลเป็นคอลเล็กชั่นเพลงเปียโนเปอร์เซียที่ครอบคลุมซึ่งครอบคลุมตั้งแต่นักแต่งเพลงยุคแรกไปจนถึงร่างร่วมสมัย มันได้รับการรวบรวมอย่างพิถีพิถันและทำให้สามารถเข้าถึงได้สาธารณะโดยมีวัตถุประสงค์เพื่อให้นักวิจัยสามารถสำรวจการสืบสวนเฉพาะและมีส่วนร่วมในการค้นพบใหม่ วิธีการที่ใช้เครื่องมือเป็นคลังข้อมูลที่เกี่ยวข้องกับเปียโนเปอร์เซียรวมถึงฉลากที่เกี่ยวข้องและข้อมูลเมตาที่ครอบคลุม
- ชุดข้อมูล Describer Song-ชุดข้อมูล Describer Song: คลังข้อมูลของคำบรรยายภาพสำหรับการประเมินดนตรีและภาษา ชุดข้อมูล Song Describer เป็นชุดข้อมูลการประเมินที่ทำจากคำอธิบายภาพ ~ 1.1K สำหรับ 706 การบันทึกเพลงที่ได้รับอนุญาตอย่างอนุญาต
- ตัวจําแนกสัญลักษณ์ดนตรี Universal - โครงการ Python ที่ฝึกอบรมเครือข่ายประสาทลึกเพื่อแยกความแตกต่างระหว่างสัญลักษณ์ดนตรี
- URMP (การแสดงดนตรีหลายรูปแบบของมหาวิทยาลัยโรเชสเตอร์)-URMP (การแสดงดนตรีหลายรูปแบบของมหาวิทยาลัยโรเชสเตอร์) เป็นชุดข้อมูลสำหรับการอำนวยความสะดวกในการวิเคราะห์ภาพและเสียงของการแสดงดนตรี ชุดข้อมูลประกอบด้วยชิ้นส่วนดนตรีหลายชิ้นที่ใช้งานได้ง่าย 44 ชิ้นประกอบไปด้วยการประสานงาน แต่บันทึกแยกต่างหากของแต่ละแทร็ก สำหรับแต่ละชิ้นชุดข้อมูลให้คะแนนดนตรีในรูปแบบ MIDI การบันทึกเสียงเครื่องดนตรีแต่ละรายการคุณภาพสูงและวิดีโอของชิ้นส่วนที่ประกอบ
- ชุดข้อมูล VGMIDI - VGMIDI เป็นชุดข้อมูลของการจัดเปียโนของซาวด์แทร็กวิดีโอเกม มันมีชิ้นส่วน MIDI 200 ชิ้นที่มีป้ายกำกับตามอารมณ์และ 3,850 ชิ้นที่ไม่มีป้ายกำกับ ชิ้นส่วนที่ติดฉลากแต่ละชิ้นนั้นมีคำอธิบายประกอบโดยวิชามนุษย์ 30 วิชาตามแบบจำลองของอารมณ์ความรู้สึก (Valence-arousal)
- Strings Virtuoso - Strings Virtuoso เป็นชุดข้อมูลสำหรับการตรวจจับ soft onsets สำหรับเครื่องมือสตริง ประกอบด้วยการบันทึกการแสดงระดับมืออาชีพมากกว่า 144 รายการของข้อความที่ตัดตอนมาจาก String Quartet Op ของ Haydn 74 ฉบับที่ 1 ตอนจบแต่ละรายการมีคำอธิบายประกอบการเริ่มต้นที่เกี่ยวข้องกับแต่ละบุคคล
- Wikimute - Wikimute: ชุดข้อมูลที่มาจากเว็บของคำอธิบายความหมายสำหรับเสียงเพลง ในการศึกษานี้เรานำเสนอ Wikimute ชุดข้อมูลใหม่และเปิดที่มีคำอธิบายความหมายที่หลากหลายของดนตรี ข้อมูลนี้มาจากแคตตาล็อกที่หลากหลายของ Wikipedia บทความที่ครอบคลุมผลงานดนตรี ด้วยการใช้ท่อส่งข้อความโดยเฉพาะเราแยกคำอธิบายทั้งแบบยาวและแบบสั้นซึ่งครอบคลุมหัวข้อที่หลากหลายที่เกี่ยวข้องกับเนื้อหาเพลงเช่นประเภทสไตล์อารมณ์การใช้เครื่องมือและจังหวะ
- YM2413-MDB- YM2413-MDB เป็นชุดข้อมูลเพลงวิดีโอเกม FM 80S ที่มีคำอธิบายประกอบอารมณ์หลายฉลาก มันมีไฟล์เสียง 669 ไฟล์และ MIDI ของเพลงจากเกม SEGA และ MSX PC ในยุค 80 โดยใช้ YM2413 ซึ่งเป็นเครื่องกำเนิดเสียงที่ตั้งโปรแกรมได้ตาม FM เพลงเกมที่รวบรวมได้นั้นจัดขึ้นด้วยชุดย่อยของเครื่องดนตรี Monophonic 15 เครื่องและเครื่องดนตรีกลองหนึ่งอัน
^ กลับไปที่เนื้อหา ^
เอฟเฟกต์เสียง
- ชุดข้อมูลเสียงสัตว์ - ข้อมูลนี้ประกอบด้วยเสียงสัตว์ 875 เสียงมีเสียงสัตว์ 10 ชนิด ชุดข้อมูลสัตว์นี้ประกอบด้วยแมว 200 ตัว, สุนัข 200 ตัว, นก 200 ตัว, วัว 75 ตัว, 45 สิงโต, แกะ 40 ตัว, 35 กบ, ไก่ 30 ตัว, 25 ลา, 25 เสียงลิง
- Audioset-Audioset เป็นชุดข้อมูลเหตุการณ์เสียงซึ่งประกอบด้วยคลิปวิดีโอ 10 วินาทีที่มีคำอธิบายประกอบของมนุษย์มากกว่า 2 เมตร คลิปเหล่านี้ถูกเก็บรวบรวมจาก YouTube ดังนั้นส่วนใหญ่จะอยู่ในคุณภาพต่ำและมีหลายแหล่งเสียง อภิปรัชญาลำดับชั้นของชั้นเรียนเหตุการณ์ 632 ครั้งถูกนำมาใช้เพื่อใส่คำอธิบายประกอบข้อมูลเหล่านี้ซึ่งหมายความว่าเสียงเดียวกันนี้สามารถใส่คำอธิบายประกอบเป็นฉลากที่แตกต่างกัน ตัวอย่างเช่นเสียงเห่านั้นมีคำอธิบายประกอบเป็นสัตว์สัตว์เลี้ยงและสุนัข วิดีโอทั้งหมดจะถูกแบ่งออกเป็นชุดการประเมิน/การรถไฟที่สมดุล/ไม่สมดุล
- Audiocaps - Audiocaps เป็นชุดข้อมูลของเสียงที่มีคำอธิบายเหตุการณ์ที่ได้รับการแนะนำสำหรับงานคำบรรยายภาพด้วยเสียงที่มาจากชุดข้อมูลเสียง คำอธิบายประกอบได้รับแทร็กเสียงพร้อมกับคำแนะนำหมวดหมู่ (และมีคำแนะนำวิดีโอเพิ่มเติมหากจำเป็น)
- AUTO-ACD-เรานำเสนอท่อส่งสัญญาณเสียงที่เป็นนวัตกรรมและอัตโนมัติสร้างชุดข้อมูลภาษาเสียงขนาดใหญ่คุณภาพสูงและมีชื่อว่า Auto-ACD ประกอบด้วยคู่ข้อความเสียงมากกว่า 1.9M คำอธิบายข้อความใน Auto-ACD มีข้อความยาว (18 คำ) และคำศัพท์ที่หลากหลาย (23K) และให้ข้อมูลเกี่ยวกับสภาพแวดล้อมการได้ยินโดยรอบ (จุดข้อมูลที่มีเงา) ซึ่งเสียงเกิดขึ้น
- เอฟเฟกต์เสียง BBC - มีเอฟเฟกต์เสียง 33,066 ในชุดข้อมูลเอฟเฟกต์เสียง BBC พร้อมคำอธิบายข้อความ ประเภท: เสียงรอบข้างส่วนใหญ่ ทุกเสียงมีคำอธิบายที่เป็นธรรมชาติ
- DCASE 2016 - DCASE 2016 เป็นชุดข้อมูลสำหรับการตรวจจับเหตุการณ์เสียง ประกอบด้วยไฟล์เสียงโมโนสั้น 20 ไฟล์สำหรับแต่ละคลาสเสียง 11 คลาส (จากสภาพแวดล้อมของสำนักงานเช่น Clearthroat, ลิ้นชักหรือแป้นพิมพ์) แต่ละไฟล์ที่มีหนึ่งอินสแตนซ์เหตุการณ์เสียง ไฟล์เสียงมีคำอธิบายประกอบด้วยเหตุการณ์ในและออฟเซ็ตเหตุการณ์อย่างไรก็ตามความเงียบระหว่างเสียงทางกายภาพจริง (เช่นกับเสียงเรียกเข้าโทรศัพท์) จะไม่ถูกทำเครื่องหมายและด้วยเหตุนี้ "รวม" ในเหตุการณ์
- ชุดข้อมูลเสียงด้านสิ่งแวดล้อม - หน้านี้พยายามรักษารายการชุดข้อมูลที่เหมาะสมสำหรับการวิจัยเสียงด้านสิ่งแวดล้อม นอกเหนือจากชุดข้อมูลที่มีอยู่อย่างอิสระแล้วชุดข้อมูลที่เป็นกรรมสิทธิ์และเชิงพาณิชย์ยังมีการระบุไว้ที่นี่เพื่อความสมบูรณ์ นอกเหนือจากชุดข้อมูลแล้วยังมีการแสดงรายการบริการเสียงออนไลน์บางรายการที่สิ้นสุดในตอนท้ายของหน้า
- ESC-50-ชุดข้อมูล ESC-50 เป็นคอลเลกชันที่มีป้ายกำกับของการบันทึกเสียงด้านสิ่งแวดล้อม 2,000 รายการที่เหมาะสมสำหรับวิธีการเปรียบเทียบการจำแนกประเภทเสียงสิ่งแวดล้อม ประกอบด้วย 2,000 5S-Clips ของ 50 คลาสที่แตกต่างกันในเสียงธรรมชาติมนุษย์และในประเทศอีกครั้งดึงมาจาก freesound.org
- Fair-Play-Fair-Play เป็นชุดข้อมูลวิดีโอและวิดีโอประกอบด้วยคลิปวิดีโอ 1,871 คลิปและคลิปเสียง binaural ที่เกี่ยวข้องในห้องดนตรี คลิปวิดีโอและคลิป binaural ของดัชนีเดียวกันนั้นมีการจัดตำแหน่งประมาณ
- FSD50K (ฐานข้อมูล Freesound 50K) - ชุดข้อมูล Freesound 50K (หรือ FSD50K สั้น ๆ ) เป็นชุดข้อมูลแบบเปิดของเหตุการณ์เสียงที่มีป้ายกำกับมนุษย์ที่มีคลิปฟรี 51,197 คลิปกระจายอย่างไม่เท่าเทียมกันใน 200 คลาสที่ดึงมาจาก ontology เสียง FSD50K ถูกสร้างขึ้นที่กลุ่มเทคโนโลยีดนตรีของ Universitat Pompeu Fabra มันประกอบด้วยเหตุการณ์เสียงที่เกิดจากแหล่งเสียงทางกายภาพและกลไกการผลิตรวมถึงเสียงของมนุษย์เสียงของสิ่งต่าง ๆ สัตว์เสียงธรรมชาติเครื่องดนตรีและอื่น ๆ
- FSDNOISY18K-ชุดข้อมูล FSDNOISY18K เป็นชุดข้อมูลแบบเปิดที่มีเสียง 42.5 ชั่วโมงในคลาสเหตุการณ์เสียง 20 คลาสรวมถึงข้อมูลที่ติดฉลากด้วยตนเองจำนวนเล็กน้อยและข้อมูลเสียงดังในโลกแห่งความเป็นจริงจำนวนมาก เนื้อหาเสียงถูกนำมาจาก Freesound และชุดข้อมูลได้รับการดูแลโดยใช้ Annotator ฟรี ชุดที่มีเสียงดังของ FSDNOISY18K ประกอบด้วยคลิปเสียง 15,813 คลิป (38.8H) และชุดทดสอบประกอบด้วย 947 คลิปเสียง (1.4H) พร้อมป้ายกำกับที่ถูกต้อง ชุดข้อมูลมีสัญญาณรบกวนฉลากสองประเภทหลัก: in-vocabulary (IV) และ out-of-vocabulary (OOV) IV ใช้เมื่อได้รับฉลากที่สังเกตว่าไม่ถูกต้องหรือไม่สมบูรณ์ฉลากจริงหรือที่หายไปเป็นส่วนหนึ่งของชุดคลาสเป้าหมาย oov แบบอะนาล็อกหมายความว่าฉลากจริงหรือที่หายไปนั้นไม่ได้ครอบคลุมโดย 20 คลาสเหล่านั้น
- Fuss (การแยกเสียงสากลฟรี) - ชุดข้อมูลการแยกเสียงสากล (Fuss) ฟรีเป็นฐานข้อมูลของการผสมเสียงโดยพลการและการอ้างอิงระดับแหล่งที่มาสำหรับใช้ในการทดลองเกี่ยวกับการแยกเสียงโดยพลการ Fuss ขึ้นอยู่กับคลังข้อมูล FSD50K
- ชุดข้อมูลเสียง inaturalist - เรานำเสนอชุดข้อมูล Sounds Inaturalist (Inatsounds) คอลเลกชันของไฟล์เสียง 230,000 ไฟล์ที่จับเสียงจากกว่า 5,500 สปีชีส์ซึ่งมีผู้บันทึกมากกว่า 27,000 คนทั่วโลก
- การเคาะเอฟเฟกต์เสียงด้วยความตั้งใจทางอารมณ์ - ชุดข้อมูลถูกบันทึกโดยศิลปิน Foley มืออาชีพ Ulf Olausson ที่ Foleyworks Studios ในสตอกโฮล์มเมื่อวันที่ 15 ตุลาคม 2019 ได้รับแรงบันดาลใจจากงานก่อนหน้านี้ เราเลือกอารมณ์ห้าประเภทที่จะแสดงในชุดข้อมูล: ความโกรธความกลัวความสุขความเป็นกลางและความเศร้า
- MIMII - ชุดข้อมูลเสียงสำหรับการตรวจสอบเครื่องจักรอุตสาหกรรมที่ทำงานผิดปกติและการตรวจสอบ (MIMII) เป็นชุดข้อมูลเสียงของเครื่องจักรอุตสาหกรรม
- ชุดข้อมูลเหตุการณ์เสียง MIVIA - ชุดข้อมูลเหตุการณ์เสียง MIVIA ประกอบด้วยเหตุการณ์ทั้งหมด 6,000 เหตุการณ์สำหรับการใช้งานการเฝ้าระวังคือการทำลายแก้วการยิงปืนและเสียงกรีดร้อง เหตุการณ์ 6000 แบ่งออกเป็นชุดฝึกอบรม (ประกอบเหตุการณ์ 4200) และชุดทดสอบ (ประกอบเหตุการณ์ 1800)
- ชุดข้อมูล Audio Pitch (Surge Synthesizer) - 3.4 ชั่วโมงของการสังเคราะห์เสียงโดยใช้ Synthesizer โอเพนซอร์ซซึ่งขึ้นอยู่กับ 2084 ที่ตั้งไว้ล่วงหน้าที่รวมอยู่ในแพ็คเกจไฟกระชาก สิ่งเหล่านี้เป็นตัวแทนของเสียงการสังเคราะห์ `` ธรรมชาติ '---- iEpresets ที่มนุษย์คิดค้นขึ้น เราสร้างตัวอย่าง 4 วินาทีที่เล่นที่ความเร็ว 64 ด้วยระยะเวลาหมายเหตุ 3 วินาที สำหรับแต่ละที่ตั้งไว้ล่วงหน้าเราจะเปลี่ยนแปลงเฉพาะสนามจาก MIDI 21--108 ช่วงของเปียโนแกรนด์ ทุกเสียงในชุดข้อมูลเป็นระดับ RMS ปกติโดยใช้แพ็คเกจ Normalize ไม่มีวิธีที่สง่างามในการอุทิศชุดข้อมูลนี้ อย่างไรก็ตามมีเพียงเล็กน้อยเพียงเล็กน้อยของการตั้งค่าล่วงหน้า (เช่นกลองและเอฟเฟกต์เสียง) ไม่มีการเปลี่ยนแปลงระดับเสียงหรือการสั่งซื้อ
- REMFX - REMFX: ชุดข้อมูลการประเมินผล ชุดข้อมูลเหล่านี้มีแหล่งเริ่มต้นจากชุดข้อมูล Vocalset, Guitarset, DSD100 และ IDMT-SMT-drums ก่อนที่จะถูกประมวลผลในสคริปต์การสร้างชุดข้อมูลของเรา ชุดข้อมูลมีชื่อตามจำนวนเอฟเฟกต์ที่ใช้ (0-5) ตัวอย่างเช่น 2-2.ZIP มี 2 เอฟเฟกต์ที่ใช้กับแต่ละตัวอย่างเสียงอินพุต เป้าหมายจะไม่ถูกแตะต้อง เอฟเฟกต์เสียงที่ใช้มาจากชุด (การบิดเบือน, การหน่วงเวลา, คอมเพรสเซอร์ช่วงไดนามิก, phasor, reverb) และตัวอย่างสุ่มโดยไม่ต้องเปลี่ยนสำหรับแต่ละตัวอย่าง
- SoundCam-SoundCam ชุดข้อมูลที่ใหญ่ที่สุดของ RIRs ที่ไม่เหมือนใครจากห้องพักที่เปิดตัวสู่สาธารณะจนถึงปัจจุบัน มันมีการวัดความเป็นจริง 10 ช่องทาง 10 ช่องทางของการตอบสนองต่อแรงกระตุ้นของห้องพักและการบันทึกเพลง 10 ช่อง 2,000 ในสามห้องที่แตกต่างกันรวมถึงห้องปฏิบัติการอะคูสติกที่ควบคุมได้ห้องนั่งเล่นในป่าและห้องประชุมที่มีมนุษย์ต่างกันแตกต่างกัน อยู่ในตำแหน่งทั่วแต่ละห้อง
- Soundingearth - Soundingearth ประกอบด้วยภาพทางอากาศที่ตั้งอยู่ร่วมกันและตัวอย่างเสียงทั่วโลก
- Librispeech เชิงพื้นที่-Librispeech เชิงพื้นที่เป็นชุดข้อมูลเสียงเชิงพื้นที่ที่มีความแอมบนิกส์ลำดับแรกมากกว่า 650 ชั่วโมง Librispeech เชิงพื้นที่ได้รับการออกแบบมาสำหรับการฝึกอบรมรูปแบบการเรียนรู้ของเครื่องและมีฉลากสำหรับตำแหน่งแหล่งที่มาทิศทางการพูดเสียงห้องและเรขาคณิต Librispeech เชิงพื้นที่ถูกสร้างขึ้นโดยการเพิ่มตัวอย่าง Librispeech ด้วยเงื่อนไขอะคูสติก 200K+ จำลองในห้องสังเคราะห์ 8K+
- STARSS22 (Sony-Tau Soundscapes Spatial Soundscapes 2022)-ชุดข้อมูลเชิงพื้นที่ที่สมจริงของ Sony-Tau 2022 (STARSS22) ประกอบด้วยการบันทึกฉากจริงที่จับด้วยอาร์เรย์ไมโครโฟนทรงกลม (SMA) การบันทึกดังกล่าวดำเนินการจากสองทีมที่แตกต่างกันในสองไซต์ที่แตกต่างกันคือ Tampere University ใน Tammere, Finland และ Sony ในโตเกียวประเทศญี่ปุ่น การบันทึกที่ทั้งสองไซต์แบ่งปันกระบวนการจับภาพและคำอธิบายประกอบเดียวกันและองค์กรที่คล้ายกัน
- Toyadmos - ชุดข้อมูล Toyadmos เป็นชุดข้อมูลการทำงานของเครื่องจักรเสียงประมาณ 540 ชั่วโมงของเสียงเครื่องจักรปกติและเสียงมากกว่า 12,000 ตัวอย่างของเสียงผิดปกติที่รวบรวมด้วยไมโครโฟนสี่ตัวที่อัตราการสุ่มตัวอย่าง 48kHz จัดทำโดย Yuma Koizumi และสมาชิกใน NTT Media
- TUT Sound Events 2017 - ชุดข้อมูล TUT Sound Events 2017 มีการบันทึกเสียง 24 รายการในสภาพแวดล้อมบนท้องถนนและมี 6 คลาสที่แตกต่างกัน ชั้นเรียนเหล่านี้คือ: เบรกที่ส่งเสียงดัง, รถยนต์, เด็ก, ยานพาหนะขนาดใหญ่, ผู้คนที่พูดและผู้คนเดิน
- Urbansound8K - Urban Sound 8K เป็นชุดข้อมูลเสียงที่มีข้อความที่ตัดตอนมาจากเสียง 8732 เสียง (<= 4S) ของเสียงในเมืองจาก 10 ชั้นเรียน: Air_Conditioner, Car_horn, เด็ก _playing, Dog_bark, การขุดเจาะ ชั้นเรียนถูกดึงมาจากอนุกรมวิธานเสียงในเมือง ข้อความที่ตัดตอนมาทั้งหมดนำมาจากการบันทึกฟิลด์ที่อัปโหลดไปยัง www.freesound.org
- VGG-Sound - A large scale audio-visual dataset. VGG-Sound is an audio-visual correspondent dataset consisting of short clips of audio sounds, extracted from videos uploaded to YouTube.
- Visually Indicated Sounds - Materials make distinctive sounds when they are hit or scratched — dirt makes a thud; ceramic makes a clink. These sounds reveal aspects of an object's material properties, as well as the force and motion of the physical interaction.
^ Back to Contents ^