تنزيل ai audio datasets - تنزيل كود المصدر ai audio datasets

مجموعات بيانات الصوت AI (AI-ADS)؟

مجموعات بيانات الصوت AI

مجموعات البيانات الصوتية للذكاء الاصطناعي (AI-ADS)؟، بما في ذلك الكلام والموسيقى والمؤثرات الصوتية، والتي يمكن أن توفر بيانات تدريبية للذكاء الاصطناعي التوليدي وAIGC والتدريب على نماذج الذكاء الاصطناعي وتطوير الأدوات الصوتية الذكية والتطبيقات الصوتية.

جدول المحتويات

خطاب
موسيقى
تأثير الصوت

قائمة المشاريع

خطاب

AISHELL-1 - AISHELL-1 عبارة عن مجموعة أبحاث للتعرف على الكلام وبناء أنظمة التعرف على الكلام للغة الماندرين.
AISHELL-3 - AISHELL-3 عبارة عن مجموعة خطابات بلغة الماندرين واسعة النطاق وعالية الدقة ومتعددة المتحدثين تم نشرها بواسطة شركة Beijing Shell Shell Technology Co.,Ltd. ويمكن استخدامه لتدريب أنظمة تحويل النص إلى كلام (TTS) متعددة المتحدثين. تحتوي المجموعة على ما يقرب من 85 ساعة من التسجيلات المحايدة عاطفيًا والتي يتحدث بها 218 متحدثًا أصليًا للغة الصينية الماندرين وإجمالي 88035 كلامًا.
مجموعة الكلام العربي - مجموعة الكلام العربية (1.5 جيجابايت) هي مجموعة كلام باللغة العربية الفصحى الحديثة (MSA) لتركيب الكلام. تحتوي المجموعة على نسخ صوتية وهجائية لأكثر من 3.7 ساعة من خطاب MSA المتوافق مع الكلام المسجل على مستوى الصوت. تتضمن التعليقات التوضيحية علامات ضغط الكلمات على الصوتيات الفردية.
AudioMNIST - تتكون مجموعة البيانات من 30000 عينة صوتية من الأرقام المنطوقة (0-9) من 60 مكبر صوت مختلف.
AVSpeech - AVSpeech عبارة عن مجموعة بيانات صوتية ومرئية واسعة النطاق تشتمل على مقاطع كلام بدون إشارات خلفية متداخلة. المقاطع ذات أطوال متفاوتة، تتراوح بين 3 و10 ثوانٍ، وفي كل مقطع، يعود الوجه الوحيد المرئي في الفيديو والصوت المسموع في الموسيقى التصويرية إلى شخص واحد يتحدث. في المجمل، تحتوي مجموعة البيانات على ما يقرب من 4700 ساعة من مقاطع الفيديو مع ما يقرب من 150000 متحدث متميز، تغطي مجموعة واسعة من الأشخاص واللغات وأوضاع الوجه.
ATIS (أنظمة معلومات السفر بالخطوط الجوية) - ATIS (أنظمة معلومات السفر بالخطوط الجوية) عبارة عن مجموعة بيانات تتكون من تسجيلات صوتية ونصوص يدوية مقابلة حول البشر الذين يطلبون معلومات الرحلة على أنظمة الاستعلام الآلية عن سفر شركات الطيران. تتكون البيانات من 17 فئة نوايا فريدة. يحتوي القسم الأصلي على 4478 و500 و893 عبارة مرجعية مصنفة حسب النية في مجموعة التدريب والتطوير والاختبار على التوالي.
مجموعة بيانات كارناتيك فارنام - مجموعة بيانات كارناتيك فارنام عبارة عن مجموعة من 28 تسجيلًا صوتيًا منفردًا، تم تسجيلها لأبحاثنا حول تحليل التجويد لراجاس كارناتيك. تتكون المجموعة من تسجيلات صوتية وتعليقات توضيحية لدورة تالا وملاحظات سوارا بتنسيق يمكن قراءته آليًا.
المحادثات غير الرسمية - تم تصميم مجموعة بيانات المحادثات غير الرسمية لمساعدة الباحثين على تقييم رؤية الكمبيوتر والنماذج الصوتية الخاصة بهم للتأكد من دقتها عبر مجموعة متنوعة من الأعمار والأجناس وألوان البشرة الواضحة وظروف الإضاءة المحيطة.
CN-Celeb - CN-Celeb عبارة عن مجموعة بيانات واسعة النطاق للتعرف على المتحدثين تم جمعها "في البرية". تحتوي مجموعة البيانات هذه على أكثر من 130.000 كلام من 1000 من المشاهير الصينيين، وتغطي 11 نوعًا مختلفًا في العالم الحقيقي.
Clotho - Clotho عبارة عن مجموعة بيانات للتسميات التوضيحية الصوتية، تتكون من 4981 عينة صوتية، وكل عينة صوتية تحتوي على خمسة تسميات توضيحية (إجمالي 24905 تعليقًا). تتراوح مدة العينات الصوتية من 15 إلى 30 ثانية، بينما يتراوح طول التسميات التوضيحية من 8 إلى 20 كلمة.
الصوت العام - الصوت العام هو مجموعة بيانات صوتية تتكون من ملف MP3 فريد وملف نصي مطابق. هناك 9,283 ساعة مسجلة في مجموعة البيانات. تتضمن مجموعة البيانات أيضًا بيانات وصفية ديموغرافية مثل العمر والجنس واللهجة. تتكون مجموعة البيانات من 7335 ساعة تم التحقق منها بـ 60 لغة.
CoVoST - CoVoST عبارة عن مجموعة واسعة النطاق من خدمات تحويل الكلام إلى نص متعددة اللغات. يغطي الإصدار الثاني الأخير منه الترجمات من 21 لغة إلى الإنجليزية ومن الإنجليزية إلى 15 لغة. لديها إجمالي 2880 ساعة من الكلام ومتنوعة مع 78 ألف مكبر صوت و66 لهجة.
CVSS - CVSS عبارة عن مجموعة واسعة النطاق من ترجمة الكلام إلى الكلام (S2ST) متعددة اللغات إلى الإنجليزية، وتغطي أزواج S2ST المتوازية على مستوى الجملة من 21 لغة إلى الإنجليزية. يُشتق نظام CVSS من مجموعة خطاب الصوت العام ومجموعة ترجمة الكلام إلى نص (ST) لـ CoVoST، عن طريق تجميع نص الترجمة من CoVoST 2 إلى كلام باستخدام أنظمة تحويل النص إلى كلام (TTS) الحديثة.
EasyCom - مجموعة بيانات Easy Communication (EasyCom) هي مجموعة بيانات الأولى في العالم المصممة للمساعدة في التخفيف من تأثير حفل الكوكتيل من وجهة نظر عالمية أنانية متعددة المستشعرات ومحفزة بالواقع المعزز. تحتوي مجموعة البيانات على مجموعة ميكروفونات صوتية متعددة القنوات من نظارات الواقع المعزز، وفيديو RGB واسع النطاق للعرض، ووضعية مصدر الكلام، وصوت ميكروفون سماعة الرأس، والنشاط الصوتي المشروح، ونسخ الكلام، ومربعات تحديد الرأس والوجه، وتسميات تعريف المصدر. لقد أنشأنا مجموعة البيانات هذه ونقوم بإصدارها لتسهيل البحث في حلول الواقع المعزز متعددة الوسائط لمشكلة حفل الكوكتيل.
إميليا - مجموعة بيانات إميليا عبارة عن مورد شامل متعدد اللغات يتضمن أكثر من 101000 ساعة من بيانات الكلام بست لغات مختلفة: الإنجليزية (En)، والصينية (Zh)، والألمانية (De)، والفرنسية (Fr)، واليابانية (Ja)، والكورية (كو). ويتميز ببيانات كلام متنوعة تمثل أنماط التحدث المختلفة من العديد من منصات الفيديو والبودكاست على الإنترنت، والتي تشمل مجموعة واسعة من أنواع المحتوى مثل البرامج الحوارية والمقابلات والمناظرات والتعليقات الرياضية والكتب الصوتية.
ESD (قاعدة بيانات الكلام العاطفي) - ESD هي قاعدة بيانات الكلام العاطفي لأبحاث تحويل الصوت. تتكون قاعدة بيانات ESD من 350 لفظًا متوازيًا يتحدث بها 10 متحدثين أصليين للغة الإنجليزية و10 متحدثين صينيين أصليين، وتغطي 5 فئات من المشاعر (محايدة وسعيدة وغاضبة وحزينة ومفاجأة). تم تسجيل أكثر من 29 ساعة من بيانات الكلام في بيئة صوتية خاضعة للرقابة. قاعدة البيانات مناسبة لدراسات تحويل الصوت العاطفي متعددة المتحدثين واللغات.
مجموعة بيانات الكلام المفتوح FPT (FOSD) - تتكون مجموعة البيانات هذه من 25,921 خطابًا فيتناميًا مسجلاً (مع نصوصها وأوقات البدء والانتهاء لكل خطاب) تم تجميعها يدويًا من 3 مجموعات بيانات فرعية (حوالي 30 ساعة في المجموع) تم إصدارها علنًا في عام 2018 بواسطة شركة اف بي تي.
مجموعة بيانات الأرقام المنطوقة المجانية (FSDD) - مجموعة بيانات صوتية مجانية للأرقام المنطوقة. فكر في MNIST للصوت. مجموعة بيانات صوت/كلام بسيطة تتكون من تسجيلات للأرقام المنطوقة في ملفات wav بسرعة 8 كيلو هرتز. يتم قطع التسجيلات بحيث يكون الحد الأدنى من الصمت في البدايات والنهايات.
أوامر الكلام بطلاقة - أوامر الكلام بطلاقة هي مجموعة بيانات صوتية مفتوحة المصدر لتجارب فهم اللغة المنطوقة (SLU). يتم تصنيف كل عبارة بقيم "الإجراء" و"الكائن" و"الموقع"؛ على سبيل المثال، "تشغيل الأضواء في المطبخ" يحمل التصنيف {"action": "activate"، "object": "lights"، "location": "kitchen"}. يجب أن يتنبأ النموذج بكل من هذه القيم، ولا يعتبر التنبؤ بالكلام صحيحًا إلا إذا كانت جميع القيم صحيحة.
مجموعات بيانات Genshin - مجموعات بيانات Genshin لـ SVC/SVS/TTS.
GenshinVoice - مجموعة البيانات الصوتية لـ Genshin Impact 原神语音数据集
GigaSpeech - GigaSpeech، مجموعة متطورة ومتعددة المجالات للتعرف على الكلام باللغة الإنجليزية تحتوي على 10000 ساعة من الصوت عالي الجودة المناسب للتدريب الخاضع للإشراف، و40000 ساعة من الصوت الإجمالي المناسب للتدريب شبه الخاضع للإشراف وغير الخاضع للإشراف.
GigaSpeech 2 - مجموعة ASR متطورة وواسعة النطاق ومتعددة المجالات للغات منخفضة الموارد مع الزحف الآلي والنسخ والتحسين.
How2 - تحتوي مجموعة بيانات How2 على 13500 مقطع فيديو، أو 300 ساعة من الكلام، وهي مقسمة إلى 185187 تدريبًا، و2022 تطويرًا (dev)، و2361 كلامًا اختباريًا. يحتوي على ترجمات باللغة الإنجليزية وترجمات برتغالية جماعية.
inaGVAD - مجموعة بيانات تلفزيونية وإذاعية فرنسية مليئة بالتحديات مشروحة للكشف عن النشاط الصوتي (VAD) وتقسيم المتحدثين حسب الجنس (SGS) مع نصوص تقييمية ونظام تعليق توضيحي تفصيلي يوضح نوع الحدث غير الكلامي وسمات المتحدث وجودة الكلام
KdConv - KdConv عبارة عن مجموعة بيانات تحويل صينية تعتمد على المعرفة ومتعددة المجالات، حيث تقوم بتأسيس المواضيع في المحادثات متعددة المنعطفات إلى الرسوم البيانية المعرفية. يحتوي KdConv على 4.5 ألف محادثة من ثلاثة مجالات (الأفلام والموسيقى والسفر)، و86 ألف كلام بمتوسط عدد دورات يبلغ 19.0. تحتوي هذه المحادثات على مناقشات متعمقة حول مواضيع ذات صلة والانتقال الطبيعي بين موضوعات متعددة، في حين يمكن استخدام المجموعة أيضًا لاستكشاف نقل التعلم والتكيف مع المجال.
Libriheavy - Libriheavy: مجموعة ASR مدتها 50000 ساعة مع غلاف علامات الترقيم والسياق.
LibriSpeech - مجموعة LibriSpeech عبارة عن مجموعة مكونة من 1000 ساعة تقريبًا من الكتب الصوتية التي تعد جزءًا من مشروع LibriVox. معظم الكتب الصوتية تأتي من مشروع جوتنبرج. يتم تقسيم بيانات التدريب إلى 3 أقسام من مجموعات 100 ساعة و360 ساعة و500 ساعة بينما يتم تقسيم بيانات التطوير والاختبار إلى فئتين "نظيفة" و"أخرى"، على التوالي، اعتمادًا على مدى جودة أداء أنظمة التعرف التلقائي على الكلام أو تحديها. . يبلغ طول الصوت لكل مجموعة من مجموعات التطوير والاختبار حوالي 5 ساعات.
LibriTTS - LibriTTS عبارة عن مجموعة إنجليزية متعددة المتحدثين تبلغ حوالي 585 ساعة من قراءة الكلام باللغة الإنجليزية بمعدل أخذ عينات يبلغ 24 كيلو هرتز، تم إعدادها بواسطة Heiga Zen بمساعدة أعضاء فريق Google Speech وGoogle Brain. تم تصميم مجموعة LibriTTS لأبحاث تحويل النص إلى كلام. وهو مشتق من المواد الأصلية (ملفات صوتية mp3 من LibriVox وملفات نصية من مشروع Gutenberg) لمجموعة LibriSpeech.
LibriTTS-R - LibriTTS-R: مجموعة تحويل النص إلى كلام متعددة المتحدثين. يتم اشتقاقه من خلال تطبيق استعادة الكلام على مجموعة LibriTTS، والتي تتكون من 585 ساعة من بيانات الكلام بمعدل أخذ عينات 24 كيلو هرتز من 2456 متحدثًا والنصوص المقابلة. العينات المكونة لـ LibriTTS-R مماثلة لتلك الموجودة في LibriTTS، مع تحسين جودة الصوت فقط.
LJSpeech (مجموعة بيانات الكلام LJ) - هذه مجموعة بيانات كلام ذات ملكية عامة تتكون من 13100 مقطع صوتي قصير لمتحدث واحد يقرأ مقاطع من 7 كتب غير خيالية. يتم توفير النسخ لكل مقطع. تختلف مدة المقاطع من 1 إلى 10 ثوانٍ ويبلغ إجمالي طولها حوالي 24 ساعة. نُشرت النصوص بين عامي 1884 و1964، وهي متاحة للعامة. تم تسجيل الصوت في 2016-2017 بواسطة مشروع LibriVox وهو أيضًا في الملكية العامة.
LRS2 (جمل قراءة الشفاه 2) - مجموعة بيانات Oxford-BBC Lip Reading Sentences 2 (LRS2) هي واحدة من أكبر مجموعات البيانات المتاحة للجمهور لجمل قراءة الشفاه في الحياة البرية. تتكون قاعدة البيانات بشكل رئيسي من الأخبار والبرامج الحوارية من برامج بي بي سي. يصل طول كل جملة إلى 100 حرف.
LRW (قراءة الشفاه في البرية) - مجموعة بيانات قراءة الشفاه في البرية (LRW) عبارة عن قاعدة بيانات صوتية ومرئية واسعة النطاق تحتوي على 500 كلمة مختلفة من أكثر من 1000 متحدث. يحتوي كل كلام على 29 إطارًا، تتمركز حدودها حول الكلمة المستهدفة. تنقسم قاعدة البيانات إلى مجموعات التدريب والتحقق والاختبار. تحتوي مجموعة التدريب على 800 عبارة على الأقل لكل فصل بينما تحتوي مجموعات التحقق والاختبار على 50 عبارة.
MuAViC - مجموعة سمعية ومرئية متعددة اللغات للتعرف القوي على الكلام وترجمة قوية لتحويل الكلام إلى نص.
MuST-C - يمثل MuST-C حاليًا أكبر مجموعة متعددة اللغات متاحة للعامة (واحد إلى متعدد) لترجمة الكلام. ويغطي ثمانية اتجاهات للغة، من الإنجليزية إلى الألمانية والإسبانية والفرنسية والإيطالية والهولندية والبرتغالية والرومانية والروسية. تتكون المجموعة من مواد صوتية ونسخ وترجمات لمحادثات TED باللغة الإنجليزية، وتأتي مع تدريب محدد مسبقًا والتحقق من الصحة وتقسيم الاختبار.
MetaQA (MoviE Text Audio QA) - تتكون مجموعة بيانات MetaQA من أنطولوجيا الفيلم المستمدة من مجموعة بيانات WikiMovies وثلاث مجموعات من أزواج الأسئلة والأجوبة المكتوبة باللغة الطبيعية: استعلامات 1-hop، و2-hop، و3-hop.
MELD (مجموعة بيانات EmotionLines متعددة الوسائط) - تم إنشاء مجموعة بيانات EmotionLines متعددة الوسائط (MELD) من خلال تحسين مجموعة بيانات EmotionLines وتوسيع نطاقها. يحتوي MELD على نفس مثيلات الحوار المتوفرة في EmotionLines، ولكنه يشمل أيضًا الطريقة الصوتية والمرئية بالإضافة إلى النص. يحتوي MELD على أكثر من 1400 حوار و13000 كلمة من مسلسل Friends TV. وشارك العديد من المتحدثين في الحوارات. يتم تصنيف كل قول في الحوار بأي من هذه المشاعر السبعة - الغضب، والاشمئزاز، والحزن، والفرح، والمحايد، والمفاجأة، والخوف. يحتوي MELD أيضًا على تعليق توضيحي للمشاعر (الإيجابية والسلبية والمحايدة) لكل كلام.
Microsoft Speech Corpus (اللغات الهندية) - يحتوي إصدار Microsoft Speech Corpus (اللغات الهندية) على تدريب على المحادثة والعبارات الفعلية وبيانات اختبار للغات التيلجو والتاميلية والغوجاراتية. تتضمن حزمة البيانات الصوت والنصوص المقابلة. لا يجوز استخدام البيانات المقدمة في مجموعة البيانات هذه لأغراض تجارية. يجوز لك استخدام البيانات لأغراض البحث فقط. إذا قمت بنشر النتائج التي توصلت إليها، فيجب عليك تقديم الإسناد التالي: "البيانات المقدمة من Microsoft وSpeechOcean.com".
PATS (نمط النسخ الصوتي) - تتكون مجموعة بيانات PATS من كمية متنوعة وكبيرة من الوضعيات المحاذاة والصوت والنصوص. باستخدام مجموعة البيانات هذه، نأمل في توفير معيار من شأنه أن يساعد في تطوير تقنيات الوكلاء الافتراضيين الذين يقومون بإنشاء إيماءات طبيعية وذات صلة.
RealMAN - RealMAN: مجموعة بيانات مصفوفة ميكروفون مسجلة ومشروحة لتحسين الكلام الديناميكي وتوطينه.
SAVEE (العاطفة الصوتية والمرئية المعبر عنها في ساري) - تم تسجيل مجموعة بيانات العاطفة المعبر عنها بالصوت والصورة في ساري (SAVEE) كشرط مسبق لتطوير نظام التعرف التلقائي على المشاعر. تتكون قاعدة البيانات من تسجيلات لأربعة ممثلين ذكور في 7 مشاعر مختلفة، بإجمالي 480 كلمة باللغة الإنجليزية البريطانية. تم اختيار الجمل من مجموعة TIMIT القياسية ومتوازنة صوتيًا لكل عاطفة.
SoS_Dataset - صوت القصة: رواية القصص متعددة الوسائط مع الصوت. رواية القصص متعددة الوسائط في العالم الحقيقي. عندما يروي المرء قصة، يمكنه استخدام كل التصورات والأصوات بالإضافة إلى القصة نفسها. ومع ذلك، فإن الدراسات السابقة حول مجموعات البيانات والمهام الخاصة بسرد القصص قد أولت القليل من الاهتمام للصوت على الرغم من أن الصوت ينقل أيضًا دلالات ذات معنى للقصة. لذلك، نقترح توسيع فهم القصة ومجالات السرد من خلال إنشاء مكون جديد يسمى "صوت الخلفية" وهو صوت يعتمد على سياق القصة دون أي معلومات لغوية.
مجموعة مجموعات بيانات الكلام - هذه قائمة منسقة لمجموعات بيانات الكلام المفتوحة للأبحاث المتعلقة بالكلام (أساسًا للتعرف التلقائي على الكلام). يتم جمع أكثر من 110 مجموعة بيانات للكلام في هذا المستودع، ويمكن تنزيل أكثر من 70 مجموعة بيانات مباشرة دون مزيد من التقديم أو التسجيل.
Speech Dataset Generator - مُنشئ مجموعة بيانات الكلام مخصص لإنشاء مجموعات بيانات مناسبة لتدريب نماذج تحويل النص إلى كلام أو تحويل الكلام إلى نص. تتضمن الوظيفة الأساسية نسخ الملفات الصوتية، وتحسين جودة الصوت عند الضرورة، وإنشاء مجموعات البيانات.
مجموعات بيانات مكبر الصوت ثلاثي الأبعاد - مجموعة بيانات صوتية واسعة النطاق متعددة الأجهزة ومتعددة المسافات واللهجات للكلام البشري.
TED-LIUM - النسخ الصوتي لمحادثات TED. 1495 تسجيلًا صوتيًا لمحادثات TED بالإضافة إلى نسخ النص الكامل لتلك التسجيلات، تم إنشاؤها بواسطة Laboratoire d'Informatique de l'Université du Maine (LIUM).
مجموعة التعليق الصوتي من Flickr - تحتوي مجموعة التعليق الصوتي Flickr 8k على 40000 تعليق منطوق لـ 8000 صورة طبيعية. تم جمعها في عام 2015 للتحقيق في مخططات التعلم متعدد الوسائط لاكتشاف أنماط الكلام غير الخاضعة للرقابة.
خطاب الشعب - خطاب الشعب عبارة عن مجموعة بيانات للتعرف على الكلام باللغة الإنجليزية للمحادثة مدتها 30 ألف ساعة يمكن تنزيلها مجانًا، ومرخصة للاستخدام الأكاديمي والتجاري بموجب CC-BY-SA (مع مجموعة فرعية CC-BY). يتم جمع البيانات من خلال البحث في الإنترنت عن البيانات الصوتية المرخصة بشكل مناسب مع النسخ الموجودة.
مجموعة ويكيبيديا المنطوقة - يعمل مشروع ويكيبيديا المنطوقة على توحيد القراء المتطوعين لمقالة ويكيبيديا. تتوفر المئات من المقالات المنطوقة بلغات متعددة للمستخدمين الذين - لسبب أو لآخر - غير قادرين أو غير راغبين في استهلاك النسخة المكتوبة من المقالة.
TIMIT - مجموعة الكلام المستمر الصوتية الصوتية TIMIT من DARPA.
tts-frontend-dataset - مجموعة بيانات TTS FrontEnd: Polyphone / Prosody / TextNormalization.
VoxCeleb2 - VoxCeleb2 عبارة عن مجموعة بيانات واسعة النطاق للتعرف على المتحدثين يتم الحصول عليها تلقائيًا من الوسائط مفتوحة المصدر. يتكون VoxCeleb2 من أكثر من مليون عبارة من أكثر من 6 آلاف متحدث. نظرًا لأن مجموعة البيانات يتم جمعها "في البرية"، يتم إتلاف مقاطع الكلام بسبب ضوضاء العالم الحقيقي بما في ذلك الضحك والحديث المتبادل وتأثيرات القناة والموسيقى والأصوات الأخرى. مجموعة البيانات أيضًا متعددة اللغات، حيث يتحدث متحدثون من 145 جنسية مختلفة، ويغطيون مجموعة واسعة من اللهجات والأعمار والأعراق واللغات.
VoxConverse - VoxConverse عبارة عن مجموعة بيانات للتدوين الصوتي والمرئي تتكون من مقاطع متعددة المتحدثين للكلام البشري، مستخرجة من مقاطع فيديو YouTube.
VoxLingua107 - VoxLingua107 عبارة عن مجموعة بيانات للتعرف على اللغة المنطوقة لمدة 6628 ساعة (62 ساعة لكل لغة في المتوسط) وهي مصحوبة بمجموعة تقييم مكونة من 1609 كلامًا تم التحقق منه.
VoxPpuli - VoxPpuli عبارة عن مجموعة واسعة النطاق متعددة اللغات توفر 100 ألف ساعة من بيانات الكلام غير المسماة في 23 لغة. إنها أكبر بيانات مفتوحة حتى الآن للتعلم التمثيلي غير الخاضع للإشراف وكذلك التعلم شبه الخاضع للإشراف. يحتوي VoxPpuli أيضًا على 1.8 ألف ساعة من الخطب المكتوبة بـ 16 لغة وترجماتها الشفهية المتوافقة إلى 5 لغات أخرى بإجمالي 5.1 ألف ساعة.
VoxForge - VoxForge عبارة عن مجموعة بيانات كلام مفتوحة تم إعدادها لتجميع الكلام المكتوب لاستخدامه مع محركات التعرف على الكلام المجانية والمفتوحة المصدر (على Linux وWindows وMac).
VocalSound - VocalSound عبارة عن مجموعة بيانات مجانية تتكون من 21,024 تسجيلًا جماعيًا للضحك والتنهدات والسعال وتطهير الحلق والعطس والشم من 3365 موضوعًا فريدًا. تحتوي مجموعة بيانات VocalSound أيضًا على معلومات وصفية مثل عمر المتحدث والجنس واللغة الأم والبلد والحالة الصحية.
VoiceBank + DEMAND - VoiceBank + DEMAND عبارة عن قاعدة بيانات للكلام الصاخب لتدريب خوارزميات تحسين الكلام ونماذج تحويل النص إلى كلام (TTS). تم تصميم قاعدة البيانات لتدريب واختبار أساليب تحسين الكلام التي تعمل بتردد 48 كيلو هرتز. يمكن العثور على وصف أكثر تفصيلاً في الورقة المرتبطة بقاعدة البيانات.
WaveFake - WaveFake هي مجموعة بيانات للكشف عن التزييف العميق للصوت. تتكون مجموعة البيانات من مجموعة بيانات واسعة النطاق تضم أكثر من 100 ألف مقطع صوتي تم إنشاؤه.
WenetSpeech - WenetSpeech عبارة عن مجموعة لغة الماندرين متعددة المجالات تتكون من أكثر من 10000 ساعة من الكلام المسمى عالي الجودة، وأكثر من 2400 ساعة من الكلام ذو التصنيف الضعيف، وحوالي 10000 ساعة من الكلام غير المسمى، مع أكثر من 22400 ساعة في المجموع. قام المؤلفون بجمع البيانات من YouTube وPodcast، والتي تغطي مجموعة متنوعة من أساليب التحدث والسيناريوهات والمجالات والموضوعات والظروف الصاخبة. تم تقديم طريقة تعتمد على التعرف البصري على الأحرف (OCR) لإنشاء مرشحات لتجزئة الصوت/النص لبيانات YouTube في التسميات التوضيحية للفيديو المقابلة لها.
WSJ0-2mix - WSJ0-2mix عبارة عن مجموعة من مجموعات الكلام للتعرف على الكلام باستخدام أقوال من مجموعة وول ستريت جورنال (WSJ0).
إضرب! (WSJ0 Hipster Ambient Mixtures) - تجمع مجموعة بيانات WSJ0 Hipster Ambient Mixtures ( WHAM! ) بين كل مزيج من مكبري الصوت في مجموعة بيانات wsj0-2mix مع مشهد خلفية ضوضاء فريد. تم جمع الضوضاء الصوتية في مواقع حضرية مختلفة في جميع أنحاء منطقة خليج سان فرانسيسكو في أواخر عام 2018. وتتكون البيئات بشكل أساسي من المطاعم والمقاهي والحانات والحدائق العامة. تم تسجيل الصوت باستخدام ميكروفون Apogee Sennheiser بكلتا الأذنين على حامل ثلاثي الأرجل على ارتفاع يتراوح بين 1.0 و1.5 متر عن الأرض.
YODAS - هذه مجموعة فرعية يدوية/تلقائية من YODAS من مجموعة بيانات YODAS الخاصة بنا، وتحتوي على 369,510 ساعة من الكلام. تحتوي مجموعة البيانات هذه على عبارات صوتية وتسميات توضيحية مقابلة (يدوية أو تلقائية) من YouTube. لاحظ أن التسمية التوضيحية اليدوية تشير فقط إلى أنه تم تحميلها بواسطة المستخدمين، ولكن ليس بالضرورة أن يتم تحويلها بواسطة إنسان.
YODAS2 - YODAS2 هي مجموعة البيانات الطويلة من مجموعة بيانات YODAS. إنه يوفر نفس مجموعة البيانات مثل espnet/yodas ولكن YODAS2 يحتوي على الميزات الجديدة التالية: 1. منسق في النموذج الطويل (على مستوى الفيديو) حيث لا يتم تقسيم الصوتيات. 2. يتم تشفير التسجيلات الصوتية باستخدام معدلات أخذ عينات أعلى (أي 24 كيلو بايت).
YTTTS - تتكون مجموعة بيانات تحويل النص إلى كلام على YouTube من صوت موجي مستخرج من مقاطع فيديو YouTube إلى جانب نسخها باللغة الإنجليزية.

^ العودة إلى المحتويات ^

موسيقى

AAM: مجموعة بيانات المسارات الصوتية المتعددة - تحتوي مجموعة البيانات هذه على 3000 مسار صوتي موسيقي اصطناعي مع تعليقات توضيحية غنية. يعتمد على عينات من الآلات الحقيقية ويتم إنشاؤها بواسطة التركيب الخوارزمي فيما يتعلق بنظرية الموسيقى. يوفر مزيجًا كاملاً من الأغاني بالإضافة إلى مقطوعات موسيقية فردية. تتوفر أيضًا أجهزة midis المستخدمة للجيل. تتضمن ملفات التعليقات التوضيحية: البداية، النغمات، الآلات، المفاتيح، الإيقاع، المقاطع، أداة اللحن، الإيقاعات، والأوتار.
Acappella - تتألف Acappella من حوالي 46 ساعة من مقاطع فيديو الغناء الفردي بدون مصاحبة من الالات الموسيقية مصدرها YouTube، وتم أخذ عينات منها عبر مطربين ولغات مختلفة. يتم النظر في أربع لغات: الإنجليزية والإسبانية والهندية وغيرها.
إضافة: أداة تنزيل مجموعة البيانات الصوتية - برنامج نصي بسيط لـ Python CLI لتنزيل N-hours من الصوت من Youtube، استنادًا إلى قائمة أنواع الموسيقى.
ADL Piano MIDI - ADL Piano MIDI عبارة عن مجموعة بيانات مكونة من 11.086 مقطوعة بيانو من أنواع مختلفة. تعتمد مجموعة البيانات هذه على مجموعة بيانات Lakh MIDI، وهي عبارة عن مجموعة مكونة من 45,129 ملف MIDI فريدًا تمت مطابقتها مع الإدخالات في مجموعة بيانات المليون أغنية.
النتائج والعروض المحاذاة (ASAP) - ASAP عبارة عن مجموعة بيانات من المقطوعات الموسيقية المحاذاة (كل من MIDI وMusicXML) والعروض (الصوت وMIDI)، وكلها ذات إيقاع متشائم وإيقاع وتوقيع زمني وتعليقات توضيحية للتوقيع الرئيسي.
مجموعة بيانات Jingju Arias المشروحة - مجموعة بيانات Jingju Arias المشروحة عبارة عن مجموعة من 34 نغمة jingju مقسمة يدويًا في مستويات مختلفة باستخدام برنامج Praat. تحتوي الألحان المختارة على عينات من اثنين من شنغتشيانغ الرئيسيين في جينغجو، وهما شيبي وإرهوانغ، وأنواع الأدوار الرئيسية الخمسة من حيث الغناء، وهي دان وجينغ ولاودان ولاوشنغ وشياوشنغ. يتم تشكيل مجموعة البيانات بواسطة ملفات Praat TextGrid لكل أغنية، والتي تحتوي على طبقات للمعلومات التالية: الأغنية، ومعرف MusicBrainz، والفنان، والمدرسة، ونوع الدور، وshengqiang، وbanshi، وسطر الكلمات، والمقاطع، وأنماط الإيقاع.
Bach Doodle - تتكون مجموعة بيانات Bach Doodle من 21.6 مليون تنسيق مقدم من Bach Doodle. تحتوي مجموعة البيانات على كل من البيانات الوصفية حول التركيبة (مثل بلد المنشأ والتعليقات)، بالإضافة إلى MIDI للحن الذي أدخله المستخدم وMIDI للتنسيق الذي تم إنشاؤه. تحتوي مجموعة البيانات على حوالي 6 سنوات من الموسيقى التي أدخلها المستخدم.
مجموعة بيانات باخ للكمان - مجموعة من التسجيلات العامة عالية الجودة لسوناتات باخ وأجزاء الكمان المنفرد (BWV 1001–1006).
مجموعة بيانات Batik-plays-Mozart - مجموعة بيانات Batik-plays-Mozart هي مجموعة بيانات أداء بيانو تحتوي على 12 سوناتا بيانو موزارت كاملة (36 حركة متميزة) يتم إجراؤها على بيانو Bösendorfer الكبير الخاضع للمراقبة بواسطة الكمبيوتر بواسطة عازف البيانو في فيينا رولاند باتيك. يتم تقديم العروض بتنسيق MIDI (الملفات الصوتية المقابلة متاحة تجاريًا) ومستوى النوتة الموسيقية يتماشى مع النتائج الموجودة في إصدار Mozart الجديد في MusicXML والتناغم الموسيقي والإيقاع والشروح التوضيحية للعبارات المنشورة مسبقًا في The Annotated Mozart Sonatas.
مجموعة بيانات آلات الإيقاع لأوبرا بكين - مجموعة بيانات قرع أوبرا بكين عبارة عن مجموعة من 236 مثالًا للسكتات الدماغية المعزولة التي تغطي فئات آلات الإيقاع الأربعة المستخدمة في أوبرا بكين. ويمكن استخدامه لبناء نماذج السكتة الدماغية لكل أداة إيقاعية.
مجموعة بيانات نمط قرع أوبرا بكين - مجموعة بيانات نمط قرع أوبرا بكين (BOPP) عبارة عن مجموعة من 133 نمطًا من أنماط الإيقاع الصوتي تغطي خمس فئات من الأنماط. تتضمن مجموعة البيانات نسخًا على مستوى الصوت والمقطع للأنماط (غير محاذية للوقت). إنه مفيد في مهام النسخ والتصنيف الإيقاعي. تم استخراج الأنماط من التسجيلات الصوتية للألحان وتم تصنيفها بواسطة عالم موسيقى.
BiMMuDa - مجموعة بيانات موسيقى Billboard Melodic (BiMMuDa) هي مجموعة بيانات MIDI للألحان الرئيسية لأفضل خمس أغاني منفردة من مخططات Billboard Year-End Singles Charts لكل عام من 1950 إلى 2022. يخزن هذا المستودع مجموعة البيانات، بالإضافة إلى بيانات التعريف الخاصة بها والملاحق.
CAL500 (Computer Audition Lab 500) - CAL500 (Computer Audition Lab 500) عبارة عن مجموعة بيانات تهدف إلى تقييم أنظمة استرجاع المعلومات الموسيقية. يتكون من 502 أغنية منتقاة من الموسيقى الشعبية الغربية. يتم تمثيل الصوت كسلسلة زمنية من أول 13 معاملًا رأسيًا لتردد ميل (ومشتقاتهما الأولى والثانية) المستخرجة عن طريق تحريك نافذة زمنية قصيرة متداخلة بنصف 12 مللي ثانية فوق الشكل الموجي لكل أغنية.
مجموعة بيانات إيقاع موسيقى كارناتيك - مجموعة بيانات إيقاع موسيقى كارناتيك هي مجموعة فرعية مكونة من 176 مقتطفًا (16.6 ساعة) في أربعة تاالات من موسيقى كارناتيك مع الصوت، والبيانات الوصفية المرتبطة بالتالا والعلامات المتوافقة مع الوقت التي تشير إلى التقدم خلال دورات تالا. إنه مفيد كمجموعة اختبارية للعديد من مهام تحليل الإيقاع التلقائي في موسيقى كارناتيك.
CCMixter - CCMixter عبارة عن مجموعة بيانات لفصل الصوت الغنائي تتكون من 50 مسارًا استريو كامل الطول من ccMixter تضم العديد من الأنواع الموسيقية المختلفة. تتوفر ثلاثة ملفات WAV لكل أغنية: موسيقى الخلفية، والإشارة الصوتية، ومجموعها.
ChMusic - ChMusic هي مجموعة بيانات موسيقية صينية تقليدية لنموذج التدريب وتقييم أداء التعرف على الآلات الموسيقية. تغطي مجموعة البيانات هذه 11 آلة موسيقية، تتكون من Erhu وPipa وSanxian وDizi وSuona وZhuiqin وZhongruan وLiuqin وGuzheng وYangqin وSheng.
chongchong-free - Chongchong Piano Downloader هو برنامج للتنزيل المجاني لنوتة البيانو Chongchong، والذي يمكنه الحصول على رابط النوتة الموسيقية وتحليل محتوى النوتة الموسيقية وتصدير الملف.
ComMU - لدى ComMU 11,144 عينة MIDI تتكون من تسلسلات نوتة قصيرة تم إنشاؤها بواسطة ملحنين محترفين مع 12 بيانات وصفية مقابلة. تم تصميم مجموعة البيانات هذه لمهمة جديدة، وهي إنشاء موسيقى اندماجية تولد موسيقى متنوعة وعالية الجودة فقط باستخدام البيانات الوصفية من خلال نموذج اللغة الانحداري التلقائي.
CoSoD - يتكون CoSoD من البيانات الوصفية والبيانات التحليلية لمجموعة مكونة من 331 أغنية تضم جميع عمليات التعاون متعددة الفنانين في مخططات نهاية العام Billboard "Hot 100" المنشورة بين عامي 2010 و2019. ترتبط كل أغنية في مجموعة البيانات بملفين بتنسيق CSV: واحد للبيانات الوصفية والآخر للبيانات التحليلية.
DALI - DALI: مجموعة بيانات كبيرة من الصوت المتزامن والأغاني والملاحظات الصوتية.
DadaGP - DadaGP هي مجموعة بيانات موسيقية رمزية جديدة تضم 26,181 مقطوعة موسيقية بتنسيق GuitarPro تغطي 739 نوعًا موسيقيًا، إلى جانب تنسيق رمزي مصاحب مناسب تمامًا لنماذج التسلسل التوليدي مثل Transformer. التنسيق المميز مستوحى من ترميزات MIDI القائمة على الأحداث، والتي تُستخدم غالبًا في نماذج توليد الموسيقى الرمزية. يتم إصدار مجموعة البيانات باستخدام برنامج تشفير/فك تشفير يقوم بتحويل ملفات GuitarPro إلى رموز مميزة وبالعكس.
DeepScores - مجموعة بيانات تركيبية مكونة من 300000 صورة مشروحة للموسيقى المكتوبة لتصنيف الكائنات والتجزئة الدلالية واكتشاف الكائنات. استنادًا إلى مجموعة كبيرة من مستندات MusicXML التي تم الحصول عليها من MuseScore، يتم استخدام خط أنابيب متطور لتحويل المصدر إلى ملفات LilyPond، حيث يتم استخدام LilyPond لنقش الصور والتعليق عليها.
dMelodies - dMelodies عبارة عن مجموعة بيانات من ألحان بسيطة مكونة من شريطين تم إنشاؤها باستخدام 9 عوامل كامنة مستقلة للتنوع حيث تمثل كل نقطة بيانات لحنًا فريدًا يعتمد على القيود التالية: - سيتوافق كل لحن مع سلم فريد (رئيسي، ثانوي، البلوز، إلخ) .). - يعزف كل لحن نغمات تتابعية باستخدام نمط وتر الإيقاع القياسي I-IV-VI. - الشريط 1 يعزف الوترين الأولين (6 نوتات)، والشريط 2 يعزف الوترين الثانيين (6 نغمات). - كل ملاحظة لعبت هي المذكرة الثامنة.
DISCO-10M - DISCO-10M عبارة عن مجموعة بيانات موسيقية تم إنشاؤها لإضفاء الطابع الديمقراطي على الأبحاث حول نماذج التعلم الآلي واسعة النطاق للموسيقى.
Dizi - Dizi هي مجموعة بيانات لأسلوب الموسيقى في المدرسة الشمالية والمدرسة الجنوبية. تشمل الخصائص اللحن وتفكيك تقنيات العزف لأسلوبين موسيقيين مختلفين.
DreamSound - في الآونة الأخيرة، حققت نماذج توليد النص إلى الموسيقى نتائج غير مسبوقة في تجميع عينات موسيقية عالية الجودة ومتنوعة من موجه نصي معين. على الرغم من هذه التطورات، لا يزال من غير الواضح كيف يمكن للمرء توليد مفاهيم موسيقية شخصية خاصة بالمستخدم، والتلاعب بها، ودمجها مع المفاهيم الموجودة. بدافع من أدبيات الرؤية الحاسوبية، قمنا بدراسة تحويل النص إلى موسيقى من خلال استكشاف طريقتين راسختين، وهما Textual Inversion وDreambooth. باستخدام المقاييس الكمية ودراسة المستخدم، نقوم بتقييم قدرتهم على إعادة بناء وتعديل المفاهيم الموسيقية الجديدة، مع إعطاء عينات قليلة فقط. وأخيراً، نقدم مجموعة بيانات جديدة ونقترح بروتوكول تقييم لهذه المهمة الجديدة.
EMOPIA - مجموعة بيانات بيانو بوب متعددة الوسائط للتعرف على المشاعر وتوليد الموسيقى القائمة على العاطفة. مجموعة بيانات EMOPIA (تُنطق 'yee-mò-pi-uh') هي قاعدة بيانات مشتركة متعددة الوسائط (الصوت وMIDI) تركز على المشاعر المتصورة في موسيقى البوب البيانو، لتسهيل البحث في المهام المختلفة المتعلقة بالعاطفة الموسيقية. تحتوي مجموعة البيانات على 1087 مقطعًا موسيقيًا من 387 أغنية وملصقات عاطفية على مستوى المقطع تم شرحها بواسطة أربعة معلقين مخصصين.
ErhuPT (مجموعة بيانات تقنية اللعب Erhu) - مجموعة البيانات هذه عبارة عن مجموعة بيانات صوتية تحتوي على حوالي 1500 مقطع صوتي مسجل بواسطة العديد من اللاعبين المحترفين.
FiloBass - مجموعة بيانات ودراسة مبنية على مجموعة بيانات لخطوط موسيقى الجاز. FiloBass: مجموعة جديدة من النوتات الموسيقية والشروح التي تركز على الدور المهم الذي غالبًا ما يتم تجاهله للباس المزدوج في مرافقة موسيقى الجاز. مستوحاة من العمل الأخير الذي يسلط الضوء على دور العازف المنفرد، نقدم مجموعة من 48 نسخة تم التحقق منها يدويًا لعازفي الجاز المحترفين، والتي تضم أكثر من 50000 حدث نوتة، والتي تعتمد على مسارات الدعم المستخدمة في مجموعة بيانات FiloSax. نقدم لكل تسجيل مقاطع صوتية ونتائج وMIDI محاذاة للأداء والبيانات التعريفية المرتبطة بالإيقاعات والنغمات المتشائمة ورموز الوتر وعلامات الشكل الموسيقي.
العثور على توري - العثور على توري: التعلم تحت الإشراف الذاتي لتحليل الأغنية الشعبية الكورية. نقدم تحليلًا حسابيًا لمجموعة بيانات التسجيل الميداني لما يقرب من 700 ساعة من الأغاني الشعبية الكورية، والتي تم تسجيلها في فترة الثمانينات والتسعينات تقريبًا.
FMA - أرشيف الموسيقى المجاني (FMA) عبارة عن مجموعة بيانات واسعة النطاق لتقييم العديد من المهام في استرجاع معلومات الموسيقى. ويتكون من 343 يومًا من التسجيلات الصوتية من 106,574 مقطعًا صوتيًا لـ 16,341 فنانًا و14,854 ألبومًا، مرتبة في تصنيف هرمي يضم 161 نوعًا. فهو يوفر ميزات صوتية كاملة الطول وعالية الجودة وميزات محسوبة مسبقًا، بالإضافة إلى البيانات الوصفية على مستوى المسار والمستخدم والعلامات والنص الحر مثل السير الذاتية.
GiantMIDI-Piano - GiantMIDI-Piano عبارة عن مجموعة بيانات MIDI للبيانو الكلاسيكي تحتوي على 10855 ملف MIDI لـ 2786 ملحنًا. تحتوي المجموعة الفرعية المنسقة من خلال تقييد ألقاب الملحنين على 7236 ملف MIDI لـ 1787 ملحنًا.
Groove (مجموعة بيانات Groove MIDI) - تتكون مجموعة بيانات Groove MIDI (GMD) من 13.6 ساعة من MIDI المحاذاة والصوت (المركب) لقرع الطبول التعبيري الذي يؤديه الإنسان ومحاذاة الإيقاع. تحتوي مجموعة البيانات على 1150 ملف MIDI وأكثر من 22000 مقاييس للطبول.
Gtsinger - Gtsinger: مجموعة عالمية غنائية متعددة التقنيات مع درجات موسيقية واقعية لجميع مهام الغناء. نقدم Gtsinger ، وهي مجموعة غنائية عالمية كبيرة ، متعددة التقنيات ، مجانية للاستخدام ، عالية الجودة مع درجات موسيقى واقعية ، مصممة لجميع مهام الغناء ، إلى جانب معاييرها.
Guitarset - Guitarset: مجموعة بيانات لنسخ الغيتار.
مجموعة بيانات إيقاع الموسيقى Hindustani - مجموعة بيانات إيقاع الموسيقى الهندوستاني عبارة عن جمعية فرعية من 151 (5 ساعات) في أربع طالبات من موسيقى هندوستاني مع الصوت ، والبيانات الوصفية ذات الصلة TAAL وعلامات الوقت التي تشير إلى التقدم من خلال دورات TAAL. تعد مجموعة البيانات مفيدة كحساب اختبار للعديد من مهام تحليل الإيقاع التلقائي في موسيقى هندوستاني.
Humtrans - يمكن لمجموعة البيانات أيضًا بمثابة أساس للمهام المصب مثل توليد الموسيقى القائم على اللحن. وهو يتألف من 500 مؤلف موسيقي من الأنواع واللغات المختلفة ، مع تقسيم كل تكوين إلى شرائح متعددة. في المجموع ، تضم مجموعة البيانات 1000 قطعة موسيقية. لجمع مجموعة بيانات الطنين هذه ، قمنا بتوظيف 10 طلاب جامعيين ، وجميعهم إما تخصصون في الموسيقى أو يتقنون تشغيل آلة موسيقية واحدة على الأقل. كل واحد منهم أخرج كل قطاع مرتين باستخدام واجهة تسجيل الويب التي يوفرها موقعنا المصمم. تم أخذ عينات من التسجيلات الطنانة بتردد 44100 هرتز.
مجموعات بيانات المنشطات الموسيقية الهندية - تضم مجموعة البيانات هذه 597 تسجيلات موسيقى صوتية متوفرة تجاريًا للموسيقى الفنية الهندية (Hindustani و Carnatic Music) ، كل منها مُشرح يدويًا مع منشط الفنان الرئيسي. يتم استخدام مجموعة البيانات هذه باعتبارها مجموعة الاختبار لتطوير نهج تعريف المنشط.
Jazz Harmony Treebank - يحتوي هذا المستودع على The Jazz Harmony Treebank ، وهي مجموعة من التحليلات التوافقية الهرمية لتسلسلات وتر الجاز التي تم اختيارها من Irealpro Corpus المنشورة على Zenodo بواسطة Shanahan et al.
Jazznet - Jazznet: مجموعة بيانات من أنماط البيانو الأساسية لأبحاث التعلم الآلي للصوت الموسيقي. تقدم هذه الورقة مجموعة بيانات Jazznet ، وهي مجموعة بيانات من أنماط موسيقى البيانو الأساسية لتطوير خوارزميات التعلم الآلي (ML) في استرجاع معلومات الموسيقى (MIR). تحتوي مجموعة البيانات على أنماط البيانو المسمى 162520 ، بما في ذلك الحبال ، Arpeggios ، المقاييس ، وتطورات الوتر مع انقلاباتها ، مما يؤدي إلى أكثر من 26 ألف ساعة من الصوت وحجم إجمالي 95 جيجابايت.
Jingju A Cappella Singing Pitch Contour Contour - Jingju A Cappella Singing Pitch Contour Contour هي مجموعة من Truth Contour Truth لـ 39 Jingju A Cappella Singing Recordings. تتضمن مجموعة البيانات الحقيقة الأساسية لـ (1) النسخ لحني ، (2) تجزئة محيط الملعب. إنه مفيد لمهام النسخ اللحن ومهام تجزئة محيط الملعب. تم استخراج ملامح الملعب من التسجيلات الصوتية وتم تصحيحها يدويًا وتجزئتها من قبل عالم الموسيقى.
مجموعة Jingju Music Scores - هذه مجموعة من 92 درجات موسيقى Jingju تم جمعها لتحليل الغناء Jingju من حيث نظامها الموسيقي. تم نسخها من مصادرها المطبوعة الأصلية إلى شكل قابل للقراءة من الجهاز ، باستخدام Musescore ، وتصديرها إلى MusicXML.
JS Fake Chorales - مجموعة بيانات MIDI من 500 كوراليز من 4 أجزاء تم إنشاؤها بواسطة خوارزمية KS_CHORUS ، مشروحة بنتائج من مئات من المشاركين في اختبار الاستماع ، مع 300 كوراليز غير مقبل آخر.
Laion-Disco-12M-تحتوي مجموعة بيانات Laion-Disco-12M على 12 مترًا للموسيقى على YouTube ، مستوحاة من منهجية Disco-10M. بدءًا من قائمة أولية من الفنانين ، يمكننا اكتشاف فنانين جدد من خلال استكشاف الفنانين المدرجين في قسم "المشجعين قد يعجبهم أيضًا". نستكشف الرسم البياني للفنانين ذوي الصلة طالما أننا قادرون على العثور على فنانين جدد.
Lakh Musenet Midi Dataset - مجموعة بيانات Lakh MIDI كاملة تم تحويلها إلى تنسيق إخراج Musenet MIDI (9 أدوات + براميل).
Los Angeles Midi Dataset - Sota Kilo -Scale Midi Dataset لأغراض MIR و Music AI.
LP-musiccaps-LP-musiccaps: Captioning music pseudo المستندة إلى LLM.
Lyra Dataset - Lyra هي مجموعة بيانات للموسيقى التقليدية والشعبية اليونانية التي تتضمن 1570 قطعة ، تلخص في حوالي 80 ساعة من البيانات. تشتمل مجموعة البيانات على روابط من طراز YouTube لاسترداد الصوت والفيديو ، إلى جانب معلومات البيانات الوصفية الغنية فيما يتعلق بالأدوات والجغرافيا والنوع ، من بين أمور أخرى.
Maestro-تحتوي مجموعة بيانات Maestro على أكثر من 200 ساعة من تسجيلات الصوت والميدي المقترنة من عشر سنوات من المنافسة الدولية للبيانو. تتضمن بيانات MIDI سرعات الإضراب الرئيسية ومواقف دواسة Corda/Sostenuto/UNA. تتم محاذاة ملفات الصوت والميدي بدقة ∼3 مللي ثانية وتُقسم إلى قطع موسيقية فردية ، والتي يتم شرحها مع الملحن ، والعنوان ، وسنة الأداء. الصوت غير المضغوط من جودة القرص المضغوط أو أعلى (44.1–48 كيلو هرتز 16 بت ستيريو).
Magnatagatune - تحتوي مجموعة بيانات Magnatagatune على 25،863 مقاطع موسيقى. كل مقطع مقتطف لمدة 29 ثانية ينتمي إلى واحدة من 5223 أغاني و 445 ألبوم و 230 فنان. تمتد المقاطع مجموعة واسعة من الأنواع مثل العصر الكلاسيكي ، العصر الجديد ، الإلكترونية ، موسيقى الروك ، البوب ، العالم ، موسيقى الجاز ، البلوز ، المعادن ، الشرير ، وأكثر من ذلك. يتم توفير كل مقطع صوتي مع متجه من التعليقات التوضيحية الثنائية لـ 188 علامة.
مجموعة البيانات الرئيسية لـ "تطور الموسيقى الشعبية: الولايات المتحدة الأمريكية 1960-2010" - هذا ملف كبير (حوالي 20 ميجابايت) يسمى EvolutionPopusa_maindata.csv ، في تنسيق البيانات المفصلي مع رؤوس الأعمدة. كل صف يتوافق مع التسجيل. يمكن عرض الملف في أي محرر نصوص ، ويمكن فتحه أيضًا في Excel أو يستورد إلى برامج معالجة البيانات الأخرى.
Metamidi Dataset - نقدم مجموعة بيانات Metamidi (MMD) ، وهي مجموعة واسعة النطاق تبلغ 436،631 ملف MIDI والبيانات الوصفية. بالإضافة إلى ملفات MIDI ، فإننا نقدم الفنان والعنوان والبيانات الوصفية التي تم جمعها خلال عملية التجريف عند توفرها. تمت مطابقة MIDIS in (MMD) مع مجموعة من مقاطع صوتية من 32،000،000 ثانية تم استردادها من Spotify ، مما أدى إلى أكثر من 10،796،557 مباراة صوتية.
Million Song Dataset - تحتوي مجموعة البيانات هذه على مليون أغنية من 1922-2011 ، مع معلومات فنان الموسومة من Echonest (الآن جزء من Spotify) ، إلى جانب قياسات الصوت ، وغيرها من المعلومات ذات الصلة.
MIR-1K-MIR-1K (مختبر معلومات الوسائط المتعددة ، 1000 مقاطع أغنية) هي مجموعة بيانات مصممة لغناء فصل الصوت.
Mridangam Stroke DataSet - مجموعة بيانات Mridangam Stroke هي مجموعة من 7162 أمثلة صوتية للسكتات الدماغية الفردية من Mridangam في المقويات المختلفة. تتألف مجموعة البيانات من 10 ضربات مختلفة يتم تشغيلها على Mridangams مع 6 قيم منشط مختلفة. يمكن استخدام مجموعة البيانات لنماذج التدريب لكل ضربة Mridangam.
Mridangam Tani-Avarthanam Dataset-مجموعة بيانات Mridangam Tani-Avarthanam عبارة عن مجموعة مكتوبة من اثنين من Tani-Avarthanams التي تلعبها Mridangam Maestro Padmavibhushan Umayalpuram K. Sivaraman. تم تسجيل الصوت في IIT Madras ، الهند وشرح من قبل الإيقاع كارناتيكي المحترفين. وهو يتكون من حوالي 24 دقيقة من الصوت و 8800 السكتات الدماغية.
Mirmlpop-أنه يحتوي على 1) تعليق توضيحي لمجموعة بيانات MIR-MLPOP ، 2) رمز المصدر للحصول على صوت مجموعة البيانات ، 3) رمز المصدر الذي استخدمناه لضبط الهمس على miR-MLPOP (محاذاة كلمات الأغاني والكلمات) و 4) رمز المصدر للتقييم.
MSD (Million Song DataSet) - مجموعة بيانات Million Song هي مجموعة متاحة مجانًا من ميزات الصوت وبيانات التعريف لمليون مسارات موسيقية معاصرة. جوهر مجموعة البيانات هو تحليل الميزات والبيانات الوصفية لمليون أغنية ، مقدمة من عش الصدى.
MTG-Jamendo Dataset-نقدم مجموعة بيانات MTG-Jamendo ، وهي مجموعة بيانات جديدة مفتوحة للموسيقى التلقائية. تم تصميمه باستخدام الموسيقى المتوفرة في Jamendo بموجب تراخيص Creative Commons والعلامات التي توفرها محولات المحتوى. تحتوي مجموعة البيانات على أكثر من 55000 مسار صوتي كامل مع 195 علامة من النوع والأداة والمزاج/السمة. نحن نقدم انشقاقات بيانات مفصلة للباحثين ونبلغ عن أداء نهج خط الأساس البسيط على خمس مجموعات مختلفة من العلامات: النوع ، الأداة ، المزاج/السمة ، أعلى 50 ، وعموما.
MTG-JAMENDO-مجموعة بيانات MTG-Jamendo هي مجموعة بيانات مفتوحة لعلاج الموسيقى التلقائي. تحتوي مجموعة البيانات على أكثر من 55000 مسار صوتي كامل مع 195 فئة من العلامات (87 علامات النوع ، 40 علامة صك ، و 56 علامات مزاجية/موضوع). تم تصميمه باستخدام الموسيقى المتوفرة في Jamendo بموجب تراخيص Creative Commons والعلامات التي توفرها محولات المحتوى. يتم توزيع جميع الصوت بتنسيق 320 كيلو بايت في الثانية.
منصة مشاركة بيانات الموسيقى لأبحاث علم الموسيقى الحسابية (CCMUSIC DATASET) - هذا النظام الأساسي هو منصة لمشاركة بيانات الموسيقى متعددة الوظائف لأبحاث علم الموسيقى الحسابية. أنه يحتوي على العديد من بيانات الموسيقى مثل المعلومات الصوتية للآلات الموسيقية التقليدية الصينية ومعلومات العلامات على موسيقى البوب الصينية ، والتي تتوفر للاستخدام المجاني من قبل باحثو علم الموسيقى الحسابية.
التعرف على العاطفة الموسيقية (MER) - نقدم مجموعة بيانات لتحليل أنظمة التعرف على العاطفة الموسيقية (MER). قمنا بتطوير منصة عشاق الموسيقى التي تهدف إلى تحسين جمع وتحليل ما يسمى "الحقيقة الأرضية" اللازمة كمدخلات لهذه الأنظمة.
MUSAN - MUSAN هي مجموعة من الموسيقى والكلام والضوضاء. مجموعة البيانات هذه مناسبة لنماذج التدريب للكشف عن النشاط الصوتي (VAD) والتمييز في الموسيقى/الكلام. تتكون مجموعة البيانات من موسيقى من عدة أنواع ، خطاب من اثني عشر لغة ، ومجموعة واسعة من الضوضاء الفنية وغير التقنية.
MUSDB-XL-Train-تتكون مجموعة بيانات MUSDB-XL-Train من 300000 قطعة من الأجزاء الصوتية 4-SEC و 100 أغنية أصلية. لكل جزء ، اخترنا بشكل عشوائي شريحة تعسفية في 4 سيقان (غناء ، باس ، الطبول ، الأخرى) من مجموعة التدريب Musdb-HQ وخلطها بشكل عشوائي. ثم ، طبقنا مكونًا تجاريًا محددًا لكل ساق.
MusicBench- MusicBench DataSet هي مجموعة من أزواج نص الموسيقى التي تم تصميمها لتوليد نص إلى موسيقي وإصدارها مع نموذج Mustango Text to Music. يتم توسيع مجموعة بيانات MusicCaps من 5،521 عينة إلى 52،768 تدريب و 400 عينة اختبار لإنشاء MusicBench !
MusicNet - MusicNet عبارة عن مجموعة من 330 تسجيلات موسيقى كلاسيكية مرخصة بحرية ، إلى جانب أكثر من مليون علامة مكونة من مليون علامة تشير إلى الوقت المحدد لكل ملاحظة في كل تسجيل ، والأداة التي تلعب كل ملاحظة ، وموقف الملاحظة في الهيكل المتري للبنية تعبير. يتم الحصول على الملصقات من الدرجات الموسيقية المحاذاة مع التسجيلات من خلال تزييف الوقت الديناميكي. يتم التحقق من الملصقات من قبل الموسيقيين المدربين. نحن نقدر معدل خطأ وضع العلامات 4 ٪. نحن نقدم ملصقات MusicNet لمجتمعات التعلم الآلي والموسيقى كمورد لنماذج التدريب ومعيار شائع لمقارنة النتائج.
MusicCaps - MusicCaps هي مجموعة بيانات تتكون من أزواج نصية من 5.5 كيلو بايت ، مع أوصاف نصية غنية قدمها الخبراء البشريون.
Musedata - Musedata هي مكتبة إلكترونية للموسيقى الكلاسيكية الأوركسترا والبيانو من CCARH. يتكون من حوالي 3 ميجابايت من 783 ملف.
MUSDB18 - MUSDB18 عبارة عن مجموعة بيانات تتكون من 150 مسارات الموسيقى كاملة الأطوال (حوالي 10 ساعات) من الأنواع المختلفة جنبًا إلى جنب مع براميلها المعزولة والباس والغناء وغيرها من السيقان. يتم تقسيم مجموعة البيانات إلى مجموعات التدريب والاختبار مع 100 و 50 أغنية ، على التوالي. جميع الإشارات مجسمة وترميز في 44.1 كيلو هرتز.
موضوعات الموسيقى والبيانات الوصفية - توفر مجموعة البيانات هذه قائمة من كلمات الأغاني من 1950 إلى 2019 تصف بيانات تعريف الموسيقى بأنها حزن ، والانتقاء ، وصوت ، وصوت ، وما إلى ذلك. نحن نقدم أيضًا بعض المعلومات ككلمات يمكن استخدامها في معالجة اللغة الطبيعية.
مجموعة بيانات الأنواع الموسيقية - مجموعة بيانات 1494 نوعًا ، تحتوي كل منها على 200 أغنية.
مجموعة بيانات الموسيقى متعددة الوسائط - MSMD هي مجموعة بيانات اصطناعية تضم 497 قطعة من الموسيقى (الكلاسيكية) التي تحتوي على كل من تمثيلات الصوت والنتيجة للقطع المحاذاة على مستوى دقيق (344،742 زوجًا من رؤوس الملاحظات محاذاة مع مواكبة الصوت/MIDI).
Muvi-Sync-مجموعة بيانات Muvi-Sync عبارة عن مجموعة بيانات متعددة النماذج تضم كل من ميزات الموسيقى (الوتر ، المفتاح ، الصوت ، وكثافة الملاحظة) وميزات الفيديو (إزاحة المشهد ، والعاطفة ، والحركة ، والدلالة) المستخرجة من ما مجموعه 748 مقاطع الفيديو الموسيقية.
Nlakh - Nlakh هي مجموعة بيانات لاسترجاع الآلات الموسيقية. إنه مزيج من مجموعة بيانات nsynth ، التي توفر عددًا كبيرًا من الأدوات ، ومجموعة بيانات Lakh ، التي توفر بيانات MIDI متعددة.
Nsynth - Nsynth هي مجموعة بيانات من ملاحظات مفيدة واحدة ، تحتوي على 305،979 ملاحظات موسيقية مع ملعب فريد من نوعه و timbre و ظروف. تم جمع الأصوات من 1006 صك من مكتبات العينة التجارية وتم شرحها بناءً على مصدرها (صوتية أو إلكترونية أو اصطناعية) ، وصفات الأسرة والصوتية. عائلات الأدوات المستخدمة في التعليقات التوضيحية هي الجهير ، النحاس ، الفلوت ، الغيتار ، لوحة المفاتيح ، مطرقة ، عضو ، ريد ، سلسلة ، موالفة الصوتية. تم إنشاء مقتطفات صوتية أحادية الصوت بأربعة ثوانٍ (ملاحظات) للأدوات.
NES-MDB (قاعدة بيانات MUSIC Nintendo Entertainment System)-قاعدة بيانات MUSIC Nintendo Entertainment System (NES-MDB) هي مجموعة بيانات مخصصة لبناء أنظمة تكوين الموسيقى التلقائية لملفات الصوت NES. يتكون من 5278 أغنية من الموسيقى التصويرية لألعاب 397 NES. تمثل مجموعة البيانات 296 من الملحنين الفريدين ، وتحتوي الأغاني على أكثر من مليوني ملاحظة مجتمعة. يحتوي على خيارات تنسيق الملف لـ MIDI و SCORE و NLM (NES Language Modeling).
مجموعة بيانات Niko Chord Progression - يتم استخدام مجموعة بيانات تقدم Niko في Accomontage2. أنه يحتوي على قطع تقدم 5K+ وتر ، المسمى أنماط. هناك أربعة أنماط في المجموع: Pop Standard و Pop Complex و Dark و R&B.
Onair Music Dataset -؟ مجموعة بيانات STEM جديدة للبحث عن أبحاث الموسيقى ، من مشروع Onair الخالي من الموسيقي.
OpenCpop - تم تصميم OpenCpop ، وهي مجموعة غناء ماندرين عالية الجودة متوفرة للجمهور ، لتغني أنظمة تخليق الصوت (SVS). تتكون هذه المجموعة من 100 أغنية ماندرين فريدة من نوعها ، والتي سجلتها مغنية محترفة. تم تسجيل جميع ملفات الصوت بجودة الاستوديو بمعدل أخذ عينات قدره 44100 هرتز في بيئة استوديو تسجيل احترافية .
OpenGufeng - مجموعة بيانات لحن وتطور وتر للموسيقى الصينية Gufeng.
PBSCSR - مجموعة بيانات التعرف على النمط النجمة Piano Bootleg. كان هدفنا الشامل هو إنشاء مجموعة بيانات لدراسة التعرف على نمط الملحن والتي "يمكن الوصول إليها مثل MNIST وصعبة مثل ImageNet." لتحقيق هذا الهدف ، نقوم بتجربة شظايا نقاط Bootleg ذات الطول الثابت من صور موسيقى البيانو على IMSLP. تحتوي DataSet نفسها على 40،000 62 × 64 صور Bootleg لمهمة تصنيف من 9 اتجاهات ، و 100،000 62x64 صور Bootleg لمهمة تصنيف 100 اتجاه ، و 29،310 غير المُحسَّلة ، صورًا متغيرة ذات طول متغير.
POP909 - POP909 هي مجموعة بيانات تحتوي على إصدارات متعددة من ترتيبات البيانو لـ 909 أغنية شهيرة تم إنشاؤها من قبل الموسيقيين المحترفين. يحتوي الهيئة الرئيسية لمجموعة البيانات على اللحن الصوتي ، ولحن أداة الرصاص ، ومرافقة البيانو لكل أغنية بتنسيق MIDI ، والتي تتوافق مع ملفات الصوت الأصلية. علاوة على ذلك ، يتم توفير التعليقات التوضيحية من الإيقاع ، والفوز ، والمفتاح ، والحبال ، حيث يتم وضع منحنيات الإيقاع يدويًا والآخرين يتم بواسطة خوارزميات miR.
PROGGP - مجموعة بيانات من 173 أغنية معدنية تقدمية ، في كل من تنسيقات الجيتار والرمز المميز ، وفقًا للمواصفات الواردة في DADAGP.
RWC (قاعدة بيانات الموسيقى الحاسوبية في العالم الحقيقي) - قاعدة بيانات الموسيقى RWC (الحوسبة الحقيقية) هي قاعدة بيانات موسيقى ذات حقوق الطبع والنشر (DB) وهي متاحة للباحثين كأساس مشترك للبحث. أنه يحتوي على حوالي 100 أغنية كاملة مع حدود القسم المسمى يدويًا. بالنسبة للأدوات الخمسين ، تم التقاط الأصوات الفردية على فترات نصف نغمة مع العديد من الأشكال المتغيرة للأنماط والديناميات ومصنعي الأدوات والموسيقيين.
Sangeet - مجموعة بيانات XML للموسيقى الكلاسيكية Hindustani. يحافظ Sangeet على جميع المعلومات المطلوبة لأي تكوين معين بما في ذلك البيانات الأولية والهيكلية والموضعية والإيقاعية واللحن بطريقة موحدة لتخزين واستخراج المعلومات الموسيقية السهلة والفعالة. تهدف مجموعة البيانات إلى توفير معلومات الحقيقة الأرضية لمهام أبحاث معلومات الموسيقى ، وبالتالي دعم العديد من التحليل القائم على البيانات من منظور التعلم الآلي.
Singkt -Dataset - Singkt هي مجموعة بيانات لتقييم أداء الموسيقى في مجال KT ، والتي تحاول استخدام طرق تتبع المعرفة لالتقاط التغييرات الديناميكية في قدرات المتعلمين. تقوم مجموعة البيانات بجمع البيانات من منصة ممارسة المعالم الذكية ، Singmaster. تحتوي مجموعة بيانات SINGKT على جدول بيانات سجل الإجابة الرئيسي (سجلات) وجداول بيانات معلومات تكميلية (USERDS ، OPERNDS). يسجل جدول المستخدمين معلومات المشاهد لمتعلمي 1074 الواردين في مجموعة البيانات ، ويسجل جدول Opernds معلومات الموسيقى.
SLAKH2100-مجموعة بيانات LAKH (SLAKH) المصنفة هي مجموعة بيانات لفصل مصدر الصوت الذي يتم تصنيعه من مجموعة بيانات DADI MIDI LAKH باستخدام أدوات افتراضية قائمة على العينة المهنية. يحتوي هذا الإصدار الأول من SLAKH ، المسمى SLAKH2100 ، على 2100 مسارات مختلطة تلقائيًا وملفات MIDI المصاحبة لها باستخدام محرك أخذ عينات من الدرجة المهنية. يتم تقسيم المسارات في SLAKH2100 إلى التدريب (1500 مسار) ، والتحقق من الصحة (375 مسارًا) ، واختبار (225 مسارًا) ، مجموع مجموعات فرعية ، إجمالي 145 ساعة من الخلطات.
Symphonynet-Symponynet هو مشروع مفتوح المصدر يهدف إلى توليد موسيقى متعددة المعقدة ومتعددة الأبعاد مثل Symphony. طريقتنا متوافقة تمامًا مع أنواع الموسيقى الأخرى مثل موسيقى البوب والبيانو والموسيقى المنفردة.
Tablea Solo Dataset - مجموعة بيانات Tablea Solo عبارة عن مجموعة مطبقة من التسجيلات الصوتية المنفردة Tablea التي تمتد على مؤلفات من ستة غوريناس مختلفة من Tablea ، تلعبها Pt. Arvind Mulgaonkar. تتكون مجموعة البيانات من نسخ الصوت والوقت المحاذاة.
Tegridy MIDI Dataset - Tegridy MIDI Dataset لإنشاء نماذج AI للموسيقى الدقيقة والفعالة.
مجموعة بيانات Lakh MIDI - مجموعة بيانات Lakh MIDI عبارة عن مجموعة من ملفات MIDI فريدة من نوعها 176،581 ، تم مطابقة 45،129 منها ومحاذاة مع إدخالات في مجموعة بيانات Million Song. هدفها هو تسهيل استرجاع معلومات الموسيقى على نطاق واسع ، سواء رمزيًا (باستخدام ملفات MIDI وحدها) والمحتوى الصوتي (باستخدام المعلومات المستخرجة من ملفات MIDI كشروط لملفات الصوت المتطابقة).
مجموعة بيانات الموسيقى الإيطالية - تم تصميم مجموعة البيانات عن طريق استغلال واجهات برمجة تطبيقات Spotify و SoundCloud. وهي تتألف من أكثر من 14500 أغنية مختلفة من كل من الموسيقيين الإيطاليين المشهورين والأقل شهرة. يتم تحديد كل أغنية في مجموعة البيانات بواسطة معرف Spotify وعنوانه. تتضمن بيانات التعريف "المسارات" أيضًا كلمات ذات علامات متقطعة وموضوعية ، وفي معظم الحالات ، تم جمع عشر ميزات موسيقية مباشرة من Spotify. وتشمل الميزات الموسيقية الصوتية (تعويم) ، والانتقالية (تعويم) ، والمدة (int) ، والطاقة (تعويم) ، والتعويم (العائم) ، والليفة (العائمة) ، وارتفاع الصوت (تعويم) ، والكلام (تعويم) ، وتيرة (تعويم) ، والتكافؤ ( يطفو).
The Piano Corpus - The Piano Corpus الفارسية هي مجموعة شاملة من موسيقى البيانو الفارسية ، تمتد من الملحنين الأوائل إلى الشخصيات المعاصرة. لقد تم تجميعها بدقة وجعلها متاحة للجمهور ، بهدف تمكين الباحثين من استكشاف التحقيقات المتخصصة والمساهمة في الاكتشافات الجديدة. يوفر النهج القائم على الأداة مجموعة كاملة تتعلق بالبيانو الفارسي ، بما في ذلك الملصقات ذات الصلة والبيانات الوصفية الشاملة.
مجموعة بيانات وصف الأغاني-مجموعة بيانات وصف الأغاني: مجموعة توضيحية من الصوت لتقييم الموسيقى واللغة. مجموعة بيانات وصف الأغاني هي مجموعة بيانات تقييم مصنوعة من تسميات توضيحية ~ 1.1k لـ 706 التسجيلات الموسيقية المرخصة.
مصنف رمز الموسيقى العالمي - مشروع بيثون يدرب شبكة عصبية عميقة للتمييز بين رموز الموسيقى.
URMP (الأداء الموسيقي متعدد الوسائط بجامعة روتشستر)-هو URMP (الأداء الموسيقي متعدد الوسائط بجامعة روتشستر) هو مجموعة بيانات لتسهيل التحليل الصوتي والبصري للعروض الموسيقية. تضم مجموعة البيانات 44 قطعة موسيقية بسيطة متعددة الأبعاد تم تجميعها من العروض المنسقة ولكن المسجلة بشكل منفصل للمسارات الفردية. لكل قطعة ، وفرت مجموعة البيانات النتيجة الموسيقية بتنسيق MIDI ، وتسجيلات الصوت الفردية عالية الجودة ومقاطع الفيديو الخاصة بالقطع المجمعة.
VGMIDI DATASET - VGMIDI هي مجموعة بيانات من ترتيبات البيانو للموسيقى التصويرية لألعاب الفيديو. أنه يحتوي على 200 قطعة MIDI المسمى وفقًا للعاطفة و 3،850 قطعة غير مسموعة. تم شرح كل قطعة مصممة من قبل 30 موضوعًا بشريًا وفقًا لنموذج العاطفة (التكافؤ).
سلاسل Virtuoso - سلاسل Virtuoso هي مجموعة بيانات لاكتشاف Onsets Soft لأدوات السلسلة. يتكون من أكثر من 144 تسجيلًا من العروض المهنية لمقتطف من Haydn's String Quartet Op. 74 رقم 1 خاتمة ، ولكل منها مع مراعاة التعليقات التوضيحية الفردية المقابلة.
Wikimute - Wikimute: مجموعة بيانات من مصادر الويب من الأوصاف الدلالية لصوت الموسيقى. في هذه الدراسة ، نقدم Wikimute ، مجموعة بيانات جديدة ومفتوحة تحتوي على أوصاف دلالية غنية للموسيقى. يتم الحصول على البيانات من كتالوج ويكيبيديا الغني للمقالات التي تغطي الأعمال الموسيقية. باستخدام خط أنابيب مخصص للتشكيل النصفي ، نقوم باستخراج أوصاف طويلة وقصيرة وتغطي مجموعة واسعة من الموضوعات المتعلقة بمحتوى الموسيقى مثل النوع والأناقة والمزاج والأجهزة والإيقاع.
YM2413-MDB- YM2413-MDB هي مجموعة بيانات موسيقى فيديو FM 80S مع التعليقات التوضيحية متعددة العطلة. ويشمل 669 ملفات صوتية وميدي للموسيقى من ألعاب SEGA و MSX PC في الثمانينيات باستخدام YM2413 ، وهو مولد صوت قابل للبرمجة يعتمد على FM. يتم ترتيب موسيقى اللعبة التي تم جمعها مع مجموعة فرعية من 15 أداة أحادية الصدر وأداة أسطوانة واحدة.

^ العودة إلى المحتويات ^

تأثير الصوت

مجموعة بيانات الصوت الحيوانية - هذه البيانات التي تتكون من 875 أصوات حيوانية تحتوي على 10 أنواع من أصوات الحيوانات. تتكون مجموعة بيانات Sounds Sounds هذه 200 Cat ، 200 Dog ، 200 Bird ، 75 Cow ، 45 Lion ، 40 Sheep ، 35 Frog ، 30 Chicken ، 25 Donkey ، 25 Monkey Sounds.
AudioSet-Audioset هي مجموعة بيانات أحداث صوتية ، تتكون من أكثر من 2 مليون مقاطع فيديو مدتها 10 أمتار. يتم جمع هذه المقاطع من YouTube ، وبالتالي فإن العديد منها في جودة سيئة ويحتوي على مصادر صوتية متعددة. يتم استخدام علم الأنطولوجيا الهرمية من 632 فصول الأحداث لشرح هذه البيانات ، مما يعني أنه يمكن شرح الصوت نفسه كعلامات مختلفة. على سبيل المثال ، يتم شرح صوت النباح كحيوان وحيوانات أليفة والكلب. يتم تقسيم جميع مقاطع الفيديو إلى مجموعة التقييم/المتوازنة للمدربين/غير متوازنة.
Audiocaps - AudiOcaps هي مجموعة بيانات من الأصوات مع أوصاف الأحداث التي تم تقديمها لمهمة التسمية التوضيحية الصوتية ، مع الأصوات المصدر من مجموعة بيانات AudioSet. تم تزويد المعلمون بالمسارات الصوتية مع تلميحات الفئة (ومع تلميحات فيديو إضافية إذا لزم الأمر).
Auto-ACD-نقدم خط أنابيب مبتكر وتلقائي لتسمية التسمية التوضيحية ، ونقوم ببناء مجموعة بيانات واسعة النطاق وعالية الجودة ولغة الصوت ، والتي تحمل اسم AUTO-ACD ، والتي تضم أكثر من 1.9 مليون زوج من النص الصوتي. تحتوي أوصاف النص في AUTO-ACD على نصوص طويلة (18 كلمة) ومفردات متنوعة (23K) ، وتوفر معلومات حول البيئة السمعية المحيطة (نقطة البيانات مع الظل) التي تحدث فيها الأصوات.
المؤثرات الصوتية لـ BBC - هناك 33،066 مؤثرات صوتية في مجموعة بيانات المؤثرات الصوتية BBC ، مع أوصاف نصية. النوع: الصوت المحيط بشكل رئيسي. كل صوت لديه وصف نصي طبيعي.
DCASE 2016 - DCASE 2016 هي مجموعة بيانات للكشف عن الأحداث الصوتية. يتكون من 20 ملفًا صوتيًا مونوًا قصيرًا لكل من 11 فئة صوتية (من بيئات المكاتب ، مثل ClearThroat أو Derer أو لوحة المفاتيح) ، كل ملف يحتوي على مثيل حدث صوت واحد. يتم شرح الملفات الصوتية بأوقات الإزاحة في الحدث والإزاحة ، ولكن لا يتم وضع علامة على الصمت بين الأصوات المادية الفعلية (كما هو الحال مع رنين الهاتف) ، وبالتالي "مدرجة" في هذا الحدث.
مجموعات بيانات الصوت البيئية - تحاول هذه الصفحة الحفاظ على قائمة مجموعات البيانات المناسبة للبحوث الصوتية البيئية. بالإضافة إلى مجموعة البيانات المتوفرة بحرية ، يتم سرد مجموعات البيانات الخاصة والتجارية هنا بالاكتمال. بالإضافة إلى مجموعات البيانات ، يتم سرد بعض الخدمات الصوتية عبر الإنترنت في نهاية الصفحة.
ESC-50-مجموعة بيانات ESC-50 عبارة عن مجموعة تحمل علامة 2000 تسجيلات صوتية بيئية مناسبة لقياس أساليب تصنيف الصوت البيئي. وهي تضم 2000 Clips من 50 فئة مختلفة عبر الأصوات الطبيعية والبشرية والمحلية ، مرة أخرى ، مستمدة من freesound.org.
Fair-Play-Fair-Play هي مجموعة بيانات في فيديو Audio تتكون من 1871 مقاطع فيديو وتسجيل مقاطع الصوت الأذنية المقابلة في غرفة الموسيقى. يتم محاذاة مقطع الفيديو ومقطع الأذنين من نفس الفهرس تقريبًا.
FSD50K (قاعدة بيانات FreeSound 50K) - مجموعة بيانات FreeSound 50k (أو FSD50K لفترة قصيرة) هي مجموعة بيانات مفتوحة من الأحداث الصوتية المسمى بالإنسان التي تحتوي على 51،197 مقاطعًا متوفرة موزعة بشكل غير متساوي في 200 فئة مستمدة من مجموعة السمعية. تم إنشاء FSD50K في مجموعة تكنولوجيا الموسيقى في Universitat Pompeu Fabra. وهو يتألف بشكل أساسي من الأحداث السليمة التي تنتجها مصادر الصوت المادية وآليات الإنتاج ، بما في ذلك الأصوات البشرية ، وأصوات الأشياء ، والحيوانات ، والأصوات الطبيعية ، والأدوات الموسيقية والمزيد.
FSDNOISY18K-مجموعة بيانات FSDNOISY18K هي مجموعة بيانات مفتوحة تحتوي على 42.5 ساعة من الصوت عبر 20 فئة من الأحداث الصوتية ، بما في ذلك كمية صغيرة من البيانات المسمى يدويًا وكمية أكبر من البيانات الصاخبة في العالم الحقيقي. يتم أخذ المحتوى الصوتي من FreeSound ، وتم تنسيق مجموعة البيانات باستخدام مشروح Freesound. تتكون المجموعة الصاخبة من FSDNOISY18K من 15،813 مقاطع صوتية (38.8 ساعة) ، وتتكون مجموعة الاختبار من 947 مقاطع صوتية (1.4 ساعة) مع ملصقات صحيحة. تتميز مجموعة البيانات نوعين رئيسيين من ضوضاء الملصقات: في الثورات (IV) و Out-of-Vocabulary (OOV). ينطبق IV عندما يكون الملصق الذي تم ملاحظته غير صحيح أو غير مكتمل ، وهو جزء من مجموعة الفئة المستهدفة. بشكل مماثل ، يعني OOV أن الملصق الحقيقي أو المفقود لا يتم تغطيته بواسطة تلك الفصول العشرين.
Fuss (فصل الصوت العالمي المجاني) - مجموعة بيانات فصل الصوت العالمي المجاني (FUSS) هي قاعدة بيانات لمخاليط الصوت التعسفية والمراجع على مستوى المصدر ، للاستخدام في التجارب على فصل الصوت التعسفي. تعتمد Fuss على FSD50K Corpus.
مجموعة بيانات Soundist Instaturalist - نقدم مجموعة بيانات الأصوات غير الطبيعية (Inatsounds) ، وهي مجموعة من 230،000 ملف صوتي تلتقط الأصوات من أكثر من 5500 نوع ، ساهم به أكثر من 27000 مسجل في جميع أنحاء العالم.
يطرق المؤثرات الصوتية بالنوايا العاطفية - تم تسجيل مجموعة البيانات من قبل فنان فولي المحترف ULF Olausson في استوديوهات Foleyworks في ستوكهولم في 15 أكتوبر 2019. مستوحى من العمل السابق على إخراج الأصوات. لقد اخترنا خمسة أنواع من المشاعر التي يجب تصويرها في مجموعة البيانات: الغضب والخوف والسعادة والحياد والحزن.
MIMII - مجموعة بيانات الصوت لاستقصاء وتفتيش الآلات الصناعية المعطل (MIMII) مجموعة بيانات صوتية لأصوات الماكينة الصناعية.
مجموعة بيانات Mivia Audio Events - تتكون مجموعة بيانات الأحداث الصوتية في Mivia ما مجموعه 6000 حدث لتطبيق المراقبة ، وهي كسر الزجاج ، وتصوير الأسلحة والصراخ. يتم تقسيم الحدث 6000 إلى مجموعة تدريب (يتكون من 4200 حدث) ومجموعة اختبار (تتكون من 1800 حدث).
مجموعة بيانات الصوت في الملعب (مزج الطفرة) - 3.4 ساعات من الصوت تم تصنيعها باستخدام مزج الطفرة المفتوحة المصدر ، استنادًا إلى 2084 مسبقات مدرجة في حزمة الزيادة. تمثل هذه الأصوات "الطبيعية" لأصوات التوليف --- Iepresets التي ابتكرها البشر. لقد أنشأنا عينات مدتها 4 ثوانٍ تلعب في Velocity 64 مع مدة الملاحظة 3 ثوان. لكل مسبق مسبقًا ، قمنا بتنوع الملعب فقط ، من MIDI 21-108 ، نطاق البيانو الكبير. كان كل صوت في مجموعة البيانات طبيعته على مستوى RMS باستخدام حزمة تطبيع. لم تكن هناك طريقة أنيقة لإهانة مجموعة البيانات هذه ؛ ومع ذلك ، فإن نسبة صغيرة فقط من الإعدادات المسبقة (مثل الطبول والمؤثرات الصوتية) لم يكن لها أي تباين أو ترتيب إدراكي.
REMFX - REMFX: مجموعات بيانات التقييم. يتم الحصول على مجموعات البيانات هذه في البداية من مجموعات بيانات Gitalset و Guitarset و DSD100 و IDMT-SMT-DRUMS قبل معالجتها في البرنامج النصي لتوليد مجموعة البيانات. تتم تسمية مجموعات البيانات وفقًا لعدد التأثيرات المطبقة (0-5). على سبيل المثال ، يحتوي 2-2.zip على تأثيران تم تطبيقهما على كل مثال صوت إدخال. يتم ترك الأهداف دون أن تمس. التأثيرات الصوتية المطبقة من المجموعة (التشويه ، التأخير ، ضاغط النطاق الديناميكي ، phasor ، تردد) وأخذ عينات عشوائيا دون استبدال لكل مثال.
SoundCam-SoundCam ، أكبر مجموعة بيانات من RIRs الفريدة من الغرف داخل الولادة التي تم إصدارها علنًا حتى الآن. ويشمل 5000 قياسات في العالم الحقيقي من 10 قنوات لاستجابات الدافع الغرفة و 2000 تسجيلات من 10 قنوات للموسيقى في ثلاث غرف مختلفة ، بما في ذلك مختبر صوتي محكم ، وغرفة معيشة داخل الوفاة ، وقاعة مؤتمرات ، مع البشر المختلفين في مواقع في كل غرفة.
Soundingearth - يتكون Soundingearth من صور جوية مشتركة وعينات صوتية في جميع أنحاء العالم.
المكتبة المكانية-المكتبة المكانية ، هي مجموعة بيانات صوتية مكانية تضم أكثر من 650 ساعة من Ammisonics من الدرجة الأولى ، وضوضاء مشتت اختياري (مع صوتية خام 19 قناة قريبًا). تم تصميم Librispeech المكاني للتدريب على نموذج التعلم الآلي ، ويشمل ملصقات لوضع المصدر ، واتجاه التحدث ، وصوتيات الغرفة والهندسة. تم إنشاء Librispeech المكاني عن طريق زيادة عينات Librispeech مع ظروف صوتية 200K+ محاكاة عبر غرف 8K+ الاصطناعية.
Stars22 (Sony-Tau Soundscapes المكانية 2022)-تتكون مجموعة بيانات Sony-Tau Soundscapes المكانية 2022 (Stars22) من تسجيلات للمشاهد الحقيقية التي تم التقاطها مع صفيف الميكروفون الكروي العالي القناة (SMA). تتم التسجيلات من فريقين مختلفين في موقعين مختلفين ، جامعة تامبيري في مرافق تامير وفنلندا وسوني في طوكيو ، اليابان. تشترك التسجيلات في كلا الموقعين في نفس عملية التقاط والشرح ، ومنظمة مماثلة.
ToyAdmos - ToyAdmos Dataset هي مجموعة بيانات لأصوات تشغيل الماكينة لمدة حوالي 540 ساعة من أصوات تشغيل الماكينة العادية وأكثر من 12000 عينة من الأصوات الشاذة التي يتم جمعها مع أربعة ميكروفونات بمعدل أخذ العينات 48 كيلو هرتز ، أعدها Yuma Koizumi والأعضاء في مساحات وسائل الإعلام NTT.
TUT Sound Events 2017 - TUT Sound Events 2017 تحتوي مجموعة البيانات على 24 تسجيل صوتي في بيئة الشارع وتحتوي على 6 فئات مختلفة. هذه الفصول هي: الفرامل الصرير ، والسيارات ، والأطفال ، والسيارة الكبيرة ، والأشخاص الذين يتحدثون ، والأشخاص الذين يمشون.
Urbansound8k - Urban Sound 8K هي مجموعة بيانات صوتية تحتوي على 8732 مقتطفات صوتية تحمل علامات (<= 4s) من الأصوات الحضرية من 10 فصول: Air_conditioner ، car_horn ، childrens_playing ، dog_bark ، الحفر ، enginge_idling ، gun_shot ، و siren ، و street_music. يتم رسم الفصول الدراسية من تصنيف الصوت الحضري. يتم أخذ جميع المقتطفات من التسجيلات الميدانية التي تم تحميلها إلى www.freesound.org.
VGG-Sound - A large scale audio-visual dataset. VGG-Sound is an audio-visual correspondent dataset consisting of short clips of audio sounds, extracted from videos uploaded to YouTube.
Visually Indicated Sounds - Materials make distinctive sounds when they are hit or scratched — dirt makes a thud; ceramic makes a clink. These sounds reveal aspects of an object's material properties, as well as the force and motion of the physical interaction.