Ainur هو نموذج مبتكر للتعلم العميق لتوليد الموسيقى المشروطة متعددة الوسائط. إنه مصمم لإنشاء عينات موسيقى استريو عالية الجودة بتردد 48 كيلو هرتز مشروطة بمجموعة متنوعة من المدخلات، مثل كلمات الأغاني وواصفات النص والصوتيات الأخرى. تسمح بنية التوزيع الهرمية لـ Ainur، جنبًا إلى جنب مع تضمينات CLASP، بإنتاج مؤلفات موسيقية متماسكة ومعبرة عبر مجموعة واسعة من الأنواع والأنماط.
الجيل المشروط: يتيح آينور إمكانية توليد الموسيقى المشروطة بالكلمات أو واصفات النص أو أي صوت آخر، مما يوفر نهجًا مرنًا ومبتكرًا للتأليف الموسيقي.
مخرجات عالية الجودة: النموذج قادر على إنتاج عينات موسيقى استريو مدتها 22 ثانية بتردد 48 كيلو هرتز، مما يضمن دقة عالية وواقعية.
التعلم متعدد الوسائط: يستخدم آينور تضمينات CLASP، وهي عبارة عن تمثيلات متعددة الوسائط للكلمات والصوت، لتسهيل محاذاة الكلمات النصية مع الأجزاء الصوتية المقابلة.
التقييم الموضوعي: نحن نقدم مقاييس تقييم شاملة، بما في ذلك مسافة الصوت Frechet (FAD) وتناسق دورة CLASP (C3)، لتقييم جودة وتماسك الموسيقى التي تم إنشاؤها.
لتشغيل Ainur، تأكد من تثبيت التبعيات التالية:
بايثون 3.8+
باي تورش 1.13.1
باي تورش البرق 2.0.0
يمكنك تثبيت حزم Python المطلوبة عن طريق تشغيل:
تثبيت النقطة -r متطلبات.txt
استنساخ هذا المستودع:
استنساخ بوابة https://github.com/ainur-music/ainur.gitcd ainur
تثبيت التبعيات (كما هو مذكور أعلاه).
قم بتشغيل Ainur بالمدخلات التي تريدها. راجع نماذج دفاتر الملاحظات الموجودة في مجلد examples
للحصول على إرشادات حول استخدام Ainur لإنشاء الموسيقى. ( قريباً )
يوجه عينور عملية توليد الموسيقى ويحسن جودة الغناء من خلال المعلومات النصية وكلمات الأغاني المتزامنة. فيما يلي أمثلة على المدخلات للتدريب وإنشاء الموسيقى باستخدام Ainur:
«Red Hot Chili Peppers, Alternative Rock, 7 of 19»
«[00:45.18] I got your hey oh, now listen what I say oh [...]»
قمنا بمقارنة أداء Ainur مع نموذج آخر متطور لتوليد النص إلى الموسيقى. لقد اعتمدنا في التقييم على مقاييس موضوعية مثل FAD واستخدام نماذج تضمين مختلفة كمرجع: VGGish وYAMNet وTrill.
نموذج | المعدل [كيلو هرتز] | الطول [ق] | المعلمات [م] | خطوات الاستدلال | وقت الاستدلال [ق] ↓ | بدعة VGGish ↓ | فاد يام نت ↓ | بدعة تريل ↓ |
---|---|---|---|---|---|---|---|---|
اينور | 48@2 | 22 | 910 | 50 | 14.5 | 8.38 | 20.70 | 0.66 |
أينور (بدون مشبك) | 48@2 | 22 | 910 | 50 | 14.7 | 8.40 | 20.86 | 0.64 |
AudioLDM | 16@1 | 22 | 181 | 200 | 2.20 | 15.5 | 784.2 | 0.52 |
الصوت LDM 2 | 16@1 | 22 | 1100 | 100 | 20.8 | 8.67 | 23.92 | 0.52 |
MusicGen | 16@1 | 22 | 300 | 1500 | 81.3 | 14.4 | 53.04 | 0.66 |
الموسيقي | 16@1 | 1 | 1000 | - | 538 | 20.4 | 178.1 | 1.59 |
موسيقىLM | 16@1 | 5 | 1890 | 125 | 153 | 15.0 | 61.58 | 0.47 |
انتشار | 44.1@1 | 5 | 890 | 50 | 6.90 | 5.24 | 15.96 | 0.67 |
استكشف واستمع إلى الموسيقى التي أنشأها عينور هنا.
يمكنك تنزيل نقاط تفتيش Ainur وCLASP المدربة مسبقًا من محرك الأقراص:
أفضل نقطة تفتيش في عينور (نموذج بأقل خسارة أثناء التدريب)
نقطة تفتيش عينور الأخيرة (النموذج الذي يحتوي على أكبر عدد من خطوات التدريب)
نقطة تفتيش المشبك
هذا المشروع مرخص بموجب ترخيص MIT - راجع ملف الترخيص للحصول على التفاصيل.
© 2023 جوزيبي كونسيالدي