Ainur เป็นโมเดลการเรียนรู้เชิงลึกเชิงนวัตกรรมสำหรับการสร้างดนตรีต่อเนื่องหลายรูปแบบแบบมีเงื่อนไข ได้รับการออกแบบมาเพื่อสร้างตัวอย่างเพลงสเตอริโอคุณภาพสูงที่ 48 kHz โดยมีเงื่อนไขจากอินพุตที่หลากหลาย เช่น เนื้อเพลง คำอธิบายข้อความ และเสียงอื่นๆ สถาปัตยกรรมการแพร่กระจายแบบลำดับชั้นของ Ainur เมื่อรวมกับการฝัง CLASP ช่วยให้สามารถผลิตผลงานเพลงที่สอดคล้องกันและแสดงออกในแนวเพลงและสไตล์ที่หลากหลาย
การสร้างแบบมีเงื่อนไข: Ainur ช่วยให้สามารถสร้างเพลงที่มีเงื่อนไขตามเนื้อเพลง คำอธิบายข้อความ หรือเสียงอื่นๆ โดยนำเสนอแนวทางที่ยืดหยุ่นและสร้างสรรค์ในการแต่งเพลง
เอาต์พุตคุณภาพสูง: โมเดลนี้สามารถสร้างตัวอย่างเพลงสเตอริโอ 22 วินาทีที่ 48 kHz ทำให้มั่นใจได้ถึงความเที่ยงตรงและความสมจริงในระดับสูง
การเรียนรู้หลายรูปแบบ: Ainur ใช้การฝัง CLASP ซึ่งเป็นการนำเสนอเนื้อเพลงและเสียงหลายรูปแบบ เพื่ออำนวยความสะดวกในการจัดแนวเนื้อเพลงต้นฉบับด้วยชิ้นส่วนเสียงที่เกี่ยวข้อง
การประเมินตามวัตถุประสงค์: เรามีตัวชี้วัดการประเมินที่ครอบคลุม รวมถึง Frechet Audio Distance (FAD) และความสอดคล้องของวงจร CLASP (C3) เพื่อประเมินคุณภาพและความสอดคล้องกันของเพลงที่สร้างขึ้น
หากต้องการรัน Ainur ตรวจสอบให้แน่ใจว่าคุณได้ติดตั้งการขึ้นต่อกันต่อไปนี้:
ไพธอน 3.8+
PyTorch 1.13.1
PyTorch สายฟ้า 2.0.0
คุณสามารถติดตั้งแพ็คเกจ Python ที่จำเป็นได้โดยการรัน:
pip ติดตั้ง -r ข้อกำหนด.txt
โคลนที่เก็บนี้:
git clone https://github.com/ainur-music/ainur.gitcd ainur
ติดตั้งการพึ่งพา (ดังที่ได้กล่าวไว้ข้างต้น)
เรียกใช้ Ainur ด้วยอินพุตที่คุณต้องการ ดูสมุดบันทึกตัวอย่างในโฟลเดอร์ examples
เพื่อดูคำแนะนำในการใช้ Ainur สำหรับการสร้างดนตรี ( เร็วๆ นี้ )
Ainur เป็นแนวทางในการสร้างดนตรีและปรับปรุงคุณภาพของเสียงร้องผ่านข้อมูลที่เป็นข้อความและเนื้อเพลงที่ซิงค์กัน นี่คือตัวอย่างอินพุตสำหรับการฝึกอบรมและสร้างเพลงด้วย Ainur:
«Red Hot Chili Peppers, Alternative Rock, 7 of 19»
«[00:45.18] I got your hey oh, now listen what I say oh [...]»
เราเปรียบเทียบประสิทธิภาพของ Ainur กับโมเดลล้ำสมัยอื่นๆ สำหรับการสร้างข้อความเป็นเพลง เราทำการประเมินตามตัวชี้วัดเชิงวัตถุประสงค์ เช่น FAD และใช้โมเดลการฝังที่แตกต่างกันสำหรับการอ้างอิง: VGGish, YAMNet และ Trill
แบบอย่าง | อัตรา [kHz] | ความยาว [วินาที] | พารามิเตอร์ [ม] | ขั้นตอนการอนุมาน | เวลาอนุมาน [s] ↓ | แฟชั่น วีจีกิช ↓ | แฟชั่น ยัมเน็ต ↓ | FAD ทริล ↓ |
---|---|---|---|---|---|---|---|---|
ไอนูร์ | 48@2 | 22 | 910 | 50 | 14.5 | 8.38 | 20.70 | 0.66 |
ไอนูร์ (ไม่มีตัวล็อค) | 48@2 | 22 | 910 | 50 | 14.7 | 8.40 | 20.86 | 0.64 |
เสียงLDM | 16@1 | 22 | 181 | 200 | 2.20 | 15.5 | 784.2 | 0.52 |
ออดิโอ LDM2 | 16@1 | 22 | 1100 | 100 | 20.8 | 8.67 | 23.92 | 0.52 |
มิวสิคเจน | 16@1 | 22 | 300 | 1500 | 81.3 | 14.4 | 53.04 | 0.66 |
ตู้เพลง | 16@1 | 1 | 1,000 | - | 538 | 20.4 | 178.1 | 1.59 |
ดนตรีLM | 16@1 | 5 | พ.ศ. 2433 | 125 | 153 | 15.0 | 61.58 | 0.47 |
การแพร่กระจาย | 44.1@1 | 5 | 890 | 50 | 6.90 | 5.24 | 15.96 | 0.67 |
สำรวจและฟังเพลงที่สร้างโดย Ainur ที่นี่
คุณสามารถดาวน์โหลดจุดตรวจ Ainur และ CLASP ที่ได้รับการฝึกอบรมล่วงหน้าได้จากไดรฟ์:
จุดตรวจที่ดีที่สุดของ Ainur (รุ่นที่สูญเสียน้อยที่สุดระหว่างการฝึก)
จุดตรวจสุดท้ายของ Ainur (รุ่นที่มีจำนวนขั้นตอนการฝึกสูงสุด)
ด่านตรวจ CLASP
โครงการนี้ได้รับอนุญาตภายใต้ใบอนุญาต MIT - ดูรายละเอียดในไฟล์ใบอนุญาต
© 2023 จูเซปเป้ คอนเซียลดี