استكشاف تحويل النص إلى صوت باستخدام Bark
رابط المقال: https://betterprogramming.pub/text-to-audio-generation-with-bark-clearly-explained-4ee300a3713a
سياق
- وسط الطفرة التحويلية للذكاء الاصطناعي التوليدي، تظهر نماذج تحويل النص إلى الصوت كواحدة من أكثر الحدود الواعدة.
- لا تقتصر هذه التطورات على تحويل النص إلى كلام فحسب، بل تتعلق أيضًا بصياغة تجارب صوتية لا يمكن تمييزها عن المحتوى الذي ينتجه الإنسان.
- بدءًا من الكتب الصوتية التي يتم سردها بأي صوت يمكن تخيله وحتى المقطوعات الموسيقية الديناميكية التي تعتمد على مجرد جمل، فإن التطبيقات المحتملة واسعة وآسرة.
- في هذه المقالة، سنتعمق في القدرات والتعقيدات التقنية لـ Bark، وهو نموذج مفتوح المصدر لإنشاء الصوت في بايثون.
إدخال النباح
Bark هو نموذج تحويل النص إلى الصوت قائم على المحولات قادر على توليد خطاب وموسيقى ومؤثرات صوتية واقعية متعددة اللغات. تم إنشاؤه بواسطة Suno، وهي شركة تعتمد على الأبحاث وتقوم بتطوير الذكاء الاصطناعي الصوتي المتطور. نظرًا لأنه تم تطوير Bark لأغراض البحث، فقد أصبحت نقاط التفتيش النموذجية المدربة مسبقًا مفتوحة المصدر ومتاحة للاستخدام التجاري، مما يمثل مساهمة قيمة في مجتمع الذكاء الاصطناعي التوليدي.
مراجع
- https://github.com/suno-ai/bark
- https://audiocraft.metademolab.com/encodec.html
- https://www.streamingmedia.com/Articles/ReadArticle.aspx?ArticleID=74487
- https://towardsdatascience.com/optimizing-vector-quantization-methods-by-machine-learning-algorithms-77c436d0749d
- https://www.assemblyai.com/blog/what-is-residual-vector-quantization/
- https://github.com/facebookresearch/encodec
- https://ai.meta.com/blog/ai-powered-audio-compression-technique/
- https://arxiv.org/abs/2210.13438
- https://github.com/facebookresearch/encodec#extracting-discrete-representations
- https://paperswithcode.com/paper/speaker-anonymization-using-neural-audio
- https://huggingface.co/suno/bark/tree/main/speaker_embeddings/v2