สำรวจการแปลงข้อความเป็นเสียงด้วย Bark
ลิงก์ไปยังบทความ: https://betterprogramming.pub/text-to-audio-generation-with-bark-clearly-explained-4ee300a3713a
บริบท
- ท่ามกลางกระแสการเปลี่ยนแปลงของ generative AI โมเดลข้อความเป็นเสียงกำลังถือเป็นหนึ่งในขอบเขตที่มีแนวโน้มมากที่สุด
- ความก้าวหน้าเหล่านี้ไม่ได้เป็นเพียงการแปลงข้อความเป็นคำพูดเท่านั้น แต่ยังเกี่ยวกับการสร้างสรรค์ประสบการณ์เสียงที่แยกไม่ออกจากเนื้อหาที่มนุษย์สร้างขึ้น
- ตั้งแต่หนังสือเสียงที่บรรยายด้วยเสียงใดๆ ก็ตามเท่าที่จะจินตนาการได้ ไปจนถึงการแต่งเพลงแบบไดนามิกที่กระตุ้นด้วยประโยคเพียงประโยคเดียว แอปพลิเคชั่นที่มีศักยภาพนั้นมีมากมายและน่าดึงดูด
- ในบทความนี้ เราจะเจาะลึกความสามารถและความซับซ้อนทางเทคนิคของ Bark ซึ่งเป็นโมเดลการสร้างเสียงพร้อมข้อความโอเพ่นซอร์สใน Python
แนะนำบาร์ค
Bark เป็นโมเดลการแปลงข้อความเป็นเสียงที่ใช้หม้อแปลงไฟฟ้าซึ่งสามารถสร้างคำพูด เพลง และเสียงเอฟเฟกต์หลายภาษาที่สมจริง สร้างขึ้นโดย Suno ซึ่งเป็นบริษัทที่ขับเคลื่อนด้วยการวิจัยซึ่งพัฒนา AI เสียงที่ล้ำสมัย เนื่องจาก Bark ได้รับการพัฒนาเพื่อวัตถุประสงค์ในการวิจัย จุดตรวจสอบโมเดลที่ได้รับการฝึกอบรมล่วงหน้าจึงได้จัดทำเป็นโอเพ่นซอร์สและพร้อมใช้งานในเชิงพาณิชย์ ซึ่งเป็นประโยชน์อย่างยิ่งต่อชุมชน Generative AI
อ้างอิง
- https://github.com/suno-ai/bark
- https://audiocraft.metademolab.com/encodec.html
- https://www.streamingmedia.com/Articles/ReadArticle.aspx?ArticleID=74487
- https://towardsdatascience.com/optimizing-vector-quantization-methods-by-machine-learning-algorithms-77c436d0749d
- https://www.assemblyai.com/blog/what-is-residual-vector-quantization/
- https://github.com/facebookresearch/encodec
- https://ai.meta.com/blog/ai-powered-audio-compression-technique/
- https://arxiv.org/abs/2210.13438
- https://github.com/facebookresearch/encodec#extracting-discrete-representations
- https://paperswithcode.com/paper/speaker-anonymization-using-neural-audio
- https://huggingface.co/suno/bark/tree/main/speaker_embeddings/v2