Amphion (/æmˈfaɪən/) เป็นชุดเครื่องมือสำหรับการสร้างเสียง ดนตรี และคำพูด วัตถุประสงค์คือเพื่อสนับสนุนการวิจัยที่สามารถทำซ้ำได้ และช่วยให้นักวิจัยและวิศวกรรุ่นเยาว์เริ่มต้นในด้านการวิจัยและพัฒนาด้านเสียง ดนตรี และการสร้างคำพูด Amphion นำเสนอคุณสมบัติพิเศษ: การแสดงภาพ โมเดลหรือสถาปัตยกรรมคลาสสิก เราเชื่อว่าการแสดงภาพข้อมูลเหล่านี้เป็นประโยชน์สำหรับนักวิจัยและวิศวกรรุ่นเยาว์ที่ต้องการทำความเข้าใจแบบจำลองนี้มากขึ้น
วัตถุประสงค์ของ North-Star ของ Amphion คือการนำเสนอแพลตฟอร์มสำหรับศึกษาการแปลงอินพุตใดๆ ให้เป็นเสียง Amphion ได้รับการออกแบบมาเพื่อรองรับงานการสร้างเฉพาะบุคคล รวมถึงแต่ไม่จำกัดเพียง
TTS : ข้อความเป็นคำพูด (รองรับ)
SVS : สังเคราะห์เสียงร้อง (กำลังพัฒนา)
VC : การแปลงเสียง (กำลังพัฒนา)
SVC : การแปลงเสียงร้องเพลง (รองรับ)
TTA : ข้อความเป็นเสียง (รองรับ)
TTM : ข้อความเป็นเพลง (กำลังพัฒนา)
มากกว่า…
นอกเหนือจากงานการสร้างเฉพาะแล้ว Amphion ยังมี ตัวแสดงเสียง และ ตัววัดการประเมินผล อีกหลายตัว โวโคเดอร์เป็นโมดูลที่สำคัญสำหรับการผลิตสัญญาณเสียงคุณภาพสูง ในขณะที่ตัววัดการประเมินผลมีความสำคัญอย่างยิ่งในการรับรองตัววัดที่สอดคล้องกันในงานสร้าง นอกจากนี้ Amphion ยังทุ่มเทให้กับการพัฒนาการสร้างเสียงในการใช้งานจริง เช่น การสร้าง ชุดข้อมูลขนาดใหญ่ สำหรับการสังเคราะห์เสียงพูด
10/10/2024 : เราเปิด ตัว MaskGCT ซึ่งเป็นโมเดล TTS ที่ไม่ถอยอัตโนมัติโดยสมบูรณ์ ซึ่งช่วยลดความจำเป็นในการจัดตำแหน่งข้อมูลที่ชัดเจนระหว่างการควบคุมดูแลข้อความและคำพูด MaskGCT ได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูล Emilia และบรรลุประสิทธิภาพ TTS แบบ Zero-shot แบบ SOTA
2024/09/01 : Amphion, Emilia และ DSFF-SVC ได้รับการยอมรับจาก IEEE SLT 2024! -
28/08/2024 : ยินดีต้อนรับสู่ช่อง Discord ของ Amphion เพื่อเชื่อมต่อและมีส่วนร่วมกับชุมชนของเรา!
2024/08/20 : SingVisio ได้รับการยอมรับจาก Computers & Graphics มีให้ที่นี่! -
2024/08/27 : ชุดข้อมูล Emilia เผยแพร่สู่สาธารณะแล้ว! ค้นพบชุดข้อมูลการสร้างเสียงพูดที่กว้างขวางและหลากหลายที่สุดด้วยข้อมูลเสียงพูด 101,000 ชั่วโมงในขณะนี้ที่ หรือ ! -
07/07/2024 : ขณะนี้ Amphion เปิด ตัว Emilia ซึ่งเป็นชุดข้อมูลโอเพ่นซอร์สหลายภาษาชุดแรกสำหรับการสร้างคำพูดที่มีข้อมูลคำพูดมากกว่า 1.01,000 ชั่วโมง และ Emilia-Pipe ซึ่งเป็นไปป์ไลน์ก่อนการประมวลผลแบบโอเพ่นซอร์สชุดแรกที่ออกแบบมาเพื่อการแปลง ข้อมูลคำพูดจากภายนอกสู่ข้อมูลการฝึกอบรมคุณภาพสูงพร้อมคำอธิบายประกอบสำหรับการสร้างคำพูด!
6/2024/17 : Amphion มีรุ่นใหม่สำหรับรุ่น VALL-E ! มันใช้ Llama เป็นสถาปัตยกรรมพื้นฐานและมีประสิทธิภาพของโมเดลที่ดีกว่า ความเร็วในการฝึกฝนที่เร็วขึ้น และโค้ดที่อ่านได้มากขึ้นเมื่อเทียบกับเวอร์ชันแรกของเรา
2024/03/12 : Amphion รองรับ NaturalSpeech3 FACodec แล้ว และปล่อยจุดตรวจที่ฝึกไว้ล่วงหน้าแล้ว
22/02/2024 : SingVisio เครื่องมือแสดงภาพ Amphion ตัวแรกเปิดตัว
12/12/2566 : Amphion v0.1 เปิดตัว
28/11/2023 : Amphion alpha เปิดตัว
Amphion บรรลุประสิทธิภาพที่ล้ำสมัยเมื่อเปรียบเทียบกับพื้นที่เก็บข้อมูลโอเพ่นซอร์สที่มีอยู่ในระบบแปลงข้อความเป็นคำพูด (TTS) รองรับโมเดลหรือสถาปัตยกรรมต่อไปนี้:
FastSpeech2: สถาปัตยกรรม TTS ที่ไม่ถดถอยอัตโนมัติซึ่งใช้บล็อก Transformer แบบฟีดฟอร์เวิร์ด
VITS: สถาปัตยกรรม TTS แบบ end-to-end ที่ใช้ตัวเข้ารหัสอัตโนมัติแบบแปรผันตามเงื่อนไขพร้อมการเรียนรู้แบบตรงข้าม
VALL-E: สถาปัตยกรรม TTS แบบ Zero-shot ที่ใช้โมเดลภาษาตัวแปลงสัญญาณประสาทพร้อมโค้ดแยก
NaturalSpeech2: สถาปัตยกรรมสำหรับ TTS ที่ใช้โมเดลการแพร่กระจายแฝงเพื่อสร้างเสียงที่ฟังดูเป็นธรรมชาติ
Jets: โมเดล TTS แบบ end-to-end ที่ร่วมกันฝึก FastSpeech2 และ HiFi-GAN ด้วยโมดูลการจัดตำแหน่ง
MaskGCT: สถาปัตยกรรม TTS ที่ไม่ถอยอัตโนมัติโดยสมบูรณ์ ซึ่งช่วยลดความจำเป็นในการจัดตำแหน่งข้อมูลที่ชัดเจนระหว่างการควบคุมดูแลข้อความและคำพูด
Ampion รองรับฟีเจอร์ตามเนื้อหาที่หลากหลายจากโมเดลที่ได้รับการฝึกล่วงหน้าต่างๆ รวมถึง WeNet, Whisper และ ContentVec บทบาทเฉพาะของพวกเขาใน SVC ได้รับการตรวจสอบในรายงาน SLT 2024 ของเรา
Amphion ใช้สถาปัตยกรรมโมเดลที่ล้ำสมัยหลายรูปแบบ รวมถึงโมเดลแบบกระจาย หม้อแปลง VAE และแบบไหล สถาปัตยกรรมแบบกระจายใช้ CNN แบบขยายสองทิศทางเป็นแบ็กเอนด์ และรองรับอัลกอริธึมการสุ่มตัวอย่างหลายอย่าง เช่น DDPM, DDIM และ PNDM นอกจากนี้ยังรองรับการอนุมานขั้นตอนเดียวตามโมเดลความสอดคล้อง
Amphion รองรับ TTA ด้วยโมเดลการแพร่กระจายแฝง ได้รับการออกแบบมาเช่น AudioLDM, Make-an-Audio และ AUDIT นอกจากนี้ยังเป็นการนำส่วนการสร้างข้อความเป็นเสียงไปใช้อย่างเป็นทางการในรายงาน NeurIPS 2023 ของเราด้วย
Amphion รองรับตัวสร้างเสียงระบบประสาทที่ใช้กันอย่างแพร่หลายหลายตัว ซึ่งรวมถึง:
ตัวแปลงเสียงที่ใช้ GAN: MelGAN, HiFi-GAN, NSF-HiFiGAN, BigVGAN, APNet
ตัวแปลงเสียงแบบโฟลว์: WaveGlow
โวโคเดอร์ที่ใช้การแพร่กระจาย: Diffwave
vocoders แบบถดถอยอัตโนมัติ: WaveNet, WaveRNN
Amphion นำเสนอการใช้งานอย่างเป็นทางการของ Multi-Scale Constant-Q Transform Discriminator (รายงาน ICASSP 2024 ของเรา) สามารถใช้เพื่อปรับปรุงสถาปัตยกรรมโวโคเดอร์ที่ใช้ GAN ในระหว่างการฝึก และทำให้ขั้นตอนการอนุมาน (เช่น หน่วยความจำหรือความเร็ว) ไม่เปลี่ยนแปลง
Amphion ให้การประเมินวัตถุประสงค์ที่ครอบคลุมของเสียงที่สร้างขึ้น ตัวชี้วัดการประเมินผลประกอบด้วย:
การสร้างแบบจำลอง F0 : ค่าสัมประสิทธิ์ F0 เพียร์สัน, ข้อผิดพลาดรูทค่าเฉลี่ยกำลังสองของระยะเวลา F0, ข้อผิดพลาดกำลังสองค่าเฉลี่ยของรูท F0, คะแนน F1 ที่เปล่งเสียง/ไม่เปล่งเสียง ฯลฯ
การสร้างแบบจำลองพลังงาน : ข้อผิดพลาดกำลังสองเฉลี่ยของรากพลังงาน, ค่าสัมประสิทธิ์เพียร์สันพลังงาน ฯลฯ
ความชัดเจน : อัตราข้อผิดพลาดของอักขระ/คำ ซึ่งสามารถคำนวณได้จาก Whisper และอื่นๆ
การบิดเบือนสเปกตรัม : Frechet Audio Distance (FAD), Mel Cepstral Distortion (MCD), Multi-Resolution STFT Distance (MSTFT), การประเมินการรับรู้คุณภาพเสียงพูด (PESQ), Short Time Objective Intelligibility (STOI) ฯลฯ
ความคล้ายคลึงกันของลำโพง : ความคล้ายคลึงของโคไซน์ ซึ่งสามารถคำนวณได้จาก RawNet3, Resemblyzer, WeSpeaker, WavLM และอื่นๆ
Amphion รวมการประมวลผลข้อมูลล่วงหน้าของชุดข้อมูลโอเพ่นซอร์ส รวมถึง AudioCaps, LibriTTS, LJSpeech, M4Singer, Opencpop, OpenSinger, SVCC, VCTK และอื่นๆ สามารถดูรายการชุดข้อมูลที่รองรับได้ที่นี่ (กำลังอัปเดต)
Amphion (เฉพาะ) รองรับชุดข้อมูล Emilia และไปป์ไลน์ Emilia-Pipe ที่ประมวลผลล่วงหน้าสำหรับข้อมูลคำพูดในป่า!
Amphion มีเครื่องมือแสดงภาพเพื่อแสดงกลไกการประมวลผลภายในของโมเดลคลาสสิกแบบโต้ตอบได้ นี่เป็นทรัพยากรอันล้ำค่าสำหรับวัตถุประสงค์ทางการศึกษาและเพื่ออำนวยความสะดวกในการวิจัยที่เข้าใจได้
ปัจจุบัน Amphion รองรับ SingVisio ซึ่งเป็นเครื่องมือแสดงภาพของโมเดลการแพร่กระจายสำหรับการแปลงเสียงร้องเพลง
Amphion สามารถติดตั้งผ่านโปรแกรมติดตั้งหรืออิมเมจ Docker
git clone https://github.com/open-mmlab/Amphion.gitcd Amphion# ติดตั้ง Python Environmentconda create --name amphion python=3.9.15 conda เปิดใช้งาน amphion# ติดตั้ง Python Package Dependenciessh env.sh
ติดตั้ง Docker, ไดรเวอร์ NVIDIA, NVIDIA Container Toolkit และ CUDA
รันคำสั่งต่อไปนี้:
git clone https://github.com/open-mmlab/Amphion.gitcd Amphion นักเทียบท่าดึง realamphion/amphion นักเทียบท่าวิ่ง --runtime=nvidia --gpus all -it -v .:/app realamphion/amphion
จำเป็นต้องเมานต์ชุดข้อมูลด้วยอาร์กิวเมนต์ -v
เมื่อใช้ Docker โปรดดูชุดข้อมูล Mount ในคอนเทนเนอร์ Docker และ Docs Docs สำหรับรายละเอียดเพิ่มเติม
เราให้รายละเอียดคำแนะนำของงานต่าง ๆ ตามสูตรต่อไปนี้:
ข้อความเป็นคำพูด (TTS)
การแปลงเสียงร้องเพลง (SVC)
ข้อความเป็นเสียง (TTA)
โวโคเดอร์
การประเมิน
การแสดงภาพ
เราขอขอบคุณทุกการมีส่วนร่วมเพื่อปรับปรุง Amphion โปรดดูที่ CONTRIBUTING.md สำหรับแนวทางการมีส่วนร่วม
FastSpeech2 ของ ming024 และ VITS ของ jaywalnut310 สำหรับโค้ดสถาปัตยกรรมโมเดล
VALL-E ของ lifeiteng สำหรับการฝึกอบรมไปป์ไลน์และการออกแบบสถาปัตยกรรมแบบจำลอง
SpeechTokenizer สำหรับการออกแบบโทเค็นไนเซอร์แบบกลั่นความหมาย
WeNet, Whisper, ContentVec และ RawNet3 สำหรับโมเดลที่ได้รับการฝึกล่วงหน้าและโค้ดการอนุมาน
HiFi-GAN สำหรับการออกแบบสถาปัตยกรรมและกลยุทธ์การฝึกอบรมของ Vocoder ที่ใช้ GAN
เข้ารหัสสำหรับสถาปัตยกรรมของ GAN Discriminator และบล็อกพื้นฐานที่มีการจัดระเบียบอย่างดี
การแพร่กระจายแฝงสำหรับการออกแบบสถาปัตยกรรมแบบจำลอง
TensorFlowTTS สำหรับการเตรียมเครื่องมือ MFA
Amphion อยู่ภายใต้ใบอนุญาต MIT ฟรีสำหรับทั้งการวิจัยและการใช้งานเชิงพาณิชย์
@inproceedings{amphion,author={Zhang, Xueyao และ Xue, Liumeng และ Gu, Yicheng และ Wang, Yuancheng และ Li, Jiaqi และ He, Haorui และ Wang, Chaoren และ Song, Ting และ Chen, Xi และ Fang, Zihao และ Chen, Haopeng และ Zhang, Junan และ Tang, Tze Ying และ Zou, Lexiao และ Wang, Mingxuan และ Han, Jun และ Chen, Kai และ Li, Haizhou และ Wu, Zhizheng},title={Amphion: An Open-Source Audio, Music and Speech Generation Toolkit},booktitle={{IEEE} เวิร์กช็อปเทคโนโลยีภาษาพูด, {SLT} 2024},ปี={2024}}