อังกฤษ | 简体中文 | 日本語
รุ่นที่วางจำหน่ายในปัจจุบันรองรับ การแปลงเสียงเป็นศูนย์ ? , การแปลงเสียงแบบเรียลไทม์แบบ Zero-shot และ การแปลงเสียงร้องเพลงแบบ Zero-shot โดยไม่ต้องผ่านการฝึกอบรมใดๆ ก็สามารถโคลนเสียงที่มีคำพูดอ้างอิง 1~30 วินาทีได้
หากต้องการค้นหารายการสาธิตและการเปรียบเทียบกับโมเดลการแปลงเสียงรุ่นก่อนหน้า โปรดไปที่หน้าสาธิตของเรา
เรากำลังปรับปรุงคุณภาพของโมเดลอย่างต่อเนื่องและเพิ่มคุณสมบัติเพิ่มเติม
เราได้ดำเนินการประเมินตามวัตถุประสงค์หลายชุดเกี่ยวกับความสามารถในการแปลงเสียงของ Seed-VC ของเรา เพื่อความสะดวกในการทำซ้ำ เสียงต้นฉบับจะเป็นเสียงพูดแบบสุ่ม 100 เสียงจาก LibriTTS-test-clean และเสียงอ้างอิงเป็นเสียงที่สุ่มเลือก 12 เสียงจากแหล่งธรรมชาติที่มีลักษณะเฉพาะตัว
ไฟล์เสียงต้นฉบับสามารถพบได้ใน ./examples/libritts-test-clean
-clean
ไฟล์เสียงอ้างอิงสามารถพบได้ใน ./examples/reference
เราประเมินผลลัพธ์การแปลงในแง่ของผู้พูดที่ฝังความคล้ายคลึงโคไซน์ (SECS) อัตราข้อผิดพลาดของคำ (WER) และอัตราข้อผิดพลาดของอักขระ (CER) และเปรียบเทียบผลลัพธ์ของเรากับข้อมูลพื้นฐานแบบโอเพ่นซอร์สที่แข็งแกร่งสองรายการ ได้แก่ OpenVoice และ CosyVoice
ผลลัพธ์ในตารางด้านล่างแสดงให้เห็นว่าโมเดล Seed-VC ของเรามีประสิทธิภาพเหนือกว่าโมเดลพื้นฐานอย่างมากทั้งในด้านความเข้าใจและความคล้ายคลึงของผู้พูด
โมเดลเมตริก | วินาที↑ | เวอร์↓ | เซอร์↓ | เอสไอจี↑ | บาก↑ | OVRL↑ |
---|---|---|---|---|---|---|
ความจริงพื้นฐาน | 1.0000 | 8.02 | 1.57 | - | - | - |
เปิดเสียง | 0.7547 | 15.46 | 4.73 | 3.56 | 4.02 | 3.27 |
โคซี่วอยซ์ | 0.8440 | 18.98 | 7.29 | 3.51 | 4.02 | 3.21 |
Seed-VC (ของเรา) | 0.8676 | 11.99 | 2.92 | 3.42 | 3.97 | 3.11 |
นอกจากนี้เรายังได้เปรียบเทียบกับรุ่นการแปลงเสียงที่ไม่ใช่ศูนย์ช็อตสำหรับลำโพงหลายตัว (ขึ้นอยู่กับรุ่นที่มีจำหน่าย):
ตัวละคร | โมเดลเมตริก | วินาที↑ | เวอร์↓ | เซอร์↓ | เอสไอจี↑ | บาก↑ | OVRL↑ |
---|---|---|---|---|---|---|---|
- | ความจริงพื้นฐาน | 1.0000 | 6.43 | 1.00 น | - | - | - |
โทไค เทโอะ | โซ-VITS-4.0 | 0.8637 | 21.46 | 9.63 | 3.06 | 3.66 | 2.68 |
Seed-VC (ของเรา) | 0.8899 | 15.32 | 4.66 | 3.12 | 3.71 | 2.72 | |
มิลค์กี้ กรีน | โซ-VITS-4.0 | 0.6850 | 48.43 | 32.50 | 3.34 | 3.51 | 2.82 |
Seed-VC (ของเรา) | 0.8072 | 7.26 | 1.32 | 3.48 | 4.07 | 3.20 | |
มาติเคน ตันฮวาเซอร์ | โซ-VITS-4.0 | 0.8594 | 16.25 | 8.64 | 3.25 | 3.71 | 2.84 |
Seed-VC (ของเรา) | 0.8768 | 12.62 | 5.86 | 3.18 | 3.83 | 2.85 |
ผลลัพธ์แสดงให้เห็นว่า แม้จะไม่ได้รับการฝึกอบรมเกี่ยวกับวิทยากรเป้าหมาย แต่ Seed-VC ก็สามารถบรรลุผลลัพธ์ที่ดีกว่ารุ่นที่ไม่ Zero Shot อย่างเห็นได้ชัด อย่างไรก็ตาม สิ่งนี้อาจแตกต่างกันมากขึ้นอยู่กับคุณภาพของรุ่น SoVITS ยินดีประชาสัมพันธ์หรือออกประเด็นหากคุณพบว่าการเปรียบเทียบนี้ไม่ยุติธรรมหรือไม่ถูกต้อง
(โมเดล Tokai Teio จาก zomehwh/sovits-tannhauser)
(โมเดล Matikane Tannhuaser จาก zomehwh/sovits-tannhauser)
(โมเดลมิลกี้กรีนจาก sparanoid/milky-green-sovits-4)
ผลลัพธ์ ASR ภาษาอังกฤษคำนวณโดยโมเดล facebook/hubert-large-ls960-ft
การฝังลำโพงคำนวณโดยโมเดลรีเซมไบเซอร์
คุณสามารถสร้างการประเมินใหม่ได้โดยการรันสคริปต์ eval.py
หลาม eval.py --source ./examples/libritts-test-clean --target ./examples/reference --output ./examples/eval/converted --การแพร่กระจาย-ขั้นตอนที่ 25 --ความยาว-ปรับ 1.0 --การอนุมาน-cfg-อัตรา 0.7 --xvector-extractor "resemblyzer"--baseline "" # กรอก openvoice หรือ cosyvoice เพื่อคำนวณผลลัพธ์พื้นฐาน - ตัวอย่างสูงสุด 100 # คำพูดต้นทางสูงสุดที่จะผ่าน
ก่อนหน้านั้น ตรวจสอบให้แน่ใจว่าคุณได้ติดตั้ง repo openvoice และ cosyvoice อย่างถูกต้องบน ../OpenVoice/
และ ../CosyVoice/
หากคุณต้องการรันการประเมินพื้นฐาน
การประเมินการแปลงเสียงร้องเพิ่มเติมเสร็จสิ้นบนชุดข้อมูล M4Singer โดยมีผู้พูดเป้าหมาย 4 คน ซึ่งมีข้อมูลเสียงอยู่ที่นี่
ความคล้ายคลึงกันของผู้พูดคำนวณโดยการหาค่าเฉลี่ยความคล้ายคลึงของโคไซน์ระหว่างผลลัพธ์การแปลงและตัวอย่างที่มีอยู่ทั้งหมดในชุดข้อมูลอักขระตามลำดับ
สำหรับอักขระแต่ละตัว จะมีการเลือกคำพูดแบบสุ่มหนึ่งเสียงเป็นพร้อมต์สำหรับการอนุมานแบบซีโร่ช็อต สำหรับการเปรียบเทียบ เราได้ฝึกโมเดล RVCv2-f0-48k ตามลำดับสำหรับอักขระแต่ละตัวเป็นพื้นฐาน
เสียงพูดแบบสุ่ม 100 เสียงสำหรับนักร้องแต่ละประเภทจะถูกใช้เป็นเสียงต้นฉบับ
โมเดลเมตริก | F0CORR↑ | F0RMSE↓ | วินาที↑ | เซอร์↓ | เอสไอจี↑ | บาก↑ | OVRL↑ |
---|---|---|---|---|---|---|---|
RVCv2 | 0.9404 | 30.43 | 0.7264 | 28.46 | 3.41 | 4.05 | 3.12 |
Seed-VC (ของเรา) | 0.9375 | 33.35 | 0.7405 | 19.70 น | 3.39 | 3.96 | 3.06 |
แหล่งนักร้องประเภท | ตัวละคร | โมเดลเมตริก | F0CORR↑ | F0RMSE↓ | วินาที↑ | เซอร์↓ | เอสไอจี↑ | บาก↑ | OVRL↑ |
---|---|---|---|---|---|---|---|---|---|
อัลโต (หญิง) | - | ความจริงพื้นฐาน | 1.0000 | 0.00 | - | 8.16 | - | - | - |
อาซึมะ (หญิง) | RVCv2 | 0.9617 | 33.03 | 0.7352 | 24.70 | 3.36 | 4.07 | 3.07 | |
Seed-VC (ของเรา) | 0.9658 | 31.64 | 0.7341 | 15.23 | 3.37 | 4.02 | 3.07 | ||
ไดอาน่า (หญิง) | RVCv2 | 0.9626 | 32.56 | 0.7212 | 19.67 | 3.45 | 4.08 | 3.17 | |
Seed-VC (ของเรา) | 0.9648 | 31.94 | 0.7457 | 16.81 | 3.49 | 3.99 | 3.15 | ||
ติงเจิ้น (ชาย) | RVCv2 | 0.9013 | 26.72 | 0.7221 | 18.53 | 3.37 | 4.03 | 3.06 | |
Seed-VC (ของเรา) | 0.9356 | 21.87 | 0.7513 | 15.63 | 3.44 | 3.94 | 3.09 | ||
โคบี้ ไบรอันท์ (ชาย) | RVCv2 | 0.9215 | 23.90 | 0.7495 | 37.23 | 3.49 | 4.06 | 3.21 | |
Seed-VC (ของเรา) | 0.9248 | 23.40 | 0.7602 | 26.98 | 3.43 | 4.02 | 3.13 | ||
เบส (ชาย) | - | ความจริงพื้นฐาน | 1.0000 | 0.00 | - | 8.62 | - | - | - |
อาซูมะ | RVCv2 | 0.9288 | 32.62 | 0.7148 | 24.88 | 3.45 | 4.10 | 3.18 | |
Seed-VC (ของเรา) | 0.9383 | 31.57 | 0.6960 | 10.31 | 3.45 | 4.03 | 3.15 | ||
ไดอาน่า | RVCv2 | 0.9403 | 30.00 น | 0.7010 | 14.54 | 3.53 | 4.15 | 3.27 | |
Seed-VC (ของเรา) | 0.9428 | 30.06 | 0.7299 | 9.66 | 3.53 | 4.11 | 3.25 | ||
ติงเจิน | RVCv2 | 0.9061 | 19.53 | 0.6922 | 25.99 | 3.36 | 4.09 | 3.08 | |
Seed-VC (ของเรา) | 0.9169 | 18.15 | 0.7260 | 14.13 | 3.38 | 3.98 | 3.07 | ||
โคบี้ ไบรอันท์ | RVCv2 | 0.9302 | 16.37 | 0.7717 | 41.04 | 3.51 | 4.13 | 3.25 | |
Seed-VC (ของเรา) | 0.9176 | 17.93 | 0.7798 | 24.23 | 3.42 | 4.08 | 3.17 | ||
โซปราโน (หญิง) | - | ความจริงพื้นฐาน | 1.0000 | 0.00 | - | 27.92 | - | - | - |
อาซูมะ | RVCv2 | 0.9742 | 47.80 | 0.7104 | 38.70 | 3.14 | 3.85 | 2.83 | |
Seed-VC (ของเรา) | 0.9521 | 64.00 น | 0.7177 | 33.10 | 3.15 | 3.86 | 2.81 | ||
ไดอาน่า | RVCv2 | 0.9754 | 46.59 | 0.7319 | 32.36 | 3.14 | 3.85 | 2.83 | |
Seed-VC (ของเรา) | 0.9573 | 59.70 | 0.7317 | 30.57 | 3.11 | 3.78 | 2.74 | ||
ติงเจิน | RVCv2 | 0.9543 | 31.45 | 0.6792 | 40.80 | 3.41 | 4.08 | 3.14 | |
Seed-VC (ของเรา) | 0.9486 | 33.37 | 0.6979 | 34.45 | 3.41 | 3.97 | 3.10 | ||
โคบี้ ไบรอันท์ | RVCv2 | 0.9691 | 25.50 | 0.6276 | 61.59 | 3.43 | 4.04 | 3.15 | |
Seed-VC (ของเรา) | 0.9496 | 32.76 | 0.6683 | 39.82 | 3.32 | 3.98 | 3.04 | ||
เทเนอร์ (ชาย) | - | ความจริงพื้นฐาน | 1.0000 | 0.00 | - | 5.94 | - | - | - |
อาซูมะ | RVCv2 | 0.9333 | 42.09 | 0.7832 | 16.66 | 3.46 | 4.07 | 3.18 | |
Seed-VC (ของเรา) | 0.9162 | 48.06 | 0.7697 | 8.48 | 3.38 | 3.89 | 3.01 | ||
ไดอาน่า | RVCv2 | 0.9467 | 36.65 | 0.7729 | 15.28 | 3.53 | 4.08 | 3.24 | |
Seed-VC (ของเรา) | 0.9360 | 41.49 | 0.7920 | 8.55 | 3.49 | 3.93 | 3.13 | ||
ติงเจิน | RVCv2 | 0.9197 | 22.82 | 0.7591 | 12.92 | 3.40 | 4.02 | 3.09 | |
Seed-VC (ของเรา) | 0.9247 | 22.77 | 0.7721 | 13.95 | 3.45 | 3.82 | 3.05 | ||
โคบี้ ไบรอันท์ | RVCv2 | 0.9415 | 19.33 | 0.7507 | 30.52 | 3.48 | 4.02 | 3.19 | |
Seed-VC (ของเรา) | 0.9082 | 24.86 | 0.7764 | 13.35 | 3.39 | 3.93 | 3.07 |
แม้ว่า Seed-VC จะไม่ได้รับการฝึกฝนกับผู้พูดเป้าหมาย และใช้คำพูดแบบสุ่มเพียงคำพูดเดียวเท่านั้นที่ถูกนำมาใช้เป็นการแจ้ง แต่ยังคงมีประสิทธิภาพเหนือกว่ารุ่น RVCv2 เฉพาะผู้พูดอย่างต่อเนื่อง ในแง่ของความคล้ายคลึงกันของลำโพง (SECS) และความสามารถในการเข้าใจ (CER) ซึ่งแสดงให้เห็นถึงเสียงที่เหนือกว่า ความสามารถในการโคลนและความทนทานของ Seed-VC
อย่างไรก็ตาม พบว่าคุณภาพเสียงของ Seed-VC (DNSMOS) ต่ำกว่า RVCv2 เล็กน้อย เราให้ความสำคัญกับข้อเสียนี้อย่างจริงจังและจะให้ความสำคัญเป็นอย่างสูงในการปรับปรุงคุณภาพเสียงในอนาคต
ยินดีประชาสัมพันธ์หรือปัญหาหากคุณพบว่าการเปรียบเทียบนี้ไม่ยุติธรรมหรือไม่ถูกต้อง
ผลลัพธ์ ASR ภาษาจีนคำนวณโดย SenseVoiceSmall
การฝังลำโพงคำนวณโดยโมเดลรีเซมไบเซอร์
เราตั้งค่าการเปลี่ยนระดับเสียงครึ่งเสียง +12 สำหรับการแปลงจากชายเป็นหญิง และ -12 ครึ่งเสียงสำหรับการแปลงจากหญิงเป็นชาย มิฉะนั้น 0 ครั้ง
แนะนำ python 3.10 บน Windows หรือ Linux
pip ติดตั้ง -r ข้อกำหนด.txt
จุดตรวจสอบของรุ่นล่าสุดจะถูกดาวน์โหลดโดยอัตโนมัติเมื่อมีการอนุมานการทำงานครั้งแรก
การอนุมานบรรทัดคำสั่ง:
python inference.py --source <source-wav>--target <referene-wav>--output <output-dir>--diffusion-steps 25 # แนะนำ 50~100 สำหรับการร้องเพลงการแปลงเสียง - ปรับความยาว 1.0 --การอนุมาน-cfg-อัตรา 0.7 --f0-condition False # ตั้งค่าเป็น True สำหรับการแปลงเสียงร้องเพลง --auto-f0-adjust False # ตั้งค่าเป็น True เพื่อปรับระดับเสียงต้นทางอัตโนมัติเป็นระดับระดับเสียงเป้าหมาย ซึ่งปกติจะไม่ใช้ในการแปลงเสียงร้องเพลง - การเปลี่ยนกึ่งโทนเสียง 0 # การเปลี่ยนระดับเสียงในเซมิโทนสำหรับการแปลงเสียงร้องเพลง
ที่ไหน:
source
คือเส้นทางไปยังไฟล์คำพูดเพื่อแปลงเป็นเสียงอ้างอิง
target
คือเส้นทางไปยังไฟล์คำพูดเป็นการอ้างอิงด้วยเสียง
output
เป็นเส้นทางไปยังไดเร็กทอรีเอาท์พุท
diffusion-steps
คือจำนวนขั้นตอนการแพร่ที่ใช้ ค่าเริ่มต้นคือ 25 ใช้ 50-100 เพื่อคุณภาพที่ดีที่สุด ใช้ 4-10 เพื่อการอนุมานที่เร็วที่สุด
length-adjust
คือปัจจัยการปรับความยาว ค่าเริ่มต้นคือ 1.0 ตั้งค่า <1.0 สำหรับการเร่งความเร็วคำพูด >1.0 สำหรับการพูดช้าลง
inference-cfg-rate
มีความแตกต่างเล็กน้อยในเอาต์พุต ค่าเริ่มต้นคือ 0.7
f0-condition
คือแฟล็กเพื่อปรับระดับเสียงของเอาต์พุตให้เป็นระดับเสียงของแหล่งกำเนิดเสียง ค่าเริ่มต้นคือเท็จ ตั้งค่าเป็น True สำหรับการแปลงเสียงร้องเพลง
auto-f0-adjust
คือแฟล็กสำหรับปรับระดับระดับเสียงต้นทางโดยอัตโนมัติตามระดับระดับเสียงเป้าหมาย ค่าเริ่มต้นคือเท็จ โดยปกติจะไม่ใช้ในการแปลงเสียงร้องเพลง
semi-tone-shift
คือการเปลี่ยนระดับเสียงในเซมิโทนสำหรับการแปลงเสียงร้องเพลง ค่าเริ่มต้นคือ 0
เว็บอินเตอร์เฟส Gradio:
หลาม app.py
จากนั้นเปิดเบราว์เซอร์แล้วไปที่ http://localhost:7860/
เพื่อใช้เว็บอินเตอร์เฟส
GUI การแปลงเสียงแบบเรียลไทม์:
หลามเรียลไทม์ gui.py
สิ่งสำคัญ: ขอแนะนำอย่างยิ่งให้ใช้ GPU สำหรับการแปลงเสียงแบบเรียลไทม์
มีการทดสอบประสิทธิภาพบางอย่างบนแล็ปท็อป GPU NVIDIA RTX 3060 ผลลัพธ์และการตั้งค่าพารามิเตอร์ที่แนะนำมีดังต่อไปนี้:
หมายเหตุ | ขั้นตอนการแพร่กระจาย | อัตรา CFG อนุมาน | ความยาวพร้อมท์สูงสุด | เวลาบล็อก (s) | ความยาวครอสเฟด (s) | บริบทเพิ่มเติม (ซ้าย) (s) | บริบทเพิ่มเติม (ขวา) (s) | เวลาแฝง (มิลลิวินาที) | คุณภาพ | เวลาในการอนุมานต่อก้อน (มิลลิวินาที) |
---|---|---|---|---|---|---|---|---|---|---|
เหมาะกับเสียงส่วนใหญ่ | 10 | 0.7 | 3.0 | 1.0 วินาที | 0.04 วินาที | 0.5 วินาที | 0.02 วินาที | 2070ms | ปานกลาง | 849ms |
ประสิทธิภาพที่ดีขึ้นสำหรับเสียงผู้หญิงที่มีระดับเสียงสูง | 20 | 0.7 | 3.0 | 2.0 วินาที | 0.04 วินาที | 0.5 วินาที | 0.02 วินาที | 4070ms | สูง | 1,585มิลลิวินาที |
เหมาะสำหรับเสียงผู้ชายบางเสียง เนื่องจากข้อกำหนดด้านคุณภาพเสียงต่ำกว่า | 5 | 0.7 | 3.0 | 0.6 วินาที | 0.04 วินาที | 0.5 วินาที | 0.02 วินาที | 1270ms | ต่ำ | 488ms |
การอนุมานเร็วขึ้นโดยการตั้งค่า inference_cfg_rate เป็น 0.0 แต่ไม่แน่ใจว่าประสิทธิภาพลดลงหรือไม่... | 10 | 0.0 | 3.0 | 0.7 วินาที | 0.04 วินาที | 0.5 วินาที | 0.02 วินาที | 1470ms | ปานกลาง | 555ms |
คุณสามารถปรับพารามิเตอร์ใน GUI ตามประสิทธิภาพอุปกรณ์ของคุณเองได้ สตรีมการแปลงเสียงควรทำงานได้ดีตราบเท่าที่เวลาอนุมานน้อยกว่าเวลาบล็อก
โปรดทราบว่าความเร็วในการอนุมานอาจลดลงหากคุณใช้งานอื่นๆ ที่ใช้ GPU มาก (เช่น เล่นเกม ดูวิดีโอ)
โดยทั่วไป เวลาแฝงจะอยู่ที่ประมาณ 1~2 วินาที เพื่อป้องกันคุณภาพลดลง (ลักษณะที่น่าเศร้าของโมเดลการแพร่กระจาย...?) แต่เรากำลังค้นหาวิธีลดคุณภาพอย่างต่อเนื่อง
(GUI และตรรกะการแยกส่วนของเสียงได้รับการแก้ไขจาก RVC ขอบคุณสำหรับการใช้งานที่ยอดเยี่ยม!)
รหัสการเปิดตัว
ปล่อยโมเดลฝึกหัด v0.1:
การสาธิตพื้นที่ Huggingface:
หน้าสาธิต HTML (อาจเปรียบเทียบกับรุ่น VC อื่น ๆ ): Demo
การอนุมานแบบสตรีมมิ่ง
ลดเวลาแฝงในการอนุมานการสตรีม
วิดีโอสาธิตการแปลงเสียงแบบเรียลไทม์
การแปลงเสียงร้องเพลง
ความยืดหยุ่นของเสียงรบกวนสำหรับแหล่งเสียงและเสียงอ้างอิง
เสียงต้นฉบับคือความยืดหยุ่นของเสียงรบกวน
การปรับปรุงสถาปัตยกรรมที่มีศักยภาพ
การเชื่อมต่อข้ามสไตล์ U-ViT
เปลี่ยนอินพุตเป็น OpenAI Whisper
รหัสสำหรับการฝึกอบรมเกี่ยวกับข้อมูลที่กำหนดเอง
เปลี่ยนเป็น BigVGAN จาก NVIDIA สำหรับการถอดรหัสเสียงร้องเพลง
รุ่น Whisper สำหรับแปลงเสียงร้อง
การประเมินวัตถุประสงค์และการเปรียบเทียบกับ RVC/SoVITS สำหรับการแปลงเสียงร้องเพลง
ปรับปรุงคุณภาพเสียง
ที่จะเพิ่มมากขึ้น
28-10-2024:
อัปเดตโมเดลการแปลงเสียงร้องเพลง 44k ที่ได้รับการปรับแต่งอย่างละเอียดพร้อมคุณภาพเสียงที่ดีขึ้น
27-10-2024:
เพิ่ม GUI การแปลงเสียงแบบเรียลไทม์
25-10-2567:
เพิ่มผลการประเมินที่ละเอียดถี่ถ้วนและการเปรียบเทียบกับ RVCv2 สำหรับการแปลงเสียงร้องเพลง
24-10-2567:
อัปเดตโมเดลการแปลงเสียงร้องเพลง 44kHz โดยมี OpenAI Whisper เป็นอินพุตเนื้อหาคำพูด
07-10-2024:
อัปเดตโมเดลที่ได้รับการฝึกล่วงหน้า v0.3 เปลี่ยนตัวเข้ารหัสเนื้อหาคำพูดเป็น OpenAI Whisper
เพิ่มผลการประเมินตามวัตถุประสงค์สำหรับโมเดลฝึกหัด v0.3
22-09-2024-09-22:
อัปเดตโมเดลการแปลงเสียงร้องเพลงเพื่อใช้ BigVGAN จาก NVIDIA ซึ่งให้การปรับปรุงอย่างมากสำหรับเสียงร้องเพลงที่มีระดับเสียงสูง
รองรับเอาต์พุตแบบ chunking และสตรีมมิ่งสำหรับไฟล์เสียงขนาดยาวใน Web UI
18-09-2024:
อัปเดตโมเดลปรับอากาศ f0 สำหรับการแปลงเสียงร้องเพลง
14-09-2024:
อัปเดตโมเดลล่วงหน้า v0.2 โดยมีขนาดที่เล็กลงและมีขั้นตอนการแพร่กระจายน้อยลงเพื่อให้ได้คุณภาพเท่าเดิม และมีความสามารถเพิ่มเติมในการควบคุมการเก็บรักษาฉันทลักษณ์
เพิ่มสคริปต์การอนุมานบรรทัดคำสั่ง
เพิ่มคำแนะนำในการติดตั้งและการใช้งาน