ไปป์ไลน์อัตโนมัติเพื่อเปลี่ยนเสียงโดยใช้โมเดลเสียง AI ที่ผ่านการฝึกอบรม RVC v2 เครื่องมือนี้สามารถใช้เพื่อแปลงเสียงกับอินพุตเสียงใดก็ได้
WebUI อยู่ระหว่างการพัฒนาและการทดสอบอย่างต่อเนื่อง แต่คุณสามารถทดลองใช้งานในท้องถิ่นได้ตอนนี้!
ติดตั้งและดึงข้อกำหนดและการเปลี่ยนแปลงใหม่โดยการเปิดหน้าต่างบรรทัดคำสั่งในไดเร็กทอรี RVC-v2-UI
และรันคำสั่งต่อไปนี้
pip install -r requirements.txt git pull
สำหรับผู้ใช้ colab เพียงคลิก Runtime
ในแถบนำทางด้านบนของสมุดบันทึก colab แล้ว Disconnect and delete runtime
ในเมนูแบบเลื่อนลง จากนั้นทำตามคำแนะนำในสมุดบันทึกเพื่อเรียกใช้ webui
(หวังว่าจะมาเร็วๆ นี้)
ทำตามคำแนะนำที่นี่เพื่อติดตั้ง Git บนคอมพิวเตอร์ของคุณ ปฏิบัติตามคำแนะนำนี้เพื่อติดตั้ง Python VERSION 3.9 หากคุณยังไม่ได้ติดตั้ง การใช้ Python เวอร์ชันอื่นอาจส่งผลให้เกิดข้อขัดแย้งในการพึ่งพา
หรือคุณสามารถใช้ pyenv เพื่อจัดการเวอร์ชันของ Python:
ติดตั้ง pyenv ตามคำแนะนำที่นี่
ติดตั้งไพธอน 3.9:
pyenv install 3.9
ตั้งเป็นเวอร์ชัน Python ในเครื่องของคุณ:
pyenv local 3.9
ทำตามคำแนะนำที่นี่เพื่อติดตั้ง ffmpeg บนคอมพิวเตอร์ของคุณ
เปิดหน้าต่างบรรทัดคำสั่งและรันคำสั่งเหล่านี้เพื่อโคลนพื้นที่เก็บข้อมูลทั้งหมดนี้ สร้างสภาพแวดล้อมเสมือน และติดตั้งการขึ้นต่อกันเพิ่มเติมที่จำเป็น
git clone https://github.com/PseudoRAM/RVC-v2-UI cd RVC-v2-UI
pyenv exec python -m venv venv
python -m venv venv
venvScriptsactivate
source venv/bin/activate
pip install -r requirements.txt
รันคำสั่งต่อไปนี้เพื่อดาวน์โหลดโมเดลฐานของฮิวเบิร์ตที่ต้องการ
python src/download_models.py
หากต้องการรัน RVC Voice Changer WebUI ให้รันคำสั่งต่อไปนี้
python src/webui.py
ธง | คำอธิบาย |
---|---|
-h , --help | แสดงข้อความช่วยเหลือนี้และออก |
--share | สร้าง URL สาธารณะ สิ่งนี้มีประโยชน์สำหรับการเรียกใช้ UI ของเว็บบน Google Colab |
--listen | ทำให้ UI ของเว็บสามารถเข้าถึงได้จากเครือข่ายท้องถิ่นของคุณ |
--listen-host LISTEN_HOST | ชื่อโฮสต์ที่เซิร์ฟเวอร์จะใช้ |
--listen-port LISTEN_PORT | พอร์ตการฟังที่เซิร์ฟเวอร์จะใช้ |
เมื่อข้อความเอาต์พุตต่อไปนี้ Running on local URL: http://127.0.0.1:7860
ปรากฏขึ้น คุณสามารถคลิกที่ลิงก์เพื่อเปิดแท็บด้วย WebUI
ไปที่แท็บ Download model
และวางลิงก์ดาวน์โหลดไปยังโมเดล RVC และตั้งชื่อที่ไม่ซ้ำกัน คุณสามารถค้นหา AI Hub Discord ซึ่งมีโมเดลเสียงที่ผ่านการฝึกอบรมแล้วพร้อมให้ดาวน์โหลด คุณอาจดูตัวอย่างว่าลิงก์ดาวน์โหลดควรมีลักษณะอย่างไร ไฟล์ zip ที่ดาวน์โหลดควรมีไฟล์โมเดล .pth และไฟล์ .index เสริม
เมื่อกรอกข้อมูลครบ 2 ช่องแล้ว ให้คลิก Download
! เมื่อข้อความเอาท์พุตแจ้ง [NAME] Model successfully downloaded!
คุณควรจะสามารถใช้งานได้ในแท็บ Convert Voice
หลังจากคลิกปุ่มรีเฟรชโมเดล!
สำหรับผู้ที่เคยฝึกโมเดล RVC v2 ในพื้นที่แล้ว และต้องการใช้สำหรับการแปลงเสียง ไปที่แท็บ Upload model
และปฏิบัติตามคำแนะนำ เมื่อข้อความเอาต์พุตแจ้งว่า [NAME] Model successfully uploaded!
คุณควรจะสามารถใช้งานได้ในแท็บ Convert Voice
หลังจากคลิกปุ่มรีเฟรชโมเดล!
จากเมนูแบบเลื่อนลงโมเดลเสียง ให้เลือกโมเดลเสียงที่จะใช้ คลิก Refresh Models
หากคุณเพิ่มไฟล์ด้วยตนเองลงในไดเร็กทอรี rvc_models เพื่อรีเฟรชรายการ
ในช่องอินพุตเสียง ให้อัปโหลดไฟล์เสียงของคุณ
ปรับระดับเสียงได้ตามต้องการ การดำเนินการนี้จะเปลี่ยนระดับเสียงที่ส่งออกไป
สามารถดูตัวเลือกขั้นสูงอื่นๆ สำหรับการแปลงเสียงได้โดยคลิกที่ลูกศรหีบเพลงเพื่อขยาย
เมื่อกรอกตัวเลือกทั้งหมดแล้ว คลิก Convert
และเสียงที่สร้างโดย AI ควรปรากฏขึ้นในอีกสักครู่ ขึ้นอยู่กับ GPU ของคุณ
หากต้องการรันไปป์ไลน์การแปลงเสียงโดยใช้บรรทัดคำสั่ง ให้รันคำสั่งต่อไปนี้:
python src/main.py <input_audio> <rvc_model> [pitch] [f0_method] [index_rate] [filter_radius] [rms_mix_rate] [protect]
พารามิเตอร์ | คำอธิบาย |
---|---|
input_audio | เส้นทางไปยังไฟล์เสียงอินพุต |
rvc_model | ชื่อของรุ่น RVC ที่จะใช้ |
pitch | (ไม่บังคับ) การเปลี่ยนระดับเสียงในเซมิโทน ค่าเริ่มต้นคือ 0 |
f0_method | (ไม่บังคับ) อัลกอริธึมการตรวจจับระดับเสียง ตัวเลือก: 'rmvpe' (ค่าเริ่มต้น) หรือ 'mangio-crepe' |
index_rate | (ไม่บังคับ) อัตราดัชนีสำหรับการแปลงเสียง ค่าเริ่มต้นคือ 0.5 ช่วง: 0 ถึง 1 |
filter_radius | (ไม่บังคับ) รัศมีตัวกรองสำหรับการกรองค่ามัธยฐาน ค่าเริ่มต้นคือ 3 ช่วง: 0 ถึง 7 |
rms_mix_rate | (ทางเลือก) อัตราการผสม RMS ค่าเริ่มต้นคือ 0.25 ช่วง: 0 ถึง 1 |
protect | (ไม่บังคับ) อัตราการป้องกันเพื่อรักษาลักษณะเสียงต้นฉบับบางส่วนไว้ ค่าเริ่มต้นคือ 0.33 ช่วง: 0 ถึง 0.5 |
ตัวอย่างการใช้งาน:
python src/main.py "path/to/input/audio.wav" "JohnDoe" 2 rmvpe 0.7 3 0.3 0.35
คำสั่งนี้จะแปลงเสียงใน "audio.wav" โดยใช้โมเดล RVC "JohnDoe" โดยเพิ่มระดับเสียง 2 ครึ่งเสียง โดยใช้อัลกอริธึมการตรวจจับระดับเสียง 'rmvpe' ด้วยอัตราดัชนี 0.7 รัศมีตัวกรอง 3, RMS มิกซ์ อัตรา 0.3 และอัตราการป้องกัน 0.35
แตกไฟล์ (หากจำเป็น) และถ่ายโอนไฟล์ .pth
และ .index
ไปยังโฟลเดอร์ใหม่ในไดเร็กทอรี rvc_models แต่ละโฟลเดอร์ควรมี .pth
หนึ่งไฟล์และไฟล์ .index
หนึ่งไฟล์เท่านั้น
โครงสร้างไดเรกทอรีควรมีลักษณะดังนี้:
├── rvc_models │ ├── John │ │ ├── JohnV2.pth │ │ └── added_IVF2237_Flat_nprobe_1_v2.index │ ├── May │ │ ├── May.pth │ │ └── added_IVF2237_Flat_nprobe_1_v2.index │ ├── MODELS.txt │ └── hubert_base.pt ├── voice_output └── src
ห้ามใช้เสียงที่แปลงแล้วเพื่อจุดประสงค์ดังต่อไปนี้
วิพากษ์วิจารณ์หรือโจมตีบุคคล
การสนับสนุนหรือต่อต้านจุดยืนทางการเมือง ศาสนา หรืออุดมการณ์ที่เฉพาะเจาะจง
การแสดงการแสดงออกที่กระตุ้นอย่างแรงต่อสาธารณะโดยไม่มีการแบ่งเขตที่เหมาะสม
ขายโมเดลเสียงและคลิปเสียงที่สร้างขึ้น
การแอบอ้างเป็นเจ้าของเสียงต้นฉบับโดยมีเจตนาร้ายที่จะทำร้าย/ทำร้ายผู้อื่น
วัตถุประสงค์ในการฉ้อโกงที่นำไปสู่การขโมยข้อมูลประจำตัวหรือการฉ้อโกงโทรศัพท์
ฉันไม่รับผิดชอบต่อความเสียหายโดยตรง โดยอ้อม เป็นผลสืบเนื่อง บังเอิญ หรือพิเศษใดๆ ที่เกิดขึ้นจากหรือในทางใดทางหนึ่งที่เกี่ยวข้องกับการใช้งาน/การใช้งานในทางที่ผิด หรือการไม่สามารถใช้ซอฟต์แวร์นี้