WebUi / harmonika generasi TTS
Unduh Penginstal || Instalasi || Pengaturan Docker || Laporan Umpan Balik / Bug

Model
Teks-ke-speech | Generasi audio/musik | Konversi/Alat Audio |
---|
Kulit pohon | Musicgen | RVC |
Kura -kura | Magnet | Demucs |
Maha tts | Audio yang stabil | VOCO |
MMS | (Ekstensi) Riffusion | Berbisik |
Vall-e x | (Ekstensi) Audiocraft Mac | |
Styletts2 | (Ekstensi) Audiocraft Plus | |
Seamlessm4t | | |
(Ekstensi) xttsv2 | | |
(Ekstensi) Mars5 | | |
(Ekstensi) F5-TTS | | |
(Ekstensi) Parler Tts | | |
Bark.narration.mp4 | Bark.japanese.mp4 | Musicgen.mp4 |
---|
Changelog
23 November:
- Tambahkan Linux Fairseq Wheel untuk kompatibilitas PIP yang lebih baik.
22 Nov:
- Beralih ke roda, tambahkan prompt install satu tembakan.
15 Nov:
- Tingkatkan ke Gradio 5.5.0, tambahkan peningkatan Peningkatan (#420)
14 Nov:
- Tambahkan Roda Kecepatan Deep Windows Eksperimental.
- Tambahkan lebih banyak bahasa ke klon suara Bark.
11 Nov:
- Beralih ke versi FairSeq tetap untuk Windows mengurangi konflik instalasi dan mempercepat pembaruan.
Oktober 2024
28 Okt:
- Menambahkan tes penginstal, pengunduh model, dan opsi PIP CPU khusus untuk obor.
24 Okt:
- Turunkan gradio menjadi 5.1.0 karena bug.
- Menambahkan alur kerja tes dan memperbaiki bug minor.
22 Okt:
- Memperbaiki masalah Dockerfile untuk penyebaran yang lebih halus.
21 Okt:
- Designed Readme: Peningkatan Ekstensi Whisper, menambahkan changelog untuk Agustus, September, dan Oktober, tangkapan layar yang diperbarui, dan konten yang ditata ulang.
19 Oktober:
- Memperbaiki log ekstensi dan menambahkan ekstensi baru.
18 Okt:
- Peningkatan Sistem: Proyek yang diformat, pemasangan
xformers+cuda
yang diperbaiki, sistem log yang ditambahkan, uninstall extension, dan ekstensi F5 TTS.
16 Okt:
- Instal pertama sekarang menggunakan
pip
, bukan uv
. - Menabrak versi utama dan memperbaiki Google Colab.
- Menambahkan Fallback PIP ke audio yang stabil.
- Memperbaiki demucs, port postgres yang diubah.
- Memperbaiki instalasi
huggingface_hub
dan bark Model loader. - Peningkatan utama: Beralih ke Gradio 5, Lazy Loading untuk tab, perbaikan Docker, kecepatan UI yang dioptimalkan, menambahkan fitur .Env.User, log yang ditingkatkan, dan ekstensi UI React UI yang ditingkatkan.
3 Okt:
- Memperbaiki tab Info GPU dan menambahkan
nvidia-ml-py
. - Dibuat solusi untuk bug instalasi audiocraft.
- Memperbaiki Instal MSVC Otomatis dan Setel Server ke
127.0.0.1
. - Memperbaiki jalur
.git_version
dan iconv
yang dihapus untuk menghilangkan persyaratan node-gyp
. - Penanganan kesalahan penginstal yang ditingkatkan, menambahkan peningkatan logging hash.
- Node.js yang ditingkatkan ke 22.9.0, ditambahkan dukungan PostgreSQL, tab yang dikelompokkan di React UI.
September 2024
Klik untuk memperluas
23 Sep:
- Secara otomatis menggunakan CUDA untuk MMS.
22 Sep:
- Menambahkan ekstensi ffmpeg metadata untuk bereaksi UI.
- Menambahkan Pemberitahuan Mono saja untuk Maha TTS.
- Hotfix untuk menghindari Node 20.17.0 Kegagalan Instalasi.
21 Sep:
- Menambahkan demo audio yang stabil untuk bereaksi UI.
- Tata letak UI yang ditingkatkan.
19 Sep:
- Tampilan visual reaksi UI yang ditingkatkan dengan slider baru dan tata letak yang lebih baik.
- RVC UI yang dioptimalkan, colab tetap, dan menambahkan kotak perintah pencarian.
- Tingkatkan node.js ke 20.17.0.
2 Sep:
- Fixed Dockerfile dan Docker-Compose.yml yang diperbarui.
- Memperbaiki bug dalam pemuatan NPZ.
Agustus 2024
Klik untuk memperluas
31 Agustus:
- Tingkatkan Kerangka Kesimpulan Model ke Dekorator.
- Pindahkan file python dari
src
ke folder tts_webui
. - Tulis ulang tab MusicGen dan perbaikan bug terkait.
20 Agustus:
- Ditingkatkan ke gradio 4 dan menambahkan tema.
- Menambahkan pesan memuat model untuk kura -kura.
- RVC ReactUi tetap.
- Hyperparameters refactored.
- Daftar manajemen tambahan ke ekstensi, ekstensi XTTS-Simple.
5 Agustus:
- Perbaiki kulit kayu di React UI, tambahkan durasi generasi maks.
- Ubah Direktori Model Ekstensi Audiocraft Plus ke ./data/models/audiocraft_plus/
- Tingkatkan Bongkar Model untuk MusicGen dan Audiogen. Tambahkan tombol Bongkar Model ke MusicGen dan Audiogen.
- Tambahkan ekstensi HuggingFace Cache Manager.
4 Agustus:
- Tambahkan ekstensi XTTS-RVC-UI, ekstensi demo fine-tuning XTTS.
3 Agustus:
- Tambahkan ekstensi riffusi, ekstensi Mac audiocraft, ekstensi warisan kulit.
2 Agustus:
- Tambahkan Peringatan Pengusiran ke Pemasang Lama.
- Menyatukan penanganan kesalahan dan menyederhanakan pemuatan tab.
1 Agustus:
- Tambahkan tombol "Coba Perbarui" untuk ekstensi eksternal.
- Lewati Paket Menginstal Ulang Saat Pip_Packages Versi tidak diubah.
- Sinkronisasi port gradio dengan reaksi UI.
- Ubah port gradio default menjadi 7770 dari 7860.
Juli 2024
Klik untuk memperluas
31 Juli:
- Perbaiki React UI's MusicGen setelah Gradio berubah.
- Tambahkan tombol Bongkar ke Ekstensi Whisper.
29 Juli:
- Ubah FFMPEG menjadi 4.4.2 dari Conda-Forge untuk mendukung lebih banyak platform, termasuk Mac M1.
- Nonaktifkan CVVP Kura -kura.
26 Juli:
- Ekstensi Whisper
- Dukungan instalasi AMD ROCM eksperimental. (Linux saja)
25 Juli:
- Tambahkan skrip diagnostik untuk macOS dan Linux.
- Tambahkan detail kesalahan yang lebih baik untuk tab.
- Perbaiki izin eksekusi skrip .sh untuk installer di Linux dan macOS.
21 Juli:
- Tambahkan ekstensi riwayat galeri (diadaptasi dari tampilan galeri lama)
- Konversi remixer sederhana menjadi ekstensi
- Perbaiki update.py untuk menggunakan versi obor yang lebih baru (update.py hanya untuk tujuan warisan dan kemungkinan akan rusak)
- Tambahkan skrip diagnostik dan paksa menginstal ulang skrip untuk windows.
20 Juli:
- Perbaiki tautan gabung perselisihan
- Sederhanakan kulit lebih lanjut, menghilangkan kompleksitas yang berlebihan dalam kode.
- Tambahkan ekstensi UI/modular, ekstensi ini memungkinkan pemasangan model dan fitur baru ke UI. Di masa depan, model akan dimulai sebagai ekstensi sebelum ditambahkan secara permanen.
- Nonaktifkan tampilan galeri dalam output
- Masalah yang Diketahui: Firefox gagal menunjukkan output di gradio, ia gagal mengambilnya dari backend. Di dalam reaksi UI ini berfungsi dengan baik.
15 Juli:
- Komentar - Karena React UI telah keluar untuk waktu yang lama sekarang, Gradio UI akan memiliki peran hanya melayani fungsi untuk pengguna, tanpa UI yang sangat rumit yang tidak dapat ditangani. Ada kekurangan waktu pengembangan yang nyata untuk menambahkan model dan fitur baru, tetapi gaya integrasi lama tidak layak. Seperti API baru dan 'peran model' didefinisikan, akan dimungkinkan untuk memiliki ekstensi untuk seluruh model, memungkinkan lebih banyak fleksibilitas dan instalasi yang lebih ringan.
- Mulai menskalakan kompleksitas gradio UI - kirim yang dihapus ke rvc/demucs/tombol suara . (Hapus komponen internal Joutai).
- Tambahkan Version.json untuk pembaruan yang lebih baik di masa mendatang.
- Kurangi jumlah output maksimum Barkio Barko menjadi 1.
- Tambahkan tombol Model Bongkar untuk kura -kura, juga membongkar model sebelum memuat parameter berikutnya/mengubah, sehingga kura -kura tidak lagi menggunakan memori model 2x selama pengaturan pengaturan.
14 Juli:
- Regroup tab gradio ke dalam grup - teks ke bicara, konversi audio, pembuatan musik, output dan pengaturan
- Bersihkan header, tambahkan tautan untuk umpan balik
- Tambahkan kontrol benih ke audio yang stabil
- Perbaiki bug nama file audio yang stabil dengan newline
- Nonaktifkan tab "Remixer Sederhana"
- Perbaiki Klon Voice Bark & RVC sekali lagi
- Tambahkan tab "Paket Terpasang" untuk debugging
13 Juli:
- Upgrade Utama ke Torch 2.3.1 dan Xformers 0.0.27
- Semua pengguna, termasuk Mac dan CPU sekarang akan memiliki versi Pytorch yang sama.
- Tingkatkan CUDA ke 11.8
- Paksa Python menjadi 3.10.11
- Modifikasi Penginstal untuk memungkinkan peningkatan Python dan Torch tanpa menginstal ulang (saat ini versi utama 2)
- Memperbaiki params default magnet untuk kualitas yang lebih baik
- Tingkatkan pemeriksaan skrip penginstal untuk menghindari bug
- Perbarui styletts2
11 Juli:
- Meningkatkan nama file generasi audio yang stabil
- Tambahkan pasukan instal ulang ke perbaikan obor
- Buat penginstal otomatis pembaruan sebelum berjalan
9 Juli:
- Perbaiki instruksi penginstal dan instalasi baru terima kasih kepada https://github.com/xeraster!
8 Juli:
- Ubah proses instalasi untuk mengurangi bentrokan paket dan mengaktifkan fleksibilitas versi obor.
6 Juli:
- Rilis awal penginstal berbasis Mamba baru.
- Simpan hasil audio yang stabil ke output-rvc/stableaudio folder.
- Tambahkan Penafian ke Pemilihan Model Audio yang stabil dan tampilkan pesan kesalahan yang lebih baik saat file hilang.
1 Juli:
- Optimalkan penggunaan memori audio yang stabil setelah generasi.
- Buka React UI secara otomatis hanya jika Gradio juga terbuka secara otomatis.
- Hapus instal ulang conda git yang tidak perlu.
- Pembaruan ke audio stabil terakhir yang memiliki dukungan anggota parlemen (membutuhkan versi obor yang lebih baru).
Juni 2024
Klik untuk memperluas
22 Juni: * Tambahkan audio stabil ke gradio. 21 Juni:
- Tambahkan demo vall-ex untuk bereaksi UI.
- Buka React UI secara otomatis di browser, perbaiki tautan lagi.
- Tambahkan split demi panjang untuk bereaksi/kura -kura.
- Perbaiki folder demo UVR5.
- Atur versi Fairseq ke 0.12.2 untuk Linux dan Mac. (#323)
- Tingkatkan riwayat generasi untuk semua tab bereaksi UI.
17 Mei:
- Perbaiki preset kura -kura di React UI.
9 Mei:
- Tambahkan MM untuk bereaksi UI.
- Tingkatkan reaksi UI dan basis kode.
4 Mei:
- Changelog grup berdasarkan bulan
April 2024
Klik untuk memperluas
28 Apr: * Tambahkan maha tts untuk bereaksi UI. * Tambahkan info GPU untuk bereaksi UI. 6 Apr:
- Tambahkan tab Demo Generasi Vall-Ex.
- Tambahkan tab demo MMS.
- Tambahkan tab Demo Maha TTS.
- Tambahkan tab Demo Styletts2.
5 Apr:
- Perbaiki bug instalasi RVC.
- Tambahkan tab Demo UVR5 Dasar.
4 Apr:
- Upgrade RVC untuk memasukkan RVMPE dan FCPE. Hapus input file langsung untuk model dan indeks karena duplikasi file. Tingkatkan Antarmuka React UI untuk RVC.
Maret 2024
Klik untuk memperluas
28 Maret:
27 Mar:
- Tambahkan informasi tentang kloning suara ke klon suara tab
26 Maret:
- Tambahkan Maha TTS Demo Notebook
22 Maret:
- Vall-E X Demo Via Notebook (#292)
- Tambahkan react ui ke gambar docker
- Tambahkan Penafian Instal
16 Maret:
14 Maret:
13 Maret:
- Tambahkan pipa eksperimental (kulit kayu / kura -kura / musik / audiogen / magnet -> rvc / demucs / voco) (#287)
- Perbaiki bug RVC dengan memuat ulang model pada setiap generasi. Untuk input pendek yang menghasilkan speedup yang terlihat.
11 Maret:
- Tambahkan Play sebagai audio dan simpan ke suara ke bark (#286)
- Ubah UX untuk menunjukkan bahwa file dihapus dari favorit
- Perbaiki gambar untuk suara kulit yang tidak ditampilkan
- Perbaiki pemutaran audio di favorit
10 Maret:
- Tambahkan batching untuk bereaksi UI magnet (#283)
- Tambahkan Audio ke Audio Terjemahan ke SeamlessM4T (#284)
5 Maret:
- Tambahkan batching untuk bereaksi UI MusicGen (#281), terima kasih kepada https://github.com/aamir3d untuk meminta ini dan memberikan umpan balik
3 Maret:
- Tambahkan demo MMS sebagai buku catatan
- Tambahkan Multibanddifusion Tinggi VRAM Disclaimer
Februari 2024
Klik untuk memperluas
21 Feb:
- Perbaiki build wadah Docker dan bug dengan Docker-audiocraft
8 Feb:
- Perbaiki MultibandDifusion untuk model stereo MusicGen, terima kasih https://github.com/mykeehu
- Perbaiki langkah instalasi node.js di Google Colab, kode oleh https://github.com/miaohf
6 Feb:
- Tambahkan Ekstensi Pembuatan File FLAC oleh https://github.com/joachip
Januari 2024
Klik untuk memperluas
21 Jan:
- Tambahkan skrip perbaikan otomatis CPU/M1 dengan setiap pembaruan. Untuk menonaktifkan, edit check_comda.py dan ubah force_no_repair = true
16 Januari:
- Tingkatkan MusicGen, menambahkan dukungan untuk stereo dan model melodi besar
- Tambahkan magnet
15 Januari:
- Gradio yang ditingkatkan ke 3.48.0
- Beberapa bug visual telah muncul, jika sangat penting, silakan laporkan atau penurunan peringkat gradio.
- Gradio: tekan peringatan yang tidak berguna
- PERINGATAN TRITON TRITON
- Gradio-bark: Perbaiki perilaku "gunakan generasi terakhir sebagai sejarah", seleksi kosong tidak lagi kesalahan
- Tingkatkan Layar Loader Ekstensi
- Upgrade Transformers ke 4.36.1 dari 4.31.0
- Tambahkan demo SeamlessM4T
14 Januari:
- Bereaksi UI: Perbaiki kesalahan direktori yang hilang
13 Januari:
- React UI: Perbaiki langkah build NPM yang hilang dari pemasangan otomatis
12 Januari:
- Bereaksi UI: Memperbaiki nama untuk tindakan audio
- Gradio: Perbaiki beberapa peringatan API
- Integrasi - React UI sekarang diluncurkan di samping gradio, dengan tautan untuk membukanya
11 Jan:
- Bereaksi UI: Buatlah bekerja tanpa kesalahan apa pun
9 Januari:
- Bereaksi UI
- Perbaiki 404 Handler untuk WaveSurfer
- Grup tab kulit kayu bersama
8 Jan:
2023
Klik untuk memperluas
Oktober 2023
26 Oktober:
- Tingkatkan Model Seleksi UX untuk MusicGen
24 Okt:
- Tambahkan UI React Awal untuk MusicGen dan Demucs (#202)
- Perbaiki Bark Long Generation Seed Drifting (terima kasih kepada https://github.com/520pig520)
September 2023
21 Sep:
- Bark: Tambahkan Lanjutkan sebagai tombol Sejarah Semantik
- Beralih ke penyimpanan gambar Github Docker, gambar Docker baru:
-
docker pull ghcr.io/rsxdalv/tts-generation-webui:main
- Perbaiki opsi server_port di konfigurasi #168, terima kasih kepada https://github.com/dartvauder
9 Sep:
- Perbaiki baris perintah XDG-Open, terima kasih kepada https://github.com/jfronny
- Perbaiki generasi kulit kulit multi-line, terima kasih kepada https://github.com/slack-t dan https://github.com/bkutasi
- Tambahkan tombol Model Bongkar ke Bark seperti yang diminta oleh https://github.com/aamir3d
- Tambahkan detail kulit ke readme_bark.md seperti yang diminta oleh https://github.com/maki9009
- Tambahkan "Opsional" untuk dibakar dalam prompt, terima kasih kepada https://github.com/maki9009
5 Sep:
- Tambahkan Pencampuran Suara ke Bark
- Tambahkan V1 Burn in Prompt ke Bark (bakar in prompt adalah untuk mengarahkan model semantik tanpa menghabiskan waktu untuk menghasilkan audio. V1 bekerja dengan menghasilkan token semantik dan kemudian menggunakannya sebagai prompt untuk model semantik.)
- Tambahkan pembatas panjang generasi ke bakar
Agustus 2023
27 Agustus:
- Perbaiki MusicGen Mengabaikan Melodi #153
26 Agustus:
- Tambahkan Kirim ke RVC, Demucs, Vocos Tombol ke Bark dan Vocos
24 Agustus:
- Tambah Tanggal ke Output RVC untuk Memperbaiki #147
- Perbaiki Safetensors yang hilang roda
- Tambahkan tombol Kirim ke Demucs ke MusicGen
21 Agustus:
- Tambahkan Instalasi TorchVision ke Colab untuk Perbaikan Masalah MusicGen
- Hapus penebangan file rvc_tab
20 Agustus:
- Perbaiki MBD dengan menginstal ulang Hydra-core di akhir pembaruan
18 Agustus:
- CI: Tambahkan tindakan GitHub untuk secara otomatis menerbitkan gambar Docker.
16 Agustus:
- Tambahkan "Nama" ke parameter generasi kura -kura
15 Agustus:
- Pin obor ke 2.0.0 di semua file persyaratan.txt
- Menabrak versi audioct dan bark
- Menghapus transformator kura -kura fix dari colab
- Perbarui kura -kura ke 2.8.0
13 Agustus:
- Perbaikan yang berpotensi besar untuk pemasangan pengguna baru yang memiliki masalah dengan GPU tidak didukung
11 Agustus:
- Hotfix kura-kura berkat manmay-nakhashi
- Tambahkan opsi kura -kura untuk mengubah tokenizer
8 Agustus:
- Perbarui audiocraft, meningkatkan kinerja multibanddifusion
- Perbaiki parameter kura -kura 'cond_free' ketidakcocokan dengan preset 'ultra_fast'
7 Agustus:
- Tambahkan Perbaikan Kecepatan Kura -kura ke Colab
6 Agustus:
- Perbaiki kesalahan audiogen + mbd, tambahkan perbaikan kura -kura untuk colab
4 Agustus:
- Tambahkan opsi MultibandDifusion ke MusicGen #109
- MusicGen/Audiogen menyimpan token pada generasi sebagai file .npz.
3 Agustus:
2 Agustus:
- Perbaiki lokasi model yang tidak ditampilkan setelah restart
Juli 2023
26 Juli:
- Galeri Suara
- Pemangkasan suara
- Perbaiki bug ganti nama, ganti nama gambar juga, tambahkan kotak teks hash
- Downloading Voices (#98) yang lebih mudah
24 Juli:
- Ubah format file kulit kayu untuk memasukkan hash riwayat: ... lanjutan_generation ... -> ... from_3ea0d063 ...
23 Juli:
- Gambar Docker Terima kasih kepada https://github.com/jonfairbanks
- Perbaikan penamaan RVC UI
21 Juli:
- Perbaiki Hubert tidak bekerja dengan CPU saja (#87)
- Tambahkan Demo Google Colab (#88)
- Tab Pengaturan Baru dan Lokasi Model (untuk pengguna tingkat lanjut) (#90)
19 Juli:
- Tambahkan optimisasi kura-kura, terima kasih https://github.com/manmay-nakhashi #79 (implemen #18)
16 Juli:
- Demo foto suara
- Tambahkan direktori untuk menyimpan model/indeks RVC dan dropdown
- Solusi RVC Tidak Menghormati IS_HALF untuk CPU #74
- Model kura -kura dan peningkatan pemilihan suara #73
10 Juli:
9 Juli:
- RVC Demo + Tortoise, V6 Installer dengan skrip pembaruan dan upaya otomatis untuk menginstal modul tambahan #66
5 Juli:
- Installer V5 yang Ditingkatkan - lebih cepat dan lebih dapat diandalkan #63
2 Juli:
- Tingkatkan Pengaturan Kulit #59
1 Juli:
Juni 2023
29 Jun:
27 Juni:
- Perbaiki kesalahan pemuatan yang bersemangat, refactor #50
20 Juni
- Kura -kura: File Pembuatan Bentuk Panjang yang Tepat #46
19 Juni
18 Juni:
- Perbarui ke audiocraft terbaru, tambahkan generasi yang lebih lama
14 Juni:
- Tambahkan Tab Vocos Wav #42
5 Juni:
- Perbaiki tombol "Simpan ke Favorit" di halaman pembuatan kulit kayu, Bersihkan Konsol (v4.1.1)
- Tambahkan tab "Koleksi" untuk mengelola beberapa set data yang berbeda dan mata uang yang lebih mudah.
4 Juni:
- Pembaruan ke v4.1 - fungsi hash yang ditingkatkan, peningkatan kode
3 Juni:
- Perbarui ke V4 - Struktur Output Baru, Tampilan Sejarah yang Ditingkatkan, Reorganisasi Basis Kode, Metadata yang Ditingkatkan, Dukungan Ekstensi Output
Mei 2023
21 Mei:
- Perbarui ke V3 - Demo Klon Suara
17 Mei:
- Perbarui ke V2 - Hasilkan Hasil Seperti yang muncul, Pratinjau Generasi Long Prompt Sepotong demi Sepotong, Aktifkan hingga 9 Output, UI Tweaks
16 Mei:
- Tambahkan tab Pengaturan Gradio, perbaiki kesalahan gradio di konsol, tingkatkan logging.
- Perbarui riwayat dan favorit dengan tombol "use as voice" dan "save voice"
- Tambahkan tab Suara
- Tab kulit kayu: hapus "atau gunakan generasi terakhir sebagai sejarah"
- Tingkatkan Organisasi Kode
13 Mei:
- Aktifkan pembuatan deterministik dan meningkatkan log yang dihasilkan. Kredit ke Suno-Ai/Bark#175.
10 Mei:
- Aktifkan kemungkinan penggunaan kembali riwayat dari generasi yang lebih tua. Simpan generasi sebagai file NPZ. Tambahkan metode yang nyaman untuk menggunakan kembali salah satu dari 3 generasi terakhir untuk petunjuk berikutnya. Tambahkan tombol untuk menyimpan dan mengumpulkan petunjuk riwayat di bawah /suara. #10
4 Mei:
- Generasi Bentuk Panjang (Kredit ke https://github.com/suno-ai/bark/blob/main/notebooks/long_form_generation.ipynb dan Suno-II/Bark#161)
- Beradaptasi dengan bug env var tetap
3 Mei:
- UI Tortoise yang Ditingkatkan: Pengaturan suara, preset, dan CVVP serta kemampuan untuk menghasilkan 3 hasil (#6)
2 Mei:
- Menambahkan dukungan untuk reklking sejarah untuk melanjutkan permintaan yang lebih lama secara manual
- Menambahkan dukungan untuk petunjuk V2
Sebelum:
- Menambahkan dukungan untuk TTS kura -kura
Peningkatan (untuk instalasi lama)
Dalam hal masalah, jangan ragu untuk menghubungi pengembang .
Klik untuk memperluas
Meningkatkan dari V6 ke pemasang baru
Direkomendasikan: instalasi baru
- Unduh versi baru dan jalankan start_tts_webui.bat (windows) atau start_tts_webui.sh (macOS, linux)
- Setelah selesai, tutup server.
- Direkomendasikan: Salin generasi lama ke direktori baru, seperti favorit/ output/ outputs-rvc/ model/ collections/ config.json
- Dengan hati-hati: Anda dapat menyalin direktori TTS-Generasi-Webui yang baru di atas yang lama, tetapi mungkin ada beberapa file lama yang hilang.
Peningkatan di tempat, dapat menghapus beberapa file, penyesuaian
- Perbarui instalasi yang ada menggunakan skrip platform UPDAPLE_
- Setelah pembaruan, jalankan start_tts_webui.bat (windows) atau start_tts_webui.sh (macos, linux) di dalam direktori TTS-generasi-Webui (MacOS) di dalam
- Setelah server dimulai, periksa apakah berfungsi.
- Dengan hati-hati: Jika server baru berfungsi, di dalam direktori satu klik-instalasi, hapus installer_files lama.
Apakah ada cara yang lebih optimal untuk melakukan ini?
Tidak persis, ketergantungan bentrokan, terutama antara Conda dan Python (dan dependensi sudah dalam keadaan kritis, memindahkannya ke Conda adalah cara off). Oleh karena itu, walaupun mungkin untuk hanya mengganti penginstal lama dengan yang baru dan menjalankan pembaruan, masalahnya tidak dapat diprediksi dan tidak dapat diperbaiki . Membuat pembaruan untuk installer membutuhkan banyak pengujian sehingga tidak dilakukan dengan enteng.
Instalasi
- Unduh versi terbaru dan ekstrak.
- Jalankan start_tts_webui.bat atau start_tts_webui.sh untuk memulai server. Ini akan meminta Anda untuk memilih GPU/chip yang Anda gunakan. Setelah semuanya telah diinstal, itu akan memulai server gradio di http: // localhost: 7770 dan react ui di http: // localhost: 3000.
- Log Output akan tersedia di file installer_scripts/output.log.
Instalasi manual (tidak disarankan)
Instruksi ini mungkin tidak mencerminkan semua perbaikan dan penyesuaian terbaru, tetapi bisa berguna sebagai referensi untuk men -debug atau memahami apa yang dilakukan pemasang. Semoga mereka bisa menjadi dasar untuk mendukung platform baru, seperti AMD/Intel.
Instal Conda (https://docs.conda.io/projects/conda/en/latest/user-guide/install/index.html)
- (Windows) Instal Visual Studio Compiler/Visual Studio Build Tools https://visualstudio.microsoft.com/visual-cpp-build-tools/
Siapkan lingkungan: conda create -n venv
Instal git, node.js conda install -y -c conda-forge git python=3.10.11 conda-forge::nodejs=22.9.0 conda pip==23.3.2 conda-forge::uv=0.4.17 conda-forge::vswhere
a) Lanjutkan dengan skrip penginstal
- Aktifkan Lingkungan:
conda activate venv
dan -
(venv) node installer_scriptsinit_app.js
- Kemudian jalankan server dengan
(venv) python server.py
b) atau pasang persyaratan secara manual
- Siapkan Pytorch dengan CUDA atau CPU (https://pytorch.org/audio/stable/build.windows.html#install-pytorch):
-
(venv) conda install -y -k conda-forge::uv=0.4.17 conda-forge::vswhere conda-forge::postgresql=16.4 conda-forge::nodejs=22.9.0 conda-forge::ffmpeg=4.4.2[build=lgpl*] pytorch=2.3.1 torchvision torchaudio cpuonly -c pytorch
untuk CPU/MAC -
(venv) conda install -y -k conda-forge::uv=0.4.17 conda-forge::vswhere conda-forge::postgresql=16.4 conda-forge::nodejs=22.9.0 conda-forge::ffmpeg=4.4.2[build=lgpl*] pytorch[version=2.3.1,build=py3.10_cuda11.8*] pytorch-cuda=11.8 torchvision torchaudio cuda-toolkit ninja -c pytorch -c nvidia/label/cuda-11.8.0 -c nvidia
untuk CUDA
- Klone The Repo:
git clone https://github.com/rsxdalv/tts-generation-webui.git
- Pasang persyaratan:
- Instal semua persyaratan*.txt (daftar ini mungkin tidak up to date, periksa https://github.com/rsxdalv/tts-generation-webui/blob/main/dockerfile#l39-l40):
-
(venv) pip install -r requirements.txt
-
(venv) pip install -r requirements_audiocraft.txt
-
(venv) pip install -r requirements_bark_hubert_quantizer.txt
-
(venv) pip install -r requirements_rvc.txt
-
(venv) pip install hydra-core==1.3.2
-
(venv) pip install -r requirements_styletts2.txt
-
(venv) pip install -r requirements_vall_e.txt
-
(venv) pip install -r requirements_maha_tts.txt
-
(venv) pip install -r requirements_stable_audio.txt
-
(venv) pip install soundfile==0.12.1
-
(venv) pip install nvidia-ml-py
- Bangun Aplikasi React:
(venv) cd react-ui && npm install && npm run build
- (Opsional) Mengatur database:
(venv) node installer_scripts/js/applyDatabaseConfig.js
- Jalankan server:
(venv) python server.py
Bereaksi UI
- Instal NodeJs (jika belum diinstal dengan Conda)
- Instal Dependensi Bereaksi:
npm install
- Build React:
npm run build
- Jalankan Bereaksi:
npm start
- Jalankan juga Python Server:
python server.py
atau dengan skrip start_tts_webui
Pengaturan Docker
TTS-Generation-Webui juga dapat dijalankan di dalam wadah Docker. Untuk memulai, tarik gambar dari Registry Container GitHub:
docker pull ghcr.io/rsxdalv/tts-generation-webui:main
Setelah gambar ditarik dapat dimulai dengan Docker Compose:
Wadah akan membutuhkan waktu untuk menghasilkan output pertama saat model diunduh di latar belakang. Status unduhan ini dapat diverifikasi dengan memeriksa log kontainer:
docker logs tts-generation-webui
Membangun gambar sendiri
Jika Anda ingin membangun wadah Docker Anda sendiri, Anda dapat menggunakan DockerFile yang disertakan:
docker build -t tts-generation-webui .
Harap dicatat bahwa komposisi Docker perlu diedit untuk menggunakan gambar yang baru saja Anda bangun.
Suara tambahan untuk kulit kayu, sampel cepat
Bark Readme
Readme_bark.md
Info tentang mengelola model, cache, dan ruang sistem untuk proyek AI
#186 (balasan di utas)
Perpustakaan Sumber Terbuka
Proyek ini menggunakan pustaka sumber terbuka berikut:
Suno -Ai/Bark - Lisensi MIT
- Deskripsi: Kode inferensi untuk model kulit kayu.
- Repositori: Suno/Bark
Lisensi Tortoise-Tts -Apache-2.0
- Deskripsi: Perpustakaan sintesis teks-ke-speech yang fleksibel untuk berbagai platform.
- Repositori: NeonBJB/Tortoise-tts
FFMPEG - Lisensi LGPL
- Deskripsi: Solusi lengkap dan lintas platform untuk pemrosesan video dan audio.
- Repositori: FFMPEG
- Gunakan: Encode Vorbis Ogg Files
FFMPEG -PYTHON - Lisensi Apache 2.0
- Deskripsi: Binding Python untuk pustaka FFMPEG untuk menangani file multimedia.
- Repositori: KKROENING/FFMPEG-PYTHON
Audiocraft - Lisensi MIT
- Deskripsi: Perpustakaan untuk generasi audio dan musik.
- Repositori: FacebookResearch/Audiocraft
VOCOS - Lisensi MIT
- Deskripsi: Decoder yang lebih baik untuk sampel EncodeC
- Repositori: charactr-platform/vocos
RVC - Lisensi MIT
- Deskripsi: Kerangka kerja konversi suara yang mudah digunakan berdasarkan VIT.
- Repositori: RVC-Project/Retrieval-Based-Voice-Conversion-Webui
Penggunaan etis dan bertanggung jawab
Teknologi ini dimaksudkan untuk pemberdayaan dan kreativitas, bukan untuk bahaya.
Dengan terlibat dengan model AI ini, Anda mengakui dan setuju untuk mematuhi pedoman ini, menggunakan model AI secara bertanggung jawab, etis, dan legal.
- Intent Non-Malicous: Jangan gunakan model AI ini untuk kegiatan jahat, berbahaya, atau melanggar hukum. Seharusnya hanya digunakan untuk tujuan yang sah dan etis yang mempromosikan keterlibatan positif, berbagi pengetahuan, dan percakapan konstruktif.
- Tidak ada peniruan: Jangan gunakan model AI ini untuk menyamar sebagai atau salah menggambarkan diri Anda sebagai orang lain, termasuk individu, organisasi, atau entitas. Seharusnya tidak digunakan untuk menipu, menipu, atau memanipulasi orang lain.
- Tidak ada kegiatan penipuan: Model AI ini tidak boleh digunakan untuk tujuan penipuan, seperti penipuan keuangan, upaya phishing, atau segala bentuk praktik penipuan yang bertujuan untuk memperoleh informasi sensitif, keuntungan moneter, atau akses yang tidak sah ke sistem.
- Kepatuhan Hukum: Pastikan bahwa penggunaan Anda terhadap model AI ini sesuai dengan hukum, peraturan, dan kebijakan yang berlaku mengenai penggunaan AI, perlindungan data, privasi, kekayaan intelektual, dan kewajiban hukum lainnya yang relevan dalam yurisdiksi Anda.
- Pengakuan: Dengan terlibat dengan model AI ini, Anda mengakui dan setuju untuk mematuhi pedoman ini, menggunakan model AI dengan cara yang bertanggung jawab, etis, dan legal.
Lisensi
Basis kode dan dependensi
Basis kode dilisensikan di bawah MIT. Namun, penting untuk dicatat bahwa ketika memasang dependensi, Anda juga akan tunduk pada lisensi masing -masing. Meskipun sebagian besar lisensi ini permisif, mungkin ada beberapa yang tidak. Oleh karena itu, penting untuk memahami bahwa lisensi permisif hanya berlaku untuk basis kode itu sendiri, bukan seluruh proyek.
Yang sedang berkata, tujuannya adalah untuk mempertahankan kompatibilitas MIT di seluruh proyek. Jika Anda menemukan ketergantungan yang tidak kompatibel dengan lisensi MIT, jangan ragu untuk membuka masalah dan membawanya ke perhatian kami.
Ketergantungan non-permisif yang diketahui:
Perpustakaan | Lisensi | Catatan |
---|
encodec | CC BY-NC 4.0 | Versi yang lebih baru adalah MIT, tetapi perlu diinstal secara manual |
diffq | CC BY-NC 4.0 | Opsional di masa depan, tidak perlu dijalankan, dapat dihapus, harus diperbarui dengan Demucs |
lameenc | Lisensi GPL | Versi di masa depan akan membuatnya LGPL, tetapi perlu diinstal secara manual |
Unidecode | Lisensi GPL | Not Mission Critical, dapat diganti dengan perpustakaan lain, masalah: neonbjb/tortoise-tts#494 |
Bobot model
Bobot model memiliki lisensi yang berbeda, harap perhatikan lisensi model yang Anda gunakan.
Terutama:
- Bark: MIT
- Kura-kura: Tidak Diketahui (Apache-2.0 Menurut Repo, tetapi tidak ada file lisensi di HuggingFace)
- Musicgen: CC BY-NC 4.0
- Audiogen: CC BY-NC 4.0
Kompatibilitas / Kesalahan
Audiocraft saat ini hanya kompatibel dengan Linux dan Windows. Dukungan macOS masih belum tiba, meskipun dimungkinkan untuk menginstal secara manual.
Obor dipasang kembali
Karena keterbatasan Python Package Manager (PIP), Torch dapat diinstal ulang beberapa kali. Ini adalah masalah yang luas dari Pip dan Torch.
Pesan Merah di Konsol
Pesan -pesan ini:
---- requires ----, but you have ---- which is incompatible.
Benar -benar normal. Keduanya merupakan batasan PIP dan karena UI web ini menggabungkan banyak proyek AI yang berbeda bersama -sama. Karena proyek tidak selalu kompatibel satu sama lain, mereka akan mengeluh tentang proyek lain yang dipasang. Ini normal dan diharapkan. Dan pada akhirnya, terlepas dari peringatan/kesalahan proyek akan bekerja bersama. Tidak jelas apakah situasi ini akan dapat diselesaikan, tetapi itulah harapannya.