Memberikan percakapan secara real-time dengan AI, sepenuhnya lokal di PC Anda, dengan kepribadian dan suara AI yang dapat disesuaikan.
Petunjuk: Siapa pun yang tertarik dengan solusi suara canggih, silakan lihat juga Linguflex . Ini memungkinkan Anda mengontrol lingkungan Anda dengan berbicara dan merupakan salah satu asisten sumber terbuka paling mumpuni dan canggih yang tersedia saat ini.
Catatan: Jika Anda mengalami kesalahan 'Kesalahan sintesis umum: isin() menerima kesalahan kombinasi argumen yang tidak valid', hal ini disebabkan oleh pustaka transformator baru yang memperkenalkan ketidakcocokan dengan Coqui TTS (lihat di sini). Silakan turunkan versi ke versi transformator yang lebih lama:
pip install transformers==4.38.2
atau tingkatkan RealtimeTTS ke versi terbarupip install realtimetts==0.4.1
.
Mengintegrasikan model bahasa Zephyr 7B yang kuat dengan perpustakaan ucapan-ke-teks dan teks-ke-ucapan real-time untuk menciptakan chatbot lokal berbasis suara yang cepat dan menarik.
Petunjuk: Jika Anda mengalami masalah saat menginstal llama.cpp, silakan lihat juga proyek LocalEmotionalAIVoiceChat saya. Ini mencakup output text-to-speech real-time yang sadar emosi dan memiliki beberapa opsi penyedia LLM. Anda juga dapat menggunakannya dengan model AI yang berbeda.
Perangkat lunak ini berada dalam kondisi alfa eksperimental dan tidak memberikan stabilitas siap produksi. Model XTTS yang digunakan untuk sintesis saat ini masih memiliki glitch dan juga Zephyr - meskipun sangat bagus untuk model 7B - tentu saja tidak dapat bersaing dengan kualitas jawaban GPT 4, Claude atau Perplexity.
Harap anggap ini sebagai upaya pertama untuk menyediakan versi awal chatbot waktu nyata lokal.
Anda memerlukan GPU dengan VRAM sekitar 8 GB untuk menjalankannya secara real-time.
Perangkat NVIDIA CUDA 11.8 :
NVIDIA cuDNN 8.7.0 untuk CUDA 11.x :
Instal ROCm v.5.7.1
FFmpeg :
Instal FFmpeg sesuai dengan sistem operasi Anda:
Ubuntu/Debian :
sudo apt update && sudo apt install ffmpeg
Lengkungan Linux :
sudo pacman -S ffmpeg
macOS (buatan rumahan) :
brew install ffmpeg
Jendela (Cokelat) :
choco install ffmpeg
Windows (Sendok) :
scoop install ffmpeg
Kloning repositori atau unduh paket kode sumber.
Instal llama.cpp
(untuk pengguna AMD) Sebelum langkah selanjutnya setel nilai variabel env LLAMA_HIPBLAS
ke on
Cara resmi:
pip install llama - cpp - python - - force - reinstall - - upgrade - - no - cache - dir - - verbose
Instal perpustakaan waktu nyata
pip install RealtimeSTT == 0.1 . 7
pip install RealtimeTTS == 0.2 . 7
Unduh zephyr-7b-beta.Q5_K_M.gguf dari sini.
model_path
.Jika terjadi konflik ketergantungan, instal versi tertentu dari pustaka yang bertentangan:
pip install networkx == 2.8 . 8
pip install typing_extensions == 4.8 . 0
pip install fsspec == 2023.6 . 0
pip install imageio == 2.31 . 6
pip install numpy == 1.24 . 3
pip install requests == 2.31 . 0
python ai_voicetalk_local.py
Buka chat_params.json untuk mengubah skenario pembicaraan.
Jika kalimat pertama ditranskripsikan sebelum Anda sampai ke kalimat kedua, naikkan post_speech_silence_duration pada AudioToTextRecorder: AudioToTextRecorder(model="tiny.en", language="en", spinner=False, post_speech_silence_duration = 1.5)
Kontribusi untuk menyempurnakan proyek ini disambut dengan hangat. Jangan ragu untuk membuka permintaan penarikan dengan usulan perubahan atau perbaikan.
Proyek ini berada di bawah Coqui Public Model License 1.0.0.
Lisensi ini hanya mengizinkan penggunaan non-komersial atas model pembelajaran mesin dan keluarannya.
Kolja Beigel
Jangan ragu untuk menghubungi pertanyaan atau dukungan apa pun terkait proyek ini.