Permet de parler en temps réel avec l'IA, entièrement localement sur votre PC, avec une personnalité et une voix IA personnalisables.
Astuce : si vous êtes intéressé par des solutions vocales de pointe, veuillez également consulter Linguflex . Il vous permet de contrôler votre environnement en parlant et constitue l'un des assistants open source les plus performants et les plus sophistiqués actuellement disponibles.
Remarque : Si vous rencontrez l'erreur « Erreur de synthèse générale : isin() a reçu une combinaison d'arguments non valide », cela est dû à la nouvelle bibliothèque de transformateurs introduisant une incompatibilité avec Coqui TTS (voir ici). Veuillez rétrograder vers une ancienne version de Transformers :
pip install transformers==4.38.2
ou mettre à niveau RealtimeTTS vers la dernière versionpip install realtimetts==0.4.1
.
Intègre le puissant modèle de langage Zephyr 7B avec des bibliothèques de synthèse vocale et de synthèse vocale en temps réel pour créer un chatbot local vocal rapide et attrayant.
Astuce : si vous rencontrez des problèmes lors de l'installation de llama.cpp, veuillez également consulter mon projet LocalEmotionalAIVoiceChat. Il comprend une sortie de synthèse vocale en temps réel sensible aux émotions et propose plusieurs options de fournisseur LLM. Vous pouvez également l'utiliser avec différents modèles d'IA.
Ce logiciel est dans un état alpha expérimental et n'offre pas de stabilité prête pour la production. Le modèle XTTS actuel utilisé pour la synthèse présente toujours des problèmes et Zephyr - bien que très bon pour un modèle 7B - ne peut bien sûr pas rivaliser avec la qualité de réponse de GPT 4, Claude ou Perplexity.
Veuillez considérer cela comme une première tentative de fournir une première version d'un chatbot local en temps réel.
Vous aurez besoin d’un GPU avec environ 8 Go de VRAM pour exécuter cela en temps réel.
Boîte à outils NVIDIA CUDA 11.8 :
NVIDIA cuDNN 8.7.0 pour CUDA 11.x :
Installer ROCm v.5.7.1
FFmpeg :
Installez FFmpeg en fonction de votre système d'exploitation :
Ubuntu/Debian :
sudo apt update && sudo apt install ffmpeg
Arch Linux :
sudo pacman -S ffmpeg
MacOS (Homebrew) :
brew install ffmpeg
Fenêtres (Chocolat) :
choco install ffmpeg
Fenêtres (Scoop) :
scoop install ffmpeg
Clonez le référentiel ou téléchargez le package de code source.
Installer lama.cpp
(pour les utilisateurs AMD) Avant l'étape suivante, définissez la valeur de la variable d'environnement LLAMA_HIPBLAS
sur on
Voie officielle :
pip install llama - cpp - python - - force - reinstall - - upgrade - - no - cache - dir - - verbose
Installer des bibliothèques en temps réel
pip install RealtimeSTT == 0.1 . 7
pip install RealtimeTTS == 0.2 . 7
Téléchargez zephyr-7b-beta.Q5_K_M.gguf à partir d'ici.
model_path
.Si des conflits de dépendances surviennent, installez des versions spécifiques des bibliothèques en conflit :
pip install networkx == 2.8 . 8
pip install typing_extensions == 4.8 . 0
pip install fsspec == 2023.6 . 0
pip install imageio == 2.31 . 6
pip install numpy == 1.24 . 3
pip install requests == 2.31 . 0
python ai_voicetalk_local.py
Ouvrez chat_params.json pour modifier le scénario de discussion.
Si la première phrase est transcrite avant d'arriver à la seconde, augmentez post_speech_silence_duration sur AudioToTextRecorder : AudioToTextRecorder(model="tiny.en", language="en", spinner=False, post_speech_silence_duration = 1.5)
Les contributions visant à améliorer ou améliorer le projet sont chaleureusement accueillies. N'hésitez pas à ouvrir une pull request avec vos propositions de modifications ou de correctifs.
Le projet est sous Coqui Public Model License 1.0.0.
Cette licence autorise uniquement l'utilisation non commerciale d'un modèle d'apprentissage automatique et de ses sorties.
Kolja Beigel
N'hésitez pas à nous contacter pour toute question ou assistance liée à ce projet.