Bietet Gespräche in Echtzeit mit KI, vollständig lokal auf Ihrem PC, mit anpassbarer KI-Persönlichkeit und Stimme.
Hinweis: Wer sich für hochmoderne Sprachlösungen interessiert, schaut sich bitte auch Linguflex an . Es ermöglicht Ihnen die Steuerung Ihrer Umgebung durch Sprechen und ist einer der leistungsfähigsten und fortschrittlichsten Open-Source-Assistenten, die derzeit verfügbar sind.
Hinweis: Wenn Sie auf den Fehler „Allgemeiner Synthesefehler: isin() hat eine ungültige Argumentkombination erhalten“ stoßen, liegt dies daran, dass die neue Transformer-Bibliothek zu einer Inkompatibilität mit Coqui TTS führt (siehe hier). Bitte führen Sie ein Downgrade auf eine ältere Transformers-Version durch:
pip install transformers==4.38.2
oder aktualisieren Sie RealtimeTTS auf die neueste Versionpip install realtimetts==0.4.1
.
Integriert das leistungsstarke Zephyr 7B-Sprachmodell mit Echtzeit-Sprache-zu-Text- und Text-zu-Sprache-Bibliotheken, um einen schnellen und ansprechenden sprachbasierten lokalen Chatbot zu erstellen.
Hinweis: Wenn Sie Probleme bei der Installation von llama.cpp haben, werfen Sie bitte auch einen Blick in mein LocalEmotionalAIVoiceChat-Projekt. Es umfasst eine emotionsbewusste Echtzeit-Text-zu-Sprache-Ausgabe und verfügt über mehrere LLM-Anbieteroptionen. Sie können es auch mit verschiedenen KI-Modellen verwenden.
Diese Software befindet sich in einem experimentellen Alpha-Stadium und bietet keine produktionsreife Stabilität. Das aktuell für die Synthese verwendete XTTS-Modell weist immer noch Störungen auf und auch Zephyr kann – obwohl für ein 7B-Modell wirklich gut – natürlich nicht mit der Antwortqualität von GPT 4, Claude oder Perplexity mithalten.
Bitte betrachten Sie dies als einen ersten Versuch, eine frühe Version eines lokalen Echtzeit-Chatbots bereitzustellen.
Um dies in Echtzeit auszuführen, benötigen Sie eine GPU mit etwa 8 GB VRAM.
NVIDIA CUDA Toolkit 11.8 :
NVIDIA cuDNN 8.7.0 für CUDA 11.x :
Installieren Sie ROCm v.5.7.1
FFmpeg :
Installieren Sie FFmpeg entsprechend Ihrem Betriebssystem:
Ubuntu/Debian :
sudo apt update && sudo apt install ffmpeg
Arch Linux :
sudo pacman -S ffmpeg
macOS (Homebrew) :
brew install ffmpeg
Fenster (schokoladig) :
choco install ffmpeg
Windows (Schaufel) :
scoop install ffmpeg
Klonen Sie das Repository oder laden Sie das Quellcodepaket herunter.
Installieren Sie llama.cpp
(für AMD-Benutzer) Setzen Sie vor dem nächsten Schritt den Wert der Umgebungsvariablen LLAMA_HIPBLAS
auf on
Offizieller Weg:
pip install llama - cpp - python - - force - reinstall - - upgrade - - no - cache - dir - - verbose
Installieren Sie Echtzeitbibliotheken
pip install RealtimeSTT == 0.1 . 7
pip install RealtimeTTS == 0.2 . 7
Laden Sie zephyr-7b-beta.Q5_K_M.gguf hier herunter.
model_path
ein.Wenn Abhängigkeitskonflikte auftreten, installieren Sie bestimmte Versionen der in Konflikt stehenden Bibliotheken:
pip install networkx == 2.8 . 8
pip install typing_extensions == 4.8 . 0
pip install fsspec == 2023.6 . 0
pip install imageio == 2.31 . 6
pip install numpy == 1.24 . 3
pip install requests == 2.31 . 0
python ai_voicetalk_local.py
Öffnen Sie chat_params.json, um das Gesprächsszenario zu ändern.
Wenn der erste Satz transkribiert wird, bevor Sie zum zweiten gelangen, erhöhen Sie post_speech_silence_duration auf AudioToTextRecorder: AudioToTextRecorder(model="tiny.en", language="en", spinner=False, post_speech_silence_duration = 1.5)
Beiträge zur Erweiterung oder Verbesserung des Projekts sind herzlich willkommen. Fühlen Sie sich frei, eine Pull-Anfrage mit Ihren vorgeschlagenen Änderungen oder Korrekturen zu öffnen.
Das Projekt steht unter der Coqui Public Model License 1.0.0.
Diese Lizenz erlaubt nur die nichtkommerzielle Nutzung eines maschinellen Lernmodells und seiner Ergebnisse.
Kolja Beigel
Bei Fragen oder Unterstützung im Zusammenhang mit diesem Projekt können Sie sich jederzeit an uns wenden.