Proporciona conversación en tiempo real con IA, completamente local en su PC, con personalidad y voz de IA personalizables.
Consejo: Cualquier persona interesada en soluciones de voz de última generación, eche también un vistazo a Linguflex . Le permite controlar su entorno hablando y es uno de los asistentes de código abierto más capaces y sofisticados disponibles actualmente.
Nota: Si se encuentra con el error 'Error de síntesis general: isin() recibió una combinación no válida de argumentos', esto se debe a que la nueva biblioteca de transformadores introduce una incompatibilidad con Coqui TTS (ver aquí). Baje a una versión anterior de Transformers:
pip install transformers==4.38.2
o actualice RealtimeTTS a la última versiónpip install realtimetts==0.4.1
.
Integra el potente modelo de lenguaje Zephyr 7B con bibliotecas de voz a texto y de texto a voz en tiempo real para crear un chatbot local basado en voz rápido y atractivo.
Sugerencia: si tiene problemas al instalar llama.cpp, eche también un vistazo a mi proyecto LocalEmotionalAIVoiceChat. Incluye salida de texto a voz en tiempo real consciente de las emociones y tiene múltiples opciones de proveedores de LLM. También puedes usarlo con diferentes modelos de IA.
Este software se encuentra en un estado alfa experimental y no proporciona estabilidad lista para producción. El modelo XTTS actual utilizado para síntesis todavía tiene fallos y además Zephyr - aunque es realmente bueno para un modelo 7B - por supuesto no puede competir con la calidad de respuesta de GPT 4, Claude o Perplexity.
Considere esto como un primer intento de proporcionar una versión temprana de un chatbot local en tiempo real.
Necesitará una GPU con alrededor de 8 GB de VRAM para ejecutar esto en tiempo real.
Kit de herramientas NVIDIA CUDA 11.8 :
NVIDIA cuDNN 8.7.0 para CUDA 11.x :
Instalar ROCm v.5.7.1
FFmpeg :
Instale FFmpeg según su sistema operativo:
Ubuntu/Debian :
sudo apt update && sudo apt install ffmpeg
Arco Linux :
sudo pacman -S ffmpeg
macOS (casero) :
brew install ffmpeg
Windows (chocolatado) :
choco install ffmpeg
Windows (primicia) :
scoop install ffmpeg
Clona el repositorio o descarga el paquete de código fuente.
Instalar llama.cpp
(para usuarios de AMD) Antes del siguiente paso, establezca el valor de la variable env LLAMA_HIPBLAS
en on
Manera oficial:
pip install llama - cpp - python - - force - reinstall - - upgrade - - no - cache - dir - - verbose
Instalar bibliotecas en tiempo real
pip install RealtimeSTT == 0.1 . 7
pip install RealtimeTTS == 0.2 . 7
Descargue zephyr-7b-beta.Q5_K_M.gguf desde aquí.
model_path
.Si ocurren conflictos de dependencia, instale versiones específicas de bibliotecas en conflicto:
pip install networkx == 2.8 . 8
pip install typing_extensions == 4.8 . 0
pip install fsspec == 2023.6 . 0
pip install imageio == 2.31 . 6
pip install numpy == 1.24 . 3
pip install requests == 2.31 . 0
python ai_voicetalk_local.py
Abra chat_params.json para cambiar el escenario de la conversación.
Si la primera oración se transcribe antes de llegar a la segunda, aumente post_speech_silence_duration en AudioToTextRecorder: AudioToTextRecorder(model="tiny.en", language="en", spinner=False, post_speech_silence_duration = 1.5)
Las contribuciones para potenciar o mejorar el proyecto son bienvenidas. No dude en abrir una solicitud de extracción con los cambios o correcciones propuestos.
El proyecto está bajo la Licencia de Modelo Público Coqui 1.0.0.
Esta licencia solo permite el uso no comercial de un modelo de aprendizaje automático y sus resultados.
Kolja Beigel
No dude en comunicarse con nosotros para cualquier consulta o soporte relacionado con este proyecto.