Este es un asistente de voz AI basado en modelos de lenguaje grandes. Un usuario puede interactuar con el Asistente de Voz en lenguaje natural, actualmente inglés.
La implementación reúne varios modelos de aprendizaje profundo:
El módulo de voz está conectado con el micrófono local para crear una transcripción en vivo a través de un proceso VAD. Se envía una transcripción al LLM elegido para su procesamiento en función de las palabras de activación.
Una vez que el LLM genera una respuesta, el módulo de voz también guarda el archivo de audio y genera una salida de voz utilizando un modelo TTS.
La interfaz de usuario está construida con Streamlit y proporciona una experiencia familiar similar a la de un chat.
Instalar dependencias del proyecto
pip install -r requirements
Si utiliza modelos GPT, cree un archivo .env
con variables de entorno para OPENAI_API_KEY
y OPENAI_API_BASE
.