( escucha | piensa | habla picos)
Asistente 100% gratuito, local y fuera de línea con reconocimiento de voz y funcionalidades de respuesta.
ALTS se ejecuta en segundo plano y espera a que presiones cmd+esc
(o win+esc
).
Mientras mantiene presionada la tecla de acceso rápido, su voz se grabará (se guardará en la raíz del proyecto) .
Al momento del lanzamiento, la grabación se detiene y se envía una transcripción al LLM (la grabación se elimina) .
Luego, las respuestas de LLM se sintetizan y se reproducen (también se muestran como notificaciones de escritorio) .
Puede modificar la combinación de teclas de acceso rápido y otras configuraciones en su config.yaml
.
TODOS los procesos son locales y NINGUNA de tus grabaciones o consultas sale de tu entorno; las grabaciones se eliminan tan pronto como se utilizan; es TODO PRIVADO por defecto
(probado en) versión >=3.11 en macOS y versión >=3.8 en Windows
De forma predeterminada, el proyecto está configurado para funcionar con Ollama, ejecutando el modelo stablelm2
(un modelo muy pequeño y rápido). Esta configuración hace que todo el sistema sea completamente gratuito para ejecutarse localmente y es ideal para máquinas con pocos recursos.
Sin embargo, utilizamos LiteLLM para ser independientes del proveedor, por lo que usted tiene total libertad para elegir sus propias combinaciones. Eche un vistazo a los modelos/proveedores admitidos para obtener más detalles sobre la configuración de LLM.
Consulte
.env.template
yconfig-template.yaml
para personalizar su configuración.
Usamos openAI's whisper
para transcribir sus consultas de voz. Es un modelo de reconocimiento de voz de propósito general.
Necesitará tener instalado ffmepg
en su entorno, puede descargarlo desde el sitio oficial.
Asegúrese de consultar sus documentos de configuración para cualquier otro requisito.
Si encuentra errores, una razón podría ser que el modelo no se descargue automáticamente. Si ese es el caso, puedes ejecutar una transcripción de ejemplo
whisper
en tu terminal (ver ejemplos) o descargarla manualmente y colocar el archivo del modelo en la carpeta correcta.
Usamos coqui-TTS
para que ALTS le responda. Es una biblioteca para la generación avanzada de texto a voz.
Necesitará instalar eSpeak-ng
en su entorno:
Asegúrese de consultar sus documentos de configuración para cualquier otro requisito.
Si aún no ha descargado el modelo configurado, debería descargarse automáticamente durante el inicio; sin embargo, si encuentra algún problema, puede descargar previamente el modelo predeterminado ejecutando lo siguiente:
tts --text "this is a setup test" --out_path test_output.wav --model_name tts_models/en/vctk/vits --speaker_idx p364El modelo predeterminado tiene varios "altavoces" para elegir; Al ejecutar el siguiente comando, aparecerá un sitio de demostración donde podrá probar las diferentes voces disponibles:
tts-server --model_name tts_models/en/vctk/vits
macOS – brew install espeak
Linux – sudo apt-get install espeak -y
Windows: descargue el ejecutable desde su repositorio.
en Windows también necesitarás
Desktop development with C++
y.NET desktop build tools
. Descargue las herramientas de compilación de Microsoft C++ e instale estas dependencias.
clonar el repositorio
git clone https://github.com/alxpez/alts.git
ir a la carpeta principal
cd alts/
instalar las dependencias del proyecto
pip install -r requirements.txt
Consulte la sección de requisitos previos para asegurarse de que su máquina esté lista para iniciar ALTS.
duplicar y cambiar el nombre de los archivos de configuración necesarios
cp config-template.yaml config.yaml
cp .env.template .env
Modifique la configuración predeterminada según sus necesidades.
poner en marcha ALTS
sudo python alts.py
el paquete
keyboard
debe ejecutarse como administrador (en macOS y Linux), no es el caso en Windows