( écoute | réfléchit | s pics )
Assistant 100% gratuit, local et hors ligne avec fonctionnalités de reconnaissance vocale et de talk-back.
ALTS s'exécute en arrière-plan et attend que vous appuyiez sur cmd+esc
(ou win+esc
).
Tout en maintenant la touche de raccourci enfoncée, votre voix sera enregistrée (enregistrée à la racine du projet) .
A la sortie, l'enregistrement s'arrête et une transcription est envoyée au LLM (l'enregistrement est supprimé) .
Les réponses LLM sont ensuite synthétisées et lues (également affichées sous forme de notifications sur le bureau) .
Vous pouvez modifier la combinaison de touches de raccourci et d'autres paramètres dans votre config.yaml
.
TOUS les processus sont locaux et AUCUN de vos enregistrements ou requêtes ne quitte votre environnement ; les enregistrements sont supprimés dès leur utilisation ; c'est TOUT PRIVÉ par défaut
(testé sur) version >=3.11 sur macOS et version >=3.8 sur Windows
Par défaut, le projet est configuré pour fonctionner avec Ollama, exécutant le modèle stablelm2
(un modèle très petit et rapide). Cette configuration rend l'ensemble du système totalement libre de fonctionner localement et idéal pour les machines à faibles ressources.
Cependant, nous utilisons LiteLLM afin d'être indépendants du fournisseur, afin que vous ayez toute liberté de choisir vos propres combinaisons. Jetez un œil aux modèles/fournisseurs pris en charge pour plus de détails sur la configuration LLM.
Voir
.env.template
etconfig-template.yaml
pour personnaliser votre configuration
Nous utilisons openAI's whisper
pour retranscrire vos requêtes vocales. Il s'agit d'un modèle de reconnaissance vocale à usage général.
Vous devrez avoir installé ffmepg
dans votre environnement, vous pouvez le télécharger depuis le site officiel.
Assurez-vous de consulter leurs documents de configuration pour toute autre exigence.
si vous tombez sur des erreurs, une des raisons pourrait être que le modèle ne se télécharge pas automatiquement. Si tel est le cas, vous pouvez exécuter un exemple de transcription
whisper
dans votre terminal (voir exemples) ou le télécharger manuellement et placer le fichier modèle dans le bon dossier.
Nous utilisons coqui-TTS
pour ALTS pour vous répondre. Il s'agit d'une bibliothèque pour la génération avancée de synthèse vocale.
Vous devrez installer eSpeak-ng
dans votre environnement :
Assurez-vous de consulter leurs documents de configuration pour toute autre exigence.
si vous n'avez pas déjà téléchargé le modèle configuré, il devrait être téléchargé automatiquement au démarrage. Toutefois, si vous rencontrez des problèmes, le modèle par défaut peut être pré-téléchargé en exécutant la commande suivante :
tts --text "this is a setup test" --out_path test_output.wav --model_name tts_models/en/vctk/vits --speaker_idx p364Le modèle par défaut propose plusieurs « haut-parleurs » ; l'exécution de la commande suivante servira un site de démonstration où vous pourrez tester les différentes voix disponibles :
tts-server --model_name tts_models/en/vctk/vits
macOS – brew install espeak
Linux – sudo apt-get install espeak -y
Windows – téléchargez l'exécutable depuis leur dépôt
sous Windows, vous aurez également besoin
Desktop development with C++
et.NET desktop build tools
. Téléchargez les outils de génération Microsoft C++ et installez ces dépendances.
cloner le dépôt
git clone https://github.com/alxpez/alts.git
allez dans le dossier principal
cd alts/
installer les dépendances du projet
pip install -r requirements.txt
consultez la section pré-requis, pour vous assurer que votre machine est prête à démarrer l'ALTS
dupliquez et renommez les fichiers de configuration nécessaires
cp config-template.yaml config.yaml
cp .env.template .env
modifiez la configuration par défaut selon vos besoins
démarrer ALTS
sudo python alts.py
le package
keyboard
doit être exécuté en tant qu'administrateur (sous macOS et Linux), ce n'est pas le cas sous Windows