( hört zu | denkt nach | s Spitzen)
100 % kostenloser lokaler und Offline-Assistent mit Spracherkennungs- und Rücksprechfunktionen.
ALTS läuft im Hintergrund und wartet darauf, dass Sie cmd+esc
(oder win+esc
) drücken.
Während Sie den Hotkey gedrückt halten, wird Ihre Stimme aufgezeichnet (speichert im Projektstammverzeichnis) .
Bei der Freigabe wird die Aufnahme gestoppt und ein Transkript an das LLM gesendet (die Aufnahme wird gelöscht) .
Die LLM-Antworten werden dann synthetisiert und Ihnen vorgespielt (auch als Desktop-Benachrichtigungen angezeigt) .
Sie können die Hotkey-Kombination und andere Einstellungen in Ihrer config.yaml
ändern.
ALLE Prozesse sind lokal und KEINE Ihrer Aufzeichnungen oder Abfragen verlässt Ihre Umgebung; die Aufnahmen werden gelöscht, sobald sie verwendet werden; Standardmäßig ist ALLES PRIVAT
(getestet auf) Version >=3.11 unter macOS und Version >=3.8 unter Windows
Standardmäßig ist das Projekt für die Zusammenarbeit mit Ollama konfiguriert und führt das stablelm2
-Modell aus (ein sehr kleines und schnelles Modell). Durch dieses Setup kann das gesamte System völlig kostenlos lokal ausgeführt werden und eignet sich hervorragend für Maschinen mit geringen Ressourcen.
Allerdings verwenden wir LiteLLM, um anbieterunabhängig zu sein, sodass Sie die volle Freiheit haben, Ihre eigenen Kombinationen auszuwählen. Weitere Informationen zur LLM-Konfiguration finden Sie unter den unterstützten Modellen/Anbietern.
Informationen zum Anpassen Ihres Setups finden Sie unter
.env.template
undconfig-template.yaml
Wir nutzen openAI's whisper
um Ihre Sprachanfragen zu transkribieren. Es handelt sich um ein Allzweck-Spracherkennungsmodell.
In Ihrer Umgebung muss ffmepg
installiert sein. Sie können es von der offiziellen Website herunterladen.
Sehen Sie sich bei weiteren Anforderungen unbedingt die Setup-Dokumente an.
Wenn Sie auf Fehler stoßen, könnte ein Grund dafür sein, dass das Modell nicht automatisch heruntergeladen wird. Wenn das der Fall ist, können Sie eine
whisper
-Beispieltranskription in Ihrem Terminal ausführen (siehe Beispiele) oder sie manuell herunterladen und die Modelldatei im richtigen Ordner ablegen
Wir verwenden coqui-TTS
für ALTS, um mit Ihnen zu kommunizieren. Es handelt sich um eine Bibliothek für die erweiterte Text-to-Speech-Generierung.
Sie müssen eSpeak-ng
in Ihrer Umgebung installieren:
Sehen Sie sich bei weiteren Anforderungen unbedingt die Setup-Dokumente an.
Wenn Sie das konfigurierte Modell noch nicht heruntergeladen haben, sollte es beim Start automatisch heruntergeladen werden. Wenn jedoch Probleme auftreten, können Sie das Standardmodell vorab herunterladen, indem Sie Folgendes ausführen:
tts --text "this is a setup test" --out_path test_output.wav --model_name tts_models/en/vctk/vits --speaker_idx p364Das Standardmodell verfügt über mehrere „Lautsprecher“ zur Auswahl; Wenn Sie den folgenden Befehl ausführen, wird eine Demo-Site aufgerufen, auf der Sie die verschiedenen verfügbaren Stimmen testen können:
tts-server --model_name tts_models/en/vctk/vits
macOS – brew install espeak
Linux – sudo apt-get install espeak -y
Windows – Laden Sie die ausführbare Datei von ihrem Repo herunter
Unter Windows benötigen Sie außerdem
Desktop development with C++
und.NET desktop build tools
. Laden Sie die Microsoft C++ Build Tools herunter und installieren Sie diese Abhängigkeiten.
Klonen Sie das Repo
git clone https://github.com/alxpez/alts.git
Gehen Sie zum Hauptordner
cd alts/
Installieren Sie die Projektabhängigkeiten
pip install -r requirements.txt
Sehen Sie sich den Abschnitt „Voraussetzungen“ an, um sicherzustellen, dass Ihr Computer für den Start von ALTS bereit ist
Duplizieren und benennen Sie die benötigten Konfigurationsdateien um
cp config-template.yaml config.yaml
cp .env.template .env
Ändern Sie die Standardkonfiguration entsprechend Ihren Anforderungen
Starten Sie ALTS
sudo python alts.py
Das
keyboard
muss als Administrator ausgeführt werden (unter macOS und Linux), unter Windows ist dies nicht der Fall