Dies ist ein KI-Sprachassistent, der auf großen Sprachmodellen basiert. Ein Benutzer kann mit dem Sprachassistenten in natürlicher Sprache, derzeit Englisch, interagieren.
Die Implementierung führt verschiedene Deep-Learning-Modelle zusammen:
Das Sprachmodul ist mit dem lokalen Mikrofon verbunden, um über einen VAD-Prozess eine Live-Transkription zu erstellen. Eine Transkription wird zur Verarbeitung basierend auf Aktivierungswörtern an das ausgewählte LLM gesendet.
Sobald das LLM eine Antwort generiert, speichert das Sprachmodul auch die Audiodatei und generiert mithilfe eines TTS-Modells eine Sprachausgabe.
Die Benutzeroberfläche wurde mit Streamlit erstellt und bietet ein vertrautes Chat-ähnliches Erlebnis.
Projektabhängigkeiten installieren
pip install -r requirements
Wenn Sie GPT-Modelle verwenden, erstellen Sie eine .env
Datei mit Umgebungsvariablen für OPENAI_API_KEY
und OPENAI_API_BASE
.