Generative KI bringt eine Menge lustiger neuer Modelle hervor, die wir Entwickler ausprobieren können. Wussten Sie, dass Sie diese telefonisch nutzen können?
Twilio bietet Ihnen eine Superleistung namens Media Streams, die Ihnen eine Websocket-Verbindung zu beiden Seiten eines Telefongesprächs ermöglicht. Sie können sich Audiodaten per Streaming zusenden lassen, sie verarbeiten und anschließend zurücksenden.
Dieses Repo dient als WIP-Demo, untersucht jedoch zwei Modelle mit Deepgram für Speech to Text und den unglaublich unterhaltsamen Elevenlabs für Text to Speech.
Melden Sie sich bei Deepgram und ElevenLabs an
Verwenden Sie etwas wie ngrok, um einen Tunnel zu erstellen und dann Port 3000
freizugeben
ngrok http 3000
Kopieren Sie .env.example
nach .env
und aktualisieren Sie die Schlüssel
Stellen Sie SERVER
auf Ihre getunnelte URL ein
Installieren Sie die erforderlichen Pakete
npm install
Starten Sie den Webserver
node server.js
Verkabeln Sie Ihre Twilio-Nummer über die Konsole oder CLI
twilio phone-numbers:update +18889876 --voice-url=https://your-server.ngrok.io/incoming
Es gibt ein Stream-TwiML-Verb, das einen Stream mit Ihrem Websocket-Server verbindet.