genai phone call
1.0.0
生成式人工智慧正在產生一系列有趣的新模型供我們開發人員研究。您知道可以透過電話使用這些嗎?
Twilio 為您提供了一種名為「媒體串流」的超能力,它為您提供了與電話通話雙方的 Websocket 連線。您可以取得串流的音訊、對其進行處理,然後將音訊發回。
該儲存庫作為 WIP 演示,但正在探索使用 Deepgram 進行語音轉文字的兩個模型以及使用非常有趣的 11labs 進行文字轉語音的模型。
註冊 Deepgram 和 ElevenLabs
使用 ngrok 之類的東西來建立隧道,然後公開端口3000
ngrok http 3000
將.env.example
複製到.env
並更新金鑰
將SERVER
設定為您的隧道 URL
安裝必要的軟體包
npm install
啟動網路伺服器
node server.js
使用控制台或 CLI 連接您的 Twilio 號碼
twilio phone-numbers:update +18889876 --voice-url=https://your-server.ngrok.io/incoming
有一個 Stream TwiML 動詞可以將流連接到您的 websocket 伺服器。