genai phone call
1.0.0
生成式人工智能正在生成一系列有趣的新模型供我们开发人员研究。您知道可以通过电话使用这些吗?
Twilio 为您提供了一种名为“媒体流”的超能力,它为您提供了与电话通话双方的 Websocket 连接。您可以获取流式传输的音频、对其进行处理,然后将音频发回。
该存储库作为 WIP 演示,但正在探索使用 Deepgram 进行语音转文本的两个模型以及使用非常有趣的 11labs 进行文本转语音的模型。
注册 Deepgram 和 ElevenLabs
使用 ngrok 之类的东西来建立隧道,然后公开端口3000
ngrok http 3000
将.env.example
复制到.env
并更新密钥
将SERVER
设置为您的隧道 URL
安装必要的软件包
npm install
启动网络服务器
node server.js
使用控制台或 CLI 连接您的 Twilio 号码
twilio phone-numbers:update +18889876 --voice-url=https://your-server.ngrok.io/incoming
有一个 Stream TwiML 动词可以将流连接到您的 websocket 服务器。