A IA generativa está produzindo um monte de novos modelos divertidos para nós, desenvolvedores, testarmos. Você sabia que pode usá-los por telefone?
Twilio oferece um superpoder chamado Media Streams, que fornece uma conexão Websocket para ambos os lados de uma chamada telefônica. Você pode transmitir o áudio para você, processá-lo e enviar o áudio de volta.
Este repositório serve como demonstração WIP, mas explora dois modelos usando Deepgram para Speech to Text e os incrivelmente divertidos onzelabs para Text to Speech.
Inscreva-se no Deepgram e ElevenLabs
Use algo como ngrok para encapsular e expor a porta 3000
ngrok http 3000
Copie .env.example
para .env
e atualize as chaves
Defina SERVER
como seu URL encapsulado
Instale os pacotes necessários
npm install
Inicie o servidor web
node server.js
Conecte seu número Twilio usando o console ou CLI
twilio phone-numbers:update +18889876 --voice-url=https://your-server.ngrok.io/incoming
Existe um verbo Stream TwiML que conectará um stream ao seu servidor websocket.