La IA generativa está produciendo un montón de modelos nuevos y divertidos para que los desarrolladores podamos probarlos. ¿Sabías que puedes usarlos por teléfono?
Twilio te brinda un superpoder llamado Media Streams que te brinda una conexión Websocket a ambos lados de una llamada telefónica. Puede recibir audio en streaming, procesarlo y enviarlo de vuelta.
Este repositorio sirve como demostración de WIP, pero explora dos modelos que utilizan Deepgram para Speech to Text y los increíblemente divertidos elevenlabs para Text to Speech.
Regístrate en Deepgram y ElevenLabs
Utilice algo como ngrok para hacer un túnel y luego exponer el puerto 3000
ngrok http 3000
Copie .env.example
a .env
y actualice las claves
Configure SERVER
en su URL tunelizada
Instalar los paquetes necesarios
npm install
Iniciar el servidor web
node server.js
Conecte su número de Twilio usando la consola o CLI
twilio phone-numbers:update +18889876 --voice-url=https://your-server.ngrok.io/incoming
Hay un verbo Stream TwiML que conectará una transmisión a su servidor websocket.