L'IA générative produit un tas de nouveaux modèles amusants sur lesquels nous, les développeurs, pouvons nous appuyer. Saviez-vous que vous pouvez les utiliser par téléphone ?
Twilio vous offre un super pouvoir appelé Media Streams qui vous offre une connexion Websocket des deux côtés d'un appel téléphonique. Vous pouvez recevoir de l'audio en streaming, le traiter et renvoyer l'audio.
Ce référentiel sert de démo WIP mais explore deux modèles utilisant Deepgram pour Speech to Text et les onzelabs incroyablement amusants pour Text to Speech.
Inscrivez-vous à Deepgram et ElevenLabs
Utilisez quelque chose comme ngrok pour créer un tunnel, puis exposez le port 3000
ngrok http 3000
Copiez .env.example
vers .env
et mettez à jour les clés
Définissez SERVER
sur votre URL tunnelée
Installez les packages nécessaires
npm install
Démarrez le serveur Web
node server.js
Connectez votre numéro Twilio à l'aide de la console ou de la CLI
twilio phone-numbers:update +18889876 --voice-url=https://your-server.ngrok.io/incoming
Il existe un verbe Stream TwiML qui connectera un flux à votre serveur websocket.