Генеративный ИИ создает множество интересных новых моделей, которые мы, разработчики, можем изучить. Знаете ли вы, что ими можно пользоваться по телефону?
Twilio предоставляет вам супервозможность под названием Media Streams, которая обеспечивает соединение через Websocket с обеих сторон телефонного звонка. Вы можете получить потоковое аудио, обработать его и отправить обратно.
Этот репозиторий служит демонстрацией незавершенного проекта, но в нем исследуются две модели с использованием Deepgram для преобразования речи в текст и невероятно забавных одиннадцати тестов для преобразования текста в речь.
Зарегистрируйтесь в Deepgram и ElevenLabs.
Используйте что-то вроде ngrok для туннелирования, а затем откройте порт 3000
ngrok http 3000
Скопируйте .env.example
в .env
и обновите ключи.
Установите SERVER
на ваш туннелированный URL-адрес.
Установите необходимые пакеты
npm install
Запустить веб-сервер
node server.js
Подключите свой номер Twilio с помощью консоли или интерфейса командной строки.
twilio phone-numbers:update +18889876 --voice-url=https://your-server.ngrok.io/incoming
Существует команда Stream TwiML, которая подключит поток к вашему веб-серверу.