Generative AI กำลังสร้างโมเดลใหม่ๆ สนุกๆ มากมายให้นักพัฒนาของเราได้ลองใช้งาน คุณรู้ไหมว่าคุณสามารถใช้สิ่งเหล่านี้ทางโทรศัพท์ได้?
Twilio มอบพลังพิเศษที่เรียกว่า Media Streams ซึ่งให้การเชื่อมต่อ Websocket กับทั้งสองด้านของการโทร คุณสามารถสตรีมเสียง ประมวลผล และส่งเสียงกลับมาได้
repo นี้ทำหน้าที่เป็นการสาธิต WIP แต่กำลังสำรวจสองโมเดลโดยใช้ Deepgram สำหรับคำพูดเป็นข้อความ และ elevenlabs ที่สนุกสนานอย่างเหลือเชื่อสำหรับ Text to Speech
ลงทะเบียน Deepgram และ ElevenLabs
ใช้บางอย่างเช่น ngrok เพื่อสร้างช่องสัญญาณแล้วแสดงพอร์ต 3000
ngrok http 3000
คัดลอก .env.example
ไปยัง .env
และอัปเดตคีย์
ตั้งค่า SERVER
เป็น URL ช่องสัญญาณของคุณ
ติดตั้งแพ็คเกจที่จำเป็น
npm install
เริ่มเว็บเซิร์ฟเวอร์
node server.js
เชื่อมต่อหมายเลข Twilio ของคุณโดยใช้คอนโซลหรือ CLI
twilio phone-numbers:update +18889876 --voice-url=https://your-server.ngrok.io/incoming
มีกริยา Stream TwiML ที่จะเชื่อมต่อสตรีมกับเซิร์ฟเวอร์ websocket ของคุณ