Hume AI mengumumkan peluncuran fitur eksperimentalnya "Voice Control", sebuah fitur inovatif yang memungkinkan pengguna menyesuaikan suara AI yang dipersonalisasi dengan mudah tanpa pemrograman atau keahlian AI apa pun. Melalui penggeser virtual yang intuitif, pengguna dapat secara akurat menyesuaikan sepuluh dimensi karakteristik suara yang berbeda, seperti jenis kelamin, kepercayaan diri, antusiasme, dll., untuk menciptakan suara unik yang sesuai dengan berbagai skenario aplikasi. Fitur ini dikembangkan berdasarkan “Empathic Voice Interface 2” (EVI2) yang diluncurkan Hume sebelumnya, yang semakin meningkatkan kealamian, ekspresi emosional, dan kemampuan penyesuaian ucapan.
Hume AI, sebuah startup yang berfokus pada antarmuka suara yang cerdas secara emosional, baru-baru ini meluncurkan fitur eksperimental yang disebut "kontrol suara".
Alat baru ini dirancang untuk membantu pengembang dan pengguna membuat suara AI yang dipersonalisasi tanpa keterampilan pengkodean, rekayasa cepat AI, atau desain suara apa pun. Pengguna dapat dengan mudah menyesuaikan suara sesuai kebutuhannya dengan menyesuaikan karakteristik suara secara tepat.
Fitur baru ini merupakan pengembangan dari Empathic Voice Interface 2 (EVI2) yang diluncurkan sebelumnya, yang meningkatkan kealamian, respons emosional, dan kemampuan penyesuaian ucapan. Tidak seperti teknologi kloning suara tradisional, produk Hume berfokus pada penyampaian suara yang unik dan ekspresif untuk memenuhi kebutuhan berbagai aplikasi termasuk chatbot layanan pelanggan, asisten digital, guru, pemandu wisata, dan fitur aksesibilitas.
Kontrol suara memungkinkan pengembang menyesuaikan karakteristik suara dalam sepuluh dimensi berbeda, termasuk gender, ketegasan, kegembiraan, kepercayaan diri, dan banyak lagi.
“Pria/Wanita: Vokalisasi gender yang berkisar antara lebih maskulin dan lebih feminin.
Percaya diri: Ketegasan suara, antara rasa takut dan berani.
Daya apung: Kepadatan suara, berkisar antara deflasi dan daya apung.
Percaya diri: Derajat kepastian suara, antara rasa malu dan percaya diri.
Antusiasme: Kegembiraan dalam suara, antara ketenangan dan antusiasme.
Hidung: Keterbukaan suara, berkisar antara jernih dan sengau.
Relaksasi: Tekanan pada suara, antara ketegangan dan relaksasi.
Kehalusan: Tekstur suara, antara halus dan staccato.
Kelembutan: Energi di balik suara, antara lembut dan kuat.
Sesak: Seberapa terkendali suaranya, berkisar antara sesak dan sesak. "
Pengguna dapat menyempurnakan properti ini secara real time melalui penggeser virtual, menjadikan penyesuaian menjadi sederhana dan mudah. Fitur ini saat ini tersedia di platform virtual Hume, dan pengguna dapat mengaksesnya hanya dengan mendaftar secara gratis.
Kontrol suara saat ini tersedia dalam versi beta dan terintegrasi dengan Empathic Voice Interface (EVI) Hume, sehingga tersedia untuk berbagai aplikasi. Pengembang dapat memilih suara dasar, menyesuaikan karakteristiknya, dan melihat pratinjau hasilnya secara real time. Proses ini memastikan pengulangan dan stabilitas dari sesi ke sesi, yang merupakan fitur utama aplikasi real-time seperti bot layanan pelanggan atau asisten virtual.
Dampak EVI2 terlihat jelas pada fungsi kontrol suara. Model awal memperkenalkan fitur seperti perintah percakapan dan kemampuan multibahasa yang memperluas cakupan aplikasi AI suara. Misalnya, EVI2 mendukung waktu respons sub-detik untuk percakapan instan dan natural. Hal ini juga memungkinkan gaya berbicara disesuaikan secara dinamis selama interaksi, menjadikannya alat serbaguna untuk bisnis.
Langkah ini justru untuk mengatasi masalah ketergantungan pada suara preset di industri AI. Banyak merek atau aplikasi yang sering kesulitan menemukan suara yang sesuai dengan kebutuhannya. Tujuan Hume adalah mengembangkan AI suara yang sensitif secara emosional dan mendorong kemajuan industri. Ketika EVI2 dirilis pada September 2024, EVI2 sudah meningkatkan latensi dan efektivitas biaya suara secara signifikan serta memberikan alternatif yang aman untuk fungsi penyesuaian suara.
Pendekatan Hume yang didorong oleh penelitian adalah inti dari pengembangan produk, yang menggabungkan rekaman suara lintas budaya dan data survei emosional. Metodologi ini menjadi dasar EVI2 dan kontrol suara yang baru diluncurkan, sehingga memungkinkannya menangkap persepsi manusia terhadap suara dengan sangat detail.
Saat ini, kontrol suara telah diluncurkan dalam versi beta dan dikombinasikan dengan Empathic Voice Interface (EVI) Hume untuk mendukung berbagai skenario aplikasi. Pengembang dapat memilih suara dasar, menyesuaikan karakteristiknya, dan melihat pratinjau hasilnya secara real time, memastikan konsistensi dan stabilitas dalam aplikasi real-time seperti layanan pelanggan atau asisten virtual.
Ketika persaingan di pasar semakin ketat, posisi suara dan kecerdasan emosional Hume yang dipersonalisasi membuatnya menonjol di bidang AI suara. Ke depannya, Hume berencana memperluas fungsi kontrol suara, menambahkan dimensi yang dapat disesuaikan, mengoptimalkan kualitas suara, dan memperbanyak pilihan suara dasar.
Blog resmi: https://www.hume.ai/blog/introducing-voice-control
Highlight:
? **Hume AI telah meluncurkan fungsi "kontrol suara", yang memungkinkan pengguna dengan mudah membuat suara AI yang dipersonalisasi. **
?️ **Fitur ini tidak memerlukan keahlian pengkodean, dan pengguna dapat menyesuaikan karakteristik suara melalui penggeser. **
? **Hume dirancang untuk memenuhi beragam kebutuhan aplikasi melalui AI suara yang dipersonalisasi dan cerdas secara emosional. **
Secara keseluruhan, fungsi "kontrol suara" Hume AI menghadirkan kemudahan yang belum pernah ada sebelumnya dalam penyesuaian suara AI. Fitur personalisasi dan kecerdasan emosionalnya akan sangat memperluas penerapan suara AI di berbagai bidang .