Editor Downcodes mengetahui bahwa startup AI Amerika, terkecil.ai, telah meluncurkan model text-to-speech (TTS) baru, Lightning. Kecepatannya luar biasa: hanya membutuhkan 100 milidetik untuk menghasilkan audio hingga 10 detik! Hal ini menandai lompatan besar dalam teknologi TTS, yang akan sangat mengurangi biaya pengembangan dan penerapan robot suara, meningkatkan aksesibilitas, dan membawa kabar baik bagi pengembang di seluruh dunia. Lightning mendukung banyak aksen dalam bahasa Inggris dan Hindi, dan akan mendukung lebih banyak bahasa di masa mendatang, serta menawarkan harga yang sangat kompetitif: hanya $0,02 per menit.
Baru-baru ini, terkecil.ai, sebuah startup AI yang berkantor pusat di San Francisco, California, meluncurkan produk barunya Lightning, model text-to-speech (TTS) yang dapat menghasilkan audio hingga 10 detik dalam 100 milidetik. Kemajuan teknologi ini memungkinkan pengembang di seluruh dunia untuk membangun aplikasi robot suara yang sangat realistis dengan latensi yang sangat pendek, sehingga mengurangi biaya implementasi dan meningkatkan aksesibilitas aplikasi.
Lightning saat ini mendukung banyak aksen dalam bahasa Inggris dan Hindi, dan tim berencana untuk segera menambahkan lebih banyak bahasa untuk memenuhi permintaan pasar. Model ini dihargai hanya US$0,02 (sekitar INR 1,6) per menit, memberikan solusi yang sangat hemat biaya kepada pengembang bot suara, dengan biaya pengoperasian aplikasi yang dikendalikan kurang dari INR 1 per menit robot suara sambil memperluas aksesibilitas pasar.
Berbeda dengan model TTS tradisional yang mengandalkan media streaming dan soket jaringan, yang meningkatkan beban server dan mempersulit skalabilitas, Lightning menggunakan desain REST API sederhana untuk mengirimkan audio dalam waktu sekitar 100 milidetik, menghindari masalah yang disebabkan oleh tekanan Server streaming yang berkelanjutan. Kekuatan pemrosesan yang cepat dan efisiensi biaya menjadikannya alternatif yang signifikan dalam industri robot suara.
Fitur produk Lightning dapat diringkas sebagai berikut:
1. Kecepatan dan efisiensi. Dikenal sebagai text-to-speech tercepat di dunia, model Lightning menghasilkan 10 detik audio ultra-realistis dalam 100 milidetik, mencapai sintesis ucapan real-time untuk memenuhi kebutuhan respons cepat.
2. Kekompakan dan kompatibilitas. Membutuhkan memori video kurang dari 1GB, model ini kecil dan dapat dengan mudah dijalankan di sebagian besar perangkat konsumen dan edge, sehingga mengurangi kebutuhan perangkat keras.
3. Dukungan multi-bahasa. Dukungan multi-bahasa dan aksen, saat ini mendukung banyak aksen dalam bahasa Inggris dan Hindi, dan berencana untuk segera menambahkan lebih banyak bahasa untuk memenuhi kebutuhan pengguna global.
4. Sangat dapat disesuaikan. Style diffuser menggunakan diffuser gaya khusus untuk menyesuaikan gaya audio sesuai kebutuhan pengguna, menjadikan ucapan yang dihasilkan lebih alami dan emosional.
5. Integrasi yang mudah. Integrasi REST API menyediakan antarmuka REST API yang sederhana, memungkinkan pengembang dengan cepat mengintegrasikan model Lightning ke dalam sistem yang ada, sehingga menghilangkan kebutuhan akan koneksi WebSocket yang rumit.
6. Harga bersahabat, mulai dari US$0,04 per menit, cocok untuk semua jenis perusahaan, dan paket harga yang disesuaikan disediakan untuk perusahaan dengan volume penggunaan besar.
terkecil.ai didirikan oleh alumni IIT Guwahati Sudarshan Kamath dan Akshat Mandloi. Kamath mengatakan strategi harga rendah terkecil.ai didorong oleh fokus mereka pada kualitas data dan efisiensi model. “Model kami jauh lebih kecil dibandingkan pesaing seperti ElevenLabs, namun kami mencapai keluaran ucapan berkualitas tinggi melalui data yang sangat disempurnakan,” jelasnya.
Pengembang bot suara yang memperoleh akses awal ke Lightning melaporkan pengurangan biaya pengoperasian sebesar 8x sekaligus meningkatkan kualitas audio. Selain aplikasi bot suara real-time, Lightning juga dapat digunakan untuk membuat sulih suara untuk buku audio dan konten media sosial di platform seperti Instagram dan YouTube. Non-pengembang juga dapat mengakses Lightning melalui platform Waves Speech dan merasakan fitur-fitur seperti kloning suara dan konversi aksen, yang saat ini masih dalam versi beta.
Dalam interaksi eksklusif dengan Majalah Analytical India, Kamath mengatakan: "Ketika kami mulai membangun, kami menyadari bahwa model yang diperlukan untuk bot suara belum cukup matang untuk bahasa India. Model yang ada untuk bahasa non-Inggris tidak cukup untuk kebutuhan produksi."
Pada bulan Juni tahun ini, terkecil.ai juga meluncurkan model AWAAZ yang mendukung kloning suara melalui klip audio pendek dengan harga yang kompetitif. Model ini dirancang untuk memenuhi aplikasi yang skalabel di pasar bahasa regional dan memberikan keamanan dan kepatuhan tingkat perusahaan. Ketika ditanya tentang misinya, Kamath berkata: "Mengapa satu miliar orang tidak berkomunikasi dengan suara AI setiap hari, meskipun ada kemajuan besar dalam teknologi AI suara? Ini adalah pertanyaan yang ingin kami pecahkan."
Pintu masuk proyek: https://smallest.ai/blog/lightning-fast-text-to-speech
Kemunculan model Lightning tidak diragukan lagi menjadi tolok ukur baru bagi teknologi sintesis ucapan. Efisiensi tinggi, biaya rendah, dan integrasi yang mudah akan mendorong popularitas dan inovasi aplikasi robot suara serta membawa peluang baru bagi lebih banyak pengembang dan perusahaan. Editor Downcodes berharap Lightning akan mendukung lebih banyak bahasa dan fungsi di masa depan, menghadirkan pengalaman suara yang lebih nyaman dan lebih baik bagi pengguna di seluruh dunia.