Openai baru-baru ini mengumumkan pembaruan penting untuk API real-time, meluncurkan lima opsi suara baru dan mengurangi biaya caching, yang bertujuan untuk memberikan solusi aplikasi suara ke suara yang lebih terjangkau kepada pengembang.
Hari ini, Openai mengumumkan pembaruan untuk API real-time, yang masih dalam beta. Sorotan dari pembaruan ini adalah peluncuran lima opsi suara baru, yang dirancang untuk aplikasi suara-ke-suara, sementara juga mengurangi biaya cache terkait, membuat pengembang lebih terjangkau saat menggunakannya.
Dari lima suara baru yang dirilis, Openai menunjukkan tiga suara baru ini dalam sebuah artikel tentang X, Ash, ayat dan balada yang terdengar di Inggris. Tidak hanya suara ini lebih jelas dan dapat disesuaikan, mereka juga memberikan pengalaman komunikasi yang lebih alami. OpenAi disebutkan dalam dokumentasi API bahwa fitur suara-ke-suara asli ini menghilangkan pemrosesan pemformatan teks menengah, memungkinkan latensi rendah dan output yang lebih halus.
Namun, Openai juga mengingatkan pengguna bahwa karena API real-time masih dalam fase pengujian, sementara tidak dapat memberikan otentikasi klien. Selain itu, pemrosesan audio real-time dapat dipengaruhi oleh kondisi jaringan, yang juga menimbulkan tantangan dalam transmisi audio skala besar. Openai menunjukkan bahwa memastikan transmisi audio yang andal memang merupakan tugas yang sulit ketika kondisi jaringan tidak stabil.
Sejarah pengembangan Openai dalam teknologi suara juga kontroversial. Pada bulan Maret, mereka meluncurkan The Voice Engine, platform kloning suara, yang berusaha bersaing dengan sebelas lab, tetapi hanya terbuka untuk beberapa peneliti. Dengan demonstrasi mode GPT-4O dan suara, Openai berhenti menggunakan penggunaan suara yang disebut "Sky" pada bulan Mei, karena aktris Hollywood Scarlett Johnson menyatakan ketidakpuasan dengan itu, percaya itu terlalu mirip dengan suaranya.
Pada bulan September, OpenAI meluncurkan mode suara canggih ChatGPT untuk pelanggan berbayar, yang dapat digunakan oleh pengguna seperti ChatGPT Plus, Enterprise, Teams dan EDU. Melalui teknologi suara-ke-suara ini, perusahaan dapat menghasilkan respons waktu nyata lebih cepat, sangat meningkatkan efisiensi layanan pelanggan.
Mengurangi biaya lebih dari 50%Mengenai harga API real-time, Openai dihargai $ 0,06 dalam rilis sebelumnya pada $ 0,06 dalam input audio menit dan $ 0,24 dalam output audio, yang relatif tinggi untuk pengembang. Namun, setelah pembaruan ini, biaya menggunakan input teks yang di -cache akan berkurang sebesar 50%, sedangkan biaya input audio yang di -cache akan mencapai 80%.
OpenAI mengumumkan fitur baru "caching prompt" di Developer Day, yang dapat menyimpan permintaan konteks dari permintaan yang sering dalam memori model, sehingga mengurangi jumlah token yang diperlukan untuk menghasilkan respons. Dengan menurunkan harga input, Openai berharap dapat menarik lebih banyak pengembang untuk menggunakan API -nya.
Selain itu, perusahaan lain seperti Anthropic telah meluncurkan fitur caching serupa untuk meningkatkan daya tarik teknologi suara mereka.
Poin -Poin Kunci:
Lima suara alami baru ditambahkan untuk meningkatkan pengalaman aplikasi suara
API real-time mengurangi biaya input melalui cache, membuat pengembang lebih hemat biaya
Pemrosesan audio real-time dipengaruhi oleh kondisi jaringan, dan keandalan perlu diperhatikan
Pembaruan OpenAI ini tidak hanya meningkatkan pengalaman aplikasi teknologi suara, tetapi juga menarik lebih banyak pengembang dengan mengurangi biaya, lebih lanjut mempromosikan mempopulerkan dan pengembangan teknologi suara.