OpenAI akan meluncurkan mode suara versi Alpha yang sangat dinantikan untuk pelanggan ChatGPT Plus. Fitur ini didasarkan pada model andalannya GPT-4o dan secara signifikan meningkatkan pengalaman interaksi suara. Model GPT-4o dapat memproses input audio dengan kecepatan yang mendekati kecepatan reaksi manusia, dan menggabungkan pelatihan end-to-end dari tiga modalitas: teks, visi, dan audio, yang menunjukkan terobosan terbaru OpenAI di bidang AI multi-modal. Sebelumnya, peluncuran fitur ini sempat tertunda karena kebutuhan untuk meningkatkan moderasi konten model dan pembangunan infrastruktur. Pembaruan ini tidak hanya akan menyelesaikan masalah penundaan yang berlebihan pada mode suara ChatGPT yang ada, tetapi juga akan memberikan pengalaman percakapan suara yang lebih lancar dan alami kepada pengguna.
Ketika model andalan OpenAI GPT-4o (o singkatan dari omni) dirilis pada bulan Mei, kemampuan pemahaman audionya menarik banyak perhatian. Model GPT-4o mampu merespons input audio rata-rata 320 milidetik, serupa dengan waktu reaksi manusia dalam percakapan pada umumnya.
OpenAI juga mengumumkan bahwa fitur mode suara ChatGPT akan memanfaatkan kemampuan audio model GPT-4o untuk memberikan pengalaman percakapan suara yang lancar kepada pengguna. Mengenai kemampuan bicara GPT-4o, tim OpenAI menulis:
Dengan GPT-4o, kami melatih model baru yang melatih tiga modalitas teks, visi, dan audio secara menyeluruh, yaitu semua masukan dan jumlah diproses oleh jaringan saraf yang sama. Karena GPT-4o adalah model pertama kami yang menggabungkan semua modalitas ini, kami masih menggali potensi dan keterbatasan model kami hanya di permukaan.
Pada bulan Juni, OpenAI mengumumkan rencana untuk meluncurkan mode istilah lanjutan dalam alfa ke sekelompok kecil pengguna ChatGPT Plus di kemudian hari, namun rencana tersebut tertunda selama satu bulan karena kebutuhan untuk meningkatkan kemampuan model dalam mendeteksi dan menolak konten tertentu. . Selain itu, OpenAI sedang mempersiapkan infrastrukturnya untuk menjangkau jutaan pengguna sambil mempertahankan daya tanggap real-time.
Sekarang, CEO OpenAI Sam Altman mengonfirmasi melalui X bahwa mode suara versi Alpha akan diluncurkan ke pelanggan ChatGPT Plus mulai minggu depan.
Mode suara ChatGPT saat ini tidak intuitif untuk digunakan karena penundaan rata-rata 2,8 detik (GPT3.5) dan 5,4 detik (GPT-4). Mode suara lanjutan yang akan datang berdasarkan GPT-4o akan memungkinkan pelanggan ChatGPT melakukan percakapan dengan lancar tanpa jeda.
Selain itu, OpenAI hari ini juga merilis SearchGPT yang sangat dinantikan, yang merupakan upaya baru mereka dalam pengalaman penelusuran web. Saat ini masih berupa prototipe, SearchGPT menyediakan kemampuan pencarian kecerdasan buatan yang dapat dengan cepat memberikan jawaban akurat dari sumber yang jelas dan relevan. Anda dapat mempelajari lebih lanjut di sini.
Secara keseluruhan, rangkaian pembaruan OpenAI menunjukkan kemampuannya untuk terus berinovasi di bidang kecerdasan buatan. Secara khusus, penerapan model GPT-4o akan meningkatkan pengalaman pengguna secara signifikan, dan peluncuran SearchGPT menandai arah baru bagi OpenAI. pengembangan mesin pencari di masa depan. Kami menantikan inovasi teknologi yang lebih mengejutkan yang dibawa oleh OpenAI di masa depan.