Dialog manusia-mesin yang lancar merupakan tujuan penting dalam bidang kecerdasan buatan. Namun, AI sering kali mengalami masalah dalam menilai "akhir putaran", sehingga menghasilkan pengalaman percakapan yang buruk. Pengguna sering kali mengalami gangguan atau keterlambatan respons AI, yang sangat memengaruhi efisiensi dan kealamian interaksi manusia-komputer. Metode deteksi aktivitas suara (VAD) tradisional terlalu sederhana, mudah terpengaruh oleh kebisingan lingkungan dan jeda pengguna, serta tidak dapat menentukan akhir percakapan secara akurat.
Dalam dunia dialog manusia-mesin, hal yang paling menyusahkan adalah - "Apakah Anda sudah selesai berbicara?" Kalimat ini mungkin tampak sederhana, tetapi ini telah menjadi rintangan yang tidak dapat diatasi oleh banyak asisten suara dan robot layanan pelanggan. Apakah Anda sering menghadapi situasi ini: Anda hanya berhenti sejenak untuk memikirkan apa yang harus Anda katakan selanjutnya, tetapi AI tidak sabar untuk merespons; atau Anda jelas-jelas sudah selesai berbicara, tetapi AI masih menunggu bodohnya, sampai Anda tidak bisa menahan diri untuk tidak mengatakan "Saya sudah selesai" dan dia tidak bereaksi. Pengalaman ini sungguh gila.
Ini bukan karena AI sengaja membuat masalah, tapi karena ketika mereka menilai "End of Turn" (EOT), mereka seperti "orang buta" yang hanya bisa mendengar apakah ada suara, tapi tidak bisa mengetahuinya. apakah Anda memiliki suara atau tidak. Metode tradisional terutama mengandalkan deteksi aktivitas suara (VAD), yang seperti "saklar pengaktif suara". Ia hanya memperhatikan apakah ada sinyal suara, selama tidak ada suara, maka akan dinilai bahwa Anda telah selesai berbicara. Bisakah ini dibingungkan oleh jeda dan kebisingan latar belakang? Ini terlalu "Sederhana"!
Namun, baru-baru ini sebuah perusahaan bernama Livekit tidak tahan lagi dan memutuskan untuk memasang "otak" yang lebih cerdas pada AI. Mereka telah mengembangkan model deteksi giliran bicara yang akurat dan open source. Model ini seperti ahli "membaca pikiran" yang sebenarnya dan dapat secara akurat menentukan apakah Anda telah selesai berbicara. Ini bukan sekadar "saklar pengaktif suara", tetapi "asisten cerdas" yang dapat memahami maksud kata-kata Anda!
Hal hebat tentang model Livekit adalah model ini tidak hanya mengandalkan "apakah ada suara", tetapi menggabungkan model Transformer dengan Deteksi Aktivitas Suara (VAD) tradisional. Ini seperti melengkapi AI dengan “otak super” dan “telinga”. "Telinga Shunfeng" bertanggung jawab untuk memantau apakah ada suara, sedangkan "Otak Super" bertanggung jawab untuk menganalisis semantik suara tersebut untuk memahami apakah kata-kata Anda lengkap dan apakah ada makna yang belum selesai. Kombinasi kuat dari keduanya benar-benar dapat mencapai "deteksi akhir putaran" yang akurat.
Apa yang bisa dilakukan model ini? Hal ini memungkinkan mitra AI seperti asisten suara dan robot layanan pelanggan untuk menentukan secara lebih akurat apakah Anda sudah selesai berbicara sebelum mulai merespons Anda. Hal ini tentu akan sangat meningkatkan kelancaran dan kealamian dialog manusia-mesin. Saat mengobrol dengan AI di masa mendatang, Anda tidak perlu lagi khawatir akan "dicuri" atau "dipura-pura bodoh" olehnya!
Untuk membuktikan kekuatannya, Livekit juga menunjukkan hasil pengujiannya: model baru mereka dapat mengurangi "interupsi salah" AI sebesar 85%! Artinya, AI menjadi lebih alami dan tidak mudah salah menilai, dan percakapan manusia di telepon juga menjadi lebih alami lebih halus dan menyenangkan. Coba pikirkan, saat Anda menelepon layanan pelanggan di masa mendatang, Anda tidak akan lagi kecewa dengan balasan mekanis AI, tetapi bisa senyaman mengobrol dengan orang sungguhan. Pengalaman ini sungguh luar biasa!
Selain itu, model ini sangat cocok untuk skenario yang memerlukan dialog manusia-mesin, seperti layanan pelanggan suara, robot tanya jawab yang cerdas, dll. Livekit juga dengan serius menampilkan video demonstrasi. Agen AI dalam video tersebut, setelah menerima pertanyaan pengguna, akan menunggu dengan sabar hingga pengguna menyelesaikan semua informasi sebelum memberikan jawaban yang sesuai. Ini seperti "orang intim" yang benar-benar memahami kebutuhan Anda. Dia tidak akan "memotong" sebelum Anda selesai berbicara, dan dia juga tidak akan tetap "tercengang" setelah Anda selesai berbicara.
Tentu saja model ini masih dalam tahap open source dan masih banyak ruang untuk perbaikan. Namun kami memiliki alasan untuk percaya bahwa dengan terus berkembangnya teknologi, percakapan manusia-mesin di masa depan akan menjadi lebih alami, lancar, dan cerdas. Mungkin suatu hari nanti, kita akan benar-benar lupa bahwa yang kita ajak bicara bukanlah mesin dingin, melainkan "mitra AI" yang sangat memahami Anda.
Alamat proyek: https://github.com/livekit/agents/tree/main/livekit-plugins/livekit-plugins-turn-detector
Model sumber terbuka Livekit memberikan ide-ide baru untuk memecahkan masalah "akhir giliran" dalam dialog manusia-komputer, menandai langkah menuju pengalaman interaksi manusia-komputer yang lebih alami dan lancar. Kami menantikan peningkatan lebih lanjut dan penerapan model ini di masa depan untuk memberikan pengalaman percakapan manusia-mesin yang lebih nyaman dan cerdas kepada pengguna.