Dengan pesatnya perkembangan teknologi AI, bahasa tidak lagi menjadi penghalang dalam berkomunikasi. Terobosan terbaru dalam teknologi interpretasi simultan AI memungkinkan setiap orang berkomunikasi dengan lancar dalam lingkungan bahasa yang berbeda tanpa khawatir akan ketidaknyamanan yang disebabkan oleh perbedaan bahasa. Teknologi ini memungkinkan setiap orang biasa untuk "membawa" penerjemah simultan khusus saat bepergian kapan saja. Jadi, seiring dengan semakin matangnya teknologi, skenario penerapan manakah yang akan terpengaruh terlebih dahulu dan menjadi bagian dari kehidupan kita sehari-hari?
Saat ini, banyak orang yang sudah tidak asing lagi dengan perangkat lunak terjemahan AI. Sebagian besar perangkat lunak ini mengandalkan teknologi terjemahan teks dan secara bertahap menggabungkan fungsi sintesis ucapan AI untuk mensimulasikan pengalaman interpretasi simultan. Misalnya, produk seperti iFlytek Simultaneous Interpretation, Youdao Translator, dan Tencent Translator semuanya mewakili bidang ini. Prinsip kerja perangkat lunak jenis ini umumnya adalah pertama-tama dengan cepat mengidentifikasi suara pembicara dan mengubahnya menjadi teks, kemudian menerjemahkan teks tersebut melalui algoritma pemrosesan bahasa alami yang kuat, dan terakhir mengubah setiap kalimat yang diterjemahkan menjadi ucapan satu per satu dan memutarnya. untuk mencapai efek “terjemahan waktu nyata”.
Namun rangkaian proses ini pasti akan menyebabkan penundaan penerjemahan. Untuk mengurangi penundaan, banyak perangkat lunak terjemahan memilih untuk mengabaikan fungsi pemutaran suara dan hanya menampilkan teks terjemahan. Cara ini dapat menerjemahkan ucapan secara real time dan terus memperbaruinya dalam bentuk "subtitle". Sekalipun hasil terjemahan sering disesuaikan dan dimulai ulang karena perubahan input, pengalaman membaca pengguna tidak akan terpengaruh. Dengan membatalkan pemutaran suara, konten terjemahan yang diperbarui dapat disajikan kepada pengguna dengan lebih cepat dan berkelanjutan, sehingga meningkatkan pengalaman pengguna secara keseluruhan.
Model interpretasi simultan AI menggunakan prinsip yang sama sekali berbeda.
Berkat kemajuan pesat model AI dalam beberapa tahun terakhir, model interpretasi simultan yang mengejar latensi sangat rendah dan langsung menerjemahkan ucapan ke dalam ucapan akan mulai bermunculan secara bertahap pada tahun 2024. Tujuan dari model jenis ini adalah untuk menerjemahkan ucapan menjadi ucapan dalam bahasa sasaran secara langsung atau tidak langsung. Diantaranya, tiga model dengan kinerja luar biasa telah menarik perhatian khusus dan merupakan solusi yang paling mendekati interpretasi simultan orang nyata: Streaming mulus Meta (sebelumnya Facebook), StreamSpeech oleh Institut Teknologi Komputasi, Akademi Ilmu Pengetahuan Tiongkok, dan Zhifu. interpretasi simultan model v3. Model jenis ini berbeda dengan perangkat lunak terjemahan AI tradisional. Model ini akan mencoba meniru perilaku terjemahan manusia. Model ini tidak akan langsung menerjemahkan ucapan pembicara, tetapi akan "mendengarkan" sambil menilai apakah konten ucapan saat ini cocok untuk lengkap dan lengkap. terjemahan. Apakah Anda perlu mendengar lebih banyak untuk menerjemahkan.
Meta memiliki pengaruh yang signifikan di bidang AI, terutama dalam kontribusi open source dan penelitian teknologi mutakhir. Departemen riset AI-nya, Meta AI, telah membuat terobosan penting di berbagai bidang kecerdasan buatan. LLaMA (Large Language Model), sebagai model sumber terbukanya, telah banyak digunakan dalam komunitas riset AI; dan kerangka kerja sumber terbukanya, PyTorch, telah menjadi penelitian AI global dan alat-alat Mainstream dalam aplikasi. Model interpretasi simultan Seamless-Streaming kali ini juga bersifat open source, memungkinkan siapa pun mengakses prinsip intinya. Menurut makalah relevan yang diterbitkan olehnya, Seamless-Streaming memilih untuk menggunakan strategi "EMMA" untuk menentukan apakah penerjemah harus segera menerjemahkannya. konten terdengar. Masih menunggu masukan lebih lanjut. Dalam pengujian penggunaan, model Streaming Tanpa Batas mencapai terjemahan yang akurat dengan penundaan sekitar 3 detik. Sederhananya, konten yang diterjemahkan tertinggal sekitar 3 detik dari ucapan aslinya. Dibandingkan dengan penundaan 15 detik pada perangkat lunak terjemahan AI tradisional "interpretasi simultan", perangkat lunak ini telah mencapai optimalisasi terobosan dan benar-benar telah mencapai tingkat penundaan interpretasi simultan orang nyata. Namun, sayangnya, keakuratannya masih kurang dibandingkan dengan AI tradisional terjemahan. Khususnya pada tes penerjemahan bahasa yang kompleks seperti Cina, terdapat permasalahan seperti kesalahpahaman dan ketidakmampuan memahami “subteksnya”.
Sebagai institusi akademik tertinggi dan pusat penelitian ilmiah komprehensif di Tiongkok, Chinese Academy of Sciences juga telah melakukan open source penelitiannya pada model StreamSpeech. Menurut makalah yang diterbitkannya, StreamSpeech terutama menggunakan metode pemeriksaan "Alignments" untuk menentukan apakah penerjemah sedang menunggu atau tidak. Yang mengejutkan adalah penundaan terjemahan model terjemahan ini mencapai 0,3 detik yang mencengangkan. Perlu disebutkan bahwa ini bahkan setara dengan waktu reaksi rata-rata manusia. Kecepatan penerjemahan ini jauh melebihi tingkat yang dapat dicapai oleh orang sungguhan, bagi penerjemah simultan yang sebenarnya, waktu dari pembicara mengucapkan kata hingga mendengar dan memahaminya di otak lebih dari 0,3 detik. Sayangnya, pada bagian model open source saat ini, model tersebut hanya mendukung terjemahan Inggris-Prancis, Inggris-Spanyol, dan Inggris-Jerman, dan saat ini tidak mendukung bahasa Mandarin. Dan dalam pengujian model latensi rendah, kelancaran terjemahan agak kurang memuaskan, dan konten terjemahan lebih seperti "terjemahan mesin kata demi kata" daripada terjemahan makna kalimat yang mulus. Masalah ini lebih banyak terjadi karena penundaan yang terlalu rendah sehingga menyebabkan mesin penerjemah “dipaksa” untuk menerjemahkan beberapa kalimat yang belum selesai.
Berbeda dengan Meta dan Chinese Academy of Sciences, Cicada Future adalah tim penelitian dan pengembangan kecil asal Tiongkok yang berlokasi di London. Tim saat ini sedang dalam proses pendanaan dan belum membuka sumber modelnya; informasi publik tentang model ini hanya memiliki jendela pengalaman pengujian dan abstrak makalah. Menurut abstrak makalah publiknya, dibandingkan dengan dua model sebelumnya, inovasi model interpretasi simultan v3 Zhifu adalah ia secara langsung menyerahkan fungsi “apakah akan menunggu masukan lebih lanjut” ke model terjemahan. Saat ini sedang menguji dua model secara internal: model mini memiliki latensi rendah sebagai tujuan utamanya. Menurut pengujian internal, penundaan terjemahan rata-rata 1-3 detik ketika pembicara berbicara dengan jelas, akurasi terjemahan jauh melebihi dua model di atas . Model besar dicirikan oleh akurasi yang tinggi. Penundaan terjemahan rata-rata adalah 2-5 detik. Keakuratan dan kelancaran terjemahan mencapai atau bahkan melebihi tingkat orang sungguhan. dialek dan meme populer. Masalahnya adalah jumlah tempat untuk pengujian internal model ini saat ini terbatas, dan pengujian ini sangat populer sehingga sering kali ada antrian untuk menggunakannya; fungsi terjemahan halaman webnya masih jauh dari komersial produk, dan saat ini lebih mirip halaman web "tampilan model".
Singkatnya, terobosan teknologi interpretasi simultan AI telah membawa lebih banyak potensi menjadi kenyataan. Kita sudah jauh dari adegan dalam film "The Wandering Earth" di mana "dua orang yang berbicara dalam bahasa berbeda dapat berkomunikasi secara normal setelah memakainya." headphone" Itu mendekat dengan cepat, terlihat dengan mata telanjang. Saat ini, perangkat lunak seperti Zhifu Simultaneous Interpretation, yang paling mendekati skenario ini, belum memulai peluncuran produk apa pun; dalam skenario manakah perangkat lunak tersebut akan digunakan terlebih dahulu? pasar. Sebuah pertanyaan.
Sebelum memikirkan masalah ini, mari kita lihat kembali fungsi inti yang akan diterapkan oleh interpretasi simultan: menggunakan suara pembicara sebagai masukan waktu nyata, dan mensimulasikan suara yang diterjemahkan untuk mensimulasikan nada pembicara sebagai keluaran waktu nyata. Jadi dengan adanya fungsi ini, kami memikirkan beberapa contoh yang sangat bagus untuk dibagikan kepada Anda di sini, dengan harapan dapat menginspirasi semua orang:
1. Pengumuman pramugari
Pada penerbangan internasional, pramugari biasanya diharuskan menguasai dua atau bahkan beberapa bahasa. Selain melayani penumpang dengan lebih baik, yang lebih penting adalah siaran perjalanan dan informasi lain selama penerbangan, seperti "instruksi masuk, informasi transfer penerbangan" dan konten lain yang perlu dipahami oleh penumpang dari berbagai negara, sehingga memerlukannya. untuk berbicara bahasa yang berbeda secara bersamaan. Multilingualisme memang menjadi tantangan besar bagi pramugari, dan ekspresi lisan yang tidak jelas akan menimbulkan kesulitan bagi penumpang. Interpretasi simultan AI mungkin dapat membantu saat ini. Ini hanya mengharuskan pramugari dapat berbicara suatu bahasa, dan AI bertanggung jawab untuk mengirimkan kontennya ke telinga penumpang dengan nada yang sama, sehingga penumpang dari semua orang dapat melakukannya. di seluruh dunia dapat mendengarkannya di pesawat. Dengarkan dengan jelas dan buat perjalanan Anda lebih aman.
2. Pendidikan daring
Seiring dengan semakin cepatnya globalisasi pendidikan online, semakin banyak platform dan institusi pendidikan yang berharap dapat menarik siswa dari seluruh dunia. Namun perbedaan bahasa seringkali menjadi kendala bagi siswa untuk memperoleh sumber pendidikan yang berkualitas. Khususnya siswa yang bahasa ibunya merupakan bahasa minoritas, ketika mempelajari mata kuliah bahasa non-pribumi tidak hanya sulit untuk dipahami, tetapi juga mempengaruhi kemampuan belajarnya pada mata pelajaran inti seperti matematika dan fisika. Akibatnya, banyak siswa berbakat yang tertimbun . Teknologi interpretasi simultan AI dapat mendobrak hambatan tersebut dan menyediakan layanan terjemahan real-time bagi dosen, sehingga bahasa apa pun yang digunakan dosen untuk mengajar, mahasiswa dapat memperoleh konten terjemahan secara bersamaan, sehingga tidak lagi dibatasi oleh bahasa dalam satu waktu. lingkungan pendidikan yang mengglobal.
Teknologi interpretasi simultan AI dapat menyediakan layanan terjemahan secara real-time dan akurat untuk acara-acara ini, menghindari penundaan dan kesalahpahaman dalam transmisi informasi, sehingga mendorong komunikasi dan kerja sama internasional yang lebih efisien. Selain itu, skenario penggunaan apa lagi yang mungkin ada di masa depan? Mungkin titik terobosan berikutnya tersembunyi secara detail dalam kehidupan kita sehari-hari. Seiring dengan kemajuan teknologi, interpretasi simultan AI secara bertahap akan memasuki lebih banyak skenario aplikasi sehari-hari dan menjadi bagian tak terpisahkan dari komunikasi global di masa depan.