Laboratorium Tongyi Alibaba Damo Academy memiliki teknologi pemrosesan ucapan bersumber terbuka yang disebut ClearerVoice-Studio, yang bertujuan untuk meningkatkan kualitas dan kejelasan ucapan serta memecahkan tantangan kejelasan ucapan yang disebabkan oleh kebisingan lingkungan, gema, dan pengambilan peralatan. Teknologi ini mengintegrasikan fungsi-fungsi seperti peningkatan ucapan, pemisahan ucapan, dan ekstraksi speaker audio dan video, dan mengadopsi algoritme pembelajaran mendalam domain kompleks yang canggih untuk secara signifikan meningkatkan kinerja pengurangan dan pemisahan kebisingan ucapan, menjaga kejernihan ucapan semaksimal mungkin, dan pada tingkat yang lebih tinggi. pada saat yang sama, distorsi suara diminimalkan. Model intinya mencakup model FRCRN yang memenangkan posisi kedua secara keseluruhan dalam IEEE/INTER Speech DNS Challenge 2022, dan rangkaian model MossFormer yang berkinerja baik dalam tugas pemisahan ucapan, memberikan pengembang dan peneliti alat pemrosesan ucapan yang canggih.
Laboratorium Tongyi milik Alibaba Damo Academy baru-baru ini mengumumkan bahwa mereka akan membuka teknologi pemrosesan ucapan yang disebut ClearerVoice-Studio, yang bertujuan untuk meningkatkan kualitas dan kejelasan ucapan. Dengan meluasnya penerapan teknologi suara, kualitas suara semakin menarik perhatian. Apalagi dengan adanya kebisingan lingkungan, gaung, dan pengambilan peralatan, permintaan akan teknologi pemrosesan suara menjadi semakin mendesak.
ClearerVoice-Studio mengintegrasikan fungsi-fungsi seperti peningkatan ucapan, pemisahan ucapan, dan ekstraksi speaker audio dan video. Dengan mengintegrasikan algoritme pembelajaran mendalam domain yang kompleks, ini sangat meningkatkan kinerja pengurangan dan pemisahan kebisingan ucapan. Teknologi ini menghilangkan kebisingan latar belakang secara maksimal, menjaga kejelasan ucapan sekaligus meminimalkan distorsi ucapan.
Model dan algoritme inti ClearerVoice-Studio mencakup model FRCRN yang memenangkan posisi kedua secara keseluruhan dalam IEEE/INTER Speech DNS Challenge 2022, dan rangkaian model MossFormer yang berkinerja baik dalam tugas pemisahan ucapan. Model peningkatan ucapan 48kHz berdasarkan MossFormer2 secara signifikan mengurangi distorsi ucapan sekaligus menekan kebisingan secara efektif.
Alibaba Tongyi Lab berharap dapat menyediakan alat pemrosesan suara yang canggih bagi pengembang, peneliti, dan perusahaan melalui platform ClearerVoice-Studio untuk membantu mengimplementasikan aplikasi inovatif. Pengguna dapat mencoba demo secara online, menyiapkan file ucapan yang berisi kebisingan, mengunggahnya ke halaman yang ditentukan, memprosesnya dengan satu klik dan mendengarkan secara online atau mengunduh hasil pemrosesan, dan langsung memperoleh kualitas suara yang jernih dan efek pengurangan kebisingan yang luar biasa.
Repositori GitHub: https://github.com/modelscope/ClearerVoice-Studio
Demo pengalaman online: https://huggingface.co/spaces/alibabasglab/ClearVoice
ClearerVoice-Studio memberikan pengalaman online yang nyaman dan gudang GitHub untuk memfasilitasi pengguna memulai dengan cepat. Sumber terbuka dari teknologi ini akan mendorong kemajuan dan penerapan teknologi pemrosesan ucapan dan membawa inovasi ke lebih banyak bidang yang berhubungan dengan ucapan. Kami menantikan skenario penerapannya yang lebih luas di masa depan.