Entfernen Sie Hintergrundgeräusche. Open-Source-Sprachverarbeitungstechnologie ClearerVoice-Studio von Alibaba Tongyi Laboratory

Autor：Eve Cole Aktualisierungszeit：2024-12-18 13:32:01

Das Alibaba Damo Academy Tongyi Laboratory hat eine Sprachverarbeitungstechnologie namens ClearerVoice-Studio zur Verfügung gestellt, die darauf abzielt, die Sprachqualität und -verständlichkeit zu verbessern und durch Umgebungsgeräusche, Nachhall und Geräteempfang verursachte Probleme bei der Sprachverständlichkeit zu lösen. Diese Technologie integriert Funktionen wie Sprachverbesserung, Sprachtrennung sowie Audio- und Video-Sprecherextraktion und nutzt fortschrittliche komplexe Domänen-Deep-Learning-Algorithmen, um die Leistung der Sprachgeräuschunterdrückung und -trennung deutlich zu verbessern und die Sprachverständlichkeit weitestgehend beizubehalten Gleichzeitig werden Sprachverzerrungen minimiert. Zu seinen Kernmodellen gehören das FRCRN-Modell, das bei der IEEE/INTER Speech DNS Challenge 2022 den zweiten Platz insgesamt gewann, und die MossFormer-Modellreihe, die bei Sprachtrennungsaufgaben gute Leistungen erbrachte und Entwicklern und Forschern leistungsstarke Sprachverarbeitungswerkzeuge zur Verfügung stellte.

Das Tongyi-Labor der Alibaba Damo Academy gab kürzlich bekannt, dass es eine Sprachverarbeitungstechnologie namens ClearerVoice-Studio als Open Source veröffentlichen wird, die darauf abzielt, die Sprachqualität und -verständlichkeit zu verbessern. Mit der weit verbreiteten Anwendung der Sprachtechnologie hat die Sprachqualität immer mehr Aufmerksamkeit auf sich gezogen. Insbesondere angesichts von Umgebungsgeräuschen, Nachhall und Geräteempfang ist die Nachfrage nach Sprachverarbeitungstechnologie immer dringlicher geworden.

ClearerVoice-Studio integriert Funktionen wie Sprachverbesserung, Sprachtrennung sowie Audio- und Video-Sprecherextraktion. Durch die Integration komplexer Domänen-Deep-Learning-Algorithmen wird die Leistung der Sprachgeräuschreduzierung und -trennung erheblich verbessert. Durch diese Technologie werden Hintergrundgeräusche weitestgehend eliminiert, wodurch die Sprachverständlichkeit erhalten bleibt und Sprachverzerrungen auf ein Minimum reduziert werden.

阿里云、通义千问

Zu den Kernmodellen und Algorithmen von ClearerVoice-Studio gehören das FRCRN-Modell, das bei der IEEE/INTER Speech DNS Challenge 2022 den zweiten Platz insgesamt gewann, und die Modellreihe MossFormer, die bei Sprachtrennungsaufgaben gute Leistungen erbrachte. Das auf MossFormer2 basierende 48-kHz-Sprachverbesserungsmodell reduziert Sprachverzerrungen erheblich und unterdrückt gleichzeitig effektiv Geräusche.

Alibaba Tongyi Lab hofft, Entwicklern, Forschern und Unternehmen über die ClearerVoice-Studio-Plattform leistungsstarke Sprachverarbeitungstools zur Verfügung zu stellen, um bei der Implementierung innovativer Anwendungen zu helfen. Benutzer können die Demo online erleben, eine Sprachdatei mit Rauschen vorbereiten, sie auf eine bestimmte Seite hochladen, sie mit einem Klick verarbeiten und online anhören oder die Verarbeitungsergebnisse herunterladen und sofort eine klare Klangqualität und eine hervorragende Rauschunterdrückungswirkung erzielen.

GitHub-Repository: https://github.com/modelscope/ClearerVoice-Studio

Online-Erlebnis-Demo: https://huggingface.co/spaces/alibabasglab/ClearVoice

ClearerVoice-Studio bietet ein praktisches Online-Erlebnis und GitHub-Warehouse, um Benutzern einen schnellen Einstieg zu erleichtern. Die offene Quelle dieser Technologie wird den Fortschritt und die Anwendung der Sprachverarbeitungstechnologie fördern und Innovationen in weitere sprachbezogene Bereiche bringen. Wir freuen uns auf die weiteren Anwendungsszenarien der Zukunft.