El Laboratorio Tongyi de la Academia Alibaba Damo ha abierto una tecnología de procesamiento del habla llamada ClearerVoice-Studio, cuyo objetivo es mejorar la calidad y la inteligibilidad del habla y resolver los problemas de inteligibilidad del habla causados por el ruido ambiental, la reverberación y la captación de equipos. Esta tecnología integra funciones como mejora del habla, separación del habla y extracción del hablante de audio y video, y adopta algoritmos avanzados de aprendizaje profundo de dominio complejo para mejorar significativamente el rendimiento de la reducción y separación del ruido del habla, conservar la claridad del habla en la mayor medida posible y, al mismo tiempo, Al mismo tiempo se minimiza la distorsión de la voz. Sus modelos principales incluyen el modelo FRCRN que obtuvo el segundo lugar general en el IEEE/INTER Speech DNS Challenge 2022, y la serie de modelos MossFormer que tuvo un buen desempeño en tareas de separación de voz, brindando a los desarrolladores e investigadores poderosas herramientas de procesamiento de voz.
El Laboratorio Tongyi de la Academia Alibaba Damo anunció recientemente que abrirá una tecnología de procesamiento de voz llamada ClearerVoice-Studio, cuyo objetivo es mejorar la calidad y la inteligibilidad del habla. Con la aplicación generalizada de la tecnología de voz, la calidad de la voz ha atraído cada vez más atención, especialmente en presencia de ruido ambiental, reverberación y captación de equipos, la demanda de tecnología de procesamiento de voz se ha vuelto cada vez más urgente.
ClearerVoice-Studio integra funciones como mejora del habla, separación del habla y extracción de altavoces de audio y video. Al integrar algoritmos complejos de aprendizaje profundo de dominio, mejora en gran medida el rendimiento de la reducción y separación del ruido del habla. Esta tecnología elimina al máximo el ruido de fondo, preservando la inteligibilidad del habla y manteniendo la distorsión del habla al mínimo.
Los modelos y algoritmos principales de ClearerVoice-Studio incluyen el modelo FRCRN que obtuvo el segundo lugar general en el IEEE/INTER Speech DNS Challenge 2022, y la serie de modelos MossFormer que tuvo un buen desempeño en tareas de separación de voz. El modelo de mejora del habla de 48 kHz basado en MossFormer2 reduce significativamente la distorsión del habla y al mismo tiempo suprime eficazmente el ruido.
Alibaba Tongyi Lab espera proporcionar a los desarrolladores, investigadores y empresas potentes herramientas de procesamiento de voz a través de la plataforma ClearerVoice-Studio para ayudar a implementar aplicaciones innovadoras. Los usuarios pueden experimentar la demostración en línea, preparar un archivo de voz que contenga ruido, cargarlo en una página designada, procesarlo con un solo clic y escucharlo en línea o descargar los resultados del procesamiento, y obtener instantáneamente una calidad de sonido clara y un excelente efecto de reducción de ruido.
Repositorio de GitHub: https://github.com/modelscope/ClearerVoice-Studio
Demostración de experiencia en línea: https://huggingface.co/spaces/alibabasglab/ClearVoice
ClearerVoice-Studio proporciona una experiencia en línea conveniente y un almacén de GitHub para facilitar que los usuarios comiencen rápidamente. El código abierto de esta tecnología promoverá el progreso y la aplicación de la tecnología de procesamiento del habla y llevará la innovación a más campos relacionados con el habla. Esperamos conocer sus escenarios de aplicación más amplios en el futuro.