Le laboratoire Tongyi de l'Alibaba Damo Academy a mis en open source une technologie de traitement de la parole appelée ClearerVoice-Studio, qui vise à améliorer la qualité et l'intelligibilité de la parole et à résoudre les problèmes d'intelligibilité de la parole causés par le bruit ambiant, la réverbération et la captation des équipements. Cette technologie intègre des fonctions telles que l'amélioration de la parole, la séparation de la parole et l'extraction des haut-parleurs audio et vidéo, et adopte des algorithmes avancés d'apprentissage en profondeur de domaines complexes pour améliorer considérablement les performances de réduction et de séparation du bruit de la parole, conserver la clarté de la parole dans la plus grande mesure, et au en même temps, la distorsion de la voix est minimisée. Ses modèles de base incluent le modèle FRCRN qui a remporté la deuxième place au concours IEEE/INTER Speech DNS Challenge 2022, et la série de modèles MossFormer qui ont bien performé dans les tâches de séparation de la parole, offrant aux développeurs et aux chercheurs de puissants outils de traitement de la parole.
Le laboratoire Tongyi de l'Alibaba Damo Academy a récemment annoncé qu'il ouvrirait une technologie de traitement de la parole appelée ClearerVoice-Studio, qui vise à améliorer la qualité et l'intelligibilité de la parole. Avec l'application généralisée de la technologie vocale, la qualité de la voix a attiré de plus en plus d'attention, notamment en présence de bruit ambiant, de réverbération et de captation d'équipement, la demande en technologie de traitement vocal est devenue de plus en plus urgente.
ClearerVoice-Studio intègre des fonctions telles que l'amélioration de la parole, la séparation de la parole et l'extraction des haut-parleurs audio et vidéo. En intégrant des algorithmes d'apprentissage en profondeur de domaines complexes, il améliore considérablement les performances de réduction et de séparation du bruit de la parole. Cette technologie élimine au maximum le bruit de fond, préservant l'intelligibilité de la parole tout en minimisant la distorsion de la parole.
Les modèles et algorithmes de base de ClearerVoice-Studio incluent le modèle FRCRN qui a remporté la deuxième place au concours IEEE/INTER Speech DNS Challenge 2022, et la série de modèles MossFormer qui ont bien performé dans les tâches de séparation de la parole. Le modèle d'amélioration de la parole à 48 kHz basé sur MossFormer2 réduit considérablement la distorsion de la parole tout en supprimant efficacement le bruit.
Alibaba Tongyi Lab espère fournir aux développeurs, aux chercheurs et aux entreprises de puissants outils de traitement vocal via la plateforme ClearerVoice-Studio pour aider à mettre en œuvre des applications innovantes. Les utilisateurs peuvent découvrir la démo en ligne, préparer un fichier vocal contenant du bruit, le télécharger sur une page désignée, le traiter en un seul clic et l'écouter en ligne ou télécharger les résultats du traitement, et obtenir instantanément une qualité sonore claire et un excellent effet de réduction du bruit.
Dépôt GitHub : https://github.com/modelscope/ClearerVoice-Studio
Démo d'expérience en ligne : https://huggingface.co/spaces/alibabasglab/ClearVoice
ClearerVoice-Studio offre une expérience en ligne pratique et un entrepôt GitHub pour permettre aux utilisateurs de démarrer rapidement. L'open source de cette technologie favorisera le progrès et l'application de la technologie de traitement de la parole et apportera l'innovation à des domaines davantage liés à la parole. Nous attendons avec impatience ses scénarios d’application plus larges à l’avenir.