La dernière série de modèles de traduction vocale Seamless Communication publiée par Meta peut être qualifiée de percée majeure dans le domaine de la traduction vocale. Cette série comprend quatre modèles prenant en charge la traduction vocale en temps réel dans près d'une centaine de langues, avec un délai d'environ 2 secondes seulement, et peuvent restaurer fortement le ton, la vitesse et d'autres détails de la parole source, rendant l'effet de traduction réaliste et naturel. . La décision de Meta démontre non seulement sa position de leader dans le domaine de l'intelligence artificielle, mais apporte également une commodité sans précédent à la communication mondiale.
Meta a récemment publié la série Seamless Communication, un nouveau modèle de traduction vocale, comprenant 4 modèles prenant en charge la traduction vocale en temps réel entre près de 100 langues, avec un contrôle de délai d'environ 2 secondes. Le modèle peut reproduire des caractéristiques complexes telles que les pauses, le ton et la vitesse de parole du discours source, rendant ainsi la traduction plus réaliste. Une architecture non autorégressive est adoptée pour prendre en charge la traduction de séquences longues. De plus, Meta a mis en open source le modèle et le plus grand corpus vocal de 585 000 heures, et a ajouté des fonctions telles que le filigrane audio et l'atténuation de la toxicité de la traduction pour éviter les abus du modèle.
Le modèle open source et le corpus massif de Meta favoriseront grandement le développement de la technologie de traduction vocale et favoriseront l'échange mondial d'informations. Dans le même temps, ses mesures anti-abus reflètent également le sens des responsabilités dans l'application de la technologie. Nous attendons avec impatience la série Seamless Communication qui apportera d’autres surprises à l’avenir.