Meta가 출시한 Seamless Communication 음성 번역 모델의 최신 시리즈는 음성 번역 분야의 획기적인 발전이라고 할 수 있습니다. 이 시리즈에는 약 2초의 지연 시간으로 약 100개 언어의 실시간 음성 번역을 지원하고 소스 음성의 톤, 속도 및 기타 세부 사항을 고도로 복원하여 번역 효과를 현실적이고 자연스럽게 만드는 4가지 모델이 포함되어 있습니다. . Meta의 움직임은 인공 지능 분야에서 선도적인 위치를 보여줄 뿐만 아니라 글로벌 커뮤니케이션에 전례 없는 편리함을 제공합니다.
Meta는 최근 약 2초의 지연 제어로 거의 100개 언어 간의 실시간 음성 번역을 지원하는 4개 모델을 포함하는 새로운 음성 번역 모델인 Seamless Communication 시리즈를 출시했습니다. 이 모델은 소스 음성의 일시정지, 톤, 말하기 속도와 같은 복잡한 기능을 재현하여 번역을 더욱 현실감 있게 만들어줍니다. 긴 시퀀스 번역을 지원하기 위해 자동 회귀가 아닌 아키텍처가 채택되었습니다. 또한, 메타는 모델과 최대 585,000시간의 음성 코퍼스를 오픈소스화했으며, 모델 남용을 방지하기 위해 오디오 워터마킹, 번역 독성 완화 등의 기능을 추가했습니다.
Meta의 오픈 소스 모델과 대규모 코퍼스는 음성 번역 기술의 발전을 크게 촉진하고 글로벌 정보 교환을 촉진하는 동시에 악용 방지 조치도 기술 적용에 대한 책임감을 반영합니다. 앞으로 더 많은 놀라움을 선사할 Seamless Communication 시리즈를 기대합니다.