AI 기술의 급속한 발전으로 언어는 더 이상 의사소통의 장벽이 아닙니다. AI 동시통역 기술의 획기적인 발전으로 언어 차이로 인한 불편함을 걱정하지 않고 다양한 언어 환경에서도 누구나 원활하게 소통할 수 있습니다. 이 기술을 통해 일반 사람들은 언제든지 외출 시 전용 동시통역사를 '휴대'할 수 있습니다. 그렇다면 기술이 성숙해짐에 따라 어떤 애플리케이션 시나리오가 먼저 영향을 받고 일상 생활의 일부가 될까요?
오늘날 많은 사람들은 더 이상 AI 번역 소프트웨어에 익숙하지 않습니다. 이러한 소프트웨어의 대부분은 텍스트 번역 기술에 의존하며 점차적으로 AI 음성 합성 기능을 통합하여 동시 통역 경험을 시뮬레이션합니다. 예를 들어 iFlytek Simultaneous Interpretation, Youdao Translator 및 Tencent Translator와 같은 제품은 모두 이 분야를 대표합니다. 이러한 유형의 소프트웨어의 작동 원리는 일반적으로 화자의 음성을 신속하게 식별하여 텍스트로 변환한 다음 강력한 자연어 처리 알고리즘을 통해 텍스트를 번역하고 마지막으로 번역된 각 문장을 하나씩 음성으로 변환하여 재생하는 것입니다. "실시간 번역"의 효과를 달성하기 위해.
그러나 이러한 일련의 과정을 거치다 보면 필연적으로 번역 지연이 발생하게 됩니다. 지연을 줄이기 위해 많은 번역 소프트웨어는 음성 재생 기능을 포기하고 번역된 텍스트만 표시하도록 선택합니다. 이 방법을 사용하면 음성을 실시간으로 번역하고 '자막' 형태로 지속적으로 업데이트할 수 있습니다. 입력 변경으로 인해 번역 결과가 자주 조정되고 다시 시작되더라도 사용자의 독서 경험에는 영향을 미치지 않습니다. 음성 재생을 취소하면 업데이트된 번역 콘텐츠가 더 빠르고 지속적으로 사용자에게 제공될 수 있으므로 전반적인 사용자 경험이 향상됩니다.
AI 동시통역 모델은 전혀 다른 원리를 사용한다.
최근 몇 년 동안 AI 모델의 폭발적인 발전에 힘입어 극도로 짧은 지연 시간을 추구하고 음성을 직접 음성으로 번역하는 동시통역 모델이 2024년부터 점차 등장하기 시작할 것입니다. 이 유형의 모델의 목적은 음성을 대상 언어의 음성으로 직간접적으로 번역하는 것입니다. 그 중 뛰어난 성능을 발휘한 3가지 모델이 특히 주목을 받아 실명 동시통역에 가장 가까운 솔루션인 Meta(구 Facebook)의 Seamless-Streaming, Institute of Computing Technology, Chinese Academy of Sciences, Zhifu의 StreamSpeech 등이 있습니다. 동시통역 v3 모델 . 이러한 유형의 모델은 기존 AI 번역 소프트웨어와 다르며, 화자의 음성을 즉시 번역하지 않고 현재 음성 내용이 완전하고 완전한지에 적합한지 판단하면서 '듣습니다'. 번역하려면 더 들어야 하나요?
메타는 AI 분야, 특히 오픈소스 기여와 첨단 기술 연구 분야에서 상당한 영향력을 갖고 있다. AI 연구 부서인 Meta AI는 여러 인공 지능 분야에서 중요한 발전을 이루었습니다. LLaMA(Large Language Model)는 오픈 소스 모델로 AI 연구 커뮤니티에서 널리 사용되었으며 오픈 소스 프레임워크인 PyTorch는 글로벌 AI 연구 및 애플리케이션의 주류 도구. 동시통역 모델인 Seamless-Streaming도 이번에 오픈 소스로 공개되어 누구나 핵심 원리에 접근할 수 있습니다. 관련 논문에 따르면 Seamless-Streaming은 번역가가 즉시 번역해야 하는지 여부를 결정하기 위해 "EMMA" 전략을 사용하기로 결정했습니다. 아직 더 많은 의견을 기다리고 있습니다. 테스트 사용에서 Seamless-Streaming 모델은 약 3초의 지연으로 정확한 번역을 달성했습니다. 간단히 말해서 번역된 콘텐츠는 원본 음성보다 약 3초 정도 지연됩니다. 기존 AI 번역 소프트웨어 '동시통역'의 15초 지연과 비교하면 획기적인 최적화를 달성해 그야말로 실제 동시통역 지연 수준에 도달했지만, 아쉽게도 기존 AI에 비해 정확도는 여전히 부족하다. 번역. 특히 중국어 등 복잡한 언어의 번역 시험에서는 '서브 텍스트'를 오해하거나 이해하지 못하는 등의 문제가 있다.
중국 최고의 학문 기관이자 종합 과학 연구 센터인 중국과학원(China Academy of Sciences)도 StreamSpeech 모델에 대한 연구를 오픈 소스로 공개했습니다. 출판된 논문에 따르면 StreamSpeech는 번역자가 기다리고 있는지 여부를 확인하기 위해 주로 "정렬"을 확인하는 방법을 사용합니다. 놀라운 점은 이 번역 모델의 번역 지연이 무려 0.3초에 달한다는 점입니다. 이는 심지어 인간의 평균 반응 시간과 맞먹는다는 점도 언급할 가치가 있습니다. 이 번역 속도는 실제 동시통역사의 경우 화자가 단어를 말하고 뇌에서 듣고 이해하는 데 걸리는 시간이 0.3초 이상이다. 안타깝게도 모델의 현재 오픈 소스 부분에서는 모델이 영어-프랑스어, 영어-스페인어, 영어-독일어 번역만 지원하고 현재 중국어는 지원하지 않습니다. 그리고 저지연 모델의 테스트에서는 번역의 매끄러움이 다소 불만족스러웠고, 번역된 내용이 문장의 의미를 매끄럽게 번역하기보다는 '단어 대 단어 기계 번역'에 가까웠습니다. 이 문제는 지연이 너무 낮아서 번역 기계가 일부 미완성 문장을 번역하도록 "강제"되기 때문에 더 많이 발생합니다.
Meta 및 중국과학원과 달리 Cicada Future는 런던에 위치한 소규모 중국 R&D 팀입니다. 팀은 현재 자금 조달 과정에 있으며 아직 모델을 오픈 소스화하지 않았습니다. 이 모델에 대한 공개 정보에는 테스트 경험 창과 논문 요약만 있습니다. 공개 논문 초록에 따르면 이전 두 모델과 비교하여 Zhifu 동시통역 v3 모델의 혁신은 "추가 입력을 기다릴지 여부" 기능을 번역 모델에 직접 넘겨준다는 것입니다. 현재 내부적으로 두 가지 모델을 테스트하고 있습니다. 미니 모델은 기본 목표로 대기 시간이 짧습니다. 내부 테스트에 따르면 화자가 명확하게 말할 때 번역 정확도는 평균 1~3초입니다. . 대형 모델은 평균 번역 지연이 2~5초로 높은 것이 특징입니다. 번역의 정확성과 유창함은 실제 사람의 수준에 도달하거나 심지어 초과합니다. 심지어 중국어와 영어 혼합 표현, 고대 시 등의 정확한 번역도 지원합니다. 방언과 인기있는 밈. 문제는 현재 이 모델의 내부 테스트를 위한 장소가 제한되어 있고 테스트가 너무 인기가 많아서 웹 페이지 번역 기능이 아직 상용화되려면 한참 멀었다는 것입니다. 제품이며 현재는 "모델 디스플레이" 웹페이지에 가깝습니다.
정리하자면, AI 동시통역이라는 기술적 혁신은 더 많은 가능성을 현실로 가져온 셈이다. “서로 다른 언어를 사용하는 두 사람이 옷을 걸치고 정상적으로 의사소통을 할 수 있는 영화 ‘유랑지구’의 장면과는 이미 거리가 멀다. 헤드폰" 그것은 육안으로 볼 수 있을 정도로 빠르게 다가오고 있습니다. 현재 이 시나리오에 가장 가까운 Zhifu 동시통역과 같은 소프트웨어는 아직 제품 출시를 시작하지 않았습니다. 어떤 시나리오에서 첫 번째 사용자가 될 것입니까? 시장.
이 문제에 대해 생각하기 전에 동시통역이 구현할 핵심 기능인 화자의 음성을 실시간 입력으로 사용하고, 번역된 음성을 시뮬레이션하여 화자의 톤을 실시간 출력으로 시뮬레이션하는 기능을 다시 살펴보겠습니다. 따라서 이 기능을 고려하여 모든 사람에게 영감을 주기 위해 여기에서 여러분과 공유할 수 있는 몇 가지 아주 좋은 예를 생각했습니다.
1. 승무원의 안내방송
국제선 항공편의 승무원은 일반적으로 2개 이상의 언어를 구사해야 합니다. 승객에게 더 나은 서비스를 제공하는 것 외에도 더 중요한 것은 "입국 지침, 항공편 환승 정보" 및 다른 국가의 승객이 이해해야 하는 기타 콘텐츠 등 비행 중 여행 및 기타 정보를 방송하는 것입니다. 동시에 다른 언어를 말하는 것. 다국어 구사 능력은 승무원들에게 있어서 정말 큰 도전이며, 불분명한 구두 표현은 승객들에게 문제를 일으킬 수 있습니다. 이때는 AI 동시통역이 도움이 될 수 있다. 승무원이 언어를 구사할 수 있으면 AI가 그 내용을 동일한 어조로 승객의 귀에 전달하는 역할을 담당한다. 전 세계 어디에서나 비행기에서 들을 수 있습니다. 명확하게 듣고 여행을 더욱 안전하게 만들어 보세요.
2. 온라인 교육
온라인 교육의 세계화가 가속화됨에 따라 점점 더 많은 교육 플랫폼과 기관이 전 세계에서 학생들을 유치하기를 희망하고 있습니다. 그러나 언어 차이는 학생들이 고품질의 교육 자원을 얻는 데 장애물이 되는 경우가 많습니다. 특히 모국어가 소수언어인 학생들은 비모국어 과목을 학습할 때 이해하기 어려울 뿐만 아니라 수학과 물리학 등 핵심교과목의 학습능력에도 영향을 미치기 때문에 우수한 학생들이 많이 묻혀 있다. . AI 동시통역 기술은 이러한 장벽을 허물고 강사에게 실시간 번역 서비스를 제공할 수 있습니다. 따라서 강사가 어떤 언어를 사용하여 가르치든 학생들은 번역된 콘텐츠를 동시에 얻을 수 있습니다. 글로벌화된 교육 환경 .
AI 동시통역 기술은 이러한 경우에 정확한 실시간 번역 서비스를 제공하여 정보 전송 시 지연과 오해를 방지하고 보다 효율적인 국제 커뮤니케이션과 협력을 촉진할 수 있습니다. 그 외에도 미래에는 또 어떤 사용 시나리오가 있을 수 있을까요? 아마도 다음 돌파구는 우리 일상생활의 세부사항에 숨겨져 있을 것입니다. 기술이 지속적으로 향상됨에 따라 AI 동시통역은 점차 더 많은 일상 응용 시나리오에 도입될 것이며 미래 글로벌 커뮤니케이션에서 없어서는 안 될 부분이 될 것입니다.