Com o rápido desenvolvimento da tecnologia de IA, a linguagem não é mais uma barreira à comunicação. O mais recente avanço na tecnologia de interpretação simultânea de IA permite que todos se comuniquem perfeitamente em diferentes ambientes linguísticos, sem se preocupar com os inconvenientes causados pelas diferenças linguísticas. Essa tecnologia permite que qualquer pessoa comum “transporte” um intérprete simultâneo dedicado ao sair a qualquer momento. Então, à medida que a tecnologia amadurece, quais cenários de aplicação serão afetados primeiro e passarão a fazer parte do nosso dia a dia?
Hoje em dia, muitas pessoas não desconhecem mais o software de tradução de IA. A maioria desses softwares depende da tecnologia de tradução de texto e incorpora gradualmente funções de síntese de fala de IA para simular a experiência de interpretação simultânea. Por exemplo, produtos como iFlytek Simultaneous Interpretation, Youdao Translator e Tencent Translator são todos representantes desta área. O princípio de funcionamento deste tipo de software é geralmente primeiro identificar rapidamente a voz do locutor e convertê-la em texto, depois traduzir o texto por meio de poderosos algoritmos de processamento de linguagem natural e, finalmente, converter cada frase traduzida em fala, uma por uma, e reproduzi-la. para alcançar o efeito de “tradução em tempo real”.
No entanto, esta série de processos provocará inevitavelmente atrasos na tradução. Para reduzir atrasos, muitos softwares de tradução optam por abandonar a função de reprodução de voz e exibir apenas o texto traduzido. Este método pode traduzir a fala em tempo real e atualizá-la continuamente na forma de "legendas". Mesmo que os resultados da tradução sejam frequentemente ajustados e reiniciados devido a alterações na entrada, a experiência de leitura do usuário não será afetada. Ao cancelar a reprodução de voz, o conteúdo de tradução atualizado pode ser apresentado aos usuários de forma mais rápida e contínua, melhorando assim a experiência geral do usuário.
O modelo de interpretação simultânea de IA usa um princípio completamente diferente.
Graças ao progresso explosivo dos modelos de IA nos últimos anos, modelos de interpretação simultânea que buscam latência extremamente baixa e traduzem diretamente a fala em fala começarão a aparecer gradualmente em 2024. O objetivo deste tipo de modelo é traduzir direta ou indiretamente a fala em fala na língua-alvo. Entre eles, três modelos com excelente desempenho atraíram atenção especial e são as soluções mais próximas da interpretação simultânea em pessoa real: o streaming contínuo da Meta (anteriormente Facebook), o StreamSpeech do Instituto de Tecnologia da Computação da Academia Chinesa de Ciências e o da Zhifu. modelo de interpretação simultânea v3. Este tipo de modelo é diferente do software de tradução de IA tradicional. Ele tentará imitar o comportamento da tradução humana. Não traduzirá a fala do locutor imediatamente, mas "ouvirá" enquanto avalia se o conteúdo da fala atual é adequado para ser completo e completo. tradução. Você precisa ouvir mais para traduzir.
Meta tem influência significativa no campo da IA, especialmente em contribuições de código aberto e pesquisa de tecnologia de ponta. Seu departamento de pesquisa de IA, Meta AI, fez avanços importantes em vários campos de inteligência artificial. LLaMA (Large Language Model), como seu modelo de código aberto, tem sido amplamente utilizado na comunidade de pesquisa de IA e sua estrutura de código aberto PyTorch se tornou um; pesquisa global de IA e ferramentas convencionais em aplicativos. Seu modelo de interpretação simultânea Seamless-Streaming também é de código aberto desta vez, permitindo que qualquer pessoa acesse seus princípios básicos. De acordo com artigos relevantes por ela publicados, o Seamless-Streaming opta por usar a estratégia "EMMA" para determinar se o tradutor deve traduzir imediatamente o. conteúdo ouvido. Ainda esperando por mais informações. No uso de teste, o modelo Seamless-Streaming obteve uma tradução precisa com um atraso de cerca de 3 segundos. Simplificando, o conteúdo traduzido fica cerca de 3 segundos atrás do discurso original. Comparado com o atraso de 15 segundos do software de tradução de IA tradicional "interpretação simultânea", ele alcançou uma otimização inovadora e realmente atingiu o nível de atraso de interpretação simultânea em pessoa real. No entanto, infelizmente, a precisão ainda é insuficiente em comparação com a IA tradicional. tradução. Principalmente no teste de tradução de idiomas complexos como o chinês, existem problemas como mal-entendidos e incapacidade de compreender o “subtexto”.
Como a mais alta instituição acadêmica e centro de pesquisa científica abrangente na China, a Academia Chinesa de Ciências também abriu o código-fonte de suas pesquisas no modelo StreamSpeech. De acordo com o artigo publicado, StreamSpeech utiliza principalmente o método de verificação de “Alinhamentos” para determinar se o tradutor está esperando ou não. O que é chocante é que o atraso de tradução deste modelo de tradução atinge surpreendentes 0,3 segundos. Vale ressaltar que isso é equivalente ao tempo médio de reação humana. Essa velocidade de tradução excedeu em muito o nível que pessoas reais podem atingir. Para intérpretes simultâneos reais, o tempo desde o locutor que fala a palavra até ouvi-la e compreendê-la no cérebro é superior a 0,3 segundos. Infelizmente, na atual parte de código aberto do modelo, o modelo oferece suporte apenas à tradução inglês-francês, inglês-espanhol e inglês-alemão e atualmente não oferece suporte ao chinês. E no teste do modelo de baixa latência, a suavidade da tradução foi um tanto insatisfatória, e o conteúdo traduzido parecia mais uma "tradução automática palavra por palavra" do que uma tradução suave do significado da frase. Esse problema ocorre mais porque o atraso é muito baixo, fazendo com que a máquina de tradução seja “forçada” a traduzir algumas frases inacabadas.
Ao contrário da Meta e da Academia Chinesa de Ciências, a Cicada Future é uma pequena equipe chinesa de P&D localizada em Londres. A equipe está atualmente em processo de financiamento e ainda não abriu o código-fonte de seu modelo. As informações públicas sobre esse modelo possuem apenas uma janela de experiência de teste e um resumo do artigo; De acordo com o resumo do seu artigo público, em comparação com os dois modelos anteriores, a inovação do modelo de interpretação simultânea v3 da Zhifu é que ele transfere diretamente a função de “esperar por mais informações” para o modelo de tradução. Atualmente, dois modelos estão sendo testados internamente: o minimodelo tem baixa latência como objetivo principal. De acordo com testes internos, seu atraso de tradução é em média de 1 a 3 segundos. Quando o locutor fala claramente, a precisão da tradução excede em muito os dois modelos acima. . O modelo grande é caracterizado pela alta precisão. O atraso médio da tradução é de 2 a 5 segundos. A precisão e a fluência da tradução atingem ou até excedem o nível de pessoas reais. dialetos e memes populares. O problema é que o número de vagas para testes internos desse modelo é atualmente limitado, e o teste é tão popular que muitas vezes há filas para usá-lo. Sua função de tradução de páginas da web ainda está longe de ser um comercial; produto e atualmente é mais parecido com uma página da web de "exibição de modelo".
Resumindo, o avanço tecnológico da interpretação simultânea por IA trouxe mais possibilidades potenciais para a realidade. Já estamos longe da cena do filme "The Wandering Earth", onde "duas pessoas falando línguas diferentes podem se comunicar normalmente depois de se vestirem". fones de ouvido" Está se aproximando rapidamente, visível a olho nu. Atualmente, software como a Interpretação Simultânea Zhifu, que está mais próximo desse cenário, ainda não iniciou o lançamento de nenhum produto; em qual cenário será usado primeiro? o mercado. Uma pergunta.
Antes de pensar sobre esse problema, vamos dar uma olhada nas principais funções que a interpretação simultânea implementará: usar a voz do locutor como entrada em tempo real e simular a voz traduzida para simular o tom do locutor como saída em tempo real. Então dada essa função, pensamos em alguns exemplos muito bons para compartilhar com vocês aqui, na esperança de inspirar a todos:
1. Anúncio do comissário de bordo
Em voos internacionais, os comissários de bordo geralmente são obrigados a falar dois ou até vários idiomas. Além de melhor atender os passageiros, o que é mais importante é a transmissão de informações de viagem e outras informações durante o voo, como "instruções de entrada, informações de transferência de voo" e outros conteúdos que precisam ser compreendidos pelos passageiros de diferentes países, por isso precisam falar línguas diferentes ao mesmo tempo. O multilinguismo é, de facto, um grande desafio para os comissários de bordo e a expressão oral pouco clara causará problemas aos passageiros. A interpretação simultânea por IA pode ajudar nesse momento. Ela exige apenas que o comissário fale um idioma, e a IA é responsável por transmitir seu conteúdo aos ouvidos dos passageiros com o mesmo tom, para que passageiros de todos. em todo o mundo podem ouvi-lo no avião. Ouça com clareza e torne sua viagem mais segura.
2. Educação on-line
À medida que a globalização da educação online acelera, cada vez mais plataformas e instituições educativas esperam atrair estudantes de todo o mundo. No entanto, as diferenças linguísticas tornam-se frequentemente obstáculos à obtenção de recursos educativos de elevada qualidade pelos estudantes. Especialmente os estudantes cuja língua materna é uma língua minoritária, quando aprendem cursos de línguas não nativas, não só é difícil de compreender, como também afecta a sua capacidade de aprendizagem em disciplinas essenciais como matemática e física. Como resultado, muitos estudantes talentosos são enterrados. . A tecnologia de interpretação simultânea de IA pode simplesmente quebrar essa barreira e fornecer serviços de tradução em tempo real para professores, de modo que, independentemente do idioma que o professor use para ensinar, os alunos possam obter o conteúdo traduzido simultaneamente, para que não fiquem mais limitados pelo idioma em um ambiente educacional globalizado.
A tecnologia de interpretação simultânea de IA pode fornecer serviços de tradução precisos e em tempo real para essas ocasiões, evitando atrasos e mal-entendidos na transmissão de informações, promovendo assim uma comunicação e cooperação internacional mais eficiente. Além disso, que outros cenários de utilização possíveis existem no futuro? Talvez o próximo ponto de avanço esteja escondido num detalhe da nossa vida quotidiana. À medida que a tecnologia continua a melhorar, a interpretação simultânea de IA entrará gradualmente em mais cenários de aplicação diária e se tornará uma parte indispensável da comunicação global futura.