Благодаря быстрому развитию технологий искусственного интеллекта язык больше не является препятствием для общения. Последний прорыв в технологии синхронного перевода с использованием искусственного интеллекта позволяет каждому беспрепятственно общаться в разных языковых средах, не беспокоясь о неудобствах, вызванных языковыми различиями. Эта технология позволяет каждому обычному человеку «носить» с собой выделенного синхронного переводчика, выходя на улицу в любое время. Итак, по мере развития технологии, какие сценарии приложений будут затронуты в первую очередь и станут частью нашей повседневной жизни?
В настоящее время многие люди уже знакомы с программным обеспечением для перевода с использованием искусственного интеллекта. Большинство этих программ основаны на технологии перевода текста и постепенно включают функции синтеза речи искусственного интеллекта для имитации синхронного перевода. Например, такие продукты, как синхронный перевод iFlytek, переводчик Youdao и переводчик Tencent, являются представителями этой области. Принцип работы этого типа программного обеспечения обычно заключается в том, чтобы сначала быстро идентифицировать голос говорящего и преобразовать его в текст, затем перевести текст с помощью мощных алгоритмов обработки естественного языка и, наконец, преобразовать каждое переведенное предложение в речь одно за другим и воспроизвести его. для достижения эффекта «перевода в реальном времени».
Однако эта серия процессов неизбежно приведет к задержкам перевода. Чтобы сократить задержки, многие программы перевода отказываются от функции воспроизведения голоса и отображают только переведенный текст. Этот метод может переводить речь в режиме реального времени и постоянно обновлять ее в виде «субтитров». Даже если результаты перевода часто корректируются и перезапускаются из-за изменений входных данных, это не повлияет на качество чтения пользователя. Отменив голосовое воспроизведение, обновленный контент перевода можно будет предоставлять пользователям более быстро и непрерывно, тем самым улучшая общий пользовательский опыт.
Модель синхронного перевода с использованием искусственного интеллекта использует совершенно другой принцип.
Благодаря взрывному прогрессу моделей искусственного интеллекта в последние годы в 2024 году постепенно начнут появляться модели синхронного перевода, которые обеспечивают чрезвычайно низкую задержку и напрямую переводят речь в речь. Целью модели этого типа является прямой или косвенный перевод речи в речь на целевом языке. Среди них три модели с выдающейся производительностью привлекли особое внимание и являются решениями, наиболее близкими к синхронному переводу реального человека: бесшовная потоковая передача Meta (ранее Facebook), StreamSpeech от Института вычислительных технологий Китайской академии наук и Zhifu. синхронный перевод v3 модель. Этот тип модели отличается от традиционного программного обеспечения для перевода с использованием искусственного интеллекта. Он попытается имитировать поведение человеческого перевода. Он не будет переводить речь говорящего сразу, а будет «слушать», оценивая, подходит ли текущий речевой контент для полного и полного. перевод Вам нужно услышать больше, чтобы перевести.
Мета имеет значительное влияние в области искусственного интеллекта, особенно в области открытого исходного кода и передовых технологических исследований. Его исследовательский отдел ИИ Meta AI совершил важные прорывы во многих областях искусственного интеллекта. LLaMA (Large Language Model), поскольку его модель с открытым исходным кодом, широко используется в исследовательском сообществе ИИ, а ее платформа с открытым исходным кодом PyTorch стала разработчиком. глобальные исследования искусственного интеллекта и основные инструменты в приложениях. Модель синхронного перевода Seamless-Streaming на этот раз также имеет открытый исходный код, что позволяет любому получить доступ к ее основным принципам. Согласно соответствующим опубликованным ею документам, Seamless-Streaming предпочитает использовать стратегию «EMMA», чтобы определить, следует ли переводчику немедленно переводить текст. содержание услышано. Все еще жду дальнейших отзывов. В тестовом использовании модель Seamless-Streaming добилась точного перевода с задержкой около 3 секунд. Проще говоря, переведенный контент отстает от исходной речи примерно на 3 секунды. По сравнению с 15-секундной задержкой традиционного программного обеспечения для синхронного перевода с использованием искусственного интеллекта, оно достигло революционной оптимизации и действительно достигло уровня задержки синхронного перевода реального человека. Однако, к сожалению, точность все еще недостаточна по сравнению с традиционным искусственным интеллектом. перевод. Особенно при тестировании перевода сложных языков, таких как китайский, возникают такие проблемы, как непонимание и неспособность понять «подтекст».
Будучи высшим академическим учреждением и комплексным научно-исследовательским центром в Китае, Китайская академия наук также открыла исходные данные своих исследований по модели StreamSpeech. Согласно опубликованной статье, StreamSpeech в основном использует метод проверки «Выравнивания», чтобы определить, ждет переводчик или нет. Что шокирует, так это то, что задержка перевода этой модели перевода достигает ошеломляющих 0,3 секунды. Стоит отметить, что это даже эквивалентно среднему времени реакции человека. Такая скорость перевода намного превышает уровень, которого могут достичь реальные люди. Для настоящих синхронных переводчиков время от момента, когда говорящий произносит слово, до момента, когда он услышит и поймет его в мозгу, составляет более 0,3 секунды. К сожалению, в текущей части модели с открытым исходным кодом модель поддерживает только англо-французский, англо-испанский и англо-немецкий перевод и в настоящее время не поддерживает китайский язык. А в тесте модели с низкой задержкой плавность перевода была несколько неудовлетворительной, а переведенный контент больше походил на «дословный машинный перевод», чем на плавный перевод смысла предложения. Эта проблема возникает в большей степени из-за того, что задержка слишком мала, в результате чего машине перевода приходится переводить некоторые незаконченные предложения.
В отличие от Meta и Китайской академии наук, Cicada Future — это небольшая китайская научно-исследовательская группа, расположенная в Лондоне. В настоящее время команда находится в процессе финансирования и еще не опубликовала исходный код своей модели; общедоступная информация об этой модели содержит только окно опыта тестирования и краткое содержание статьи. Согласно реферату публичного документа, по сравнению с двумя предыдущими моделями, инновация модели синхронного перевода Zhifu v3 заключается в том, что она напрямую передает функцию «ожидать ли дополнительных входных данных» модели перевода. В настоящее время компания тестирует две модели: основной целью мини-модели является низкая задержка. Согласно внутреннему тестированию, ее задержка перевода составляет в среднем 1–3 секунды. Когда говорящий говорит четко, точность перевода намного превосходит две вышеупомянутые модели. . Большая модель отличается высокой точностью. Средняя задержка перевода составляет 2–5 секунд. Точность и беглость перевода достигают или даже превосходят уровень реальных людей. Он даже поддерживает точный перевод смешанных выражений на китайском и английском языках, древних стихов. диалекты и популярные мемы. Ложка дегтя в том, что количество мест для внутреннего тестирования этой модели в настоящее время ограничено, а тест настолько популярен, что на его использование часто выстраиваются очереди, а его функция перевода веб-страниц все еще далека от коммерческой рекламы; продукт и в настоящее время больше похож на веб-страницу «отображение модели».
Подводя итог, можно сказать, что технологический прорыв в области синхронного перевода с помощью искусственного интеллекта воплотил в жизнь больше потенциальных возможностей. Мы уже далеки от сцены в фильме «Блуждающая Земля», где «два человека, говорящие на разных языках, могут нормально общаться после одевания». наушники» Он быстро приближается, видимый невооруженным глазом. В настоящее время такое программное обеспечение, как синхронный перевод Zhifu, которое наиболее близко к этому сценарию, еще не приступило к выпуску продукта; в каком сценарии оно будет использоваться в первую очередь? Кто станет первой группой пользователей? рынок. Вопрос.
Прежде чем задуматься об этой проблеме, давайте еще раз взглянем на основные функции, которые реализует синхронный перевод: использование голоса говорящего в качестве входных данных в реальном времени и имитация переведенного голоса для имитации тона говорящего в качестве вывода в реальном времени. Итак, учитывая эту функцию, мы подумали о нескольких очень хороших примерах, которыми можем поделиться с вами, надеясь вдохновить всех:
1. Объявление бортпроводника
На международных рейсах бортпроводники обычно должны говорить на двух или даже нескольких языках. Помимо лучшего обслуживания пассажиров, более важным является трансляция информации о поездке и другой информации во время полета, такой как «инструкции по входу, информация о трансфере» и другой контент, который должен быть понятен пассажирам из разных стран, поэтому им необходимо говорить на разных языках одновременно. Многоязычие действительно является большой проблемой для бортпроводников, а нечеткая устная речь создаст проблемы для пассажиров. Синхронный перевод с помощью искусственного интеллекта может помочь в настоящее время. Требуется только, чтобы бортпроводник мог говорить на каком-либо языке, а искусственный интеллект отвечает за передачу его контента в уши пассажиров одним и тем же тоном, чтобы пассажиры были со всех сторон. по всему миру можно слушать его в самолете Слушайте четко и сделайте свое путешествие более безопасным.
2. Онлайн-образование
По мере ускорения глобализации онлайн-образования все больше и больше образовательных платформ и учреждений надеются привлечь студентов со всего мира. Однако языковые различия часто становятся препятствиями для получения студентами качественных образовательных ресурсов. Особенно студентам, чей родной язык является языком меньшинства, при изучении курсов неродного языка его не только трудно понять, но и влияет на их способность к обучению по основным предметам, таким как математика и физика. В результате многие талантливые студенты похоронены. . Технология синхронного перевода с использованием искусственного интеллекта может просто преодолеть этот барьер и предоставить преподавателям услуги перевода в режиме реального времени, так что независимо от того, какой язык преподаватель использует для преподавания, студенты могут получать переведенный контент одновременно, так что они больше не ограничены языком в глобализированная образовательная среда.
Технология синхронного перевода с использованием искусственного интеллекта может обеспечить в таких случаях точные услуги перевода в режиме реального времени, избегая задержек и недоразумений при передаче информации, тем самым способствуя более эффективному международному общению и сотрудничеству. Помимо этого, какие еще возможные сценарии использования существуют в будущем? Возможно, следующий прорыв кроется в деталях нашей повседневной жизни? Поскольку технологии продолжают совершенствоваться, синхронный перевод с использованием искусственного интеллекта постепенно будет входить во все больше повседневных сценариев применения и станет неотъемлемой частью будущей глобальной коммуникации.