Безусловное - это семейство моделей искусственного интеллекта, которое обеспечивает более естественное и подлинное общение между языками. SeamlessM4T - это массивная многоязычная модель многоязычного трансляции машины, поддерживающая около 100 языков. Seamlessm4t служит основой для SeamlessExpressive, модели, которая сохраняет элементы просодии и голоса по разным языкам и бесшовным потокам, модель, поддерживающую одновременный перевод и потоковой ASR примерно на 100 языков. Бесполезное экспрессивное и беспрепятственное погружение объединяются в бесшовную, унифицированную модель с многоязычной, в режиме реального времени и выразительных переводов.
Seamlessm4t v2 | Бесплатная экспрессия | Бесшовное погружение | |
---|---|---|---|
Демо | SeamlessM4T V2 Демо | Бесплатная экспрессивная демонстрация | |
Deggingface Space Demo | ? SeamlessM4T V2 Space | ? Бесплановая экспрессивное пространство | ? Пространство беспрепятственности |
Беспроблемный
ЭММА
Сонар
ИИ в Meta Blog
Исчерпывающее руководство, данное в The Neurips 2023 - Seamless Expo, которая представляет собой универсальный магазин, чтобы узнать, как использовать весь набор бесшовных моделей. Пожалуйста, не стесняйтесь играть с ноутбуком.
Seamlessm4t-это наша основополагающая модель All-in-One M - Ultylingual и M Ultimodal M Achine Translation , обеспечивающая высококачественную перевод для речи и текста почти на 100 языках.
Модели SeamlessM4T поддерживают задачи:
? Мы выпускаем SeamlessM4T V2, обновленную версию с нашей новой архитектурой Unity2 . Эта новая модель улучшается по сравнению с SeamlessM4T V1 по качеству, а также задержке вывода в задачах генерации речи.
Чтобы узнать больше о коллекции моделей SeamlessM4T, подходе, используемом в каждом, их языковом освещении и их производительности, посетите SeamlessM4T Readme или? Модель карта.
Примечание
Бесплатная M4T также доступен в? Библиотека Трансформеров. Посетите этот раздел для получения более подробной информации.
SeamlessExpressive-это модель перевода речи в речь, которая отражает определенные недодельные аспекты просодии, такие как скорость речи и паузы, сохраняя при этом стиль своего голоса и высокого качества перевода контента.
Чтобы узнать больше о SeamlessExpressive Models, посетите SeamlessExpressive Readme или? Модель карта
SeamlessStreaming - это потоковая модель перевода. Модель поддерживает речь как модальность ввода и речь/текст как модальности вывода.
Модель беспрепятственного потери модели поддерживает следующие задачи:
Чтобы узнать больше о моделях SeamlessStreaming, посетите SeamlessStreaming Readme или? Модель карта
Бесплатная модель-это единая модель для экспрессивных потоковых переводов речи в речь.
Примечание
Одним из предпосылок является Fairseq2, который имеет предварительно построенные пакеты, доступные только для компьютеров Linux X86-64 и Apple-Silicon Mac. Кроме того, он имеет зависимость от libsndfile, которая может не быть установлена на вашей машине. Если вы испытаете какие -либо проблемы с установкой, пожалуйста, обратитесь к его Readme для получения дополнительных инструкций.
pip install .
Примечание
Транскрибирующий вывод аудио для вычислительной метрики использует Whisper, который автоматически устанавливается. Whisper, в свою очередь, требует, чтобы в вашей системе был установлен ffmpeg
командной строки, который доступен для большинства менеджеров пакетов.
Вот пример использования CLI из корневого каталога для выполнения вывода.
S2 -й задача:
m4t_predict < path_to_input_audio > --task s2st --tgt_lang < tgt_lang > --output_path < path_to_save_audio >
T2TT Задача:
m4t_predict < input_text > --task t2tt --tgt_lang < tgt_lang > --src_lang < src_lang >
Пожалуйста, обратитесь к выводу Readme для подробной инструкции о том, как выполнить вывод и список поддерживаемых языков на источнике, целевые стороны для речи, модальности текста.
Для использования S2TT/ASR (без Python) с использованием GGML, пожалуйста, обратитесь к разделу Unity.cpp.
Примечание
Пожалуйста, проверьте раздел о том, как загрузить модель.
Вот пример использования CLI из корневого каталога для выполнения вывода.
expressivity_predict < path_to_input_audio > --tgt_lang < tgt_lang > --model_name seamless_expressivity --vocoder_name vocoder_pretssel --output_path < path_to_save_audio >
Стоковая оценка Readme имеет подробные инструкции по проведению оценок для бесшовных моделей и бесшовных моделей. У CLI есть вариант --no-scoring
, который можно использовать, чтобы пропустить оценку и просто сделать вывод.
Пожалуйста, проверьте вывод README для получения более подробной информации.
Вы можете дублировать пространство HF SeamlessStreaming для запуска потоковой демонстрации.
Вы также можете запустить демонстрацию локально, клонируя пространство отсюда. См. Readme of SeamlessStreaming HF Repo для получения более подробной информации об установке.
Чтобы запустить то же демонстрационное пространство, которое мы проводим, обнимая лицо на местном уровне:
cd demo
pip install -r requirements.txt
python app.py
Название модели | #Парамы | Контрольная точка | метрики |
---|---|---|---|
SeamlessM4T-Large V2 | 2.3b | ? Модель карта - контрольная точка | метрики |
SeamlessM4t-Large (v1) | 2.3b | ? Модель карта - контрольная точка | метрики |
SeamlessM4T-Medium (V1) | 1.2b | ? Модель карта - контрольная точка | метрики |
? Модель карта
Чтобы получить доступ и загрузить SeamlessExpressive, пожалуйста, запросите модель артефактов через эту форму запроса. После одобрения вы получите электронное письмо по ссылкам на скачивание на каждый артефакт модели.
Обратите внимание, что SeamlessExpressive предоставляется по его собственной лицензии и политике приемлемого использования.
Название модели | #Парамы | Контрольная точка | метрики |
---|---|---|---|
Бесшовное погружение | 2,5B | ? Модель карта - Контрольная точка монотонного декодера - Контрольная точка потокового Unity2 | метрики |
Безумительная модель-это просто модель беспрепятственности с неэкспрессивным vocoder_v2
замененным с помощью Expressive vocoder_pretssel
. Пожалуйста, ознакомьтесь с разделом выше о том, как получить контрольную точку vocoder_pretssel
.
Название модели | #Парамы | Контрольная точка |
---|---|---|
W2V-BERT 2.0 | 600м | ? Модель карта - контрольная точка |
Вот как вы должны пройти через речевой кодер:
import torch
from fairseq2 . data . audio import AudioDecoder , WaveformToFbankConverter
from fairseq2 . memory import MemoryBlock
from fairseq2 . nn . padding import get_seqs_and_padding_mask
from fairseq2 . data import Collater
from pathlib import Path
from seamless_communication . models . conformer_shaw import load_conformer_shaw_model
audio_wav_path , device , dtype = ...
audio_decoder = AudioDecoder ( dtype = torch . float32 , device = device )
fbank_converter = WaveformToFbankConverter (
num_mel_bins = 80 ,
waveform_scale = 2 ** 15 ,
channel_last = True ,
standardize = True ,
device = device ,
dtype = dtype ,
)
collater = Collater ( pad_value = 1 )
model = load_conformer_shaw_model ( "conformer_shaw" , device = device , dtype = dtype )
model . eval ()
with Path ( audio_wav_path ). open ( "rb" ) as fb :
block = MemoryBlock ( fb . read ())
decoded_audio = audio_decoder ( block )
src = collater ( fbank_converter ( decoded_audio ))[ "fbank" ]
seqs , padding_mask = get_seqs_and_padding_mask ( src )
with torch . inference_mode ():
seqs , padding_mask = model . encoder_frontend ( seqs , padding_mask )
seqs , padding_mask = model . encoder ( seqs , padding_mask )
Чтобы воспроизвести наши результаты или оценить, используя те же метрики по своим собственным тестовым наборам, пожалуйста, ознакомьтесь с Readme здесь.
Ниже приведен сценарий для эффективной балансированной оценки.
export MODEL_DIR= " /path/to/SeamlessExpressive/model "
export TEST_SET_TSV= " input.tsv " # Your dataset in a TSV file, with headers "id", "audio"
export TGT_LANG= " spa " # Target language to translate into, options including "fra", "deu", "eng" ("cmn" and "ita" are experimental)
export OUTPUT_DIR= " tmp/ " # Output directory for generated text/unit/waveform
export TGT_TEXT_COL= " tgt_text " # The column in your ${TEST_SET_TSV} for reference target text to calcuate BLEU score. You can skip this argument.
export DFACTOR= " 1.0 " # Duration factor for model inference to tune predicted duration (preddur=DFACTOR*preddur) per each position which affects output speech rate. Greater value means slower speech rate (default to 1.0). See expressive evaluation README for details on duration factor we used.
expressivity_evaluate ${TEST_SET_TSV}
--gated-model-dir ${MODEL_DIR} --task s2st --tgt_lang ${TGT_LANG}
--audio_root_dir " " --output_path ${OUTPUT_DIR} --ref_field ${TGT_TEXT_COL}
--model_name seamless_expressivity --vocoder_name vocoder_pretssel
--text_unk_blocking True --duration_factor ${DFACTOR}
Пожалуйста, ознакомьтесь с этим разделом Readme
Потоковая оценка Readme имеет подробные инструкции по проведению оценок на бесшовных моделях и бесшовных моделях.
Чтобы обеспечить бесшовную связь повсюду, мы внедрили unity.cpp, чтобы пользователи могли запускать модели SeamlessM4T в GGML - библиотека C Tensor, позволяющая легче интегрировать на словесных платформах.
Для расшифровки/трансляции данного аудио,
./ggml/bin/unity --model seamlessM4T_medium.ggml input.wav
Для получения подробной информации о сборке и дополнительном использовании, пожалуйста, ознакомьтесь с ounity.cpp
Мы создали два выразительных набора данных о переводе речи в речь, Mexpresso и Mdral, между английским и пятью другими языками-французским, немецким, итальянским, мандарином и испанским. В настоящее время мы с открытым исходным исходным кодом в Mexpresso для вне английских направлений, и в ближайшее время мы откроем оставшуюся часть наборов данных. Для получения подробной информации, пожалуйста, проверьте readme
Мы представляем первую процедуру выравнивания речи. Начиная с необработанных данных, процедура экспрессивного выравнивания автоматически обнаруживает пары аудио сегментов, разделяющих не только то же значение, но и та же общая экспрессивность. Чтобы продемонстрировать эту процедуру, мы делаем метаданные, доступные для создания набора данных, называемого SeamlessAlignExpression, который можно использовать для проверки качества нашего метода выравнивания. SeamlessAlignExpressive-это первая крупномасштабная (11K+ часы) коллекция многоязычных выравниваний звука для выразительного перевода. Более подробную информацию можно найти в SeamlessAlignExpressive Readme.
Пожалуйста, ознакомьтесь с ReadMe здесь. Обратите внимание, что модель SeamlessM4T V1 использует пониженные единицы, а другие модели используют не измельченные единицы.
Бесплатная связь зависит от 4 библиотек, разработанных Meta.
Fairseq2-это нашу библиотеку с открытым исходным кодом компонентов моделирования последовательностей следующего поколения, которая предоставляет исследователям и разработчикам исследователей и разработчиков строительных блоков для машинного перевода, языкового моделирования и других задач генерации последовательностей. Все модели SeamlessM4T в этом репозитории работают от Fairseq2.
Сонар, мультимодальные и языковые, агностические представления на уровне предложений-это новое многоязычное и модальное пространство, встраивающее встроенные предложения, такие как встраиваемые предложения, такие как Laser3 и Labse на задачах поиска сходства XSIM и XSIM ++. Sonar предоставляет текстовые и речевые кодеры для многих языков. Бесполезное содержание было добыто на основе сонарных вторжений.
Blaser 2.0-наш последний показатель оценки на основе модели для мультимодального перевода. Это расширение Blaser, поддерживая как речь, так и текст. Он работает непосредственно на исходном сигнале и, как таковой, не требует какой-либо промежуточной системы ASR, такой как ASR-BLEU. Как и в первой версии, Blaser 2.0 использует сходство между входными и выходными предложениями. Сонар является основным пространством для встраивания для Blaser 2.0. Сценарии для проведения оценки с Blaser 2.0 можно найти в Sonar Repo.
В рамках проекта бесшовного коммуникации мы расширили библиотеку Stopes. Версия 1 предоставила инструмент для добычи текста в текст для создания учебного набора данных для моделей перевода. Версия 2 была расширена благодаря Sonar, чтобы поддержать задачи, связанные с обучением больших моделей перевода речи. В частности, мы предоставляем инструменты для чтения/записи наборов данных Fairseq Audiozip и нового горнодобывающего конвейера, который может выполнять речь от речи, текст к речи, речь в тексте и добыча текста в текст, все это на основе Новый сонар внедряет пространство.
SimuleVal - это библиотека, используемая для оценки моделей одновременного перевода. SimuleVal также предоставляет бэкэнд для генерации, используя частичные/инкрементные входы с гибкими/расширяемыми состояниями, которые используются для реализации потокового вывода. Пользователи определяют агенты, которые реализуют интерфейс SimuleVal, который можно соединить вместе в трубопроводе. Вы можете найти агентов, внедренных для беспроблемного потери здравоохранения здесь.
Пожалуйста, ознакомьтесь с ReadMe здесь.
Помимо беспрепятственных моделей с большими (2,3B) и средними (1,2B), мы также выпускаем небольшую модель (281 м), предназначенную для вывода на установке. Чтобы узнать больше об использовании и деталях модели, ознакомьтесь с Readme здесь.
Мы с открытым исходным кодом метаданы для беспроблемного тока, крупнейшего открытого набора данных для мультимодального перевода, на общей сложности 270 тыс.+ Часы выровненных данных речи и текстовых данных. Набор данных может быть перестроен сообществом на основе Seamlessalign Readme.
Если вы используете бесшовные в своей работе или в любых моделях/наборах данных/артефактах, опубликованных в бесшовных, пожалуйста, укажите:
@inproceedings { seamless2023 ,
title = " Seamless: Multilingual Expressive and Streaming Speech Translation " ,
author="{Seamless Communication}, Lo{"i}c Barrault, Yu-An Chung, Mariano Coria Meglioli, David Dale, Ning Dong, Mark Duppenthaler, Paul-Ambroise Duquenne, Brian Ellis, Hady Elsahar, Justin Haaheim, John Hoffman, Min-Jae Hwang, Hirofumi Inaguma, Christopher Klaiber, Ilia Kulikov, Pengwei Li, Daniel Licht, Jean Maillard, Ruslan Mavlyutov, Alice Rakotoarison, Kaushik Ram Sadagopan, Abinesh Ramakrishnan, Tuan Tran, Guillaume Wenzek, Yilin Yang, Ethan Ye, Ivan Evtimov, Pierre Fernandez, Cynthia Gao, Prangthip Hansanti, Elahe Kalbassi, Amanda Kallet, Artyom Kozhevnikov, Gabriel Mejia, Robin San Roman, Christophe Touret, Corinne Wong, Carleigh Wood, Bokai Yu, Pierre Andrews, Can Balioglu, Peng-Jen Chen, Marta R. Costa-juss{`a}, Maha Elbayad, Hongyu Gong, Francisco Guzm{'a}n, Kevin Heffernan, Somya Jain, Justine Kao, Ann Lee, Xutai Ma, Alex Mourachko, Benjamin Peloquin, Juan Pino, Sravya Popuri, Christophe Ropers, Safiyyah Saleem, Holger Schwenk, Anna Sun, Paden Tomasello, Changhan Wang, Jeff Wang, Skyler Wang, Mary Williamson",
journal = { ArXiv } ,
year = { 2023 }
}
У нас есть три категории лицензий.
Следующие негенеративные компоненты имеют лицензию MIT, как найдено в MIT_LICENSE:
Следующие модели являются CC-BY-NC 4.0 лицензированы, как найдено в лицензии:
Следующие модели плавно лицензированы, как это можно найти в Seamless_license: