Скачать seamless_communication - Скачать исходный код seamless

Бесплатная вступление

Безусловное - это семейство моделей искусственного интеллекта, которое обеспечивает более естественное и подлинное общение между языками. SeamlessM4T - это массивная многоязычная модель многоязычного трансляции машины, поддерживающая около 100 языков. Seamlessm4t служит основой для SeamlessExpressive, модели, которая сохраняет элементы просодии и голоса по разным языкам и бесшовным потокам, модель, поддерживающую одновременный перевод и потоковой ASR примерно на 100 языков. Бесполезное экспрессивное и беспрепятственное погружение объединяются в бесшовную, унифицированную модель с многоязычной, в режиме реального времени и выразительных переводов.

Ссылки

Демо

	Seamlessm4t v2	Бесплатная экспрессия	Бесшовное погружение
Демо	SeamlessM4T V2 Демо	Бесплатная экспрессивная демонстрация
Deggingface Space Demo	? SeamlessM4T V2 Space	? Бесплановая экспрессивное пространство	? Пространство беспрепятственности

Документы

Беспроблемный

ЭММА

Сонар

Блог

ИИ в Meta Blog

Учебник

Исчерпывающее руководство, данное в The Neurips 2023 - Seamless Expo, которая представляет собой универсальный магазин, чтобы узнать, как использовать весь набор бесшовных моделей. Пожалуйста, не стесняйтесь играть с ноутбуком.

Seamlessm4t

Seamlessm4t-это наша основополагающая модель All-in-One M - Ultylingual и M Ultimodal M Achine Translation , обеспечивающая высококачественную перевод для речи и текста почти на 100 языках.

Модели SeamlessM4T поддерживают задачи:

Перевод речи на речь (S2ST)
Перевод речи к тексту (S2TT)
Перевод текста в речь (T2ST)
Текст-текстовый перевод (T2TT)
Автоматическое распознавание речи (ASR)

? Мы выпускаем SeamlessM4T V2, обновленную версию с нашей новой архитектурой Unity2 . Эта новая модель улучшается по сравнению с SeamlessM4T V1 по качеству, а также задержке вывода в задачах генерации речи.

Чтобы узнать больше о коллекции моделей SeamlessM4T, подходе, используемом в каждом, их языковом освещении и их производительности, посетите SeamlessM4T Readme или? Модель карта.

Примечание

Бесплатная M4T также доступен в? Библиотека Трансформеров. Посетите этот раздел для получения более подробной информации.

Бесплатная экспрессия

SeamlessExpressive-это модель перевода речи в речь, которая отражает определенные недодельные аспекты просодии, такие как скорость речи и паузы, сохраняя при этом стиль своего голоса и высокого качества перевода контента.

Чтобы узнать больше о SeamlessExpressive Models, посетите SeamlessExpressive Readme или? Модель карта

Бесшовное погружение

SeamlessStreaming - это потоковая модель перевода. Модель поддерживает речь как модальность ввода и речь/текст как модальности вывода.

Модель беспрепятственного потери модели поддерживает следующие задачи:

Перевод речи на речь (S2ST)
Перевод речи к тексту (S2TT)
Автоматическое распознавание речи (ASR)

Чтобы узнать больше о моделях SeamlessStreaming, посетите SeamlessStreaming Readme или? Модель карта

Беспроблемный

Бесплатная модель-это единая модель для экспрессивных потоковых переводов речи в речь.

Что нового

[18.12.2023] Мы открытыми нами, нашим речевым энкодером на основе конформеров W2V-Bert 2.0, как описано в разделе 3.2.1 статьи, которая лежит в основе наших бесшовных моделей.
[14.12.2023] Мы выпускаем бесшовное руководство, данное в Neurips 2023.

Быстрый старт

Установка

Примечание

Одним из предпосылок является Fairseq2, который имеет предварительно построенные пакеты, доступные только для компьютеров Linux X86-64 и Apple-Silicon Mac. Кроме того, он имеет зависимость от libsndfile, которая может не быть установлена на вашей машине. Если вы испытаете какие -либо проблемы с установкой, пожалуйста, обратитесь к его Readme для получения дополнительных инструкций.

 pip install .

Примечание

Транскрибирующий вывод аудио для вычислительной метрики использует Whisper, который автоматически устанавливается. Whisper, в свою очередь, требует, чтобы в вашей системе был установлен ffmpeg командной строки, который доступен для большинства менеджеров пакетов.

Бегущий вывод

SeamlessM4T вывод

Вот пример использования CLI из корневого каталога для выполнения вывода.

S2 -й задача:

m4t_predict < path_to_input_audio > --task s2st --tgt_lang < tgt_lang > --output_path < path_to_save_audio >

T2TT Задача:

m4t_predict < input_text > --task t2tt --tgt_lang < tgt_lang > --src_lang < src_lang >

Пожалуйста, обратитесь к выводу Readme для подробной инструкции о том, как выполнить вывод и список поддерживаемых языков на источнике, целевые стороны для речи, модальности текста.

Для использования S2TT/ASR (без Python) с использованием GGML, пожалуйста, обратитесь к разделу Unity.cpp.

Беспроживление -экспрессивное вывод

Примечание

Пожалуйста, проверьте раздел о том, как загрузить модель.

Вот пример использования CLI из корневого каталога для выполнения вывода.

expressivity_predict < path_to_input_audio > --tgt_lang < tgt_lang > --model_name seamless_expressivity --vocoder_name vocoder_pretssel --output_path < path_to_save_audio >

Беспрепятственное погружение и беспрепятственный вывод

Стоковая оценка Readme имеет подробные инструкции по проведению оценок для бесшовных моделей и бесшовных моделей. У CLI есть вариант --no-scoring , который можно использовать, чтобы пропустить оценку и просто сделать вывод.

Пожалуйста, проверьте вывод README для получения более подробной информации.

Запуск беспрепятственной демонстрации

Вы можете дублировать пространство HF SeamlessStreaming для запуска потоковой демонстрации.

Вы также можете запустить демонстрацию локально, клонируя пространство отсюда. См. Readme of SeamlessStreaming HF Repo для получения более подробной информации об установке.

Запуск SeamlessM4T и SeamlessExpressive Gradio Demos локально

Чтобы запустить то же демонстрационное пространство, которое мы проводим, обнимая лицо на местном уровне:

 cd demo
pip install -r requirements.txt
python app.py

Ресурсы и использование

Модель

SeamlessM4T модели

Название модели	#Парамы	Контрольная точка	метрики
SeamlessM4T-Large V2	2.3b	? Модель карта - контрольная точка	метрики
SeamlessM4t-Large (v1)	2.3b	? Модель карта - контрольная точка	метрики
SeamlessM4T-Medium (V1)	1.2b	? Модель карта - контрольная точка	метрики

Бесплатные модели

? Модель карта

Чтобы получить доступ и загрузить SeamlessExpressive, пожалуйста, запросите модель артефактов через эту форму запроса. После одобрения вы получите электронное письмо по ссылкам на скачивание на каждый артефакт модели.

Обратите внимание, что SeamlessExpressive предоставляется по его собственной лицензии и политике приемлемого использования.

Бесплатные модели

Название модели	#Парамы	Контрольная точка	метрики
Бесшовное погружение	2,5B	? Модель карта - Контрольная точка монотонного декодера - Контрольная точка потокового Unity2	метрики

Безусловные модели

Безумительная модель-это просто модель беспрепятственности с неэкспрессивным vocoder_v2 замененным с помощью Expressive vocoder_pretssel . Пожалуйста, ознакомьтесь с разделом выше о том, как получить контрольную точку vocoder_pretssel .

W2V-Bert 2.0 Речевой энкодер

Название модели	#Парамы	Контрольная точка
W2V-BERT 2.0	600м	? Модель карта - контрольная точка

Вот как вы должны пройти через речевой кодер:

 import torch

from fairseq2 . data . audio import AudioDecoder , WaveformToFbankConverter
from fairseq2 . memory import MemoryBlock
from fairseq2 . nn . padding import get_seqs_and_padding_mask
from fairseq2 . data import Collater
from pathlib import Path
from seamless_communication . models . conformer_shaw import load_conformer_shaw_model


audio_wav_path , device , dtype = ...
audio_decoder = AudioDecoder ( dtype = torch . float32 , device = device )
fbank_converter = WaveformToFbankConverter (
    num_mel_bins = 80 ,
    waveform_scale = 2 ** 15 ,
    channel_last = True ,
    standardize = True ,
    device = device ,
    dtype = dtype ,
)
collater = Collater ( pad_value = 1 )

model = load_conformer_shaw_model ( "conformer_shaw" , device = device , dtype = dtype )
model . eval ()

with Path ( audio_wav_path ). open ( "rb" ) as fb :
    block = MemoryBlock ( fb . read ())

decoded_audio = audio_decoder ( block )
src = collater ( fbank_converter ( decoded_audio ))[ "fbank" ]
seqs , padding_mask = get_seqs_and_padding_mask ( src )

with torch . inference_mode ():
  seqs , padding_mask = model . encoder_frontend ( seqs , padding_mask )
  seqs , padding_mask = model . encoder ( seqs , padding_mask )

Оценка

Оценка SeamlessM4T

Чтобы воспроизвести наши результаты или оценить, используя те же метрики по своим собственным тестовым наборам, пожалуйста, ознакомьтесь с Readme здесь.

Бесплатная экспрессивная оценка

Ниже приведен сценарий для эффективной балансированной оценки.

 export MODEL_DIR= " /path/to/SeamlessExpressive/model "
export TEST_SET_TSV= " input.tsv " # Your dataset in a TSV file, with headers "id", "audio"
export TGT_LANG= " spa " # Target language to translate into, options including "fra", "deu", "eng" ("cmn" and "ita" are experimental)
export OUTPUT_DIR= " tmp/ " # Output directory for generated text/unit/waveform
export TGT_TEXT_COL= " tgt_text " # The column in your ${TEST_SET_TSV} for reference target text to calcuate BLEU score. You can skip this argument.
export DFACTOR= " 1.0 " # Duration factor for model inference to tune predicted duration (preddur=DFACTOR*preddur) per each position which affects output speech rate. Greater value means slower speech rate (default to 1.0). See expressive evaluation README for details on duration factor we used.
expressivity_evaluate ${TEST_SET_TSV} 
  --gated-model-dir ${MODEL_DIR} --task s2st --tgt_lang ${TGT_LANG} 
  --audio_root_dir " " --output_path ${OUTPUT_DIR} --ref_field ${TGT_TEXT_COL} 
  --model_name seamless_expressivity --vocoder_name vocoder_pretssel 
  --text_unk_blocking True --duration_factor ${DFACTOR}

Пожалуйста, ознакомьтесь с этим разделом Readme

Бесшовное погружение и беспрепятственная оценка

Потоковая оценка Readme имеет подробные инструкции по проведению оценок на бесшовных моделях и бесшовных моделях.

Unity.cpp

Чтобы обеспечить бесшовную связь повсюду, мы внедрили unity.cpp, чтобы пользователи могли запускать модели SeamlessM4T в GGML - библиотека C Tensor, позволяющая легче интегрировать на словесных платформах.

Для расшифровки/трансляции данного аудио,

 ./ggml/bin/unity --model seamlessM4T_medium.ggml input.wav

Для получения подробной информации о сборке и дополнительном использовании, пожалуйста, ознакомьтесь с ounity.cpp

Выразительные наборы данных

Мы создали два выразительных набора данных о переводе речи в речь, Mexpresso и Mdral, между английским и пятью другими языками-французским, немецким, итальянским, мандарином и испанским. В настоящее время мы с открытым исходным исходным кодом в Mexpresso для вне английских направлений, и в ближайшее время мы откроем оставшуюся часть наборов данных. Для получения подробной информации, пожалуйста, проверьте readme

SeamlessAlignExpressive

Мы представляем первую процедуру выравнивания речи. Начиная с необработанных данных, процедура экспрессивного выравнивания автоматически обнаруживает пары аудио сегментов, разделяющих не только то же значение, но и та же общая экспрессивность. Чтобы продемонстрировать эту процедуру, мы делаем метаданные, доступные для создания набора данных, называемого SeamlessAlignExpression, который можно использовать для проверки качества нашего метода выравнивания. SeamlessAlignExpressive-это первая крупномасштабная (11K+ часы) коллекция многоязычных выравниваний звука для выразительного перевода. Более подробную информацию можно найти в SeamlessAlignExpressive Readme.

Преобразование необработанного звука в единицы

Пожалуйста, ознакомьтесь с ReadMe здесь. Обратите внимание, что модель SeamlessM4T V1 использует пониженные единицы, а другие модели используют не измельченные единицы.

Библиотеки

Бесплатная связь зависит от 4 библиотек, разработанных Meta.

Fairseq2

Fairseq2-это нашу библиотеку с открытым исходным кодом компонентов моделирования последовательностей следующего поколения, которая предоставляет исследователям и разработчикам исследователей и разработчиков строительных блоков для машинного перевода, языкового моделирования и других задач генерации последовательностей. Все модели SeamlessM4T в этом репозитории работают от Fairseq2.

Sonar и Blaser 2.0

Сонар, мультимодальные и языковые, агностические представления на уровне предложений-это новое многоязычное и модальное пространство, встраивающее встроенные предложения, такие как встраиваемые предложения, такие как Laser3 и Labse на задачах поиска сходства XSIM и XSIM ++. Sonar предоставляет текстовые и речевые кодеры для многих языков. Бесполезное содержание было добыто на основе сонарных вторжений.

Blaser 2.0-наш последний показатель оценки на основе модели для мультимодального перевода. Это расширение Blaser, поддерживая как речь, так и текст. Он работает непосредственно на исходном сигнале и, как таковой, не требует какой-либо промежуточной системы ASR, такой как ASR-BLEU. Как и в первой версии, Blaser 2.0 использует сходство между входными и выходными предложениями. Сонар является основным пространством для встраивания для Blaser 2.0. Сценарии для проведения оценки с Blaser 2.0 можно найти в Sonar Repo.

остановки

В рамках проекта бесшовного коммуникации мы расширили библиотеку Stopes. Версия 1 предоставила инструмент для добычи текста в текст для создания учебного набора данных для моделей перевода. Версия 2 была расширена благодаря Sonar, чтобы поддержать задачи, связанные с обучением больших моделей перевода речи. В частности, мы предоставляем инструменты для чтения/записи наборов данных Fairseq Audiozip и нового горнодобывающего конвейера, который может выполнять речь от речи, текст к речи, речь в тексте и добыча текста в текст, все это на основе Новый сонар внедряет пространство.

Simuleval

SimuleVal - это библиотека, используемая для оценки моделей одновременного перевода. SimuleVal также предоставляет бэкэнд для генерации, используя частичные/инкрементные входы с гибкими/расширяемыми состояниями, которые используются для реализации потокового вывода. Пользователи определяют агенты, которые реализуют интерфейс SimuleVal, который можно соединить вместе в трубопроводе. Вы можете найти агентов, внедренных для беспроблемного потери здравоохранения здесь.

[Legacy] SeamlessM4T V1 Инструкции

Menetuning SeamlessM4T V1

Пожалуйста, ознакомьтесь с ReadMe здесь.

Модели на грани

Помимо беспрепятственных моделей с большими (2,3B) и средними (1,2B), мы также выпускаем небольшую модель (281 м), предназначенную для вывода на установке. Чтобы узнать больше об использовании и деталях модели, ознакомьтесь с Readme здесь.

Бесплатный набор данных

Мы с открытым исходным кодом метаданы для беспроблемного тока, крупнейшего открытого набора данных для мультимодального перевода, на общей сложности 270 тыс.+ Часы выровненных данных речи и текстовых данных. Набор данных может быть перестроен сообществом на основе Seamlessalign Readme.

Цитирование

Если вы используете бесшовные в своей работе или в любых моделях/наборах данных/артефактах, опубликованных в бесшовных, пожалуйста, укажите:

 @inproceedings { seamless2023 ,
   title = " Seamless: Multilingual Expressive and Streaming Speech Translation " ,
   author="{Seamless Communication}, Lo{"i}c Barrault, Yu-An Chung, Mariano Coria Meglioli, David Dale, Ning Dong, Mark Duppenthaler, Paul-Ambroise Duquenne, Brian Ellis, Hady Elsahar, Justin Haaheim, John Hoffman, Min-Jae Hwang, Hirofumi Inaguma, Christopher Klaiber, Ilia Kulikov, Pengwei Li, Daniel Licht, Jean Maillard, Ruslan Mavlyutov, Alice Rakotoarison, Kaushik Ram Sadagopan, Abinesh Ramakrishnan, Tuan Tran, Guillaume Wenzek, Yilin Yang, Ethan Ye, Ivan Evtimov, Pierre Fernandez, Cynthia Gao, Prangthip Hansanti, Elahe Kalbassi, Amanda Kallet, Artyom Kozhevnikov, Gabriel Mejia, Robin San Roman, Christophe Touret, Corinne Wong, Carleigh Wood, Bokai Yu, Pierre Andrews, Can Balioglu, Peng-Jen Chen, Marta R. Costa-juss{`a}, Maha Elbayad, Hongyu Gong, Francisco Guzm{'a}n, Kevin Heffernan, Somya Jain, Justine Kao, Ann Lee, Xutai Ma, Alex Mourachko, Benjamin Peloquin, Juan Pino, Sravya Popuri, Christophe Ropers, Safiyyah Saleem, Holger Schwenk, Anna Sun, Paden Tomasello, Changhan Wang, Jeff Wang, Skyler Wang, Mary Williamson",
  journal = { ArXiv } ,
  year = { 2023 }
}

Лицензия

У нас есть три категории лицензий.

Следующие негенеративные компоненты имеют лицензию MIT, как найдено в MIT_LICENSE:

W2V-Bert 2.0 Речевой энкодер
Код
Текст только часть набора данных MexPresso, найденная в бесшовном экспрессивном чтении.
Unity2 Вынужденный экстрактор выравнивания, обнаруженный в Aligner Aligner Readme Unity2.
Инструмент речевой токсичности с набором данных Etox, найденным в Etox Readme.
Mutox: универсальный многоязычный набор данных о токсичности на основе звука и детектор с нулевым выстрелом Mutox Readme

Следующие модели являются CC-BY-NC 4.0 лицензированы, как найдено в лицензии:

Модели SeamlessM4T (V1 и V2).
Бесплатные модели.

Следующие модели плавно лицензированы, как это можно найти в Seamless_license:

Безусловные модели.
Бесплатные модели.

Расширять