تنزيل seamless_communication - تنزيل رمز مصدر seamless

مقدمة سلسة

Sefless هي عائلة من نماذج الذكاء الاصطناعى تمكن من التواصل الطبيعي والأصيل عبر اللغات. SEMLISLANGS هو نموذج ترجمة متعدد الوسائط متعددة الوسائط ضخمة يدعم حوالي 100 لغة. يعمل Semlessm4T كأساس لـ Seamlessexpression ، وهو نموذج يحافظ على عناصر من النمط والأناقة الصوتية عبر اللغات والسلاسة ، وهو نموذج يدعم الترجمة المتزامنة وتدفق ASR لحوالي 100 لغة. يتم الجمع بين سلس و seamlessing seamless في سلس ، وهو نموذج موحد يضم ترجمات متعددة اللغات والوقت الحقيقي والتعبيرية.

الروابط

العروض التوضيحية

	سلس M4T V2	سلس	سلس
العرض التوضيحي	سلس M4T V2 العرض التوضيحي	تجريبي سلس
عانق الفضاء العرض التوضيحي	؟ سلس M4T V2 الفضاء	؟ مساحة سلسة	؟ مساحة سلسة

أوراق

سلس

إيما

السونار

مدونة

منظمة العفو الدولية في مدونة Meta

درس تعليمي

برنامج تعليمي شامل في Neurips 2023 - معرض سلس ، وهو متجر شامل واحد لمعرفة كيفية استخدام مجموعة كاملة من النماذج السلس. لا تتردد في اللعب مع دفتر الملاحظات.

سلس M4T

SeflelessM4T هو نموذجنا الأساسي الكل في واحد على بُعد Modeling Ultilingual و M entimodal M achine t model translation يوفر ترجمة عالية الجودة للكلام والنص بحوالي 100 لغة.

نماذج sefellessm4t تدعم مهام:

ترجمة الكلام إلى الكلام (S2ST)
ترجمة الكلام إلى النص (S2TT)
ترجمة نص إلى كلام (T2ST)
ترجمة نص إلى نص (T2TT)
التعرف على الكلام التلقائي (ASR)

؟ نقوم بإصدار SEMLessM4T V2 ، وهو نسخة محدثة مع بنية Unity2 الجديدة. يتحسن هذا النموذج الجديد عبر SeflelessM4T V1 في الجودة وكذلك زمن الاستدلال في مهام توليد الكلام.

لمعرفة المزيد حول مجموعة نماذج Seflistm4T ، والنهج المستخدم في كل منها ، وتغطية لغتها وأدائها ، تفضل بزيارة SeamlessM4T readme أو؟ بطاقة النموذج.

ملحوظة

سلس M4T متوفر أيضا في؟ مكتبة المحولات. قم بزيارة هذا القسم لمزيد من التفاصيل.

سلس

Seamlessexpressed هو نموذج ترجمة الكلام إلى الكلام الذي يلتقط بعض الجوانب غير المستقرة من الإضافات مثل معدل الكلام والتوقف ، مع الحفاظ على نمط جودة الترجمة الصوتية وجودة المحتوى العالي.

لمعرفة المزيد حول نماذج Semlessexpression ، تفضل بزيارة seamlessexpression readme أو؟ بطاقة النموذج

سلس

Seamless -Streaming هو نموذج ترجمة تدفق. يدعم النموذج الكلام كطريقة إدخال والكلام/النص كطرق الإخراج.

يدعم نموذج Seamlessstreaming المهام التالية:

ترجمة الكلام إلى الكلام (S2ST)
ترجمة الكلام إلى النص (S2TT)
التعرف على الكلام التلقائي (ASR)

لمعرفة المزيد عن النماذج المسلحة ، تفضل بزيارة Seamlessstreaming readme أو؟ بطاقة النموذج

سلس

النموذج السلس هو النموذج الموحد لترجمات الكلام إلى الكلام التعبيرية.

ما الجديد

[12/18/2023] نحن نتعامل مع مشفر الكلام W2V-Bert 2.0 القائم على مطابقة كما هو موضح في القسم 3.2.1 من الورقة ، وهو في صميم نماذجنا السلس.
[12/14/2023] نقوم بإصدار البرنامج التعليمي غير الملحمي في Neups 2023.

بداية سريعة

تثبيت

ملحوظة

أحد المتطلبات المسبقة هو FairSeq2 الذي يحتوي على حزم تم إنشاؤها مسبقًا فقط لأجهزة الكمبيوتر Linux X86-64 و Apple-Silicon Mac. بالإضافة إلى ذلك ، فإنه يعتمد على libsndfile الذي قد لا يتم تثبيته على جهازك. إذا واجهت أي مشكلات في التثبيت ، فيرجى الرجوع إلى ReadMe لمزيد من التعليمات.

 pip install .

ملحوظة

استخدام صوت الاستدلال لقياس الحوسبة يستخدم Whisper ، والذي يتم تثبيته تلقائيًا. يتطلب Whisper بدوره تثبيت أداة سطر الأوامر ffmpeg على نظامك ، والذي يتوفر من معظم مديري الحزم.

تشغيل الاستدلال

استنتاج سلس

إليك مثال على استخدام CLI من دليل الجذر لتشغيل الاستدلال.

مهمة S2ST:

m4t_predict < path_to_input_audio > --task s2st --tgt_lang < tgt_lang > --output_path < path_to_save_audio >

مهمة T2TT:

m4t_predict < input_text > --task t2tt --tgt_lang < tgt_lang > --src_lang < src_lang >

يرجى الرجوع إلى الاستدلال ReadMe للحصول على تعليمات مفصلة حول كيفية تشغيل الاستدلال وقائمة اللغات المدعومة على المصدر ، والجوانب المستهدفة للكلام ، وطوابق النص.

لتشغيل S2TT/ASR أصلاً (بدون Python) باستخدام GGML ، يرجى الرجوع إلى قسم Unity.cpp.

استنتاج سلس

ملحوظة

يرجى التحقق من القسم حول كيفية تنزيل النموذج.

إليك مثال على استخدام CLI من دليل الجذر لتشغيل الاستدلال.

expressivity_predict < path_to_input_audio > --tgt_lang < tgt_lang > --model_name seamless_expressivity --vocoder_name vocoder_pretssel --output_path < path_to_save_audio >

استدلال سلس وسلس

يتميز تقييم التدفق بإرشادات مفصلة لتقييم التقييمات للنماذج السلس والسلاسة. يحتوي CLI على خيار --no-scoring يمكن استخدامه لتخطي جزء التسجيل وتشغيل الاستدلال فقط.

يرجى التحقق من readme الاستدلال لمزيد من التفاصيل.

تشغيل تجريبي سلس

يمكنك تكرار مساحة HF Seamlessing لتشغيل العرض التجريبي المتدفق.

يمكنك أيضًا تشغيل العرض التوضيحي محليًا ، عن طريق استنساخ المساحة من هنا. راجع ReadMe من REPO Safliststreaming HF لمزيد من التفاصيل حول التثبيت.

تشغيل sefellessm4t و seamlessexpressed gradio demos محليا

لإطلاق نفس المساحة التجريبية التي نستضيفها على وجه المعانقة محليًا:

 cd demo
pip install -r requirements.txt
python app.py

الموارد والاستخدام

نموذج

نماذج سلسة

اسم النموذج	#Params	نقطة التفتيش	المقاييس
سلس M4T-large V2	2.3b	؟ بطاقة النموذج - نقطة التفتيش	المقاييس
سلس M4T-Large (V1)	2.3b	؟ بطاقة النموذج - نقطة التفتيش	المقاييس
سلس Medium (V1)	1.2 ب	؟ بطاقة النموذج - نقطة التفتيش	المقاييس

نماذج سلس

؟ بطاقة النموذج

للوصول إلى وتنزيل SeamlessExpression ، يرجى طلب القطع الأثرية النموذجية من خلال نموذج الطلب هذا. عند الموافقة ، ستتلقى بعد ذلك بريدًا إلكترونيًا مع روابط تنزيل لكل قطعة أثرية نموذجية.

يرجى ملاحظة أن Seamlessexpression متاح بموجب ترخيصه الخاص وسياسة الاستخدام المقبولة.

نماذج سلس

اسم النموذج	#Params	نقطة التفتيش	المقاييس
سلس	2.5 ب	؟ بطاقة النموذج - نقطة تفتيش وحدة فك الترميز أحادية - دفق الوحدة 2	المقاييس

نماذج سلسة

النموذج السلس هو ببساطة نموذج SeamlessStreaming مع تبديل vocoder_v2 غير التعبير مع vocoder_pretssel التعبيرية. يرجى مراجعة القسم أعلاه حول كيفية الحصول على نقطة تفتيش vocoder_pretssel .

W2V-Bert 2.0 Encoder

اسم النموذج	#Params	نقطة التفتيش
W2V-Bert 2.0	600 متر	؟ بطاقة النموذج - نقطة التفتيش

إليك كيف يجب أن تقوم بتمرير Foward عبر مشفر الكلام:

 import torch

from fairseq2 . data . audio import AudioDecoder , WaveformToFbankConverter
from fairseq2 . memory import MemoryBlock
from fairseq2 . nn . padding import get_seqs_and_padding_mask
from fairseq2 . data import Collater
from pathlib import Path
from seamless_communication . models . conformer_shaw import load_conformer_shaw_model


audio_wav_path , device , dtype = ...
audio_decoder = AudioDecoder ( dtype = torch . float32 , device = device )
fbank_converter = WaveformToFbankConverter (
    num_mel_bins = 80 ,
    waveform_scale = 2 ** 15 ,
    channel_last = True ,
    standardize = True ,
    device = device ,
    dtype = dtype ,
)
collater = Collater ( pad_value = 1 )

model = load_conformer_shaw_model ( "conformer_shaw" , device = device , dtype = dtype )
model . eval ()

with Path ( audio_wav_path ). open ( "rb" ) as fb :
    block = MemoryBlock ( fb . read ())

decoded_audio = audio_decoder ( block )
src = collater ( fbank_converter ( decoded_audio ))[ "fbank" ]
seqs , padding_mask = get_seqs_and_padding_mask ( src )

with torch . inference_mode ():
  seqs , padding_mask = model . encoder_frontend ( seqs , padding_mask )
  seqs , padding_mask = model . encoder ( seqs , padding_mask )

تقييم

تقييم سلس

لإعادة إنتاج نتائجنا ، أو لتقييم استخدام نفس المقاييس على مجموعات الاختبار الخاصة بك ، يرجى مراجعة README هنا.

تقييم سلس

فيما يلي البرنامج النصي للتقييم الفعال المكثف.

 export MODEL_DIR= " /path/to/SeamlessExpressive/model "
export TEST_SET_TSV= " input.tsv " # Your dataset in a TSV file, with headers "id", "audio"
export TGT_LANG= " spa " # Target language to translate into, options including "fra", "deu", "eng" ("cmn" and "ita" are experimental)
export OUTPUT_DIR= " tmp/ " # Output directory for generated text/unit/waveform
export TGT_TEXT_COL= " tgt_text " # The column in your ${TEST_SET_TSV} for reference target text to calcuate BLEU score. You can skip this argument.
export DFACTOR= " 1.0 " # Duration factor for model inference to tune predicted duration (preddur=DFACTOR*preddur) per each position which affects output speech rate. Greater value means slower speech rate (default to 1.0). See expressive evaluation README for details on duration factor we used.
expressivity_evaluate ${TEST_SET_TSV} 
  --gated-model-dir ${MODEL_DIR} --task s2st --tgt_lang ${TGT_LANG} 
  --audio_root_dir " " --output_path ${OUTPUT_DIR} --ref_field ${TGT_TEXT_COL} 
  --model_name seamless_expressivity --vocoder_name vocoder_pretssel 
  --text_unk_blocking True --duration_factor ${DFACTOR}

يرجى الاطلاع على قسم ReadMe هذا

تقييم سلس وسلس

يحتوي تقييم التدفق على تعليمات مفصلة لتشغيل التقييمات على النماذج السلس والسلاسة.

unity.cpp

لتمكين التواصل السلس في كل مكان ، قمنا بتنفيذ Unity.CPP حتى يتمكن المستخدمون من تشغيل نماذج SEMLessM4T في GGML - مكتبة توتر C مما يتيح تكاملًا أسهل على منصات مطول.

لنسخ/ترجمة صوت معين ،

 ./ggml/bin/unity --model seamlessM4T_medium.ggml input.wav

للحصول على تفاصيل الإنشاء والمزيد من الاستخدام ، يرجى مراجعة Unity.cpp

مجموعات البيانات التعبيرية

أنشأنا مجموعتين من بيانات ترجمة الكلام إلى الكلام ، Mexpresso و MDRAL ، بين اللغة الإنجليزية وخمس لغات أخرى-الفرنسية والألمانية والإيطالية والماندرين والإسبانية. نفتح حاليًا مصدرًا للكلام إلى نص Mexpresso للتوجيهات الخارجية ، وسنقوم بفتح الجزء المتبقي من مجموعات البيانات قريبًا. لمزيد من التفاصيل ، يرجى مراجعة ReadMe

سلس

نحن نقدم أول إجراء محاذاة خطاب تعبيري. بدءًا من البيانات الأولية ، يكتشف إجراء المحاذاة التعبيرية تلقائيًا أزواج من قطاعات الصوت التي لا تشارك نفس المعنى فحسب ، بل نفس التعبير العام. لعرض هذا الإجراء ، نقوم بإتاحة البيانات الوصفية لإنشاء مجموعة بيانات القياس التي تسمى Seamlessalignexpression ، والتي يمكن استخدامها للتحقق من جودة طريقة المحاذاة الخاصة بنا. Seflessalignexpressed هي أول مجموعة واسعة النطاق (11K+ ساعات) من محاذاة الصوت متعددة اللغات للترجمة التعبيرية. يمكن الاطلاع على مزيد من التفاصيل على README SEMLessAlignexpression.

تحويل الصوت الخام إلى الوحدات

يرجى التحقق من readme هنا. لاحظ أن طراز SEMLISLISM4T V1 يستخدم وحدات مخفضة والموديلات الأخرى تستخدم وحدات غير مخفضة.

المكتبات

يعتمد التواصل السلس على 4 مكتبات طورتها Meta.

FairSeq2

FAIRSEQ2 هي مكتبة من الجيل التالي من المكتبة المفتوحة للمصدر من مكونات نمذجة التسلسل التي توفر للباحثين والمطورين لبنات بناء للترجمة الآلية ونمذجة اللغة ومهام توليد التسلسل الأخرى. يتم تشغيل جميع نماذج Seflistm4T في هذا المستودع بواسطة FairSeq2.

السونار و Blaser 2.0

السونار ، التمثيلات المتعددة الوسائط واللغوية على مستوى الجملة هي مساحة تضمين جملة جديدة متعددة اللغات والتي تتفوق على التضمينات الموجودة في الجملة مثل Laser3 و Labse على XSIM و XSIM ++ لمهام البحث المتعددة اللغات. يوفر Sonar تشفير النص والكلام للعديد من اللغات. تم استخراج سلس على أساس تضمينات السونار.

Blaser 2.0 هو أحدث مقياس تقييم قائم على النماذج للترجمة متعددة الوسائط. إنه امتداد لـ Blaser ، ودعم كل من الكلام والنص. إنه يعمل مباشرة على إشارة المصدر ، وعلى هذا النحو ، لا يتطلب أي نظام ASR وسيط مثل ASR-Bleu. كما هو الحال في الإصدار الأول ، يقوم Blaser 2.0 بتعزيز التشابه بين تضمينات الجملة والمخرجات. السونار هو مساحة التضمين الأساسية لـ Blaser 2.0. يمكن العثور على البرامج النصية لتشغيل التقييم مع Blaser 2.0 في ريبو السونار.

توقف

كجزء من مشروع الاتصالات السلس ، قمنا بتمديد مكتبة Stopes. قدم الإصدار 1 أداة تعدين النص إلى نص لإنشاء مجموعة بيانات التدريب لنماذج الترجمة. تم تمديد الإصدار 2 بفضل Sonar ، لدعم المهام حول تدريب نماذج ترجمة الكلام الكبيرة. على وجه الخصوص ، نحن نقدم أدوات لقراءة/كتابة مجموعات بيانات Audiozip فيرسيك وخط أنابيب تعدين جديد يمكنه القيام بالكلام إلى الكلام ، والنص إلى الكلام ، والخطاب إلى النص ، والتعدين النص إلى النص ، وكل ذلك يعتمد على سونار الجديد مساحة تضمين.

Simuleval

Simuleval هي مكتبة تستخدم لتقييم نماذج الترجمة المتنقلة. يوفر Simuleval أيضًا الواجهة الخلفية للجيل باستخدام مدخلات جزئية/تدريجية ذات حالات مرنة/قابلة للتمديد ، والتي يتم استخدامها لتنفيذ استنتاج البث. يحدد المستخدمون الوكلاء الذين يقومون بتطبيق واجهة Simuleval ، والتي يمكن توصيلها معًا في خط أنابيب. يمكنك العثور على وكلاء يتم تنفيذه للسلاسة هنا.

[Legacy] تعليمات SemlessM4T V1

نماذج SEMLISFLANSM4T V1

يرجى التحقق من readme هنا.

نماذج على الجهاز

بصرف النظر عن الطرز السلس M4T (2.3B) والمتوسطة (1.2B) ، فإننا نطلق أيضًا نموذجًا صغيرًا (281 مترًا) يستهدف الاستدلال على الجهاز. لمعرفة المزيد حول الاستخدام والتفاصيل النموذجية ، تحقق من README هنا.

مجموعة بيانات ملتحمة سلسة

نحن نفتح المصنفات الوصفية لسلاسة ، أكبر مجموعة بيانات مفتوحة للترجمة متعددة الوسائط ، والتي بلغ مجموعها 270 ألف ساعة من بيانات الكلام والنص المحاذاة. يمكن إعادة بناء مجموعة البيانات من قبل المجتمع استنادًا إلى README سلس.

اقتباس

إذا كنت تستخدم سلسًا في عملك أو أي نماذج/مجموعات بيانات/قطعة أثرية منشورة بشكل سلس ، يرجى الاستشهاد:

 @inproceedings { seamless2023 ,
   title = " Seamless: Multilingual Expressive and Streaming Speech Translation " ,
   author="{Seamless Communication}, Lo{"i}c Barrault, Yu-An Chung, Mariano Coria Meglioli, David Dale, Ning Dong, Mark Duppenthaler, Paul-Ambroise Duquenne, Brian Ellis, Hady Elsahar, Justin Haaheim, John Hoffman, Min-Jae Hwang, Hirofumi Inaguma, Christopher Klaiber, Ilia Kulikov, Pengwei Li, Daniel Licht, Jean Maillard, Ruslan Mavlyutov, Alice Rakotoarison, Kaushik Ram Sadagopan, Abinesh Ramakrishnan, Tuan Tran, Guillaume Wenzek, Yilin Yang, Ethan Ye, Ivan Evtimov, Pierre Fernandez, Cynthia Gao, Prangthip Hansanti, Elahe Kalbassi, Amanda Kallet, Artyom Kozhevnikov, Gabriel Mejia, Robin San Roman, Christophe Touret, Corinne Wong, Carleigh Wood, Bokai Yu, Pierre Andrews, Can Balioglu, Peng-Jen Chen, Marta R. Costa-juss{`a}, Maha Elbayad, Hongyu Gong, Francisco Guzm{'a}n, Kevin Heffernan, Somya Jain, Justine Kao, Ann Lee, Xutai Ma, Alex Mourachko, Benjamin Peloquin, Juan Pino, Sravya Popuri, Christophe Ropers, Safiyyah Saleem, Holger Schwenk, Anna Sun, Paden Tomasello, Changhan Wang, Jeff Wang, Skyler Wang, Mary Williamson",
  journal = { ArXiv } ,
  year = { 2023 }
}

رخصة

لدينا ثلاث فئات ترخيص.

يتم ترخيص المكونات التالية غير التنكسية كما هو موجود في MIT_LICENSEN

W2V-Bert 2.0 Encoder
شفرة
نص فقط جزء من مجموعة بيانات mexpresso الموجودة في README SEMLISFEXPRESS.
unity2 مستخرج المحاذاة القسري الموجود في unity2 aligner readme.
أداة سمية الكلام مع مجموعة بيانات Etox الموجودة في Etox ReadMe.
Mutox: مجموعة بيانات السمية متعددة اللغات على أساس الصوت ومكشف الكشف عن طلقة صفرية Mutox ReadMe

النماذج التالية هي CC-BY-NC 4.0 مرخصة كما هو موجود في الترخيص:

نماذج سلس M4T (V1 و V2).
نماذج سلس.

النماذج التالية مرخصة سلسة كما هو موجود في Seamless_license:

نماذج سلسة.
نماذج سلس.

يوسع