Sefless هي عائلة من نماذج الذكاء الاصطناعى تمكن من التواصل الطبيعي والأصيل عبر اللغات. SEMLISLANGS هو نموذج ترجمة متعدد الوسائط متعددة الوسائط ضخمة يدعم حوالي 100 لغة. يعمل Semlessm4T كأساس لـ Seamlessexpression ، وهو نموذج يحافظ على عناصر من النمط والأناقة الصوتية عبر اللغات والسلاسة ، وهو نموذج يدعم الترجمة المتزامنة وتدفق ASR لحوالي 100 لغة. يتم الجمع بين سلس و seamlessing seamless في سلس ، وهو نموذج موحد يضم ترجمات متعددة اللغات والوقت الحقيقي والتعبيرية.
سلس M4T V2 | سلس | سلس | |
---|---|---|---|
العرض التوضيحي | سلس M4T V2 العرض التوضيحي | تجريبي سلس | |
عانق الفضاء العرض التوضيحي | ؟ سلس M4T V2 الفضاء | ؟ مساحة سلسة | ؟ مساحة سلسة |
سلس
إيما
السونار
منظمة العفو الدولية في مدونة Meta
برنامج تعليمي شامل في Neurips 2023 - معرض سلس ، وهو متجر شامل واحد لمعرفة كيفية استخدام مجموعة كاملة من النماذج السلس. لا تتردد في اللعب مع دفتر الملاحظات.
SeflelessM4T هو نموذجنا الأساسي الكل في واحد على بُعد Modeling Ultilingual و M entimodal M achine t model translation يوفر ترجمة عالية الجودة للكلام والنص بحوالي 100 لغة.
نماذج sefellessm4t تدعم مهام:
؟ نقوم بإصدار SEMLessM4T V2 ، وهو نسخة محدثة مع بنية Unity2 الجديدة. يتحسن هذا النموذج الجديد عبر SeflelessM4T V1 في الجودة وكذلك زمن الاستدلال في مهام توليد الكلام.
لمعرفة المزيد حول مجموعة نماذج Seflistm4T ، والنهج المستخدم في كل منها ، وتغطية لغتها وأدائها ، تفضل بزيارة SeamlessM4T readme أو؟ بطاقة النموذج.
ملحوظة
سلس M4T متوفر أيضا في؟ مكتبة المحولات. قم بزيارة هذا القسم لمزيد من التفاصيل.
Seamlessexpressed هو نموذج ترجمة الكلام إلى الكلام الذي يلتقط بعض الجوانب غير المستقرة من الإضافات مثل معدل الكلام والتوقف ، مع الحفاظ على نمط جودة الترجمة الصوتية وجودة المحتوى العالي.
لمعرفة المزيد حول نماذج Semlessexpression ، تفضل بزيارة seamlessexpression readme أو؟ بطاقة النموذج
Seamless -Streaming هو نموذج ترجمة تدفق. يدعم النموذج الكلام كطريقة إدخال والكلام/النص كطرق الإخراج.
يدعم نموذج Seamlessstreaming المهام التالية:
لمعرفة المزيد عن النماذج المسلحة ، تفضل بزيارة Seamlessstreaming readme أو؟ بطاقة النموذج
النموذج السلس هو النموذج الموحد لترجمات الكلام إلى الكلام التعبيرية.
ملحوظة
أحد المتطلبات المسبقة هو FairSeq2 الذي يحتوي على حزم تم إنشاؤها مسبقًا فقط لأجهزة الكمبيوتر Linux X86-64 و Apple-Silicon Mac. بالإضافة إلى ذلك ، فإنه يعتمد على libsndfile الذي قد لا يتم تثبيته على جهازك. إذا واجهت أي مشكلات في التثبيت ، فيرجى الرجوع إلى ReadMe لمزيد من التعليمات.
pip install .
ملحوظة
استخدام صوت الاستدلال لقياس الحوسبة يستخدم Whisper ، والذي يتم تثبيته تلقائيًا. يتطلب Whisper بدوره تثبيت أداة سطر الأوامر ffmpeg
على نظامك ، والذي يتوفر من معظم مديري الحزم.
إليك مثال على استخدام CLI من دليل الجذر لتشغيل الاستدلال.
مهمة S2ST:
m4t_predict < path_to_input_audio > --task s2st --tgt_lang < tgt_lang > --output_path < path_to_save_audio >
مهمة T2TT:
m4t_predict < input_text > --task t2tt --tgt_lang < tgt_lang > --src_lang < src_lang >
يرجى الرجوع إلى الاستدلال ReadMe للحصول على تعليمات مفصلة حول كيفية تشغيل الاستدلال وقائمة اللغات المدعومة على المصدر ، والجوانب المستهدفة للكلام ، وطوابق النص.
لتشغيل S2TT/ASR أصلاً (بدون Python) باستخدام GGML ، يرجى الرجوع إلى قسم Unity.cpp.
ملحوظة
يرجى التحقق من القسم حول كيفية تنزيل النموذج.
إليك مثال على استخدام CLI من دليل الجذر لتشغيل الاستدلال.
expressivity_predict < path_to_input_audio > --tgt_lang < tgt_lang > --model_name seamless_expressivity --vocoder_name vocoder_pretssel --output_path < path_to_save_audio >
يتميز تقييم التدفق بإرشادات مفصلة لتقييم التقييمات للنماذج السلس والسلاسة. يحتوي CLI على خيار --no-scoring
يمكن استخدامه لتخطي جزء التسجيل وتشغيل الاستدلال فقط.
يرجى التحقق من readme الاستدلال لمزيد من التفاصيل.
يمكنك تكرار مساحة HF Seamlessing لتشغيل العرض التجريبي المتدفق.
يمكنك أيضًا تشغيل العرض التوضيحي محليًا ، عن طريق استنساخ المساحة من هنا. راجع ReadMe من REPO Safliststreaming HF لمزيد من التفاصيل حول التثبيت.
لإطلاق نفس المساحة التجريبية التي نستضيفها على وجه المعانقة محليًا:
cd demo
pip install -r requirements.txt
python app.py
اسم النموذج | #Params | نقطة التفتيش | المقاييس |
---|---|---|---|
سلس M4T-large V2 | 2.3b | ؟ بطاقة النموذج - نقطة التفتيش | المقاييس |
سلس M4T-Large (V1) | 2.3b | ؟ بطاقة النموذج - نقطة التفتيش | المقاييس |
سلس Medium (V1) | 1.2 ب | ؟ بطاقة النموذج - نقطة التفتيش | المقاييس |
؟ بطاقة النموذج
للوصول إلى وتنزيل SeamlessExpression ، يرجى طلب القطع الأثرية النموذجية من خلال نموذج الطلب هذا. عند الموافقة ، ستتلقى بعد ذلك بريدًا إلكترونيًا مع روابط تنزيل لكل قطعة أثرية نموذجية.
يرجى ملاحظة أن Seamlessexpression متاح بموجب ترخيصه الخاص وسياسة الاستخدام المقبولة.
اسم النموذج | #Params | نقطة التفتيش | المقاييس |
---|---|---|---|
سلس | 2.5 ب | ؟ بطاقة النموذج - نقطة تفتيش وحدة فك الترميز أحادية - دفق الوحدة 2 | المقاييس |
النموذج السلس هو ببساطة نموذج SeamlessStreaming مع تبديل vocoder_v2
غير التعبير مع vocoder_pretssel
التعبيرية. يرجى مراجعة القسم أعلاه حول كيفية الحصول على نقطة تفتيش vocoder_pretssel
.
اسم النموذج | #Params | نقطة التفتيش |
---|---|---|
W2V-Bert 2.0 | 600 متر | ؟ بطاقة النموذج - نقطة التفتيش |
إليك كيف يجب أن تقوم بتمرير Foward عبر مشفر الكلام:
import torch
from fairseq2 . data . audio import AudioDecoder , WaveformToFbankConverter
from fairseq2 . memory import MemoryBlock
from fairseq2 . nn . padding import get_seqs_and_padding_mask
from fairseq2 . data import Collater
from pathlib import Path
from seamless_communication . models . conformer_shaw import load_conformer_shaw_model
audio_wav_path , device , dtype = ...
audio_decoder = AudioDecoder ( dtype = torch . float32 , device = device )
fbank_converter = WaveformToFbankConverter (
num_mel_bins = 80 ,
waveform_scale = 2 ** 15 ,
channel_last = True ,
standardize = True ,
device = device ,
dtype = dtype ,
)
collater = Collater ( pad_value = 1 )
model = load_conformer_shaw_model ( "conformer_shaw" , device = device , dtype = dtype )
model . eval ()
with Path ( audio_wav_path ). open ( "rb" ) as fb :
block = MemoryBlock ( fb . read ())
decoded_audio = audio_decoder ( block )
src = collater ( fbank_converter ( decoded_audio ))[ "fbank" ]
seqs , padding_mask = get_seqs_and_padding_mask ( src )
with torch . inference_mode ():
seqs , padding_mask = model . encoder_frontend ( seqs , padding_mask )
seqs , padding_mask = model . encoder ( seqs , padding_mask )
لإعادة إنتاج نتائجنا ، أو لتقييم استخدام نفس المقاييس على مجموعات الاختبار الخاصة بك ، يرجى مراجعة README هنا.
فيما يلي البرنامج النصي للتقييم الفعال المكثف.
export MODEL_DIR= " /path/to/SeamlessExpressive/model "
export TEST_SET_TSV= " input.tsv " # Your dataset in a TSV file, with headers "id", "audio"
export TGT_LANG= " spa " # Target language to translate into, options including "fra", "deu", "eng" ("cmn" and "ita" are experimental)
export OUTPUT_DIR= " tmp/ " # Output directory for generated text/unit/waveform
export TGT_TEXT_COL= " tgt_text " # The column in your ${TEST_SET_TSV} for reference target text to calcuate BLEU score. You can skip this argument.
export DFACTOR= " 1.0 " # Duration factor for model inference to tune predicted duration (preddur=DFACTOR*preddur) per each position which affects output speech rate. Greater value means slower speech rate (default to 1.0). See expressive evaluation README for details on duration factor we used.
expressivity_evaluate ${TEST_SET_TSV}
--gated-model-dir ${MODEL_DIR} --task s2st --tgt_lang ${TGT_LANG}
--audio_root_dir " " --output_path ${OUTPUT_DIR} --ref_field ${TGT_TEXT_COL}
--model_name seamless_expressivity --vocoder_name vocoder_pretssel
--text_unk_blocking True --duration_factor ${DFACTOR}
يرجى الاطلاع على قسم ReadMe هذا
يحتوي تقييم التدفق على تعليمات مفصلة لتشغيل التقييمات على النماذج السلس والسلاسة.
لتمكين التواصل السلس في كل مكان ، قمنا بتنفيذ Unity.CPP حتى يتمكن المستخدمون من تشغيل نماذج SEMLessM4T في GGML - مكتبة توتر C مما يتيح تكاملًا أسهل على منصات مطول.
لنسخ/ترجمة صوت معين ،
./ggml/bin/unity --model seamlessM4T_medium.ggml input.wav
للحصول على تفاصيل الإنشاء والمزيد من الاستخدام ، يرجى مراجعة Unity.cpp
أنشأنا مجموعتين من بيانات ترجمة الكلام إلى الكلام ، Mexpresso و MDRAL ، بين اللغة الإنجليزية وخمس لغات أخرى-الفرنسية والألمانية والإيطالية والماندرين والإسبانية. نفتح حاليًا مصدرًا للكلام إلى نص Mexpresso للتوجيهات الخارجية ، وسنقوم بفتح الجزء المتبقي من مجموعات البيانات قريبًا. لمزيد من التفاصيل ، يرجى مراجعة ReadMe
نحن نقدم أول إجراء محاذاة خطاب تعبيري. بدءًا من البيانات الأولية ، يكتشف إجراء المحاذاة التعبيرية تلقائيًا أزواج من قطاعات الصوت التي لا تشارك نفس المعنى فحسب ، بل نفس التعبير العام. لعرض هذا الإجراء ، نقوم بإتاحة البيانات الوصفية لإنشاء مجموعة بيانات القياس التي تسمى Seamlessalignexpression ، والتي يمكن استخدامها للتحقق من جودة طريقة المحاذاة الخاصة بنا. Seflessalignexpressed هي أول مجموعة واسعة النطاق (11K+ ساعات) من محاذاة الصوت متعددة اللغات للترجمة التعبيرية. يمكن الاطلاع على مزيد من التفاصيل على README SEMLessAlignexpression.
يرجى التحقق من readme هنا. لاحظ أن طراز SEMLISLISM4T V1 يستخدم وحدات مخفضة والموديلات الأخرى تستخدم وحدات غير مخفضة.
يعتمد التواصل السلس على 4 مكتبات طورتها Meta.
FAIRSEQ2 هي مكتبة من الجيل التالي من المكتبة المفتوحة للمصدر من مكونات نمذجة التسلسل التي توفر للباحثين والمطورين لبنات بناء للترجمة الآلية ونمذجة اللغة ومهام توليد التسلسل الأخرى. يتم تشغيل جميع نماذج Seflistm4T في هذا المستودع بواسطة FairSeq2.
السونار ، التمثيلات المتعددة الوسائط واللغوية على مستوى الجملة هي مساحة تضمين جملة جديدة متعددة اللغات والتي تتفوق على التضمينات الموجودة في الجملة مثل Laser3 و Labse على XSIM و XSIM ++ لمهام البحث المتعددة اللغات. يوفر Sonar تشفير النص والكلام للعديد من اللغات. تم استخراج سلس على أساس تضمينات السونار.
Blaser 2.0 هو أحدث مقياس تقييم قائم على النماذج للترجمة متعددة الوسائط. إنه امتداد لـ Blaser ، ودعم كل من الكلام والنص. إنه يعمل مباشرة على إشارة المصدر ، وعلى هذا النحو ، لا يتطلب أي نظام ASR وسيط مثل ASR-Bleu. كما هو الحال في الإصدار الأول ، يقوم Blaser 2.0 بتعزيز التشابه بين تضمينات الجملة والمخرجات. السونار هو مساحة التضمين الأساسية لـ Blaser 2.0. يمكن العثور على البرامج النصية لتشغيل التقييم مع Blaser 2.0 في ريبو السونار.
كجزء من مشروع الاتصالات السلس ، قمنا بتمديد مكتبة Stopes. قدم الإصدار 1 أداة تعدين النص إلى نص لإنشاء مجموعة بيانات التدريب لنماذج الترجمة. تم تمديد الإصدار 2 بفضل Sonar ، لدعم المهام حول تدريب نماذج ترجمة الكلام الكبيرة. على وجه الخصوص ، نحن نقدم أدوات لقراءة/كتابة مجموعات بيانات Audiozip فيرسيك وخط أنابيب تعدين جديد يمكنه القيام بالكلام إلى الكلام ، والنص إلى الكلام ، والخطاب إلى النص ، والتعدين النص إلى النص ، وكل ذلك يعتمد على سونار الجديد مساحة تضمين.
Simuleval هي مكتبة تستخدم لتقييم نماذج الترجمة المتنقلة. يوفر Simuleval أيضًا الواجهة الخلفية للجيل باستخدام مدخلات جزئية/تدريجية ذات حالات مرنة/قابلة للتمديد ، والتي يتم استخدامها لتنفيذ استنتاج البث. يحدد المستخدمون الوكلاء الذين يقومون بتطبيق واجهة Simuleval ، والتي يمكن توصيلها معًا في خط أنابيب. يمكنك العثور على وكلاء يتم تنفيذه للسلاسة هنا.
يرجى التحقق من readme هنا.
بصرف النظر عن الطرز السلس M4T (2.3B) والمتوسطة (1.2B) ، فإننا نطلق أيضًا نموذجًا صغيرًا (281 مترًا) يستهدف الاستدلال على الجهاز. لمعرفة المزيد حول الاستخدام والتفاصيل النموذجية ، تحقق من README هنا.
نحن نفتح المصنفات الوصفية لسلاسة ، أكبر مجموعة بيانات مفتوحة للترجمة متعددة الوسائط ، والتي بلغ مجموعها 270 ألف ساعة من بيانات الكلام والنص المحاذاة. يمكن إعادة بناء مجموعة البيانات من قبل المجتمع استنادًا إلى README سلس.
إذا كنت تستخدم سلسًا في عملك أو أي نماذج/مجموعات بيانات/قطعة أثرية منشورة بشكل سلس ، يرجى الاستشهاد:
@inproceedings { seamless2023 ,
title = " Seamless: Multilingual Expressive and Streaming Speech Translation " ,
author="{Seamless Communication}, Lo{"i}c Barrault, Yu-An Chung, Mariano Coria Meglioli, David Dale, Ning Dong, Mark Duppenthaler, Paul-Ambroise Duquenne, Brian Ellis, Hady Elsahar, Justin Haaheim, John Hoffman, Min-Jae Hwang, Hirofumi Inaguma, Christopher Klaiber, Ilia Kulikov, Pengwei Li, Daniel Licht, Jean Maillard, Ruslan Mavlyutov, Alice Rakotoarison, Kaushik Ram Sadagopan, Abinesh Ramakrishnan, Tuan Tran, Guillaume Wenzek, Yilin Yang, Ethan Ye, Ivan Evtimov, Pierre Fernandez, Cynthia Gao, Prangthip Hansanti, Elahe Kalbassi, Amanda Kallet, Artyom Kozhevnikov, Gabriel Mejia, Robin San Roman, Christophe Touret, Corinne Wong, Carleigh Wood, Bokai Yu, Pierre Andrews, Can Balioglu, Peng-Jen Chen, Marta R. Costa-juss{`a}, Maha Elbayad, Hongyu Gong, Francisco Guzm{'a}n, Kevin Heffernan, Somya Jain, Justine Kao, Ann Lee, Xutai Ma, Alex Mourachko, Benjamin Peloquin, Juan Pino, Sravya Popuri, Christophe Ropers, Safiyyah Saleem, Holger Schwenk, Anna Sun, Paden Tomasello, Changhan Wang, Jeff Wang, Skyler Wang, Mary Williamson",
journal = { ArXiv } ,
year = { 2023 }
}
لدينا ثلاث فئات ترخيص.
يتم ترخيص المكونات التالية غير التنكسية كما هو موجود في MIT_LICENSEN
النماذج التالية هي CC-BY-NC 4.0 مرخصة كما هو موجود في الترخيص:
النماذج التالية مرخصة سلسة كما هو موجود في Seamless_license: