ดาวน์โหลด FunASR - ดาวน์โหลดซอร์สโค้ด FunASR

(简体中文|อังกฤษ)

FunASR หวังที่จะสร้างสะพานเชื่อมระหว่างการวิจัยเชิงวิชาการและการใช้งานทางอุตสาหกรรมเกี่ยวกับการรู้จำเสียง ด้วยการสนับสนุนการฝึกอบรมและการปรับแต่งโมเดลการรู้จำเสียงระดับอุตสาหกรรม นักวิจัยและนักพัฒนาจึงสามารถดำเนินการวิจัยและผลิตโมเดลการรู้จำเสียงได้สะดวกยิ่งขึ้น และส่งเสริมการพัฒนานิเวศวิทยาการรู้จำเสียง ASR เพื่อความสนุก！

ไฮไลท์

FunASR เป็นชุดเครื่องมือการรู้จำเสียงขั้นพื้นฐานที่นำเสนอคุณสมบัติที่หลากหลาย รวมถึงการรู้จำเสียงพูด (ASR) การตรวจจับกิจกรรมเสียง (VAD) การกู้คืนเครื่องหมายวรรคตอน โมเดลภาษา การตรวจสอบผู้พูด การแยกเสียงของผู้พูด และ ASR ของผู้พูดหลายคน FunASR มีสคริปต์และบทช่วยสอนที่สะดวกสบาย รองรับการอนุมานและการปรับแต่งโมเดลที่ได้รับการฝึกล่วงหน้าอย่างละเอียด
เราได้เปิดตัวคอลเลกชันแบบจำลองล่วงหน้าทางวิชาการและอุตสาหกรรมมากมายบน ModelScope และ Huggingface ซึ่งสามารถเข้าถึงได้ผ่าน Model Zoo ของเรา Paraformer-large ซึ่งเป็นโมเดลการรู้จำเสียงแบบ end-to-end แบบไม่ถอยอัตโนมัติ มีข้อดีคือ มีความแม่นยำสูง มีประสิทธิภาพสูง และใช้งานได้สะดวก ซึ่งสนับสนุนการสร้างบริการรู้จำเสียงอย่างรวดเร็ว สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับการใช้บริการ โปรดดูเอกสารการปรับใช้บริการ

มีอะไรใหม่:

29/10/2024: เปิดตัวบริการถอดความแบบเรียลไทม์ 1.12 โหมด 2pass-offline รองรับโมเดล SensevoiceSmal (เอกสาร);
10/10/2024：เพิ่มการรองรับสำหรับรุ่น Whisper-large-v3-turbo ซึ่งเป็นโมเดลมัลติทาสก์ที่สามารถทำการรู้จำคำพูดหลายภาษา การแปลคำพูด และการระบุภาษา สามารถดาวน์โหลดได้จาก modelscope และ openai
26/09/2024: บริการถอดความไฟล์ออฟไลน์ 4.6 บริการถอดความไฟล์ออฟไลน์ภาษาอังกฤษ 1.7 เปิดตัวบริการถอดเสียงแบบเรียลไทม์ 1.11 แก้ไขหน่วยความจำรั่ว & รองรับรุ่น SensevoiceSmall onnx เปิดตัวบริการถอดเสียงไฟล์ 2.0 GPU แก้ไขหน่วยความจำ GPU รั่ว (เอกสาร);
25/09/2024：รองรับโมเดลการระบุคำหลักใหม่แล้ว รองรับการปรับแต่งและการอนุมานอย่างละเอียดสำหรับสี่รุ่น: fsmn_kws, fsmn_kws_mt, sanm_kws, sanm_kws_streaming
07/07/2024：SenseVoice เป็นโมเดลพื้นฐานคำพูดที่มีความสามารถในการเข้าใจคำพูดที่หลากหลาย รวมถึง ASR, LID, SER และ AED
2024/07/01: เปิดตัวบริการถอดความไฟล์ออฟไลน์ GPU 1.1 เพิ่มประสิทธิภาพปัญหาความเข้ากันได้ของโมเดล BladeDISC อ้างอิงถึง (เอกสาร)
27/06/2024: เปิดตัวบริการถอดความไฟล์ออฟไลน์ GPU 1.0 รองรับการประมวลผลแบตช์แบบไดนามิกและการทำงานพร้อมกันแบบมัลติเธรด ในชุดทดสอบเสียงแบบยาว RTF แบบเธรดเดี่ยวคือ 0.0076 และการเร่งความเร็วแบบหลายเธรดคือ 1200+ (เทียบกับ 330+ บน CPU) อ้างอิงถึง (เอกสาร)
5/2024/58：รองรับโมเดลการจดจำอารมณ์ใหม่แล้ว Emotion2vec+ขนาดใหญ่，Emotion2vec+ฐาน，emotion2vec+เมล็ด ปัจจุบันรองรับหมวดหมู่ต่อไปนี้: 0: โกรธ 1: มีความสุข 2: เป็นกลาง 3: เศร้า 4: ไม่ทราบ
5/05/2024: บริการถอดความไฟล์ออฟไลน์ 4.5 บริการถอดความไฟล์ออฟไลน์ภาษาอังกฤษ 1.6 เปิดตัวบริการถอดความแบบเรียลไทม์ 1.10 ปรับเข้ากับโครงสร้างโมเดล FunASR 1.0 (เอกสาร)

บันทึกการเปลี่ยนแปลงฉบับเต็ม

2024/03/05：เพิ่มโมเดลมัลติโมดัลข้อความเสียงขนาดใหญ่ของ Qwen-Audio และ Qwen-Audio-Chat ซึ่งมีอันดับสูงสุดในกระดานผู้นำโดเมนเสียงหลายรายการ โมเดลเหล่านี้รองรับบทสนทนาคำพูด การใช้งาน
05/03/2024：เพิ่มการรองรับสำหรับโมเดล Whisper-large-v3 ซึ่งเป็นโมเดลมัลติทาสก์ที่สามารถทำการรู้จำคำพูดหลายภาษา การแปลคำพูด และการระบุภาษา สามารถดาวน์โหลดได้จาก themodelscope และ openai
2024/03/05: Offline File Transcription Service 4.4, Offline File Transcription Service of English 1.5,Real-time Transcription Service 1.9 release, docker image รองรับแพลตฟอร์ม ARM64, update modelscope; (docs)
30/01/2024：funasr-1.0 เปิดตัวแล้ว (เอกสาร)
30/01/2024：รองรับโมเดลการจดจำอารมณ์ใหม่แล้ว ลิงค์โมเดล แก้ไขจาก repo
25/01/2024: Offline File Transcription Service 4.2, Offline File Transcription Service of English 1.3 เปิดตัว, ปรับวิธีการประมวลผลข้อมูล VAD (Voice Activity Detection) ให้เหมาะสม, ลดการใช้หน่วยความจำสูงสุด, การเพิ่มประสิทธิภาพหน่วยความจำรั่ว; เปิดตัวบริการถอดความแบบเรียลไทม์ 1.7 ปรับประสิทธิภาพฝั่งไคลเอ็นต์ให้เหมาะสม (เอกสาร)
09/01/2024: Funasr SDK สำหรับ Windows เวอร์ชัน 2.0 เปิดตัวแล้ว โดยรองรับบริการถอดความไฟล์แบบออฟไลน์ (CPU) ของภาษาจีนกลาง 4.1, บริการถอดเสียงไฟล์แบบออฟไลน์ (CPU) ของภาษาอังกฤษ 1.2, บริการถอดเสียงแบบเรียลไทม์ (CPU) ของภาษาจีนกลาง 1.6 สำหรับรายละเอียดเพิ่มเติม โปรดดูเอกสารอย่างเป็นทางการหรือบันทึกประจำรุ่น (FunASR-Runtime-Windows)
2024/01/03: เปิดตัวบริการถอดความไฟล์ 4.0 เพิ่มการรองรับสำหรับโมเดล 8k เพิ่มประสิทธิภาพปัญหาความไม่ตรงกันของการประทับเวลา และเพิ่มการประทับเวลาระดับประโยค ปรับปรุงประสิทธิภาพของคำที่นิยม FST คำภาษาอังกฤษ รองรับการกำหนดค่าพารามิเตอร์เธรดอัตโนมัติ และแก้ไขปัญหาข้อขัดข้องที่ทราบแล้ว รวมถึงปัญหาหน่วยความจำรั่ว โปรดดูที่ (เอกสาร)
03/01/2024: เปิดตัวบริการถอดความแบบเรียลไทม์ 1.6 โหมด 2pass-offline รองรับการถอดรหัสโมเดลภาษา Ngram และคำที่นิยม WFST ในขณะเดียวกันก็แก้ไขปัญหาข้อขัดข้องที่ทราบและปัญหาหน่วยความจำรั่ว (เอกสาร)
2024/01/03: แก้ไขปัญหาข้อขัดข้องที่ทราบแล้ว รวมถึงปัญหาหน่วยความจำรั่ว (เอกสาร)
12/04/2023: Funasr SDK สำหรับ Windows เวอร์ชัน 1.0 เปิดตัวแล้ว โดยรองรับบริการถอดเสียงไฟล์แบบออฟไลน์ (CPU) ของภาษาจีนกลาง, บริการถอดเสียงไฟล์แบบออฟไลน์ (CPU) ของภาษาอังกฤษ, บริการถอดเสียงแบบเรียลไทม์ (CPU) ) ของภาษาจีนกลาง สำหรับรายละเอียดเพิ่มเติม โปรดดูเอกสารอย่างเป็นทางการหรือบันทึกประจำรุ่น (FunASR-Runtime-Windows)
11/08/2023: เปิดตัวบริการถอดความไฟล์ออฟไลน์ 3.0 (CPU) ของภาษาจีนกลางแล้ว โดยเพิ่มเครื่องหมายวรรคตอนขนาดใหญ่ โมเดลภาษา Ngram และคำยอดนิยม wfst สำหรับข้อมูลโดยละเอียด โปรดดูเอกสาร
10/10/2023: เปิดตัวบริการถอดรหัสไฟล์ออฟไลน์ (CPU) ภาษาอังกฤษแล้ว สำหรับรายละเอียดเพิ่มเติม โปรดดูที่ (เอกสาร)
10/10/2023: SlideSpeech: คลังภาพและเสียงหลายรูปแบบขนาดใหญ่พร้อมสไลด์ที่ซิงโครไนซ์แบบเรียลไทม์จำนวนมาก
10/10/2023: ไปป์ไลน์รวม ASR-SpeakersDiarization Paraformer-VAD-SPK เปิดตัวแล้ว สัมผัสประสบการณ์โมเดลเพื่อรับผลลัพธ์การจดจำพร้อมข้อมูลผู้พูด
10/07/2023: FunCodec: ชุดเครื่องมือโอเพ่นซอร์สพื้นฐาน ทำซ้ำได้ และบูรณาการได้สำหรับตัวแปลงสัญญาณคำพูดทางประสาท
09/09/2023: บริการถอดความไฟล์ออฟไลน์ 2.0 (CPU) ของภาษาจีนกลางได้รับการเผยแพร่แล้ว พร้อมการรองรับเพิ่มเติมสำหรับโมเดล ffmpeg การประทับเวลา และคำที่นิยม สำหรับรายละเอียดเพิ่มเติม โปรดดูที่ (เอกสาร)
08/07/2023: เปิดตัวบริการถอดเสียง (CPU) แบบเรียลไทม์ของภาษาจีนกลางแล้ว สำหรับรายละเอียดเพิ่มเติม โปรดดูที่ (เอกสาร)
2023/07/17: BAT เปิดตัวแล้ว ซึ่งเป็นรุ่น RNN-T ที่มีความหน่วงต่ำและใช้หน่วยความจำต่ำ สำหรับรายละเอียดเพิ่มเติม โปรดดูที่ (BAT)
26/06/2023: ASRU2023 Multi-Channel Multi-Party Meeting Transcription Challenge 2.0 เสร็จสิ้นการแข่งขันและประกาศผล สำหรับรายละเอียดเพิ่มเติม โปรดดูที่ (M2MeT2.0)

การติดตั้ง

ความต้องการ

 python>=3.8
torch>=1.13
torchaudio

ติดตั้งสำหรับ pypi

pip3 install -U funasr

หรือติดตั้งจากซอร์สโค้ด

git clone https://github.com/alibaba/FunASR.git && cd FunASR
pip3 install -e ./

ติดตั้ง modelscope หรือ Huggingface_hub สำหรับโมเดลที่ได้รับการฝึกล่วงหน้า (ไม่บังคับ)

pip3 install -U modelscope huggingface_hub

สวนสัตว์จำลอง

FunASR ได้ใช้โมเดลที่ได้รับการฝึกอบรมล่วงหน้าจำนวนมากเกี่ยวกับข้อมูลอุตสาหกรรมแบบโอเพ่นซอร์ส คุณสามารถใช้ คัดลอก แก้ไข และแบ่งปันโมเดล FunASR ได้อย่างอิสระภายใต้ข้อตกลงสิทธิ์การใช้งานโมเดล ด้านล่างนี้คือรุ่นตัวอย่างบางส่วน สำหรับรุ่นอื่นๆ โปรดดูที่ Model Zoo

(หมายเหตุ: ⭐ หมายถึงสวนสัตว์จำลอง ModelScope, ? หมายถึงสวนสัตว์จำลอง Huggingface, ? หมายถึงสวนสัตว์จำลอง OpenAI)

ชื่อรุ่น	รายละเอียดงาน	ข้อมูลการฝึกอบรม	พารามิเตอร์
SenseVoiceSmall ( ? )	ความสามารถในการเข้าใจคำพูดหลายภาษา รวมถึง ASR, ITN, LID, SER และ AED รองรับภาษาต่างๆ เช่น zh, yue, en, ja, ko	300,000 ชั่วโมง	234ม
พาราฟอร์มเมอร์-zh ( ? )	การรู้จำเสียงพูดพร้อมการประทับเวลาไม่ใช่การสตรีม	60,000 ชั่วโมง ภาษาจีนกลาง	220ม
paraformer-zh-สตรีมมิ่ง ( ? )	การรู้จำเสียง, การสตรีม	60,000 ชั่วโมง ภาษาจีนกลาง	220ม
paraformer-th ( ? )	การรู้จำเสียงพูด ไม่มีการประทับเวลา ไม่สตรีมมิ่ง	50,000 ชั่วโมง ภาษาอังกฤษ	220ม
ผู้ประสานงาน-en ( ? )	การรู้จำเสียงพูดไม่ใช่การสตรีม	50,000 ชั่วโมง ภาษาอังกฤษ	220ม
กะรัต-punc ( ? )	การคืนค่าเครื่องหมายวรรคตอน	100M จีนกลางและอังกฤษ	290ม
fsmn-vad ( ? )	การตรวจจับกิจกรรมเสียง	5,000 ชั่วโมง ภาษาจีนกลางและภาษาอังกฤษ	0.4M
fsmn-กิโลวัตต์ ( )	การจำแนกคำหลักสตรีมมิ่ง	5,000 ชั่วโมง ภาษาจีนกลาง	0.7M
ฟา-zh ( ? )	การทำนายเวลา	5,000 ชั่วโมง ภาษาจีนกลาง	38ม
ลูกเบี้ยว++ ( ? )	การตรวจสอบวิทยากร / การถอดเสียง	5,000 ชั่วโมง	7.2ล้าน
กระซิบขนาดใหญ่-v3 ( ? )	การรู้จำเสียงพูดพร้อมการประทับเวลาไม่ใช่การสตรีม	พูดได้หลายภาษา	1550 ม
กระซิบ-ขนาดใหญ่-v3-เทอร์โบ ( ? )	การรู้จำเสียงพูดพร้อมการประทับเวลาไม่ใช่การสตรีม	พูดได้หลายภาษา	809 ม
Qwen-เสียง ( ? )	แบบจำลองมัลติโมดัลเสียงและข้อความ (การฝึกล่วงหน้า)	พูดได้หลายภาษา	8B
Qwen-เสียง-แชท ( ? )	โมเดลมัลติโมดัลเสียงและข้อความ (แชท)	พูดได้หลายภาษา	8B
Emotion2vec+ใหญ่ ( ? )	การคืนดีของอารมณ์คำพูด	40,000 ชั่วโมง	300ม

เริ่มต้นอย่างรวดเร็ว

ด้านล่างนี้คือบทช่วยสอนเริ่มต้นอย่างรวดเร็ว ทดสอบไฟล์เสียง (จีนกลาง, อังกฤษ)

การใช้บรรทัดคำสั่ง

funasr ++model=paraformer-zh ++vad_model= " fsmn-vad " ++punc_model= " ct-punc " ++input=asr_example_zh.wav

หมายเหตุ: รองรับการจดจำไฟล์เสียงเดี่ยว รวมถึงรายการไฟล์ในรูปแบบ wav.scp สไตล์ Kaldi: wav_id wav_pat

การรู้จำเสียง (ไม่สตรีมมิ่ง)

เซนส์วอยซ์

 from funasr import AutoModel
from funasr . utils . postprocess_utils import rich_transcription_postprocess

model_dir = "iic/SenseVoiceSmall"

model = AutoModel (
    model = model_dir ,
    vad_model = "fsmn-vad" ,
    vad_kwargs = { "max_single_segment_time" : 30000 },
    device = "cuda:0" ,
)

# en
res = model . generate (
    input = f" { model . model_path } /example/en.mp3" ,
    cache = {},
    language = "auto" ,  # "zn", "en", "yue", "ja", "ko", "nospeech"
    use_itn = True ,
    batch_size_s = 60 ,
    merge_vad = True ,  #
    merge_length_s = 15 ,
)
text = rich_transcription_postprocess ( res [ 0 ][ "text" ])
print ( text )

คำอธิบายพารามิเตอร์:

model_dir : ชื่อของโมเดลหรือพาธไปยังโมเดลบนโลคัลดิสก์
vad_model : สิ่งนี้บ่งบอกถึงการเปิดใช้งาน VAD (การตรวจจับกิจกรรมเสียง) วัตถุประสงค์ของ VAD คือการแบ่งเสียงยาวออกเป็นคลิปที่สั้นลง ในกรณีนี้ เวลาอนุมานจะรวมปริมาณการใช้ทั้งหมดของ VAD และ SenseVoice และแสดงถึงเวลาแฝงจากต้นทางถึงปลายทาง หากคุณต้องการทดสอบเวลาอนุมานของโมเดล SenseVoice แยกกัน คุณสามารถปิดใช้งานโมเดล VAD ได้
vad_kwargs : ระบุการกำหนดค่าสำหรับรุ่น VAD max_single_segment_time : หมายถึงระยะเวลาสูงสุดสำหรับการแบ่งส่วนเสียงโดย vad_model โดยมีหน่วยเป็นมิลลิวินาที (ms)
use_itn : ผลลัพธ์เอาต์พุตจะมีเครื่องหมายวรรคตอนและการทำให้ข้อความเป็นมาตรฐานผกผันหรือไม่
batch_size_s : ระบุการใช้การแบทช์แบบไดนามิก โดยที่ระยะเวลารวมของเสียงในชุดจะวัดเป็นวินาที
merge_vad : ว่าจะรวมส่วนเสียงสั้น ๆ ที่แบ่งกลุ่มตามโมเดล VAD โดยมีความยาวที่รวมเป็น merge_length_s ในหน่วยวินาทีหรือไม่
ban_emo_unk : ว่าจะแบนเอาต์พุตของโทเค็น emo_unk หรือไม่

พาราฟอร์มเมอร์

 from funasr import AutoModel
# paraformer-zh is a multi-functional asr model
# use vad, punc, spk or not as you need
model = AutoModel ( model = "paraformer-zh" ,  vad_model = "fsmn-vad" ,  punc_model = "ct-punc" , 
                  # spk_model="cam++", 
                  )
res = model . generate ( input = f" { model . model_path } /example/asr_example.wav" , 
                     batch_size_s = 300 , 
                     hotword = '魔搭' )
print ( res )

หมายเหตุ: hub : แสดงถึงที่เก็บโมเดล ms ย่อมาจากการเลือกการดาวน์โหลด ModelScope hf ย่อมาจากการเลือกการดาวน์โหลด Huggingface

การรู้จำเสียง (สตรีมมิ่ง)

 from funasr import AutoModel

chunk_size = [ 0 , 10 , 5 ] #[0, 10, 5] 600ms, [0, 8, 4] 480ms
encoder_chunk_look_back = 4 #number of chunks to lookback for encoder self-attention
decoder_chunk_look_back = 1 #number of encoder chunks to lookback for decoder cross-attention

model = AutoModel ( model = "paraformer-zh-streaming" )

import soundfile
import os

wav_file = os . path . join ( model . model_path , "example/asr_example.wav" )
speech , sample_rate = soundfile . read ( wav_file )
chunk_stride = chunk_size [ 1 ] * 960 # 600ms

cache = {}
total_chunk_num = int ( len (( speech ) - 1 ) / chunk_stride + 1 )
for i in range ( total_chunk_num ):
    speech_chunk = speech [ i * chunk_stride :( i + 1 ) * chunk_stride ]
    is_final = i == total_chunk_num - 1
    res = model . generate ( input = speech_chunk , cache = cache , is_final = is_final , chunk_size = chunk_size , encoder_chunk_look_back = encoder_chunk_look_back , decoder_chunk_look_back = decoder_chunk_look_back )
    print ( res )

หมายเหตุ: chunk_size คือการกำหนดค่าสำหรับการสตรีมเวลาในการตอบสนอง [0,10,5] บ่งชี้ว่ารายละเอียดการแสดงผลแบบเรียลไทม์คือ 10*60=600ms และข้อมูล lookahead คือ 5*60=300ms อินพุตการอนุมานแต่ละรายการคือ 600ms (จุดตัวอย่างคือ 16000*0.6=960 ) และเอาต์พุตเป็นข้อความที่สอดคล้องกัน สำหรับการป้อนข้อมูลส่วนของคำพูดสุดท้าย is_final=True จำเป็นต้องตั้งค่าเพื่อบังคับเอาต์พุตของคำสุดท้าย

ตัวอย่างเพิ่มเติม

การตรวจจับกิจกรรมเสียง (ไม่สตรีมมิ่ง)

 from funasr import AutoModel

model = AutoModel ( model = "fsmn-vad" )
wav_file = f" { model . model_path } /example/vad_example.wav"
res = model . generate ( input = wav_file )
print ( res )

หมายเหตุ: รูปแบบเอาต์พุตของรุ่น VAD คือ: [[beg1, end1], [beg2, end2], ..., [begN, endN]] โดยที่ begN/endN ระบุจุดเริ่มต้น/จุดสิ้นสุดของ N-th ส่วนเสียงที่ถูกต้อง วัดเป็นมิลลิวินาที

การตรวจจับกิจกรรมเสียง (สตรีมมิ่ง)

 from funasr import AutoModel

chunk_size = 200 # ms
model = AutoModel ( model = "fsmn-vad" )

import soundfile

wav_file = f" { model . model_path } /example/vad_example.wav"
speech , sample_rate = soundfile . read ( wav_file )
chunk_stride = int ( chunk_size * sample_rate / 1000 )

cache = {}
total_chunk_num = int ( len (( speech ) - 1 ) / chunk_stride + 1 )
for i in range ( total_chunk_num ):
    speech_chunk = speech [ i * chunk_stride :( i + 1 ) * chunk_stride ]
    is_final = i == total_chunk_num - 1
    res = model . generate ( input = speech_chunk , cache = cache , is_final = is_final , chunk_size = chunk_size )
    if len ( res [ 0 ][ "value" ]):
        print ( res )

หมายเหตุ: รูปแบบเอาต์พุตสำหรับรุ่น VAD แบบสตรีมมิงสามารถเป็นหนึ่งในสี่สถานการณ์:

[[beg1, end1], [beg2, end2], .., [begN, endN]] ：เหมือนกับผลลัพธ์เอาต์พุต VAD ออฟไลน์ที่กล่าวถึงข้างต้น
[[beg, -1]] ：แสดงว่าตรวจพบเพียงจุดเริ่มต้นเท่านั้น
[[-1, end]] ：แสดงว่าตรวจพบเฉพาะจุดสิ้นสุดเท่านั้น
[] ：แสดงว่าไม่พบจุดเริ่มต้นหรือจุดสิ้นสุด

เอาต์พุตจะวัดเป็นมิลลิวินาทีและแสดงเวลาที่แน่นอนจากจุดเริ่มต้น

การฟื้นฟูเครื่องหมายวรรคตอน

 from funasr import AutoModel

model = AutoModel ( model = "ct-punc" )
res = model . generate ( input = "那今天的会就到这里吧 happy new year 明年见" )
print ( res )

การทำนายการประทับเวลา

 from funasr import AutoModel

model = AutoModel ( model = "fa-zh" )
wav_file = f" { model . model_path } /example/asr_example.wav"
text_file = f" { model . model_path } /example/text.txt"
res = model . generate ( input = ( wav_file , text_file ), data_type = ( "sound" , "text" ))
print ( res )

การรับรู้อารมณ์คำพูด

 from funasr import AutoModel

model = AutoModel ( model = "emotion2vec_plus_large" )

wav_file = f" { model . model_path } /example/test.wav"

res = model . generate ( wav_file , output_dir = "./outputs" , granularity = "utterance" , extract_embedding = False )
print ( res )

การใช้งานเพิ่มเติมอ้างอิงถึงเอกสาร ตัวอย่างเพิ่มเติมอ้างอิงถึงการสาธิต

ส่งออก ONNX

การใช้บรรทัดคำสั่ง

funasr-export ++model=paraformer ++quantize=false ++device=cpu

หลาม

 from funasr import AutoModel

model = AutoModel ( model = "paraformer" , device = "cpu" )

res = model . export ( quantize = False )

ทดสอบ ONNX

 # pip3 install -U funasr-onnx
from funasr_onnx import Paraformer
model_dir = "damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch"
model = Paraformer ( model_dir , batch_size = 1 , quantize = True )

wav_path = [ '~/.cache/modelscope/hub/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/example/asr_example.wav' ]

result = model ( wav_path )
print ( result )

ตัวอย่างเพิ่มเติมอ้างอิงถึงการสาธิต

บริการปรับใช้

FunASR รองรับการปรับใช้โมเดลที่ได้รับการฝึกอบรมล่วงหน้าหรือที่ได้รับการปรับแต่งเพิ่มเติมสำหรับการบริการ ปัจจุบันรองรับการปรับใช้บริการประเภทต่อไปนี้:

บริการถอดไฟล์ภาษาจีนกลาง เวอร์ชั่น CPU เสร็จเรียบร้อย
บริการถอดเสียงภาษาจีนกลาง (CPU) แบบเรียลไทม์เสร็จสิ้นแล้ว
บริการถอดไฟล์ภาษาอังกฤษ เวอร์ชั่น CPU เสร็จเรียบร้อย
บริการถอดเสียงไฟล์ ภาษาจีนกลาง เวอร์ชัน GPU อยู่ในระหว่างดำเนินการ
และอีกมากมาย

สำหรับข้อมูลโดยละเอียดเพิ่มเติม โปรดดูเอกสารประกอบการปรับใช้บริการ

การสื่อสารชุมชน

หากคุณพบปัญหาในการใช้งาน คุณสามารถแจ้งปัญหาได้โดยตรงที่หน้า GitHub

คุณยังสามารถสแกนกลุ่ม DingTalk ต่อไปนี้เพื่อเข้าร่วมกลุ่มชุมชนเพื่อการสื่อสารและการสนทนา

กลุ่มติงทอล์ค

ผู้ร่วมให้ข้อมูล

ผู้ร่วมให้ข้อมูลสามารถพบได้ในรายชื่อผู้ร่วมให้ข้อมูล

ใบอนุญาต

โครงการนี้ได้รับอนุญาตภายใต้ใบอนุญาต MIT FunASR ยังมีส่วนประกอบของบุคคลที่สามและโค้ดบางส่วนที่แก้ไขจาก repos อื่น ๆ ภายใต้ใบอนุญาตโอเพ่นซอร์สอื่น ๆ การใช้แบบจำลองการฝึกล่วงหน้าขึ้นอยู่กับใบอนุญาตแบบจำลอง

การอ้างอิง

 @inproceedings { gao2023funasr ,
  author = { Zhifu Gao and Zerui Li and Jiaming Wang and Haoneng Luo and Xian Shi and Mengzhe Chen and Yabin Li and Lingyun Zuo and Zhihao Du and Zhangyu Xiao and Shiliang Zhang } ,
  title = { FunASR: A Fundamental End-to-End Speech Recognition Toolkit } ,
  year = { 2023 } ,
  booktitle = { INTERSPEECH } ,
}
@inproceedings { An2023bat ,
  author = { Keyu An and Xian Shi and Shiliang Zhang } ,
  title = { BAT: Boundary aware transducer for memory-efficient and low-latency ASR } ,
  year = { 2023 } ,
  booktitle = { INTERSPEECH } ,
}
@inproceedings { gao22b_interspeech ,
  author = { Zhifu Gao and ShiLiang Zhang and Ian McLoughlin and Zhijie Yan } ,
  title = { Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech Recognition } ,
  year = 2022 ,
  booktitle = { Proc. Interspeech 2022 } ,
  pages = { 2063--2067 } ,
  doi = { 10.21437/Interspeech.2022-9996 }
}
@inproceedings { shi2023seaco ,
  author = { Xian Shi and Yexin Yang and Zerui Li and Yanni Chen and Zhifu Gao and Shiliang Zhang } ,
  title = { SeACo-Paraformer: A Non-Autoregressive ASR System with Flexible and Effective Hotword Customization Ability } ,
  year = { 2023 } ,
  booktitle = { ICASSP2024 }
}