FunASR下載 - FunASR原始碼下載

(簡體中文|English)

FunASR希望在語音辨識的學術研究和工業應用之間架起一座橋樑。透過支援工業級語音辨識模型的訓練和微調，研究開發者可以更便捷地進行語音辨識模型的研究和生產，並推動語音辨識生態的發展。 ASR 的樂趣！

亮點|新聞|安裝|快速入門|教程|運行時|模型動物園|接觸

亮點

FunASR 是一個基本的語音辨識工具包，提供多種功能，包括語音辨識 (ASR)、語音活動偵測 (VAD)、標點符號恢復、語言模型、說話者驗證、說話者分類和多說話者 ASR。 FunASR提供方便的腳本和教程，支援預訓練模型的推理和微調。
我們在 ModelScope 和 Huggingface 上發布了大量學術和工業預訓練模型，可以透過我們的 Model Zoo 存取這些模型。代表性的Paraformer-large是一種非自回歸的端對端語音辨識模型，具有準確率高、效率高、部署方便性等優點，支援語音辨識服務的快速建置。有關服務部署的更多詳細信息，請參閱服務部署文件。

什麼是新的：

2024/10/29: 即時轉錄服務1.12發布，2pass離線模式支援SensevoiceSmal模型；(docs);
2024/10/10：增加了對 Whisper-large-v3-turbo 模型的支持，這是一種多任務模型，可以執行多語言語音識別、語音翻譯和語言識別。可以從modelscope和openai下載。
2024/09/26: 離線檔案轉錄服務4.6、英文離線檔案轉錄服務1.7，即時轉錄服務1.11發布，修復記憶體洩漏並支援SensevoiceSmall onnx模型；檔案轉錄服務2.0 GPU發布，修復GPU記憶體洩漏； (文件);
2024/09/25：新增支援關鍵字辨識模型。支持四個模型的微調和推理：fsmn_kws、fsmn_kws_mt、sanm_kws、sanm_kws_streaming。
2024/07/04：SenseVoice是一個語音基礎模型，具有ASR、LID、SER、AED等多種語音理解能力。
2024/07/01：離線檔案轉錄服務GPU 1.1發布，優化BladeDISC模型相容性問題；參考（文件）
2024/06/27：離線檔案轉錄服務GPU 1.0發布，支援動態批次和多執行緒並發。在長音訊測試集中，單執行緒RTF為0.0076，多執行緒加速比為1200+（CPU上為330+）；參考（文件）
2024/05/15：新增支援情緒辨識模型。 emotion2vec+large，emotion2vec+base，emotion2vec+seed。目前支持以下類別：0：憤怒 1：快樂 2：中性 3：悲傷 4：未知。
2024/05/15: 離線檔案轉錄服務4.5、英語離線檔案轉錄服務1.6，即時轉錄服務1.10發布，適配FunASR 1.0模型結構；(docs)

完整變更日誌

2024/03/05：新增Qwen-Audio和Qwen-Audio-Chat大規模音文多模態模型，在多個音訊領域排行榜上名列前茅。這些模型支援語音對話、使用。
2024/03/05：增加了對 Whisper-large-v3 模型的支持，這是一種多任務模型，可以執行多語言語音識別、語音翻譯和語言識別。可從themodelscope和openai下載。
2024/03/05: 離線檔案轉錄服務4.4、英語離線檔案轉錄服務1.5，即時轉錄服務1.9發布，docker映像支援ARM64平台，更新modelscope；(docs)
2024/01/30：funasr-1.0 已發布（文件）
2024/01/30：新增支援情緒辨識模型。模型鏈接，從儲存庫修改。
2024/01/25：離線檔案轉錄服務4.2、英語離線檔案轉錄服務1.3發布，優化VAD（語音活動偵測）資料處理方式，大幅降低記憶體峰值，記憶體外洩優化；即時轉錄服務1.7發布，優化客戶端；(docs)
2024/01/09：Funasr SDK for Windows 2.0版本發布，支援普通話4.1離線文件轉錄服務（CPU）、英語1.2離線文件轉錄服務（CPU）、即時轉錄服務（CPU）普通話1.6。更多詳細資訊請參考官方文件或發行說明(FunASR-Runtime-Windows)
2024/01/03：文件轉錄服務4.0發布，新增對8k模型的支持，優化時間戳不匹配問題並添加句子級時間戳，提高英文單詞FST熱詞的有效性，支持線程參數自動配置，修復已知崩潰問題以及記憶體洩漏問題，請參閱（docs）。
2024/01/03：即時轉錄服務1.6發布，2pass離線模式支援Ngram語言模型解碼和WFST熱詞，同時也解決了已知的崩潰問題和記憶體洩漏問題，(docs)
2024/01/03：修復了已知的崩潰問題以及記憶體洩漏問題（文件）。
2023/12/04：Funasr SDK for Windows 1.0版本發布，支援普通話離線文件轉錄服務（CPU）、英語離線文件轉錄服務（CPU）、即時轉錄服務（CPU））普通話。更多詳細資訊請參考官方文件或發行說明(FunASR-Runtime-Windows)
2023/11/08：國語離線檔案轉錄服務3.0（CPU）發布，新增標點大模型、Ngram語言模型、wfst熱詞。有關詳細信息，請參閱文件。
2023年10月17日：英語離線檔案轉錄服務（CPU）發布。欲了解更多詳細信息，請參閱（文件）。
2023/10/13：SlideSpeech：大規模多模態視聽語料庫，具有大量即時同步幻燈片。
2023年10月10日：ASR-SpeakersDiarization組合管道Paraformer-VAD-SPK現已發布。體驗模型，取得帶有說話者資訊的辨識結果。
2023/10/07：FunCodec：用於神經語音編解碼器的基本、可複製和可整合的開源工具包。
2023/09/01：國語離線檔案轉錄服務2.0（CPU）發布，新增對ffmpeg、時間戳記、熱詞模型的支援。欲了解更多詳細信息，請參閱（文件）。
2023/08/07: 國語即時轉錄服務（CPU）發佈。欲了解更多詳細信息，請參閱（文件）。
2023/07/17：BAT發布，這是一個低延遲、低記憶體消耗的RNN-T模型。欲了解更多詳情，請參閱（BAT）。
2023/06/26：ASRU2023多通道多方會議轉錄挑戰2.0完成比賽並公佈結果。更多詳情請參考（M2MeT2.0）。

安裝

要求

 python>=3.8
torch>=1.13
torchaudio

安裝 pypi

pip3 install -U funasr

或從原始碼安裝

git clone https://github.com/alibaba/FunASR.git && cd FunASR
pip3 install -e ./

為預訓練模型安裝 modelscope 或 Huggingface_hub （可選）

pip3 install -U modelscope huggingface_hub

模型動物園

FunASR開源了大量工業資料的預訓練模型。根據模型授權協議，您可以自由使用、複製、修改和分享 FunASR 模型。以下為部分代表性模型，更多模型請參考模型動物園。

（註：⭐代表ModelScope模型動物園，?代表Hugingface模型動物園，?代表OpenAI模型動物園）

型號名稱	任務詳情	訓練資料	參數
SenseVoiceSmall （⭐？）	多元語音理解能力，包括ASR、ITN、LID、SER、AED，支援zh、yue、en、ja、ko等語言	300000小時	234M
多聚體-zh （⭐？）	語音識別，帶時間戳，非串流傳輸	60000小時，國語	220M
paraformer-zh-streaming （⭐？）	語音辨識、串流媒體	60000小時，國語	220M
帕拉福默爾（⭐？）	語音識別，無時間戳，非串流傳輸	50000小時，英語	220M
構象-en （⭐？）	語音識別，非串流媒體	50000小時，英語	220M
ct-穿刺（⭐？）	標點符號恢復	100M，國語和英語	290M
fsmn-vad （⭐？）	語音活動偵測	5000小時，國語和英語	0.4M
FSMN-KWS ( ⭐ )	關鍵字發現，串流媒體	5000小時，國語	0.7M
法子（⭐？）	時間戳預測	5000小時，國語	38M
凸輪++ （⭐？）	說話者驗證/分類	5000小時	7.2M
耳語大v3 （⭐？）	語音識別，帶時間戳，非串流傳輸	多種語言	1550米
低語-大型-v3-渦輪增壓（⭐？）	語音識別，帶時間戳，非串流傳輸	多種語言	809米
Qwen-音訊（⭐？）	音訊文字多模態模型（預訓練）	多種語言	8B
Qwen-音訊聊天（⭐？）	音訊-文字多模式模型（聊天）	多種語言	8B
情感2vec+大（⭐？）	言語情緒重新識別	40000小時	300M

快速入門

以下是快速入門教學。測試音訊檔案（普通話、英語）。

命令列使用

funasr ++model=paraformer-zh ++vad_model= " fsmn-vad " ++punc_model= " ct-punc " ++input=asr_example_zh.wav

附註：支援識別單一音訊文件，以及Kaldi風格的wav.scp格式的文件清單： wav_id wav_pat

語音辨識（非串流）

SenseVoice

 from funasr import AutoModel
from funasr . utils . postprocess_utils import rich_transcription_postprocess

model_dir = "iic/SenseVoiceSmall"

model = AutoModel (
    model = model_dir ,
    vad_model = "fsmn-vad" ,
    vad_kwargs = { "max_single_segment_time" : 30000 },
    device = "cuda:0" ,
)

# en
res = model . generate (
    input = f" { model . model_path } /example/en.mp3" ,
    cache = {},
    language = "auto" ,  # "zn", "en", "yue", "ja", "ko", "nospeech"
    use_itn = True ,
    batch_size_s = 60 ,
    merge_vad = True ,  #
    merge_length_s = 15 ,
)
text = rich_transcription_postprocess ( res [ 0 ][ "text" ])
print ( text )

參數說明：

model_dir ：模型的名稱，或模型在本機磁碟上的路徑。
vad_model ：這表示VAD（語音活動偵測）的活化。 VAD 的目的是將長音訊分割成較短的剪輯。在這種情況下，推理時間包括VAD和SenseVoice的總消耗，並代表端對端延遲。如果您想單獨測試SenseVoice模型的推理時間，可以停用VAD模型。
vad_kwargs ：指定VAD模型的配置。 max_single_segment_time ：表示vad_model進行音訊分段的最大時長，單位為毫秒（ms）。
use_itn ：輸出結果是否包含標點符號和反文字標準化。
batch_size_s ：指示使用動態批次，其中批次中音訊的總持續時間以秒 (s) 為單位。
merge_vad ：是否合併VAD模型分割的短音頻片段，合併長度為merge_length_s ，單位為秒（s）。
ban_emo_unk ：是否禁止emo_unk代幣的輸出。

帕拉弗默

 from funasr import AutoModel
# paraformer-zh is a multi-functional asr model
# use vad, punc, spk or not as you need
model = AutoModel ( model = "paraformer-zh" ,  vad_model = "fsmn-vad" ,  punc_model = "ct-punc" , 
                  # spk_model="cam++", 
                  )
res = model . generate ( input = f" { model . model_path } /example/asr_example.wav" , 
                     batch_size_s = 300 , 
                     hotword = '魔搭' )
print ( res )

註： hub ：代表模型庫， ms代表選擇 ModelScope 下載， hf代表選擇 Huggingface 下載。

語音辨識（串流媒體）

 from funasr import AutoModel

chunk_size = [ 0 , 10 , 5 ] #[0, 10, 5] 600ms, [0, 8, 4] 480ms
encoder_chunk_look_back = 4 #number of chunks to lookback for encoder self-attention
decoder_chunk_look_back = 1 #number of encoder chunks to lookback for decoder cross-attention

model = AutoModel ( model = "paraformer-zh-streaming" )

import soundfile
import os

wav_file = os . path . join ( model . model_path , "example/asr_example.wav" )
speech , sample_rate = soundfile . read ( wav_file )
chunk_stride = chunk_size [ 1 ] * 960 # 600ms

cache = {}
total_chunk_num = int ( len (( speech ) - 1 ) / chunk_stride + 1 )
for i in range ( total_chunk_num ):
    speech_chunk = speech [ i * chunk_stride :( i + 1 ) * chunk_stride ]
    is_final = i == total_chunk_num - 1
    res = model . generate ( input = speech_chunk , cache = cache , is_final = is_final , chunk_size = chunk_size , encoder_chunk_look_back = encoder_chunk_look_back , decoder_chunk_look_back = decoder_chunk_look_back )
    print ( res )

注意： chunk_size是串流延遲的配置。 [0,10,5]表示即時顯示粒度為10*60=600ms ，前瞻資訊為5*60=300ms 。每個推理輸入為600ms （樣本點為16000*0.6=960 ），輸出為對應的文字。最後一個語音段輸入，需要設定is_final=True強制輸出最後一個字。

更多範例

語音活動偵測（非串流）

 from funasr import AutoModel

model = AutoModel ( model = "fsmn-vad" )
wav_file = f" { model . model_path } /example/vad_example.wav"
res = model . generate ( input = wav_file )
print ( res )

註：VAD模型的輸出格式為： [[beg1, end1], [beg2, end2], ..., [begN, endN]] ，其中begN/endN表示N-th的起點/終點有效的音訊片段，以毫秒為單位。

語音活動偵測（串流媒體）

 from funasr import AutoModel

chunk_size = 200 # ms
model = AutoModel ( model = "fsmn-vad" )

import soundfile

wav_file = f" { model . model_path } /example/vad_example.wav"
speech , sample_rate = soundfile . read ( wav_file )
chunk_stride = int ( chunk_size * sample_rate / 1000 )

cache = {}
total_chunk_num = int ( len (( speech ) - 1 ) / chunk_stride + 1 )
for i in range ( total_chunk_num ):
    speech_chunk = speech [ i * chunk_stride :( i + 1 ) * chunk_stride ]
    is_final = i == total_chunk_num - 1
    res = model . generate ( input = speech_chunk , cache = cache , is_final = is_final , chunk_size = chunk_size )
    if len ( res [ 0 ][ "value" ]):
        print ( res )

注意：流式 VAD 模型的輸出格式可以是以下四種情況之一：

[[beg1, end1], [beg2, end2], .., [begN, endN]] ：與上述離線VAD輸出結果相同。
[[beg, -1]] ：表示只偵測到一個起點。
[[-1, end]] ：表示只偵測到一個結束點。
[] ：表示未偵測到起點和終點。

輸出以毫秒為單位測量，表示從起點開始的絕對時間。

標點符號恢復

 from funasr import AutoModel

model = AutoModel ( model = "ct-punc" )
res = model . generate ( input = "那今天的会就到这里吧 happy new year 明年见" )
print ( res )

時間戳預測

 from funasr import AutoModel

model = AutoModel ( model = "fa-zh" )
wav_file = f" { model . model_path } /example/asr_example.wav"
text_file = f" { model . model_path } /example/text.txt"
res = model . generate ( input = ( wav_file , text_file ), data_type = ( "sound" , "text" ))
print ( res )

語音情緒識別

 from funasr import AutoModel

model = AutoModel ( model = "emotion2vec_plus_large" )

wav_file = f" { model . model_path } /example/test.wav"

res = model . generate ( wav_file , output_dir = "./outputs" , granularity = "utterance" , extract_embedding = False )
print ( res )

更多用法參考文檔，更多範例參考demo

導出 ONNX

命令列使用

funasr-export ++model=paraformer ++quantize=false ++device=cpu

Python

 from funasr import AutoModel

model = AutoModel ( model = "paraformer" , device = "cpu" )

res = model . export ( quantize = False )

測試 ONNX

 # pip3 install -U funasr-onnx
from funasr_onnx import Paraformer
model_dir = "damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch"
model = Paraformer ( model_dir , batch_size = 1 , quantize = True )

wav_path = [ '~/.cache/modelscope/hub/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/example/asr_example.wav' ]

result = model ( wav_path )
print ( result )

更多範例參考demo

部署服務

FunASR 支援部署預先訓練或進一步微調的模型來提供服務。目前支援以下類型的服務部署：

檔案轉錄服務，國語，CPU版，完成
即時轉錄服務 Mandarin (CPU) 完成
檔案轉錄服務，英文，CPU版本，完成
檔案轉錄服務，國語，GPU版本，正在進行中
等等。

更詳細的資訊請參考服務部署文件。

社區溝通

如果您在使用上遇到問題，可以直接在github頁面提出Issue。

您也可以掃描以下釘釘群，加入社區群進行交流和討論。

釘釘群

貢獻者

貢獻者可以在貢獻者清單中找到

執照

該計畫已獲得麻省理工學院許可證的許可。 FunASR 還包含各種第三方元件和一些在其他開源許可證下從其他儲存庫修改的程式碼。預訓練模型的使用需獲得模型許可

引文

 @inproceedings { gao2023funasr ,
  author = { Zhifu Gao and Zerui Li and Jiaming Wang and Haoneng Luo and Xian Shi and Mengzhe Chen and Yabin Li and Lingyun Zuo and Zhihao Du and Zhangyu Xiao and Shiliang Zhang } ,
  title = { FunASR: A Fundamental End-to-End Speech Recognition Toolkit } ,
  year = { 2023 } ,
  booktitle = { INTERSPEECH } ,
}
@inproceedings { An2023bat ,
  author = { Keyu An and Xian Shi and Shiliang Zhang } ,
  title = { BAT: Boundary aware transducer for memory-efficient and low-latency ASR } ,
  year = { 2023 } ,
  booktitle = { INTERSPEECH } ,
}
@inproceedings { gao22b_interspeech ,
  author = { Zhifu Gao and ShiLiang Zhang and Ian McLoughlin and Zhijie Yan } ,
  title = { Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech Recognition } ,
  year = 2022 ,
  booktitle = { Proc. Interspeech 2022 } ,
  pages = { 2063--2067 } ,
  doi = { 10.21437/Interspeech.2022-9996 }
}
@inproceedings { shi2023seaco ,
  author = { Xian Shi and Yexin Yang and Zerui Li and Yanni Chen and Zhifu Gao and Shiliang Zhang } ,
  title = { SeACo-Paraformer: A Non-Autoregressive ASR System with Flexible and Effective Hotword Customization Ability } ,
  year = { 2023 } ,
  booktitle = { ICASSP2024 }
}