FunASR下载 - FunASR源码下载

(简体中文|English)

FunASR希望在语音识别的学术研究和工业应用之间架起一座桥梁。通过支持工业级语音识别模型的训练和微调，研究开发者可以更便捷地进行语音识别模型的研究和生产，推动语音识别生态的发展。 ASR 的乐趣！

亮点|新闻|安装|快速入门|教程|运行时|模型动物园|接触

亮点

FunASR 是一个基本的语音识别工具包，提供多种功能，包括语音识别 (ASR)、语音活动检测 (VAD)、标点符号恢复、语言模型、说话人验证、说话人分类和多说话者 ASR。 FunASR提供方便的脚本和教程，支持预训练模型的推理和微调。
我们在 ModelScope 和 Huggingface 上发布了大量学术和工业预训练模型，可以通过我们的 Model Zoo 访问这些模型。代表性的Paraformer-large是一种非自回归的端到端语音识别模型，具有准确率高、效率高、部署方便等优点，支持语音识别服务的快速构建。有关服务部署的更多详细信息，请参阅服务部署文档。

什么是新的：

2024/10/29: 实时转录服务1.12发布，2pass离线模式支持SensevoiceSmal模型；(docs);
2024/10/10：增加了对 Whisper-large-v3-turbo 模型的支持，这是一种多任务模型，可以执行多语言语音识别、语音翻译和语言识别。可以从modelscope和openai下载。
2024/09/26: 离线文件转录服务4.6、英语离线文件转录服务1.7，实时转录服务1.11发布，修复内存泄漏并支持SensevoiceSmall onnx模型；文件转录服务2.0 GPU发布，修复GPU内存泄漏；（文档）；
2024/09/25：新增支持关键词识别模型。支持四种模型的微调和推理：fsmn_kws、fsmn_kws_mt、sanm_kws、sanm_kws_streaming。
2024/07/04：SenseVoice是一个语音基础模型，具有ASR、LID、SER、AED等多种语音理解能力。
2024/07/01：离线文件转录服务GPU 1.1发布，优化BladeDISC模型兼容性问题；参考（文档）
2024/06/27：离线文件转录服务GPU 1.0发布，支持动态批处理和多线程并发。在长音频测试集中，单线程RTF为0.0076，多线程加速比为1200+（CPU上为330+）；参考（文档）
2024/05/15：新增支持情绪识别模型。 emotion2vec+large，emotion2vec+base，emotion2vec+seed。目前支持以下类别：0：愤怒 1：快乐 2：中性 3：悲伤 4：未知。
2024/05/15: 离线文件转录服务4.5、英语离线文件转录服务1.6，实时转录服务1.10发布，适配FunASR 1.0模型结构；(docs)

完整变更日志

2024/03/05：新增Qwen-Audio和Qwen-Audio-Chat大规模音文多模态模型，在多个音频领域排行榜上名列前茅。这些模型支持语音对话、使用。
2024/03/05：增加了对 Whisper-large-v3 模型的支持，这是一种多任务模型，可以执行多语言语音识别、语音翻译和语言识别。可以从themodelscope和openai下载。
2024/03/05: 离线文件转录服务4.4、英语离线文件转录服务1.5，实时转录服务1.9发布，docker镜像支持ARM64平台，更新modelscope；(docs)
2024/01/30：funasr-1.0 已发布（文档）
2024/01/30：新增支持情绪识别模型。模型链接，从存储库修改。
2024/01/25：离线文件转录服务4.2、英语离线文件转录服务1.3发布，优化VAD（语音活动检测）数据处理方式，大幅降低内存峰值，内存泄漏优化；实时转录服务1.7发布，优化客户端；(docs)
2024/01/09：Funasr SDK for Windows 2.0版本发布，支持普通话4.1离线文件转录服务（CPU）、英语1.2离线文件转录服务（CPU）、实时转录服务（CPU）普通话1.6。更多详细信息请参考官方文档或发行说明(FunASR-Runtime-Windows)
2024/01/03：文件转录服务4.0发布，新增对8k模型的支持，优化时间戳不匹配问题并添加句子级时间戳，提高英文单词FST热词的有效性，支持线程参数自动配置，修复已知崩溃问题以及内存泄漏问题，请参阅（docs）。
2024/01/03：实时转录服务1.6发布，2pass离线模式支持Ngram语言模型解码和WFST热词，同时还解决了已知的崩溃问题和内存泄漏问题，(docs)
2024/01/03：修复了已知的崩溃问题以及内存泄漏问题（文档）。
2023/12/04：Funasr SDK for Windows 1.0版本发布，支持普通话离线文件转录服务（CPU）、英语离线文件转录服务（CPU）、实时转录服务（CPU））普通话。更多详细信息请参考官方文档或发行说明(FunASR-Runtime-Windows)
2023/11/08：普通话离线文件转录服务3.0（CPU）发布，新增标点大模型、Ngram语言模型、wfst热词。有关详细信息，请参阅文档。
2023年10月17日：英语离线文件转录服务（CPU）发布。欲了解更多详细信息，请参阅（文档）。
2023/10/13：SlideSpeech：大规模多模态视听语料库，具有大量实时同步幻灯片。
2023年10月10日：ASR-SpeakersDiarization组合管道Paraformer-VAD-SPK现已发布。体验模型，获取带有说话人信息的识别结果。
2023/10/07：FunCodec：用于神经语音编解码器的基本、可复制和可集成的开源工具包。
2023/09/01：普通话离线文件转录服务2.0（CPU）发布，新增对ffmpeg、时间戳、热词模型的支持。欲了解更多详细信息，请参阅（文档）。
2023/08/07：普通话实时转录服务（CPU）发布。欲了解更多详细信息，请参阅（文档）。
2023/07/17：BAT发布，这是一个低延迟、低内存消耗的RNN-T模型。欲了解更多详情，请参阅（BAT）。
2023/06/26：ASRU2023多渠道多方会议转录挑战2.0完成比赛并公布结果。更多详情请参考（M2MeT2.0）。

安装

要求

 python>=3.8
torch>=1.13
torchaudio

安装 pypi

pip3 install -U funasr

或者从源码安装

git clone https://github.com/alibaba/FunASR.git && cd FunASR
pip3 install -e ./

为预训练模型安装 modelscope 或 Huggingface_hub （可选）

pip3 install -U modelscope huggingface_hub

模型动物园

FunASR开源了大量工业数据的预训练模型。根据模型许可协议，您可以自由使用、复制、修改和共享 FunASR 模型。以下为部分代表性模型，更多模型请参考模型动物园。

（注：⭐代表ModelScope模型动物园，?代表Hugingface模型动物园，?代表OpenAI模型动物园）

型号名称	任务详情	训练数据	参数
SenseVoiceSmall （⭐？）	多种语音理解能力，包括ASR、ITN、LID、SER、AED，支持zh、yue、en、ja、ko等语言	300000小时	234M
多聚体-zh （⭐？）	语音识别，带时间戳，非流式传输	60000小时，普通话	220M
paraformer-zh-streaming （⭐？）	语音识别、流媒体	60000小时，普通话	220M
帕拉福默尔（⭐？）	语音识别，无时间戳，非流式传输	50000小时，英语	220M
构象-en （⭐？）	语音识别，非流式传输	50000小时，英语	220M
ct-穿刺（⭐？）	标点符号恢复	100M，普通话和英语	290M
fsmn-vad （⭐？）	语音活动检测	5000小时，普通话和英语	0.4M
FSMN-KWS ( ⭐ )	关键词发现，流媒体	5000小时，普通话	0.7M
法子（⭐？）	时间戳预测	5000小时，普通话	38M
凸轮++ （⭐？）	说话人验证/分类	5000小时	7.2M
耳语大v3 （⭐？）	语音识别，带时间戳，非流式传输	多种语言	1550米
低语-大型-v3-涡轮增压（⭐？）	语音识别，带时间戳，非流式传输	多种语言	809米
Qwen-音频（⭐？）	音频文本多模态模型（预训练）	多种语言	8B
Qwen-音频聊天（⭐？）	音频-文本多模式模型（聊天）	多种语言	8B
情感2vec+大（⭐？）	言语情绪重新识别	40000小时	300M

快速入门

以下是快速入门教程。测试音频文件（普通话、英语）。

命令行使用

funasr ++model=paraformer-zh ++vad_model= " fsmn-vad " ++punc_model= " ct-punc " ++input=asr_example_zh.wav

注：支持识别单个音频文件，以及Kaldi风格的wav.scp格式的文件列表： wav_id wav_pat

语音识别（非流式传输）

SenseVoice

 from funasr import AutoModel
from funasr . utils . postprocess_utils import rich_transcription_postprocess

model_dir = "iic/SenseVoiceSmall"

model = AutoModel (
    model = model_dir ,
    vad_model = "fsmn-vad" ,
    vad_kwargs = { "max_single_segment_time" : 30000 },
    device = "cuda:0" ,
)

# en
res = model . generate (
    input = f" { model . model_path } /example/en.mp3" ,
    cache = {},
    language = "auto" ,  # "zn", "en", "yue", "ja", "ko", "nospeech"
    use_itn = True ,
    batch_size_s = 60 ,
    merge_vad = True ,  #
    merge_length_s = 15 ,
)
text = rich_transcription_postprocess ( res [ 0 ][ "text" ])
print ( text )

参数说明：

model_dir ：模型的名称，或者模型在本地磁盘上的路径。
vad_model ：这表示VAD（语音活动检测）的激活。 VAD 的目的是将长音频分割成较短的剪辑。在这种情况下，推理时间包括VAD和SenseVoice的总消耗，并代表端到端延迟。如果您想单独测试SenseVoice模型的推理时间，可以禁用VAD模型。
vad_kwargs ：指定VAD模型的配置。 max_single_segment_time ：表示vad_model进行音频分段的最大时长，单位为毫秒（ms）。
use_itn ：输出结果是否包含标点符号和反文本标准化。
batch_size_s ：指示使用动态批处理，其中批处理中音频的总持续时间以秒 (s) 为单位。
merge_vad ：是否合并VAD模型分割的短音频片段，合并长度为merge_length_s ，单位为秒（s）。
ban_emo_unk ：是否禁止emo_unk代币的输出。

帕拉弗默

 from funasr import AutoModel
# paraformer-zh is a multi-functional asr model
# use vad, punc, spk or not as you need
model = AutoModel ( model = "paraformer-zh" ,  vad_model = "fsmn-vad" ,  punc_model = "ct-punc" , 
                  # spk_model="cam++", 
                  )
res = model . generate ( input = f" { model . model_path } /example/asr_example.wav" , 
                     batch_size_s = 300 , 
                     hotword = '魔搭' )
print ( res )

注： hub ：代表模型库， ms代表选择 ModelScope 下载， hf代表选择 Huggingface 下载。

语音识别（流媒体）

 from funasr import AutoModel

chunk_size = [ 0 , 10 , 5 ] #[0, 10, 5] 600ms, [0, 8, 4] 480ms
encoder_chunk_look_back = 4 #number of chunks to lookback for encoder self-attention
decoder_chunk_look_back = 1 #number of encoder chunks to lookback for decoder cross-attention

model = AutoModel ( model = "paraformer-zh-streaming" )

import soundfile
import os

wav_file = os . path . join ( model . model_path , "example/asr_example.wav" )
speech , sample_rate = soundfile . read ( wav_file )
chunk_stride = chunk_size [ 1 ] * 960 # 600ms

cache = {}
total_chunk_num = int ( len (( speech ) - 1 ) / chunk_stride + 1 )
for i in range ( total_chunk_num ):
    speech_chunk = speech [ i * chunk_stride :( i + 1 ) * chunk_stride ]
    is_final = i == total_chunk_num - 1
    res = model . generate ( input = speech_chunk , cache = cache , is_final = is_final , chunk_size = chunk_size , encoder_chunk_look_back = encoder_chunk_look_back , decoder_chunk_look_back = decoder_chunk_look_back )
    print ( res )

注意： chunk_size是流延迟的配置。 [0,10,5]表示实时显示粒度为10*60=600ms ，前瞻信息为5*60=300ms 。每个推理输入为600ms （样本点为16000*0.6=960 ），输出为对应的文本。对于最后一个语音段输入，需要设置is_final=True强制输出最后一个词。

更多示例

语音活动检测（非流式传输）

 from funasr import AutoModel

model = AutoModel ( model = "fsmn-vad" )
wav_file = f" { model . model_path } /example/vad_example.wav"
res = model . generate ( input = wav_file )
print ( res )

注：VAD模型的输出格式为： [[beg1, end1], [beg2, end2], ..., [begN, endN]] ，其中begN/endN表示N-th的起点/终点有效的音频片段，以毫秒为单位。

语音活动检测（流媒体）

 from funasr import AutoModel

chunk_size = 200 # ms
model = AutoModel ( model = "fsmn-vad" )

import soundfile

wav_file = f" { model . model_path } /example/vad_example.wav"
speech , sample_rate = soundfile . read ( wav_file )
chunk_stride = int ( chunk_size * sample_rate / 1000 )

cache = {}
total_chunk_num = int ( len (( speech ) - 1 ) / chunk_stride + 1 )
for i in range ( total_chunk_num ):
    speech_chunk = speech [ i * chunk_stride :( i + 1 ) * chunk_stride ]
    is_final = i == total_chunk_num - 1
    res = model . generate ( input = speech_chunk , cache = cache , is_final = is_final , chunk_size = chunk_size )
    if len ( res [ 0 ][ "value" ]):
        print ( res )

注意：流式 VAD 模型的输出格式可以是以下四种情况之一：

[[beg1, end1], [beg2, end2], .., [begN, endN]] ：与上述离线VAD输出结果相同。
[[beg, -1]] ：表示仅检测到一个起点。
[[-1, end]] ：表示仅检测到一个结束点。
[] ：表示未检测到起点和终点。

输出以毫秒为单位测量，表示从起点开始的绝对时间。

标点符号恢复

 from funasr import AutoModel

model = AutoModel ( model = "ct-punc" )
res = model . generate ( input = "那今天的会就到这里吧 happy new year 明年见" )
print ( res )

时间戳预测

 from funasr import AutoModel

model = AutoModel ( model = "fa-zh" )
wav_file = f" { model . model_path } /example/asr_example.wav"
text_file = f" { model . model_path } /example/text.txt"
res = model . generate ( input = ( wav_file , text_file ), data_type = ( "sound" , "text" ))
print ( res )

语音情感识别

 from funasr import AutoModel

model = AutoModel ( model = "emotion2vec_plus_large" )

wav_file = f" { model . model_path } /example/test.wav"

res = model . generate ( wav_file , output_dir = "./outputs" , granularity = "utterance" , extract_embedding = False )
print ( res )

更多用法参考文档，更多示例参考demo

导出 ONNX

命令行使用

funasr-export ++model=paraformer ++quantize=false ++device=cpu

Python

 from funasr import AutoModel

model = AutoModel ( model = "paraformer" , device = "cpu" )

res = model . export ( quantize = False )

测试 ONNX

 # pip3 install -U funasr-onnx
from funasr_onnx import Paraformer
model_dir = "damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch"
model = Paraformer ( model_dir , batch_size = 1 , quantize = True )

wav_path = [ '~/.cache/modelscope/hub/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/example/asr_example.wav' ]

result = model ( wav_path )
print ( result )

更多示例参考demo

部署服务

FunASR 支持部署预先训练或进一步微调的模型来提供服务。目前支持以下类型的服务部署：

文件转录服务，普通话，CPU版，完成
实时转录服务 Mandarin (CPU) 完成
文件转录服务，英文，CPU版本，完成
文件转录服务，普通话，GPU版本，正在进行中
等等。

更详细的信息请参考服务部署文档。

社区沟通

如果您在使用中遇到问题，可以直接在github页面提出Issue。

您也可以扫描以下钉钉群，加入社区群进行交流和讨论。

钉钉群

贡献者

贡献者可以在贡献者列表中找到

执照

该项目已获得麻省理工学院许可证的许可。 FunASR 还包含各种第三方组件和一些在其他开源许可证下从其他存储库修改的代码。预训练模型的使用需获得模型许可

引文

 @inproceedings { gao2023funasr ,
  author = { Zhifu Gao and Zerui Li and Jiaming Wang and Haoneng Luo and Xian Shi and Mengzhe Chen and Yabin Li and Lingyun Zuo and Zhihao Du and Zhangyu Xiao and Shiliang Zhang } ,
  title = { FunASR: A Fundamental End-to-End Speech Recognition Toolkit } ,
  year = { 2023 } ,
  booktitle = { INTERSPEECH } ,
}
@inproceedings { An2023bat ,
  author = { Keyu An and Xian Shi and Shiliang Zhang } ,
  title = { BAT: Boundary aware transducer for memory-efficient and low-latency ASR } ,
  year = { 2023 } ,
  booktitle = { INTERSPEECH } ,
}
@inproceedings { gao22b_interspeech ,
  author = { Zhifu Gao and ShiLiang Zhang and Ian McLoughlin and Zhijie Yan } ,
  title = { Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech Recognition } ,
  year = 2022 ,
  booktitle = { Proc. Interspeech 2022 } ,
  pages = { 2063--2067 } ,
  doi = { 10.21437/Interspeech.2022-9996 }
}
@inproceedings { shi2023seaco ,
  author = { Xian Shi and Yexin Yang and Zerui Li and Yanni Chen and Zhifu Gao and Shiliang Zhang } ,
  title = { SeACo-Paraformer: A Non-Autoregressive ASR System with Flexible and Effective Hotword Customization Ability } ,
  year = { 2023 } ,
  booktitle = { ICASSP2024 }
}