sherpa onnx
v1.10.34
语音识别 | 语音合成 |
---|---|
✔️ | ✔️ |
说话人识别 | 说话人分类 | 说话人验证 |
---|---|---|
✔️ | ✔️ | ✔️ |
口语识别 | 音频标记 | 语音活动检测 |
---|---|---|
✔️ | ✔️ | ✔️ |
关键词发现 | 添加标点符号 |
---|---|
✔️ | ✔️ |
建筑学 | 安卓 | iOS系统 | 视窗 | macOS | 操作系统 | 鸿蒙操作系统 |
---|---|---|---|---|---|---|
x64 | ✔️ | ✔️ | ✔️ | ✔️ | ✔️ | |
x86 | ✔️ | ✔️ | ||||
ARM64 | ✔️ | ✔️ | ✔️ | ✔️ | ✔️ | ✔️ |
臂32 | ✔️ | ✔️ | ✔️ | |||
RISCV64 | ✔️ |
1.C++ | 2.C | 3.Python | 4. JavaScript |
---|---|---|---|
✔️ | ✔️ | ✔️ | ✔️ |
5.Java | 6.C# | 7.科特林 | 8.斯威夫特 |
---|---|---|---|
✔️ | ✔️ | ✔️ | ✔️ |
9. 去吧 | 10. 飞镖 | 11. 铁锈 | 12.帕斯卡 |
---|---|---|---|
✔️ | ✔️ | ✔️ | ✔️ |
对于 Rust 支持,请参阅 sherpa-rs
它还支持 WebAssembly。
该存储库支持在本地运行以下功能
在以下平台和操作系统上:
x86_64
位 ARM、64 位 ARM(arm64、aarch64)、RISC-V(riscv64)使用以下 API
C#
描述 | 网址 |
---|---|
说话人分类 | 点我 |
语音识别 | 点我 |
使用 Whisper 进行语音识别 | 点我 |
语音合成 | 点我 |
生成字幕 | 点我 |
音频标记 | 点我 |
使用 Whisper 进行口语识别 | 点我 |
我们还有使用 WebAssembly 构建的空间。下面列出了它们:
描述 | 抱脸空间 | 模型范围空间 |
---|---|---|
使用 silero-vad 进行语音活动检测 | 点我 | 地址 |
使用Zipformer进行实时语音识别(中文+英文) | 点我 | 地址 |
使用 Paraformer 进行实时语音识别(中文+英文) | 点我 | 地址 |
使用 Paraformer-large 进行实时语音识别(中文+英语+粤语) | 点我 | 地址 |
实时语音识别(英文) | 点我 | 地址 |
VAD + SenseVoice 语音识别(中文+英语+韩语+日语+粤语) | 点我 | 地址 |
VAD + 语音识别(英语),使用 Whisper tiny.en | 点我 | 地址 |
VAD + 语音识别(英语)与 Moonshine tiny | 点我 | 地址 |
VAD + 语音识别(英语),使用 Zipformer 进行 GigaSpeech 训练 | 点我 | 地址 |
VAD + 语音识别(中文),使用 Zipformer 和 WenetSpeech 进行训练 | 点我 | 地址 |
VAD + 语音识别(日语),使用 Zipformer 进行 ReazonSpeech 训练 | 点我 | 地址 |
VAD + 语音识别(泰语),使用 Zipformer 进行 GigaSpeech2 训练 | 点我 | 地址 |
使用 TeleSpeech-ASR CTC 模型的 VAD + 语音识别(中文多种方言) | 点我 | 地址 |
使用 Paraformer-large 进行 VAD + 语音识别(英语 + 中文,及多种中文方言) | 点我 | 地址 |
使用 Paraformer-small 进行 VAD + 语音识别(英语 + 中文,及多种中文方言) | 点我 | 地址 |
语音合成(英语) | 点我 | 地址 |
语音合成(德语) | 点我 | 地址 |
说话人分类 | 点我 | 地址 |
描述 | 网址 | 中国用户 |
---|---|---|
说话人分类 | 地址 | 点此 |
流式语音识别 | 地址 | 点此 |
文字转语音 | 地址 | 点此 |
语音活动检测 (VAD) | 地址 | 点此 |
VAD+非流式语音识别 | 地址 | 点此 |
二次语音识别 | 地址 | 点此 |
音频标记 | 地址 | 点此 |
音频标记 (WearOS) | 地址 | 点此 |
说话人识别 | 地址 | 点此 |
口语识别 | 地址 | 点此 |
关键词发现 | 地址 | 点此 |
描述 | 网址 | 中国用户 |
---|---|---|
流式语音识别 | 地址 | 点此 |
描述 | 网址 | 中国用户 |
---|---|---|
Android(arm64-v8a、armeabi-v7a、x86_64) | 地址 | 点此 |
Linux (x64) | 地址 | 点此 |
macOS (x64) | 地址 | 点此 |
macOS(arm64) | 地址 | 点此 |
Windows (x64) | 地址 | 点此 |
注意:您需要从 iOS 源代码构建。
描述 | 网址 | 中国用户 |
---|---|---|
生成字幕 (生成字幕) | 地址 | 点此 |
描述 | 网址 |
---|---|
语音识别(语音转文本、ASR) | 地址 |
文本转语音 (TTS) | 地址 |
虚拟AD | 地址 |
关键词发现 | 地址 |
音频标记 | 地址 |
说话人识别(Speaker ID) | 地址 |
口语识别(Language ID) | 查看语音识别中的多语言 Whisper ASR 模型 |
标点 | 地址 |
说话人分割 | 地址 |
请参阅
了解更多型号。下表仅列出了其中的一些。
姓名 | 支持的语言 | 描述 |
---|---|---|
sherpa-onnx-streaming-zipformer-bilingual-zh-en-2023-02-20 | 中文、英文 | 参见 |
sherpa-onnx-streaming-zipformer-small-bilingual-zh-en-2023-02-16 | 中文、英文 | 参见 |
sherpa-onnx-streaming-zipformer-zh-14M-2023-02-23 | 中国人 | 适用于 Cortex A7 CPU。参见 |
sherpa-onnx-streaming-zipformer-en-20M-2023-02-17 | 英语 | 适用于 Cortex A7 CPU。参见 |
sherpa-onnx-streaming-zipformer-韩语-2024-06-16 | 韩国人 | 参见 |
sherpa-onnx-streaming-zipformer-fr-2023-04-14 | 法语 | 参见 |
请参阅
了解更多型号。下表仅列出了其中的一些。
姓名 | 支持的语言 | 描述 |
---|---|---|
耳语小.en | 英语 | 参见 |
月光小 | 英语 | 参见 |
sherpa-onnx-sense-voice-zh-en-ja-ko-yue-2024-07-17 | 中文、粤语、英语、韩语、日语 | 支持多种中文方言。参见 |
sherpa-onnx-paraformer-zh-2024-03-09 | 中文、英文 | 也支持多种中文方言。参见 |
sherpa-onnx-zipformer-ja-reazonspeech-2024-08-01 | 日本人 | 参见 |
夏尔巴人-onnx-nemo-传感器-giga-am-俄罗斯-2024-10-24 | 俄语 | 参见 |
夏尔巴人-onnx-nemo-ctc-giga-am-俄罗斯-2024-10-24 | 俄语 | 参见 |
夏尔巴人-onnx-zipformer-ru-2024-09-18 | 俄语 | 参见 |
sherpa-onnx-zipformer-韩语-2024-06-24 | 韩国人 | 参见 |
sherpa-onnx-zipformer-泰国-2024-06-20 | 泰国 | 参见 |
sherpa-onnx-telespeech-ctc-int8-zh-2024-06-04 | 中国人 | 支持多种方言。参见 |
新一代Kaldi微信交流群和QQ交流群请参见https://k2-fsa.github.io/sherpa/social-groups.html。
它展示了如何将 ASR 和 TTS Python API 与 FastAPI 结合使用。
使用 C# 中的流式 ASR 和图形用户界面。
中文视频演示:【】Windows实时字幕软件开源(网课/开会必备)
它使用 sherpa-onnx 的 JavaScript API 以及 Electron
中文视频演示:爆了!炫神教你开发型挂!真正影响胜率的英雄联盟工具!英雄联盟的最后一块拼图!和游戏中的每个人无障碍沟通!