web speech recommended voices下载 - web speech recommended voices源码下载

web speech recommended voices

其他源码

下载

Web Speech API 的推荐语音

该存储库是一个更大项目的一部分，旨在确定在阅读应用程序中实现朗读功能的最佳实践。

默认情况下，各种浏览器和操作系统都有数百种可用的语音，因此开发人员提供合理的默认值和精选的语音列表可能会很棘手。

该项目专注于语音选择，其目标是记录各种平台上可用的更高质量的语音，并提供一种使用 JSON 配置文件实施这些建议的简单方法。

使用案例

为每种语言提供最佳的默认语音
根据质量显示有序的语音列表
显示用户友好的语音名称
按性别和年龄过滤推荐的声音（成人与儿童）
过滤掉新奇和低质量的声音
用测试话语预览语音

演示

提供基于 Readium Speech 项目的现场演示。

该演示实现了语音选择的最佳实践以及该存储库中的数据。

支持的语言列表

该项目的目标是支持 Windows 和 macOS 上可用的所有 43 种语言。

目前，它涵盖 43 种语言：

阿拉伯语（阿尔及利亚、巴林、埃及、伊拉克、约旦、科威特、黎巴嫩、利比亚、摩洛哥、阿曼、卡塔尔、沙特阿拉伯、叙利亚、突尼斯、阿拉伯联合酋长国、也门）
巴斯克
孟加拉语（印度和孟加拉国）
博杰普尔
保加利亚语
加泰罗尼亚语
中国人：
- 普通话（中国大陆、台湾）
- 吴语（又名“上海人”）
- 粤语（又名“粤语”）
克罗地亚语
捷克语
丹麦语
荷兰语（荷兰和比利时）
英语（美国、英国、澳大利亚、加拿大、香港、印度、爱尔兰、肯尼亚、新西兰、尼日利亚、苏格兰、新加坡、南非和坦桑尼亚）
芬兰
法语（法国、加拿大、比利时和瑞士）
加利西亚语
德语（德国、奥地利和瑞士）
希腊语
希伯来语
印地语
匈牙利
印度尼西亚
意大利语
日本人
卡纳达语
韩国人
马来语
马拉地语
挪威
波斯语
抛光
葡萄牙语（葡萄牙和巴西）
罗马尼亚语
俄语
斯洛伐克语
斯洛文尼亚语
西班牙语（西班牙、阿根廷、玻利维亚、智利、哥伦比亚、哥斯达黎加、古巴、多米尼加共和国、厄瓜多尔、萨尔瓦多、赤道几内亚、危地马拉、洪都拉斯、墨西哥、尼加拉瓜、巴拿马、巴拉圭、秘鲁、波多黎各、美国、乌拉圭和委内瑞拉）
瑞典
泰米尔语（印度、斯里兰卡、马来西亚和新加坡）
泰卢固语
泰国
土耳其
乌克兰
越南语

要过滤掉的声音列表

另一方面，该项目还确定了一些应从语音选择器组件中过滤掉的语音。

其中一些对整体阅读体验有害，而另一些则在有更好的预加载选项的平台上质量非常低。

新奇的声音（Apple 设备）
语音质量非常低（Apple 设备和 Chrome 操作系统）

指导原则

每个语音列表都是有序的，旨在在此项目涵盖的所有浏览器/操作系统/语言上提供最佳的聆听体验。
但每个列表还包括默认选项，以确保始终有可靠的东西可以依靠。
考虑到这两个目标，较高质量的语音会列在列表的顶部，而较低质量的语音或专门的语音会列在底部。
语音的数量可能看起来令人难以置信（仅英语就有 110 多个语音），但实际上，用户在每台设备上只能使用其中的几个语音。
Web Speech API 返回的语音名称很难用户友好，这就是为什么此列表提供通常包含名字（或性别）以及与语音关联的区域的备用名称的原因。
只要有可能，我总是会尝试为两种性别提供高质量和默认选项的良好组合。
但该列表必须以某种方式确定优先顺序，目前女性声音排在男性声音之上。由于与每个声音相关的性别都被记录下来，因此实施者可以根据此标准重新排列/过滤列表的优先级。
区域变体也被分组在一个列表中，而不是故意分开在自己的文件中。在某些设备上，可能只有两种或三种声音可用，并且分离区域变体没有多大意义。
但区域变体必须在列表中以某种方式优先考虑。目前，上面列出了具有最佳语音选择的区域，但强烈建议实施者考虑用户的区域偏好。

句法

JSON 模式可用于验证或有兴趣为新语言或语音添加打开 PR 的潜在贡献者。

名称

每个推荐的语音都需要name ，它被用作本项目中语音的主要标识符。

名称在浏览器中大多是稳定的，这意味着对于大多数声音来说，单个字符串就足够了。

但不幸的是，也有一些异常情况：Android、iOS、iPadOS 和 macOS 的声音。

对于这些声音，字符串的至少一部分通常是本地化的，跨浏览器的命名可能不一致，并且它们可能会根据安装的变体数量而变化。

因此，每个列表还可以包含以下属性：

altNames包含给定语音的备用字符串数组
和localizedName标识用于本地化这些语音的字符串模式

示例 3：Apple 预加载语音的替代版本

{
  "label" : " Samantha (US) " ,
  "name" : " Samantha " ,
  "localizedName" : " apple " ,
  "altNames" : [
    " Samantha (Enhanced) " ,
    " Samantha (English (United States)) "
  ],
  "language" : " en-US "
}

语言

每个推荐的语音都需要language 。

它包含 BCP 47 语言标签，其中小写的两个字母的语言代码后跟大写的两个字母的国家/地区代码。

语言和国家/地区代码使用连字符 (-) 分隔。

有些语音还能够处理另一种语言，例如美国的西班牙语语音也可能能够处理英语。

因此， additionalLanguages属性也可用，尽管现在很少使用它。

它包含仅使用两个字母代码的语言列表，没有子标签。

微软的一些全新声音也能够进行多语言输出。句子中间不支持语言切换，但输出似乎能够自动检测每个句子的语言并相应地采用自己的语言。

为了支持这一点，输出可能会在此过程中自动切换到不同的声音。

这些声音是使用multiLingual布尔值来识别的。

示例 4：多语言输出的语音

{
  "label" : " Emma (US) " ,
  "name" : " Microsoft EmmaMultilingual Online (Natural) - English (United States) " ,
  "language" : " en-US " ,
  "multiLingual" : true
}

示例 5：能够处理第二语言的语音

{
  "label" : " Sylvie (Canada) " ,
  "name" : " Microsoft Sylvie Online (Natural) - French (Canada) " ,
  "language" : " fr-CA " ,
  "otherLanguages" : [
    " en "
  ]
}

性别和儿童的声音

gender是每个声音的可选属性，记录与每个声音相关的性别。

支持以下值： female 、 male或neutral 。

children也是可选的，并使用布尔值识别儿童的声音。

例6：女童声

{
  "label" : " Ana (US) " ,
  "name" : " Microsoft Ana Online (Natural) - English (United States) " ,
  "language" : " en-US " ,
  "gender" : " female " ,
  "children" : true
}

质量

quality是每个语音的可选属性，它记录了语音各种变体的质量。

支持以下值：

非常高: 非常高、几乎人类无法区分的语音合成质量
高的: 高品质、类人语音合成
普通的: 语音合成的正常质量
低的: 语音合成质量低，不符合人类的水平
极低: 语音合成的质量非常低，但仍然可以理解

示例 7：Apple 语音具有三种质量变体

{
  "label" : " Ava (US) " ,
  "name" : " Ava " ,
  "note" : " This voice can be installed on all Apple devices and offers three variants. Like all voices that can be installed on Apple devices, it suffers from inconsistent naming due to localization. " ,
  "altNames" : [
    " Ava (Premium) " ,
    " Ava (Enhanced) " ,
    " Ava (English (United States)) " ,
  ],
  "language" : " en-US " ,
  "gender" : " female " ,
  "quality" : [
    " low " ,
    " normal " ,
    " high "
  ],
  "rate" : 1 ,
  "pitch" : 1 ,
  "os" : [
    " macOS " ,
    " iOS " ,
    " iPadOS "
  ]
}

操作系统和浏览器

os和browser都是可选属性。它们用于指示哪些操作系统和浏览器可以使用语音。

这两个属性应该单独解释，而不是作为组合来解释。

示例 8：Edge 和 Windows 中均提供 Microsoft 语音

{
  "label" : " Denise (France) " ,
  "name" : " Microsoft Denise Online (Natural) - French (France) " ,
  "note" : " This voice is preloaded in Edge on desktop. In other browsers, it requires the user to run Windows 11 and install the voice pack. " ,
  "language" : " fr-FR " ,
  "gender" : " female " ,
  "os" : [
    " Windows "
  ],
  "browser" : [
    " Edge "
  ]
}

此外， preloaded表示语音是否已预加载到已识别的所有操作系统和浏览器中。

使用当前方法，无法表明语音在 Chrome 和 Windows 上可用，但需要在 Windows 上下载。

示例 9：Chrome 桌面中预加载的 Google 语音

{
  "label" : " Google female voice (UK) " ,
  "name" : " Google UK English Female " ,
  "language" : " en-GB " ,
  "gender" : " female " ,
  "browser" : [
    " ChromeDesktop "
  ],
  "preloaded" : true
}

语速和音调

使用 Web Speech API 时， SpeechSynthesisUtterance支持以下可选值：

rate来控制语速
和pitch来控制音调

此存储库中记录的每个语音都支持以下可选属性：

pitchControl是一个布尔值，默认为true ，指示语音是否可以进行音调控制
rate是 0.1 到 10 之间的整数，默认为 1，并为每个语音提供建议的默认语速
pitch是 0 到 2 之间的整数，默认为 1，并为每个语音提供建议的默认音高

示例 10：无法调整音调的 Microsoft 语音

{
  "label" : " Ana (US) " ,
  "name" : " Microsoft Ana Online (Natural) - English (United States) " ,
  "language" : " en-US " ,
  "gender" : " female " ,
  "pitchControl" : false
}

示例 11：具有推荐音调和速度的 Google 语音

{
  "label" : " Voix Google féminine (France) " ,
  "name" : " Google français " ,
  "language" : " fr-FR " ,
  "gender" : " female " ,
  "rate" : 1 ,
  "pitch" : 0.8
}

附加说明

通过记录推荐声音列表的工作，我还最终测试了各种浏览器/操作系统以了解它们的行为方式。本节旨在总结其中一些信息。

还可以使用专用标签来跟踪向 Apple、Google、Microsoft 或 Mozilla 报告的外部问题。

一般的

Web Speech API 通过getVoices()方法返回以下字段： name 、 voiceURI 、 lang 、 localService和default 。
虽然从理论上讲， voiceURI应该是识别语音的最一致的方式，但在实践中，这与事实相差甚远。大多数浏览器使用与voiceURI name相同的值，并且不强制唯一性。
正如我们将在特定浏览器/操作系统的注释中看到的那样， name的实现也不一致，并且可以为同一设备上的相同语音返回不同的值。
localService指示语音是否可用于离线使用，并且它似乎按预期工作，这就是当前推荐语音列表不包含该信息的原因。
lang似乎在跨实现中最为可靠，返回使用 BCP 47 语言标签的语言，主语言为小写，子标签为大写 ( pt-BR )。
不幸的是，有一些异常值：
- 在 Android 上，三星和 Chrome 使用下划线作为分隔符： en_us （相关问题）
- Android 上的 Firefox 变得更有创意，使用三个字母代码表示语言，并在末尾添加一个额外的字符串： eng-US-f000 （相关问题）
default旨在指示语音是否是当前应用程序语言的默认语音。从理论上讲，这应该非常有用，但在实践中，由于实现之间的不一致、有限的上下文（系统默认与用户默认）以及缺乏为每种语言设置默认语音的功能，它确实很难使用。
除了使用default之外，实现者还应该考虑使用Accept-Language HTTP 标头，因为它包含给定用户的首选语言/区域的有序列表。

安卓

目前，我们仅介绍了 Android 普通版（Google Pixel 设备上提供的）的测试和文档。可用语音列表可能因 OEM、设备和 Android 版本而异。
由于 Android 的性质，记录所有这些变化将非常困难。该项目的未来版本将通过使用设备场（相关问题）进行进一步的尝试。
在最新版本的 vanilla Android 中，提供了一系列精选的高质量语音，涵盖多种语言/地区（截至 2024 年 4 月有 67 种语言/地区）。
要使用这些语音，用户需要深入了解系统设置，要么下载它们（默认情况下仅预加载您的系统语言和一些最流行的语言），要么根据语言/区域选择他们喜欢的语音。
不幸的是，Android 上的 Chrome 不会返回用户可用的语音列表，而是返回未经过滤的语言/区域列表（相关问题）。
更糟糕的是，这些声音和区域都是通过系统区域设置进行本地化的。
除此之外，这意味着甚至需要安装语音包的语言和区域也会显示在 Web Speech API 返回的列表中（相关问题）。
如果用户选择需要下载语音包的语言/区域，Chrome 将默认使用英语语音（相关问题）。
即使已经安装了语音包，用户也可能需要为每个区域选择默认语音，然后才能使用语言/区域。
由于这种糟糕的语音选择方法，Android 上的 Chrome 不会使用default指示用户的首选语言/区域（相关问题）。

Chrome 桌面版

在桌面上，Chrome 预装了 15 种语言的 19 种高质量语音的有限选择。
所有这些声音都需要在线访问才能使用它们，而不会退回到质量较低的离线变体。
不幸的是，如果 Web Speech API 读取的任何话语花费的时间超过 14 秒（相关问题）并且不返回边界事件（相关问题），这些语音也会受到错误的困扰。
目前情况下，在推荐声音列表中，这些谷歌声音的优先级低于微软/苹果的同类声音。
总的来说，不幸的是，在默认支持的语音和语言范围（相关问题）方面，Chrome 桌面版远远落后于 Android 和 Chrome 操作系统。

Chrome操作系统

Chrome OS 附带四组语音：Chrome OS 语音、Android 语音（50 多种语言）、Natural 语音和 eSpeak 语音（38 种语言）。
默认情况下，Chrome 操作系统会下载适合您的系统语言的 Chrome 操作系统语音，而 Android 和 eSpeak 语音则适用于所有语言。
谷歌还逐渐增加对自然语音的支持，这基本上是 Android 语音的更高质量变体，并具有离线工作的额外好处。自然声音需要用户进入系统设置来安装它们。
不幸的是，每当安装新的 Chrome 操作系统更新时，Chrome 操作系统就会卸载语音包，这种情况经常发生。
大多数 Android 语音都提供离线和在线变体，并且它们在质量方面与 Apple 提供的可下载语音相当。
这些 Android 声音在任何平台/浏览器上都有一些最糟糕的名称，如果没有这个项目提供的重新标签，它们几乎无法使用。
Android 语音还存在延迟和/或可用性问题。在某些情况下，可能需要一分钟才能大声朗读第一句话。
Chrome 语音比 Android 语音低一级，但它们为最常见的语言提供了不错的选择。
应不惜一切代价避免 eSpeak 语音，因为它们的质量极低，并且已单独记录以将其过滤掉。

边缘

在桌面上，Edge 提供了最佳的高质量语音选择，包含 75 种语言的 250 多种预加载语音（截至 2024 年 4 月）。
所有这些所谓的“自然”声音都依赖于机器学习 (ML)，因此需要在线访问才能使用它们。
其中一小部分声音也是多语言的，似乎能够检测句子的语言并做出相应的调整。不幸的是，当句子中间有语言切换时，这种方法就不起作用了。
至少在 macOS 上，存在一个奇怪的错误，Edge 最初仅显示 18 种自然语音，但一旦使用 Web Speech API 输出语音，就会扩展到 250 多种。
使用这些声音时，实施者还应该注意其他问题：它们不支持音高调整（相关问题），并且需要转义许多字符以避免播放问题（相关问题）。
在移动设备上，Edge 就没那么有趣了：
- 它在 Android 上完全无法使用，因为它返回空的语音列表，这使得它无法与 Web Speech API 一起使用（相关问题）。
- 在 iOS/iPadOS 上，所有浏览器目前都被迫使用 Safari 作为引擎，这意味着 Edge 的行为与 Safari Mobile 完全相同。

火狐浏览器

在桌面上，Firefox 在语音选择方面似乎相当简单。
与 Chrome 和 Edge 不同，Firefox 本身没有任何预加载的声音。
Firefox 对于voiceURI有一种不同的方法，其中每个语音都由唯一的 URN 真正标识。
由于这是 Firefox 所独有的，当前的 JSON 文件尚未记录这些 URI，但这可能是将来的补充。
在 macOS 上，Firefox 需要完全重新启动系统才能使新声音显示在列表中。

iOS 和 iPadOS

这两个操作系统都配备了与 macOS 相同的一组预加载语音和可下载语音。请阅读下面的 macOS 部分，了解有关可用语音的更多信息。
由于未知原因，一些预加载的语音也列出了两次，但提供相同的音频输出。
所有浏览器都需要在系统 webview 上运行，这意味着它们只是 Safari Mobile 之上的一个外壳，而不是真正不同的浏览器。
这种情况可能会因欧洲的数字市场法案而改变，迫使苹果改变其对第三方浏览器和网络视图的政策。

macOS

macOS 提供了涵盖 45 种语言的广泛语音列表，包括预加载或可下载的。
根据输出的质量（和下载大小），这些声音最多可以有三种不同的变体。
Siri 可能可以使用最高质量的语音，但不幸的是，它们无法通过 Web Speech API 获得（相关问题）。
另一方面，苹果公司有一个不幸的想法，即预加载大量低质量和奇怪的声音，例如 Eloquence（8 个声音）和 Effects（15 个声音）语音包。
这些声音的存在本身就是过滤 macOS 用户可用的声音并突出显示此存储库中推荐的声音的充分理由。
与其他平台/操作系统不同，macOS 决定本地化语音名称。如果voiceURI可以用作语音的可靠标识符，那么这不会成为问题，但事实并非如此（相关问题）。
在当前状态下，此存储库仅记录官方支持的语言的本地化，而不是 macOS TTS 引擎支持的 45 种语言。

狩猎之旅

无论好坏，Safari 的桌面版和移动版的行为基本一致。
可下载的语音不会显示在 Web Speech API 返回的列表中（相关问题）。
更糟糕的是，当安装更高质量的预加载语音变体时，这些语音会在 Safari 中消失，这意味着整个语言可能会完全消失。
在 Safari 中，所有语音default返回true ，这使得无法检测和选择系统/用户默认值（相关问题）。

视窗

Microsoft 提供了一个非常有用的页面，列出了 Windows 10 和 11 上可用的所有语音，总共 36 种语言的 98 种语音。
自然语音提供了更好的体验，但需要最新版本的 Windows 11 并且需要下载（还有一个额外的好处，它们也可以离线工作）。
微软在将这些自然声音添加到整体 Windows 11 方面进展缓慢。直到最近，还只能使用美国语音（3 个语音）。该列表现在稍长一些（涵盖 8 种语言的 23 种语音），但仍远远落后于他们通过 Edge 提供的内容（涵盖 75 种语言的 250 多种语音）。
不幸的是，这些更高质量的声音目前没有在 Chrome 或 Firefox 中正确列出（相关问题）。它们只出现在 Edge 中，无论如何它们都会被预加载，但仅限于在线使用。

展开

附加信息

版本
类型其他源码
更新时间 2024-12-29
大小 50MB
来自于 Github