web speech recommended voicesダウンロード - web speech recommended voicesソースコードダウンロード

web speech recommended voices

その他のソースコード

ダウンロード

Web Speech APIの推奨音声

このリポジトリは、読み上げアプリに読み上げ機能を実装するためのベストプラクティスを特定することを目的とした、より大きなプロジェクトの一部です。

さまざまなブラウザーや OS でデフォルトで数百の音声が利用できるため、開発者にとって適切なデフォルトと精選された音声リストを提供するのは難しい場合があります。

音声の選択に焦点を当てたこのプロジェクトの目標は、さまざまなプラットフォームで利用できる高品質の音声を文書化し、JSON 構成ファイルを使用してこれらの推奨事項を実装する簡単な方法を提供することです。

ユースケース

言語ごとに可能な限り最適なデフォルト音声を提供する
品質に基づいて音声の順序付きリストを表示する
わかりやすい音声名を表示する
性別と年齢ごとに推奨音声をフィルタリング (大人と子供)
新規性のある音声や低品質の音声をフィルタリングする
テスト発話による音声のプレビュー

デモ

Readium Speech プロジェクトに基づくライブデモが利用可能です。

このデモでは、音声選択に関するベストプラクティスとこのリポジトリからのデータの両方が実装されています。

サポートされている言語のリスト

このプロジェクトの目標は、Windows と macOS で利用可能な 43 言語すべてをサポートすることです。

現在の状態では、43 の言語をカバーしています。

アラビア語 (アルジェリア、バーレーン、エジプト、イラク、ヨルダン、クウェート、レバノン、リビア、モロッコ、オマーン、カタール、サウジアラビア、シリア、チュニジア、アラブ首長国連邦、イエメン)
バスク語
ベンガル語 (インドおよびバングラデシュ)
ボージプリ
ブルガリア語
カタルーニャ語
中国語:
- 北京語 (中国本土、台湾)
- 呉系中国人（別名「上海人」）
- 越中国語 (別名「広東語」)
クロアチア語
チェコ語
デンマーク語
オランダ語 (オランダとベルギー)
英語 (米国、英国、オーストラリア、カナダ、香港、インド、アイルランド、ケニア、ニュージーランド、ナイジェリア、スコットランド、シンガポール、南アフリカ、タンザニア)
フィンランド語
フランス語 (フランス、カナダ、ベルギー、スイス)
ガリシア語
ドイツ語 (ドイツ、オーストリア、スイス)
ギリシャ語
ヘブライ語
ヒンディー語
ハンガリー語
インドネシア語
イタリア語
日本語
カンナダ語
韓国人
マレー語
マラーティー語
ノルウェー語
ペルシア語
研磨
ポルトガル語 (ポルトガルとブラジル)
ルーマニア語
ロシア
スロバキア語
スロベニア語
スペイン語 (スペイン、アルゼンチン、ボリビア、チリ、コロンビア、コスタリカ、キューバ、ドミニカ共和国、エクアドル、エルサルバドル、赤道ギニア、グアテマラ、ホンジュラス、メキシコ、ニカラグア、パナマ、パラグアイ、ペルー、プエルトリコ、米国、ウルグアイ、ベネズエラ）
スウェーデン語
タミル語 (インド、スリランカ、マレーシア、シンガポール)
テルグ語
タイ語
トルコ語
ウクライナ語
ベトナム語

フィルタリングする音声のリスト

このプロジェクトでは、スペクトルの反対側で、音声セレクターコンポーネントから除外する必要がある多数の音声も特定します。

それらの中には全体的な読書体験に有害なものもあれば、より優れたプリロードオプションが利用可能なプラットフォームでは非常に低品質なものもあります。

ノベルティボイス (Apple デバイス)
非常に低品質の音声 (Apple デバイスおよび Chrome OS)

指針となる原則

各音声リストは順序付けされており、このプロジェクトの対象となるすべてのブラウザ/OS/言語で最適なリスニング体験を提供することを目的としています。
ただし、各リストにはデフォルトのオプションも含まれており、信頼できるものが常に存在することを確認します。
これら 2 つの目標を念頭に置いて、高品質の音声がリストの上部に表示され、低品質の音声や特殊な音声が下部に表示されます。
音声の数は膨大に見えるかもしれませんが (英語だけで 110 以上の音声)、実際には、ユーザーが各デバイスで利用できるのはそのうちのわずか数個だけです。
Web Speech API によって返される音声名は、ユーザーフレンドリーとは言い難いため、このリストでは通常、音声に関連付けられた地域とともに名 (または性別) を含む代替名が提供されています。
可能な限り、男女両方に高品質のオプションとデフォルトのオプションを適切に組み合わせて含めるよう常に努めます。
しかし、このリストには何らかの形で優先順位を付ける必要があり、現在、女性の声が男性の声よりも上にリストされています。各音声に関連付けられた性別が文書化されるため、実装者はこの基準に基づいてリストの優先順位を再設定/フィルタリングすることができます。
地域別のバリエーションも、意図的に独自のファイルに分けられるのではなく、単一のリストにグループ化されています。一部のデバイスでは、2 つまたは 3 つの音声しか利用できない場合があり、地域のバリエーションを分けることはあまり意味がありません。
ただし、地域のバリエーションはリスト内で何らかの方法で優先される必要があります。現時点では、最適な音声が選択されている地域が上にリストされていますが、実装者にはユーザーの地域の好みを考慮することを強くお勧めします。

構文

JSON スキーマは、新しい言語や音声の追加の PR を開始することに興味がある検証者や潜在的な貢献者のために利用できます。

ラベル

label推奨される各音声に必要であり、各音声にわかりやすいラベルを提供します。

この文字列はターゲット言語用にローカライズされており、通常は次の情報が含まれています。

名（可能な場合）
性別（名前がない場合）
国・地域

例 1: Microsoft ナチュラルボイス

Microsoft が文書化した自然な声の名前は理解しやすいですが、非常に長くなる傾向があり、すべて英語にローカライズされています。

{
  "label" : " Isabella (Italia) " ,
  "name" : " Microsoft Isabella Online (Natural) - Italian (Italy) " ,    
  "language" : " it-IT "
}

例 2: Chrome OS の音声

Chrome OS は Android サブシステムを通じて高品質の音声を多数提供していますが、それらにはエンドユーザーにとって最悪の名前がいくつか付いています。

{
  "label" : " Female voice 1 (US) " ,
  "name" : " Android Speech Recognition and Synthesis from Google en-us-x-tpc-network " ,
  "language" : " en-US "
}

名前

推奨される各音声にはnameが必要であり、このプロジェクトの音声の主な識別子として使用されます。

名前はどのブラウザーでもほとんど安定しています。つまり、ほとんどの音声では単一の文字列で十分です。

しかし、残念なことに、Android、iOS、iPadOS、macOS の声など、外れ値もいくつかあります。

これらの音声では、文字列の少なくとも一部がローカライズされていることが多く、ブラウザー間で名前が一貫していない可能性があり、インストールされているバリアントの数に応じて変更される可能性があります。

このため、各リストには次のプロパティも含めることができます。

特定の音声の代替文字列の配列を含むaltNames
これらの音声をローカライズするために使用される文字列パターンを識別するlocalizedName

例 3: Apple プリロード音声の代替バージョン

{
  "label" : " Samantha (US) " ,
  "name" : " Samantha " ,
  "localizedName" : " apple " ,
  "altNames" : [
    " Samantha (Enhanced) " ,
    " Samantha (English (United States)) "
  ],
  "language" : " en-US "
}

言語

推奨される音声ごとにlanguageが必要です。

これには、小文字の 2 文字の言語コードの後に大文字の 2 文字の国コードが続く BCP 47 言語タグが含まれています。

言語コードと国コードはハイフン (-) で区切られます。

一部の音声は別の言語も処理できます。たとえば、米国向けのスペイン語音声は英語も処理できる場合があります。

このため、現時点ではほとんど使用されていませんが、 additionalLanguagesプロパティも利用できます。

これには、サブタグなしで 2 文字のコードのみを使用する言語のリストが含まれています。

Microsoft の新しい音声の中には、多言語出力が可能なものもあります。文の途中での言語の切り替えはサポートされていませんが、出力は各文の言語を自動検出し、それに応じて適応できるようです。

これをサポートするために、出力がプロセス中に自動的に別の音声に切り替わる場合があります。

これらの音声は、 multiLingualブール値を使用して識別されます。

例 4: 多言語出力の音声

{
  "label" : " Emma (US) " ,
  "name" : " Microsoft EmmaMultilingual Online (Natural) - English (United States) " ,
  "language" : " en-US " ,
  "multiLingual" : true
}

例 5: 第 2 言語を処理できる音声

{
  "label" : " Sylvie (Canada) " ,
  "name" : " Microsoft Sylvie Online (Natural) - French (Canada) " ,
  "language" : " fr-CA " ,
  "otherLanguages" : [
    " en "
  ]
}

ジェンダーと子どもたちの声

gender各音声のオプションのプロパティであり、各音声に関連付けられた性別を文書化します。

次の値がサポートされています: female 、 male 、またはneutral 。

childrenもオプションで、ブール値を使用して子供の声を識別します。

例 6: 女性の子供の声

{
  "label" : " Ana (US) " ,
  "name" : " Microsoft Ana Online (Natural) - English (United States) " ,
  "language" : " en-US " ,
  "gender" : " female " ,
  "children" : true
}

品質

qualityは各音声のオプションのプロパティであり、音声のさまざまなバリエーションの品質を文書化します。

次の値がサポートされています。

非常に高い: 非常に高く、人間とほぼ区別できない音声合成品質
高い: 人間のような高品質の音声合成
普通: 通常の音声合成品質
低い: 音声合成の品質が低く、人間らしくない
非常に低い: 音声合成の品質は非常に低いですが、それでも明瞭です

例 7: 3 つの品質バリエーションで利用可能な Apple 音声

{
  "label" : " Ava (US) " ,
  "name" : " Ava " ,
  "note" : " This voice can be installed on all Apple devices and offers three variants. Like all voices that can be installed on Apple devices, it suffers from inconsistent naming due to localization. " ,
  "altNames" : [
    " Ava (Premium) " ,
    " Ava (Enhanced) " ,
    " Ava (English (United States)) " ,
  ],
  "language" : " en-US " ,
  "gender" : " female " ,
  "quality" : [
    " low " ,
    " normal " ,
    " high "
  ],
  "rate" : 1 ,
  "pitch" : 1 ,
  "os" : [
    " macOS " ,
    " iOS " ,
    " iPadOS "
  ]
}

OSとブラウザ

osとbrowserどちらもオプションのプロパティです。これらは、音声が利用できるオペレーティングシステムとブラウザを示すために使用されます。

これら 2 つのプロパティは、組み合わせとしてではなく、個別に解釈されることを意図しています。

例 8: Microsoft 音声が Edge と Windows の両方で利用可能

{
  "label" : " Denise (France) " ,
  "name" : " Microsoft Denise Online (Natural) - French (France) " ,
  "note" : " This voice is preloaded in Edge on desktop. In other browsers, it requires the user to run Windows 11 and install the voice pack. " ,
  "language" : " fr-FR " ,
  "gender" : " female " ,
  "os" : [
    " Windows "
  ],
  "browser" : [
    " Edge "
  ]
}

さらに、 preloaded識別されたすべての OS およびブラウザに音声がプリロードされているかどうかを示します。

現在のアプローチでは、音声が Chrome と Windows で利用可能であることを示すことはできませんが、たとえば Windows ではダウンロードが必要です。

例 9: Chrome デスクトップにプリロードされた Google 音声

{
  "label" : " Google female voice (UK) " ,
  "name" : " Google UK English Female " ,
  "language" : " en-GB " ,
  "gender" : " female " ,
  "browser" : [
    " ChromeDesktop "
  ],
  "preloaded" : true
}

話す速度とピッチ

Web Speech API を使用する場合、 SpeechSynthesisUtterance次のオプションの値をサポートします。

発話速度を制御するrate
そしてpitchでピッチをコントロール

このリポジトリに記載されている各音声は、次のオプションのプロパティをサポートしています。

pitchControlはブール値で、デフォルトはtrueで、音声のピッチを制御できるかどうかを示します。
rateは 0.1 ～ 10 の整数で、デフォルトは 1 で、各音声に推奨されるデフォルトの発話速度を提供します。
pitchは 0 ～ 2 の整数で、デフォルトは 1 で、各音声に推奨されるデフォルトのピッチを提供します。

例 10: ピッチを調整できない Microsoft voice

{
  "label" : " Ana (US) " ,
  "name" : " Microsoft Ana Online (Natural) - English (United States) " ,
  "language" : " en-US " ,
  "gender" : " female " ,
  "pitchControl" : false
}

例 11: 推奨されるピッチと速度レートを含む Google 音声

{
  "label" : " Voix Google féminine (France) " ,
  "name" : " Google français " ,
  "language" : " fr-FR " ,
  "gender" : " female " ,
  "rate" : 1 ,
  "pitch" : 0.8
}

追加の注意事項

推奨される音声のリストを文書化する作業を通じて、さまざまなブラウザ/OS をテストして、それらがどのように動作するかを確認することになりました。このセクションは、この情報の一部を要約することを目的としています。

Apple、Google、Microsoft、または Mozilla に報告された外部の問題を追跡するための専用ラベルも利用できます。

一般的な

Web Speech API は、 getVoices()メソッドを通じて次のフィールドを返します: name 、 voiceURI 、 lang 、 localService 、およびdefault 。
理論上はvoiceURI音声を識別する最も一貫した方法であるはずですが、実際にはこれは真実からは程遠いものです。ほとんどのブラウザは、 voiceURIにnameと同じ値を使用し、一意性を強制しません。
特定のブラウザ/OS に関するメモで説明するように、 nameの実装にも一貫性がなく、同じデバイス上の同じ音声に対して異なる値を返す可能性があります。
localService音声がオフラインで使用可能であり、期待どおりに動作しているかどうかを示します。そのため、現在の推奨音声リストにはその情報が含まれていません。
lang実装全体にわたってほとんど信頼できるようで、BCP 47 言語タグを使用して言語を返します。メイン言語は小文字、サブタグは大文字 ( pt-BR ) です。
残念ながら、外れ値がいくつかあります。
- Android、Samsung および Chrome では、代わりに区切り文字としてアンダースコアを使用します: en_us (関連する問題)
- Android 上の Firefox はさらにクリエイティブになり、言語に 3 文字のコードを使用し、末尾に追加の文字列eng-US-f000を追加します (関連問題)
default音声が現在のアプリ言語のデフォルトの音声であるかどうかを示すことを目的としています。理論的にはこれは非常に便利なはずですが、実装間での不一致、限られたコンテキスト (システムのデフォルトとユーザーのデフォルト)、および言語ごとにデフォルトの音声を設定する機能の欠如により、実際に使用するのは非常に困難です。
実装者は、 defaultの使用に加えて、特定のユーザーの優先言語/地域の順序付きリストが含まれるAccept-Language HTTP ヘッダーの使用も常に考慮する必要があります。

アンドロイド

現時点では、Google Pixel デバイスで利用できる Android のバニラバージョンでのテストとドキュメントのみを取り上げてきました。利用可能な音声のリストは、OEM、デバイス、Android のバージョンによって大きく異なる場合があります。
Android の性質上、これらすべてのバリエーションを文書化することは非常に困難です。このプロジェクトの将来のバージョンでは、デバイスファーム (関連問題) を使用してさらなる試みが行われる予定です。
バニラ Android の最近のバージョンには、幅広い言語/地域 (2024 年 4 月現在 67) をカバーする高品質の音声が豊富に揃っています。
これらの音声を使用するには、ユーザーはシステム設定をかなり深く掘り下げてダウンロードするか (システム言語と最も一般的な言語の一部のみがデフォルトでプリロードされています)、言語/地域ごとに好みの音声を選択する必要があります。
残念ながら、Android 上の Chrome は、ユーザーが利用できる音声のリストを返しません。代わりに、フィルターされていない言語/地域のリストを返します (関連する問題)。
さらに悪いことに、これらの音声と領域はすべてシステムロケールでローカライズされています。
これは、特に、音声パックのインストールが必要な言語や地域であっても、Web Speech API によって返されるリストに表示されることを意味します (関連問題)。
ユーザーが音声パックをダウンロードする必要がある言語/地域を選択した場合、Chrome では代わりにデフォルトで英語の音声が使用されます (関連する問題)。
音声パックがインストールされている場合でも、言語/地域を使用する前に、ユーザーは地域ごとにデフォルトの音声を選択する必要がある場合があります。
音声選択に対するこの不適切なアプローチにより、Android 上の Chrome はdefaultを使用してもユーザーの優先言語/地域を示しません (関連する問題)。

Chrome デスクトップ

デスクトップでは、Chrome には 15 の言語にわたる 19 の高品質音声の限られた選択肢がプリロードされています。
これらの音声はすべて、低品質のオフラインバリアントにフォールバックすることなく、使用するためにオンラインアクセスが必要です。
残念ながら、Web Speech API による発話の読み取りに 14 秒以上かかる場合 (関連問題)、境界イベントを返さない場合 (関連問題)、これらの音声もバグに悩まされています。
現状では、これらの Google の音声は、推奨される音声のリストで Microsoft/Apple の音声よりも優先順位が低くされています。
全体として、デフォルトでサポートされている音声と言語の範囲に関して、Chrome デスクトップが Android や Chrome OS に大きく遅れをとっているのは残念です (関連問題)。

Chrome OS

Chrome OS には、Chrome OS 音声、Android 音声 (50 以上の言語)、ナチュラル音声、および eSpeak 音声 (38 言語) の 4 つの音声セットが付属しています。
デフォルトでは、Chrome OS はシステム言語の Chrome OS 音声をダウンロードしますが、Android および eSpeak の音声はすべての言語で利用できます。
Google は、ナチュラルボイスのサポートも徐々に追加しています。ナチュラルボイスは、基本的に Android 音声の高品質バージョンであり、オフラインで作業できるという利点が追加されています。ナチュラルボイスをインストールするには、ユーザーがシステム設定に移動する必要があります。
Chrome OS には、新しい Chrome OS アップデートがインストールされるたびにボイスパックがアンインストールされるという残念な傾向があり、これは非常に頻繁に発生します。
ほとんどの Android 音声はオフラインおよびオンラインのバージョンを提供しており、ダウンロード可能な音声の点で Apple が提供するものと品質的に同等です。
これらの Android 音声には、どのプラットフォーム/ブラウザーでも最悪の名前が付けられているため、このプロジェクトが提供するような再ラベル付けがなければ、ほとんど使用できません。
Android の音声には、遅延や可用性の問題もあります。場合によっては、最初の発話が読み上げられるまでに最大 1 分かかることがあります。
Chrome の音声は Android の音声より 1 段階劣りますが、最も一般的な言語の適切な選択肢が提供されます。
eSpeak 音声は品質が非常に低いため、絶対に避けるべきであり、フィルタリングして除外するために別途文書化されています。

角

デスクトップでは、Edge は 75 言語にわたる 250 を超えるプリロード音声を備えた高品質音声の最良の選択を提供します (2024 年 4 月現在)。
これらのいわゆる「自然な」音声はすべて機械学習 (ML) に依存しているため、使用するにはオンラインアクセスが必要です。
それらの音声の少数は多言語でもあり、文章の言語を検出してそれに応じて適応できるようです。残念ながら、文の途中で言語が切り替わる場合、これはうまく機能しません。
少なくとも macOS では、Edge が最初は 18 の自然音声しか表示しないという奇妙なバグがありますが、Web Speech API を使用して発話を出力すると、これが 250 以上に拡張されます。
これらの音声を使用する場合、実装者が注意すべき追加の問題もあります。ピッチ調整がサポートされていないこと (関連問題)、および再生の問題を回避するために多くの文字をエスケープする必要があること (関連問題) です。
モバイルでは、Edge はそれほど興味深いものではありません。
- Android では空の音声リストが返されるため、Android ではまったく使用できません。そのため、Web Speech API で使用することはできません (関連する問題)。
- iOS/iPadOS では、現在、すべてのブラウザーはエンジンとして Safari を使用することを強制されています。これは、Edge が Safari Mobile とまったく同じように動作することを意味します。

Firefox

デスクトップでは、Firefox は音声の選択に関しては非常に簡単に見えます。
Chrome や Edge とは異なり、Firefox には独自の音声がプリロードされていません。
Firefox は、 voiceURIに対して異なるアプローチを採用しており、各音声は一意の URN によって実際に識別されます。
これは Firefox に固有のものであるため、現在の JSON ファイルにはこれらの URI がまだ文書化されていませんが、将来追加される可能性があります。
macOS では、新しい音声をリストに表示するには、Firefox のシステムを完全に再起動する必要があります。

iOSとiPadOS

どちらの OS にも、macOS と同じプリロード音声とダウンロード可能な音声のセットが付属しています。利用可能な音声に関する追加情報については、以下の macOS セクションをお読みください。
理由は不明ですが、一部のプリロードされたボイスも 2 回リストされていますが、同じオーディオ出力を提供します。
すべてのブラウザはシステム Webview 上で実行する必要があります。これは、ブラウザがまったく異なるブラウザではなく、Safari Mobile 上の単なるシェルであることを意味します。
この状況は、欧州のデジタル市場法により変化する可能性があり、Apple はサードパーティのブラウザと Web ビューに関するポリシーの変更を余儀なくされます。

macOS

macOS には、プリロードまたはダウンロード可能な 45 言語にわたる音声の広範なリストが用意されています。
これらの音声には、出力の品質 (およびダウンロードサイズ) に基づいて、最大 3 つの異なるバリエーションを含めることができます。
おそらく最高品質の音声は Siri で利用できるものですが、残念ながら、Web Speech API (関連問題) では利用できません。
その対極にあるのは、Apple が Eloquence (8 声) や Effects (15 声) ボイスパックなど、低品質で奇妙な音声を幅広くプリロードするという残念なアイデアでした。
これらの音声の存在だけでも、macOS ユーザーが利用できる音声をフィルタリングし、このリポジトリで推奨されている音声を強調表示する十分な理由になります。
他のプラットフォーム/OS とは異なり、macOS は音声名をローカライズすることにしました。 voiceURI音声の信頼できる識別子として使用できる場合、これは問題になりませんが、そうではありません (関連する問題)。
現状では、このリポジトリには公式にサポートされている言語のローカリゼーションのみが文書化されており、macOS TTS エンジンでサポートされている 45 の言語は文書化されていません。

サファリ

良くも悪くも、Safari の動作はデスクトップ版とモバイル版でほぼ一貫しています。
ダウンロード可能な音声が、Web Speech API によって返されるリストに表示されません (関連する問題)。
さらに悪いことに、プリロードされた音声の高品質バージョンをインストールすると、これらの音声が Safari で消えてしまい、言語全体が完全に消える可能性があります。
Safari のdefaultではすべての音声がtrue返すため、システム/ユーザーのデフォルトを検出して選択することができなくなります (関連する問題)。

窓

Microsoft は、Windows 10 および 11 で利用可能なすべての音声 (36 言語にわたる合計 98 の音声) をリストした非常に役立つページを提供しています。
自然音声ははるかに優れたエクスペリエンスを提供しますが、最新バージョンの Windows 11 が必要であり、ダウンロードする必要があります (オフラインでも動作するという利点もあります)。
Microsoft は、これらの自然な音声を Windows 11 全体に追加するのが遅れています。ごく最近まで、米国の音声 (3 つの音声) のみが利用可能でした。このリストは少し長くなりました (8 言語で 23 音声) が、Edge で提供されるもの (75 言語で 250 以上の音声) には遠く及ばないままです。
残念ながら、これらの高品質の音声は現在、Chrome または Firefox に適切にリストされていません (関連する問題)。これらは Edge にのみ表示され、プリロードされますが、厳密にはオンラインでの使用を目的としています。

拡大する

追加情報

バージョン
タイプその他のソースコード
更新時間 2024-12-29
サイズ 50MB
から Github