EfficientWord Netダウンロード - EfficientWord Netソースコードのダウンロード

EfficientWord Net

AI ソースコード

v.0.2.2

ダウンロード

EfficientWord-Net: 少数ショット学習に基づくホットワード検出

ホームアシスタントを有効にするには、ホットワードと呼ばれる特別なフレーズが必要です (「OK Google」など)。 EfficientWord-Net は、開発者が追加料金なしでカスタムホットワードをプログラムに追加できる、少数ショット学習に基づくホットワード検出エンジンです。このライブラリは純粋に Python で書かれており、リアルタイム推論を高速化するために Google の TFLite 実装を使用しています。これは、FaceNet のシャムネットワークアーキテクチャからインスピレーションを得ており、3 ～ 4 個のホットワードサンプルがユーザーから直接収集された場合に最高のパフォーマンスを発揮します。

Pi 上の EfficientWord-Net のデモ

EfficientWord-Net.mp4

トレーニングファイルにアクセスする

トレーニングファイル: トレーニングファイルにアクセスします。

データセット

リンクは次のとおりです。

データセット 1
データセット 2

アクセスペーパー

研究論文にアクセスするには、「研究論文」を選択します。

Python のバージョン要件

このライブラリは、Python バージョン 3.6 ～ 3.9 で動作します。

依存関係のインストール

ライブラリの pip インストールコマンドを実行する前に、いくつかの依存関係を手動でインストールする必要があります。

PyAudio (PortAudio に依存)
TFLite (TensorFlow 軽量バイナリ)
Librosa (バイナリは特定のシステムでは利用できない場合があります)

Mac OS M* および Raspberry Pi のユーザーは、これらの依存関係をコンパイルする必要がある場合があります。

tfliteパッケージはrequirements.txtにリストすることができないため、システムでパッケージが初期化されるときに自動的にインストールされます。

librosaパッケージは、推論のみの場合には必要ありません。ただし、 generate_referenceが呼び出されると、自動的にインストールされます。

パッケージのインストール

次の pip コマンドを実行します。

 pip install EfficientWord-Net

パッケージをインポートするには:

 import eff_word_net

デモ

パッケージをインストールした後、ライブラリに組み込まれているデモスクリプトを実行できます (マイクが動作していることを確認してください)。

https://ant-brain.github.io/EfficientWord-Net/ からドキュメントにアクセスします。

デモを実行するコマンド:

 python -m eff_word_net.engine

カスタムウェイクワードの生成

新しいホットワードの場合、ライブラリにはホットワードに関する情報が必要です。この情報は{wakeword}_ref.jsonというファイルから取得されます。たとえば、ウェイクワード「alexa」の場合、ライブラリにはalexa_ref.jsonというファイルが必要です。

これらのファイルは次の手順で生成できます。

特定のウェイクワードの独特に聞こえる発音を 4 ～ 10 個収集します。他に何も含まれない別のフォルダーにそれらを置きます。
あるいは、次のコマンドを使用して、特定の単語の音声ファイルを生成します (IBM ニューラル TTS デモ API を使用します)。私たちのためにそれを使いすぎないでください。

python -m eff_word_net.ibm_generate

最後に、このコマンドを実行します。入力フォルダー (オーディオファイルを含む) と出力フォルダー (_ref.json ファイルが保存される場所) の場所を尋ねます。

 python -m eff_word_net.generate_reference

生成されたウェイクワードのパス名を HotwordDetector インスタンスに渡す必要があります。

 HotwordDetector (
    hotword = "hello" ,
    model = Resnet_50_Arc_loss (),
    reference_file = "/full/path/name/of/hello_ref.json" ,
    threshold = 0.9 ,  # min confidence required to consider a trigger
    relaxation_time = 0.8  # default value, in seconds
)

モデル変数は、Resnet_50_Arc_loss または First_Iteration_Siamese のインスタンスを受け取ることができます。

Relaxation_time パラメーターは、2 つのトリガー間の最小時間を決定するために使用されます。 Relax_time より前の潜在的なトリガーはすべてキャンセルされます。検出器はスライディングウィンドウアプローチで動作し、ホットワードの 1 つの発話に対して複数のトリガーが発生します。 Relax_time パラメータを使用して複数のトリガーを制御できます。ほとんどの場合、0.8 秒 (デフォルト) で十分です。

すぐに使えるサンプルホットワード

このライブラリには、 Mycroft 、 Google 、 Firefox 、 Alexa 、 Mobile 、 Siriなどのいくつかのウェイクワードですぐに利用できる事前定義された埋め込みが含まれています。これらのパスは、ライブラリのインストールディレクトリですぐに入手できます。

 from eff_word_net import samples_loc

最初の単一のホットワード検出スクリプトを試してください

 import os
from eff_word_net . streams import SimpleMicStream
from eff_word_net . engine import HotwordDetector

from eff_word_net . audio_processing import Resnet50_Arc_loss

from eff_word_net import samples_loc

base_model = Resnet50_Arc_loss ()

mycroft_hw = HotwordDetector (
    hotword = "mycroft" ,
    model = base_model ,
    reference_file = os . path . join ( samples_loc , "mycroft_ref.json" ),
    threshold = 0.7 ,
    relaxation_time = 2
)

mic_stream = SimpleMicStream (
    window_length_secs = 1.5 ,
    sliding_window_secs = 0.75 ,
)

mic_stream . start_stream ()

print ( "Say Mycroft " )
while True :
    frame = mic_stream . getFrame ()
    result = mycroft_hw . scoreFrame ( frame )
    if result == None :
        #no voice activity
        continue
    if ( result [ "match" ]):
        print ( "Wakeword uttered" , result [ "confidence" ])

オーディオストリームから複数のホットワードを検出する

このライブラリは、各ウェイクワードのscoreFrame()個別に実行するのではなく、特定のストリームから複数のホットワードを検出する計算に優しい方法を提供します。

 import os
from eff_word_net . streams import SimpleMicStream
from eff_word_net import samples_loc
print ( samples_loc )


base_model = Resnet50_Arc_loss ()

mycroft_hw = HotwordDetector (
    hotword = "mycroft" ,
    model = base_model ,
    reference_file = os . path . join ( samples_loc , "mycroft_ref.json" ),
    threshold = 0.7 ,
    relaxation_time = 2
)

alexa_hw = HotwordDetector (
        hotword = "alexa" ,
        model = base_model ,
        reference_file = os . path . join ( samples_loc , "alexa_ref.json" ),
        threshold = 0.7 ,
        relaxation_time = 2 ,
        #verbose=True
)


computer_hw = HotwordDetector (
    hotword = "computer" ,
    model = base_model ,
    reference_file = os . path . join ( samples_loc , "computer_ref.json" ),
    threshold = 0.7 ,
    relaxation_time = 2 ,
    #verbose=True
)

multi_hotword_detector = MultiHotwordDetector (
    [ mycroft_hw , alexa_hw , computer_hw ],
    model = base_model ,
    continuous = True ,
)

mic_stream = SimpleMicStream ( window_length_secs = 1.5 , sliding_window_secs = 0.75 )
mic_stream . start_stream ()

print ( "Say " , " / " . join ([ x . hotword for x in multi_hotword_detector . detector_collection ]))

while True :
    frame = mic_stream . getFrame ()
    result = multi_hotword_detector . findBestMatch ( frame )
    if ( None not in result ):
        print ( result [ 0 ], f",Confidence { result [ 1 ]:0.4f } " )

ここからライブラリのドキュメントにアクセスします: https://ant-brain.github.io/EfficientWord-Net/

以下は、文法と書式が改善された README.md ファイルの修正バージョンです。

メモを 0.2.2 から v1.0.1 に変更

新しいモデルの追加: Resnet_50_Arc_loss が大幅に改善されました。

MLCommons からの変更された蒸留データセットを使用して、新しいモデルを最初からトレーニングしました。
三重項損失関数の代わりにアーク損失関数を使用しました。
結果のモデルは resnet_50_arcloss として保存されます。
新しいモデルは、バックグラウンドノイズに対する耐性がはるかに優れており、精度を高めるために必要なサンプルが少なくなります。
新しいモデルを簡単に追加できるようにするための API フローの小さな変更。
新しいモデルは、1.5 秒の固定ウィンドウ長を処理できます。
古いモデルには引き続き first_iteration_siamese を通じてアクセスできます。

注意事項を v0.1.1 から 0.2.2 に変更

発話ごとにポリトリガーを処理する複雑なロジックを、より単純なロジックとプログラマー向けのより単純な API に置き換える大幅な変更。
重大な変更を導入します。
現在のモデルの C++ 実装はここにあります。

現在のモデルの制限事項

単一の単語で訓練されているため、「Hey xxx」などのフレーズを使用すると、奇妙な動作が発生する可能性があります。
音声処理ウィンドウは 1 秒に制限されます。したがって、長いホットワードに対しては効果的に機能しません。

よくある質問

ホットワードのパフォーマンスが悪い: このような問題が発生している場合は、ディスカッションでお気軽に質問してください。
ArduinoのようなFPGA上で実行できますか? : いいえ、新しい Resnet_50_Arcloss モデルは Arduino で実行するには重すぎます (サイズは約 88MB)。モデルのプルーニングされたバージョンのサポートを間もなく追加し、小型デバイス上で実行できるほど軽くできるようにする予定です。今のところ、Raspberry Pi のようなデバイスで実行できるはずです。

貢献

プロジェクトをより良くするためのアイデアがある場合は、ディスカッションでお気軽にご連絡ください。
現在の logmelcalc.tflite グラフは、一度に 1 つのオーディオフレームのみを Log Mel スペクトログラムに変換できます。 TensorFlow の専門家がこれについて私たちを支援してくれれば、非常に役立ちます。

TODO

ストリームにオーディオファイルハンドラーを追加します。 PRの方も大歓迎です。
librosa 要件を削除して、エッジデバイス上で直接参照ファイルを生成することを奨励します。
スライディングウィンドウの概念を説明する詳細なドキュメントを追加します。
モデルの微調整サポートを追加します。
結果のモデルを微調整に使用できる、スパースおよびきめの細かい枝刈りのサポートを追加します (これについてはすでに取り組んでいます)。

サポートしてください

当社のホットワード検出器のパフォーマンスは、Porcupine と比較して著しく低いです。私たちはエンジンのより優れた NN アーキテクチャを検討し、Porcupine を上回るパフォーマンスを実現したいと考えています。これは私たちの学部生のプロジェクトであるため、皆様のご支援と励ましがエンジンのさらなる開発の原動力となります。このプロジェクトが気に入ったら、同僚に勧めてください。「?」を付けてください。 GitHub で、そして拍手?ミディアムで。

アップデート: あなたのスターのおかげで、はるかに優れた新しいモデルを作成するよう励まされました。このコミュニティを成長させていきましょう！

ライセンス

Apache ライセンス 2.0

拡大する

追加情報

バージョン v.0.2.2
タイプ AI ソースコード
更新時間 2025-01-27
サイズ 99.29MB
から Github

EfficientWord Net

EfficientWord-Net: 少数ショット学習に基づくホットワード検出

Pi 上の EfficientWord-Net のデモ

トレーニングファイルにアクセスする

データセット

アクセスペーパー

Python のバージョン要件

依存関係のインストール

パッケージのインストール

デモ

カスタムウェイクワードの生成

すぐに使えるサンプルホットワード

最初の単一のホットワード検出スクリプトを試してください

オーディオストリームから複数のホットワードを検出する

メモを 0.2.2 から v1.0.1 に変更

新しいモデルの追加: Resnet_50_Arc_loss が大幅に改善されました。

注意事項を v0.1.1 から 0.2.2 に変更

現在のモデルの制限事項

よくある質問

貢献

TODO

サポートしてください

ライセンス

メタネットアプリ

Fire.Netクリエーター

WP.NET .NET版WordPress

QCMS.NET

URLリライター.NET

URLリライター.NET

chat.petals.dev

GPT Prompt Templates

GPTyped

node telegram bot api

typebot.io

python wechaty getting started

waymo open dataset

termwind

wp functions

EfficientWord Net

EfficientWord-Net: 少数ショット学習に基づくホットワード検出

Pi 上の EfficientWord-Net のデモ

トレーニング ファイルにアクセスする

データセット

アクセスペーパー

Python のバージョン要件

依存関係のインストール

パッケージのインストール

デモ

カスタムウェイクワードの生成

すぐに使えるサンプルホットワード

最初の単一のホットワード検出スクリプトを試してください

オーディオ ストリームから複数のホットワードを検出する

メモを 0.2.2 から v1.0.1 に変更

新しいモデルの追加: Resnet_50_Arc_loss が大幅に改善されました。

注意事項を v0.1.1 から 0.2.2 に変更

現在のモデルの制限事項

よくある質問

貢献

TODO

サポートしてください

ライセンス

トレーニングファイルにアクセスする

オーディオストリームから複数のホットワードを検出する