EfficientWord Net Download - Download des EfficientWord Net -Quellcodes

EfficientWord Net

AI-Quellcode

v.0.2.2

Herunterladen

EfficientWord-Net: Hotword-Erkennung basierend auf Few-Shot-Learning

Heimassistenten benötigen zur Aktivierung spezielle Phrasen, sogenannte Hotwords (z. B. „OK Google“). EfficientWord-Net ist eine Hotword-Erkennungs-Engine, die auf Fow-Shot-Learning basiert und es Entwicklern ermöglicht, ohne zusätzliche Kosten benutzerdefinierte Hotwords zu ihren Programmen hinzuzufügen. Die Bibliothek ist ausschließlich in Python geschrieben und nutzt die TFLite-Implementierung von Google für schnellere Echtzeit-Inferenz. Es ist von der siamesischen Netzwerkarchitektur von FaceNet inspiriert und erzielt die beste Leistung, wenn 3-4 Hotword-Beispiele direkt vom Benutzer gesammelt werden.

Demo von EfficientWord-Net auf Pi

EffizientesWord-Net.mp4

Greifen Sie auf die Trainingsdatei zu

Trainingsdatei, um auf die Trainingsdatei zuzugreifen.

Datensätze

Hier sind die Links:

Datensatz 1
Datensatz 2

Greifen Sie auf Papier zu

Forschungspapier, um auf das Forschungspapier zuzugreifen.

Anforderungen an die Python-Version

Diese Bibliothek funktioniert mit den Python-Versionen 3.6 bis 3.9.

Abhängigkeiten Installation

Bevor Sie den pip-Installationsbefehl für die Bibliothek ausführen, müssen einige Abhängigkeiten manuell installiert werden:

PyAudio (abhängig von PortAudio)
TFLite (leichte TensorFlow-Binärdateien)
Librosa (Binärdateien sind für bestimmte Systeme möglicherweise nicht verfügbar)

Benutzer von Mac OS M* und Raspberry Pi müssen diese Abhängigkeiten möglicherweise kompilieren.

Das tflite -Paket kann nicht in der Datei „requirements.txt“ aufgeführt werden, daher wird es automatisch installiert, wenn das Paket im System initialisiert wird.

Das librosa- Paket ist für Nur-Inferenz-Fälle nicht erforderlich. Wenn jedoch generate_reference aufgerufen wird, wird es automatisch installiert.

Paketinstallation

Führen Sie den folgenden Pip-Befehl aus:

 pip install EfficientWord-Net

So importieren Sie das Paket:

 import eff_word_net

Demo

Nach der Installation der Pakete können Sie das in die Bibliothek integrierte Demo-Skript ausführen (stellen Sie sicher, dass Sie über ein funktionierendes Mikrofon verfügen).

Zugriff auf die Dokumentation unter: https://ant-brain.github.io/EfficientWord-Net/

Befehl zum Ausführen der Demo:

 python -m eff_word_net.engine

Generieren benutzerdefinierter Wakewords

Für jedes neue Hotword benötigt die Bibliothek Informationen über das Hotword. Diese Informationen werden aus einer Datei namens {wakeword}_ref.json abgerufen. Für das Wakeword „alexa“ benötigt die Bibliothek beispielsweise die Datei alexa_ref.json .

Diese Dateien können mit dem folgenden Verfahren generiert werden:

Sammeln Sie 4 bis 10 einzigartig klingende Aussprachen eines bestimmten Wakewords. Legen Sie sie in einen separaten Ordner ab, der nichts anderes enthält.
Alternativ können Sie den folgenden Befehl verwenden, um Audiodateien für ein bestimmtes Wort zu generieren (verwendet die IBM Neural TTS-Demo-API). Bitte übertreiben Sie es nicht für uns:

python -m eff_word_net.ibm_generate

Führen Sie abschließend diesen Befehl aus. Es wird nach dem Speicherort des Eingabeordners (der die Audiodateien enthält) und des Ausgabeordners (in dem die Datei _ref.json gespeichert wird) gefragt:

 python -m eff_word_net.generate_reference

Der Pfadname des generierten Wakewords muss an die HotwordDetector-Instanz übergeben werden:

 HotwordDetector (
    hotword = "hello" ,
    model = Resnet_50_Arc_loss (),
    reference_file = "/full/path/name/of/hello_ref.json" ,
    threshold = 0.9 ,  # min confidence required to consider a trigger
    relaxation_time = 0.8  # default value, in seconds
)

Die Modellvariable kann eine Instanz von Resnet_50_Arc_loss oder First_Iteration_Siamese empfangen.

Der Parameter „relaxation_time“ wird verwendet, um die Mindestzeit zwischen zwei beliebigen Auslösern zu bestimmen. Alle möglichen Auslöser vor der relax_time werden abgebrochen. Der Detektor arbeitet mit einem Schiebefenster-Ansatz, was zu mehreren Auslösern für eine einzelne Äußerung eines Hotwords führt. Der Parameter „relaxation_time“ kann zur Steuerung mehrerer Trigger verwendet werden; In den meisten Fällen reichen 0,8 Sekunden (Standard) aus.

Sofort einsatzbereite Beispiel-Hotwords

Die Bibliothek verfügt über vordefinierte Einbettungen, die für einige Wakewords wie Mycroft , Google , Firefox , Alexa , Mobile und Siri verfügbar sind. Ihre Pfade sind im Installationsverzeichnis der Bibliothek leicht verfügbar.

 from eff_word_net import samples_loc

Probieren Sie Ihr erstes Skript zur Erkennung einzelner Hotwords aus

 import os
from eff_word_net . streams import SimpleMicStream
from eff_word_net . engine import HotwordDetector

from eff_word_net . audio_processing import Resnet50_Arc_loss

from eff_word_net import samples_loc

base_model = Resnet50_Arc_loss ()

mycroft_hw = HotwordDetector (
    hotword = "mycroft" ,
    model = base_model ,
    reference_file = os . path . join ( samples_loc , "mycroft_ref.json" ),
    threshold = 0.7 ,
    relaxation_time = 2
)

mic_stream = SimpleMicStream (
    window_length_secs = 1.5 ,
    sliding_window_secs = 0.75 ,
)

mic_stream . start_stream ()

print ( "Say Mycroft " )
while True :
    frame = mic_stream . getFrame ()
    result = mycroft_hw . scoreFrame ( frame )
    if result == None :
        #no voice activity
        continue
    if ( result [ "match" ]):
        print ( "Wakeword uttered" , result [ "confidence" ])

Erkennen mehrerer Hotwords aus Audiostreams

Die Bibliothek bietet eine rechenfreundliche Möglichkeit, mehrere Hotwords aus einem bestimmten Stream zu erkennen, anstatt scoreFrame() für jedes Wakeword einzeln auszuführen

 import os
from eff_word_net . streams import SimpleMicStream
from eff_word_net import samples_loc
print ( samples_loc )


base_model = Resnet50_Arc_loss ()

mycroft_hw = HotwordDetector (
    hotword = "mycroft" ,
    model = base_model ,
    reference_file = os . path . join ( samples_loc , "mycroft_ref.json" ),
    threshold = 0.7 ,
    relaxation_time = 2
)

alexa_hw = HotwordDetector (
        hotword = "alexa" ,
        model = base_model ,
        reference_file = os . path . join ( samples_loc , "alexa_ref.json" ),
        threshold = 0.7 ,
        relaxation_time = 2 ,
        #verbose=True
)


computer_hw = HotwordDetector (
    hotword = "computer" ,
    model = base_model ,
    reference_file = os . path . join ( samples_loc , "computer_ref.json" ),
    threshold = 0.7 ,
    relaxation_time = 2 ,
    #verbose=True
)

multi_hotword_detector = MultiHotwordDetector (
    [ mycroft_hw , alexa_hw , computer_hw ],
    model = base_model ,
    continuous = True ,
)

mic_stream = SimpleMicStream ( window_length_secs = 1.5 , sliding_window_secs = 0.75 )
mic_stream . start_stream ()

print ( "Say " , " / " . join ([ x . hotword for x in multi_hotword_detector . detector_collection ]))

while True :
    frame = mic_stream . getFrame ()
    result = multi_hotword_detector . findBestMatch ( frame )
    if ( None not in result ):
        print ( result [ 0 ], f",Confidence { result [ 1 ]:0.4f } " )

Zugriff auf die Dokumentation der Bibliothek finden Sie hier: https://ant-brain.github.io/EfficientWord-Net/

Hier ist die korrigierte Version der README.md-Datei mit verbesserter Grammatik und Formatierung:

Notizen von 0.2.2 auf v1.0.1 ändern

Neue Modellerweiterung: Resnet_50_Arc_loss mit enormen Verbesserungen!

Ein neues Modell von Grund auf mit einem modifizierten destillierten Datensatz von MLCommons trainiert.
Arc-Verlustfunktion anstelle der Triplett-Verlustfunktion verwendet.
Das resultierende Modell wird als resnet_50_arcloss gespeichert.
Das neuere Modell weist eine viel bessere Widerstandsfähigkeit gegenüber Hintergrundgeräuschen auf und benötigt für eine gute Genauigkeit weniger Proben.
Kleinere Änderungen im API-Ablauf, um das einfache Hinzufügen neuer Modelle zu erleichtern.
Neuere Modelle können eine feste Fensterlänge von 1,5 Sekunden verarbeiten.
Auf das alte Modell kann weiterhin über first_iteration_siamese zugegriffen werden.

Notizen von v0.1.1 auf 0.2.2 ändern

Wichtige Änderungen, um die komplexe Logik zur Verarbeitung von Poly-Triggern pro Äußerung durch eine einfachere Logik und eine einfachere API für Programmierer zu ersetzen.
Führt bahnbrechende Änderungen ein.
Die C++-Implementierung des aktuellen Modells finden Sie hier.

Einschränkungen im aktuellen Modell

Auf einzelne Wörter trainiert, kann es daher zu bizarrem Verhalten kommen, wenn Sätze wie „Hey xxx“ verwendet werden.
Audioverarbeitungsfenster auf 1 Sekunde begrenzt. Daher funktioniert es bei längeren Hotwords nicht effektiv.

FAQ

Die Hotword-Leistung ist schlecht : Wenn bei Ihnen solche Probleme auftreten, können Sie in den Diskussionen nachfragen.
Kann es auf FPGAs wie Arduino laufen? : Nein, das neue Resnet_50_Arcloss-Modell ist zu schwer, um auf Arduino ausgeführt zu werden (ungefähr 88 MB groß). Wir werden in Kürze Unterstützung für beschnittene Versionen des Modells hinzufügen, damit es leicht genug wird, um auf kleinen Geräten ausgeführt zu werden. Derzeit sollte es auf Raspberry Pi-ähnlichen Geräten lauffähig sein.

Beitrag

Wenn Sie Ideen zur Verbesserung des Projekts haben, können Sie uns gerne in den Diskussionen anrufen.
Das aktuelle logmelcalc.tflite-Diagramm kann jeweils nur einen Audiorahmen in ein Log-Mel-Spektrogramm umwandeln. Es wäre eine große Hilfe, wenn uns die TensorFlow-Gurus da draußen dabei helfen könnten.

TODO

Audiodatei-Handler in Streams hinzufügen. PRs sind willkommen.
Entfernen Sie die Librosa-Anforderung, um die Generierung von Referenzdateien direkt auf Edge-Geräten zu fördern.
Fügen Sie eine detailliertere Dokumentation hinzu, die das Schiebefensterkonzept erläutert.
Fügen Sie Unterstützung für die Modellfeinabstimmung hinzu.
Fügen Sie Unterstützung für spärliches und feinkörniges Bereinigen hinzu, bei dem die resultierenden Modelle zur Feinabstimmung verwendet werden könnten (daran wird bereits gearbeitet).

Unterstützen Sie uns

Die Leistung unseres Hotword-Detektors ist im Vergleich zu Porcupine deutlich geringer. Wir haben über bessere NN-Architekturen für die Engine nachgedacht und hoffen, Porcupine zu übertreffen. Dies war unser Bachelor-Projekt, daher werden Ihre Unterstützung und Ihre Ermutigung uns motivieren, den Motor weiterzuentwickeln. Wenn Ihnen dieses Projekt gefällt, empfehlen Sie es Ihren Kollegen und geben Sie uns ein ? auf GitHub und ein Klatschen? auf Mittel.

Update: Ihre Sterne haben uns ermutigt, ein neues Modell zu entwickeln, das weitaus besser ist. Lasst uns diese Community wachsen lassen!