EfficientWord Net下载 - EfficientWord Net源码下载

EfficientWord Net

Ai源码

v.0.2.2

下载

EfficientWord-Net：基于少样本学习的热词检测

家庭助理需要称为热词的特殊短语才能激活（例如“OK Google”）。 EfficientWord-Net 是一种基于小样本学习的热词检测引擎，允许开发人员将自定义热词添加到他们的程序中，而无需额外付费。该库纯粹用 Python 编写，并使用 Google 的 TFLite 实现来实现更快的实时推理。它受到 FaceNet 的 Siamese 网络架构的启发，在直接从用户收集 3-4 个热词样本时表现最佳。

EfficientWord-Net 在 Pi 上的演示

EfficientWord-Net.mp4

访问培训文件

培训文件访问培训文件。

数据集

以下是链接：

数据集1
数据集2

访问文件

研究论文访问研究论文。

Python 版本要求

该库适用于 Python 版本 3.6 至 3.9。

依赖安装

在运行库的 pip 安装命令之前，需要手动安装一些依赖项：

PyAudio（取决于 PortAudio）
TFLite（TensorFlow 轻量级二进制文件）
Librosa（二进制文件可能不适用于某些系统）

Mac OS M* 和 Raspberry Pi 用户可能必须编译这些依赖项。

tflite包无法在requirements.txt 中列出，因此当该包在系统中初始化时会自动安装。

仅推理情况不需要librosa包。但是，当调用generate_reference时，它会自动安装。

包安装

运行以下 pip 命令：

 pip install EfficientWord-Net

导入包：

 import eff_word_net

演示

安装软件包后，您可以运行库中内置的演示脚本（确保您有一个可用的麦克风）。

访问文档：https://ant-brain.github.io/EfficientWord-Net/

运行演示的命令：

 python -m eff_word_net.engine

生成自定义唤醒词

对于任何新的热词，图书馆需要有关该热词的信息。此信息是从名为{wakeword}_ref.json的文件中获取的。例如，对于唤醒词“alexa”，库需要名为alexa_ref.json的文件。

这些文件可以通过以下过程生成：

收集给定唤醒词的 4 到 10 个发音独特的发音。将它们放入不包含其他任何内容的单独文件夹中。
或者，使用以下命令为给定单词生成音频文件（使用 IBM 神经 TTS 演示 API）。为了我们的利益，请不要过度使用它：

python -m eff_word_net.ibm_generate

最后，运行此命令。它将询问输入文件夹的位置（包含音频文件）和输出文件夹（将存储 _ref.json 文件的位置）：

 python -m eff_word_net.generate_reference

生成的唤醒词的路径名需要传递给 HotwordDetector 实例：

 HotwordDetector (
    hotword = "hello" ,
    model = Resnet_50_Arc_loss (),
    reference_file = "/full/path/name/of/hello_ref.json" ,
    threshold = 0.9 ,  # min confidence required to consider a trigger
    relaxation_time = 0.8  # default value, in seconds
)

模型变量可以接收 Resnet_50_Arc_loss 或 First_Iteration_Siamese 的实例。

relaxation_time 参数用于确定任意两个触发器之间的最短时间。 Relax_time 之前的任何潜在触发器都将被取消。该检测器采用滑动窗口方法运行，从而导致单个热词的多次触发。 relaxation_time参数可用于控制多个触发器；在大多数情况下，0.8 秒（默认）就足够了。

开箱即用的示例热词

该库已经为一些唤醒词（例如Mycroft 、 Google 、 Firefox 、 Alexa 、 Mobile和Siri）提供了预定义的嵌入。它们的路径在库安装目录中很容易获得。

 from eff_word_net import samples_loc

尝试您的第一个单个热词检测脚本

 import os
from eff_word_net . streams import SimpleMicStream
from eff_word_net . engine import HotwordDetector

from eff_word_net . audio_processing import Resnet50_Arc_loss

from eff_word_net import samples_loc

base_model = Resnet50_Arc_loss ()

mycroft_hw = HotwordDetector (
    hotword = "mycroft" ,
    model = base_model ,
    reference_file = os . path . join ( samples_loc , "mycroft_ref.json" ),
    threshold = 0.7 ,
    relaxation_time = 2
)

mic_stream = SimpleMicStream (
    window_length_secs = 1.5 ,
    sliding_window_secs = 0.75 ,
)

mic_stream . start_stream ()

print ( "Say Mycroft " )
while True :
    frame = mic_stream . getFrame ()
    result = mycroft_hw . scoreFrame ( frame )
    if result == None :
        #no voice activity
        continue
    if ( result [ "match" ]):
        print ( "Wakeword uttered" , result [ "confidence" ])

从音频流中检测多个热词

该库提供了一种计算友好的方法来检测给定流中的多个热词，而不是单独运行每个唤醒词的scoreFrame()

 import os
from eff_word_net . streams import SimpleMicStream
from eff_word_net import samples_loc
print ( samples_loc )


base_model = Resnet50_Arc_loss ()

mycroft_hw = HotwordDetector (
    hotword = "mycroft" ,
    model = base_model ,
    reference_file = os . path . join ( samples_loc , "mycroft_ref.json" ),
    threshold = 0.7 ,
    relaxation_time = 2
)

alexa_hw = HotwordDetector (
        hotword = "alexa" ,
        model = base_model ,
        reference_file = os . path . join ( samples_loc , "alexa_ref.json" ),
        threshold = 0.7 ,
        relaxation_time = 2 ,
        #verbose=True
)


computer_hw = HotwordDetector (
    hotword = "computer" ,
    model = base_model ,
    reference_file = os . path . join ( samples_loc , "computer_ref.json" ),
    threshold = 0.7 ,
    relaxation_time = 2 ,
    #verbose=True
)

multi_hotword_detector = MultiHotwordDetector (
    [ mycroft_hw , alexa_hw , computer_hw ],
    model = base_model ,
    continuous = True ,
)

mic_stream = SimpleMicStream ( window_length_secs = 1.5 , sliding_window_secs = 0.75 )
mic_stream . start_stream ()

print ( "Say " , " / " . join ([ x . hotword for x in multi_hotword_detector . detector_collection ]))

while True :
    frame = mic_stream . getFrame ()
    result = multi_hotword_detector . findBestMatch ( frame )
    if ( None not in result ):
        print ( result [ 0 ], f",Confidence { result [ 1 ]:0.4f } " )

从这里访问该库的文档：https://ant-brain.github.io/EfficientWord-Net/

以下是 README.md 文件的更正版本，改进了语法和格式：

将注释从 0.2.2 更改为 v1.0.1

新模型添加：Resnet_50_Arc_loss 具有巨大改进！

使用 MLCommons 的修改后的蒸馏数据集从头开始训练新模型。
使用弧损失函数代替三元组损失函数。
生成的模型存储为 resnet_50_arcloss。
较新的模型对背景噪声表现出更好的弹性，并且需要更少的样本才能获得良好的准确性。
API 流程进行了细微更改，以便于轻松添加新模型。
较新的模型可以处理 1.5 秒的固定窗口长度。
旧模型仍然可以通过first_iteration_siamese访问。

将注释从 v0.1.1 更改为 0.2.2

主要变化是用更简单的逻辑和更简单的 API 来取代处理每个话语的多触发器的复杂逻辑。
引入重大变更。
当前模型的 C++ 实现在这里。

当前模型的局限性

基于单个单词进行训练，因此在使用“Hey xxx”等短语时可能会导致奇怪的行为。
音频处理窗口限制为 1 秒。因此，它对于较长的热词不起作用。

常问问题

热词性能很差：如果您遇到这样的问题，请随时在讨论中提问。
它可以在 Arduino 等 FPGA 上运行吗？ ：不，新的 Resnet_50_Arcloss 模型太重，无法在 Arduino 上运行（大小约为 88MB）。我们很快将添加对该模型的精简版本的支持，以便它变得足够轻，可以在小型设备上运行。目前，它应该能够在类似 Raspberry Pi 的设备上运行。

贡献

如果您有让项目变得更好的想法，请随时在讨论中联系我们。
当前的 logmelcalc.tflite 图一次只能将 1 个音频帧转换为 Log Mel 频谱图。如果 TensorFlow 专家能够在这方面为我们提供帮助，那将会有很大帮助。

待办事项

在流中添加音频文件处理程序。欢迎 PR。
删除 librosa 要求以鼓励直接在边缘设备上生成参考文件。
添加更详细的文档来解释滑动窗口的概念。
添加模型微调支持。
添加对稀疏和细粒度修剪的支持，其中生成的模型可用于微调（已经在处理此问题）。

支持我们

与 Porcupine 相比，我们的热词检测器的性能明显较低。我们已经为引擎考虑了更好的神经网络架构，并希望能够超越 Porcupine。这是我们的本科项目，因此您的支持和鼓励将激励我们进一步开发引擎。如果您喜欢这个项目，请将其推荐给您的同行，给我们一个？在 GitHub 上，鼓掌？在媒体上。

更新：你们的星星鼓励我们创建一个更好的新模型。让我们让这个社区成长！

执照

阿帕奇许可证 2.0

展开

附加信息

版本 v.0.2.2
类型 Ai源码
更新时间 2025-01-27
大小 99.29MB
来自于 Github

EfficientWord Net

EfficientWord-Net：基于少样本学习的热词检测

EfficientWord-Net 在 Pi 上的演示

访问培训文件

数据集

访问文件

Python 版本要求

依赖安装

包安装

演示

生成自定义唤醒词

开箱即用的示例热词

尝试您的第一个单个热词检测脚本

从音频流中检测多个热词

将注释从 0.2.2 更改为 v1.0.1

新模型添加：Resnet_50_Arc_loss 具有巨大改进！

将注释从 v0.1.1 更改为 0.2.2

当前模型的局限性

常问问题

贡献

待办事项

支持我们

执照

元网络应用程序

风越.Net代码生成器 Fire.Net Creator

WP.NET .NET 版本 WordPress

质量管理系统.NET

UrlRewriter .NET

.NET 网址重写器

chat.petals.dev

GPT Prompt Templates

GPTyped

node telegram bot api

typebot.io

python wechaty getting started

waymo open dataset

wp functions

termwind