honk Download honk源代码下载

honk

其他源码

1.0.0

下载

鸣叫：CNNS用于关键字发现

Honk是Google的TensorFlow卷积神经网络的Pytorch重新实现，用于关键字点，这伴随着他们最近发行的语音命令数据集。有关更多详细信息，请咨询我们的文章：

拉斐尔·唐（Raphael Tang），吉米·林（Jimmy Lin）。 Honk：用于关键字点的卷积神经网络的Pytorch重新实现。 ARXIV：1710.06554 ，2017年10月。
拉斐尔·唐（Raphael Tang），吉米·林（Jimmy Lin）。小英尺印记关键字发现的深度剩余学习。 2018年IEEE国际声学，语音和信号处理会议论文集，第5479-5483页。

Honk对于为交互式智能代理人建立了设备上的语音识别能力很有用。我们的代码可用于识别简单的命令（例如，“停止”和“ go”），并适用于检测自定义“命令触发器”（例如，“嘿Siri！”）。

观看此视频，以获取Action Honk的演示！

演示应用

使用下面的说明来运行演示应用程序（如上所述）！

当前，Pytorch仅对Linux和OS X有官方的支持。因此，Windows用户将无法轻松运行此演示。

要部署演示，请运行以下命令：

如果您没有Pytorch，请参阅网站。
安装python依赖性： pip install -r requirements.txt
通过软件包管理器安装Glut（OpenGL实用工具包）（例如apt-get install freeglut3-dev ）
获取数据和模型： ./fetch_data.sh
启动Pytorch服务器： python .
运行演示： python utils/speech_demo.py

如果您需要调整选项，例如关闭CUDA，请编辑config.json 。

Mac OS X的其他注释：

Glut已经安装在Mac OS X上，因此不需要该步骤。
如果您在安装Pyaudio时遇到问题，这可能是问题。

服务器

设置和部署

python .部署Web服务以识别音频是否包含命令字。默认情况下， config.json用于配置，但可以使用--config=<file_name>更改。如果服务器在防火墙后面，则一个工作流程是创建一个SSH隧道并使用配置中指定的端口（默认16888）中的端口转发。

在我们的Honk-Models存储库中，有几种用于CAFFE2（ONNX）和Pytorch的预培训模型。 fetch_data.sh脚本获取这些模型并将它们提取到model目录。您可以分别指定在配置文件的model_path和backend中使用的模型和后端。具体而言， backend可以是caffe2或pytorch ，具体取决于model_path所处的格式。请注意，要运行我们的ONNX型号，必须在系统上存在onnx和onnx_caffe2的软件包；这些在需求中不存在。

Raspberry Pi（RPI）基础设施

不幸的是，让图书馆在RPI上工作，尤其是天秤座，并不像运行几个命令那样简单。我们概述了我们的流程，这可能对您有效，也可能不起作用。

获得RPI，最好是RPI 3 Model B运行Raspbian。具体来说，我们使用了此版本的Raspbian strave。
安装依赖项： sudo apt-get install -y protobuf-compiler libprotoc-dev python-numpy python-pyaudio python-scipy python-sklearn
安装Protobuf： pip install protobuf
无依赖项安装ONNX： pip install --no-deps onnx
请按照在Raspbian上安装CAFFE2的官方说明。这个过程大约需要两个小时。您可能需要将caffe2模块路径添加到PYTHONPATH环境变量。对我们来说，这是通过export PYTHONPATH=$PYTHONPATH:/home/pi/caffe2/build
安装Caffe2的ONNX扩展名： pip install onnx-caffe2
安装进一步的要求： pip install -r requirements_rpi.txt
安装libresa： pip install --no-deps resampy librosa
尝试导入libreosa： python -c "import librosa" 。由于我们尚未安装它，因此应该对Numba丢下错误。
我们还没有找到轻松在RPI上安装Numba的方法，因此我们需要将其从复活中删除。对于我们的设置，我们需要从/home/pi/.local/lib/python2.7/site-packages/resampy/interpn.py删除numba和@numba.jit
现在应安装所有依赖项。我们应该尝试部署ONNX模型。
获取模型和数据： ./fetch_data.sh
在config.json中，将backend更改为caffe2和model_path更改为model/google-speech-dataset-full.onnx 。
部署服务器： python .如果没有错误，您已经成功部署了该模型，默认情况下可以通过端口16888访问。
运行语音命令演示： python utils/speech_demo.py 。您需要一个工作的麦克风和扬声器。如果您远程与RPI进行交互，则可以在本地运行语音演示，并指定远程端点--server-endpoint=http://[RPi IP address]:16888 。

公用事业

QA客户端

不幸的是，质量保证客户端尚不支持公众，因为它需要自定义质量保证服务。但是，它仍然可以用来重新定位命令关键字。

python client.py运行QA客户端。您可以通过执行python client.py --mode=retarget来重新制定关键字。请注意，文本到语音在Linux发行版上可能无法正常工作；在这种情况下，请通过--watson-username和--watson--password提供IBM Watson凭据。您可以通过执行python client.py -h查看所有选项。

培训和评估模型

CNN模型。 python -m utils.train --type [train|eval]训练或评估模型。它希望所有培训示例都遵循与语音命令数据集相同的格式。建议的工作流程是下载数据集并添加自定义关键字，因为数据集已经包含许多有用的音频示例和背景噪声。

剩余模型。我们建议使用以下用于培训我们的任何res{8,15,26}[-narrow]模型的超参数：

 python -m utils.train --wanted_words yes no up down left right on off stop go --dev_every 1 --n_labels 12 --n_epochs 26 --weight_decay 0.00001 --lr 0.1 0.01 0.001 --schedule 3000 6000 --model res{8,15,26}[-narrow]

有关我们深层剩余模型的更多信息，请参阅我们的论文：

拉斐尔·唐（Raphael Tang），吉米·林（Jimmy Lin）。小英尺印记关键字发现的深度剩余学习。 2018年IEEE国际声学，语音和信号处理会议论文集（ICASSP 2018） ，2018年4月，加拿大艾伯塔省卡尔加里。

有命令选项可用：

选项	输入格式	默认	描述
`--audio_preprocess_type`	{MFCC，PCEN}	MFCC	使用的音频预处理
`--batch_size`	[1，N）	100	用于使用的迷你批量尺寸
`--cache_size`	[0，INF）	32768	音频缓存中的项目数量，消耗约32 kb * n
`--conv1_pool`	[1，INF）[1，INF）	2 2	泳池过滤器的宽度和高度
`--conv1_size`	[1，INF）[1，INF）	10 4	转换过滤器的宽度和高度
`--conv1_stride`	[1，INF）[1，INF）	1 1	大步的宽度和长度
`--conv2_pool`	[1，INF）[1，INF）	1 1	泳池过滤器的宽度和高度
`--conv2_size`	[1，INF）[1，INF）	10 4	转换过滤器的宽度和高度
`--conv2_stride`	[1，INF）[1，INF）	1 1	大步的宽度和长度
`--data_folder`	细绳	/data/secement_dataset	数据路径
`--dev_every`	[1，INF）	10	开发时间间隔
`--dev_pct`	[0，100]	10	设置用于开发的总数的百分比
`--dropout_prob`	[0.0，1.0）	0.5	使用的辍学率
`--gpu_no`	[-1，n]	1	GPU使用
`--group_speakers_by_id`	{true，false}	真的	是否将演讲者分组到火车/开发/测试中
`--input_file`	细绳		加载模型的路径
`--input_length`	[1，INF）	16000	音频的长度
`--lr`	（0.0，INF）	{0.1，0.001}	使用的学习率
`--type`	{火车，评估}	火车	使用的模式
`--model`	细绳	CNN-Trad-Pool2	`cnn-trad-pool2` ， `cnn-tstride-{2,4,8}` ， `cnn-tpool{2,3}` ， `cnn-one-fpool3` `cnn-one-fstride{4,8}` `res{8,15,26}[-narrow]` ， `cnn-trad-fpool3` ， `cnn-one-stride1`
`--momentum`	[0.0，1.0）	0.9	SGD使用的动力
`--n_dct_filters`	[1，INF）	40	使用的DCT基础数量
`--n_epochs`	[0，INF）	500	时代数量
`--n_feature_maps`	[1，INF）	{19，45}	用于残差体系结构的特征地图数量
`--n_feature_maps1`	[1，INF）	64	Conv Net 1的功能地图数量1
`--n_feature_maps2`	[1，INF）	64	Conv Net 2的功能地图数量
`--n_labels`	[1，N）	4	使用的标签数量
`--n_layers`	[1，INF）	{6，13，24}	残留体系结构的卷积层数
`--n_mels`	[1，INF）	40	使用的MEL过滤器数量
`--no_cuda`	转变	错误的	是否使用cuda
`--noise_prob`	[0.0，1.0]	0.8	与噪声混合的可能性
`--output_file`	细绳	型号/Google-Speech-dataset.pt	将模型保存到的文件
`--seed`	（INF，INF）	0	使用的种子
`--silence_prob`	[0.0，1.0]	0.1	挑选沉默的概率
`--test_pct`	[0，100]	10	用于测试的总数的百分比
`--timeshift_ms`	[0，INF）	100	以毫秒的时间随机移动音频
`--train_pct`	[0，100]	80	用于培训的总数的百分比
`--unknown_prob`	[0.0，1.0]	0.1	选择一个未知词的概率
`--wanted_words`	String1 String2 ... Stringn	命令随机	所需的目标词

基于JavaScript的关键字发现

Honkling是Honk的JavaScript实施。借助Honkling，可以通过浏览器关键字发现功能实现各种Web应用程序。

关键字发现数据生成器

为了提高鸣笛和鸣叫的灵活性，我们提供了一个从YouTube视频中构建数据集的程序。详细信息可以在keyword_spotting_data_generator文件夹中找到

录制音频

您可以执行以下操作以记录顺序音频，并保存到与语音命令数据集相同的格式：

 python -m utils.record

输入返回记录，向上箭头撤回，然后“ Q”完成。一秒钟的沉默后，记录自动停止。

有几个选项可用：

 --output-begin-index: Starting sequence number
--output-prefix: Prefix of the output audio sequence
--post-process: How the audio samples should be post-processed. One or more of "trim" and "discard_true".

后处理包括修剪或丢弃“无用”音频。修剪是不言自明的：录音将录音缩小到x毫秒的最大窗口，由--cutoff-ms指定。丢弃“无用”音频（ discard_true ）使用预先训练的模型来确定哪些样本令人困惑，并丢弃了正确标记的样本。预先训练的模型和正确的标签分别由--config和--correct-label定义。

例如，请考虑python -m utils.record --post-process trim discard_true --correct-label no --config config.json 。在这种情况下，实用程序记录了一系列语音片段，将它们修剪为一秒钟，最后丢弃了config.json中未标记为“否”的人。