Descarga EfficientWord Net - Descarga del código fuente EfficientWord Net

EfficientWord Net

Código Fuente de IA

v.0.2.2

Descargar

EfficientWord-Net: Detección de palabras clave basada en el aprendizaje de pocas oportunidades

Los asistentes domésticos requieren frases especiales llamadas palabras activas para activarse (por ejemplo, "OK Google"). EfficientWord-Net es un motor de detección de palabras clave basado en el aprendizaje en pocas ocasiones que permite a los desarrolladores agregar palabras clave personalizadas a sus programas sin cargos adicionales. La biblioteca está escrita exclusivamente en Python y utiliza la implementación TFLite de Google para una inferencia más rápida en tiempo real. Está inspirado en la arquitectura de red siamesa de FaceNet y funciona mejor cuando se recopilan de 3 a 4 muestras de palabras clave directamente del usuario.

Demostración de EfficientWord-Net en Pi

EfficientWord-Net.mp4

Acceder al archivo de formación

Archivo de entrenamiento para acceder al archivo de entrenamiento.

Conjuntos de datos

Aquí están los enlaces:

Conjunto de datos 1
Conjunto de datos 2

Acceso al documento

Trabajo de Investigación para acceder al trabajo de investigación.

Requisitos de la versión de Python

Esta biblioteca funciona con las versiones de Python 3.6 a 3.9.

Instalación de dependencias

Antes de ejecutar el comando de instalación de pip para la biblioteca, es necesario instalar algunas dependencias manualmente:

PyAudio (depende de PortAudio)
TFLite (binarios ligeros de TensorFlow)
Librosa (Es posible que los archivos binarios no estén disponibles para ciertos sistemas)

Es posible que los usuarios de Mac OS M* y Raspberry Pi tengan que compilar estas dependencias.

El paquete tflite no puede incluirse en requisitos.txt, por lo que se instalará automáticamente cuando el paquete se inicialice en el sistema.

El paquete librosa no es necesario para casos de sólo inferencia. Sin embargo, cuando se llama generate_reference , se instalará automáticamente.

Instalación del paquete

Ejecute el siguiente comando pip:

 pip install EfficientWord-Net

Para importar el paquete:

 import eff_word_net

Manifestación

Después de instalar los paquetes, puede ejecutar el script de demostración integrado en la biblioteca (asegúrese de tener un micrófono que funcione).

Acceda a la documentación desde: https://ant-brain.github.io/EfficientWord-Net/

Comando para ejecutar la demostración:

 python -m eff_word_net.engine

Generando palabras de activación personalizadas

Para cualquier palabra activa nueva, la biblioteca necesita información sobre la palabra activa. Esta información se obtiene de un archivo llamado {wakeword}_ref.json . Por ejemplo, para la palabra de activación 'alexa', la biblioteca necesitaría el archivo llamado alexa_ref.json .

Estos archivos se pueden generar con el siguiente procedimiento:

Recopile de 4 a 10 pronunciaciones que suenen únicas de una palabra clave determinada. Colóquelos en una carpeta separada que no contenga nada más.
Como alternativa, utilice el siguiente comando para generar archivos de audio para una palabra determinada (utiliza la API de demostración de TTS neuronal de IBM). Por favor, no lo abuses por nuestro bien:

python -m eff_word_net.ibm_generate

Finalmente, ejecute este comando. Le pedirá la ubicación de la carpeta de entrada (que contiene los archivos de audio) y la carpeta de salida (donde se almacenará el archivo _ref.json):

 python -m eff_word_net.generate_reference

El nombre de ruta de la palabra de activación generada debe pasarse a la instancia de HotwordDetector:

 HotwordDetector (
    hotword = "hello" ,
    model = Resnet_50_Arc_loss (),
    reference_file = "/full/path/name/of/hello_ref.json" ,
    threshold = 0.9 ,  # min confidence required to consider a trigger
    relaxation_time = 0.8  # default value, in seconds
)

La variable del modelo puede recibir una instancia de Resnet_50_Arc_loss o First_Iteration_Siamese.

El parámetro relax_time se utiliza para determinar el tiempo mínimo entre dos activadores. Se cancelará cualquier posible desencadenante antes del tiempo de relajación. El detector funciona con un enfoque de ventana deslizante, lo que genera múltiples activadores para una sola pronunciación de una palabra activa. El parámetro relax_time se puede utilizar para controlar múltiples activadores; en la mayoría de los casos, 0,8 segundos (predeterminado) serán suficientes.

Palabras activas de muestra listas para usar

La biblioteca tiene incrustaciones predefinidas disponibles para algunas palabras de activación como Mycroft , Google , Firefox , Alexa , Mobile y Siri . Sus rutas están disponibles en el directorio de instalación de la biblioteca.

 from eff_word_net import samples_loc

Pruebe su primer script de detección de palabras activas

 import os
from eff_word_net . streams import SimpleMicStream
from eff_word_net . engine import HotwordDetector

from eff_word_net . audio_processing import Resnet50_Arc_loss

from eff_word_net import samples_loc

base_model = Resnet50_Arc_loss ()

mycroft_hw = HotwordDetector (
    hotword = "mycroft" ,
    model = base_model ,
    reference_file = os . path . join ( samples_loc , "mycroft_ref.json" ),
    threshold = 0.7 ,
    relaxation_time = 2
)

mic_stream = SimpleMicStream (
    window_length_secs = 1.5 ,
    sliding_window_secs = 0.75 ,
)

mic_stream . start_stream ()

print ( "Say Mycroft " )
while True :
    frame = mic_stream . getFrame ()
    result = mycroft_hw . scoreFrame ( frame )
    if result == None :
        #no voice activity
        continue
    if ( result [ "match" ]):
        print ( "Wakeword uttered" , result [ "confidence" ])

Detección de múltiples palabras activas en transmisiones de audio

La biblioteca proporciona una forma fácil de calcular para detectar múltiples palabras activas de una secuencia determinada, en lugar de ejecutar scoreFrame() de cada palabra activa individualmente.

 import os
from eff_word_net . streams import SimpleMicStream
from eff_word_net import samples_loc
print ( samples_loc )


base_model = Resnet50_Arc_loss ()

mycroft_hw = HotwordDetector (
    hotword = "mycroft" ,
    model = base_model ,
    reference_file = os . path . join ( samples_loc , "mycroft_ref.json" ),
    threshold = 0.7 ,
    relaxation_time = 2
)

alexa_hw = HotwordDetector (
        hotword = "alexa" ,
        model = base_model ,
        reference_file = os . path . join ( samples_loc , "alexa_ref.json" ),
        threshold = 0.7 ,
        relaxation_time = 2 ,
        #verbose=True
)


computer_hw = HotwordDetector (
    hotword = "computer" ,
    model = base_model ,
    reference_file = os . path . join ( samples_loc , "computer_ref.json" ),
    threshold = 0.7 ,
    relaxation_time = 2 ,
    #verbose=True
)

multi_hotword_detector = MultiHotwordDetector (
    [ mycroft_hw , alexa_hw , computer_hw ],
    model = base_model ,
    continuous = True ,
)

mic_stream = SimpleMicStream ( window_length_secs = 1.5 , sliding_window_secs = 0.75 )
mic_stream . start_stream ()

print ( "Say " , " / " . join ([ x . hotword for x in multi_hotword_detector . detector_collection ]))

while True :
    frame = mic_stream . getFrame ()
    result = multi_hotword_detector . findBestMatch ( frame )
    if ( None not in result ):
        print ( result [ 0 ], f",Confidence { result [ 1 ]:0.4f } " )

Acceda a la documentación de la biblioteca desde aquí: https://ant-brain.github.io/EfficientWord-Net/

Aquí está la versión corregida del archivo README.md con gramática y formato mejorados:

Cambiar notas de 0.2.2 a v1.0.1

Nuevo modelo añadido: Resnet_50_Arc_loss con grandes mejoras.

Entrenó un nuevo modelo desde cero utilizando un conjunto de datos destilado modificado de MLCommons.
Se utilizó la función de pérdida de arco en lugar de la función de pérdida triplete.
El modelo resultante se almacena como resnet_50_arcloss.
El modelo más nuevo muestra una resistencia mucho mayor al ruido de fondo y requiere menos muestras para una buena precisión.
Cambios menores en el flujo de API para facilitar la adición de modelos más nuevos.
El modelo más nuevo puede manejar una duración de ventana fija de 1,5 segundos.
Todavía se puede acceder al modelo antiguo a través de first_iteration_siamese.

Cambiar notas de v0.1.1 a 0.2.2

Cambios importantes para reemplazar la lógica compleja de manejo de activadores poli por expresión con una lógica más simple y una API más sencilla para los programadores.
Introduce cambios importantes.
La implementación en C++ del modelo actual está aquí.

Limitaciones del modelo actual

Está entrenado con palabras sueltas, por lo que puede tener un comportamiento extraño al utilizar frases como "Hola xxx".
Ventana de procesamiento de audio limitada a 1 segundo. Por lo tanto, no funcionará eficazmente con palabras activas más largas.

Preguntas frecuentes

El rendimiento de Hotword es malo : si tiene problemas como este, no dude en preguntar en las discusiones.
¿Se puede ejecutar en FPGA como Arduino? : No, el nuevo modelo Resnet_50_Arcloss es demasiado pesado para ejecutarlo en Arduino (aproximadamente 88 MB de tamaño). Pronto agregaremos soporte para versiones recortadas del modelo para que pueda volverse lo suficientemente liviano como para ejecutarse en dispositivos pequeños. Por ahora, debería poder ejecutarse en dispositivos similares a Raspberry Pi.

Contribución

Si tiene ideas para mejorar el proyecto, no dude en enviarnos un mensaje de texto en las discusiones.
El gráfico logmelcalc.tflite actual puede convertir solo 1 cuadro de audio a espectrograma Log Mel a la vez. Sería de gran ayuda si los gurús de TensorFlow pudieran ayudarnos con esto.

HACER

Agregue un controlador de archivos de audio en las transmisiones. Los RP son bienvenidos.
Elimine el requisito de librosa para fomentar la generación de archivos de referencia directamente en dispositivos perimetrales.
Agregue documentación más detallada que explique el concepto de ventana corrediza.
Agregue soporte para ajuste fino del modelo.
Agregue soporte para poda dispersa y de grano fino donde los modelos resultantes podrían usarse para realizar ajustes (ya estoy trabajando en esto).

Apóyanos

El rendimiento de nuestro detector de palabras activas es notablemente inferior en comparación con Porcupine. Hemos pensado en mejores arquitecturas NN para el motor y esperamos superar a Porcupine. Este ha sido nuestro proyecto de pregrado, por lo que su apoyo y aliento nos motivarán a seguir desarrollando el motor. Si te encanta este proyecto, recomiéndalo a tus compañeros, danos un ? en GitHub y un aplauso? en Medio.

Actualización: Tus estrellas nos animaron a crear un nuevo modelo que es mucho mejor. ¡Hagamos crecer esta comunidad!