Download EfficientWord Net - Download do código-fonte EfficientWord Net

EfficientWord Net

Código-Fonte de IA

v.0.2.2

Baixar

EfficientWord-Net: Detecção de hotwords baseada em aprendizado rápido

Os assistentes domésticos exigem frases especiais chamadas hotwords para serem ativados (por exemplo, "OK Google"). EfficientWord-Net é um mecanismo de detecção de hotwords baseado em aprendizado rápido que permite aos desenvolvedores adicionar hotwords personalizadas a seus programas sem custos adicionais. A biblioteca é escrita exclusivamente em Python e usa a implementação TFLite do Google para inferência mais rápida em tempo real. Ele é inspirado na arquitetura de rede siamesa da FaceNet e tem melhor desempenho quando 3 a 4 amostras de hotword são coletadas diretamente do usuário.

Demonstração do EfficientWord-Net no Pi

EficienteWord-Net.mp4

Acessar arquivo de treinamento

Arquivo de treinamento para acessar o arquivo de treinamento.

Conjuntos de dados

Aqui estão os links:

Conjunto de dados 1
Conjunto de dados 2

Acessar documento

Artigo de pesquisa para acessar o artigo de pesquisa.

Requisitos de versão Python

Esta biblioteca funciona com Python versões 3.6 a 3.9.

Instalação de Dependências

Antes de executar o comando de instalação pip para a biblioteca, algumas dependências precisam ser instaladas manualmente:

PyAudio (depende do PortAudio)
TFLite (binários leves do TensorFlow)
Librosa (binários podem não estar disponíveis para determinados sistemas)

Os usuários do Mac OS M* e Raspberry Pi podem precisar compilar essas dependências.

O pacote tflite não pode ser listado em requisitos.txt, portanto será instalado automaticamente quando o pacote for inicializado no sistema.

O pacote librosa não é necessário para casos apenas de inferência. Entretanto, quando generate_reference for chamado, ele será instalado automaticamente.

Instalação do pacote

Execute o seguinte comando pip:

 pip install EfficientWord-Net

Para importar o pacote:

 import eff_word_net

Demonstração

Depois de instalar os pacotes, você pode executar o script de demonstração integrado à biblioteca (certifique-se de ter um microfone funcionando).

Acesse a documentação em: https://ant-brain.github.io/EfficientWord-Net/

Comando para executar a demonstração:

 python -m eff_word_net.engine

Gerando Wakewords personalizados

Para qualquer nova hotword, a biblioteca precisa de informações sobre a hotword. Esta informação é obtida de um arquivo chamado {wakeword}_ref.json . Por exemplo, para a wakeword 'alexa', a biblioteca precisaria do arquivo chamado alexa_ref.json .

Esses arquivos podem ser gerados com o seguinte procedimento:

Colete de 4 a 10 pronúncias com sons exclusivos de uma determinada palavra de ativação. Coloque-os em uma pasta separada que não contenha mais nada.
Como alternativa, use o comando a seguir para gerar arquivos de áudio para uma determinada palavra (usa a API de demonstração IBM neural TTS). Por favor, não abuse por nossa causa:

python -m eff_word_net.ibm_generate

Finalmente, execute este comando. Ele solicitará a localização da pasta de entrada (contendo os arquivos de áudio) e da pasta de saída (onde o arquivo _ref.json será armazenado):

 python -m eff_word_net.generate_reference

O nome do caminho do wakeword gerado precisa ser passado para a instância HotwordDetector:

 HotwordDetector (
    hotword = "hello" ,
    model = Resnet_50_Arc_loss (),
    reference_file = "/full/path/name/of/hello_ref.json" ,
    threshold = 0.9 ,  # min confidence required to consider a trigger
    relaxation_time = 0.8  # default value, in seconds
)

A variável do modelo pode receber uma instância de Resnet_50_Arc_loss ou First_Iteration_Siamese.

O parâmetro relax_time é usado para determinar o tempo mínimo entre quaisquer dois gatilhos. Quaisquer possíveis gatilhos antes do relax_time serão cancelados. O detector opera em uma abordagem de janela deslizante, resultando em múltiplos gatilhos para uma única expressão de uma hotword. O parâmetro relax_time pode ser usado para controlar vários gatilhos; na maioria dos casos, 0,8 segundos (padrão) serão suficientes.

Exemplos de palavras-chave prontas para uso

A biblioteca possui embeddings predefinidos prontamente disponíveis para alguns wakewords, como Mycroft , Google , Firefox , Alexa , Mobile e Siri . Seus caminhos estão prontamente disponíveis no diretório de instalação da biblioteca.

 from eff_word_net import samples_loc

Experimente seu primeiro script de detecção de hotword único

 import os
from eff_word_net . streams import SimpleMicStream
from eff_word_net . engine import HotwordDetector

from eff_word_net . audio_processing import Resnet50_Arc_loss

from eff_word_net import samples_loc

base_model = Resnet50_Arc_loss ()

mycroft_hw = HotwordDetector (
    hotword = "mycroft" ,
    model = base_model ,
    reference_file = os . path . join ( samples_loc , "mycroft_ref.json" ),
    threshold = 0.7 ,
    relaxation_time = 2
)

mic_stream = SimpleMicStream (
    window_length_secs = 1.5 ,
    sliding_window_secs = 0.75 ,
)

mic_stream . start_stream ()

print ( "Say Mycroft " )
while True :
    frame = mic_stream . getFrame ()
    result = mycroft_hw . scoreFrame ( frame )
    if result == None :
        #no voice activity
        continue
    if ( result [ "match" ]):
        print ( "Wakeword uttered" , result [ "confidence" ])

Detectando múltiplas palavras-chave em fluxos de áudio

A biblioteca fornece uma maneira amigável de computação para detectar múltiplas hotwords de um determinado fluxo, em vez de executar scoreFrame() de cada wakeword individualmente

 import os
from eff_word_net . streams import SimpleMicStream
from eff_word_net import samples_loc
print ( samples_loc )


base_model = Resnet50_Arc_loss ()

mycroft_hw = HotwordDetector (
    hotword = "mycroft" ,
    model = base_model ,
    reference_file = os . path . join ( samples_loc , "mycroft_ref.json" ),
    threshold = 0.7 ,
    relaxation_time = 2
)

alexa_hw = HotwordDetector (
        hotword = "alexa" ,
        model = base_model ,
        reference_file = os . path . join ( samples_loc , "alexa_ref.json" ),
        threshold = 0.7 ,
        relaxation_time = 2 ,
        #verbose=True
)


computer_hw = HotwordDetector (
    hotword = "computer" ,
    model = base_model ,
    reference_file = os . path . join ( samples_loc , "computer_ref.json" ),
    threshold = 0.7 ,
    relaxation_time = 2 ,
    #verbose=True
)

multi_hotword_detector = MultiHotwordDetector (
    [ mycroft_hw , alexa_hw , computer_hw ],
    model = base_model ,
    continuous = True ,
)

mic_stream = SimpleMicStream ( window_length_secs = 1.5 , sliding_window_secs = 0.75 )
mic_stream . start_stream ()

print ( "Say " , " / " . join ([ x . hotword for x in multi_hotword_detector . detector_collection ]))

while True :
    frame = mic_stream . getFrame ()
    result = multi_hotword_detector . findBestMatch ( frame )
    if ( None not in result ):
        print ( result [ 0 ], f",Confidence { result [ 1 ]:0.4f } " )

Acesse a documentação da biblioteca aqui: https://ant-brain.github.io/EfficientWord-Net/

Aqui está a versão corrigida do arquivo README.md com gramática e formatação aprimoradas:

Alterar notas de 0.2.2 para v1.0.1

Adição de novo modelo: Resnet_50_Arc_loss com grandes melhorias!

Treinei um novo modelo do zero usando um conjunto de dados destilado modificado da MLCommons.
Função de perda de arco usada em vez da função de perda tripla.
O modelo resultante é armazenado como resnet_50_arcloss.
O modelo mais recente apresenta uma resiliência muito melhor ao ruído de fundo e requer menos amostras para uma boa precisão.
Pequenas alterações no fluxo da API para facilitar a adição de modelos mais recentes.
O modelo mais recente pode lidar com uma janela fixa de 1,5 segundos.
O modelo antigo ainda pode ser acessado através de first_iteration_siamese.

Alterar notas de v0.1.1 para 0.2.2

Grandes mudanças para substituir a lógica complexa de manipulação de gatilhos poli por expressão por uma lógica mais simples e uma API mais direta para programadores.
Apresenta alterações significativas.
A implementação C++ do modelo atual está aqui.

Limitações no modelo atual

Treinado em palavras únicas, pode resultar em comportamento bizarro ao usar frases como "Ei, xxx".
Janela de processamento de áudio limitada a 1 segundo. Conseqüentemente, não funcionará de forma eficaz para hotwords mais longos.

Perguntas frequentes

O desempenho do hotword é ruim : se você estiver enfrentando problemas como esse, sinta-se à vontade para perguntar nas discussões.
Ele pode rodar em FPGAs como Arduino? : Não, o novo modelo Resnet_50_Arcloss é muito pesado para rodar no Arduino (aproximadamente 88 MB de tamanho). Em breve adicionaremos suporte para versões reduzidas do modelo para que ele se torne leve o suficiente para funcionar em dispositivos minúsculos. Por enquanto, ele deve poder rodar em dispositivos semelhantes ao Raspberry Pi.

Contribuição

Se você tiver ideias para melhorar o projeto, sinta-se à vontade para nos enviar um email nas discussões.
O gráfico logmelcalc.tflite atual pode converter apenas 1 quadro de áudio para Log Mel Spectrogram por vez. Seria de grande ajuda se os gurus do TensorFlow pudessem nos ajudar com isso.

PENDÊNCIA

Adicione manipulador de arquivo de áudio em streams. PRs são bem-vindos.
Remova o requisito da librosa para incentivar a geração de arquivos de referência diretamente em dispositivos de ponta.
Adicione documentação mais detalhada explicando o conceito de janela deslizante.
Adicione suporte para ajuste fino do modelo.
Adicione suporte para poda esparsa e refinada onde os modelos resultantes poderiam ser usados para ajuste fino (já trabalhando nisso).

Apoie-nos

O desempenho do nosso detector de hotword é notavelmente inferior em comparação com o Porcupine. Pensamos em melhores arquiteturas NN para o motor e esperamos superar o Porcupine. Este tem sido o nosso projeto de graduação, portanto seu apoio e incentivo nos motivarão a desenvolver ainda mais o motor. Se você adora este projeto, recomende-o aos seus colegas, dê-nos um ? no GitHub e aplausos? no Médio.

Atualização: Suas estrelas nos encorajaram a criar um novo modelo que é muito melhor. Vamos fazer essa comunidade crescer!