ดาวน์โหลด EfficientWord Net - ดาวน์โหลดซอร์สโค้ด EfficientWord Net

EfficientWord Net

โค้ดแหล่งที่มา AI

v.0.2.2

ดาวน์โหลด

EfficientWord-Net: การตรวจจับคำยอดนิยมจากการเรียนรู้แบบ Few-Shot

ผู้ช่วยที่บ้านจำเป็นต้องมีวลีพิเศษที่เรียกว่าคำที่นิยมเพื่อเปิดใช้งาน (เช่น "ตกลง Google") EfficientWord-Net เป็นเครื่องมือตรวจจับคำที่นิยมโดยอาศัยการเรียนรู้เพียงไม่กี่ขั้นตอน ซึ่งช่วยให้นักพัฒนาสามารถเพิ่มคำที่นิยมที่กำหนดเองลงในโปรแกรมของตนได้โดยไม่มีค่าใช้จ่ายเพิ่มเติม ไลบรารีนี้เขียนด้วยภาษา Python ล้วนๆ และใช้การใช้งาน TFLite ของ Google เพื่อการอนุมานแบบเรียลไทม์ที่รวดเร็วยิ่งขึ้น ได้รับแรงบันดาลใจจากสถาปัตยกรรมเครือข่ายสยามของ FaceNet และทำงานได้ดีที่สุดเมื่อรวบรวมตัวอย่างคำที่นิยม 3-4 คำจากผู้ใช้โดยตรง

การสาธิต EfficientWord-Net บน Pi

EfficientWord-Net.mp4

เข้าถึงไฟล์การฝึกอบรม

ไฟล์การฝึกอบรมเพื่อเข้าถึงไฟล์การฝึกอบรม

ชุดข้อมูล

นี่คือลิงค์:

ชุดข้อมูล 1
ชุดข้อมูล 2

เข้าถึงกระดาษ

เอกสารการวิจัยเพื่อเข้าถึงเอกสารวิจัย

ข้อกำหนดเวอร์ชัน Python

ไลบรารีนี้ใช้งานได้กับ Python เวอร์ชัน 3.6 ถึง 3.9

การติดตั้งการพึ่งพา

ก่อนที่จะรันคำสั่งการติดตั้ง pip สำหรับไลบรารี จำเป็นต้องติดตั้งการขึ้นต่อกันบางอย่างด้วยตนเอง:

PyAudio (ขึ้นอยู่กับ PortAudio)
TFLite (ไบนารีน้ำหนักเบา TensorFlow)
Librosa (ไบนารีอาจไม่พร้อมใช้งานสำหรับบางระบบ)

ผู้ใช้ Mac OS M* และ Raspberry Pi อาจต้องคอมไพล์การขึ้นต่อกันเหล่านี้

ไม่สามารถแสดงรายการแพ็คเกจ tflite ในข้อกำหนด txt ได้ ดังนั้นจะถูกติดตั้งโดยอัตโนมัติเมื่อแพ็คเกจเริ่มต้นในระบบ

แพ็คเกจ librosa ไม่จำเป็นสำหรับกรณีการอนุมานเท่านั้น อย่างไรก็ตาม เมื่อเรียกใช้ generate_reference ระบบจะติดตั้งโดยอัตโนมัติ

การติดตั้งแพ็คเกจ

รันคำสั่ง pip ต่อไปนี้:

 pip install EfficientWord-Net

หากต้องการนำเข้าแพ็คเกจ:

 import eff_word_net

สาธิต

หลังจากติดตั้งแพ็คเกจ คุณสามารถเรียกใช้สคริปต์สาธิตที่สร้างไว้ในไลบรารีได้ (ตรวจสอบให้แน่ใจว่าคุณมีไมโครโฟนที่ใช้งานได้)

เข้าถึงเอกสารจาก: https://ant-brain.github.io/EfficientWord-Net/

คำสั่งเพื่อรันการสาธิต:

 python -m eff_word_net.engine

การสร้าง Wakewords แบบกำหนดเอง

สำหรับคำยอดนิยมใหม่ ไลบรารีต้องการข้อมูลเกี่ยวกับคำที่นิยมนั้น ข้อมูลนี้ได้มาจากไฟล์ชื่อ {wakeword}_ref.json ตัวอย่างเช่น สำหรับ wakeword 'alexa' ไลบรารีจะต้องมีไฟล์ชื่อ alexa_ref.json

ไฟล์เหล่านี้สามารถสร้างขึ้นได้ด้วยขั้นตอนต่อไปนี้:

รวบรวม 4 ถึง 10 การออกเสียงออกเสียงที่ไม่ซ้ำกันของคำปลุกที่กำหนด ใส่ไว้ในโฟลเดอร์แยกต่างหากที่ไม่มีสิ่งอื่นใด
หรือใช้คำสั่งต่อไปนี้เพื่อสร้างไฟล์เสียงสำหรับคำที่กำหนด (ใช้ IBM neural TTS demo API) โปรดอย่าใช้มันมากเกินไปเพื่อประโยชน์ของเรา:

python -m eff_word_net.ibm_generate

สุดท้ายให้รันคำสั่งนี้ มันจะถามตำแหน่งของโฟลเดอร์อินพุต (ที่มีไฟล์เสียง) และโฟลเดอร์เอาต์พุต (ที่จะเก็บไฟล์ _ref.json):

 python -m eff_word_net.generate_reference

ชื่อพาธของ Wakeword ที่สร้างขึ้นจะต้องส่งผ่านไปยังอินสแตนซ์ HotwordDetector:

 HotwordDetector (
    hotword = "hello" ,
    model = Resnet_50_Arc_loss (),
    reference_file = "/full/path/name/of/hello_ref.json" ,
    threshold = 0.9 ,  # min confidence required to consider a trigger
    relaxation_time = 0.8  # default value, in seconds
)

ตัวแปรโมเดลสามารถรับอินสแตนซ์ของ Resnet_50_Arc_loss หรือ First_Iteration_Siamese

พารามิเตอร์ Relax_time ใช้เพื่อกำหนดเวลาขั้นต่ำระหว่างทริกเกอร์สองตัว สิ่งกระตุ้นที่อาจเกิดขึ้นก่อนเวลาผ่อนคลายจะถูกยกเลิก เครื่องมือตรวจจับทำงานโดยใช้หน้าต่างบานเลื่อน ส่งผลให้มีทริกเกอร์หลายตัวสำหรับคำพูดที่นิยมคำเดียว พารามิเตอร์ Relax_time สามารถใช้เพื่อควบคุมทริกเกอร์หลายรายการ ในกรณีส่วนใหญ่ 0.8 วินาที (ค่าเริ่มต้น) ก็เพียงพอแล้ว

คำยอดนิยมตัวอย่างที่พร้อมใช้งานทันที

ไลบรารีมีการฝังที่กำหนดไว้ล่วงหน้าซึ่งพร้อมใช้งานสำหรับคำปลุกบางคำ เช่น Mycroft , Google , Firefox , Alexa , Mobile และ Siri พาธของพวกเขาพร้อมใช้งานในไดเร็กทอรีการติดตั้งไลบรารี

 from eff_word_net import samples_loc

ลองใช้สคริปต์การตรวจจับคำที่นิยมเดี่ยวแรกของคุณ

 import os
from eff_word_net . streams import SimpleMicStream
from eff_word_net . engine import HotwordDetector

from eff_word_net . audio_processing import Resnet50_Arc_loss

from eff_word_net import samples_loc

base_model = Resnet50_Arc_loss ()

mycroft_hw = HotwordDetector (
    hotword = "mycroft" ,
    model = base_model ,
    reference_file = os . path . join ( samples_loc , "mycroft_ref.json" ),
    threshold = 0.7 ,
    relaxation_time = 2
)

mic_stream = SimpleMicStream (
    window_length_secs = 1.5 ,
    sliding_window_secs = 0.75 ,
)

mic_stream . start_stream ()

print ( "Say Mycroft " )
while True :
    frame = mic_stream . getFrame ()
    result = mycroft_hw . scoreFrame ( frame )
    if result == None :
        #no voice activity
        continue
    if ( result [ "match" ]):
        print ( "Wakeword uttered" , result [ "confidence" ])

การตรวจจับ Mulitple Hotwords จากสตรีมเสียง

ไลบรารีมอบวิธีที่เป็นมิตรกับการคำนวณในการตรวจจับคำที่นิยมหลายคำจากสตรีมที่ระบุ แทนที่จะเรียกใช้ scoreFrame() ของคำปลุกแต่ละรายการแยกกัน

 import os
from eff_word_net . streams import SimpleMicStream
from eff_word_net import samples_loc
print ( samples_loc )


base_model = Resnet50_Arc_loss ()

mycroft_hw = HotwordDetector (
    hotword = "mycroft" ,
    model = base_model ,
    reference_file = os . path . join ( samples_loc , "mycroft_ref.json" ),
    threshold = 0.7 ,
    relaxation_time = 2
)

alexa_hw = HotwordDetector (
        hotword = "alexa" ,
        model = base_model ,
        reference_file = os . path . join ( samples_loc , "alexa_ref.json" ),
        threshold = 0.7 ,
        relaxation_time = 2 ,
        #verbose=True
)


computer_hw = HotwordDetector (
    hotword = "computer" ,
    model = base_model ,
    reference_file = os . path . join ( samples_loc , "computer_ref.json" ),
    threshold = 0.7 ,
    relaxation_time = 2 ,
    #verbose=True
)

multi_hotword_detector = MultiHotwordDetector (
    [ mycroft_hw , alexa_hw , computer_hw ],
    model = base_model ,
    continuous = True ,
)

mic_stream = SimpleMicStream ( window_length_secs = 1.5 , sliding_window_secs = 0.75 )
mic_stream . start_stream ()

print ( "Say " , " / " . join ([ x . hotword for x in multi_hotword_detector . detector_collection ]))

while True :
    frame = mic_stream . getFrame ()
    result = multi_hotword_detector . findBestMatch ( frame )
    if ( None not in result ):
        print ( result [ 0 ], f",Confidence { result [ 1 ]:0.4f } " )

เข้าถึงเอกสารประกอบของไลบรารีได้จากที่นี่: https://ant-brain.github.io/EfficientWord-Net/

ต่อไปนี้เป็นเวอร์ชันแก้ไขของไฟล์ README.md พร้อมการปรับปรุงไวยากรณ์และการจัดรูปแบบ:

เปลี่ยนบันทึกจาก 0.2.2 เป็น v1.0.1

การเพิ่มโมเดลใหม่: Resnet_50_Arc_loss พร้อมการปรับปรุงครั้งใหญ่!

ฝึกฝนโมเดลใหม่ตั้งแต่เริ่มต้นโดยใช้ชุดข้อมูลกลั่นที่ได้รับการดัดแปลงจาก MLCommons
ใช้ฟังก์ชัน Arc loss แทนฟังก์ชันการสูญเสีย triplet
โมเดลผลลัพธ์จะถูกจัดเก็บเป็น resnet_50_arcloss
รุ่นใหม่กว่านี้แสดงความยืดหยุ่นต่อเสียงรบกวนรอบข้างได้ดีกว่ามากและต้องใช้ตัวอย่างน้อยลงเพื่อความแม่นยำที่ดี
การเปลี่ยนแปลงเล็กน้อยในโฟลว์ API เพื่อความสะดวกในการเพิ่มโมเดลใหม่ ๆ
รุ่นใหม่สามารถรองรับความยาวหน้าต่างคงที่ 1.5 วินาที
รุ่นเก่ายังสามารถเข้าถึงได้ผ่าน first_iteration_siamese

เปลี่ยนบันทึกจาก v0.1.1 เป็น 0.2.2

การเปลี่ยนแปลงที่สำคัญเพื่อแทนที่ตรรกะที่ซับซ้อนในการจัดการทริกเกอร์โพลีต่อคำพูดด้วยตรรกะที่ง่ายกว่าและ API ที่ตรงไปตรงมามากขึ้นสำหรับโปรแกรมเมอร์
นำเสนอการเปลี่ยนแปลงที่แตกหัก
การใช้งาน C++ ของโมเดลปัจจุบันอยู่ที่นี่

ข้อจำกัดในรูปแบบปัจจุบัน

ฝึกใช้คำเพียงคำเดียวจึงอาจส่งผลให้มีพฤติกรรมแปลกประหลาดเมื่อใช้วลีเช่น "เฮ้ xxx"
หน้าต่างการประมวลผลเสียงจำกัดอยู่ที่ 1 วินาที ดังนั้น จึงใช้งานไม่ได้ผลกับคำที่นิยมที่ยาวกว่า

คำถามที่พบบ่อย

ประสิทธิภาพของคำที่นิยมไม่ดี : หากคุณกำลังประสบปัญหาเช่นนี้ อย่าลังเลที่จะถามในการสนทนา
มันสามารถทำงานบน FPGA เช่น Arduino ได้หรือไม่? : ไม่ Resnet_50_Arcloss รุ่นใหม่มีน้ำหนักมากเกินไปที่จะรันบน Arduino (ขนาดประมาณ 88MB) เร็วๆ นี้เราจะเพิ่มการรองรับสำหรับเวอร์ชันที่ถูกตัดออกเพื่อให้มีน้ำหนักเบาพอที่จะทำงานบนอุปกรณ์ขนาดเล็กได้ ในตอนนี้ควรจะสามารถทำงานบนอุปกรณ์ที่มีลักษณะคล้าย Raspberry Pi ได้

ผลงาน

หากคุณมีแนวคิดที่จะทำให้โครงการดีขึ้น โปรดส่ง Ping มาสนทนากับเราได้
กราฟ logmelcalc.tflite ปัจจุบันสามารถแปลงเฟรมเสียงได้เพียง 1 เฟรมเป็น Log Mel Spectrogram ในแต่ละครั้ง คงจะช่วยได้มากหากกูรูของ TensorFlow สามารถช่วยเราได้ในเรื่องนี้

สิ่งที่ต้องทำ

เพิ่มตัวจัดการไฟล์เสียงในสตรีม ยินดีประชาสัมพันธ์ครับ.
ลบข้อกำหนด librosa เพื่อสนับสนุนการสร้างไฟล์อ้างอิงโดยตรงบนอุปกรณ์ Edge
เพิ่มเอกสารรายละเอียดเพิ่มเติมที่อธิบายแนวคิดหน้าต่างบานเลื่อน
เพิ่มการสนับสนุนการปรับแต่งโมเดลอย่างละเอียด
เพิ่มการสนับสนุนสำหรับการตัดแต่งกิ่งแบบเบาบางและแบบละเอียด โดยที่โมเดลผลลัพธ์สามารถนำมาใช้เพื่อการปรับแต่งแบบละเอียดได้ (ดำเนินการในส่วนนี้แล้ว)

สนับสนุนเรา

ประสิทธิภาพของเครื่องมือตรวจจับคำที่นิยมของเราต่ำกว่าอย่างเห็นได้ชัดเมื่อเทียบกับเม่น เราได้คิดถึงสถาปัตยกรรม NN ที่ดีขึ้นสำหรับเครื่องยนต์ และหวังว่าจะมีประสิทธิภาพเหนือกว่า Porcupine นี่เป็นโครงการระดับปริญญาตรีของเรา ดังนั้นการสนับสนุนและกำลังใจของคุณจะเป็นแรงบันดาลใจให้เราพัฒนาเครื่องยนต์ต่อไป หากคุณรักโครงการนี้ แนะนำให้กับเพื่อน ๆ ของคุณ ให้ ? บน GitHub และตบมือ ? บนสื่อ

อัปเดต: ดาวของคุณสนับสนุนให้เราสร้างโมเดลใหม่ที่ดีกว่ามาก มาทำให้ชุมชนนี้เติบโตกันเถอะ!