ดาวน์โหลด KenLM training - ดาวน์โหลดซอร์สโค้ด KenLM training

KenLM training

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

เคนแอลเอ็ม

KenLM ทำการปรับให้เรียบของ Kneser Ney ที่ได้รับการแก้ไขโดยสอดแทรกเพื่อประเมินความน่าจะเป็นแบบ n-gram

คำแนะนำทีละขั้นตอนสำหรับการฝึกอบรมโมเดลภาษาที่ใช้ n-gram โดยใช้ชุดเครื่องมือ KenLM

1) การติดตั้งการพึ่งพา KenLM

ก่อนที่จะติดตั้งชุดเครื่องมือ KenLM คุณควรติดตั้งการขึ้นต่อกันทั้งหมดซึ่งสามารถพบได้ในการขึ้นต่อกันของ kenlm

สำหรับ Debian/Ubuntu distro :

หากต้องการรับคอมไพเลอร์ที่ใช้งานได้ ให้ติดตั้งแพ็คเกจ build-essential Boost เป็นที่รู้จักในชื่อ libboost-all-dev ตัวเลือกการบีบอัดที่รองรับทั้งสามตัวเลือกมีแพ็คเกจ dev แยกกัน

 $ sudo apt-get install build-essential libboost-all-dev cmake zlib1g-dev libbz2-dev liblzma-dev

2) การติดตั้งชุดเครื่องมือ KenLM

สำหรับสิ่งนี้ ขอแนะนำให้ใช้สภาพแวดล้อมเสมือน conda หรือ virtualenv สำหรับ conda คุณสามารถสร้างได้โดยใช้:

 $ conda create -n kenlm_deepspeech python=3.6 nltk

จากนั้นเปิดใช้งานสภาพแวดล้อมโดยใช้:

 $ source activate kenlm_deepspeech

ตอนนี้เราพร้อมที่จะติดตั้ง kenlm แล้ว ก่อนอื่นเรามาโคลน repo kenlm กันก่อน:

 $ git clone --recursive https://github.com/vchahun/kenlm.git

จากนั้นรวบรวมโค้ดการประมาณค่า LM โดยใช้:

 $ cd kenlm
$ ./bjam

ในขั้นตอนสุดท้าย คุณสามารถเลือกติดตั้งโมดูล Python โดยใช้:

 $ python setup.py install

3) การฝึกอบรมโมเดลภาษา

ขั้นแรกเรามาดูข้อมูลการฝึกอบรมกันก่อน ฉันจะใช้พระคัมภีร์ที่นี่:

 $ wget -c https://github.com/vchahun/notes/raw/data/bible/bible.en.txt.bz2

ต่อไปเราจะต้องมีสคริปต์การประมวลผลล่วงหน้าอย่างง่าย สาเหตุเป็นเพราะ:

ข้อความการฝึกอบรมควรเป็นข้อความเดียว/ไฟล์บีบอัด (เช่น .bz2 ) ซึ่งมีประโยคเดียวต่อบรรทัด
มันจะต้องมีโทเค็นและตัวพิมพ์เล็กก่อนที่จะป้อนเข้าไปใน Kenlm

ดังนั้น ให้สร้างสคริปต์ง่ายๆ preprocess.py โดยมีบรรทัดต่อไปนี้:

 import sys
import nltk

for line in sys . stdin :
    for sentence in nltk . sent_tokenize ( line ):
        print ( ' ' . join ( nltk . word_tokenize ( sentence )). lower ())

สำหรับการตรวจสอบสุขภาพจิต ให้ทำดังนี้

 $ bzcat bible.en.txt.bz2 | python preprocess.py | wc

และดูว่ามันทำงานได้ดี

ตอนนี้เราสามารถฝึกโมเดลได้แล้ว สำหรับการฝึก โมเดลไตรแกรม ด้วยการปรับให้เรียบของ Kneser-Ney ให้ใช้:

 # -o means `order` which translates to the `n` in n-gram
$ bzcat bible.en.txt.bz2 |
  python preprocess.py |
  ./kenlm/bin/lmplz -o 3 > bible.arpa

คำสั่งดังกล่าวจะส่งข้อมูลผ่านสคริปต์การประมวลผลล่วงหน้าซึ่งดำเนินการโทเค็นและตัวพิมพ์เล็กก่อน ถัดไป ข้อความโทเค็นและตัวพิมพ์เล็กนี้จะถูกส่งไปที่โปรแกรม lmplz ซึ่งดำเนินการประมาณค่า

ควรเสร็จสิ้นภายในไม่กี่วินาที จากนั้นสร้างไฟล์ arpa bible.arpa คุณสามารถตรวจสอบไฟล์ arpa โดยใช้สิ่งที่ต้องการ less หรือ more (เช่น $ less bible.arpa ) ในตอนแรก ควรมี ส่วนข้อมูล ที่มีจำนวนยูนิแกรม บิ๊กแกรม และไตรแกรม ตามด้วยค่าประมาณ

ไบนารี่โมเดล

ไฟล์ ARPA สามารถอ่านได้โดยตรง แต่รูปแบบไบนารี่จะโหลดเร็วกว่ามากและให้ความยืดหยุ่นมากกว่า การใช้รูปแบบไบนารี่จะช่วยลดเวลาในการโหลดลงอย่างมาก และยังแสดงตัวเลือกการกำหนดค่าเพิ่มเติมอีกด้วย ด้วยเหตุผลเหล่านี้ เราจะไบนาไรซ์โมเดลโดยใช้:

 $ ./kenlm/bin/build_binary bible.arpa bible.binary

โปรดทราบว่านามสกุลไฟล์ไม่สำคัญ ต่างจาก IRSTLM รูปแบบไบนารี่ได้รับการยอมรับโดยใช้เมจิกไบต์

เราสามารถใช้ trie เมื่อทำการไบนาไรซ์ สำหรับสิ่งนี้ ให้ใช้:

  $ ./kenlm/bin/build_binary trie bible.arpa bible.binary

การใช้แบบจำลอง (เช่น การให้คะแนนประโยค)

ตอนนี้เรามีโมเดลภาษาแล้ว เราก็สามารถ ให้คะแนนประโยคได้ ทำได้ง่ายมากโดยใช้อินเทอร์เฟซ Python ด้านล่างนี้เป็นตัวอย่าง:

 import kenlm
model = kenlm . LanguageModel ( 'bible.binary' )
model . score ( 'in the beginning was the word' )

จากนั้นคุณอาจได้รับคะแนนเช่น:

 -15.03003978729248

อ้างอิง:

http://www.statmt.org/moses/?n=FactoredTraining.BuildingLanguageModel
http://victor.chahuneau.fr/notes/2012/07/03/kenlm.html

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2024-12-30
ขนาด 50MB
มาจาก Github

แอปที่เกี่ยวข้อง

GitHub sgrebnov/cordova plugin background download

2024-11-05
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
แอพเกมฝึกสมอง TBT (ฝึกสมอง)

2023-12-06
การฝึกอบรมปฏิกิริยาเตะกำแพง

2023-11-01
การฝึกอบรมเทศกาลไอดอลดรีมเฟสติวัล

2023-08-15
การฝึกอบรมวงดนตรี

2023-08-15

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
node telegram bot api

โค้ดแหล่งที่มา AI

v0.50.0
typebot.io

โค้ดแหล่งที่มา AI

v3.1.2
python wechaty getting started

โค้ดแหล่งที่มา AI

1.0.0
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
termwind

หมวดหมู่อื่นๆ

v2.3.0
wp functions

หมวดหมู่อื่นๆ

1.0.0

ข้อมูลที่เกี่ยวข้อง ทั้งหมด