Загрузка KenLM training - KenLM training Загрузка исходного кода

KenLM training

AI Исходный код

1.0.0

Скачать

КенЛМ

KenLM выполняет интерполированное модифицированное сглаживание Кнезера Нея для оценки вероятностей n-грамм.

Пошаговое руководство по обучению языковой модели на основе n-грамм с использованием инструментария KenLM

1) Установка зависимостей KenLM

Перед установкой набора инструментов KenLM вам следует установить все зависимости, которые можно найти в kenlm-dependents.

Для дистрибутива Debian/Ubuntu :

Чтобы получить работающий компилятор, установите пакет build-essential . Boost известен как libboost-all-dev . Каждый из трех поддерживаемых вариантов сжатия имеет отдельный пакет разработки.

 $ sudo apt-get install build-essential libboost-all-dev cmake zlib1g-dev libbz2-dev liblzma-dev

2) Установка инструментария KenLM

Для этого предлагается использовать виртуальную среду conda или virtualenv . Для conda вы можете создать его, используя:

 $ conda create -n kenlm_deepspeech python=3.6 nltk

Затем активируйте среду, используя:

 $ source activate kenlm_deepspeech

Теперь мы готовы установить kenlm. Давайте сначала клонируем репозиторий kenlm:

 $ git clone --recursive https://github.com/vchahun/kenlm.git

А затем скомпилируйте код оценки LM, используя:

 $ cd kenlm
$ ./bjam

В качестве последнего шага, при желании, установите модуль Python, используя:

 $ python setup.py install

3) Обучение языковой модели

Сначала давайте получим некоторые обучающие данные. Здесь я буду использовать Библию:

 $ wget -c https://github.com/vchahun/notes/raw/data/bible/bible.en.txt.bz2

Далее нам понадобится простой скрипт предварительной обработки. Причина в том, что:

обучающий текст должен представлять собой один текстовый/сжатый файл (например, .bz2 ), содержащий одно предложение в строке.
его необходимо токенизировать и перевести в нижний регистр, прежде чем подавать его в kenlm

Итак, создайте простой скрипт preprocess.py со следующими строками:

 import sys
import nltk

for line in sys . stdin :
    for sentence in nltk . sent_tokenize ( line ):
        print ( ' ' . join ( nltk . word_tokenize ( sentence )). lower ())

Для проверки работоспособности выполните:

 $ bzcat bible.en.txt.bz2 | python preprocess.py | wc

И увидеть, что все работает нормально.

Теперь мы можем обучить модель. Для обучения модели триграммы со сглаживанием Кнезера-Нея используйте:

 # -o means `order` which translates to the `n` in n-gram
$ bzcat bible.en.txt.bz2 |
  python preprocess.py |
  ./kenlm/bin/lmplz -o 3 > bible.arpa

Приведенная выше команда сначала передаст данные через сценарий предварительной обработки, который выполняет токенизацию и нижний регистр. Затем этот токенизированный и написанный строчными буквами текст передается в программу lmplz которая выполняет оценочную работу.

Он должен завершиться через пару секунд, а затем сгенерировать arpa-файл bible.arpa . Вы можете проверить файл arpa, используя что-то вроде less или more (т. е. $ less bible.arpa ). В самом начале он должен иметь раздел данных со счетчиками униграмм, биграмм и триграмм, за которыми следуют оценочные значения.

Бинаризация модели

Файлы ARPA можно читать напрямую. Но двоичный формат загружается намного быстрее и обеспечивает большую гибкость. Использование двоичного формата значительно сокращает время загрузки, а также предоставляет больше возможностей конфигурации. По этим причинам мы будем бинаризировать модель, используя:

 $ ./kenlm/bin/build_binary bible.arpa bible.binary

Обратите внимание, что, в отличие от IRSTLM, расширение файла не имеет значения; двоичный формат распознается с помощью магических байтов.

При бинаризации также можно использовать trie . Для этого используйте:

  $ ./kenlm/bin/build_binary trie bible.arpa bible.binary

Использование модели (т.е. оценка предложений)

Теперь, когда у нас есть языковая модель, мы можем оценивать предложения. Это очень легко сделать с помощью интерфейса Python. Ниже приведен пример:

 import kenlm
model = kenlm . LanguageModel ( 'bible.binary' )
model . score ( 'in the beginning was the word' )

Тогда вы можете получить такие оценки, как:

 -15.03003978729248

Ссылки:

http://www.statmt.org/moses/?n=FactoredTraining.BuildingLanguageModel
http://victor.chahuneau.fr/notes/2012/07/03/kenlm.html

Расширять

Дополнительная информация

Версия 1.0.0
Тип AI Исходный код
Время обновления 2024-12-30
размер 50MB
От Github

Связанные приложения

GitHub sgrebnov/cordova plugin background download

2024-11-05
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Приложение для тренировки мозга TBT (тренировка мозга)

2023-12-06
Тренировка реакции на удар по стене

2023-11-01
Тренировка на фестивале Idol Dream

2023-08-15
Обучение ансамблю

2023-08-15

KenLM training

КенЛМ

Пошаговое руководство по обучению языковой модели на основе n-грамм с использованием инструментария KenLM

1) Установка зависимостей KenLM

2) Установка инструментария KenLM

3) Обучение языковой модели

Бинаризация модели

Использование модели (т.е. оценка предложений)

Ссылки:

GitHub sgrebnov/cordova plugin background download

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

Приложение для тренировки мозга TBT (тренировка мозга)

Тренировка реакции на удар по стене

Тренировка на фестивале Idol Dream

Обучение ансамблю

chat.petals.dev

GPT Prompt Templates

GPTyped

node telegram bot api

typebot.io

python wechaty getting started

waymo open dataset

termwind

wp functions