clojure opennlp Скачать - clojure opennlp Исходный код скачать

Интерфейс библиотеки Clojure с OpenNLP - https://opennlp.apache.org/

Библиотека для взаимодействия с открытой библиотекой функций OpenNLP (открытый естественный язык). Не все функции еще реализованы.

Дополнительная информация/документация:

Обработка естественного языка в Clojure с Clojure-Opennlp
Поиск контекста с использованием clojure-opennlp

Прочитайте источник от Marginalia

http://dakrone.github.com/clojure-opennlp/

Известные проблемы

При использовании Treebank-Chunker в предложении, пожалуйста, убедитесь, что у вас есть период в конце предложения, если у вас нет периода, Chunker смущается и отбрасывает последнее слово. Кроме того, все ваши предложения должны быть грамматическим правом в любом случае, верно?

Использование от Leiningen:

[clojure-opennlp " 0.5.0 " ] ; ; uses Opennlp 1.9.0

Clojure-Opennlp работает с Clojure 1.5+

Базовое использование примера (из реплики):

( use 'clojure.pprint) ; just for this documentation
( use 'opennlp.nlp)
( use 'opennlp.treebank) ; treebank chunking, parsing and linking lives here

Вам нужно будет сделать функции обработки, используя файлы модели. Они предполагают, что вы работаете из каталога Root Project. Вы также можете загрузить файлы модели из проекта OpenNLP по адресу http://opennlp.sourceforge.net/models-1.5

( def get-sentences ( make-sentence-detector " models/en-sent.bin " ))
( def tokenize ( make-tokenizer " models/en-token.bin " ))
( def detokenize ( make-detokenizer " models/english-detokenizer.xml " ))
( def pos-tag ( make-pos-tagger " models/en-pos-maxent.bin " ))
( def name-find ( make-name-finder " models/namefind/en-ner-person.bin " ))
( def chunker ( make-treebank-chunker " models/en-chunker.bin " ))

Креаторы инструментов-это мультиметоды, поэтому вы также можете создать любой из инструментов, используя модель вместо имени файла (вы можете создать модель с инструментами обучения в SRC/OpenNLP/Tools/Train.clj):

( def tokenize ( make-tokenizer my-tokenizer-model)) ; ; etc, etc

Затем используйте функции, которые вы создали для выполнения операций в тексте:

Обнаружение предложений:

( pprint ( get-sentences " First sentence. Second sentence? Here is another one. And so on and so forth - you get the idea... " ))
[ " First sentence. " , " Second sentence? " , " Here is another one. " ,
 " And so on and so forth - you get the idea... " ]

Токенизация:

( pprint ( tokenize " Mr. Smith gave a car to his son on Friday " ))
[ " Mr. " , " Smith " , " gave " , " a " , " car " , " to " , " his " , " son " , " on " ,
 " Friday " ]

Детоксификация:

( detokenize [ " Mr. " , " Smith " , " gave " , " a " , " car " , " to " , " his " , " son " , " on " , " Friday " ])
" Mr. Smith gave a car to his son on Friday. "

В идеале, S == (DeTockenize (Tokenize S)), файл XML модели детоккизации находится в стадии разработки, пожалуйста, дайте мне знать, если вы столкнетесь с чем -то, что не декорирует правильно на английском языке.

Часть речи текс:

( pprint ( pos-tag ( tokenize " Mr. Smith gave a car to his son on Friday. " )))
([ " Mr. " " NNP " ]
 [ " Smith " " NNP " ]
 [ " gave " " VBD " ]
 [ " a " " DT " ]
 [ " car " " NN " ]
 [ " to " " TO " ]
 [ " his " " PRP$ " ]
 [ " son " " NN " ]
 [ " on " " IN " ]
 [ " Friday. " " NNP " ])

Найти имя:

( name-find ( tokenize " My name is Lee, not John. " ))
( "Lee" " John " )

Treebank-Chunking разбивает и течет фраз из предложения с заглушенным. Примечательное отличие состоит в том, что он возвращает список структур с помощью: фраза и: теги, как показано ниже:

( pprint ( chunker ( pos-tag ( tokenize " The override system is meant to deactivate the accelerator when the brake pedal is pressed. " ))))
({ :phrase [ " The " " override " " system " ], :tag " NP " }
 { :phrase [ " is " " meant " " to " " deactivate " ], :tag " VP " }
 { :phrase [ " the " " accelerator " ], :tag " NP " }
 { :phrase [ " when " ], :tag " ADVP " }
 { :phrase [ " the " " brake " " pedal " ], :tag " NP " }
 { :phrase [ " is " " pressed " ], :tag " VP " })

Только для фраз:

( phrases ( chunker ( pos-tag ( tokenize " The override system is meant to deactivate the accelerator when the brake pedal is pressed. " ))))
([ " The " " override " " system " ] [ " is " " meant " " to " " deactivate " ] [ " the " " accelerator " ] [ " when " ] [ " the " " brake " " pedal " ] [ " is " " pressed " ])

И с просто струнами:

( phrase-strings ( chunker ( pos-tag ( tokenize " The override system is meant to deactivate the accelerator when the brake pedal is pressed. " ))))
( "The override system " " is meant to deactivate " " the accelerator " " when " " the brake pedal " " is pressed " )

Категоризация документов:

См. Opennlp.test.tools.train для лучшего использования примеров.

( def doccat ( make-document-categorizer " my-doccat-model " ))

( doccat " This is some good text " )
" Happy "

Вероятности уверенности

Вероятности OpenNLP Поставки для данной операции доступны в качестве метаданных в результате, где это применимо:

( meta ( get-sentences " This is a sentence. This is also one. " ))
{ :probabilities ( 0.9999054310803004 0.9941126097177366 )}

( meta ( tokenize " This is a sentence. " ))
{ :probabilities ( 1.0 1.0 1.0 0.9956236737394807 1.0 )}

( meta ( pos-tag [ " This " " is " " a " " sentence " " . " ]))
{ :probabilities ( 0.9649410482478001 0.9982592902509803 0.9967282012835504 0.9952498677248117 0.9862225658078769 )}

( meta ( chunker ( pos-tag [ " This " " is " " a " " sentence " " . " ])))
{ :probabilities ( 0.9941248001899835 0.9878092935921453 0.9986106511439116 0.9972975733070356 0.9906377695586069 )}

( meta ( name-find [ " My " " name " " is " " John " ]))
{ :probabilities ( 0.9996272005494383 0.999999997485361 0.9999948113868132 0.9982291838206192 )}

Размер луча

Вы можете повторить opennlp.nlp/*beam-size* (по умолчанию 3) для Pos-Tagger и Treebank-Parser с:

( binding [*beam-size* 1 ]
  ( def pos-tag ( make-pos-tagger " models/en-pos-maxent.bin " )))

Предварительный процент

Вы можете пережить opennlp.treebank/*advance-percentage* (по умолчанию 0,95) для деревьев-писателя с:

( binding [*advance-percentage* 0.80 ]
  ( def parser ( make-treebank-parser " parser-model/en-parser-chunking.bin " )))

Тревобанк

Примечание. Расположение деревьев очень интенсивное, убедитесь, что в вашем JVM есть достаточное количество памяти (используя что -то вроде -xmx512m), или у вас будет место пробег на куча при использовании анализатора деревьев.

Расположение деревьев получает свой собственный раздел из -за того, насколько он сложный.

Примечание. Ни одна из модели Treebank-Parser не включена в GIT Repo, вам придется загрузить ее отдельно от проекта OpenNLP.

Создание:

( def treebank-parser ( make-treebank-parser " parser-model/en-parser-chunking.bin " ))

Чтобы использовать Treebank-Parser, пропустите множество предложений с их токенами, разделенными пробелом (предпочтительно с использованием токена)

( treebank-parser [ " This is a sentence . " ])
[ " (TOP (S (NP (DT This)) (VP (VBZ is) (NP (DT a) (NN sentence))) (. .))) " ]

Чтобы преобразовать строку Treebank-Parser в нечто немного проще для выполнения Clojure, используйте функцию (Make Tree ...):

( make-tree ( first ( treebank-parser [ " This is a sentence . " ])))
{ :chunk { :chunk ({ :chunk { :chunk " This " , :tag DT}, :tag NP} { :chunk ({ :chunk " is " , :tag VBZ} { :chunk ({ :chunk " a " , :tag DT} { :chunk " sentence " , :tag NN}), :tag NP}), :tag VP} { :chunk " . " , :tag .}), :tag S}, :tag TOP}

Вот Datastructure разделена на немного более читаемый формат:

{ :tag TOP
 :chunk { :tag S
         :chunk ({ :tag NP
                  :chunk { :tag DT
                          :chunk " This " }}
                 { :tag VP
                  :chunk ({ :tag VBZ
                           :chunk " is " }
                          { :tag NP
                           :chunk ({ :tag DT
                                    :chunk " a " }
                                   { :tag NN
                                    :chunk " sentence " })})}
                 { :tag .
                  :chunk " . " })}}

Надеемся, что это сделает его немного более ясным, вложенной картой. Если у кого -то еще есть какие -либо предложения для лучших способов представления этой информации, не стесняйтесь присылать мне электронное письмо или патч.

Расположение деревьев считается бета -версией в этот момент.

Фильтры

Фильтрация POS-меченных последовательностей

( use 'opennlp.tools.filters)

( pprint ( nouns ( pos-tag ( tokenize " Mr. Smith gave a car to his son on Friday. " ))))
([ " Mr. " " NNP " ]
 [ " Smith " " NNP " ]
 [ " car " " NN " ]
 [ " son " " NN " ]
 [ " Friday " " NNP " ])

( pprint ( verbs ( pos-tag ( tokenize " Mr. Smith gave a car to his son on Friday. " ))))
([ " gave " " VBD " ])

Фильтрация деревьев-чертов

( use 'opennlp.tools.filters)

( pprint ( noun-phrases ( chunker ( pos-tag ( tokenize " The override system is meant to deactivate the accelerator when the brake pedal is pressed " )))))
({ :phrase [ " The " " override " " system " ], :tag " NP " }
 { :phrase [ " the " " accelerator " ], :tag " NP " }
 { :phrase [ " the " " brake " " pedal " ], :tag " NP " })

Создание собственных фильтров:

( pos-filter determiners #"^DT" )
#'user/determiners
( doc determiners)
-------------------------
user/determiners
([elements__52__auto__])
  Given a list of pos-tagged elements, return only the determiners in a list.

( pprint ( determiners ( pos-tag ( tokenize " Mr. Smith gave a car to his son on Friday. " ))))
([ " a " " DT " ])

Вы также можете создавать фильтры Treebank-Chunk с помощью (Chunc-Filter ...)

( chunk-filter fragments #"^FRAG$" )

( doc fragments)
-------------------------
opennlp.nlp/fragments
([elements__178__auto__])
  Given a list of treebank-chunked elements, return only the fragments in a list.

Быть ленивым

Есть некоторые методы, которые помогут вам быть ленивыми при методах тега, в зависимости от желаемой операции, используйте соответствующий метод:

 #'opennlp.tools.lazy/lazy-get-sentences
#'opennlp.tools.lazy/lazy-tokenize
#'opennlp.tools.lazy/lazy-tag
#'opennlp.tools.lazy/lazy-chunk
#'opennlp.tools.lazy/sentence-seq

Вот как их использовать:

( use 'opennlp.nlp)
( use 'opennlp.treebank)
( use 'opennlp.tools.lazy)

( def get-sentences ( make-sentence-detector " models/en-sent.bin " ))
( def tokenize ( make-tokenizer " models/en-token.bin " ))
( def pos-tag ( make-pos-tagger " models/en-pos-maxent.bin " ))
( def chunker ( make-treebank-chunker " models/en-chunker.bin " ))

( lazy-get-sentences [ " This body of text has three sentences. This is the first. This is the third. " " This body has only two. Here's the last one. " ] get-sentences)
; ; will lazily return:
([ " This body of text has three sentences. " " This is the first. " " This is the third. " ] [ " This body has only two. " " Here's the last one. " ])

( lazy-tokenize [ " This is a sentence. " " This is another sentence. " " This is the third. " ] tokenize)
; ; will lazily return:
([ " This " " is " " a " " sentence " " . " ] [ " This " " is " " another " " sentence " " . " ] [ " This " " is " " the " " third " " . " ])

( lazy-tag [ " This is a sentence. " " This is another sentence. " ] tokenize pos-tag)
; ; will lazily return:
(([ " This " " DT " ] [ " is " " VBZ " ] [ " a " " DT " ] [ " sentence " " NN " ] [ " . " " . " ]) ([ " This " " DT " ] [ " is " " VBZ " ] [ " another " " DT " ] [ " sentence " " NN " ] [ " . " " . " ]))

( lazy-chunk [ " This is a sentence. " " This is another sentence. " ] tokenize pos-tag chunker)
; ; will lazily return:
(({ :phrase [ " This " ], :tag " NP " } { :phrase [ " is " ], :tag " VP " } { :phrase [ " a " " sentence " ], :tag " NP " }) ({ :phrase [ " This " ], :tag " NP " } { :phrase [ " is " ], :tag " VP " } { :phrase [ " another " " sentence " ], :tag " NP " }))

Не стесняйтесь использовать ленивые функции, но я все еще не на 100% на компоновке, чтобы они могли измениться в будущем. (Может быть, цепляет их так, чтобы вместо последовательности предложений это выглядело (ленивый-чан (Lazy-Tag (Lazy-Tokenize (Lazy-Get-Sentences ...)))))).

Создание ленивой последовательности предложений из файла с использованием opennlp.tools.lazy/predence-seq:

( with-open [rdr ( clojure.java.io/reader " /tmp/bigfile " )]
  ( let [sentences ( sentence-seq rdr get-sentences)]
    ; ; process your lazy seq of sentences however you desire
    ( println " first 5 sentences: " )
    ( clojure.pprint/pprint ( take 5 sentences))))

Обучение

Существует код, позволяющий обучать модели для каждого из инструментов. Пожалуйста, смотрите документацию на Training.markdown

Лицензия

Распределяется по публичной лицензии Eclipse, так же, как и Clojure. Смотрите копирование файла.

Участники

Роб Зинков - Zaxtax
Александр Патри - апатри

Тодо

~~Добавить метод для создания ленивой последовательности предложений из файла~~ (сделанный!)
~~Детокизатор~~ (еще больше работы, но сейчас это работает)
Сделайте что-нибудь с Parse-Num для анализа деревьев
~~Разделите материал деревьев на собственное пространство имен~~ (сделанный!)
~~Treebank Chunker~~ (сделанный!)
~~ДЕРЕВОДНЫЙ ПАССЕР~~ (сделанный!)
~~Лень~~ (Сделано! На данный момент.)
Линкер дерево (WIP)
~~Фраза помощников для кусочка~~ (сделанный!)
~~Выясните, какую лицензию использовать.~~ (сделанный!)
Фильтры для Treebank-Parser
Вернуть несколько результатов вероятности для деревьев-пласателя
~~Исследуйте, включив числа вероятностей~~ (Числа вероятностей добавлены в качестве метаданных)
~~Обучение модели/тренер~~ (сделанный!)
Повторный формат Datastructure для предложений с меткой
~~Функциональность размером с луча документа~~
~~Документ Advance-Percentage. Функциональность~~
Создайте полный набор тестов: - ~~Основные инструменты~~ (сделанный) -- ~~фильтры~~ (сделанный) -- ~~лень~~ (Готово) - Тренировка (в значительной степени сделано, за исключением тегов)