clojure opennlp Download - clojure opennlp Download de código fonte

Interface da biblioteca de clojure para opennlp - https://opennlp.apache.org/

Uma biblioteca para interagir com a biblioteca de funções OpenNLP (Open Natural Language Processing). Nem todas as funções foram implementadas ainda.

Informações/documentação adicionais:

Processamento de linguagem natural em clojure com clojure-openlp
Pesquisa de contexto usando Clojure-Openlp

Leia a fonte da Marginalia

http://dakrone.github.com/clojure-opennlp/

Questões conhecidas

Ao usar o pedaço de árvore em uma frase, verifique se você tem um período no final da frase, se você não tiver um período, o pedaço ficar confuso e solta a última palavra. Além disso, suas frases devem estar gramaticamente corretas de qualquer maneira, certo?

Uso de Leiningen:

[clojure-opennlp " 0.5.0 " ] ; ; uses Opennlp 1.9.0

Clojure-Openlp funciona com Clojure 1.5+

Exemplo básico de uso (de um repl):

( use 'clojure.pprint) ; just for this documentation
( use 'opennlp.nlp)
( use 'opennlp.treebank) ; treebank chunking, parsing and linking lives here

Você precisará fazer as funções de processamento usando os arquivos do modelo. Eles assumem que você está fugindo do diretório raiz do projeto. Você também pode baixar os arquivos do modelo do projeto OpenNLP em http://opennlp.sourceforge.net/models-1.5

( def get-sentences ( make-sentence-detector " models/en-sent.bin " ))
( def tokenize ( make-tokenizer " models/en-token.bin " ))
( def detokenize ( make-detokenizer " models/english-detokenizer.xml " ))
( def pos-tag ( make-pos-tagger " models/en-pos-maxent.bin " ))
( def name-find ( make-name-finder " models/namefind/en-ner-person.bin " ))
( def chunker ( make-treebank-chunker " models/en-chunker.bin " ))

Os criadores de ferramentas são multimetodos, para que você também possa criar qualquer uma das ferramentas usando um modelo em vez de um nome de arquivo (você pode criar um modelo com as ferramentas de treinamento em SRC/OpenNLP/Tools/Train.clj):

( def tokenize ( make-tokenizer my-tokenizer-model)) ; ; etc, etc

Em seguida, use as funções que você criou para executar operações no texto:

Detectando frases:

( pprint ( get-sentences " First sentence. Second sentence? Here is another one. And so on and so forth - you get the idea... " ))
[ " First sentence. " , " Second sentence? " , " Here is another one. " ,
 " And so on and so forth - you get the idea... " ]

Tokenizing:

( pprint ( tokenize " Mr. Smith gave a car to his son on Friday " ))
[ " Mr. " , " Smith " , " gave " , " a " , " car " , " to " , " his " , " son " , " on " ,
 " Friday " ]

Detenizando:

( detokenize [ " Mr. " , " Smith " , " gave " , " a " , " car " , " to " , " his " , " son " , " on " , " Friday " ])
" Mr. Smith gave a car to his son on Friday. "

Idealmente, s == (detokenize (tokenize s)), o arquivo XML do modelo de detecção é um trabalho em andamento, informe -me se você se deparar com algo que não detokeniza corretamente em inglês.

Marcação de parte da fala:

( pprint ( pos-tag ( tokenize " Mr. Smith gave a car to his son on Friday. " )))
([ " Mr. " " NNP " ]
 [ " Smith " " NNP " ]
 [ " gave " " VBD " ]
 [ " a " " DT " ]
 [ " car " " NN " ]
 [ " to " " TO " ]
 [ " his " " PRP$ " ]
 [ " son " " NN " ]
 [ " on " " IN " ]
 [ " Friday. " " NNP " ])

Encontrar o nome:

( name-find ( tokenize " My name is Lee, not John. " ))
( "Lee" " John " )

As brechas e marcas em árvores se dividem de uma frase marcada com POS. Uma diferença notável é que ele retorna uma lista de estruturas com a: frase e: teclas de tag, como visto abaixo:

( pprint ( chunker ( pos-tag ( tokenize " The override system is meant to deactivate the accelerator when the brake pedal is pressed. " ))))
({ :phrase [ " The " " override " " system " ], :tag " NP " }
 { :phrase [ " is " " meant " " to " " deactivate " ], :tag " VP " }
 { :phrase [ " the " " accelerator " ], :tag " NP " }
 { :phrase [ " when " ], :tag " ADVP " }
 { :phrase [ " the " " brake " " pedal " ], :tag " NP " }
 { :phrase [ " is " " pressed " ], :tag " VP " })

Apenas para as frases:

( phrases ( chunker ( pos-tag ( tokenize " The override system is meant to deactivate the accelerator when the brake pedal is pressed. " ))))
([ " The " " override " " system " ] [ " is " " meant " " to " " deactivate " ] [ " the " " accelerator " ] [ " when " ] [ " the " " brake " " pedal " ] [ " is " " pressed " ])

E com apenas cordas:

( phrase-strings ( chunker ( pos-tag ( tokenize " The override system is meant to deactivate the accelerator when the brake pedal is pressed. " ))))
( "The override system " " is meant to deactivate " " the accelerator " " when " " the brake pedal " " is pressed " )

Categorização de documentos:

Consulte Opennlp.test.tools.Train para obter melhores exemplos de uso.

( def doccat ( make-document-categorizer " my-doccat-model " ))

( doccat " This is some good text " )
" Happy "

Probabilidades de confiança

Os suprimentos de probabilidades OpenNLP para uma determinada operação estão disponíveis como metadados no resultado, quando aplicável:

( meta ( get-sentences " This is a sentence. This is also one. " ))
{ :probabilities ( 0.9999054310803004 0.9941126097177366 )}

( meta ( tokenize " This is a sentence. " ))
{ :probabilities ( 1.0 1.0 1.0 0.9956236737394807 1.0 )}

( meta ( pos-tag [ " This " " is " " a " " sentence " " . " ]))
{ :probabilities ( 0.9649410482478001 0.9982592902509803 0.9967282012835504 0.9952498677248117 0.9862225658078769 )}

( meta ( chunker ( pos-tag [ " This " " is " " a " " sentence " " . " ])))
{ :probabilities ( 0.9941248001899835 0.9878092935921453 0.9986106511439116 0.9972975733070356 0.9906377695586069 )}

( meta ( name-find [ " My " " name " " is " " John " ]))
{ :probabilities ( 0.9996272005494383 0.999999997485361 0.9999948113868132 0.9982291838206192 )}

Tamanho do feixe

Você pode rebindar opennlp.nlp/*beam-size* (o padrão é 3) para o post-tagger e o parbank-parser com:

( binding [*beam-size* 1 ]
  ( def pos-tag ( make-pos-tagger " models/en-pos-maxent.bin " )))

Porcentagem antecipada

Você pode rebindar opennlp.treebank/*advance-percentage* (o padrão é 0,95) para o parbank-parser com:

( binding [*advance-percentage* 0.80 ]
  ( def parser ( make-treebank-parser " parser-model/en-parser-chunking.bin " )))

Treebanksing

NOTA: A análise do Treebank é muito intensiva em memória, verifique se sua JVM possui uma quantidade suficiente de memória disponível (usando algo como -xmx512m) ou você ficará sem espaço para o uso de um analisador de árvores.

A Parsing de Treebank recebe sua própria seção devido a quão complexa é.

NOTA NENHUM DO MODELO DE TREEBANK-PARSER ESTÁ INCLUÍDO NO REPAÇÃO GIT, você precisará baixá-lo separadamente do projeto OpenNLP.

Criando:

( def treebank-parser ( make-treebank-parser " parser-model/en-parser-chunking.bin " ))

Para usar o parbank-parser, passe uma variedade de frases com seus tokens separados pelo espaço em branco (de preferência usando tokenize)

( treebank-parser [ " This is a sentence . " ])
[ " (TOP (S (NP (DT This)) (VP (VBZ is) (NP (DT a) (NN sentence))) (. .))) " ]

Para transformar a corda de parbank-parser em algo um pouco mais fácil para o clojure executar, use a função (Make-Tree ...):

( make-tree ( first ( treebank-parser [ " This is a sentence . " ])))
{ :chunk { :chunk ({ :chunk { :chunk " This " , :tag DT}, :tag NP} { :chunk ({ :chunk " is " , :tag VBZ} { :chunk ({ :chunk " a " , :tag DT} { :chunk " sentence " , :tag NN}), :tag NP}), :tag VP} { :chunk " . " , :tag .}), :tag S}, :tag TOP}

Aqui está a divisão de dados dividida em um formato um pouco mais legível:

{ :tag TOP
 :chunk { :tag S
         :chunk ({ :tag NP
                  :chunk { :tag DT
                          :chunk " This " }}
                 { :tag VP
                  :chunk ({ :tag VBZ
                           :chunk " is " }
                          { :tag NP
                           :chunk ({ :tag DT
                                    :chunk " a " }
                                   { :tag NN
                                    :chunk " sentence " })})}
                 { :tag .
                  :chunk " . " })}}

Espero que isso o torne um pouco mais claro, um mapa aninhado. Se mais alguém tiver alguma sugestão para obter melhores maneiras de representar essas informações, sinta -se à vontade para me enviar um e -mail ou um patch.

A análise de Treebank é considerada beta neste momento.

Filtros

Filtrando sequências marcadas com POS

( use 'opennlp.tools.filters)

( pprint ( nouns ( pos-tag ( tokenize " Mr. Smith gave a car to his son on Friday. " ))))
([ " Mr. " " NNP " ]
 [ " Smith " " NNP " ]
 [ " car " " NN " ]
 [ " son " " NN " ]
 [ " Friday " " NNP " ])

( pprint ( verbs ( pos-tag ( tokenize " Mr. Smith gave a car to his son on Friday. " ))))
([ " gave " " VBD " ])

Filtrando pedaços de árvores

( use 'opennlp.tools.filters)

( pprint ( noun-phrases ( chunker ( pos-tag ( tokenize " The override system is meant to deactivate the accelerator when the brake pedal is pressed " )))))
({ :phrase [ " The " " override " " system " ], :tag " NP " }
 { :phrase [ " the " " accelerator " ], :tag " NP " }
 { :phrase [ " the " " brake " " pedal " ], :tag " NP " })

Criando seus próprios filtros:

( pos-filter determiners #"^DT" )
#'user/determiners
( doc determiners)
-------------------------
user/determiners
([elements__52__auto__])
  Given a list of pos-tagged elements, return only the determiners in a list.

( pprint ( determiners ( pos-tag ( tokenize " Mr. Smith gave a car to his son on Friday. " ))))
([ " a " " DT " ])

Você também pode criar filtros de chunk de árvores usando (filtro de pedaços ...)

( chunk-filter fragments #"^FRAG$" )

( doc fragments)
-------------------------
opennlp.nlp/fragments
([elements__178__auto__])
  Given a list of treebank-chunked elements, return only the fragments in a list.

Sendo preguiçoso

Existem alguns métodos para ajudá -lo a ser preguiçoso ao marcar métodos, dependendo da operação desejada, use o método correspondente:

 #'opennlp.tools.lazy/lazy-get-sentences
#'opennlp.tools.lazy/lazy-tokenize
#'opennlp.tools.lazy/lazy-tag
#'opennlp.tools.lazy/lazy-chunk
#'opennlp.tools.lazy/sentence-seq

Veja como usá -los:

( use 'opennlp.nlp)
( use 'opennlp.treebank)
( use 'opennlp.tools.lazy)

( def get-sentences ( make-sentence-detector " models/en-sent.bin " ))
( def tokenize ( make-tokenizer " models/en-token.bin " ))
( def pos-tag ( make-pos-tagger " models/en-pos-maxent.bin " ))
( def chunker ( make-treebank-chunker " models/en-chunker.bin " ))

( lazy-get-sentences [ " This body of text has three sentences. This is the first. This is the third. " " This body has only two. Here's the last one. " ] get-sentences)
; ; will lazily return:
([ " This body of text has three sentences. " " This is the first. " " This is the third. " ] [ " This body has only two. " " Here's the last one. " ])

( lazy-tokenize [ " This is a sentence. " " This is another sentence. " " This is the third. " ] tokenize)
; ; will lazily return:
([ " This " " is " " a " " sentence " " . " ] [ " This " " is " " another " " sentence " " . " ] [ " This " " is " " the " " third " " . " ])

( lazy-tag [ " This is a sentence. " " This is another sentence. " ] tokenize pos-tag)
; ; will lazily return:
(([ " This " " DT " ] [ " is " " VBZ " ] [ " a " " DT " ] [ " sentence " " NN " ] [ " . " " . " ]) ([ " This " " DT " ] [ " is " " VBZ " ] [ " another " " DT " ] [ " sentence " " NN " ] [ " . " " . " ]))

( lazy-chunk [ " This is a sentence. " " This is another sentence. " ] tokenize pos-tag chunker)
; ; will lazily return:
(({ :phrase [ " This " ], :tag " NP " } { :phrase [ " is " ], :tag " VP " } { :phrase [ " a " " sentence " ], :tag " NP " }) ({ :phrase [ " This " ], :tag " NP " } { :phrase [ " is " ], :tag " VP " } { :phrase [ " another " " sentence " ], :tag " NP " }))

Sinta -se à vontade para usar as funções preguiçosas, mas ainda não estou 100% definido no layout, para que eles possam mudar no futuro. (Talvez acorrentando-os então, em vez de uma sequência de frases, parece-se (Lazy Chok (Lazy-Tag (Lazy-Tokenize (Lazy-Get-Sentrences ...))))).

Gerando uma sequência preguiçosa de frases de um arquivo usando o OpenNLP.tools.lazy/sentença-seq:

( with-open [rdr ( clojure.java.io/reader " /tmp/bigfile " )]
  ( let [sentences ( sentence-seq rdr get-sentences)]
    ; ; process your lazy seq of sentences however you desire
    ( println " first 5 sentences: " )
    ( clojure.pprint/pprint ( take 5 sentences))))

Treinamento

Há código para permitir modelos de treinamento para cada uma das ferramentas. Por favor, veja a documentação em treinamento.markdown

Licença

Distribuído sob a licença pública do Eclipse, o mesmo que o clojure usa. Veja o arquivo copiando.

Colaboradores

Rob Zinkov - Zaxtax
Alexandre Patry - Apatry

PENDÊNCIA

~~Adicione o método para gerar sequência preguiçosa de frases de um arquivo~~ (feito!)
~~Detokenizer~~ (ainda mais trabalho a fazer, mas funciona por enquanto)
Faça algo com Parse-Num para a Parsing de Treebank
~~Dividir as coisas de Treebank em seu próprio espaço para nome~~ (feito!)
~~Treebank Chunker~~ (feito!)
~~Analisador de Treebank~~ (feito!)
~~Preguiça~~ (feito! por enquanto.)
Treebank Linker (WIP)
~~Ajudadores da frase para Chunker~~ (feito!)
~~Descubra qual licença usar.~~ (feito!)
Filtros para Treebank-Parser
Retornar resultados de probabilidade múltiplos para o parbank-parser
~~Explore incluindo números de probabilidade~~ (Números de probabilidade adicionados como metadados)
~~Modelo de treinamento/treinador~~ (feito!)
Revisitar o formato de dados de dados para frases marcadas
~~Funcionalidade de tamanho de viga de documento~~
Documente a funcionalidade de porcentagem antecipada
Construa uma suíte de teste completa: - ~~Ferramentas principais~~ (feito) -- ~~filtros~~ (feito) -- ~~preguiça~~ (Concluído) - Treinamento (praticamente feito, exceto pela marcação)