El repositorio contiene algunos corpus (coreanos) scripts de Python para entrenar e inferir vectores de documentos de prueba utilizando doc2vec.
Wikipedia coreana / tokenizador mecab pos / sin información de etiqueta / 30 vectores (dmpv)
Wikipedia coreana / tokenizador mecab pos / sin información de etiqueta / 100 vectores (dmpv)
Wikipedia coreana / tokenizador mecab pos / sin información de etiqueta / 300 vectores (dmpv)
Wikipedia coreana / tokenizador mecab pos / sin información de etiqueta / 1000 vectores (dmpv)
Wikipedia coreana + noticias financieras / tokenizador mecab pos / sin información de etiqueta / 30 vectores (dmpv)
Wikipedia coreana + noticias financieras / tokenizador mecab pos / sin información de etiqueta / 100 vectores (dmpv)
Servicio web sencillo que proporciona una API de incrustación de palabras. Los métodos se basan en la implementación Gensim Word2Vec/Doc2Vec. Los modelos se pasan como parámetros y deben estar en formato binario o de texto Word2Vec/Doc2Vec. Este script web2vec-api se bifurca de este github de word2vec-api y recibe una actualización menor para admitir los modelos coreanos de word2vec.
pip2 install -r requirements.txt
python word2vec-api --model path/to/the/model [--host host --port 1234]
ex) python /home/word2vec-api.py --model /home/model/all_terms_50vectors --path /word2vec --host 0.0.0.0 --port 4000
python doc2vec-api --model path/to/the/model [--host host --port 1234]
ex) python /home/doc2vec-api.py --model /home/model/all_terms_50vectors --path /doc2vec --host 0.0.0.0 --port 4000
curl http://127.0.0.1:5000/word2vec/most_similar?positive=무증