O repositório contém alguns scripts python corpus (coreanos) para treinar e inferir vetores de documentos de teste usando doc2vec.
Wikipédia coreana / mecab pos tokenizer / sem informações de tag / 30 vetores (dmpv)
Wikipédia coreana / mecab pos tokenizer / sem informações de tag / 100 vetores (dmpv)
Wikipédia coreana / mecab pos tokenizer / sem informações de tag / 300 vetores (dmpv)
Wikipédia coreana / mecab pos tokenizer / sem informações de tag / 1000 vetores (dmpv)
Wikipédia coreana + notícias financeiras / mecab pos tokenizer / sem informações de tag / 30 vetores (dmpv)
Wikipédia coreana + notícias financeiras / mecab pos tokenizer / sem informações de tag / 100 vetores (dmpv)
Serviço da web simples que fornece uma API de incorporação de palavras. Os métodos são baseados na implementação Gensim Word2Vec/Doc2Vec. Os modelos são passados como parâmetros e devem estar no formato texto ou binário Word2Vec/Doc2Vec. Este script web2vec-api é bifurcado deste github word2vec-api e recebe uma pequena atualização para oferecer suporte aos modelos word2vec coreanos.
pip2 install -r requirements.txt
python word2vec-api --model path/to/the/model [--host host --port 1234]
ex) python /home/word2vec-api.py --model /home/model/all_terms_50vectors --path /word2vec --host 0.0.0.0 --port 4000
python doc2vec-api --model path/to/the/model [--host host --port 1234]
ex) python /home/doc2vec-api.py --model /home/model/all_terms_50vectors --path /doc2vec --host 0.0.0.0 --port 4000
curl http://127.0.0.1:5000/word2vec/most_similar?positive=무증