Das Repository enthält einige Korpus- (koreanische) Python-Skripte zum Trainieren und Ableiten von Testdokumentvektoren mithilfe von doc2vec.
Koreanische Wikipedia / mecab pos tokenizer / keine Tag-Info / 30 Vektoren (dmpv)
Koreanische Wikipedia / mecab pos tokenizer / keine Tag-Info / 100 Vektoren (dmpv)
Koreanische Wikipedia / mecab pos tokenizer / keine Tag-Info / 300 Vektoren (dmpv)
Koreanische Wikipedia / mecab pos tokenizer / keine Tag-Info / 1000 Vektoren (dmpv)
Koreanische Wikipedia + Finanznachrichten / mecab pos tokenizer / keine Tag-Info / 30 Vektoren (dmpv)
Koreanische Wikipedia + Finanznachrichten / mecab pos tokenizer / keine Tag-Info / 100 Vektoren (dmpv)
Einfacher Webdienst, der eine API zur Worteinbettung bereitstellt. Die Methoden basieren auf der Gensim Word2Vec/Doc2Vec-Implementierung. Modelle werden als Parameter übergeben und müssen im Word2Vec-/Doc2Vec-Text- oder Binärformat vorliegen. Dieses web2vec-api-Skript ist von diesem word2vec-api-Github abgeleitet und erhält ein kleines Update, um koreanische word2vec-Modelle zu unterstützen.
pip2 install -r requirements.txt
python word2vec-api --model path/to/the/model [--host host --port 1234]
ex) python /home/word2vec-api.py --model /home/model/all_terms_50vectors --path /word2vec --host 0.0.0.0 --port 4000
python doc2vec-api --model path/to/the/model [--host host --port 1234]
ex) python /home/doc2vec-api.py --model /home/model/all_terms_50vectors --path /doc2vec --host 0.0.0.0 --port 4000
curl http://127.0.0.1:5000/word2vec/most_similar?positive=무증