doc2vec api
1.0.0
該儲存庫包含一些語料庫(韓語)、Python 腳本,用於使用 doc2vec 進行訓練和推斷測試文件向量。
韓文維基百科 / mecab pos tokenizer / 無標籤資訊 / 30 個向量(dmpv)
韓文維基百科 / mecab pos tokenizer / 無標籤資訊 / 100 個向量(dmpv)
韓文維基百科 / mecab pos tokenizer / 無標籤資訊 / 300 個向量(dmpv)
韓文維基百科 / mecab pos tokenizer / 無標籤資訊 / 1000 個向量(dmpv)
韓文維基百科 + 財經新聞 / mecab pos tokenizer / 無標籤資訊 / 30 個向量(dmpv)
韓文維基百科 + 財經新聞 / mecab pos tokenizer / 無標籤資訊 / 100 個向量(dmpv)
提供詞嵌入 API 的簡單 Web 服務。這些方法是基於 Gensim Word2Vec / Doc2Vec 實作。模型作為參數傳遞,並且必須採用 Word2Vec / Doc2Vec 文字或二進位格式。這個 web2vec-api 腳本是從這個 word2vec-api github 分支出來的,並進行了小更新以支援韓語 word2vec 模型。
pip2 install -r requirements.txt
python word2vec-api --model path/to/the/model [--host host --port 1234]
ex) python /home/word2vec-api.py --model /home/model/all_terms_50vectors --path /word2vec --host 0.0.0.0 --port 4000
python doc2vec-api --model path/to/the/model [--host host --port 1234]
ex) python /home/doc2vec-api.py --model /home/model/all_terms_50vectors --path /doc2vec --host 0.0.0.0 --port 4000
curl http://127.0.0.1:5000/word2vec/most_similar?positive=무증