Репозиторий содержит несколько корпусов (корейских) скриптов Python для обучения и вывода векторов тестовых документов с использованием doc2vec.
Корейская Википедия / токенизатор mecab pos / нет информации о тегах / 30 векторов (dmpv)
Корейская Википедия / токенизатор mecab pos / нет информации о тегах / 100 векторов (dmpv)
Корейская Википедия / токенизатор mecab pos / нет информации о тегах / 300 векторов (dmpv)
Корейская Википедия / токенизатор mecab pos / нет информации о тегах / 1000 векторов (dmpv)
Корейская Википедия + финансовые новости / токенизатор mecab pos / нет информации о тегах / 30 векторов (dmpv)
Корейская Википедия + финансовые новости / токенизатор mecab pos / нет информации о тегах / 100 векторов (dmpv)
Простой веб-сервис, предоставляющий API для встраивания слов. Методы основаны на реализации Gensim Word2Vec/Doc2Vec. Модели передаются как параметры и должны быть в текстовом или двоичном формате Word2Vec/Doc2Vec. Этот скрипт web2vec-api является ответвлением этого github word2vec-api и получает небольшое обновление для поддержки корейских моделей word2vec.
pip2 install -r requirements.txt
python word2vec-api --model path/to/the/model [--host host --port 1234]
ex) python /home/word2vec-api.py --model /home/model/all_terms_50vectors --path /word2vec --host 0.0.0.0 --port 4000
python doc2vec-api --model path/to/the/model [--host host --port 1234]
ex) python /home/doc2vec-api.py --model /home/model/all_terms_50vectors --path /doc2vec --host 0.0.0.0 --port 4000
curl http://127.0.0.1:5000/word2vec/most_similar?positive=무증