doc2vec api
1.0.0
저장소에는 doc2vec을 사용하여 테스트 문서 벡터를 훈련하고 추론하기 위한 일부 말뭉치(한국어), Python 스크립트가 포함되어 있습니다.
한국어 위키피디아 / mecab pos tokenizer / 태그 정보 없음 / 벡터 30개(dmpv)
한국어 위키피디아 / mecab pos tokenizer / 태그 정보 없음 / 벡터 100개(dmpv)
한국어 위키피디아 / mecab pos tokenizer / 태그 정보 없음 / 벡터 300개(dmpv)
한국어 위키피디아 / mecab pos tokenizer / 태그 정보 없음 / 1000 벡터(dmpv)
한국어 위키피디아 + 파이낸셜 뉴스 / mecab pos tokenizer / 태그 정보 없음 / 벡터 30개(dmpv)
한국어 위키피디아 + 금융 뉴스 / mecab pos 토크나이저 / 태그 정보 없음 / 벡터 100개(dmpv)
워드 임베딩 API를 제공하는 간단한 웹 서비스입니다. 이 방법은 Gensim Word2Vec / Doc2Vec 구현을 기반으로 합니다. 모델은 매개변수로 전달되며 Word2Vec/Doc2Vec 텍스트 또는 바이너리 형식이어야 합니다. 이 web2vec-api 스크립트는 word2vec-api github에서 분기되었으며 한국어 word2vec 모델을 지원하기 위한 사소한 업데이트를 받습니다.
pip2 install -r requirements.txt
python word2vec-api --model path/to/the/model [--host host --port 1234]
ex) python /home/word2vec-api.py --model /home/model/all_terms_50vectors --path /word2vec --host 0.0.0.0 --port 4000
python doc2vec-api --model path/to/the/model [--host host --port 1234]
ex) python /home/doc2vec-api.py --model /home/model/all_terms_50vectors --path /doc2vec --host 0.0.0.0 --port 4000
curl http://127.0.0.1:5000/word2vec/most_similar?positive=무증