Le référentiel contient des scripts Python de corpus (coréen) pour la formation et la déduction de vecteurs de documents de test à l'aide de doc2vec.
Wikipédia coréen / mecab pos tokenizer / aucune information sur les balises / 30 vecteurs (dmpv)
Wikipédia coréen / mecab pos tokenizer / aucune information sur les balises / 100 vecteurs (dmpv)
Wikipédia coréen / mecab pos tokenizer / aucune information sur les balises / 300 vecteurs (dmpv)
Wikipédia coréen / mecab pos tokenizer / aucune information sur les balises / 1000 vecteurs (dmpv)
Wikipédia coréen + actualités financières / mecab pos tokenizer / aucune information sur les balises / 30 vecteurs (dmpv)
Wikipédia coréen + actualités financières / mecab pos tokenizer / aucune information sur les balises / 100 vecteurs (dmpv)
Service Web simple fournissant une API d'intégration de mots. Les méthodes sont basées sur l'implémentation de Gensim Word2Vec/Doc2Vec. Les modèles sont passés en paramètres et doivent être au format texte ou binaire Word2Vec / Doc2Vec. Ce script web2vec-api est dérivé de ce github word2vec-api et bénéficie d'une mise à jour mineure pour prendre en charge les modèles word2vec coréens.
pip2 install -r requirements.txt
python word2vec-api --model path/to/the/model [--host host --port 1234]
ex) python /home/word2vec-api.py --model /home/model/all_terms_50vectors --path /word2vec --host 0.0.0.0 --port 4000
python doc2vec-api --model path/to/the/model [--host host --port 1234]
ex) python /home/doc2vec-api.py --model /home/model/all_terms_50vectors --path /doc2vec --host 0.0.0.0 --port 4000
curl http://127.0.0.1:5000/word2vec/most_similar?positive=무증