Repositori berisi beberapa korpus (Korea), skrip python untuk pelatihan dan menyimpulkan vektor dokumen uji menggunakan doc2vec.
Wikipedia bahasa Korea / mecab pos tokenizer / tanpa info tag / 30 vektor(dmpv)
Wikipedia bahasa Korea / mecab pos tokenizer / tanpa info tag / 100 vektor(dmpv)
Wikipedia bahasa Korea / mecab pos tokenizer / tanpa info tag / 300 vektor(dmpv)
Wikipedia bahasa Korea / mecab pos tokenizer / tanpa info tag / 1000 vektor (dmpv)
Wikipedia bahasa Korea + berita keuangan / mecab pos tokenizer / tanpa info tag / 30 vektor(dmpv)
Wikipedia bahasa Korea + berita keuangan / mecab pos tokenizer / tanpa info tag / 100 vektor(dmpv)
Layanan web sederhana yang menyediakan API penyematan kata. Metode ini didasarkan pada implementasi Gensim Word2Vec/Doc2Vec. Model diteruskan sebagai parameter dan harus dalam format teks atau biner Word2Vec / Doc2Vec. Skrip web2vec-api ini bercabang dari github word2vec-api ini dan mendapatkan sedikit pembaruan untuk mendukung model word2vec Korea.
pip2 install -r requirements.txt
python word2vec-api --model path/to/the/model [--host host --port 1234]
ex) python /home/word2vec-api.py --model /home/model/all_terms_50vectors --path /word2vec --host 0.0.0.0 --port 4000
python doc2vec-api --model path/to/the/model [--host host --port 1234]
ex) python /home/doc2vec-api.py --model /home/model/all_terms_50vectors --path /doc2vec --host 0.0.0.0 --port 4000
curl http://127.0.0.1:5000/word2vec/most_similar?positive=무증