يحتوي المستودع على بعض النصوص البرمجية (الكورية) والبايثون للتدريب واستنتاج متجهات مستند الاختبار باستخدام doc2vec.
ويكيبيديا الكورية / mecab pos tokenizer / لا توجد معلومات عن العلامات / 30 متجهًا (dmpv)
ويكيبيديا الكورية / mecab pos tokenizer / بدون معلومات العلامة / 100 ناقل (dmpv)
ويكيبيديا الكورية / mecab pos tokenizer / بدون معلومات العلامة / 300 متجه (dmpv)
ويكيبيديا الكورية / mecab pos tokenizer / بدون معلومات العلامة / 1000 ناقل (dmpv)
ويكيبيديا الكورية + الأخبار المالية / mecab pos tokenizer / لا توجد معلومات عن العلامات / 30 متجهًا (dmpv)
ويكيبيديا الكورية + الأخبار المالية / mecab pos tokenizer / لا توجد معلومات عن العلامات / 100 ناقل (dmpv)
خدمة ويب بسيطة توفر واجهة برمجة تطبيقات لتضمين الكلمات. تعتمد الأساليب على تطبيق Gensim Word2Vec/Doc2Vec. يتم تمرير النماذج كمعلمات ويجب أن تكون بالنص Word2Vec / Doc2Vec أو بالتنسيق الثنائي. تم تشعب البرنامج النصي web2vec-api هذا من word2vec-api github والحصول على تحديث بسيط لدعم نماذج word2vec الكورية.
pip2 install -r requirements.txt
python word2vec-api --model path/to/the/model [--host host --port 1234]
ex) python /home/word2vec-api.py --model /home/model/all_terms_50vectors --path /word2vec --host 0.0.0.0 --port 4000
python doc2vec-api --model path/to/the/model [--host host --port 1234]
ex) python /home/doc2vec-api.py --model /home/model/all_terms_50vectors --path /doc2vec --host 0.0.0.0 --port 4000
curl http://127.0.0.1:5000/word2vec/most_similar?positive=무증