unduhan webvectors - unduhan kode sumber webvectors

webvectors

Data situs web

1.0.0

Unduh

vektor web

Webvectors adalah perangkat untuk menyajikan model semantik vektor (khususnya, penyematan kata berbasis prediksi, seperti pada word2vec atau ELMo ) melalui web, sehingga memudahkan untuk mendemonstrasikan kemampuannya kepada masyarakat umum. Ini memerlukan Python >= 3.6, dan menggunakan Flask , Gensim dan simple_elmo di baliknya.

Demo kerja:

https://rusvectores.org (untuk bahasa Rusia)
http://vectors.nlpl.eu/explore/embeddings/ (untuk bahasa Inggris dan Norwegia)

Layanan ini dapat diintegrasikan ke dalam server web Apache sebagai aplikasi WSGI atau dijalankan sebagai server mandiri menggunakan Gunicorn (kami merekomendasikan opsi terakhir).

Petunjuk pemasangan singkat

Kloning repositori git WebVectors ( git clone https://github.com/akutuzov/webvectors.git ) ke dalam direktori yang dapat diakses oleh server web Anda.
Instal Apache untuk integrasi Apache atau Gunicorn untuk server mandiri.
Instal semua persyaratan Python ( pip3 install -r requiremen.txt )
Jika Anda ingin menggunakan penandaan PoS untuk kueri pengguna, instal UDPipe, Stanford CoreNLP, Freeling, atau penanda PoS lain pilihan Anda.
Konfigurasikan file:

Untuk varian instalasi Apache

Tambahkan baris berikut ke file konfigurasi Apache:

WSGIScriptAlias /WEBNAME "PATH/syn.wsgi" , dengan WEBNAME adalah alias untuk layanan Anda yang berhubungan dengan root server (vektor web untuk http://example.com/webvectors ), dan PATH adalah jalur sistem file Anda ke direktori WebVectors .

Untuk semua varian instalasi

Di semua file *.wsgi dan *.py di direktori WebVectors Anda, ganti webvectors.cfg di string config.read('webvectors.cfg') dengan jalur absolut ke file webvectors.cfg .

Siapkan layanan Anda menggunakan file konfigurasi webvectors.cfg . Pengaturan yang paling penting adalah:

`root` - jalur absolut ke direktori _WebVectors_ Anda (**NB: akhiri dengan garis miring!**)
`temp` - jalur absolut ke direktori file sementara Anda
`font` - jalur absolut ke font TTF yang ingin Anda gunakan untuk plot (jika tidak, font sistem default akan digunakan)
`detect_tag` - apakah akan menggunakan penandaan PoS otomatis
`default_search` - URL mesin pencari untuk digunakan pada halaman kata individual (misalnya, https://duckduckgo.com/?q=)

Tag

Model dapat menggunakan tag arbitrer yang ditetapkan ke kata-kata (misalnya, tag part-of-speech, seperti pada boot_NOUN ). Jika model Anda dilatih tentang kata-kata dengan tag, Anda harus mengaktifkannya di webvectors.cfg ( variabel use_tags ). Kemudian, WebVectors akan memungkinkan pengguna memfilter kueri mereka berdasarkan tag. Anda juga harus menentukan daftar tag yang diizinkan (variabel tags_list di webvectors.cfg ) dan daftar tag yang akan ditampilkan kepada pengguna (file tags.tsv ).

Daemon model

WebVectors menggunakan daemon, yang berjalan di latar belakang dan benar-benar memproses semua tugas terkait penyematan. Itu juga dapat dijalankan di mesin lain, jika Anda mau. Jadi, di webvectors.cfg Anda harus menentukan host dan port tempat daemon ini akan mendengarkan. Setelah itu, jalankan skrip daemon sebenarnya word2vec_server.py . Ini akan memuat model dan membuka soket pendengaran. Daemon ini harus aktif secara permanen, jadi Anda mungkin ingin meluncurkannya menggunakan screen atau semacamnya.

Model

Daftar model yang ingin Anda gunakan ditentukan dalam file models.tsv . Ini terdiri dari bidang yang dipisahkan tab:

pengenal model
deskripsi model
jalan menuju model
pengidentifikasi nama model yang dilokalkan
apakah modelnya default atau tidak
apakah model berisi tag PoS
algoritma pelatihan model (word2vec/fastText/etc)
ukuran korpus pelatihan dalam kata-kata
bahasa model

Pengidentifikasi model akan digunakan sebagai nama untuk kotak centang di halaman web, dan penting juga bahwa dalam file strings.csv , pengidentifikasi yang sama digunakan saat menunjukkan nama model. Bahasa model digunakan sebagai argumen yang diteruskan ke fungsi lemmatizer, berupa string sederhana dengan nama bahasa (mis. "Inggris", "Rusia", "Perancis").

Model saat ini dapat dalam 4 format:

model teks biasa _word2vec_ (diakhiri dengan `.vec`);
model biner _word2vec_ (diakhiri dengan `.bin`);
Format Gensim _word2vec_ models (diakhiri dengan `.model`);
Format Gensim _fastText_ model (diakhiri dengan `.model`).

WebVectors akan secara otomatis mendeteksi format model dan memuat semuanya ke dalam memori. Pengguna akan dapat memilih di antara model yang dimuat.

Lokalisasi

WebVectors menggunakan file strings.csv sebagai sumber string yang dilokalkan. Ini adalah file yang dipisahkan koma dengan 3 bidang:

pengidentifikasi
string dalam bahasa 1
string dalam bahasa 2

Secara default, bahasa 1 adalah bahasa Inggris dan bahasa 2 adalah bahasa Rusia. Ini dapat diubah di webvectors.cfg .

Templat

Halaman web sebenarnya yang ditampilkan kepada pengguna ditentukan dalam file templates/*.html . Sesuaikan sesuai keinginan Anda. Menu utama didefinisikan di base.html .

File statistik

Jika aplikasi Anda tidak menemukan file statis (skrip bootstrap dan js), edit variabel static_url_path di run_syn.py . Anda harus meletakkan jalur absolut ke folder data di sana.

Petunjuk kueri

Jika Anda ingin petunjuk kueri berfungsi, jangan lupa untuk menyusun daftar petunjuk Anda sendiri (format JSON). Contoh daftar tersebut diberikan di data/example_vocab.json . URL sebenarnya dari daftar ini harus dinyatakan dalam data/hint.js .

Menjalankan WebVektor

Setelah Anda memodifikasi semua pengaturan sesuai dengan alur kerja Anda, memastikan templatnya sesuai untuk Anda, dan meluncurkan daemon model, Anda siap untuk benar-benar memulai layanan. Jika Anda menggunakan integrasi Apache , cukup restart/muat ulang Apache . Jika Anda lebih memilih opsi mandiri, jalankan perintah berikut di direktori root proyek:

gunicorn run_syn:app_syn -b address:port

di mana alamat adalah alamat tempat layanan harus aktif (bisa berupa localhost), dan port adalah port untuk mendengarkan (misalnya, 9999).

Dukungan untuk penyematan kontekstual Anda dapat mengaktifkan dukungan untuk model penyematan kontekstual (saat ini ELMo didukung). Untuk melakukan itu:

Instal paket simple_elmo
Unduh model ELMo pilihan Anda (misalnya, di sini).
Buat proyeksi berbasis tipe dalam format word2vec untuk kumpulan kata terbatas (misalnya 10.000), dengan mempertimbangkan model ELMo dan korpus referensi. Untuk ini, gunakan skrip extract_elmo.py yang kami sediakan:

python3 extract_elmo.py --input CORPUS --elmo PATH_TO_ELMO --outfile TYPE_EMBEDDING_FILE --vocab WORD_SET_FILE

Ini akan menjalankan model ELMo pada korpus yang disediakan dan menghasilkan penyematan tipe rata-rata statis untuk setiap kata dalam kumpulan kata. Mereka akan digunakan sebagai pengganti leksikal.

Siapkan kamus frekuensi untuk digunakan dengan visualisasi kontekstual, sebagai file teks biasa yang dipisahkan tab, dengan kolom pertama berisi kata-kata dan kolom kedua berisi frekuensinya dalam kamus referensi pilihan Anda. Baris pertama file ini harus berisi satu bilangan bulat yang cocok dengan ukuran korpus dalam token kata.
Di bagian [Token] pada file konfigurasi webvectors.cfg , alihkan use_contextualized ke True dan nyatakan jalur ke token_model Anda (ELMo terlatih), type_model (proyeksi berbasis tipe yang Anda buat dengan skrip kami) dan freq_file yang merupakan milik Anda kamus frekuensi.
Di bidang ref_static_model , tentukan salah satu model penyematan kata statis Anda (hanya namanya), yang ingin Anda gunakan sebagai target hyperlink dari kata-kata di halaman visualisasi kontekstual.
Halaman dengan pengganti leksikal ELMo akan tersedia di http://YOUR_ROOT_URL/contextual/

Kontak

Jika ada masalah, jangan ragu untuk menghubungi kami:

[email protected] (Andrey Kutuzov)
[email protected] (Elizaveta Kuzmenko)

Referensi

http://www.aclweb.org/anthology/E17-3025
http://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf
http://flask.pocoo.org/
http://radimrehurek.com/gensim/
http://gunicorn.org/

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Data situs web
Waktu Pembaruan 2024-12-27
ukuran 589.65KB
Berasal dari Github

Aplikasi Terkait

aurelia

2025-01-06
mediathekviewweb

2025-01-06
doodle

2025-01-06
Web3wiki Website

2024-12-23
PDFWebSite

2024-12-23
Situs web kesehatan lengkap (dengan 150.000 data)

2009-05-23

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
aurelia

Data situs web

1.0.0
mediathekviewweb

Data situs web

1.0.0
doodle

Data situs web

0.10.4
waymo open dataset

Kode sumber lainnya

December 2023 Update
termwind

Kategori lainnya

v2.3.0
wp functions

Kategori lainnya

1.0.0

Informasi Terkait Semua