Unduhan PsychWordVec - Unduhan kode sumber PsychWordVec

PsychWordVec

Kode Sumber AI

1.0.0

Unduh

PsychWordVec

Pengarang

Han-Wu-Shuang (Bruce) Bao Bao Han Wu Shuang

[email protected]

?psychbruce.github.io

Kutipan

Bao, H.-W.-S. (2022). PsychWordVec : Kerangka penelitian penyematan kata untuk ilmu psikologi
- Catatan : Ini adalah format kutipan asli. Silakan merujuk ke informasi saat Anda library( PsychWordVec ) untuk format APA-7 dari versi yang Anda instal.
Bao, H.-W.-S., Wang, Z.-X., Cheng, X., Su, Z., Yang, Y., Zhang, G.-Y., Wang, B., & Cai, H. (2023). Menggunakan penyematan kata untuk menyelidiki psikologi manusia: Metode dan aplikasi.
[Bao Han, Wu Shuang, Wang Zixi, Cheng Xi, Su Zhan , Yang Ying, Zhang Guangyao, Wang Bo, Cai Huajian (2023). (6) , 887--904.]

Instalasi

PsychWordVec") ## Method 2: Install from GitHub install.packages("devtools") devtools::install_github("psychbruce/ PsychWordVec ", force=TRUE)">

 # # Method 1: Install from CRAN
install.packages( " PsychWordVec " )

# # Method 2: Install from GitHub
install.packages( " devtools " )
devtools :: install_github( " psychbruce/ PsychWordVec " , force = TRUE )

Jenis Data untuk `PsychWordVec`

	`embed`	`wordvec`
Kelas dasar	matriks	data.tabel
Ukuran baris	ukuran kosakata	ukuran kosakata
Ukuran kolom	ukuran dimensi	2 (variabel: `word` , `vec` )
Keuntungan	lebih cepat (dengan operasi matriks)	lebih mudah untuk diperiksa dan dikelola
Berfungsi untuk mendapatkan	`as_embed()`	`as_wordvec()`
Berfungsi untuk memuat	`load_embed()`	`load_wordvec()`

: Catatan: Penyematan kata mengacu pada teknik pemrosesan bahasa alami yang menyematkan semantik kata ke dalam matriks penyematan berdimensi rendah, dengan setiap kata (sebenarnya token) dikuantifikasi sebagai vektor numerik yang mewakili fitur semantiknya (yang tidak dapat diinterpretasikan). data vektor sebagai kelas embed menggunakan fungsi load_embed() , yang secara otomatis akan menormalkan semua vektor kata ke satuan panjang 1 (lihat fungsi normalize() ) dan mempercepat jalannya sebagian besar fungsi di PsychWordVec .

Fungsi di `PsychWordVec`

Manajemen dan Transformasi Data Word Embeddings
- as_embed() : dari wordvec (data.table) ke embed (matriks)
- as_wordvec() : dari embed (matriks) ke wordvec (data.table)
- load_embed() : memuat data penyematan kata sebagai embed (matriks)
- load_wordvec() : memuat data penyematan kata sebagai wordvec (data.table)
- data_transform() : mengubah vektor kata teks biasa menjadi wordvec atau embed
Ekstraksi Vektor Kata, Operasi Linier, dan Visualisasi
- subset() : ekstrak subset wordvec dan embed
- normalize() : menormalkan semua vektor kata ke satuan panjang 1
- get_wordvec() : mengekstrak vektor kata
- sum_wordvec() : menghitung jumlah vektor beberapa kata
- plot_wordvec() : memvisualisasikan vektor kata
- plot_wordvec_tSNE() : visualisasi 2D atau 3D dengan t-SNE
- orth_procrustes() : Penyelarasan matriks Procrustes ortogonal
Analisis Kemiripan Semantik Kata, Analisis Jaringan, dan Uji Asosiasi
- cosine_similarity() : cos_sim() atau cos_dist()
- pair_similarity() : menghitung matriks kesamaan pasangan kata
- plot_similarity() : memvisualisasikan kesamaan pasangan kata
- tab_similarity() : mentabulasi persamaan pasangan kata
- most_similar() : temukan Top-N kata yang paling mirip
- plot_network() : memvisualisasikan grafik jaringan kata (korelasi parsial).
- test_WEAT() : WEAT dan SC-WEAT dengan uji signifikansi permutasi
- test_RND() : RND dengan uji signifikansi permutasi
Kamus Analisis Ekspansi dan Keandalan Otomatis
- dict_expand() : memperluas kamus dari kata-kata yang paling mirip
- dict_reliability() : analisis keandalan dan PCA kamus
Pelatihan Lokal Penyematan Kata Statis (Word2Vec, GloVe, dan FastText)
- tokenize() : memberi token pada teks mentah
- train_wordvec() : melatih penyematan kata statis
Model Bahasa Terlatih (PLM) dan Penyematan Kata Kontekstual
- text_init() : menyiapkan lingkungan Python untuk PLM
- text_model_download() : unduh PLM dari Hugging Face ke folder ".cache" lokal
- text_model_remove() : menghapus PLM dari folder ".cache" lokal
- text_to_vec() : mengekstrak token kontekstual dan penyematan teks
- text_unmask() : <usang> <silakan gunakan FMAT> isi topeng kosong dalam kueri