PsychWordVec
1.0.0
Han-Wu-Shuang (Bruce) Bao Bao Han Wu Shuang
?psychbruce.github.io
library( PsychWordVec )
untuk format APA-7 dari versi yang Anda instal. # # Method 1: Install from CRAN
install.packages( " PsychWordVec " )
# # Method 2: Install from GitHub
install.packages( " devtools " )
devtools :: install_github( " psychbruce/ PsychWordVec " , force = TRUE )
PsychWordVec
embed | wordvec | |
---|---|---|
Kelas dasar | matriks | data.tabel |
Ukuran baris | ukuran kosakata | ukuran kosakata |
Ukuran kolom | ukuran dimensi | 2 (variabel: word , vec ) |
Keuntungan | lebih cepat (dengan operasi matriks) | lebih mudah untuk diperiksa dan dikelola |
Berfungsi untuk mendapatkan | as_embed() | as_wordvec() |
Berfungsi untuk memuat | load_embed() | load_wordvec() |
: Catatan: Penyematan kata mengacu pada teknik pemrosesan bahasa alami yang menyematkan semantik kata ke dalam matriks penyematan berdimensi rendah, dengan setiap kata (sebenarnya token) dikuantifikasi sebagai vektor numerik yang mewakili fitur semantiknya (yang tidak dapat diinterpretasikan). data vektor sebagai kelas embed
menggunakan fungsi load_embed()
, yang secara otomatis akan menormalkan semua vektor kata ke satuan panjang 1 (lihat fungsi normalize()
) dan mempercepat jalannya sebagian besar fungsi di PsychWordVec
.
PsychWordVec
as_embed()
: dari wordvec
(data.table) ke embed
(matriks)as_wordvec()
: dari embed
(matriks) ke wordvec
(data.table)load_embed()
: memuat data penyematan kata sebagai embed
(matriks)load_wordvec()
: memuat data penyematan kata sebagai wordvec
(data.table)data_transform()
: mengubah vektor kata teks biasa menjadi wordvec
atau embed
subset()
: ekstrak subset wordvec
dan embed
normalize()
: menormalkan semua vektor kata ke satuan panjang 1get_wordvec()
: mengekstrak vektor katasum_wordvec()
: menghitung jumlah vektor beberapa kataplot_wordvec()
: memvisualisasikan vektor kataplot_wordvec_tSNE()
: visualisasi 2D atau 3D dengan t-SNEorth_procrustes()
: Penyelarasan matriks Procrustes ortogonalcosine_similarity()
: cos_sim()
atau cos_dist()
pair_similarity()
: menghitung matriks kesamaan pasangan kataplot_similarity()
: memvisualisasikan kesamaan pasangan katatab_similarity()
: mentabulasi persamaan pasangan katamost_similar()
: temukan Top-N kata yang paling miripplot_network()
: memvisualisasikan grafik jaringan kata (korelasi parsial).test_WEAT()
: WEAT dan SC-WEAT dengan uji signifikansi permutasitest_RND()
: RND dengan uji signifikansi permutasidict_expand()
: memperluas kamus dari kata-kata yang paling miripdict_reliability()
: analisis keandalan dan PCA kamustokenize()
: memberi token pada teks mentahtrain_wordvec()
: melatih penyematan kata statistext_init()
: menyiapkan lingkungan Python untuk PLMtext_model_download()
: unduh PLM dari Hugging Face ke folder ".cache" lokaltext_model_remove()
: menghapus PLM dari folder ".cache" lokaltext_to_vec()
: mengekstrak token kontekstual dan penyematan tekstext_unmask()
: <usang> <silakan gunakan FMAT> isi topeng kosong dalam kueriLihat dokumentasi (halaman bantuan) untuk penggunaan dan detailnya.