Han-Wu-Shuang (Bruce) Bao Bao Han Wu Shuang
?psychbruce.github.io
library( PsychWordVec )
para conocer el formato APA-7 de su versión instalada. # # Method 1: Install from CRAN
install.packages( " PsychWordVec " )
# # Method 2: Install from GitHub
install.packages( " devtools " )
devtools :: install_github( " psychbruce/ PsychWordVec " , force = TRUE )
PsychWordVec
embed | wordvec | |
---|---|---|
clase basica | matriz | tabla.de.datos |
Tamaño de fila | tamaño del vocabulario | tamaño del vocabulario |
Tamaño de columna | tamaño de dimensión | 2 (variables: word , vec ) |
Ventaja | más rápido (con operación matricial) | más fácil de inspeccionar y gestionar |
Función para obtener | as_embed() | as_wordvec() |
Función para cargar | load_embed() | load_wordvec() |
: Nota: La incrustación de palabras se refiere a una técnica de procesamiento del lenguaje natural que incrusta la semántica de las palabras en una matriz de incrustación de baja dimensión, con cada palabra (en realidad, un token) cuantificada como un vector numérico que representa sus características semánticas (no interpretables). Se sugiere a los usuarios importar palabras. datos de vectores como la clase embed
usando la función load_embed()
, que normalizaría automáticamente todos los vectores de palabras a la unidad de longitud 1 (consulte la función normalize()
) y aceleraría la ejecución de la mayoría de las funciones en PsychWordVec
.
PsychWordVec
as_embed()
: de wordvec
(data.table) a embed
(matriz)as_wordvec()
: de embed
(matriz) a wordvec
(data.table)load_embed()
: carga datos de incrustaciones de palabras como embed
(matriz)load_wordvec()
: carga datos de incrustaciones de palabras como wordvec
(data.table)data_transform()
: transforma vectores de palabras de texto plano a wordvec
o embed
subset()
: extrae un subconjunto de wordvec
e embed
normalize()
: normaliza todos los vectores de palabras a la unidad de longitud 1get_wordvec()
: extrae vectores de palabrassum_wordvec()
: calcula el vector suma de varias palabrasplot_wordvec()
: visualizar vectores de palabrasplot_wordvec_tSNE()
: visualización 2D o 3D con t-SNEorth_procrustes()
: Alineación de la matriz ortogonal de Procrustescosine_similarity()
: cos_sim()
o cos_dist()
pair_similarity()
: calcula una matriz de similitud de pares de palabrasplot_similarity()
: visualiza similitudes de pares de palabrastab_similarity()
: tabula similitudes de pares de palabrasmost_similar()
: encuentra las N palabras más similaresplot_network()
: visualiza un gráfico de red (correlación parcial) de palabrastest_WEAT()
: WEAT y SC-WEAT con prueba de permutación de significanciatest_RND()
: RND con prueba de permutación de significanciadict_expand()
: expande un diccionario a partir de las palabras más similaresdict_reliability()
: análisis de confiabilidad y PCA de un diccionariotokenize()
: tokenizar texto sin formatotrain_wordvec()
: entrenar incrustaciones de palabras estáticastext_init()
: configura un entorno Python para PLMtext_model_download()
: descarga PLM de Hugging Face a la carpeta local ".cache"text_model_remove()
: elimina los PLM de la carpeta local ".cache"text_to_vec()
: extrae tokens contextualizados e incrustaciones de textotext_unmask()
: <obsoleto> <por favor use FMAT> complete las máscaras en blanco en una consultaConsulte la documentación (páginas de ayuda) para conocer su uso y detalles.