Descargar PsychWordVec - Descarga del código fuente PsychWordVec

PsychWordVec

Código Fuente de IA

1.0.0

Descargar

PsychWordVec

Autor

Han-Wu-Shuang (Bruce) Bao Bao Han Wu Shuang

[email protected]

?psychbruce.github.io

Citación

Bao, H.-W.-S (2022). PsychWordVec : marco de investigación de incorporación de palabras para la ciencia psicológica .
- Nota : Este es el formato de cita original. Consulte la información cuando library( PsychWordVec ) para conocer el formato APA-7 de su versión instalada.
Bao, H.-W.-S., Wang, Z.-X., Cheng, X., Su, Z., Yang, Y., Zhang, G.-Y., Wang, B. y Cai, H. (2023). Uso de incrustaciones de palabras para investigar la psicología humana: métodos y aplicaciones. Avances en la ciencia psicológica, 31 (6), 887--904.
[Bao Han, Wu Shuang, Wang Zixi, Cheng Xi, Su Zhan , Yang Ying, Zhang Guangyao, Wang Bo, Cai Huajian (2023). (6), 887--904.]

Instalación

PsychWordVec") ## Method 2: Install from GitHub install.packages("devtools") devtools::install_github("psychbruce/ PsychWordVec ", force=TRUE)">

 # # Method 1: Install from CRAN
install.packages( " PsychWordVec " )

# # Method 2: Install from GitHub
install.packages( " devtools " )
devtools :: install_github( " psychbruce/ PsychWordVec " , force = TRUE )

Tipos de datos para `PsychWordVec`

	`embed`	`wordvec`
clase basica	matriz	tabla.de.datos
Tamaño de fila	tamaño del vocabulario	tamaño del vocabulario
Tamaño de columna	tamaño de dimensión	2 (variables: `word` , `vec` )
Ventaja	más rápido (con operación matricial)	más fácil de inspeccionar y gestionar
Función para obtener	`as_embed()`	`as_wordvec()`
Función para cargar	`load_embed()`	`load_wordvec()`

: Nota: La incrustación de palabras se refiere a una técnica de procesamiento del lenguaje natural que incrusta la semántica de las palabras en una matriz de incrustación de baja dimensión, con cada palabra (en realidad, un token) cuantificada como un vector numérico que representa sus características semánticas (no interpretables). Se sugiere a los usuarios importar palabras. datos de vectores como la clase embed usando la función load_embed() , que normalizaría automáticamente todos los vectores de palabras a la unidad de longitud 1 (consulte la función normalize() ) y aceleraría la ejecución de la mayoría de las funciones en PsychWordVec .

Funciones en `PsychWordVec`

Gestión y transformación de datos de Word Embeddings
- as_embed() : de wordvec (data.table) a embed (matriz)
- as_wordvec() : de embed (matriz) a wordvec (data.table)
- load_embed() : carga datos de incrustaciones de palabras como embed (matriz)
- load_wordvec() : carga datos de incrustaciones de palabras como wordvec (data.table)
- data_transform() : transforma vectores de palabras de texto plano a wordvec o embed
Extracción, operación lineal y visualización de vectores de palabras
- subset() : extrae un subconjunto de wordvec e embed
- normalize() : normaliza todos los vectores de palabras a la unidad de longitud 1
- get_wordvec() : extrae vectores de palabras
- sum_wordvec() : calcula el vector suma de varias palabras
- plot_wordvec() : visualizar vectores de palabras
- plot_wordvec_tSNE() : visualización 2D o 3D con t-SNE
- orth_procrustes() : Alineación de la matriz ortogonal de Procrustes
Análisis de similitud semántica de palabras, análisis de red y prueba de asociación
- cosine_similarity() : cos_sim() o cos_dist()
- pair_similarity() : calcula una matriz de similitud de pares de palabras
- plot_similarity() : visualiza similitudes de pares de palabras
- tab_similarity() : tabula similitudes de pares de palabras
- most_similar() : encuentra las N palabras más similares
- plot_network() : visualiza un gráfico de red (correlación parcial) de palabras
- test_WEAT() : WEAT y SC-WEAT con prueba de permutación de significancia
- test_RND() : RND con prueba de permutación de significancia
Diccionario de expansión automática y análisis de confiabilidad
- dict_expand() : expande un diccionario a partir de las palabras más similares
- dict_reliability() : análisis de confiabilidad y PCA de un diccionario
Capacitación local de incrustaciones de palabras estáticas (Word2Vec, GloVe y FastText)
- tokenize() : tokenizar texto sin formato
- train_wordvec() : entrenar incrustaciones de palabras estáticas
Modelos de lenguaje previamente entrenados (PLM) e incrustaciones de palabras contextualizadas
- text_init() : configura un entorno Python para PLM
- text_model_download() : descarga PLM de Hugging Face a la carpeta local ".cache"
- text_model_remove() : elimina los PLM de la carpeta local ".cache"
- text_to_vec() : extrae tokens contextualizados e incrustaciones de texto
- text_unmask() : <obsoleto> <por favor use FMAT> complete las máscaras en blanco en una consulta