PsychWordVec
1.0.0
Хань-У-Шуан (Брюс) Бао Бао Хань У Шуан
?psychbruce.github.io
library( PsychWordVec )
для формата APA-7 установленной версии. # # Method 1: Install from CRAN
install.packages( " PsychWordVec " )
# # Method 2: Install from GitHub
install.packages( " devtools " )
devtools :: install_github( " psychbruce/ PsychWordVec " , force = TRUE )
PsychWordVec
embed | wordvec | |
---|---|---|
Базовый класс | матрица | данные.таблица |
Размер строки | размер словарного запаса | размер словарного запаса |
Размер столбца | Размер размера | 2 (переменные: word , vec ) |
Преимущество | быстрее (при работе с матрицей) | легче проверять и управлять |
Функция для получения | as_embed() | as_wordvec() |
Функция для загрузки | load_embed() | load_wordvec() |
: Примечание. Встраивание слов — это метод обработки естественного языка, который встраивает семантику слова в низкоразмерную матрицу внедрения , при этом каждое слово (на самом деле токен) выражается количественно как числовой вектор , представляющий его (неинтерпретируемые) семантические характеристики. Пользователям предлагается импортировать слово. данные векторов в качестве класса embed
с помощью функции load_embed()
, которая автоматически нормализует все векторы слов до единичной длины 1 (см. функцию normalize()
) и ускоряет выполнение большинство функций в PsychWordVec
.
PsychWordVec
as_embed()
: из wordvec
(data.table) в embed
(матрица)as_wordvec()
: от embed
(матрицы) до wordvec
(data.table)load_embed()
: загрузить данные встраивания слов как embed
(матрицу)load_wordvec()
: загрузить данные встраивания слов как wordvec
(data.table)data_transform()
: преобразует векторы слов простого текста в wordvec
или embed
subset()
: извлечь подмножество wordvec
и embed
normalize()
: нормализовать все векторы слов до единичной длины 1get_wordvec()
: извлечение векторов словsum_wordvec()
: вычислить вектор суммы нескольких слов.plot_wordvec()
: визуализировать векторы словplot_wordvec_tSNE()
: 2D или 3D визуализация с t-SNEorth_procrustes()
: Ортогональное выравнивание матрицы Прокруста.cosine_similarity()
: cos_sim()
или cos_dist()
pair_similarity()
: вычисляет матрицу сходства пар слов.plot_similarity()
: визуализирует сходство пар слов.tab_similarity()
: свести в таблицу сходства пар слов.most_similar()
: найти топ-N наиболее похожих слов.plot_network()
: визуализировать сетевой график слов (частичная корреляция)test_WEAT()
: WEAT и SC-WEAT с критерием значимости перестановки.test_RND()
: RND с критерием значимости перестановкиdict_expand()
: расширить словарь из наиболее похожих слов.dict_reliability()
: анализ надежности и PCA словаряtokenize()
: токенизировать необработанный текстtrain_wordvec()
: обучает встраиванию статических словtext_init()
: настройка среды Python для PLM.text_model_download()
: загрузить PLM из Hugging Face в локальную папку «.cache».text_model_remove()
: удалить PLM из локальной папки «.cache».text_to_vec()
: извлечение контекстуализированного токена и встраивания текстаtext_unmask()
: <устарело> <пожалуйста, используйте FMAT> заполните пустые маски в запросеСм. документацию (страницы справки) для их использования и подробностей.