Загрузка PsychWordVec - Загрузка исходного кода PsychWordVec

PsychWordVec

AI Исходный код

1.0.0

Скачать

PsychWordVec

Автор

Хань-У-Шуан (Брюс) Бао Бао Хань У Шуан

[email protected]

?psychbruce.github.io

Цитирование

Бао, Х.-В.- PsychWordVec (2022): Структура исследования встраивания слов для психологической науки .
- Примечание . Это исходный формат цитирования. Обратитесь к информации при использовании library( PsychWordVec ) для формата APA-7 установленной версии.
Бао, Х.-В.-С., Ван, З.-Х., Ченг, Х., Су, З., Ян, Ю., Чжан, Г.-Ю., Ван, Б., и Цай, Х. (2023). Использование вложений слов для исследования психологии человека: Методы и приложения , 31 (6), 887–904.
[Бао Хан, У Шуан, Ван Цзыси, Чэн Си , Су Чжань, Ян Ин, Чжан Гуанъяо, Ван Бо, Цай Хуацзянь (2023). (6), 887-904.]

Установка

PsychWordVec") ## Method 2: Install from GitHub install.packages("devtools") devtools::install_github("psychbruce/ PsychWordVec ", force=TRUE)">

 # # Method 1: Install from CRAN
install.packages( " PsychWordVec " )

# # Method 2: Install from GitHub
install.packages( " devtools " )
devtools :: install_github( " psychbruce/ PsychWordVec " , force = TRUE )

Типы данных для `PsychWordVec`

	`embed`	`wordvec`
Базовый класс	матрица	данные.таблица
Размер строки	размер словарного запаса	размер словарного запаса
Размер столбца	Размер размера	2 (переменные: `word` , `vec` )
Преимущество	быстрее (при работе с матрицей)	легче проверять и управлять
Функция для получения	`as_embed()`	`as_wordvec()`
Функция для загрузки	`load_embed()`	`load_wordvec()`

: Примечание. Встраивание слов — это метод обработки естественного языка, который встраивает семантику слова в низкоразмерную матрицу внедрения , при этом каждое слово (на самом деле токен) выражается количественно как числовой вектор , представляющий его (неинтерпретируемые) семантические характеристики. Пользователям предлагается импортировать слово. данные векторов в качестве класса embed с помощью функции load_embed() , которая автоматически нормализует все векторы слов до единичной длины 1 (см. функцию normalize() ) и ускоряет выполнение большинство функций в PsychWordVec .

Функции в `PsychWordVec`

Управление и преобразование данных Word Embeddings
- as_embed() : из wordvec (data.table) в embed (матрица)
- as_wordvec() : от embed (матрицы) до wordvec (data.table)
- load_embed() : загрузить данные встраивания слов как embed (матрицу)
- load_wordvec() : загрузить данные встраивания слов как wordvec (data.table)
- data_transform() : преобразует векторы слов простого текста в wordvec или embed
Извлечение векторов слов, линейная операция и визуализация
- subset() : извлечь подмножество wordvec и embed
- normalize() : нормализовать все векторы слов до единичной длины 1
- get_wordvec() : извлечение векторов слов
- sum_wordvec() : вычислить вектор суммы нескольких слов.
- plot_wordvec() : визуализировать векторы слов
- plot_wordvec_tSNE() : 2D или 3D визуализация с t-SNE
- orth_procrustes() : Ортогональное выравнивание матрицы Прокруста.
Анализ семантического сходства слов, сетевой анализ и тест ассоциаций
- cosine_similarity() : cos_sim() или cos_dist()
- pair_similarity() : вычисляет матрицу сходства пар слов.
- plot_similarity() : визуализирует сходство пар слов.
- tab_similarity() : свести в таблицу сходства пар слов.
- most_similar() : найти топ-N наиболее похожих слов.
- plot_network() : визуализировать сетевой график слов (частичная корреляция)
- test_WEAT() : WEAT и SC-WEAT с критерием значимости перестановки.
- test_RND() : RND с критерием значимости перестановки
Словарь автоматического расширения и анализа надежности
- dict_expand() : расширить словарь из наиболее похожих слов.
- dict_reliability() : анализ надежности и PCA словаря
Локальное обучение встраиванию статических слов (Word2Vec, GloVe и FastText)
- tokenize() : токенизировать необработанный текст
- train_wordvec() : обучает встраиванию статических слов
Предварительно обученные языковые модели (PLM) и контекстуализированные встраивания слов
- text_init() : настройка среды Python для PLM.
- text_model_download() : загрузить PLM из Hugging Face в локальную папку «.cache».
- text_model_remove() : удалить PLM из локальной папки «.cache».
- text_to_vec() : извлечение контекстуализированного токена и встраивания текста
- text_unmask() : <устарело> <пожалуйста, используйте FMAT> заполните пустые маски в запросе