PsychWordVec
1.0.0
ฮั่นอู่ซวง (บรูซ) เปาเปา ฮันอู๋ซวง
?psychbruce.github.io
library( PsychWordVec )
สำหรับรูปแบบ APA-7 ของเวอร์ชันที่คุณติดตั้ง # # Method 1: Install from CRAN
install.packages( " PsychWordVec " )
# # Method 2: Install from GitHub
install.packages( " devtools " )
devtools :: install_github( " psychbruce/ PsychWordVec " , force = TRUE )
PsychWordVec
embed | wordvec | |
---|---|---|
ชั้นเรียนขั้นพื้นฐาน | เมทริกซ์ | ข้อมูล.ตาราง |
ขนาดแถว | ขนาดคำศัพท์ | ขนาดคำศัพท์ |
ขนาดคอลัมน์ | ขนาดมิติ | 2 (ตัวแปร: word , vec ) |
ข้อได้เปรียบ | เร็วขึ้น (ด้วยการทำงานของเมทริกซ์) | ตรวจสอบและจัดการได้ง่ายขึ้น |
ฟังก์ชั่นที่จะได้รับ | as_embed() | as_wordvec() |
ฟังก์ชั่นในการโหลด | load_embed() | load_wordvec() |
: หมายเหตุ: การฝังคำหมายถึงเทคนิคการประมวลผลภาษาธรรมชาติที่ฝังความหมายของคำลงใน เมทริกซ์การฝังมิติ ต่ำ โดยแต่ละคำ (จริงๆ แล้วโทเค็น) จะถูกระบุปริมาณเป็น เวกเตอร์ตัวเลข ที่แสดงถึงคุณลักษณะทางความหมาย (ไม่สามารถตีความได้) ข้อมูลเวกเตอร์เป็นคลาส embed
โดยใช้ฟังก์ชัน load_embed()
ซึ่งจะปรับเวกเตอร์คำทั้งหมดให้เป็นมาตรฐานโดยอัตโนมัติตามความยาวหน่วย 1 (ดูฟังก์ชัน normalize()
) และเร่งการทำงานของ ฟังก์ชั่นส่วนใหญ่ใน PsychWordVec
.
PsychWordVec
as_embed()
: จาก wordvec
(data.table) ถึง embed
(เมทริกซ์)as_wordvec()
: จาก embed
(เมทริกซ์) ถึง wordvec
(data.table)load_embed()
: โหลดข้อมูลการฝังคำเป็นแบบ embed
(เมทริกซ์)load_wordvec()
: โหลดข้อมูลการฝังคำเป็น wordvec
(data.table)data_transform()
: แปลงเวกเตอร์คำข้อความธรรมดาเป็น wordvec
หรือ embed
subset()
: แยกชุดย่อยของ wordvec
และ embed
normalize()
: ทำให้เวกเตอร์คำทั้งหมดเป็นมาตรฐานตามความยาวหน่วย 1get_wordvec()
: แยกเวกเตอร์คำsum_wordvec()
: คำนวณเวกเตอร์ผลรวมของคำหลายคำplot_wordvec()
: แสดงภาพเวกเตอร์คำplot_wordvec_tSNE()
: การสร้างภาพ 2D หรือ 3D ด้วย t-SNEorth_procrustes()
: การจัดตำแหน่งเมทริกซ์ Orthogonal Procrustescosine_similarity()
: cos_sim()
หรือ cos_dist()
pair_similarity()
: คำนวณเมทริกซ์ความคล้ายคลึงของคู่คำplot_similarity()
: แสดงภาพความคล้ายคลึงกันของคู่คำtab_similarity()
: จัดตารางความคล้ายคลึงกันของคู่คำmost_similar()
: ค้นหาคำที่มี Top-N คล้ายกันมากที่สุดplot_network()
: แสดงภาพกราฟเครือข่ายของคำ (ความสัมพันธ์บางส่วน)test_WEAT()
: WEAT และ SC-WEAT พร้อมการทดสอบการเรียงสับเปลี่ยนนัยสำคัญtest_RND()
: RND พร้อมการทดสอบการเรียงสับเปลี่ยนนัยสำคัญdict_expand()
: ขยายพจนานุกรมจากคำที่คล้ายกันมากที่สุดdict_reliability()
: การวิเคราะห์ความน่าเชื่อถือและ PCA ของพจนานุกรมtokenize()
: tokenize ข้อความดิบtrain_wordvec()
: ฝึกการฝังคำแบบคงที่text_init()
: ตั้งค่าสภาพแวดล้อม Python สำหรับ PLMtext_model_download()
: ดาวน์โหลด PLM จาก Hugging Face ไปยังโฟลเดอร์ ".cache" ในเครื่องtext_model_remove()
: ลบ PLM ออกจากโฟลเดอร์ ".cache" ในเครื่องtext_to_vec()
: แยกโทเค็นตามบริบทและการฝังข้อความtext_unmask()
: <deprecated> <please use FMAT> กรอกมาสก์ว่างในแบบสอบถามดูเอกสารประกอบ (หน้าช่วยเหลือ) สำหรับการใช้งานและรายละเอียด