Sinonim Bahasa Mandarin untuk Pemrosesan dan Pemahaman Bahasa Alami.
Sinonim bahasa Mandarin yang lebih baik: chatbot, perangkat tanya jawab yang cerdas.
synonyms
dapat digunakan untuk banyak tugas dalam pemahaman bahasa alami: perataan teks, algoritma rekomendasi, penghitungan kesamaan, offset semantik, ekstraksi kata kunci, ekstraksi konsep, peringkasan otomatis, mesin pencari, dll.
Untuk menyediakan layanan yang stabil, andal, dan dioptimalkan dalam jangka panjang, Sinonim diubah untuk menggunakan lisensi Chunsong, v1.0 dan biaya untuk mengunduh model pembelajaran mesin, lihat penyimpanan sertifikat untuk detailnya. Kontributor sebelumnya (kontributor kode dengan kontribusi luar biasa) dapat menghubungi kami untuk mendiskusikan masalah penagihan. -- Chatopera Inc. @ Oktober 2023
Ikuti langkah-langkah di bawah ini untuk menginstal dan mengaktifkan paket.
pip install -U synonyms
Versi stabil saat ini adalah v3.x.
Paket model pembelajaran mesin Synonyms memerlukan Lisensi dari Chatopera License Store, pertama-tama beli Lisensi dan dapatkan license id
dari halaman Lisensi di Chatopera License Store( license id
: Di penyimpanan sertifikat, pada halaman detail sertifikat, klik [Salin Identitas Sertifikat] ).
Kedua, atur variabel lingkungan di terminal atau skrip shell Anda seperti di bawah ini.
misal Shell, Script CMD di Linux, Windows, macOS.
# Linux / macOS
export SYNONYMS_DL_LICENSE=YOUR_LICENSE
# # e.g. if your license id is `FOOBAR`, run `export SYNONYMS_DL_LICENSE=FOOBAR`
# Windows
# # 1/2 Command Prompt
set SYNONYMS_DL_LICENSE=YOUR_LICENSE
# # 2/2 PowerShell
$env :SYNONYMS_DL_LICENSE= ' YOUR_LICENSE '
Buku Catatan Jupyter, dll.
import os
os . environ [ "SYNONYMS_DL_LICENSE" ] = "YOUR_LICENSE"
_licenseid = os . environ . get ( "SYNONYMS_DL_LICENSE" , None )
print ( "SYNONYMS_DL_LICENSE=" , _licenseid )
Tip: File vektor kata akan diunduh pertama kali setelah instalasi, dan kecepatan unduh bergantung pada kondisi jaringan.
Terakhir, unduh paket model dengan perintah atau skrip -
python -c " import synonyms; synonyms.display('能量') " # download word vectors file
Mendukung penggunaan variabel lingkungan untuk mengonfigurasi kosakata segmentasi kata dan file vektor kata word2vec.
variabel lingkungan | menggambarkan |
---|---|
SYNONYMS_WORD2VEC_BIN_MODEL_ZH_CN | File vektor kata dilatih menggunakan word2vec, format biner. |
SYNONYMS_WORDSEG_DICT | Kamus master segmentasi kata Cina, format dan referensi penggunaan |
SINONIM_DEBUG | ["TRUE"|"FALSE"], apakah akan mengeluarkan log debug, disetel ke keluaran "TRUE", defaultnya adalah "FALSE" |
import synonyms
print ( "人脸: " , synonyms . nearby ( "人脸" ))
print ( "识别: " , synonyms . nearby ( "识别" ))
print ( "NOT_EXIST: " , synonyms . nearby ( "NOT_EXIST" ))
synonyms.nearby(WORD [,SIZE])
mengembalikan tuple. Tuple berisi dua item: ([nearby_words], [nearby_words_score])
. nearby_words
adalah sinonim dari WORD jarak. Panjangnya disusun dari dekat ke jauh, nearby_words_score
adalah skor jarak antar kata pada posisi yang sesuai di nearby_words
. Skor berada pada interval (0-1). Semakin mendekati 1, semakin dekat SIZE
jumlah kata yang dikembalikan, dan standarnya adalah 10. Misalnya:
synonyms . nearby (人脸, 10 ) = (
[ "图片" , "图像" , "通过观察" , "数字图像" , "几何图形" , "脸部" , "图象" , "放大镜" , "面孔" , "Mii" ],
[ 0.597284 , 0.580373 , 0.568486 , 0.535674 , 0.531835 , 0.530
095 , 0.525344 , 0.524009 , 0.523101 , 0.516046 ])
Dalam kasus OOV, ([], [])
dikembalikan, ukuran kamus saat ini: 435.729.
Perbandingan kemiripan antara dua kalimat
sen1 = "发生历史性变革"
sen2 = "发生历史性变革"
r = synonyms . compare ( sen1 , sen2 , seg = True )
Diantaranya, parameter seg menunjukkan apakah synonym.compare melakukan segmentasi kata pada sen1 dan sen2, dan defaultnya adalah True. Nilai kembalian: [0-1], dan semakin mendekati 1, semakin mirip kedua kalimat tersebut.
旗帜引领方向 vs 道路决定命运: 0.429
旗帜引领方向 vs 旗帜指引道路: 0.93
发生历史性变革 vs 发生历史性变革: 1.0
Cetak sinonim dengan cara yang ramah untuk memfasilitasi debugging. display(WORD [, SIZE])
memanggil metode synonyms#nearby
.
>> > synonyms . display ( "飞机" )
'飞机'近义词:
1. 飞机: 1.0
2. 直升机: 0.8423391
3. 客机: 0.8393003
4. 滑翔机: 0.7872388
5. 军用飞机: 0.7832081
6. 水上飞机: 0.77857226
7. 运输机: 0.7724742
8. 航机: 0.7664748
9. 航空器: 0.76592904
10. 民航机: 0.74209654
SIZE
adalah jumlah daftar kosakata yang dicetak, defaultnya adalah 10.
Cetak informasi deskripsi paket saat ini:
>>> synonyms.describe()
Vocab size in vector model: 435729
model_path: /Users/hain/chatopera/Synonyms/synonyms/data/words.vector.gz
version: 3.18.0
{'vocab_size': 435729, 'version': '3.18.0', 'model_path': '/chatopera/Synonyms/synonyms/data/words.vector.gz'}
Dapatkan vektor kata, yang merupakan larik numpy. Jika kata tersebut adalah kata yang tidak terdaftar, pengecualian KeyError akan muncul.
>> > synonyms . v ( "飞机" )
array ([ - 2.412167 , 2.2628384 , - 7.0214124 , 3.9381874 , 0.8219283 ,
- 3.2809453 , 3.8747153 , - 5.217062 , - 2.2786229 , - 1.2572327 ],
dtype = float32 )
Dapatkan vektor kalimat setelah segmentasi kata. Vektor disusun dalam mode BoW.
sentence : 句子是分词后通过空格联合起来
ignore : 是否忽略OOV , False时,随机生成一个向量
Segmentasi kata Cina
synonyms . seg ( "中文近义词工具包" )
Hasil segmentasi kata berupa tupel yang terdiri dari dua daftar, yaitu kata dan part of Speech yang bersesuaian.
([ '中文' , '近义词' , '工具包' ], [ 'nz' , 'n' , 'n' ])
Participle ini tidak menghilangkan kata-kata berhenti dan tanda baca.
Ekstrak kata kunci. Secara default, kata kunci diekstraksi berdasarkan kepentingannya.
keywords = synonyms.keywords("9月15日以来,台积电、高通、三星等华为的重要合作伙伴,只要没有美国的相关许可证,都无法供应芯片给华为,而中芯国际等国产芯片企业,也因采用美国技术,而无法供货给华为。目前华为部分型号的手机产品出现货少的现象,若该形势持续下去,华为手机业务将遭受重创。")
Dapatkan lebih banyak log untuk debugging, atur variabel lingkungan.
SYNONYMS_DEBUG=TRUE
Mengambil "wajah manusia" sebagai contoh untuk menganalisis komponen utama:
$ pip install -r Requirements.txt
$ python demo.py
Pernyataan status diperbarui.
Apa kata pengguna:
data dibangun berdasarkan wikidata-corpus.
"Sinonim Cilin" disusun oleh Mei Jiaju dan lainnya pada tahun 1983. Versi yang paling banyak digunakan saat ini adalah "Sinonim Cilin Edisi Diperluas" yang dikelola oleh Pusat Penelitian Komputasi Sosial dan Pengambilan Informasi Institut Teknologi Harbin Kategori dan subkategori memilah hubungan antar kata. Versi Sinonim Cilin yang diperluas berisi lebih dari 70.000 kata, lebih dari 30.000 di antaranya dibagikan dalam bentuk data terbuka.
HowNet, juga dikenal sebagai HowNet, bukan hanya kamus semantik, tetapi sistem pengetahuan. Hubungan antar kata adalah salah satu skenario penggunaan dasarnya. CNKI berisi lebih dari 8 kata.
Standar evaluasi internasional untuk algoritme kesamaan kata umumnya mengadopsi nilai penilaian manual dari kumpulan pasangan kata bahasa Inggris yang diterbitkan oleh Miller&Charles. Kumpulan pasangan kata terdiri dari sepuluh pasang pasangan kata bahasa Inggris yang sangat terkait, sepuluh pasang yang terkait sedang, dan sepuluh pasang pasangan kata bahasa Inggris yang terkait rendah, dan kemudian 38 subjek diminta untuk menilai relevansi semantik dari 30 pasangan tersebut, dan akhirnya mengambil rata-ratanya. nilai berfungsi sebagai kriteria manual. Kemudian alat sinonim yang berbeda juga menilai kesamaan kata-kata tersebut dan membandingkannya dengan kriteria penilaian manual, seperti menggunakan koefisien korelasi Pearson. Di bidang bahasa Mandarin, merupakan metode umum untuk menggunakan versi terjemahan daftar kosakata ini untuk membandingkan sinonim bahasa Mandarin.
Kapasitas daftar kosakata Sinonim adalah 435.729. Di bawah ini kami pilih beberapa kata yang ada pada Sinonim Cilin, CNKI dan Sinonim untuk membandingkan kemiripannya:
Catatan: Sumber data dan skor Synonym Forest dan CNKI. Sinonim juga terus dioptimalkan, dan skor baru mungkin tidak sesuai dengan gambar di atas.
Hasil perbandingan lebih banyak.
Daftar pengguna terkait Github
Uji dengan py3, MacBook Pro.
python benchmark.py
++++++++++ Nama OS dan versi ++++++++++
Peron: Darwin
Kernel: 16.7.0
Arsitektur: ('64bit', '')
++++++++++ Inti CPU ++++++++++
Inti: 4
Beban CPU: 60
++++++++++ Memori Sistem ++++++++++
meminfo 8GB
synonyms#nearby: 100000 loops, best of 3 epochs: 0.209 usec per loop
52nlp.cn
Jantung mesin
Catatan berbagi online: Sinonim Perangkat sinonim bahasa Mandarin @ 07-02-2018
Sinonim menerbitkan sertifikat MIT. Data dan prosedur dapat digunakan dalam penelitian dan produk komersial dan harus dikutip dan ditangani, seperti di media, jurnal, majalah, atau blog apa pun yang diterbitkan.
@online{Synonyms:hain2017,
author = {Hai Liang Wang, Hu Ying Xi},
title = {中文近义词工具包Synonyms},
year = 2017,
url = {https://github.com/chatopera/Synonyms},
urldate = {2017-09-27}
}
wikidata-corpus
Derivasi prinsip Word2vec dan analisis kode
Tidak didukung, lihat #5 untuk informasi lebih lanjut
Word2vec dirilis oleh Google, perpustakaan ini ditulis dalam bahasa C, memiliki efisiensi penggunaan memori yang tinggi dan kecepatan pelatihan yang cepat. gensim dapat memuat file model keluaran dengan word2vec.
Lihat #64 untuk detailnya
Hai Liang Wang
Hu Yingxi
Buku ini ditulis bersama oleh penulis Sinonim.
Tautan pembelian buku cepat
"Menjawab Pertanyaan Cerdas dan Pembelajaran Mendalam" Buku ini ditujukan untuk pelajar dan insinyur perangkat lunak yang bersiap untuk memulai pembelajaran mesin dan pemrosesan bahasa alami. Buku ini memperkenalkan banyak prinsip dan algoritma dalam teori, dan juga memberikan banyak contoh program untuk meningkatkan kepraktisan dirangkum dalam contoh pustaka kode program. Program-program ini terutama untuk membantu semua orang memahami prinsip dan algoritma. Anda dipersilakan untuk mengunduh dan menjalankannya. Alamat basis kode adalah:
https://github.com/l11x0m7/book-of-qna-code
Word2vec oleh Google
Wikimedia: Sumber korpus pelatihan
gensim: word2vec.py
SentenceSim: Korpus evaluasi kesamaan
jieba : segmentasi kata Cina
Lisensi Publik Chunsong, versi 1.0
https://bot.chatopera.com/
Layanan cloud Chatopera adalah layanan cloud terpadu untuk mengimplementasikan robot obrolan, dan ditagih berdasarkan jumlah panggilan antarmuka. Layanan Cloud Chatopera adalah contoh perangkat lunak sebagai layanan dari platform bot Chatopera. Berdasarkan komputasi awan, layanan cloud Chatopera adalah layanan cloud chatbot-as-a-service .
Platform robot Chatopera mencakup komponen-komponen seperti basis pengetahuan, dialog multi-putaran, pengenalan maksud dan pengenalan ucapan, pengembangan robot obrolan standar, dan mendukung skenario seperti Tanya Jawab cerdas OA perusahaan, Tanya Jawab cerdas SDM, layanan pelanggan cerdas, dan pemasaran online. Departemen TI perusahaan dan departemen bisnis menggunakan layanan cloud Chatopera untuk menghadirkan chatbot online dengan cepat!