المرادفات الصينية لمعالجة اللغة الطبيعية وفهمها.
مرادفات صينية أفضل: برنامج الدردشة الآلي ومجموعة أدوات الأسئلة والأجوبة الذكية.
يمكن استخدام synonyms
للعديد من المهام في فهم اللغة الطبيعية: محاذاة النص، وخوارزميات التوصية، وحسابات التشابه، والإزاحة الدلالية، واستخراج الكلمات الرئيسية، واستخراج المفاهيم، والتلخيص التلقائي، ومحركات البحث، وما إلى ذلك.
من أجل توفير خدمات محسنة مستقرة وموثوقة وطويلة الأجل، تم تغيير المرادفات لاستخدام ترخيص Chunsong، الإصدار 1.0 ورسوم تنزيل نماذج التعلم الآلي، راجع مخزن الشهادات للحصول على التفاصيل. يمكن للمساهمين السابقين (المساهمين في الكود ذوي المساهمات المتميزة) الاتصال بنا لمناقشة مشكلات الشحن. -- شركة تشاتوبيرا @ أكتوبر 2023
اتبع الخطوات أدناه لتثبيت الحزم وتنشيطها.
pip install -U synonyms
الإصدار المستقر الحالي هو v3.x.
تتطلب حزمة (حزم) نماذج التعلم الآلي الخاصة بـ Synonyms ترخيصًا من متجر ترخيص Chatopera، قم أولاً بشراء ترخيص والحصول على license id
من صفحة التراخيص في متجر ترخيص Chatopera ( license id
: في مخزن الشهادات، في صفحة تفاصيل الشهادة، انقر فوق [نسخ هوية الشهادة]).
ثانيًا، قم بتعيين متغير البيئة في نصوصك الطرفية أو البرامج النصية على النحو التالي.
على سبيل المثال، Shell، وCMD Scripts على Linux، وWindows، وmacOS.
# Linux / macOS
export SYNONYMS_DL_LICENSE=YOUR_LICENSE
# # e.g. if your license id is `FOOBAR`, run `export SYNONYMS_DL_LICENSE=FOOBAR`
# Windows
# # 1/2 Command Prompt
set SYNONYMS_DL_LICENSE=YOUR_LICENSE
# # 2/2 PowerShell
$env :SYNONYMS_DL_LICENSE= ' YOUR_LICENSE '
دفتر جوبيتر، الخ.
import os
os . environ [ "SYNONYMS_DL_LICENSE" ] = "YOUR_LICENSE"
_licenseid = os . environ . get ( "SYNONYMS_DL_LICENSE" , None )
print ( "SYNONYMS_DL_LICENSE=" , _licenseid )
نصيحة: سيتم تنزيل ملف ناقل الكلمات لأول مرة بعد التثبيت، وتعتمد سرعة التنزيل على ظروف الشبكة.
أخيرًا، قم بتنزيل حزمة النموذج عن طريق الأمر أو البرنامج النصي -
python -c " import synonyms; synonyms.display('能量') " # download word vectors file
يدعم استخدام متغيرات البيئة لتكوين مفردات تجزئة الكلمات وملفات متجهات الكلمات word2vec.
متغيرات البيئة | يصف |
---|---|
SYNONYMS_WORD2VEC_BIN_MODEL_ZH_CN | تم تدريب ملف Word المتجه باستخدام word2vec، بتنسيق ثنائي. |
SYNONYMS_WORDSEG_DICT | القاموس الرئيسي لتجزئة الكلمات الصينية والتنسيق ومرجع الاستخدام |
SYNONYMS_DEBUG | ["TRUE"|"FALSE"]، سواء كان سيتم إخراج سجلات التصحيح، قم بتعيين الإخراج "TRUE"، والإعداد الافتراضي هو "FALSE" |
import synonyms
print ( "人脸: " , synonyms . nearby ( "人脸" ))
print ( "识别: " , synonyms . nearby ( "识别" ))
print ( "NOT_EXIST: " , synonyms . nearby ( "NOT_EXIST" ))
تُرجع synonyms.nearby(WORD [,SIZE])
صفًا. يحتوي الصف على عنصرين: ([nearby_words], [nearby_words_score])
تعد nearby_words
مرادفات للكلمة، ويتم تخزينها أيضًا في شكل قائمة وتستند إلى المسافة مرتبة من القريب إلى البعيد. nearby_words_score
هي نتيجة المسافة بين الكلمات SIZE
الموضع المقابل في nearby_words
، وتكون النتيجة في الفاصل الزمني (0-1). الافتراضي هو 10. على سبيل المثال:
synonyms . nearby (人脸, 10 ) = (
[ "图片" , "图像" , "通过观察" , "数字图像" , "几何图形" , "脸部" , "图象" , "放大镜" , "面孔" , "Mii" ],
[ 0.597284 , 0.580373 , 0.568486 , 0.535674 , 0.531835 , 0.530
095 , 0.525344 , 0.524009 , 0.523101 , 0.516046 ])
في حالة OOV، يتم إرجاع ([], [])
، حجم القاموس الحالي: 435,729.
مقارنة التشابه بين جملتين
sen1 = "发生历史性变革"
sen2 = "发生历史性变革"
r = synonyms . compare ( sen1 , sen2 , seg = True )
من بينها، تشير المعلمة seg إلى ما إذا كانت المرادفات المرادفة تقوم بتجزئة الكلمات على sen1 وsen2، والقيمة الافتراضية هي True. القيمة المرجعة: [0-1]، وكلما اقتربت من 1، كلما كانت الجملتان متشابهتين.
旗帜引领方向 vs 道路决定命运: 0.429
旗帜引领方向 vs 旗帜指引道路: 0.93
发生历史性变革 vs 发生历史性变革: 1.0
قم بطباعة المرادفات بطريقة سهلة لتسهيل تصحيح الأخطاء. يستدعي display(WORD [, SIZE])
طريقة synonyms#nearby
.
>> > synonyms . display ( "飞机" )
'飞机'近义词:
1. 飞机: 1.0
2. 直升机: 0.8423391
3. 客机: 0.8393003
4. 滑翔机: 0.7872388
5. 军用飞机: 0.7832081
6. 水上飞机: 0.77857226
7. 运输机: 0.7724742
8. 航机: 0.7664748
9. 航空器: 0.76592904
10. 民航机: 0.74209654
SIZE
هو عدد قوائم المفردات المطبوعة، والقيمة الافتراضية هي 10.
اطبع معلومات الوصف الخاصة بالحزمة الحالية:
>>> synonyms.describe()
Vocab size in vector model: 435729
model_path: /Users/hain/chatopera/Synonyms/synonyms/data/words.vector.gz
version: 3.18.0
{'vocab_size': 435729, 'version': '3.18.0', 'model_path': '/chatopera/Synonyms/synonyms/data/words.vector.gz'}
احصل على متجه الكلمات، وهو عبارة عن مصفوفة numpy عندما تكون الكلمة كلمة غير مسجلة، يتم طرح استثناء KeyError.
>> > synonyms . v ( "飞机" )
array ([ - 2.412167 , 2.2628384 , - 7.0214124 , 3.9381874 , 0.8219283 ,
- 3.2809453 , 3.8747153 , - 5.217062 , - 2.2786229 , - 1.2572327 ],
dtype = float32 )
الحصول على متجه الجملة بعد تجزئة الكلمة يتكون المتجه في وضع القوس.
sentence : 句子是分词后通过空格联合起来
ignore : 是否忽略OOV , False时,随机生成一个向量
تجزئة الكلمات الصينية
synonyms . seg ( "中文近义词工具包" )
نتيجة تجزئة الكلمات عبارة عن صف يتكون من قائمتين، وهما الكلمات وأجزاء الكلام المقابلة لها.
([ '中文' , '近义词' , '工具包' ], [ 'nz' , 'n' , 'n' ])
هذا النعت لا يزيل كلمات التوقف وعلامات الترقيم.
استخراج الكلمات الرئيسية بشكل افتراضي، يتم استخراج الكلمات الرئيسية حسب الأهمية.
keywords = synonyms.keywords("9月15日以来,台积电、高通、三星等华为的重要合作伙伴,只要没有美国的相关许可证,都无法供应芯片给华为,而中芯国际等国产芯片企业,也因采用美国技术,而无法供货给华为。目前华为部分型号的手机产品出现货少的现象,若该形势持续下去,华为手机业务将遭受重创。")
احصل على المزيد من السجلات لتصحيح الأخطاء، وقم بتعيين متغير البيئة.
SYNONYMS_DEBUG=TRUE
أخذ "الوجه الإنساني" كمثال لتحليل المكونات الرئيسية:
$ pip install -r Requirements.txt
$ python demo.py
بيان الحالة المحدثة.
ماذا يقول المستخدمون:
تم بناء البيانات على أساس ويكي بيانات.
تم تجميع "مرادفات Ci Lin" بواسطة Mei Jiaju وآخرين في عام 1983. في الوقت الحاضر، النسخة المستخدمة على نطاق واسع هي "Synonyms Ci Lin Expanded Edition" التي يديرها مركز أبحاث الحوسبة الاجتماعية واسترجاع المعلومات التابع لمعهد هاربين للتكنولوجيا، وهي تقسم المفردات الصينية بدقة إلى فئات كبيرة وفئات فرعية فرز العلاقة بين الكلمات تحتوي النسخة الموسعة من المرادفات Cilin على أكثر من 70.000 كلمة، منها أكثر من 30.000 تتم مشاركتها في شكل بيانات مفتوحة.
HowNet، المعروف أيضًا باسم HowNet، ليس مجرد قاموس دلالي، ولكنه نظام معرفي، والعلاقة بين الكلمات هي أحد سيناريوهات الاستخدام الأساسية. CNKI يحتوي على أكثر من 8 كلمات.
يعتمد معيار التقييم الدولي لخوارزميات تشابه الكلمات عمومًا على قيمة الحكم اليدوي لمجموعة أزواج الكلمات الإنجليزية التي نشرتها شركة Miller&Charles. تتكون مجموعة أزواج الكلمات من عشرة أزواج من الكلمات ذات الصلة العالية، وعشرة أزواج من الكلمات ذات الصلة المتوسطة، وعشرة أزواج من أزواج الكلمات الإنجليزية ذات الصلة المنخفضة، ثم يُطلب من 38 شخصًا الحكم على الملاءمة الدلالية لهذه الأزواج الثلاثين، وأخيرًا أخذ متوسطهم القيمة بمثابة المعيار اليدوي. ثم تقوم أدوات المرادفات المختلفة أيضًا بتسجيل مدى تشابه هذه الكلمات ومقارنتها بمعايير الحكم اليدوي، مثل استخدام معامل ارتباط بيرسون. في المجال الصيني، من الشائع أيضًا استخدام النسخة المترجمة من قائمة المفردات هذه لمقارنة المرادفات الصينية.
سعة قائمة المفردات للمرادفات هي 435,729 أدناه نختار بعض الكلمات الموجودة في المرادفات Cilin وCNKI والمرادفات لمقارنة أوجه التشابه بينها:
ملحوظة: مصادر بيانات ونتائج Synonym Forest وCNKI. يتم أيضًا تحسين المرادفات باستمرار، وقد تكون النتائج الجديدة غير متوافقة مع الصورة أعلاه.
المزيد من نتائج المقارنة.
قائمة المستخدمين المرتبطة بـGithub
اختبار مع py3، ماك بوك برو.
python benchmark.py
++++++++++ اسم نظام التشغيل وإصداره ++++++++++
المنصة: داروين
النواة: 16.7.0
البنية: ('64 بت'، '')
++++++++++ وحدة المعالجة المركزية الأساسية ++++++++++
النوى: 4
تحميل وحدة المعالجة المركزية: 60
++++++++++ ذاكرة النظام ++++++++++
معلومات تذكيرية 8 جيجابايت
synonyms#nearby: 100000 loops, best of 3 epochs: 0.209 usec per loop
52nlp.cn
قلب الآلة
سجل المشاركة عبر الإنترنت: مجموعة أدوات المرادفات الصينية @ 2018-02-07
مرادفات تنشر شهادة MIT. يمكن استخدام البيانات والإجراءات في الأبحاث والمنتجات التجارية ويجب الاستشهاد بها ومعالجتها، كما هو الحال في أي وسائط أو مجلات أو مجلات أو مدونات منشورة.
@online{Synonyms:hain2017,
author = {Hai Liang Wang, Hu Ying Xi},
title = {中文近义词工具包Synonyms},
year = 2017,
url = {https://github.com/chatopera/Synonyms},
urldate = {2017-09-27}
}
مجموعة ويكي بيانات
اشتقاق مبدأ word2vec وتحليل الكود
غير مدعوم، راجع رقم 5 لمزيد من المعلومات
تم إصدار Word2vec بواسطة Google، وهذه المكتبة مكتوبة بلغة C، وتتميز بكفاءة عالية في استخدام الذاكرة وسرعة تدريب سريعة. يمكن لـ gensim تحميل إخراج ملفات النموذج بواسطة word2vec.
انظر رقم 64 لمزيد من التفاصيل
هاي ليانغ وانغ
هو ينجكسي
شارك في تأليف هذا الكتاب مؤلفو المرادفات.
رابط شراء الكتاب السريع
"الإجابة الذكية على الأسئلة والتعلم العميق" هذا الكتاب مخصص للطلاب ومهندسي البرمجيات الذين يستعدون للبدء في التعلم الآلي ومعالجة اللغة الطبيعية. ويقدم العديد من المبادئ والخوارزميات من الناحية النظرية، كما يقدم العديد من الأمثلة على البرامج لزيادة التطبيق العملي تم تلخيص هذه البرامج في نموذج مكتبة التعليمات البرمجية الخاصة بالبرنامج، وهي تهدف أساسًا إلى مساعدة الجميع على فهم المبادئ والخوارزميات. عنوان قاعدة الكود هو:
https://github.com/l11x0m7/book-of-qna-code
Word2vec من جوجل
ويكيميديا: مصدر مجموعة التدريب
جينسيم: word2vec.py
SentenceSim: مجموعة تقييم التشابه
جيبا: تجزئة الكلمات الصينية
رخصة Chunsong العامة، الإصدار 1.0
https://bot.chatopera.com/
خدمة Chatopera السحابية هي خدمة سحابية شاملة لتنفيذ روبوتات الدردشة، ويتم إصدار الفاتورة لها بناءً على عدد مكالمات الواجهة. تعد خدمة Chatopera Cloud Service بمثابة مثيل برنامج كخدمة لمنصة Chatopera bot. استنادًا إلى الحوسبة السحابية، تعد خدمة Chatopera السحابية عبارة عن خدمة سحابية لروبوتات الدردشة كخدمة .
تشتمل منصة الروبوت Chatopera على مكونات مثل قاعدة المعرفة، والحوار متعدد الجولات، والتعرف على النوايا والتعرف على الكلام، وتطوير روبوت الدردشة الموحد، وتدعم سيناريوهات مثل الأسئلة والأجوبة الذكية ذات الوصول المفتوح للمؤسسات، والأسئلة والأجوبة الذكية للموارد البشرية، وخدمة العملاء الذكية والتسويق عبر الإنترنت. تستخدم أقسام تكنولوجيا المعلومات في المؤسسات وإدارات الأعمال خدمات Chatopera السحابية لجلب روبوتات الدردشة عبر الإنترنت بسرعة!