Synonyms herunterladen - Synonyms Quellcode herunterladen

Synonyms

AI-Quellcode

Synonyms

Herunterladen

Synonyme

Chinesische Synonyme für die Verarbeitung und das Verstehen natürlicher Sprache.

Bessere chinesische Synonyme: Chatbot, intelligentes Frage- und Antwort-Toolkit.

synonyms können für viele Aufgaben beim Verstehen natürlicher Sprache verwendet werden: Textausrichtung, Empfehlungsalgorithmen, Ähnlichkeitsberechnungen, semantischer Offset, Schlüsselwortextraktion, Konzeptextraktion, automatische Zusammenfassung, Suchmaschinen usw.

Um stabile, zuverlässige und langfristig optimierte Dienste bereitzustellen, hat Synonyms auf die Verwendung der Chunsong-Lizenz v1.0 umgestellt und Gebühren für das Herunterladen von Modellen für maschinelles Lernen erhoben. Weitere Informationen finden Sie im Zertifikatspeicher. Frühere Mitwirkende (Code-Mitwirkende mit herausragenden Beiträgen) können uns kontaktieren, um Gebührenprobleme zu besprechen. – Chatopera Inc. @ Okt. 2023

Inhaltsverzeichnis:

Installieren
Verwendung
Schneller Einstieg
Bewertung
Benchmark
Stellungnahme
Referenzen
Häufig gestellte Fragen
Lizenz

Willkommen

Führen Sie die folgenden Schritte aus, um Pakete zu installieren und zu aktivieren.

1/3 Installieren Sie das Quellcode-Paket

pip install -U synonyms

Die aktuelle stabile Version ist v3.x.

2/3 Konfigurationslizenz-ID

Für die Modellpakete für maschinelles Lernen von Synonyms ist eine Lizenz vom Chatopera License Store erforderlich. Kaufen Sie zunächst eine Lizenz und rufen Sie die license id auf der Seite „Lizenzen“ im Chatopera License Store ab ( license id : Klicken Sie im Zertifikatspeicher auf der Seite mit den Zertifikatdetails auf [Kopieren Zertifikatsidentität] ).

Zweitens legen Sie die Umgebungsvariable in Ihren Terminal- oder Shell-Skripten wie unten beschrieben fest.

Für Shell-Benutzer

zB Shell, CMD-Skripte unter Linux, Windows, macOS.

 # Linux / macOS
export SYNONYMS_DL_LICENSE=YOUR_LICENSE
# # e.g. if your license id is `FOOBAR`, run `export SYNONYMS_DL_LICENSE=FOOBAR`

# Windows
# # 1/2 Command Prompt
set SYNONYMS_DL_LICENSE=YOUR_LICENSE
# # 2/2 PowerShell
$env :SYNONYMS_DL_LICENSE= ' YOUR_LICENSE '

Für Python-Code-Benutzer

Jupyter-Notizbuch usw.

 import os
os . environ [ "SYNONYMS_DL_LICENSE" ] = "YOUR_LICENSE"
_licenseid = os . environ . get ( "SYNONYMS_DL_LICENSE" , None )
print ( "SYNONYMS_DL_LICENSE=" , _licenseid )

Tipp: Die Word-Vektordatei wird zum ersten Mal nach der Installation heruntergeladen und die Download-Geschwindigkeit hängt von den Netzwerkbedingungen ab.

3/3 Modellpaket herunterladen

Laden Sie zuletzt das Modellpaket per Befehl oder Skript herunter.

python -c " import synonyms; synonyms.display('能量') " # download word vectors file

Verwendung

Unterstützt die Verwendung von Umgebungsvariablen zum Konfigurieren des Wortsegmentierungsvokabulars und von Word2vec-Wortvektordateien.

Umgebungsvariablen	beschreiben
SYNONYMS_WORD2VEC_BIN_MODEL_ZH_CN	Word-Vektordatei, trainiert mit Word2vec, Binärformat.
SYNONYMS_WORDSEG_DICT	Hauptwörterbuch zur chinesischen Wortsegmentierung, Format- und Verwendungsreferenz
SYNONYMS_DEBUG	["TRUE"\|"FALSE"], ob Debug-Protokolle ausgegeben werden sollen, auf "TRUE"-Ausgabe gesetzt, der Standardwert ist "FALSE"

Synonyme#in der Nähe(Wort [, Größe = 10])

 import synonyms
print ( "人脸: " , synonyms . nearby ( "人脸" ))
print ( "识别: " , synonyms . nearby ( "识别" ))
print ( "NOT_EXIST: " , synonyms . nearby ( "NOT_EXIST" ))

synonyms.nearby(WORD [,SIZE]) gibt ein Tupel zurück: ([nearby_words], [nearby_words_score]) nearby_words werden ebenfalls in Form einer Liste gespeichert und basieren auf Die Längen sind von nah nach fern angeordnet. nearby_words_score ist der Wert des Abstands zwischen den Wörtern an der entsprechenden Position in nearby_words . Je näher er an 1 liegt, desto näher ist SIZE der Anzahl der zurückgegebenen Wörter Der Standardwert ist 10. Zum Beispiel:

 synonyms . nearby (人脸, 10 ) = (
    [ "图片" , "图像" , "通过观察" , "数字图像" , "几何图形" , "脸部" , "图象" , "放大镜" , "面孔" , "Mii" ],
    [ 0.597284 , 0.580373 , 0.568486 , 0.535674 , 0.531835 , 0.530
095 , 0.525344 , 0.524009 , 0.523101 , 0.516046 ])

Im Falle von OOV wird ([], []) zurückgegeben, aktuelle Wörterbuchgröße: 435.729.

Synonyme#compare(sen1, sen2 [, seg=True])

Vergleich der Ähnlichkeit zwischen zwei Sätzen

    sen1 = "发生历史性变革"
    sen2 = "发生历史性变革"
    r = synonyms . compare ( sen1 , sen2 , seg = True )

Unter diesen gibt der Parameter seg an, ob synonyme.compare eine Wortsegmentierung für sen1 und sen2 durchführt, und der Standardwert ist True. Rückgabewert: [0-1], und je näher er an 1 liegt, desto ähnlicher sind die beiden Sätze.

旗帜引领方向 vs 道路决定命运: 0.429
旗帜引领方向 vs 旗帜指引道路: 0.93
发生历史性变革 vs 发生历史性变革: 1.0

Synonyme#display(Wort [, Größe = 10])

Gibt Synonyme auf benutzerfreundliche Weise aus, um das Debuggen zu erleichtern. display(WORD [, SIZE]) ruft synonyms#nearby auf.

 >> > synonyms . display ( "飞机" )
'飞机'近义词：
  1. 飞机: 1.0
  2. 直升机: 0.8423391
  3. 客机: 0.8393003
  4. 滑翔机: 0.7872388
  5. 军用飞机: 0.7832081
  6. 水上飞机: 0.77857226
  7. 运输机: 0.7724742
  8. 航机: 0.7664748
  9. 航空器: 0.76592904
  10. 民航机: 0.74209654

SIZE ist die Anzahl der gedruckten Vokabellisten, der Standardwert ist 10.

Synonyme#describe()

Drucken Sie die Beschreibungsinformationen des aktuellen Pakets aus:

 >>> synonyms.describe()
Vocab size in vector model: 435729
model_path: /Users/hain/chatopera/Synonyms/synonyms/data/words.vector.gz
version: 3.18.0
{'vocab_size': 435729, 'version': '3.18.0', 'model_path': '/chatopera/Synonyms/synonyms/data/words.vector.gz'}

Synonyme#v(Wort)

Rufen Sie einen Wortvektor ab, der ein Numpy-Array ist. Wenn das Wort ein nicht registriertes Wort ist, wird eine KeyError-Ausnahme ausgelöst.

 >> > synonyms . v ( "飞机" )
array ([ - 2.412167  ,  2.2628384 , - 7.0214124 ,  3.9381874 ,  0.8219283 ,
       - 3.2809453 ,  3.8747153 , - 5.217062  , - 2.2786229 , - 1.2572327 ],
      dtype = float32 )

Synonyme#sv(Satz, ignorieren=Falsch)

Erhalten Sie einen Vektor des Satzes nach der Wortsegmentierung. Der Vektor wird im BoW-Modus erstellt.

    sentence : 句子是分词后通过空格联合起来
    ignore : 是否忽略OOV ， False时，随机生成一个向量

Synonyme#seg(Satz)

Chinesische Wortsegmentierung

 synonyms . seg ( "中文近义词工具包" )

Das Ergebnis der Wortsegmentierung ist ein Tupel, das aus zwei Listen besteht, bei denen es sich um Wörter und entsprechende Wortarten handelt.

([ '中文' , '近义词' , '工具包' ], [ 'nz' , 'n' , 'n' ])

Dieses Partizip entfernt keine Stoppwörter und Satzzeichen.

Synonyme#keywords(Satz [, topK=5, withWeight=False])

Schlüsselwörter extrahieren Standardmäßig werden Schlüsselwörter nach Wichtigkeit extrahiert.

 keywords = synonyms.keywords("9月15日以来，台积电、高通、三星等华为的重要合作伙伴，只要没有美国的相关许可证，都无法供应芯片给华为，而中芯国际等国产芯片企业，也因采用美国技术，而无法供货给华为。目前华为部分型号的手机产品出现货少的现象，若该形势持续下去，华为手机业务将遭受重创。")

Beitrag

Weitere Protokolle zum Debuggen abrufen, Umgebungsvariable festlegen.

 SYNONYMS_DEBUG=TRUE

PCA

Am Beispiel des „menschlichen Gesichts“ werden die Hauptkomponenten analysiert:

Schneller Einstieg

$ pip install -r Requirements.txt
$ python demo.py

Änderungsprotokolle

Aktualisierte Statuserklärung.

Stimme der Benutzer

Was Benutzer sagen:

Daten

Die Daten basieren auf dem Wikidata-Korpus.

Bewertung

Synonyme Cilin

„Synonyms Cilin“ wurde 1983 von Mei Jiaju und anderen zusammengestellt. Die heute am weitesten verbreitete Version ist „Synonyms Cilin Expanded Edition“, die vom Social Computing and Information Retrieval Research Center des Harbin Institute of Technology verwaltet wird. Sie unterteilt den chinesischen Wortschatz fein in große Teile Kategorien und Unterkategorien ordnen die Beziehung zwischen Wörtern. Die erweiterte Version von Synonyms Cilin enthält mehr als 70.000 Wörter, von denen mehr als 30.000 in Form offener Daten geteilt werden.

CNKI, HowNet

HowNet, auch bekannt als HowNet, ist nicht nur ein semantisches Wörterbuch, sondern ein Wissenssystem. Die Beziehung zwischen Wörtern ist eines seiner grundlegenden Verwendungsszenarien. CNKI enthält mehr als 8 Wörter.

Der internationale Bewertungsstandard für Wortähnlichkeitsalgorithmen übernimmt im Allgemeinen den manuellen Beurteilungswert des von Miller & Charles veröffentlichten englischen Wortpaarsatzes. Der Wortpaarsatz besteht aus zehn Paaren stark verwandter, zehn Paaren mäßig verwandter und zehn Paaren gering verwandter englischer Wortpaare. Anschließend werden 38 Probanden gebeten, die semantische Relevanz dieser 30 Paare zu beurteilen und schließlich ihren Durchschnitt zu ermitteln Der Wert dient als manuelles Kriterium. Anschließend bewerten verschiedene Synonymtools auch die Ähnlichkeit dieser Wörter und vergleichen sie mit manuellen Beurteilungskriterien, beispielsweise mithilfe des Pearson-Korrelationskoeffizienten. Im chinesischen Bereich ist es auch eine gängige Methode, die übersetzte Version dieser Vokabelliste zum Vergleich chinesischer Synonyme zu verwenden.

Kontrast

Die Vokabelliste der Synonyme beträgt 435.729. Nachfolgend wählen wir einige Wörter aus, die in den Synonymen Cilin, CNKI und Synonymen vorkommen, um ihre Ähnlichkeit zu vergleichen:

Hinweis: Quellen für Synonym Forest- und CNKI-Daten und -Scores. Synonyme werden ebenfalls ständig optimiert und die neuen Bewertungen stimmen möglicherweise nicht mit dem Bild oben überein.

Weitere Vergleichsergebnisse.

Verwendet von

Github-assoziierte Benutzerliste

Benchmark

Testen Sie mit py3, MacBook Pro.

 python benchmark.py

++++++++++ Betriebssystemname und Version ++++++++++

Plattform: Darwin

Kernel: 16.7.0

Architektur: ('64bit', '')

++++++++++ CPU-Kerne ++++++++++

Kerne: 4

CPU-Last: 60

++++++++++ Systemspeicher ++++++++++

Meminfo 8 GB

synonyms#nearby: 100000 loops, best of 3 epochs: 0.209 usec per loop

Live-Sharing

52nlp.cn

Herzstück der Maschine

Online-Sharing-Datensatz: Synonyme Chinesisch-Synonym-Toolkit @ 07.02.2018

Stellungnahme

Synonyme veröffentlicht Zertifikat MIT. Daten und Verfahren dürfen in der Forschung und in kommerziellen Produkten verwendet werden und müssen zitiert und angesprochen werden, beispielsweise in allen veröffentlichten Medien, Zeitschriften, Magazinen oder Blogs.

 @online{Synonyms:hain2017,
  author = {Hai Liang Wang, Hu Ying Xi},
  title = {中文近义词工具包Synonyms},
  year = 2017,
  url = {https://github.com/chatopera/Synonyms},
  urldate = {2017-09-27}
}

Referenzen

Wikidata-Korpus

Ableitung des Word2vec-Prinzips und Codeanalyse

Häufig gestellte Fragen (FAQ)

Unterstützt es das Hinzufügen von Wörtern zum Wortschatz?

Nicht unterstützt, siehe Nr. 5 für weitere Informationen

Mit welchem Tool werden Wortvektoren trainiert?

Word2vec wurde von Google veröffentlicht. Diese Bibliothek ist in C-Sprache geschrieben, weist eine hohe Speichernutzungseffizienz und eine schnelle Trainingsgeschwindigkeit auf. Gensim kann von word2vec ausgegebene Modelldateien laden.

Mit welcher Methode wird die Ähnlichkeit berechnet?

Weitere Informationen finden Sie unter Nr. 64

#118 Die Word-Vektordatei kann nicht heruntergeladen werden?

Autoren

Hai Liang Wang

Hu Yingxi

Empfohlene Einführungs- und Nachschlagewerke zur Verarbeitung natürlicher Sprache

Dieses Buch wurde von Synonyms-Autoren mitverfasst.

Link zum schnellen Buchkauf

„Intelligente Fragebeantwortung und Deep Learning“ Dieses Buch richtet sich an Studenten und Softwareentwickler, die sich auf den Einstieg in maschinelles Lernen und die Verarbeitung natürlicher Sprache vorbereiten. Es stellt viele Prinzipien und Algorithmen in der Theorie vor und bietet auch viele Beispielprogramme, um sie praktischer zu machen Diese Programme sind in der Beispielprogrammcode-Bibliothek zusammengefasst und dienen vor allem dazu, die Prinzipien und Algorithmen zu verstehen. Sie können sie gerne herunterladen und ausführen. Die Adresse der Codebasis lautet:

https://github.com/l11x0m7/book-of-qna-code

Geben Sie Credits an

Word2vec von Google

Wikimedia: Quelle des Trainingskorpus

gensim: word2vec.py

SentenceSim: Ähnlichkeitsbewertungskorpus

jieba: Chinesische Wortsegmentierung

Lizenz

Chunsong Public License, Version 1.0

Projektsponsor

Chatopera-Cloud-Dienst

https://bot.chatopera.com/

Der Chatopera-Cloud-Service ist ein One-Stop-Cloud-Service für die Implementierung von Chat-Robotern und wird auf Basis der Anzahl der Schnittstellenaufrufe abgerechnet. Chatopera Cloud Service ist eine Software-as-a-Service-Instanz der Chatopera-Bot-Plattform. Basierend auf Cloud Computing ist der Chatopera-Clouddienst ein Chatbot-as-a-Service -Clouddienst.

Die Chatopera-Roboterplattform umfasst Komponenten wie Wissensdatenbank, Mehrrundendialog, Absichtserkennung und Spracherkennung, standardisierte Chat-Roboter-Entwicklung und unterstützt Szenarien wie intelligente Fragen und Antworten für Unternehmens-OA, intelligente Fragen und Antworten für die Personalabteilung, intelligenten Kundenservice und Online-Marketing. IT-Abteilungen und Geschäftsabteilungen von Unternehmen nutzen die Cloud-Dienste von Chatopera, um Chatbots schnell online zu bringen!

Expandieren

Zusätzliche Informationen

Version Synonyms
Typ AI-Quellcode
Aktualisierungszeit 2024-12-13
Größe 9.33MB
Kommt von Github

Ähnliche Anwendungen

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14