spaCy ist eine Bibliothek für die erweiterte Verarbeitung natürlicher Sprache in Python und Cython. Es basiert auf den neuesten Forschungsergebnissen und wurde vom ersten Tag an für den Einsatz in echten Produkten entwickelt.
spaCy wird mit vortrainierten Pipelines geliefert und unterstützt derzeit Tokenisierung und Training für über 70 Sprachen . Es bietet hochmoderne Geschwindigkeits- und neuronale Netzwerkmodelle für Tagging, Parsing, Erkennung benannter Entitäten , Textklassifizierung und mehr, Multitasking-Lernen mit vortrainierten Transformatoren wie BERT sowie ein produktionsreifes Trainingssystem und ein einfaches Modell Paketierung, Bereitstellung und Workflow-Management. spaCy ist eine kommerzielle Open-Source-Software, die unter der MIT-Lizenz veröffentlicht wird.
? Version 3.7 jetzt erhältlich! Sehen Sie sich hier die Versionshinweise an.
Dokumentation | |
---|---|
️ spaCy 101 | Neu bei spaCy? Hier finden Sie alles, was Sie wissen müssen! |
Nutzungshandbücher | So verwenden Sie spaCy und seine Funktionen. |
Neu in v3.0 | Neue Funktionen, Abwärtsinkompatibilitäten und Migrationsleitfaden. |
? Projektvorlagen | End-to-End-Workflows, die Sie klonen, ändern und ausführen können. |
? API-Referenz | Die detaillierte Referenz für die API von spaCy. |
⏩ GPU-Verarbeitung | Verwenden Sie spaCy mit CUDA-kompatibler GPU-Verarbeitung. |
? Modelle | Laden Sie trainierte Pipelines für spaCy herunter. |
? Große Sprachmodelle | Integrieren Sie LLMs in spaCy-Pipelines. |
? Universum | Plugins, Erweiterungen, Demos und Bücher aus dem spaCy-Ökosystem. |
spaCy VS Code-Erweiterung | Zusätzliche Tools und Funktionen für die Arbeit mit den Konfigurationsdateien von spaCy. |
?? Online-Kurs | Lernen Sie spaCy in diesem kostenlosen und interaktiven Online-Kurs. |
? Blog | Lesen Sie mehr über die aktuelle spaCy- und Prodigy-Entwicklung, Veröffentlichungen, Vorträge und mehr von Explosion. |
Videos | Unser YouTube-Kanal mit Video-Tutorials, Vorträgen und mehr. |
? Änderungsprotokoll | Änderungen und Versionsgeschichte. |
? Beitragen | So tragen Sie zum spaCy-Projekt und zur Codebasis bei. |
? Beute | Unterstützen Sie uns und unsere Arbeit mit einzigartigen, maßgeschneiderten Swags! |
Maßgeschneiderte NLP-Beratung, Implementierung und strategische Beratung durch das Kernentwicklungsteam von spaCy. Optimiert, produktionsbereit, vorhersehbar und wartbar. Schicken Sie uns eine E-Mail oder nehmen Sie an unserem 5-minütigen Fragebogen teil und bleiben Sie in Kontakt! Erfahren Sie mehr → |
Das spaCy-Projekt wird vom spaCy-Team betreut. Bitte haben Sie Verständnis dafür, dass wir keinen individuellen Support per E-Mail leisten können. Wir glauben auch, dass Hilfe viel wertvoller ist, wenn sie öffentlich geteilt wird, sodass mehr Menschen davon profitieren können.
Typ | Plattformen |
---|---|
Fehlerberichte | GitHub Issue Tracker |
? Funktionswünsche und Ideen | GitHub-Diskussionen |
? Fragen zur Nutzung | GitHub-Diskussionen · Stapelüberlauf |
? Allgemeine Diskussion | GitHub-Diskussionen |
Weitere Details finden Sie in den Zahlen, Fakten und Benchmarks.
Detaillierte Installationsanweisungen finden Sie in der Dokumentation.
conda-forge
) Mit pip sind spaCy-Releases als Quellpakete und Binärräder verfügbar. Bevor Sie spaCy und seine Abhängigkeiten installieren, stellen Sie sicher, dass Ihr pip
, setuptools
und wheel
auf dem neuesten Stand sind.
pip install -U pip setuptools wheel
pip install spacy
Um zusätzliche Datentabellen für die Lemmatisierung und Normalisierung zu installieren, können Sie pip install spacy[lookups]
ausführen oder spacy-lookups-data
separat installieren. Das Lookups-Paket wird benötigt, um leere Modelle mit Lemmatisierungsdaten zu erstellen und in Sprachen zu lemmatisieren, die noch keine vorab trainierten Modelle enthalten und nicht von Bibliotheken Dritter unterstützt werden.
Bei der Verwendung von pip wird im Allgemeinen empfohlen, Pakete in einer virtuellen Umgebung zu installieren, um eine Änderung des Systemstatus zu vermeiden:
python -m venv .env
source .env/bin/activate
pip install -U pip setuptools wheel
pip install spacy
Sie können spaCy auch von conda
aus über den conda-forge
-Kanal installieren. Das Ausgangsmaterial einschließlich des Build-Rezepts und der Konfiguration finden Sie in diesem Repository.
conda install -c conda-forge spacy
Bei einigen Updates von spaCy ist möglicherweise das Herunterladen neuer statistischer Modelle erforderlich. Wenn Sie spaCy v2.0 oder höher verwenden, können Sie den Befehl validate
verwenden, um zu überprüfen, ob Ihre installierten Modelle kompatibel sind. Wenn nicht, drucken Sie Details zur Aktualisierung aus:
pip install -U spacy
python -m spacy validate
Wenn Sie Ihre eigenen Modelle trainiert haben, denken Sie daran, dass Ihre Trainings- und Laufzeiteingaben übereinstimmen müssen. Nach der Aktualisierung von spaCy empfehlen wir, Ihre Modelle erneut mit der neuen Version zu trainieren .
Einzelheiten zum Upgrade von spaCy 2.x auf spaCy 3.x finden Sie im Migrationsleitfaden.
Trainierte Pipelines für spaCy können als Python-Pakete installiert werden. Das bedeutet, dass sie wie jedes andere Modul Bestandteil Ihrer Anwendung sind. Modelle können mit dem download
-Befehl von spaCy oder manuell installiert werden, indem pip auf einen Pfad oder eine URL verweist.
Dokumentation | |
---|---|
Verfügbare Pipelines | Detaillierte Pipeline-Beschreibungen, Genauigkeitszahlen und Benchmarks. |
Modelldokumentation | Ausführliche Gebrauchs- und Installationsanweisungen. |
Ausbildung | So trainieren Sie Ihre eigenen Pipelines anhand Ihrer Daten. |
# Download best-matching version of specific model for your spaCy installation
python -m spacy download en_core_web_sm
# pip install .tar.gz archive or .whl from path or URL
pip install /Users/you/en_core_web_sm-3.0.0.tar.gz
pip install /Users/you/en_core_web_sm-3.0.0-py3-none-any.whl
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0.tar.gz
Um ein Modell zu laden, verwenden Sie spacy.load()
mit dem Modellnamen oder einem Pfad zum Modelldatenverzeichnis.
import spacy
nlp = spacy . load ( "en_core_web_sm" )
doc = nlp ( "This is a sentence." )
Sie können ein Modell auch direkt über seinen vollständigen Namen import
und dann seine Methode load()
ohne Argumente aufrufen.
import spacy
import en_core_web_sm
nlp = en_core_web_sm . load ()
doc = nlp ( "This is a sentence." )
Weitere Informationen und Beispiele finden Sie in der Modelldokumentation.
Die andere Möglichkeit, spaCy zu installieren, besteht darin, sein GitHub-Repository zu klonen und es aus dem Quellcode zu erstellen. Dies ist die übliche Methode, wenn Sie Änderungen an der Codebasis vornehmen möchten. Sie müssen sicherstellen, dass Sie über eine Entwicklungsumgebung verfügen, die aus einer Python-Distribution einschließlich Header-Dateien, einem Compiler, Pip, Virtualenv und Git besteht. Der Compiler-Teil ist der schwierigste. Wie das geht, hängt von Ihrem System ab.
Plattform | |
---|---|
Ubuntu | Installieren Sie Abhängigkeiten auf Systemebene über apt-get : sudo apt-get install build-essential python-dev git . |
Mac | Installieren Sie eine aktuelle Version von XCode, einschließlich der sogenannten „Command Line Tools“. macOS und OS X werden mit vorinstalliertem Python und Git ausgeliefert. |
Windows | Installieren Sie eine Version der Visual C++ Build Tools oder Visual Studio Express, die der Version entspricht, die zum Kompilieren Ihres Python-Interpreters verwendet wurde. |
Weitere Details und Anweisungen finden Sie in der Dokumentation zum Kompilieren von spaCy aus dem Quellcode und im Schnellstart-Widget, um die richtigen Befehle für Ihre Plattform und Python-Version zu erhalten.
git clone https://github.com/explosion/spaCy
cd spaCy
python -m venv .env
source .env/bin/activate
# make sure you are using the latest pip
python -m pip install -U pip setuptools wheel
pip install -r requirements.txt
pip install --no-build-isolation --editable .
Zur Installation mit Extras:
pip install --no-build-isolation --editable .[lookups,cuda102]
spaCy wird mit einer umfangreichen Testsuite geliefert. Um die Tests auszuführen, möchten Sie normalerweise das Repository klonen und spaCy aus dem Quellcode erstellen. Dadurch werden auch die erforderlichen Entwicklungsabhängigkeiten und Testdienstprogramme installiert, die in der Datei requirements.txt
definiert sind.
Alternativ können Sie pytest
für die Tests aus dem installierten spacy
-Paket heraus ausführen. Vergessen Sie nicht, auch die Testdienstprogramme über spaCys „ requirements.txt
zu installieren:
pip install -r requirements.txt
python -m pytest --pyargs spacy