spaCy est une bibliothèque pour le traitement avancé du langage naturel en Python et Cython. Il s'appuie sur les recherches les plus récentes et a été conçu dès le premier jour pour être utilisé dans des produits réels.
spaCy est livré avec des pipelines pré-entraînés et prend actuellement en charge la tokenisation et la formation pour plus de 70 langues . Il propose des modèles de vitesse et de réseau neuronal de pointe pour le marquage, l'analyse, la reconnaissance d'entités nommées , la classification de texte et bien plus encore, un apprentissage multitâche avec des transformateurs pré-entraînés comme BERT, ainsi qu'un système de formation prêt pour la production et un modèle simple. packaging, déploiement et gestion des flux de travail. spaCy est un logiciel commercial open source, publié sous licence MIT.
? La version 3.7 est disponible maintenant ! Consultez les notes de version ici.
Documentation | |
---|---|
️ spaCy 101 | Vous êtes nouveau sur spaCy ? Voici tout ce que vous devez savoir ! |
Guides d'utilisation | Comment utiliser spaCy et ses fonctionnalités. |
Nouveau dans la v3.0 | Nouvelles fonctionnalités, incompatibilités ascendantes et guide de migration. |
? Modèles de projet | Des flux de travail de bout en bout que vous pouvez cloner, modifier et exécuter. |
? Référence API | La référence détaillée de l'API de spaCy. |
⏩ Traitement GPU | Utilisez spaCy avec le traitement GPU compatible CUDA. |
? Modèles | Téléchargez des pipelines formés pour spaCy. |
? Grands modèles de langage | Intégrez les LLM dans les pipelines spaCy. |
? Univers | Plugins, extensions, démos et livres de l'écosystème spaCy. |
Extension de code spaCy VS | Outils et fonctionnalités supplémentaires pour travailler avec les fichiers de configuration de spaCy. |
?? Cours en ligne | Apprenez spaCy dans ce cours en ligne gratuit et interactif. |
? Blogue | Découvrez les développements actuels de SpaCy et Prodigy, les versions, les discussions et bien plus encore sur Explosion. |
Vidéos | Notre chaîne YouTube avec des didacticiels vidéo, des conférences et bien plus encore. |
? Journal des modifications | Modifications et historique des versions. |
? Contribuer | Comment contribuer au projet spaCy et à la base de code. |
? Guirlande | Soutenez-nous et notre travail avec des cadeaux uniques et conçus sur mesure ! |
Conseil, mise en œuvre et conseils stratégiques en PNL personnalisé par l'équipe de développement principale de spaCy. Rationalisé, prêt pour la production, prévisible et maintenable. Envoyez-nous un email ou répondez à notre questionnaire de 5 minutes, et soyez en contact ! En savoir plus → |
Le projet spaCy est maintenu par l'équipe spaCy. Veuillez comprendre que nous ne serons pas en mesure de fournir une assistance individuelle par e-mail. Nous pensons également que l’aide est bien plus précieuse si elle est partagée publiquement, afin qu’un plus grand nombre de personnes puisse en bénéficier.
Taper | Plateformes |
---|---|
Rapports de bogues | Suivi des problèmes GitHub |
? Demandes et idées de fonctionnalités | Discussions sur GitHub |
? Questions d'utilisation | Discussions GitHub · Débordement de pile |
? Discussion générale | Discussions sur GitHub |
Pour plus de détails, consultez les faits, chiffres et repères.
Pour des instructions d’installation détaillées, consultez la documentation.
conda-forge
) Grâce à pip, les versions de spaCy sont disponibles sous forme de packages sources et de roues binaires. Avant d'installer spaCy et ses dépendances, assurez-vous que vos pip
, setuptools
et wheel
sont à jour.
pip install -U pip setuptools wheel
pip install spacy
Pour installer des tables de données supplémentaires pour la lemmatisation et la normalisation, vous pouvez exécuter pip install spacy[lookups]
ou installer spacy-lookups-data
séparément. Le package de recherche est nécessaire pour créer des modèles vierges avec des données de lemmatisation et pour lemmatiser dans des langages qui ne sont pas encore fournis avec des modèles pré-entraînés et qui ne sont pas alimentés par des bibliothèques tierces.
Lors de l'utilisation de pip, il est généralement recommandé d'installer les packages dans un environnement virtuel pour éviter de modifier l'état du système :
python -m venv .env
source .env/bin/activate
pip install -U pip setuptools wheel
pip install spacy
Vous pouvez également installer spaCy depuis conda
via le canal conda-forge
. Pour la matière première, y compris la recette de construction et la configuration, consultez ce référentiel.
conda install -c conda-forge spacy
Certaines mises à jour de spaCy peuvent nécessiter le téléchargement de nouveaux modèles statistiques. Si vous exécutez spaCy v2.0 ou supérieur, vous pouvez utiliser la commande validate
pour vérifier si vos modèles installés sont compatibles et sinon, imprimer les détails sur la façon de les mettre à jour :
pip install -U spacy
python -m spacy validate
Si vous avez formé vos propres modèles, gardez à l’esprit que vos entrées de formation et d’exécution doivent correspondre. Après la mise à jour de spaCy, nous vous recommandons de recycler vos modèles avec la nouvelle version.
Pour plus de détails sur la mise à niveau de spaCy 2.x vers spaCy 3.x, consultez le guide de migration.
Les pipelines formés pour spaCy peuvent être installés sous forme de packages Python . Cela signifie qu'ils font partie de votre application, comme n'importe quel autre module. Les modèles peuvent être installés à l'aide de la commande download
de spaCy ou manuellement en pointant pip vers un chemin ou une URL.
Documentation | |
---|---|
Pipelines disponibles | Descriptions détaillées du pipeline, chiffres de précision et références. |
Documentation des modèles | Instructions détaillées d'utilisation et d'installation. |
Entraînement | Comment former vos propres pipelines sur vos données. |
# Download best-matching version of specific model for your spaCy installation
python -m spacy download en_core_web_sm
# pip install .tar.gz archive or .whl from path or URL
pip install /Users/you/en_core_web_sm-3.0.0.tar.gz
pip install /Users/you/en_core_web_sm-3.0.0-py3-none-any.whl
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0.tar.gz
Pour charger un modèle, utilisez spacy.load()
avec le nom du modèle ou un chemin vers le répertoire de données du modèle.
import spacy
nlp = spacy . load ( "en_core_web_sm" )
doc = nlp ( "This is a sentence." )
Vous pouvez également import
un modèle directement via son nom complet puis appeler sa méthode load()
sans argument.
import spacy
import en_core_web_sm
nlp = en_core_web_sm . load ()
doc = nlp ( "This is a sentence." )
Pour plus d'informations et d'exemples, consultez la documentation des modèles.
L'autre façon d'installer spaCy consiste à cloner son référentiel GitHub et à le construire à partir des sources. C'est la méthode courante si vous souhaitez apporter des modifications à la base de code. Vous devrez vous assurer que vous disposez d'un environnement de développement composé d'une distribution Python comprenant des fichiers d'en-tête, un compilateur, pip, virtualenv et git installés. La partie compilateur est la plus délicate. La façon de procéder dépend de votre système.
Plate-forme | |
---|---|
Ubuntu | Installez les dépendances au niveau du système via apt-get : sudo apt-get install build-essential python-dev git . |
Mac | Installez une version récente de XCode, y compris les "outils de ligne de commande". macOS et OS X sont livrés avec Python et git préinstallés. |
Fenêtres | Installez une version de Visual C++ Build Tools ou de Visual Studio Express qui correspond à la version utilisée pour compiler votre interpréteur Python. |
Pour plus de détails et d'instructions, consultez la documentation sur la compilation de spaCy à partir des sources et le widget de démarrage rapide pour obtenir les commandes adaptées à votre plateforme et à votre version de Python.
git clone https://github.com/explosion/spaCy
cd spaCy
python -m venv .env
source .env/bin/activate
# make sure you are using the latest pip
python -m pip install -U pip setuptools wheel
pip install -r requirements.txt
pip install --no-build-isolation --editable .
Pour installer avec des extras :
pip install --no-build-isolation --editable .[lookups,cuda102]
spaCy est livré avec une suite de tests complète. Afin d'exécuter les tests, vous souhaiterez généralement cloner le référentiel et créer spaCy à partir des sources. Cela installera également les dépendances de développement requises et les utilitaires de test définis dans le fichier requirements.txt
.
Vous pouvez également exécuter pytest
sur les tests à partir du package spacy
installé. N'oubliez pas d'installer également les utilitaires de test via requirements.txt
de spaCy :
pip install -r requirements.txt
python -m pytest --pyargs spacy