spaCy es una biblioteca para el procesamiento avanzado del lenguaje natural en Python y Cython. Se basa en las últimas investigaciones y fue diseñado desde el primer día para usarse en productos reales.
spaCy viene con canalizaciones previamente capacitadas y actualmente admite tokenización y capacitación para más de 70 idiomas . Cuenta con modelos de redes neuronales y de velocidad de última generación para etiquetado, análisis, reconocimiento de entidades con nombre , clasificación de texto y más, aprendizaje multitarea con transformadores previamente entrenados como BERT, así como un sistema de entrenamiento listo para producción y un modelo sencillo. empaquetado, implementación y gestión del flujo de trabajo. spaCy es un software comercial de código abierto, publicado bajo la licencia MIT.
? ¡La versión 3.7 ya está disponible! Consulte las notas de la versión aquí.
Documentación | |
---|---|
️ spaCy 101 | ¿Nuevo en spaCy? ¡Aquí encontrará todo lo que necesita saber! |
Guías de uso | Cómo utilizar spaCy y sus características. |
Nuevo en v3.0 | Nuevas funciones, incompatibilidades hacia atrás y guía de migración. |
? Plantillas de proyectos | Flujos de trabajo de un extremo a otro que puede clonar, modificar y ejecutar. |
? Referencia de API | La referencia detallada de la API de spaCy. |
⏩ Procesamiento GPU | Utilice spaCy con procesamiento de GPU compatible con CUDA. |
? Modelos | Descargue tuberías entrenadas para spaCy. |
? Modelos de lenguaje grandes | Integre los LLM en los procesos spaCy. |
? Universo | Complementos, extensiones, demostraciones y libros del ecosistema spaCy. |
Extensión de código spaCy VS | Herramientas y funciones adicionales para trabajar con los archivos de configuración de spaCy. |
?? Curso en línea | Aprenda spaCy en este curso en línea gratuito e interactivo. |
? Blog | Lea sobre el desarrollo actual de spaCy y Prodigy, lanzamientos, charlas y más de Explosion. |
Vídeos | Nuestro canal de YouTube con videotutoriales, charlas y más. |
? Registro de cambios | Cambios e historial de versiones. |
? Contribuir | Cómo contribuir al proyecto spaCy y al código base. |
? Botín | ¡Apóyenos a nosotros y a nuestro trabajo con artículos únicos y diseñados a medida! |
Consultoría, implementación y asesoramiento estratégico de PNL personalizados por parte del equipo de desarrollo central de spaCy. Optimizado, listo para producción, predecible y mantenible. Envíenos un correo electrónico o responda nuestro cuestionario de 5 minutos y ¡estaremos en contacto! Más información → |
El proyecto spaCy es mantenido por el equipo de spaCy. Por favor, comprenda que no podremos brindarle asistencia individual por correo electrónico. También creemos que la ayuda es mucho más valiosa si se comparte públicamente, para que más personas puedan beneficiarse de ella.
Tipo | Plataformas |
---|---|
Informes de errores | Rastreador de problemas de GitHub |
? Solicitudes e ideas de funciones | Discusiones de GitHub |
? Preguntas de uso | Discusiones de GitHub · Desbordamiento de pila |
? Discusión general | Discusiones de GitHub |
Para obtener más detalles, consulte los hechos, las cifras y los puntos de referencia.
Para obtener instrucciones de instalación detalladas, consulte la documentación.
conda-forge
) Usando pip, las versiones de spaCy están disponibles como paquetes fuente y ruedas binarias. Antes de instalar spaCy y sus dependencias, asegúrese de que su pip
, setuptools
y wheel
estén actualizados.
pip install -U pip setuptools wheel
pip install spacy
Para instalar tablas de datos adicionales para lematización y normalización, puede ejecutar pip install spacy[lookups]
o instalar spacy-lookups-data
por separado. El paquete de búsquedas es necesario para crear modelos en blanco con datos de lematización y para lematizar en lenguajes que aún no vienen con modelos previamente entrenados y no cuentan con bibliotecas de terceros.
Cuando se utiliza pip, generalmente se recomienda instalar paquetes en un entorno virtual para evitar modificar el estado del sistema:
python -m venv .env
source .env/bin/activate
pip install -U pip setuptools wheel
pip install spacy
También puedes instalar spaCy desde conda
a través del canal conda-forge
. Para obtener la materia prima, incluida la receta de compilación y la configuración, consulte este repositorio.
conda install -c conda-forge spacy
Algunas actualizaciones de spaCy pueden requerir la descarga de nuevos modelos estadísticos. Si está ejecutando spaCy v2.0 o superior, puede usar el comando validate
para verificar si los modelos instalados son compatibles y, si no, imprimir detalles sobre cómo actualizarlos:
pip install -U spacy
python -m spacy validate
Si ha entrenado sus propios modelos, tenga en cuenta que sus entradas de entrenamiento y tiempo de ejecución deben coincidir. Después de actualizar spaCy, recomendamos volver a entrenar sus modelos con la nueva versión.
Para obtener detalles sobre la actualización de spaCy 2.x a spaCy 3.x, consulte la guía de migración.
Las canalizaciones entrenadas para spaCy se pueden instalar como paquetes de Python . Esto significa que son un componente de su aplicación, como cualquier otro módulo. Los modelos se pueden instalar usando el comando download
de spaCy o manualmente apuntando con pip a una ruta o URL.
Documentación | |
---|---|
Tuberías disponibles | Descripciones detalladas de la tubería, cifras de precisión y puntos de referencia. |
Documentación de modelos | Instrucciones detalladas de uso e instalación. |
Capacitación | Cómo entrenar sus propios pipelines con sus datos. |
# Download best-matching version of specific model for your spaCy installation
python -m spacy download en_core_web_sm
# pip install .tar.gz archive or .whl from path or URL
pip install /Users/you/en_core_web_sm-3.0.0.tar.gz
pip install /Users/you/en_core_web_sm-3.0.0-py3-none-any.whl
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0.tar.gz
Para cargar un modelo, use spacy.load()
con el nombre del modelo o una ruta al directorio de datos del modelo.
import spacy
nlp = spacy . load ( "en_core_web_sm" )
doc = nlp ( "This is a sentence." )
También puedes import
un modelo directamente a través de su nombre completo y luego llamar a su método load()
sin argumentos.
import spacy
import en_core_web_sm
nlp = en_core_web_sm . load ()
doc = nlp ( "This is a sentence." )
Para obtener más información y ejemplos, consulte la documentación de los modelos.
La otra forma de instalar spaCy es clonar su repositorio GitHub y compilarlo desde el código fuente. Esa es la forma común si desea realizar cambios en el código base. Deberá asegurarse de tener un entorno de desarrollo que consta de una distribución de Python que incluye archivos de encabezado, un compilador, pip, virtualenv y git instalados. La parte del compilador es la más complicada. Cómo hacerlo depende de su sistema.
Plataforma | |
---|---|
ubuntu | Instale dependencias a nivel de sistema a través de apt-get : sudo apt-get install build-essential python-dev git . |
Impermeable | Instale una versión reciente de XCode, incluidas las llamadas "Herramientas de línea de comandos". macOS y OS X vienen con Python y git preinstalados. |
ventanas | Instale una versión de Visual C++ Build Tools o Visual Studio Express que coincida con la versión que se utilizó para compilar su intérprete de Python. |
Para obtener más detalles e instrucciones, consulte la documentación sobre cómo compilar spaCy desde el código fuente y el widget de inicio rápido para obtener los comandos correctos para su plataforma y versión de Python.
git clone https://github.com/explosion/spaCy
cd spaCy
python -m venv .env
source .env/bin/activate
# make sure you are using the latest pip
python -m pip install -U pip setuptools wheel
pip install -r requirements.txt
pip install --no-build-isolation --editable .
Para instalar con extras:
pip install --no-build-isolation --editable .[lookups,cuda102]
spaCy viene con un extenso conjunto de pruebas. Para ejecutar las pruebas, normalmente querrás clonar el repositorio y compilar spaCy desde el código fuente. Esto también instalará las dependencias de desarrollo requeridas y las utilidades de prueba definidas en el archivo requirements.txt
.
Alternativamente, puede ejecutar pytest
en las pruebas desde el paquete spacy
instalado. No olvide instalar también las utilidades de prueba a través del requirements.txt
de spaCy:
pip install -r requirements.txt
python -m pytest --pyargs spacy