spaCy é uma biblioteca para processamento avançado de linguagem natural em Python e Cython. Ele foi desenvolvido com base nas pesquisas mais recentes e foi projetado desde o primeiro dia para ser usado em produtos reais.
spaCy vem com pipelines pré-treinados e atualmente oferece suporte a tokenização e treinamento para mais de 70 idiomas . Ele apresenta velocidade de última geração e modelos de rede neural para marcação, análise, reconhecimento de entidade nomeada , classificação de texto e muito mais, aprendizado multitarefa com transformadores pré-treinados como BERT, bem como um sistema de treinamento pronto para produção e modelo fácil empacotamento, implantação e gerenciamento de fluxo de trabalho. spaCy é um software comercial de código aberto, lançado sob a licença do MIT.
? Versão 3.7 já disponível! Confira as notas de lançamento aqui.
Documentação | |
---|---|
️ spaCy 101 | Novo no spaCy? Aqui está tudo o que você precisa saber! |
Guias de uso | Como usar o spaCy e seus recursos. |
Novo na v3.0 | Novos recursos, incompatibilidades com versões anteriores e guia de migração. |
? Modelos de projeto | Fluxos de trabalho completos que você pode clonar, modificar e executar. |
? Referência de API | A referência detalhada para a API do spaCy. |
⏩ Processamento de GPU | Use spaCy com processamento de GPU compatível com CUDA. |
? Modelos | Baixe pipelines treinados para spaCy. |
? Grandes modelos de linguagem | Integre LLMs em pipelines spaCy. |
? Universo | Plugins, extensões, demonstrações e livros do ecossistema spaCy. |
Extensão de código spaCy VS | Ferramentas e recursos adicionais para trabalhar com arquivos de configuração do spaCy. |
?? Curso On-line | Aprenda spaCy neste curso online gratuito e interativo. |
? Blogue | Leia sobre o desenvolvimento atual do spaCy e do Prodigy, lançamentos, palestras e muito mais no Explosion. |
Vídeos | Nosso canal no YouTube com tutoriais em vídeo, palestras e muito mais. |
? Registro de alterações | Histórico de alterações e versões. |
? Contribuir | Como contribuir com o projeto spaCy e a base de código. |
? Swag | Apoie-nos e ao nosso trabalho com brindes exclusivos e personalizados! |
Consultoria, implementação e aconselhamento estratégico de PNL personalizada pela equipe principal de desenvolvimento do spaCy. Simplificado, pronto para produção, previsível e de fácil manutenção. Envie-nos um e-mail ou responda ao nosso questionário de 5 minutos e entraremos em contato! Saiba mais → |
O projeto spaCy é mantido pela equipe spaCy. Por favor, entenda que não poderemos fornecer suporte individual por e-mail. Acreditamos também que a ajuda é muito mais valiosa se for partilhada publicamente, para que mais pessoas possam beneficiar dela.
Tipo | Plataformas |
---|---|
Relatórios de bugs | Rastreador de problemas do GitHub |
? Solicitações de recursos e ideias | Discussões do GitHub |
? Perguntas de uso | Discussões do GitHub · Stack Overflow |
? Discussão Geral | Discussões do GitHub |
Para mais detalhes, consulte os fatos, números e benchmarks.
Para obter instruções detalhadas de instalação, consulte a documentação.
conda-forge
) Usando pip, as versões do spaCy estão disponíveis como pacotes fonte e rodas binárias. Antes de instalar o spaCy e suas dependências, certifique-se de que seu pip
, setuptools
e wheel
estejam atualizados.
pip install -U pip setuptools wheel
pip install spacy
Para instalar tabelas de dados adicionais para lematização e normalização, você pode executar pip install spacy[lookups]
ou instalar spacy-lookups-data
separadamente. O pacote de pesquisas é necessário para criar modelos em branco com dados de lematização e para lematizar em linguagens que ainda não vêm com modelos pré-treinados e não são alimentadas por bibliotecas de terceiros.
Ao usar pip, geralmente é recomendado instalar pacotes em um ambiente virtual para evitar modificar o estado do sistema:
python -m venv .env
source .env/bin/activate
pip install -U pip setuptools wheel
pip install spacy
Você também pode instalar o spaCy do conda
através do canal conda-forge
. Para a matéria-prima, incluindo a receita de construção e configuração, verifique este repositório.
conda install -c conda-forge spacy
Algumas atualizações do spaCy podem exigir o download de novos modelos estatísticos. Se você estiver executando o spaCy v2.0 ou superior, poderá usar o comando validate
para verificar se os modelos instalados são compatíveis e, caso contrário, imprimir detalhes sobre como atualizá-los:
pip install -U spacy
python -m spacy validate
Se você treinou seus próprios modelos, lembre-se de que as entradas de treinamento e de tempo de execução devem corresponder. Após atualizar o spaCy, recomendamos treinar novamente seus modelos com a nova versão.
Para obter detalhes sobre a atualização do spaCy 2.x para o spaCy 3.x, consulte o guia de migração.
Pipelines treinados para spaCy podem ser instalados como pacotes Python . Isso significa que eles são um componente do seu aplicativo, assim como qualquer outro módulo. Os modelos podem ser instalados usando o comando download
do spaCy ou manualmente apontando pip para um caminho ou URL.
Documentação | |
---|---|
Pipelines disponíveis | Descrições detalhadas de pipeline, números de precisão e benchmarks. |
Documentação de modelos | Instruções detalhadas de uso e instalação. |
Treinamento | Como treinar seus próprios pipelines em seus dados. |
# Download best-matching version of specific model for your spaCy installation
python -m spacy download en_core_web_sm
# pip install .tar.gz archive or .whl from path or URL
pip install /Users/you/en_core_web_sm-3.0.0.tar.gz
pip install /Users/you/en_core_web_sm-3.0.0-py3-none-any.whl
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0.tar.gz
Para carregar um modelo, use spacy.load()
com o nome do modelo ou um caminho para o diretório de dados do modelo.
import spacy
nlp = spacy . load ( "en_core_web_sm" )
doc = nlp ( "This is a sentence." )
Você também pode import
um modelo diretamente através de seu nome completo e então chamar seu método load()
sem argumentos.
import spacy
import en_core_web_sm
nlp = en_core_web_sm . load ()
doc = nlp ( "This is a sentence." )
Para mais informações e exemplos, confira a documentação dos modelos.
A outra maneira de instalar o spaCy é clonar seu repositório GitHub e construí-lo a partir do código-fonte. Essa é a maneira comum se você quiser fazer alterações na base de código. Você precisará ter um ambiente de desenvolvimento que consiste em uma distribuição Python incluindo arquivos de cabeçalho, um compilador, pip, virtualenv e git instalados. A parte do compilador é a mais complicada. Como fazer isso depende do seu sistema.
Plataforma | |
---|---|
Ubuntu | Instale dependências no nível do sistema via apt-get : sudo apt-get install build-essential python-dev git . |
Mac | Instale uma versão recente do XCode, incluindo as chamadas "Ferramentas de Linha de Comando". macOS e OS X vêm com Python e git pré-instalados. |
Windows | Instale uma versão do Visual C++ Build Tools ou do Visual Studio Express que corresponda à versão usada para compilar seu interpretador Python. |
Para obter mais detalhes e instruções, consulte a documentação sobre como compilar spaCy a partir do código-fonte e o widget de início rápido para obter os comandos corretos para sua plataforma e versão Python.
git clone https://github.com/explosion/spaCy
cd spaCy
python -m venv .env
source .env/bin/activate
# make sure you are using the latest pip
python -m pip install -U pip setuptools wheel
pip install -r requirements.txt
pip install --no-build-isolation --editable .
Para instalar com extras:
pip install --no-build-isolation --editable .[lookups,cuda102]
spaCy vem com um extenso conjunto de testes. Para executar os testes, normalmente você desejará clonar o repositório e construir o spaCy a partir do código-fonte. Isso também instalará as dependências de desenvolvimento e os utilitários de teste necessários definidos em requirements.txt
.
Alternativamente, você pode executar pytest
nos testes do pacote spacy
instalado. Não se esqueça de instalar também os utilitários de teste por meio do requirements.txt
do spaCy:
pip install -r requirements.txt
python -m pytest --pyargs spacy