spaCy 是一個使用 Python 和 Cython 進行高階自然語言處理的函式庫。它建立在最新的研究之上,從第一天起就被設計用於實際產品。
spaCy 附帶預訓練管道,目前支援70 多種語言的標記化和訓練。它具有最先進的速度和神經網路模型,用於標記、解析、命名實體識別、文字分類等,使用 BERT 等預訓練轉換器進行多任務學習,以及生產就緒的訓練系統和簡單模型打包、部署和工作流程管理。 spaCy 是商業開源軟體,根據 MIT 許可證發布。
? 3.7版本現已推出!請在此處查看發行說明。
文件 | |
---|---|
️斯帕西 101 | spaCy 新手?這是您需要了解的一切! |
使用指南 | 如何使用 spaCy 及其功能。 |
v3.0 中的新功能 | 新功能、向後不相容性和遷移指南。 |
?專案模板 | 您可以複製、修改和運行端到端工作流程。 |
? API參考 | spaCy API 的詳細參考。 |
⏩ GPU 處理 | 將 spaCy 與 CUDA 相容的 GPU 處理結合使用。 |
?型號 | 下載經過訓練的 spaCy 管道。 |
?大型語言模型 | 將法學碩士整合到 spaCy 管道中。 |
?宇宙 | 來自 spaCy 生態系統的插件、擴充、演示和書籍。 |
spaCy VS 代碼擴展 | 用於處理 spaCy 的設定檔的其他工具和功能。 |
??線上課程 | 透過這個免費的互動式線上課程學習 spaCy。 |
?部落格 | 了解 Explosion 中有關 spaCy 和 Prodigy 最新開發、發布、演講等的資訊。 |
影片 | 我們的 YouTube 頻道提供影片教學、講座等。 |
?變更日誌 | 變更和版本歷史記錄。 |
?貢獻 | 如何為 spaCy 專案和程式碼庫做出貢獻。 |
?贓物 | 用獨特的、客製設計的贓物支持我們和我們的工作! |
spaCy 核心開發團隊提供客製化 NLP 諮詢、實施和策略建議。精簡、生產就緒、可預測且可維護。請給我們發送電子郵件或填寫 5 分鐘的問卷,然後與我們聯繫!了解更多→ |
spaCy 專案由 spaCy 團隊維護。請理解,我們無法透過電子郵件提供個人支援。我們也相信,如果公開分享幫助就會更有價值,讓更多的人能從中受益。
類型 | 平台 |
---|---|
錯誤報告 | GitHub 問題追蹤器 |
?功能請求和想法 | GitHub 討論 |
? 使用問題 | GitHub 討論 · Stack Overflow |
?一般性討論 | GitHub 討論 |
欲了解更多詳情,請參閱事實、數據和基準。
有關詳細的安裝說明,請參閱文件。
conda-forge
)使用 pip,spaCy 版本可以作為來源包和二進制輪子提供。在安裝 spaCy 及其依賴項之前,請確保您的pip
、 setuptools
和wheel
是最新的。
pip install -U pip setuptools wheel
pip install spacy
若要安裝其他資料表以進行詞形還原和規範化,您可以執行pip install spacy[lookups]
或單獨安裝spacy-lookups-data
。需要尋找套件來建立具有詞形還原資料的空白模型,並使用尚未附帶預訓練模型且不受第三方函式庫支援的語言進行詞形還原。
使用 pip 時,通常建議在虛擬環境中安裝軟體包以避免修改系統狀態:
python -m venv .env
source .env/bin/activate
pip install -U pip setuptools wheel
pip install spacy
您也可以透過conda-forge
通道從conda
安裝 spaCy。對於包括建造配方和配置的原料,請查看此存儲庫。
conda install -c conda-forge spacy
spaCy 的某些更新可能需要下載新的統計模型。如果您使用的是 spaCy v2.0 或更高版本,您可以使用validate
命令檢查您安裝的模型是否相容,如果不相容,則列印有關如何更新它們的詳細資訊:
pip install -U spacy
python -m spacy validate
如果您已經訓練了自己的模型,請記住您的訓練和運行時輸入必須匹配。更新 spaCy 後,我們建議使用新版本重新訓練您的模型。
有關從 spaCy 2.x 升級到 spaCy 3.x 的詳細信息,請參閱遷移指南。
經過訓練的 spaCy 管道可以作為Python 套件安裝。這意味著它們是您的應用程式的元件,就像任何其他模組一樣。可以使用 spaCy 的download
指令安裝模型,也可以透過將 pip 指向路徑或 URL 來手動安裝。
文件 | |
---|---|
可用管道 | 詳細的管道描述、精度數據和基準。 |
模型文檔 | 詳細的使用和安裝說明。 |
訓練 | 如何根據您的資料訓練您自己的管道。 |
# Download best-matching version of specific model for your spaCy installation
python -m spacy download en_core_web_sm
# pip install .tar.gz archive or .whl from path or URL
pip install /Users/you/en_core_web_sm-3.0.0.tar.gz
pip install /Users/you/en_core_web_sm-3.0.0-py3-none-any.whl
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0.tar.gz
若要載入模型,請使用spacy.load()
和模型名稱或模型資料目錄的路徑。
import spacy
nlp = spacy . load ( "en_core_web_sm" )
doc = nlp ( "This is a sentence." )
您也可以直接透過模型的全名import
模型,然後不帶參數呼叫其load()
方法。
import spacy
import en_core_web_sm
nlp = en_core_web_sm . load ()
doc = nlp ( "This is a sentence." )
有關更多資訊和範例,請查看模型文件。
安裝 spaCy 的另一種方法是克隆其 GitHub 儲存庫並從原始程式碼建置它。如果您想更改程式碼庫,這是常見的方法。您需要確保您擁有一個由 Python 發行版組成的開發環境,其中包括頭檔、編譯器、pip、virtualenv 和安裝的 git。編譯器部分是最棘手的。如何做到這一點取決於您的系統。
平台 | |
---|---|
烏班圖 | 透過apt-get安裝系統層級相依性: sudo apt- apt-get sudo apt-get install build-essential python-dev git 。 |
蘋果 | 安裝最新版本的 XCode,包括所謂的「命令列工具」。 macOS 和 OS X 預先安裝了 Python 和 git。 |
視窗 | 安裝與用於編譯 Python 解釋器的版本相符的 Visual C++ 建置工具或 Visual Studio Express 版本。 |
如需更多詳細資訊和說明,請參閱有關從原始程式碼編譯 spaCy 的文檔和快速入門小部件,以獲得適合您的平台和 Python 版本的正確命令。
git clone https://github.com/explosion/spaCy
cd spaCy
python -m venv .env
source .env/bin/activate
# make sure you are using the latest pip
python -m pip install -U pip setuptools wheel
pip install -r requirements.txt
pip install --no-build-isolation --editable .
若要安裝附加元件:
pip install --no-build-isolation --editable .[lookups,cuda102]
spaCy 附帶了廣泛的測試套件。為了運行測試,您通常需要克隆儲存庫並從原始程式碼建立 spaCy。這也將安裝在requirements.txt
中定義的所需的開發依賴項和測試實用程式。
或者,您可以在已安裝的spacy
套件中對測試執行pytest
。不要忘記也透過 spaCy 的requirements.txt
安裝測試實用程式:
pip install -r requirements.txt
python -m pytest --pyargs spacy