spaCy は、Python および Cython の高度な自然言語処理のためのライブラリです。これは最新の研究に基づいて構築されており、実際の製品で使用できるように最初から設計されています。
spaCy には事前トレーニングされたパイプラインが付属しており、現在70 以上の言語のトークン化とトレーニングをサポートしています。タグ付け、解析、固有表現認識、テキスト分類などのための最先端のスピードとニューラル ネットワーク モデル、BERT などの事前トレーニング済みトランスフォーマーによるマルチタスク学習、運用準備が整ったトレーニング システムと簡単なモデルを特徴としています。パッケージ化、導入、ワークフロー管理。 spaCy は商用のオープンソース ソフトウェアであり、MIT ライセンスに基づいてリリースされています。
?バージョン 3.7 がリリースされました!ここでリリースノートを確認してください。
ドキュメント | |
---|---|
️スペイシー101 | spaCy は初めてですか?知っておくべきことはすべてここにあります! |
利用ガイド | spaCyの使い方と特徴。 |
v3.0の新機能 | 新機能、下位非互換性、および移行ガイド。 |
?プロジェクトテンプレート | エンドツーエンドのワークフローを複製、変更、実行できます。 |
? APIリファレンス | spaCyのAPIの詳細なリファレンスです。 |
⏩ GPU処理 | spaCy は CUDA 互換の GPU 処理で使用します。 |
?モデル | spaCy 用のトレーニング済みパイプラインをダウンロードします。 |
?大規模な言語モデル | LLM を spaCy パイプラインに統合します。 |
?宇宙 | spaCy エコシステムのプラグイン、拡張機能、デモ、書籍。 |
spaCy VS コード拡張機能 | spaCy の構成ファイルを操作するための追加のツールと機能。 |
??オンラインコース | この無料のインタラクティブなオンライン コースで spaCy を学びましょう。 |
?ブログ | Explosion の現在の spaCy と Prodigy の開発、リリース、講演などについてお読みください。 |
動画 | ビデオチュートリアルや講演などを備えた YouTube チャンネル。 |
?変更履歴 | 変更点とバージョン履歴。 |
?貢献する | spaCy プロジェクトとコードベースに貢献する方法。 |
?みやげ品 | ユニークなカスタムデザインのグッズで私たちと私たちの仕事をサポートしてください! |
spaCy のコア開発チームによるカスタム NLP コンサルティング、実装、および戦略的アドバイス。合理化され、本番環境に対応し、予測可能で保守可能です。メールでお問い合わせいただくか、5 分間のアンケートにご協力ください。ぜひご連絡ください。さらに詳しく→ |
spaCy プロジェクトは spaCy チームによって維持されています。メールでの個別サポートは行っておりませんので、ご了承ください。また、支援は公的に共有され、より多くの人が恩恵を受けることができるほど価値が高いと私たちは考えています。
タイプ | プラットフォーム |
---|---|
バグレポート | GitHub 問題トラッカー |
?機能のリクエストとアイデア | GitHub ディスカッション |
? 使用上の質問 | GitHub ディスカッション · スタック オーバーフロー |
?一般的な議論 | GitHub ディスカッション |
詳細については、事実、数値、ベンチマークを参照してください。
インストール手順の詳細については、ドキュメントを参照してください。
conda-forge
経由)pip を使用すると、spaCy リリースはソース パッケージおよびバイナリ ホイールとして利用できます。 spaCy とその依存関係をインストールする前に、 pip
、 setuptools
、およびwheel
最新であることを確認してください。
pip install -U pip setuptools wheel
pip install spacy
見出し語化と正規化用に追加のデータ テーブルをインストールするにはpip install spacy[lookups]
実行するか、 spacy-lookups-data
個別にインストールします。 lookups パッケージは、見出し語化データを含む空のモデルを作成したり、事前トレーニングされたモデルがまだ付属しておらず、サードパーティのライブラリを利用していない言語で見出し語化を行うために必要です。
pip を使用する場合は、システム状態の変更を避けるために、仮想環境にパッケージをインストールすることが一般的に推奨されます。
python -m venv .env
source .env/bin/activate
pip install -U pip setuptools wheel
pip install spacy
conda-forge
チャネルを介してconda
から spaCy をインストールすることもできます。ビルドレシピと構成を含むフィードストックについては、このリポジトリをチェックしてください。
conda install -c conda-forge spacy
spaCy の一部の更新では、新しい統計モデルのダウンロードが必要になる場合があります。 spaCy v2.0 以降を実行している場合は、 validate
コマンドを使用して、インストールされているモデルに互換性があるかどうかを確認し、互換性がない場合は、更新方法の詳細を出力できます。
pip install -U spacy
python -m spacy validate
独自のモデルをトレーニングした場合は、トレーニングと実行時の入力が一致する必要があることに留意してください。 spaCy を更新した後、新しいバージョンでモデルを再トレーニングすることをお勧めします。
spaCy 2.x から spaCy 3.x へのアップグレードの詳細については、移行ガイドを参照してください。
spaCy 用のトレーニング済みパイプラインは、 Python パッケージとしてインストールできます。これは、他のモジュールと同様に、それらがアプリケーションのコンポーネントであることを意味します。モデルは、spaCy のdownload
コマンドを使用するか、pip にパスまたは URL を指定することによって手動でインストールできます。
ドキュメント | |
---|---|
利用可能なパイプライン | パイプラインの詳細な説明、精度の数値、ベンチマーク。 |
モデルのドキュメント | 詳しい使用方法とインストール手順。 |
トレーニング | データに基づいて独自のパイプラインをトレーニングする方法。 |
# Download best-matching version of specific model for your spaCy installation
python -m spacy download en_core_web_sm
# pip install .tar.gz archive or .whl from path or URL
pip install /Users/you/en_core_web_sm-3.0.0.tar.gz
pip install /Users/you/en_core_web_sm-3.0.0-py3-none-any.whl
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0.tar.gz
モデルをロードするには、モデル名またはモデル データ ディレクトリへのパスを指定してspacy.load()
を使用します。
import spacy
nlp = spacy . load ( "en_core_web_sm" )
doc = nlp ( "This is a sentence." )
フルネームを使用してモデルを直接import
、引数なしでそのload()
メソッドを呼び出すこともできます。
import spacy
import en_core_web_sm
nlp = en_core_web_sm . load ()
doc = nlp ( "This is a sentence." )
詳細と例については、モデルのドキュメントを参照してください。
spaCy をインストールするもう 1 つの方法は、GitHub リポジトリのクローンを作成し、ソースからビルドすることです。これは、コードベースに変更を加えたい場合の一般的な方法です。ヘッダー ファイル、コンパイラ、pip、virtualenv、git がインストールされた Python ディストリビューションで構成される開発環境があることを確認する必要があります。コンパイラ部分は最も注意が必要です。その方法はシステムによって異なります。
プラットフォーム | |
---|---|
Ubuntu | apt-get 経由でシステムレベルの依存関係をインストールします: sudo apt-get install build-essential python-dev git 。 |
マック | いわゆる「コマンド ライン ツール」を含む、XCode の最新バージョンをインストールします。 macOS と OS X には、Python と git がプリインストールされて出荷されます。 |
窓 | Python インタープリターのコンパイルに使用されたバージョンと一致するバージョンの Visual C++ Build Tools または Visual Studio Express をインストールします。 |
詳細と手順については、ソースからの spaCy のコンパイルに関するドキュメントとクイックスタート ウィジェットを参照して、プラットフォームと Python バージョンに適したコマンドを取得してください。
git clone https://github.com/explosion/spaCy
cd spaCy
python -m venv .env
source .env/bin/activate
# make sure you are using the latest pip
python -m pip install -U pip setuptools wheel
pip install -r requirements.txt
pip install --no-build-isolation --editable .
エクストラを使用してインストールするには:
pip install --no-build-isolation --editable .[lookups,cuda102]
spaCy には広範なテストスイートが付属しています。テストを実行するには、通常、リポジトリのクローンを作成し、ソースから spaCy をビルドします。これにより、 requirements.txt
で定義されている必要な開発依存関係とテスト ユーティリティもインストールされます。
あるいは、インストールされたspacy
パッケージ内からテストに対してpytest
実行することもできます。 spaCy のrequirements.txt
経由でテスト ユーティリティをインストールすることも忘れないでください。
pip install -r requirements.txt
python -m pytest --pyargs spacy