spaCy adalah perpustakaan untuk Pemrosesan Bahasa Alami tingkat lanjut dengan Python dan Cython. Ini dibuat berdasarkan penelitian terbaru, dan dirancang sejak hari pertama untuk digunakan dalam produk nyata.
spaCy hadir dengan pipeline yang telah dilatih sebelumnya dan saat ini mendukung tokenisasi dan pelatihan untuk 70+ bahasa . Ini menampilkan model jaringan saraf dan kecepatan canggih untuk penandaan, penguraian, pengenalan entitas bernama , klasifikasi teks , dan banyak lagi, pembelajaran multi-tugas dengan transformator terlatih seperti BERT, serta sistem pelatihan siap produksi dan model yang mudah pengemasan, penerapan, dan manajemen alur kerja. spaCy adalah perangkat lunak sumber terbuka komersial, dirilis di bawah lisensi MIT.
? Versi 3.7 keluar sekarang! Lihat catatan rilisnya di sini.
Dokumentasi | |
---|---|
️ spaCy 101 | Baru mengenal spaCy? Inilah semua yang perlu Anda ketahui! |
Panduan Penggunaan | Cara menggunakan spaCy dan fitur-fiturnya. |
Baru di v3.0 | Fitur baru, ketidakcocokan ke belakang, dan panduan migrasi. |
? Templat Proyek | Alur kerja menyeluruh yang dapat Anda tiru, ubah, dan jalankan. |
? Referensi API | Referensi mendetail untuk API spaCy. |
⏩ Pemrosesan GPU | Gunakan spaCy dengan pemrosesan GPU yang kompatibel dengan CUDA. |
? Model | Unduh saluran pipa terlatih untuk spaCy. |
? Model Bahasa Besar | Integrasikan LLM ke dalam saluran spaCy. |
? Semesta | Plugin, ekstensi, demo, dan buku dari ekosistem spaCy. |
Ekstensi Kode VS spaCy | Perkakas dan fitur tambahan untuk bekerja dengan file konfigurasi spaCy. |
?? Kursus Daring | Pelajari spaCy dalam kursus online gratis dan interaktif ini. |
? blog | Baca tentang pengembangan spaCy dan Prodigy terkini, rilis, pembicaraan, dan lainnya dari Explosion. |
Video | Saluran YouTube kami dengan tutorial video, pembicaraan, dan banyak lagi. |
? log perubahan | Perubahan dan riwayat versi. |
? Menyumbang | Bagaimana berkontribusi pada proyek spaCy dan basis kode. |
? Barang curian | Dukung kami dan pekerjaan kami dengan barang curian unik yang dirancang khusus! |
Konsultasi, implementasi, dan saran strategis NLP khusus oleh tim pengembangan inti spaCy. Efisien, siap produksi, dapat diprediksi, dan dipelihara. Kirimi kami email atau isi kuesioner 5 menit kami, dan kami akan terus menghubungi Anda! Pelajari lebih lanjut → |
Proyek spaCy dikelola oleh tim spaCy. Harap dipahami bahwa kami tidak dapat memberikan dukungan individu melalui email. Kami juga percaya bahwa bantuan akan jauh lebih berharga jika dibagikan secara publik, sehingga lebih banyak orang dapat memperoleh manfaatnya.
Jenis | Platform |
---|---|
Laporan Bug | Pelacak Masalah GitHub |
? Permintaan & Ide Fitur | Diskusi GitHub |
? Pertanyaan Penggunaan | Diskusi GitHub · Stack Overflow |
? Diskusi Umum | Diskusi GitHub |
Untuk lebih jelasnya lihat fakta, angka dan tolok ukurnya.
Untuk petunjuk instalasi terperinci, lihat dokumentasi.
conda-forge
) Menggunakan pip, rilis spaCy tersedia sebagai paket sumber dan roda biner. Sebelum Anda menginstal spaCy dan dependensinya, pastikan pip
, setuptools
, dan wheel
Anda sudah yang terbaru.
pip install -U pip setuptools wheel
pip install spacy
Untuk memasang tabel data tambahan untuk lemmatisasi dan normalisasi, Anda dapat menjalankan pip install spacy[lookups]
atau instal spacy-lookups-data
secara terpisah. Paket pencarian diperlukan untuk membuat model kosong dengan data lemmatisasi, dan untuk melakukan lemmatisasi dalam bahasa yang belum dilengkapi dengan model terlatih dan tidak didukung oleh pustaka pihak ketiga.
Saat menggunakan pip, umumnya disarankan untuk menginstal paket di lingkungan virtual untuk menghindari perubahan status sistem:
python -m venv .env
source .env/bin/activate
pip install -U pip setuptools wheel
pip install spacy
Anda juga dapat menginstal spaCy dari conda
melalui saluran conda-forge
. Untuk bahan baku termasuk resep dan konfigurasi build, lihat repositori ini.
conda install -c conda-forge spacy
Beberapa pembaruan pada spaCy mungkin memerlukan pengunduhan model statistik baru. Jika Anda menjalankan spaCy v2.0 atau lebih tinggi, Anda dapat menggunakan perintah validate
untuk memeriksa apakah model yang Anda instal kompatibel dan jika tidak, cetak detail tentang cara memperbaruinya:
pip install -U spacy
python -m spacy validate
Jika Anda telah melatih model Anda sendiri, ingatlah bahwa masukan pelatihan dan waktu proses Anda harus cocok. Setelah memperbarui spaCy, kami menyarankan untuk melatih ulang model Anda dengan versi baru.
Untuk detail tentang peningkatan dari spaCy 2.x ke spaCy 3.x, lihat panduan migrasi.
Saluran pipa terlatih untuk spaCy dapat diinstal sebagai paket Python . Artinya, mereka adalah komponen aplikasi Anda, sama seperti modul lainnya. Model dapat diinstal menggunakan perintah download
spaCy, atau secara manual dengan mengarahkan pip ke jalur atau URL.
Dokumentasi | |
---|---|
Saluran Pipa yang Tersedia | Deskripsi saluran pipa terperinci, angka akurasi, dan tolok ukur. |
Dokumentasi Model | Petunjuk penggunaan dan pemasangan terperinci. |
Pelatihan | Cara melatih saluran Anda sendiri pada data Anda. |
# Download best-matching version of specific model for your spaCy installation
python -m spacy download en_core_web_sm
# pip install .tar.gz archive or .whl from path or URL
pip install /Users/you/en_core_web_sm-3.0.0.tar.gz
pip install /Users/you/en_core_web_sm-3.0.0-py3-none-any.whl
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0.tar.gz
Untuk memuat model, gunakan spacy.load()
dengan nama model atau jalur ke direktori data model.
import spacy
nlp = spacy . load ( "en_core_web_sm" )
doc = nlp ( "This is a sentence." )
Anda juga dapat import
model secara langsung melalui nama lengkapnya dan kemudian memanggil metode load()
tanpa argumen.
import spacy
import en_core_web_sm
nlp = en_core_web_sm . load ()
doc = nlp ( "This is a sentence." )
Untuk info lebih lanjut dan contoh, lihat dokumentasi model.
Cara lain untuk menginstal spaCy adalah dengan mengkloning repositori GitHub dan membangunnya dari sumber. Itu adalah cara yang umum jika Anda ingin melakukan perubahan pada basis kode. Anda harus memastikan bahwa Anda memiliki lingkungan pengembangan yang terdiri dari distribusi Python termasuk file header, kompiler, pip, virtualenv, dan git terinstal. Bagian kompiler adalah yang paling sulit. Cara melakukannya bergantung pada sistem Anda.
Platform | |
---|---|
Ubuntu | Instal dependensi tingkat sistem melalui apt-get : sudo apt-get install build-essential python-dev git . |
Mac | Instal XCode versi terbaru, termasuk apa yang disebut "Alat Baris Perintah". macOS dan OS X dikirimkan dengan Python dan git yang sudah diinstal sebelumnya. |
jendela | Instal versi Visual C++ Build Tools atau Visual Studio Express yang cocok dengan versi yang digunakan untuk mengkompilasi interpreter Python Anda. |
Untuk detail dan instruksi lebih lanjut, lihat dokumentasi tentang kompilasi spaCy dari sumber dan widget mulai cepat untuk mendapatkan perintah yang tepat untuk platform dan versi Python Anda.
git clone https://github.com/explosion/spaCy
cd spaCy
python -m venv .env
source .env/bin/activate
# make sure you are using the latest pip
python -m pip install -U pip setuptools wheel
pip install -r requirements.txt
pip install --no-build-isolation --editable .
Untuk menginstal dengan tambahan:
pip install --no-build-isolation --editable .[lookups,cuda102]
spaCy hadir dengan rangkaian pengujian yang ekstensif. Untuk menjalankan pengujian, Anda biasanya ingin mengkloning repositori dan membangun spaCy dari sumber. Ini juga akan menginstal dependensi pengembangan yang diperlukan dan menguji utilitas yang ditentukan dalam requirements.txt
.
Alternatifnya, Anda dapat menjalankan pytest
pada pengujian dari dalam paket spacy
yang terinstal. Jangan lupa juga menginstal utilitas pengujian melalui requirements.txt
spaCy.txt :
pip install -r requirements.txt
python -m pytest --pyargs spacy