spacy sentence bert Télécharger - spacy sentence bert Téléchargement du code source

spacy sentence bert

Autre code source

v0.1.2

Télécharger

Phrase-BERT pour spaCy

Ce package encapsule les transformateurs de phrases (également connus sous le nom de phrase-BERT) directement dans spaCy. Vous pouvez remplacer les vecteurs fournis dans n'importe quel modèle spaCy par des vecteurs spécifiquement optimisés pour la similarité sémantique.

Les modèles ci-dessous sont suggérés pour analyser la similarité des phrases, comme l'indique le benchmark STS. Gardez à l'esprit que sentence-transformers sont configurés avec une longueur de séquence maximale de 128. Par conséquent, pour des textes plus longs, il peut être plus approprié de travailler avec d'autres modèles (par exemple Universal Sentence Encoder).

Installer

Compatibilité:

python3.7/3.8/3.9/3.10
spaCy>=3.0.0,<4.0.0, dernier test sur la version 3.5
transformateurs de phrases : testés sur la version 2.2.2

Pour installer ce package, vous pouvez exécuter l'une des opérations suivantes :

pip install spacy-sentence-bert
pip install git+https://github.com/MartinoMensio/spacy-sentence-bert.git

Vous pouvez installer des packages spaCy autonomes à partir de GitHub avec pip. Si vous installez des packages autonomes, vous pourrez charger un modèle de langage directement à l'aide de l'API spacy.load , sans avoir besoin d'ajouter une étape de pipeline. Ce tableau prend les modèles répertoriés dans la documentation de Sentence Transformers et présente quelques statistiques ainsi que les instructions pour installer les modèles autonomes. Si vous ne souhaitez pas installer les modèles autonomes, vous pouvez toujours les utiliser en ajoutant une étape de pipeline (voir ci-dessous).

phrase-nom BERT	nom du modèle spatial	dimensions	langue	Référence STS	installation autonome
`paraphrase-distilroberta-base-v1`	`en_paraphrase_distilroberta_base_v1`	768	fr	81,81	`pip install https://github.com/MartinoMensio/spacy-sentence-bert/releases/download/v0.1.2/en_paraphrase_distilroberta_base_v1-0.1.2.tar.gz#en_paraphrase_distilroberta_base_v1-0.1.2`
`paraphrase-xlm-r-multilingual-v1`	`xx_paraphrase_xlm_r_multilingual_v1`	768	50+	83,50	`pip install https://github.com/MartinoMensio/spacy-sentence-bert/releases/download/v0.1.2/xx_paraphrase_xlm_r_multilingual_v1-0.1.2.tar.gz#xx_paraphrase_xlm_r_multilingual_v1-0.1.2`
`stsb-roberta-large`	`en_stsb_roberta_large`	1024	fr	86.39	`pip install https://github.com/MartinoMensio/spacy-sentence-bert/releases/download/v0.1.2/en_stsb_roberta_large-0.1.2.tar.gz#en_stsb_roberta_large-0.1.2`
`stsb-roberta-base`	`en_stsb_roberta_base`	768	fr	85.44	`pip install https://github.com/MartinoMensio/spacy-sentence-bert/releases/download/v0.1.2/en_stsb_roberta_base-0.1.2.tar.gz#en_stsb_roberta_base-0.1.2`
`stsb-bert-large`	`en_stsb_bert_large`	1024	fr	85.29	`pip install https://github.com/MartinoMensio/spacy-sentence-bert/releases/download/v0.1.2/en_stsb_bert_large-0.1.2.tar.gz#en_stsb_bert_large-0.1.2`
`stsb-distilbert-base`	`en_stsb_distilbert_base`	768	fr	85.16	`pip install https://github.com/MartinoMensio/spacy-sentence-bert/releases/download/v0.1.2/en_stsb_distilbert_base-0.1.2.tar.gz#en_stsb_distilbert_base-0.1.2`
`stsb-bert-base`	`en_stsb_bert_base`	768	fr	85.14	`pip install https://github.com/MartinoMensio/spacy-sentence-bert/releases/download/v0.1.2/en_stsb_bert_base-0.1.2.tar.gz#en_stsb_bert_base-0.1.2`
`nli-bert-large`	`en_nli_bert_large`	1024	fr	79.19	`pip install https://github.com/MartinoMensio/spacy-sentence-bert/releases/download/v0.1.2/en_nli_bert_large-0.1.2.tar.gz#en_nli_bert_large-0.1.2`
`nli-distilbert-base`	`en_nli_distilbert_base`	768	fr	78,69	`pip install https://github.com/MartinoMensio/spacy-sentence-bert/releases/download/v0.1.2/en_nli_distilbert_base-0.1.2.tar.gz#en_nli_distilbert_base-0.1.2`
`nli-roberta-large`	`en_nli_roberta_large`	1024	fr	78,69	`pip install https://github.com/MartinoMensio/spacy-sentence-bert/releases/download/v0.1.2/en_nli_roberta_large-0.1.2.tar.gz#en_nli_roberta_large-0.1.2`
`nli-bert-large-max-pooling`	`en_nli_bert_large_max_pooling`	1024	fr	78.41	`pip install https://github.com/MartinoMensio/spacy-sentence-bert/releases/download/v0.1.2/en_nli_bert_large_max_pooling-0.1.2.tar.gz#en_nli_bert_large_max_pooling-0.1.2`
`nli-bert-large-cls-pooling`	`en_nli_bert_large_cls_pooling`	1024	fr	78.29	`pip install https://github.com/MartinoMensio/spacy-sentence-bert/releases/download/v0.1.2/en_nli_bert_large_cls_pooling-0.1.2.tar.gz#en_nli_bert_large_cls_pooling-0.1.2`
`nli-distilbert-base-max-pooling`	`en_nli_distilbert_base_max_pooling`	768	fr	77.61	`pip install https://github.com/MartinoMensio/spacy-sentence-bert/releases/download/v0.1.2/en_nli_distilbert_base_max_pooling-0.1.2.tar.gz#en_nli_distilbert_base_max_pooling-0.1.2`
`nli-roberta-base`	`en_nli_roberta_base`	768	fr	77.49	`pip install https://github.com/MartinoMensio/spacy-sentence-bert/releases/download/v0.1.2/en_nli_roberta_base-0.1.2.tar.gz#en_nli_roberta_base-0.1.2`
`nli-bert-base-max-pooling`	`en_nli_bert_base_max_pooling`	768	fr	77.21	`pip install https://github.com/MartinoMensio/spacy-sentence-bert/releases/download/v0.1.2/en_nli_bert_base_max_pooling-0.1.2.tar.gz#en_nli_bert_base_max_pooling-0.1.2`
`nli-bert-base`	`en_nli_bert_base`	768	fr	77.12	`pip install https://github.com/MartinoMensio/spacy-sentence-bert/releases/download/v0.1.2/en_nli_bert_base-0.1.2.tar.gz#en_nli_bert_base-0.1.2`
`nli-bert-base-cls-pooling`	`en_nli_bert_base_cls_pooling`	768	fr	76h30	`pip install https://github.com/MartinoMensio/spacy-sentence-bert/releases/download/v0.1.2/en_nli_bert_base_cls_pooling-0.1.2.tar.gz#en_nli_bert_base_cls_pooling-0.1.2`
`average_word_embeddings_glove.6B.300d`	`en_average_word_embeddings_glove.6B.300d`	768	fr	61,77	`pip install https://github.com/MartinoMensio/spacy-sentence-bert/releases/download/v0.1.2/en_average_word_embeddings_glove.6B.300d-0.1.2.tar.gz#en_average_word_embeddings_glove.6B.300d-0.1.2`
`average_word_embeddings_komninos`	`en_average_word_embeddings_komninos`	768	fr	61,56	`pip install https://github.com/MartinoMensio/spacy-sentence-bert/releases/download/v0.1.2/en_average_word_embeddings_komninos-0.1.2.tar.gz#en_average_word_embeddings_komninos-0.1.2`
`average_word_embeddings_levy_dependency`	`en_average_word_embeddings_levy_dependency`	768	fr	59.22	`pip install https://github.com/MartinoMensio/spacy-sentence-bert/releases/download/v0.1.2/en_average_word_embeddings_levy_dependency-0.1.2.tar.gz#en_average_word_embeddings_levy_dependency-0.1.2`
`average_word_embeddings_glove.840B.300d`	`en_average_word_embeddings_glove.840B.300d`	768	fr	52.54	`pip install https://github.com/MartinoMensio/spacy-sentence-bert/releases/download/v0.1.2/en_average_word_embeddings_glove.840B.300d-0.1.2.tar.gz#en_average_word_embeddings_glove.840B.300d-0.1.2`
`quora-distilbert-base`	`en_quora_distilbert_base`	768	fr	N / A	`pip install https://github.com/MartinoMensio/spacy-sentence-bert/releases/download/v0.1.2/en_quora_distilbert_base-0.1.2.tar.gz#en_quora_distilbert_base-0.1.2`
`quora-distilbert-multilingual`	`xx_quora_distilbert_multilingual`	768	50+	N / A	`pip install https://github.com/MartinoMensio/spacy-sentence-bert/releases/download/v0.1.2/xx_quora_distilbert_multilingual-0.1.2.tar.gz#xx_quora_distilbert_multilingual-0.1.2`
`msmarco-distilroberta-base-v2`	`en_msmarco_distilroberta_base_v2`	768	fr	N / A	`pip install https://github.com/MartinoMensio/spacy-sentence-bert/releases/download/v0.1.2/en_msmarco_distilroberta_base_v2-0.1.2.tar.gz#en_msmarco_distilroberta_base_v2-0.1.2`
`msmarco-roberta-base-v2`	`en_msmarco_roberta_base_v2`	768	fr	N / A	`pip install https://github.com/MartinoMensio/spacy-sentence-bert/releases/download/v0.1.2/en_msmarco_roberta_base_v2-0.1.2.tar.gz#en_msmarco_roberta_base_v2-0.1.2`
`msmarco-distilbert-base-v2`	`en_msmarco_distilbert_base_v2`	768	fr	N / A	`pip install https://github.com/MartinoMensio/spacy-sentence-bert/releases/download/v0.1.2/en_msmarco_distilbert_base_v2-0.1.2.tar.gz#en_msmarco_distilbert_base_v2-0.1.2`
`nq-distilbert-base-v1`	`en_nq_distilbert_base_v1`	768	fr	N / A	`pip install https://github.com/MartinoMensio/spacy-sentence-bert/releases/download/v0.1.2/en_nq_distilbert_base_v1-0.1.2.tar.gz#en_nq_distilbert_base_v1-0.1.2`
`distiluse-base-multilingual-cased-v2`	`xx_distiluse_base_multilingual_cased_v2`	512	50+	N / A	`pip install https://github.com/MartinoMensio/spacy-sentence-bert/releases/download/v0.1.2/xx_distiluse_base_multilingual_cased_v2-0.1.2.tar.gz#xx_distiluse_base_multilingual_cased_v2-0.1.2`
`stsb-xlm-r-multilingual`	`xx_stsb_xlm_r_multilingual`	768	50+	N / A	`pip install https://github.com/MartinoMensio/spacy-sentence-bert/releases/download/v0.1.2/xx_stsb_xlm_r_multilingual-0.1.2.tar.gz#xx_stsb_xlm_r_multilingual-0.1.2`
`T-Systems-onsite/cross-en-de-roberta-sentence-transformer`	`xx_cross_en_de_roberta_sentence_transformer`	768	fr,de	N / A	`pip install https://github.com/MartinoMensio/spacy-sentence-bert/releases/download/v0.1.2/xx_cross_en_de_roberta_sentence_transformer-0.1.2.tar.gz#xx_cross_en_de_roberta_sentence_transformer-0.1.2`
`LaBSE`	`xx_LaBSE`	768	109	N / A	`pip install https://github.com/MartinoMensio/spacy-sentence-bert/releases/download/v0.1.2/xx_LaBSE-0.1.2.tar.gz#xx_LaBSE-0.1.2`
`allenai-specter`	`en_allenai_specter`	768	fr	N / A	`pip install https://github.com/MartinoMensio/spacy-sentence-bert/releases/download/v0.1.2/en_allenai_specter-0.1.2.tar.gz#en_allenai_specter-0.1.2`

Si votre modèle ne figure pas dans cette liste (par exemple, xlm-r-base-en-ko-nli-ststb ), vous pouvez toujours l'utiliser avec cette bibliothèque mais pas en tant que langage autonome. Vous devrez ajouter une étape de pipeline correctement configurée (voir ci-dessous l'API nlp.add_pipe ).

Usage

Il existe différentes manières de charger les modèles de sentence-bert .

API spacy.load : vous devez avoir installé l'un des modèles du tableau ci-dessus
spacy_sentence_bert.load_model : vous pouvez charger l'un des modèles du tableau ci-dessus sans avoir installé les packages autonomes
API nlp.add_pipe : vous pouvez charger n'importe quel modèle de sentence-bert au-dessus de votre objet nlp

API `spacy.load`

Modèle autonome installé depuis GitHub (par exemple, à partir du tableau ci-dessus, pip install https://github.com/MartinoMensio/spacy-sentence-bert/releases/download/v0.1.2/en_stsb_roberta_large-0.1.2.tar.gz#en_stsb_roberta_large-0.1.2 ), vous pouvez charger directement le modèle avec l'API spaCy :

 import spacy
nlp = spacy . load ( 'en_stsb_roberta_large' )

API `spacy_sentence_bert.load_model`

Vous pouvez obtenir le même résultat sans avoir à installer le modèle autonome, en utilisant cette méthode :

 import spacy_sentence_bert
nlp = spacy_sentence_bert . load_model ( 'en_stsb_roberta_large' )

API `nlp.add_pipe`

Si vous souhaitez utiliser l'une des incorporations de phrases sur un objet Language existant, vous pouvez utiliser la méthode nlp.add_pipe . Cela fonctionne également si vous souhaitez utiliser un modèle de langage qui n'est pas répertorié dans le tableau ci-dessus. Assurez-vous simplement que les transformateurs de phrases le prennent en charge.

 import spacy
nlp = spacy . blank ( 'en' )
nlp . add_pipe ( 'sentence_bert' , config = { 'model_name' : 'allenai-specter' })
nlp . pipe_names

Les modèles, lors de leur première utilisation, téléchargent la phrase-BERT dans le dossier défini avec TORCH_HOME dans les variables d'environnement (par défaut ~/.cache/torch ).

Une fois que vous avez chargé le modèle, utilisez-le via la propriété vector et la méthode similarity de spaCy :

 # get two documents
doc_1 = nlp ( 'Hi there, how are you?' )
doc_2 = nlp ( 'Hello there, how are you doing today?' )
# get the vector of the Doc, Span or Token
print ( doc_1 . vector . shape )
print ( doc_1 [ 3 ]. vector . shape )
print ( doc_1 [ 2 : 4 ]. vector . shape )
# or use the similarity method that is based on the vectors, on Doc, Span or Token
print ( doc_1 . similarity ( doc_2 [ 0 : 7 ]))

Utilitaires

Pour créer et télécharger

VERSION=0.1.2
# build the standalone models (17)
./build_models.sh
# build the archive at dist/spacy_sentence_bert-${VERSION}.tar.gz
python setup.py sdist
# upload to pypi
twine upload dist/spacy_sentence_bert- ${VERSION} .tar.gz

Développer

Informations supplémentaires