هذا بمثابة شوكة لنموذج المدرب لأن المستودع الأصلي لم يعد موجودًا. لقد قمت أيضًا بإجراء بعض التحسينات على كود المصدر الخاص بهم:
أعلاه 2.2.2.يحتوي هذا المستودع على التعليمات البرمجية والنماذج المدربة مسبقًا لورقتنا One Embedder، Any Task: Instruction-Finetuned Text Embeddings. يرجى الرجوع إلى صفحة المشروع لدينا للحصول على نظرة عامة سريعة على المشروع.
نحن نقدم Instructor ??، وهو نموذج لتضمين النص تم ضبطه بدقة للتعليمات ويمكنه إنشاء تضمينات نصية مخصصة لأي مهمة (على سبيل المثال، التصنيف، والاسترجاع، والتجميع، وتقييم النص، وما إلى ذلك) والمجالات (على سبيل المثال، العلوم، والتمويل، وما إلى ذلك) ببساطة عن طريق توفير تعليمات المهمة، دون أي ضبط دقيق . يقوم المدرب؟ بتحقيق 70 مهمة تضمين متنوعة!
من السهل جدًا استخدام المدرب لأي عمليات تضمين نصية. يمكنك تجربتها بسهولة في دفتر Colab. في جهازك المحلي، نوصي أولاً بإنشاء بيئة افتراضية:
conda env create -n instructor python=3.7
git clone https://github.com/HKUNLP/instructor-embedding
pip install -r requirements.txt
سيؤدي ذلك إلى إنشاء instructor
البيئة الذي استخدمناه. لاستخدام أداة التضمين، قم أولاً بتثبيت حزمة InstructorEmbedding
من PyPI
pip install InstructorEmbedding
أو قم بتثبيته مباشرة من الكود الخاص بنا
pip install -e .
تفعيل البيئة عن طريق التشغيل
conda activate instructor
قم أولاً بتنزيل نموذج تم تدريبه مسبقًا (راجع قائمة النماذج للحصول على قائمة كاملة بالنماذج المتوفرة)
from InstructorEmbedding import INSTRUCTOR
model = INSTRUCTOR ( 'hkunlp/instructor-large' )
ثم قم بتوفير الجملة والتعليمات المخصصة للنموذج.
# prepare texts with instructions
text_instruction_pairs = [
{ "instruction" : "Represent the Science title:" , "text" : "3D ActionSLAM: wearable person tracking in multi-floor environments" },
{ "instruction" : "Represent the Medicine sentence for retrieving a duplicate sentence:" , "text" : "Recent studies have suggested that statins, an established drug group in the prevention of cardiovascular mortality, could delay or prevent breast cancer recurrence but the effect on disease-specific mortality remains unclear." }
# postprocess
texts_with_instructions = []
for pair in text_instruction_pairs :
texts_with_instructions . append ([ pair [ "instruction" ], pair [ "text" ]])
# calculate embeddings
customized_embeddings = model . encode ( texts_with_instructions )
وهذا كل شيء بالفعل. لدينا الآن قائمة بالمصفوفات numpy مع التضمينات.
for pair , embedding in zip ( text_instruction_pairs , customized_embeddings ):
print ( "Instruction: " , pair [ "instruction" ])
print ( "text: " , pair [ "text" ])
print ( "Embedding: " , embedding )
print ( "" )
يحتاج مستخدمو النموذج إلى استخدام وظيفة encode
model . encode ( sentences ,
batch_size : int = 32 ,
show_progress_bar : bool = None ,
output_value : str = 'sentence_embedding' ,
convert_to_numpy : bool = True ,
convert_to_tensor : bool = False ,
device : str = None ,
normalize_embeddings : bool = False )
: الجمل المراد تضمينها. يجب أن يكون بتنسيق [["instruction prompt 0", "text to be embedded 0], ["instruction prompt 1", "text to be embedded 1], ...]
(الافتراضي: 32): حجم الدفعة المستخدمة في الحساب. ويحدد عدد الجمل التي تمت معالجتها معًا في كل دفعة.show_progress_bar
(الافتراضي: لا شيء): إذا تم التعيين على True
، فإنه يعرض شريط التقدم أثناء تشفير الجمل، مما يوفر إشارة مرئية لتقدم التشفير.output_value
(الافتراضي: 'sentence_embedding'): يحدد نوع الإخراج المطلوب. القيمة الافتراضية "sentence_embedding" تُرجع تضمينات الجملة. يؤدي تعيينه على "token_embeddings" إلى إرجاع تضمينات الرمز المميز للنص. يؤدي تعيينه إلى لا شيء إلى إرجاع كافة قيم الإخراج.convert_to_numpy
(افتراضي: True
): إذا تم التعيين على True
، فستكون النتيجة عبارة عن قائمة من المتجهات numpy. إذا تم التعيين على False
، فسيكون الناتج عبارة عن قائمة بموترات PyTorch.convert_to_tensor
(افتراضي: False
): إذا تم ضبطها على True
، فستُرجع الدالة موترًا مكدسًا كمخرج واحد. تتجاوز هذه المعلمة أي إعداد محدد بواسطة convert_to_numpy
(الافتراضي: لا شيء): يحدد torch.device الذي سيتم استخدامه في الحساب. إذا لم يتم تحديدها، تستخدم الوظيفة الجهاز الافتراضي.normalize_embeddings
(افتراضي: False
): إذا تم ضبطه على True
، فسيكون طول المتجهات التي تم إرجاعها 1، مما يشير إلى أنها تمت تسويتها. في هذه الحالة، سيستخدم بحث التشابه المنتج النقطي الأسرع ( util.dot_score
)، بدلاً من تشابه جيب التمام. لقد أصدرنا سلسلة من نقاط تفتيش المدرب بأحجام مختلفة. يمكنك بسهولة تحميل هذه النماذج باستخدام حزمة InstructorEmbedding
نموذج | متوسط نتيجة |
hkunlp/instructor-base | 55.9 |
hkunlp/instructor-large | 58.4 |
hkunlp/instructor-xl | 58.8 |
نحن نقدم بعض حالات الاستخدام المحددة في ما يلي. لمزيد من الأمثلة والتطبيقات، راجع ورقتنا
إذا كنت تريد حساب التضمينات المخصصة لجمل محددة، فيمكنك اتباع القالب الموحد لكتابة التعليمات:
قم بتمثيل domain
لـ task_objective
اختياري، وهو يحدد مجال النص، على سبيل المثال، العلوم، المالية، الطب، الخ.text_type
، وهو يحدد وحدة التشفير، على سبيل المثال، الجملة، الوثيقة، الفقرة، الخ.task_objective
اختياريًا، ويحدد الهدف من التضمين، على سبيل المثال، استرداد مستند، وتصنيف الجملة، وما إلى ذلك.يمكنك استخدام INSTRUCTOR لحساب أوجه التشابه بين مجموعتين من الجمل، باستخدام عمليات التضمين المخصصة .
from sklearn . metrics . pairwise import cosine_similarity
sentences_a = [[ 'Represent the Science sentence: ' , 'Parton energy loss in QCD matter' ],
[ 'Represent the Financial statement: ' , 'The Federal Reserve on Wednesday raised its benchmark interest rate.' ]]
sentences_b = [[ 'Represent the Science sentence: ' , 'The Chiral Phase Transition in Dissipative Dynamics' ],
[ 'Represent the Financial statement: ' , 'The funds rose less than 0.5 per cent on Friday' ]]
embeddings_a = model . encode ( sentences_a )
embeddings_b = model . encode ( sentences_b )
similarities = cosine_similarity ( embeddings_a , embeddings_b )
import numpy as np
from sklearn . metrics . pairwise import cosine_similarity
query = [[ 'Represent the Wikipedia question for retrieving supporting documents: ' , 'where is the food stored in a yam plant' ]]
corpus = [[ 'Represent the Wikipedia document for retrieval: ' , 'Capitalism has been dominant in the Western world since the end of feudalism, but most feel[who?] that the term "mixed economies" more precisely describes most contemporary economies, due to their containing both private-owned and state-owned enterprises. In capitalism, prices determine the demand-supply scale. For example, higher demand for certain goods and services lead to higher prices and lower demand for certain goods lead to lower prices.' ],
[ 'Represent the Wikipedia document for retrieval: ' , "The disparate impact theory is especially controversial under the Fair Housing Act because the Act regulates many activities relating to housing, insurance, and mortgage loans—and some scholars have argued that the theory's use under the Fair Housing Act, combined with extensions of the Community Reinvestment Act, contributed to rise of sub-prime lending and the crash of the U.S. housing market and ensuing global economic recession" ],
[ 'Represent the Wikipedia document for retrieval: ' , 'Disparate impact in United States labor law refers to practices in employment, housing, and other areas that adversely affect one group of people of a protected characteristic more than another, even though rules applied by employers or landlords are formally neutral. Although the protected classes vary by statute, most federal civil rights laws protect based on race, color, religion, national origin, and sex as protected traits, and some laws include disability status and other traits as well.' ]]
query_embeddings = model . encode ( query )
corpus_embeddings = model . encode ( corpus )
similarities = cosine_similarity ( query_embeddings , corpus_embeddings )
retrieved_doc_id = np . argmax ( similarities )
print ( retrieved_doc_id )
import sklearn . cluster
sentences = [[ 'Represent the Medicine sentence for clustering: ' , 'Dynamical Scalar Degree of Freedom in Horava-Lifshitz Gravity' ],
[ 'Represent the Medicine sentence for clustering: ' , 'Comparison of Atmospheric Neutrino Flux Calculations at Low Energies' ],
[ 'Represent the Medicine sentence for clustering: ' , 'Fermion Bags in the Massive Gross-Neveu Model' ],
[ 'Represent the Medicine sentence for clustering: ' , "QCD corrections to Associated t-tbar-H production at the Tevatron" ],
[ 'Represent the Medicine sentence for clustering: ' , 'A New Analysis of the R Measurements: Resonance Parameters of the Higher, Vector States of Charmonium' ]]
embeddings = model . encode ( sentences )
clustering_model = sklearn . cluster . MiniBatchKMeans ( n_clusters = 2 )
clustering_model . fit ( embeddings )
cluster_assignment = clustering_model . labels_
print ( cluster_assignment )
نقوم ببناء بيانات تضمين المهام المتعددة مع التعليمات (MEDI)، والتي تتكون من مجموعة من 330 مجموعة بيانات من Super-NI (التعليمات الطبيعية الفائقة)، وبيانات التدريب التي تتضمن محولات الجملة، وKILT وMedMCQA، والتي تغطي مجموعة واسعة من المجالات والمهام. نقوم ببناء أزواج موجبة وسالبة إذا لم يتم توفيرها، ونخزنها بصيغة موحدة:
{'query': ['Represent the Wikipedia question for retrieving relevant documents;', 'big little lies season 2 how many episodes'], 'pos': ['Represent the Wikipedia document for retrieval;', 'Big Little Lies (TV series) series garnered several accolades. It received 16 Emmy Award nominations and won eight, including Outstanding Limited Series and acting awards for Kidman, Skarsgård, and Dern. The trio also won Golden Globe Awards in addition to a Golden Globe Award for Best Miniseries or Television Film win for the series. Kidman and Skarsgård also received Screen Actors Guild Awards for their performances. Despite originally being billed as a miniseries, HBO renewed the series for a second season. Production on the second season began in March 2018 and is set to premiere in 2019. All seven episodes are being written by Kelley'], 'neg': ['Represent the Wikipedia document for retrieval;', 'Little People, Big World final minutes of the season two-A finale, "Farm Overload". A crowd had gathered around Jacob, who was lying on the ground near the trebuchet. The first two episodes of season two-B focus on the accident, and how the local media reacted to it. The first season of "Little People, Big World" generated solid ratings for TLC (especially in the important 18–49 demographic), leading to the show's renewal for a second season. Critical reviews of the series have been generally positive, citing the show's positive portrayal of little people. Conversely, other reviews have claimed that the show has a voyeuristic bend'], 'task_id': 1}
{'query': ['Represent the Wikipedia question for retrieving relevant documents;', 'who sang waiting for a girl like you'], 'pos': ['Represent the Wikipedia document for retrieval;', 'Waiting for a Girl Like You Waiting for a Girl Like You "Waiting for a Girl Like You" is a 1981 power ballad by the British-American rock band Foreigner. The distinctive synthesizer theme was performed by the then-little-known Thomas Dolby, and this song also marked a major departure from their earlier singles because their previous singles were mid to upper tempo rock songs while this song was a softer love song with the energy of a power ballad. It was the second single released from the album "4" (1981) and was co-written by Lou Gramm and Mick Jones. It has become one of the band's most'], 'neg': ['Represent the Wikipedia document for retrieval;', 'Waiting for a Girl Like You held off the number 1 spot by Olivia Newton-John's single "Physical" for nine consecutive weeks, and then by Hall & Oates' "I Can't Go for That (No Can Do)" for a tenth week on January 30, 1982. Because of its chart longevity, it ended up being the number 19 song on the Top 100 singles of 1982. The song was the band's biggest hit until "I Want to Know What Love Is" hit number 1 in 1985. The song lists at number 100 on ""Billboard"'s Greatest Songs of All Time". Waiting for a Girl Like You "Waiting for a Girl'], 'task_id': 1}
{'query': ['Represent the Wikipedia sentence for retrieving relevant documents;', 'i LOVE sweet martini drinks!'], 'pos': ['Represent the Wikipedia document for retrieval;', "Appletini AppletininAn Apple martini (Appletini for short) is a cocktail containing vodka and one or more of apple juice, apple cider, apple liqueur, or apple brandy.nThis drink, originally called an Adam's Apple Martini because the bartender who created it was named Adam, was created in 1996 at Lola's West Hollywood restaurant.nThe drink, Adam's Apple was advertised by Smirnoff in the July 1972 issue of Playboy Magazine to the inside front cover. The recipe called for an ounce or so of Smirnoff"], 'neg': ['Represent the Wikipedia document for retrieval;', "Aromatised wine similar beverages described in this legislation are 'aromatised wine-based drinks' (non-fortified) and 'aromatised wine-product cocktail' (blended, lower alcohol drink under 7% ABV).nVarieties of aromatised wine.nVarieties of aromatised wine Vermouth.nVermouth is the most widely used aromatised wine due to its use in cocktails and famous commercial brands such as Martini and Cinzano which are commonplace around the world. Vermouth can be sweet or dry and red, white, pink or orange. It is traditionally"], 'task_id': 300}
يتكون كل مثيل من استعلام وزوج موجب وزوج سالب ومعرف المهمة، والذي يتم استخدامه للتأكد من أن البيانات الموجودة في نفس دفعة التدريب هي من نفس المهمة. بيانات MEDI متاحة للتنزيل على هذا الرابط.
نحن نقدم المثال النصي لتدريب المدرب. قد تحتاج أولاً إلى تنزيل بيانات MEDI، وفك ضغط المجلد ووضع medi-data.json
ضمن --cache_dir
python train . py - - model_name_or_path sentence - transformers / gtr - t5 - large - - output_dir { output_directory } - - cache_dir { cache_directory } - - max_source_length 512 - - num_train_epochs 10 - - save_steps 500 - - cl_temperature 0.1 - - warmup_ratio 0.1 - - learning_rate 2e-5 - - overwrite_output_dir
ونوضح الحجج في ما يلي:
: نقاط التفتيش المدربة مسبقًا للبدء بها. نحن ندعم كلاً من معرف النموذج (على سبيل المثال، sentence-transformers/gtr-t5-large
، sentence-transformers/sentence-t5-large
) أو مسار نقطة التفتيش (على سبيل المثال، نقطة التفتيش المحفوظة بواسطة مدرب المحولات).--cl_temperature
: درجة الحرارة للخسارة المتباينة--cache_dir
: الدليل للتخزين المؤقت للنماذج والبيانات التي تم تنزيلها. يجب وضع بيانات MEDI التي تم تنزيلها ( medi-data.json
) ضمن الدليل --cache_dir
: دليل تخزين النماذج المدربة (نقاط التفتيش) للتقييم. جميع الوسيطات الأخرى هي وسيطات تدريب Huggingface's transformers
القياسية، مثل --overwrite_output_dir
، --num_train_epochs
، --learning_rate
. لمزيد من التفاصيل، راجع محولات Huggingface
نقوم بتقييم المدرب على نطاق واسع في 70 مهمة متنوعة، تغطي مجموعة واسعة من المهام والمجالات. على وجه التحديد، نبني تقييمنا على ثلاثة معايير، MTEB، وBillboard، والاسترداد الفوري. نوضح التفاصيل حول تشغيل البرامج النصية للتقييم فيما يلي.
لتقييم أداء النموذج على مجموعة البيانات المعيارية لـ MTEB، قم أولاً بتثبيت مكتبة MTEB
cd evaluation / MTEB
pip install - e .
ثم قم بتشغيل الأمر التالي:
python examples / evaluate_model . py - - model_name hkunlp / instructor - large - - output_dir outputs - - task_name ArguAna - - result_file results
يمكنك تقييم نقاط فحص النموذج المدربة الخاصة بك عن طريق تحديد --model_name
وتشغيل كافة مجموعات بيانات MTEB عن طريق تغيير --task_name
. تحقق من ورقتنا أو معيار MTEB للحصول على مقاييس التقييم لجميع المهام.
لتقييم أداء النموذج على لوحة الإعلانات، قم بتشغيل الأمر التالي:
cd evaluation / text_evaluation
python main . py - - model_name hkunlp / instructor - large - - task mscoco - - add_prompt
يمكنك تقييم نقاط فحص النموذج المدربة الخاصة بك عن طريق تحديد --model_name
وتشغيل جميع مجموعات بيانات Billboard عن طريق تغيير --task
. في جميع مجموعات البيانات الثلاث في لوحة الإعلانات، قمنا بالإبلاغ عن ارتباط بيرسون.
لتقييم أداء النموذج في الاسترداد الفوري، قم بتشغيل الأمر التالي:
cd evaluation / prompt_retrieval
python main . py - - embedding_model hkunlp / instructor - large - - task rte - - model_cache_dir { cache_dir } - - output_dir { output_dir } - - add_prompt
يمكنك تقييم نقاط فحص النموذج المدربة الخاصة بك عن طريق تحديد --model_name
وتشغيل مجموعات بيانات الاسترجاع السريع عن طريق تغيير --task
. من أجل الحصول على مقياس متسق، قمنا بتحويل جميع المهام في الاسترجاع الفوري إلى تنسيق "نص إلى نص"، ونبلغ عن درجة Rouge-L.
لتحديد حجم نموذج instructor embedding ، قم بتشغيل التعليمات البرمجية التالية:
# imports
import torch
from InstructorEmbedding import INSTRUCTOR
# load the model
model = INSTRUCTOR ( 'hkunlp/instructor-large' , device = 'cpu' ) # you can use GPU
# quantize the model
qmodel = torch . quantization . quantize_dynamic (
model , { torch . nn . Linear }, dtype = torch . qint8 )
# Inference
sentence = "3D ActionSLAM: wearable person tracking in multi-floor environments"
instruction = "Represent the Science title:"
embeddings = qmodel . encode ([[ instruction , sentence ]])
# you can also normalize the embeddings: normalize_embeddings=True
print ( f"Quantized Embeddings: n { embeddings } " )
إنه يقلل من حجم النموذج بمقدار 10x وسيكون وقت الاستدلال أقل من النموذج العادي :)
إذا وجدت أن عملنا مفيد، يرجى ذكر لنا:
نشكر جهود المجتمع لتمديد المدرب!
و InstructorDocumentEmbedder