clip as service تنزيل - clip as service

clip as service

شفرة المصدر الأخرى

v0.8.3

تنزيل

شعار مقطع كخدمة: بنية البيانات للبيانات غير المهيكلة

Clip-as-service هي خدمة قابلية للتكليف منخفضة التشكيل لتضمين الصور والنص. يمكن دمجها بسهولة كخدمة microservice في حلول البحث العصبي.

⚡ سريعًا : تقديم نماذج مقطع مع Tensorrt ، وقت تشغيل Onnx و Pytorch w/o JIT مع 800QPS ^[*] . تدفق دوبلكس غير المحظور على الطلبات والاستجابات ، المصممة للبيانات الكبيرة والمهام طويلة الأمد.

؟ مرنة : أفقيًا من أعلى وأسفل نماذج مقطع متعددة على وحدة معالجة الرسومات المفردة ، مع موازنة التحميل التلقائي.

؟ سهل الاستخدام : لا يوجد منحنى تعليمي ، تصميم الحد الأدنى على العميل والخادم. API بديهية ومتسقة للتضمين الصورة والجمل.

؟ الحديث : دعم العميل Async. التبديل بسهولة بين GRPC و HTTP وبروتوكولات WebSocket مع TLS والضغط.

؟ التكامل : التكامل السلس مع النظام الإيكولوجي للبحث العصبي بما في ذلك Jina و DocArray. بناء حلول عبر الوسائط ومتعددة الوسائط في أي وقت من الأوقات.

^{[*] مع التكوين الافتراضي (نسخة متماثلة واحدة ، pytorch no jit) على geforce rtx 3090.}

النص والصورة التضمين

عبر HTTPS؟

عبر GRPC؟ ⚡⚡

curl 
-X POST https:// < your-inference-address > -http.wolf.jina.ai/post 
-H ' Content-Type: application/json ' 
-H ' Authorization: <your access token> ' 
-d ' {"data":[{"text": "First do it"}, 
    {"text": "then do it right"}, 
    {"text": "then do it better"}, 
    {"uri": "https://picsum.photos/200"}], 
    "execEndpoint":"/"} '

 # pip install clip-client
from clip_client import Client

c = Client (
    'grpcs://<your-inference-address>-grpc.wolf.jina.ai' ,
    credential = { 'Authorization' : '<your access token>' },
)

r = c . encode (
    [
        'First do it' ,
        'then do it right' ,
        'then do it better' ,
        'https://picsum.photos/200' ,
    ]
)
print ( r )

التفكير البصري

هناك أربع مهارات التفكير البصري الأساسي: التعرف على الكائنات ، وحساب الكائنات ، والتعرف على الألوان ، وفهم العلاقة المكانية. لنجرب البعض:

تحتاج إلى تثبيت jq (معالج JSON) لتجميع النتائج.

صورة	عبر HTTPS؟
	curl -X POST https:// < your-inference-address > -http.wolf.jina.ai/post -H ' Content-Type: application/json ' -H ' Authorization: <your access token> ' -d ' {"data":[{"uri": "https://picsum.photos/id/1/300/300", "matches": [{"text": "there is a woman in the photo"}, {"text": "there is a man in the photo"}]}], "execEndpoint":"/rank"} ' \| jq " .data[].matches[] \| (.text, .scores.clip_score.value) " يعطي: `"there is a woman in the photo" 0.626907229423523 "there is a man in the photo" 0.37309277057647705`
	curl -X POST https:// < your-inference-address > -http.wolf.jina.ai/post -H ' Content-Type: application/json ' -H ' Authorization: <your access token> ' -d ' {"data":[{"uri": "https://picsum.photos/id/133/300/300", "matches": [ {"text": "the blue car is on the left, the red car is on the right"}, {"text": "the blue car is on the right, the red car is on the left"}, {"text": "the blue car is on top of the red car"}, {"text": "the blue car is below the red car"}]}], "execEndpoint":"/rank"} ' \| jq " .data[].matches[] \| (.text, .scores.clip_score.value) " يعطي: `"the blue car is on the left, the red car is on the right" 0.5232442617416382 "the blue car is on the right, the red car is on the left" 0.32878655195236206 "the blue car is below the red car" 0.11064132302999496 "the blue car is on top of the red car" 0.03732786327600479`
	curl -X POST https:// < your-inference-address > -http.wolf.jina.ai/post -H ' Content-Type: application/json ' -H ' Authorization: <your access token> ' -d ' {"data":[{"uri": "https://picsum.photos/id/102/300/300", "matches": [{"text": "this is a photo of one berry"}, {"text": "this is a photo of two berries"}, {"text": "this is a photo of three berries"}, {"text": "this is a photo of four berries"}, {"text": "this is a photo of five berries"}, {"text": "this is a photo of six berries"}]}], "execEndpoint":"/rank"} ' \| jq " .data[].matches[] \| (.text, .scores.clip_score.value) " يعطي: `"this is a photo of three berries" 0.48507222533226013 "this is a photo of four berries" 0.2377079576253891 "this is a photo of one berry" 0.11304923892021179 "this is a photo of five berries" 0.0731358453631401 "this is a photo of two berries" 0.05045759305357933 "this is a photo of six berries" 0.04057715833187103`

الوثائق

ثَبَّتَ

يتكون المقطع كخدمة من حزمتين من Python clip-server و clip-client التي يمكن تثبيتها بشكل مستقل . كلاهما يتطلب بيثون 3.7+.

تثبيت الخادم

Pytorch وقت التشغيل ⚡	وقت التشغيل ONNX ⚡⚡	Tensorrt وقت التشغيل ⚡⚡⚡
pip install clip-server	pip install " clip-server[onnx] "	pip install nvidia-pyindex pip install " clip-server[tensorrt] "

يمكنك أيضًا استضافة الخادم على Google Colab ، مع الاستفادة من GPU/TPU المجاني.

تثبيت العميل

pip install clip-client

فحص سريع

يمكنك تشغيل فحص اتصال بسيط بعد التثبيت.

ج/ق	يأمر	توقع الإخراج
الخادم	python -m clip_server
عميل	from clip_client import Client c = Client ( 'grpc://0.0.0.0:23456' ) c . profile ()

يمكنك تغيير 0.0.0.0 إلى عنوان IP الإنترانت أو العام لاختبار الاتصال عبر الشبكة الخاصة والعامة.

ابدأ

الاستخدام الأساسي

ابدأ الخادم: python -m clip_server . تذكر عنوانها ومنفذها.

إنشاء عميل:

 from clip_client import Client

 c = Client ( 'grpc://0.0.0.0:51000' )

للحصول على عقوبة تضمين:

 r = c . encode ([ 'First do it' , 'then do it right' , 'then do it better' ])

print ( r . shape )  # [3, 512]

للحصول على تضمين الصورة:

 r = c . encode ([ 'apple.png' ,  # local image 
              'https://clip-as-service.jina.ai/_static/favicon.png' ,  # remote image
              'data:image/gif;base64,R0lGODlhEAAQAMQAAORHHOVSKudfOulrSOp3WOyDZu6QdvCchPGolfO0o/XBs/fNwfjZ0frl3/zy7////wAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAACH5BAkAABAALAAAAAAQABAAAAVVICSOZGlCQAosJ6mu7fiyZeKqNKToQGDsM8hBADgUXoGAiqhSvp5QAnQKGIgUhwFUYLCVDFCrKUE1lBavAViFIDlTImbKC5Gm2hB0SlBCBMQiB0UjIQA7' ])  # in image URI

print ( r . shape )  # [3, 512]

يمكن العثور على أدلة خادم ومستخدم عميل أكثر شمولاً في المستندات.

البحث عبر الوسائط النصية في 10 أسطر

دعنا نبني بحثًا عن نص إلى صورة باستخدام Clip-as-Service. وهي ، يمكن للمستخدم إدخال جملة ويعيد البرنامج مطابقة الصور. سنستخدم مجموعة البيانات وحزمة DocArray تمامًا. لاحظ أن Docarray يتم تضمينه داخل clip-client كاعتماد على المنبع ، لذلك لا تحتاج إلى تثبيته بشكل منفصل.

تحميل الصور

أولا نقوم بتحميل الصور. يمكنك ببساطة سحبها من جينا كلاود:

 from docarray import DocumentArray

da = DocumentArray . pull ( 'ttl-original' , show_progress = True , local_cache = True )

أو قم بتنزيل TTL Dataset ، Unsxip ، تحميل يدويًا

بدلاً من ذلك ، يمكنك الذهاب إلى موقع الويب الرسمي تمامًا ، وفك الضغط وتحميل الصور:

 from docarray import DocumentArray

da = DocumentArray . from_files ([ 'left/*.jpg' , 'right/*.jpg' ])

تحتوي مجموعة البيانات على 12،032 صورة ، لذلك قد يستغرق الأمر بعض الوقت. بمجرد الانتهاء ، يمكنك تصوره والحصول على الذوق الأول لتلك الصور:

 da . plot_image_sprites ()

يبدو تصور صورة Sprite من مجموعة البيانات تمامًا مثل مجموعة البيانات

تشفير الصور

ابدأ الخادم باستخدام python -m clip_server . دعنا نقول أنها عند 0.0.0.0:51000 مع بروتوكول GRPC (ستحصل على هذه المعلومات بعد تشغيل الخادم).

قم بإنشاء برنامج نصي عميل Python:

 from clip_client import Client

c = Client ( server = 'grpc://0.0.0.0:51000' )

da = c . encode ( da , show_progress = True )

بناءً على شبكة GPU وشبكة خادم العميل ، قد يستغرق الأمر بعض الوقت لتضمين صور 12K. في حالتي ، استغرق الأمر حوالي دقيقتين.

قم بتنزيل مجموعة البيانات المشفرة مسبقًا

إذا كنت صبرًا أو لم يكن لديك وحدة معالجة الرسومات ، فقد يكون الانتظار الجحيم. في هذه الحالة ، يمكنك ببساطة سحب مجموعة بيانات الصور التي تم ترميزها مسبقًا:

 from docarray import DocumentArray

da = DocumentArray . pull ( 'ttl-embedding' , show_progress = True , local_cache = True )

ابحث عبر الجملة

دعنا نبني موجهًا بسيطًا للسماح للمستخدم بكتابة الجملة:

 while True :
    vec = c . encode ([ input ( 'sentence> ' )])
    r = da . find ( query = vec , limit = 9 )
    r [ 0 ]. plot_image_sprites ()

عرض

يمكنك الآن إدخال جمل اللغة الإنجليزية التعسفية وعرض الصور المتطابقة من أفضل 9. البحث سريع وغريزي. دعونا نستمتع ببعض:

"بطاطا سعيدة"	"AI الشرير الفائق"	"رجل يستمتع برغره"

"البروفيسور كات جاد للغاية"	"مهندس الأنا يعيش مع الوالدين"	"لن يكون هناك غد ، لذلك دعنا نأكل غير صحي"

دعنا نحفظ نتيجة التضمين لمثالنا التالي:

 da . save_binary ( 'ttl-image' )

البحث المتبادل بين الصورة إلى النص في 10 أسطر

يمكننا أيضًا تبديل إدخال وإخراج البرنامج الأخير لتحقيق البحث عن صورة إلى نص. على وجه التحديد ، بالنظر إلى صورة الاستعلام ، ابحث عن الجملة التي تصف الصورة بشكل أفضل.

دعونا نستخدم جميع الجمل من كتاب "الكبرياء والتحامل".

 from docarray import Document , DocumentArray

d = Document ( uri = 'https://www.gutenberg.org/files/1342/1342-0.txt' ). load_uri_to_text ()
da = DocumentArray (
    Document ( text = s . strip ()) for s in d . text . replace ( ' r n ' , '' ). split ( '.' ) if s . strip ()
)

دعونا نلقي نظرة على ما حصلنا عليه:

 da . summary ()

            Documents Summary            
                                         
  Length                 6403            
  Homogenous Documents   True            
  Common Attributes      ('id', 'text')  
                                         
                     Attributes Summary                     
                                                            
  Attribute   Data type   #Unique values   Has empty value  
 ────────────────────────────────────────────────────────── 
  id          ('str',)    6403             False            
  text        ('str',)    6030             False

تشفير الجمل

قم الآن بتشفير هذه الجمل البالغ عددها 6،403 ، فقد يستغرق الأمر 10 ثوانٍ أو أقل اعتمادًا على وحدة معالجة الرسومات وشبكتك:

 from clip_client import Client

c = Client ( 'grpc://0.0.0.0:51000' )

r = c . encode ( da , show_progress = True )

قم بتنزيل مجموعة البيانات المشفرة مسبقًا

مرة أخرى ، بالنسبة للأشخاص الذين يعانون من نفاد الصبر أو ليس لديهم وحدة معالجة الرسومات ، قمنا بإعداد مجموعة بيانات نصية مشفرة:

 from docarray import DocumentArray

da = DocumentArray . pull ( 'ttl-textual' , show_progress = True , local_cache = True )

ابحث عبر الصورة

دعنا نحمل تضمين الصور المخزنة مسبقًا ، عينة عشوائيًا 10 مستندات صورة ، ثم ابحث عن أقرب جيران من كل منها.

 from docarray import DocumentArray

img_da = DocumentArray . load_binary ( 'ttl-image' )

for d in img_da . sample ( 10 ):
    print ( da . find ( d . embedding , limit = 1 )[ 0 ]. text )

عرض

وقت ممتع! لاحظ ، على عكس المثال السابق ، هنا الإدخال هو صورة والجملة هي الإخراج. جميع الجمل تأتي من كتاب "الكبرياء والتحامل".


الى جانب ذلك ، كانت هناك حقيقة في نظراته	ابتسم غاردينر	ما اسمه	في وقت الشاي ، ومع ذلك ، كانت الجرعة كافية ، والسيد	أنت لا تبدو جيدا


"A Gamester!" بكت	إذا ذكرت اسمي في الجرس ، فسيتم الحضور إليه	لا تهتم بشعر ملكة جمال ليزي	ستكون إليزابيث قريبًا زوجة السيد	رأيتهم في الليلة السابقة

رتبة صورة نصية يطابق عبر نموذج مقطع

من 0.3.0 يضيف Clip-As-Service نقطة نهاية جديدة /rank تعيد رتبها مباريات عبر الوسائط وفقًا لاحتمالية مشتركة في نموذج المقطع. على سبيل المثال ، بالنظر إلى مستند صورة مع بعض مباريات الجملة المحددة مسبقًا على النحو التالي:

 from clip_client import Client
from docarray import Document

c = Client ( server = 'grpc://0.0.0.0:51000' )
r = c . rank (
    [
        Document (
            uri = '.github/README-img/rerank.png' ,
            matches = [
                Document ( text = f'a photo of a { p } ' )
                for p in (
                    'control room' ,
                    'lecture room' ,
                    'conference room' ,
                    'podium indoor' ,
                    'television studio' ,
                )
            ],
        )
    ]
)

print ( r [ '@m' , [ 'text' , 'scores__clip_score__value' ]])

 [['a photo of a television studio', 'a photo of a conference room', 'a photo of a lecture room', 'a photo of a control room', 'a photo of a podium indoor'], 
[0.9920725226402283, 0.006038925610482693, 0.0009973491542041302, 0.00078492151806131, 0.00010626466246321797]]

يمكن للمرء أن يرى الآن a photo of a television studio يتم تصنيفها إلى الأعلى برصيد clip_score على 0.992 . في الممارسة العملية ، يمكن للمرء استخدام نقطة النهاية هذه لإعادة تصنيف نتيجة المطابقة من نظام بحث آخر ، لتحسين جودة البحث عبر الوسائط.

رتبة صورة صورة نصية عبر نموذج مقطع

في مشروع Dall · e Flow ، يتم استدعاء المقطع لترتيب النتائج التي تم إنشاؤها من Dall · e. يحتوي على منفذي ملفوف فوق clip-client ، والذي يدعو .arank() - إصدار Async من .rank() :

 from clip_client import Client
from jina import Executor , requests , DocumentArray


class ReRank ( Executor ):
    def __init__ ( self , clip_server : str , ** kwargs ):
        super (). __init__ ( ** kwargs )
        self . _client = Client ( server = clip_server )

    @ requests ( on = '/' )
    async def rerank ( self , docs : DocumentArray , ** kwargs ):
        return await self . _client . arank ( docs )

مقطع كخدمة مستخدمة في تدفق دال

مفتون؟ هذا مجرد خدش سطح ما يمكن أن يكون له مقطع كخدمة. اقرأ مستنداتنا لمعرفة المزيد.

يدعم

انضم إلى مجتمع Discord والدردشة مع أفراد المجتمع الآخرين حول الأفكار.
شاهد هندسة كل الأيدي لتعلم ميزات جينا الجديدة والبقاء على اطلاع بأحدث تقنيات الذكاء الاصطناعي.
اشترك في أحدث برامج الفيديو التعليمية على قناة YouTube الخاصة بنا

انضم إلينا

يتم دعم Clip-As-Service بواسطة Jina AI ومرخصة بموجب Apache-2.0. نحن نستند بنشاط مهندسي الذكاء الاصطناعى ، ومهندسي الحلول لبناء النظام البيئي للبحث العصبي التالي في مفتوح المصدر.

يوسع

معلومات إضافية

الإصدار v0.8.3
النوع شفرة المصدر الأخرى
وقت التحديث 2025-03-02
الحجم 11.55MB
من Github

تطبيقات ذات صلة

Inf CLIP

2024-11-03
النسخة الصينية كاملة الخدمة

2023-10-20
كثقب

2023-05-29
كبرنامج ثقب

2023-05-29
رئيس AS رمز

2022-07-24
كليب دلو

2011-05-24

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
waymo open dataset

شفرة المصدر الأخرى

December 2023 Update
chat.petals.dev

شفرة المصدر الأخرى

1.0.0
Sunamu

شفرة المصدر الأخرى

Release 2.2.0
waymo open dataset

شفرة المصدر الأخرى

December 2023 Update
termwind

فئات أخرى

v2.3.0
wp functions

فئات أخرى

1.0.0

أخبار ذات صلة الكل

صورة	عبر HTTPS؟
	curl -X POST https:// < your-inference-address > -http.wolf.jina.ai/post -H ' Content-Type: application/json ' -H ' Authorization: <your access token> ' -d ' {"data":[{"uri": "https://picsum.photos/id/1/300/300", "matches": [{"text": "there is a woman in the photo"}, {"text": "there is a man in the photo"}]}], "execEndpoint":"/rank"} ' \| jq " .data[].matches[] \| (.text, .scores.clip_score.value) " يعطي: `"there is a woman in the photo" 0.626907229423523 "there is a man in the photo" 0.37309277057647705`
	curl -X POST https:// < your-inference-address > -http.wolf.jina.ai/post -H ' Content-Type: application/json ' -H ' Authorization: <your access token> ' -d ' {"data":[{"uri": "https://picsum.photos/id/133/300/300", "matches": [ {"text": "the blue car is on the left, the red car is on the right"}, {"text": "the blue car is on the right, the red car is on the left"}, {"text": "the blue car is on top of the red car"}, {"text": "the blue car is below the red car"}]}], "execEndpoint":"/rank"} ' \| jq " .data[].matches[] \| (.text, .scores.clip_score.value) " يعطي: `"the blue car is on the left, the red car is on the right" 0.5232442617416382 "the blue car is on the right, the red car is on the left" 0.32878655195236206 "the blue car is below the red car" 0.11064132302999496 "the blue car is on top of the red car" 0.03732786327600479`
	curl -X POST https:// < your-inference-address > -http.wolf.jina.ai/post -H ' Content-Type: application/json ' -H ' Authorization: <your access token> ' -d ' {"data":[{"uri": "https://picsum.photos/id/102/300/300", "matches": [{"text": "this is a photo of one berry"}, {"text": "this is a photo of two berries"}, {"text": "this is a photo of three berries"}, {"text": "this is a photo of four berries"}, {"text": "this is a photo of five berries"}, {"text": "this is a photo of six berries"}]}], "execEndpoint":"/rank"} ' \| jq " .data[].matches[] \| (.text, .scores.clip_score.value) " يعطي: `"this is a photo of three berries" 0.48507222533226013 "this is a photo of four berries" 0.2377079576253891 "this is a photo of one berry" 0.11304923892021179 "this is a photo of five berries" 0.0731358453631401 "this is a photo of two berries" 0.05045759305357933 "this is a photo of six berries" 0.04057715833187103`