تحميل openkaito - تنزيل كود المصدر openkaito

openkaito

شفرة المصدر الأخرى

1.0.0

تنزيل

OpenKaito - كايتو AI اللامركزي

الفتنة • الشبكة • البحث

تثبيت

تركيب المدقق

يرجى الاطلاع على إعداد أداة التحقق من الصحة في دليل البدء السريع.

تركيب مينر

يرجى الاطلاع على إعداد عامل التعدين في دليل البدء السريع.

هناك نسخة قديمة من المشروع تركز على الفهرسة اللامركزية لمصادر البيانات المختلفة، انظر هنا لمزيد من التفاصيل.

خلاصة

ينصب التركيز الأساسي لـ Bittensor Subnet 5 على تطوير نموذج تضمين النص الأفضل أداءً والأكثر تعميماً في العالم.

من خلال الاستفادة من مجموعة واسعة النطاق من نماذج اللغات الكبيرة (LLM) للتقييم، يتم تمكين القائمين بالتعدين من تطوير ونشر نماذج تضمين النص التي تتجاوز الأداء الحالي (SOTA).

الأهداف والمساهمات

الهدف الأساسي للشبكة الفرعية 5 هو تدريب وخدمة أفضل نماذج تضمين النص وأكثرها تعميمًا. يمكن لنماذج تضمين النص هذه تمكين الكثير من التطبيقات النهائية مثل البحث الدلالي، وفهم اللغة الطبيعية، وما إلى ذلك.

سيكون القائمون بالتعدين مسؤولين عن نماذج التدريب باستخدام مجموعة واسعة من البيانات النصية وخدمة النموذج بطريقة منخفضة الكمون وعالية الإنتاجية. سيتم استخدام هذه النماذج لإنشاء تضمينات عالية الجودة لمدخلات نصية متنوعة.

سيقوم المدققون بإجراء تقييمات صارمة للنماذج باستخدام معايير متعددة. سيتم إجراء مقارنات الأداء مع نماذج تضمين نص SOTA الحالية لضمان التحسين المستمر والقدرة التنافسية.

سيتمكن مستخدمو الشبكة الفرعية من الوصول إلى نماذج تضمين النص المتطورة الأكثر عمومية والتي تتجاوز أداء SOTA. سيتم إتاحة هذه النماذج للعامة من خلال واجهة برمجة التطبيقات الخاصة بأداة التحقق من صحة Bittensor Subnet 5، مما يسهل التبني والتكامل على نطاق واسع في التطبيقات المختلفة.

آلية الحوافز

سيتلقى عمال المناجم مجموعة من النصوص ويقومون بتضمينها.

بالنسبة لتضمين النص، يكون لدى المدققين معلومات ذات صلة زوجية لتقييمها من خلال فقدان التعلم المتباين:

$$mathcal{L}_text{InfoNCE} = - mathbb{E} left[log frac{f(mathbf{x}, mathbf{c})}{sum_{mathbf{ x}' in X} f(mathbf{x}', mathbf{c})} right]$$

أين $f(x,c) = exp{(x cdot c)}$ هو تقدير $frac{p(x | c)}{p(x)}$ ، و $ج$ هو الهدف التضمين، و $x$ هي العينة الإيجابية، و $x'$ هي عينات سلبية

هذا لتعظيم المعلومات المتبادلة بين الأزواج الإيجابية $x$ و $ج$ :

$I(mathbf{x}; mathbf{c}) = sum_{mathbf{x}, mathbf{c}} p(mathbf{x}, mathbf{c}) logfrac{ ص(mathbf{x}, mathbf{c})}{p(mathbf{x})p(mathbf{c})} = sum_{mathbf{x}, mathbf{c}} p(mathbf{x}, mathbf{c})logfrac{p(mathbf{x}|mathbf{c})}{ ص(mathbf{x})}$

وتقليل المعلومات المتبادلة بين الأزواج السالبة $x'$ و $ج$ : $I(mathbf{x'}; mathbf{c})$ .

تدريجيًا، يمكننا إضافة وقت المعالجة في الاعتبار لتشجيع التضمين بشكل أسرع وتقليل زمن الوصول.

متطلبات الحوسبة

لا توجد متطلبات صارمة لمعدات القائمين بالتعدين، طالما يمكنهم خدمة نموذج تضمين النص الخاص بهم بطريقة منخفضة الكمون وعالية الإنتاجية.

ولتحقيق ذلك، يحتاج القائمون بالتعدين عادةً إلى البنى التحتية التالية:

التدريب النموذجي:

أجهزة مزودة بوحدات معالجة الرسومات لنماذج التدريب السريعة على مجموعات البيانات الكبيرة

خدمة النموذج:

خادم استدلال نموذجي مخصص

واجهة مستخدم الشبكة الفرعية

في النهاية، ستخدم الشبكة الفرعية 5 نموذج تضمين النص عبر واجهة برمجة التطبيقات الخاصة بمدقق الشبكة الفرعية.

ستكون تجربة التطوير في استخدام Subnet 5 Embedding API مشابهة لواجهة برمجة تطبيقات OpenAI text-embedding API https://platform.openai.com/docs/guides/embeddings/embedding-models.

خارطة طريق التنمية

الإصدار 1:

نموذج تقييم تضمين النص وآلية الحوافز
لوحة معلومات الشبكة الفرعية مع منحنى نمو أداء النموذج، والمقارنة مع نماذج OpenAI text-embedding-3-small وtext-embedding-3-large كخطوط أساسية
واجهة برمجة تطبيقات الشبكة الفرعية لخدمة نموذج عمال المناجم المدربين لمستخدمي الشبكة الفرعية.

V2 وأكثر:

توسيع مجموعة البيانات
توسيع نموذج حوافز التقييم ليشمل مهام مثل إعادة ترتيب المستندات
دمج المسافة الزوجية للمستندات في التقييم
…

الملحق - الخلفيات

نموذج تضمين النص

تعد نماذج تضمين النص أساسية لمعالجة اللغات الطبيعية الحديثة (NLP)، حيث تمثل الكلمات أو العبارات أو المستندات كمتجهات كثيفة في مساحة مستمرة. تطورت هذه النماذج بشكل ملحوظ مع مرور الوقت:

النهج الكلاسيكي:

ترميز واحد ساخن وطرق تعتمد على العد (على سبيل المثال، TF-IDF)
محدودية في التقاط العلاقات الدلالية

تضمينات الكلمات:

على أساس الدلالات التوزيعية
النماذج الرئيسية: Word2Vec، GloVe، FastText
التقاط أوجه التشابه بين الكلمات والعلاقات

تضمين الجمل والمستندات:

قم بتوسيع التقنيات على مستوى الكلمة لتشمل وحدات نصية أكبر، وتمثيلات ديناميكية تعتمد على السياق
أمثلة: إلمو، بيرت، جي بي تي
أفضل في التعامل مع تعدد المعاني والمعاني المعتمدة على السياق

تشمل التطبيقات العديد من مهام البرمجة اللغوية العصبية، بما في ذلك التشابه الدلالي والترجمة الآلية وتحليل المشاعر. وتشمل التحديات المستمرة معالجة التحيز وتحسين الكفاءة.

وقد أدى هذا التطور من التمثيلات البسيطة إلى النماذج السياقية المتطورة إلى تعزيز قدرات البرمجة اللغوية العصبية بشكل كبير، مما أتاح فهمًا أكثر دقة للغة بواسطة الآلات.

البحث الدلالي القائم على المتجهات

تطور البحث الدلالي القائم على المتجهات من الأساليب التقليدية القائمة على الكلمات الرئيسية لمعالجة القيود في فهم السياق والمعنى. إنه يعزز التقدم في معالجة اللغة الطبيعية والتعلم الآلي لتمثيل النص كمتجهات كثيفة في مساحة عالية الأبعاد.

تشمل المكونات الرئيسية للبحث الدلالي القائم على المتجهات ما يلي:

تضمين النص (على سبيل المثال، Word2Vec، GloVe، BERT، GPT)
خوارزميات بحث فعالة عن الجوار الأقرب (على سبيل المثال، فهرسة المتجهات باستخدام HNSW)

من خلال فهرسة المستندات مع تضميناتها، من الممكن:

التقاط العلاقات الدلالية بين الكلمات والمفاهيم
تحسين التعامل مع المرادفات والمصطلحات ذات الصلة
تجارب بحث أكثر سهولة ووعيًا بالسياق

أدى البحث الدلالي القائم على المتجهات إلى تحسين عملية استرجاع المعلومات بشكل كبير عبر التطبيقات المختلفة، مما يوفر نتائج أكثر صلة من خلال فهم القصد من وراء الاستعلامات بدلاً من الاعتماد فقط على التطابقات الدقيقة للكلمات الرئيسية.

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع شفرة المصدر الأخرى
وقت التحديث 2024-12-26
الحجم 11.27MB
من Github

تطبيقات ذات صلة

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
viptools for eslam

2024-12-15
MySchedule.py

2024-12-15
VITAident

2024-12-15

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
waymo open dataset

شفرة المصدر الأخرى

December 2023 Update
SmartTube

شفرة المصدر الأخرى

24.71 Stable
Sunamu

شفرة المصدر الأخرى

Release 2.2.0
waymo open dataset

شفرة المصدر الأخرى

December 2023 Update
termwind

فئات أخرى

v2.3.0
wp functions

فئات أخرى

1.0.0

أخبار ذات صلة الكل