الفتنة • الشبكة • البحث
يرجى الاطلاع على إعداد أداة التحقق من الصحة في دليل البدء السريع.
يرجى الاطلاع على إعداد عامل التعدين في دليل البدء السريع.
هناك نسخة قديمة من المشروع تركز على الفهرسة اللامركزية لمصادر البيانات المختلفة، انظر هنا لمزيد من التفاصيل.
ينصب التركيز الأساسي لـ Bittensor Subnet 5 على تطوير نموذج تضمين النص الأفضل أداءً والأكثر تعميماً في العالم.
من خلال الاستفادة من مجموعة واسعة النطاق من نماذج اللغات الكبيرة (LLM) للتقييم، يتم تمكين القائمين بالتعدين من تطوير ونشر نماذج تضمين النص التي تتجاوز الأداء الحالي (SOTA).
الهدف الأساسي للشبكة الفرعية 5 هو تدريب وخدمة أفضل نماذج تضمين النص وأكثرها تعميمًا. يمكن لنماذج تضمين النص هذه تمكين الكثير من التطبيقات النهائية مثل البحث الدلالي، وفهم اللغة الطبيعية، وما إلى ذلك.
سيكون القائمون بالتعدين مسؤولين عن نماذج التدريب باستخدام مجموعة واسعة من البيانات النصية وخدمة النموذج بطريقة منخفضة الكمون وعالية الإنتاجية. سيتم استخدام هذه النماذج لإنشاء تضمينات عالية الجودة لمدخلات نصية متنوعة.
سيقوم المدققون بإجراء تقييمات صارمة للنماذج باستخدام معايير متعددة. سيتم إجراء مقارنات الأداء مع نماذج تضمين نص SOTA الحالية لضمان التحسين المستمر والقدرة التنافسية.
سيتمكن مستخدمو الشبكة الفرعية من الوصول إلى نماذج تضمين النص المتطورة الأكثر عمومية والتي تتجاوز أداء SOTA. سيتم إتاحة هذه النماذج للعامة من خلال واجهة برمجة التطبيقات الخاصة بأداة التحقق من صحة Bittensor Subnet 5، مما يسهل التبني والتكامل على نطاق واسع في التطبيقات المختلفة.
سيتلقى عمال المناجم مجموعة من النصوص ويقومون بتضمينها.
بالنسبة لتضمين النص، يكون لدى المدققين معلومات ذات صلة زوجية لتقييمها من خلال فقدان التعلم المتباين:
أين
هذا لتعظيم المعلومات المتبادلة بين الأزواج الإيجابية
وتقليل المعلومات المتبادلة بين الأزواج السالبة
تدريجيًا، يمكننا إضافة وقت المعالجة في الاعتبار لتشجيع التضمين بشكل أسرع وتقليل زمن الوصول.
لا توجد متطلبات صارمة لمعدات القائمين بالتعدين، طالما يمكنهم خدمة نموذج تضمين النص الخاص بهم بطريقة منخفضة الكمون وعالية الإنتاجية.
ولتحقيق ذلك، يحتاج القائمون بالتعدين عادةً إلى البنى التحتية التالية:
التدريب النموذجي:
خدمة النموذج:
في النهاية، ستخدم الشبكة الفرعية 5 نموذج تضمين النص عبر واجهة برمجة التطبيقات الخاصة بمدقق الشبكة الفرعية.
ستكون تجربة التطوير في استخدام Subnet 5 Embedding API مشابهة لواجهة برمجة تطبيقات OpenAI text-embedding API https://platform.openai.com/docs/guides/embeddings/embedding-models.
الإصدار 1:
V2 وأكثر:
تعد نماذج تضمين النص أساسية لمعالجة اللغات الطبيعية الحديثة (NLP)، حيث تمثل الكلمات أو العبارات أو المستندات كمتجهات كثيفة في مساحة مستمرة. تطورت هذه النماذج بشكل ملحوظ مع مرور الوقت:
النهج الكلاسيكي:
تضمينات الكلمات:
تضمين الجمل والمستندات:
تشمل التطبيقات العديد من مهام البرمجة اللغوية العصبية، بما في ذلك التشابه الدلالي والترجمة الآلية وتحليل المشاعر. وتشمل التحديات المستمرة معالجة التحيز وتحسين الكفاءة.
وقد أدى هذا التطور من التمثيلات البسيطة إلى النماذج السياقية المتطورة إلى تعزيز قدرات البرمجة اللغوية العصبية بشكل كبير، مما أتاح فهمًا أكثر دقة للغة بواسطة الآلات.
تطور البحث الدلالي القائم على المتجهات من الأساليب التقليدية القائمة على الكلمات الرئيسية لمعالجة القيود في فهم السياق والمعنى. إنه يعزز التقدم في معالجة اللغة الطبيعية والتعلم الآلي لتمثيل النص كمتجهات كثيفة في مساحة عالية الأبعاد.
تشمل المكونات الرئيسية للبحث الدلالي القائم على المتجهات ما يلي:
من خلال فهرسة المستندات مع تضميناتها، من الممكن:
أدى البحث الدلالي القائم على المتجهات إلى تحسين عملية استرجاع المعلومات بشكل كبير عبر التطبيقات المختلفة، مما يوفر نتائج أكثر صلة من خلال فهم القصد من وراء الاستعلامات بدلاً من الاعتماد فقط على التطابقات الدقيقة للكلمات الرئيسية.