Chatbot NER هو إطار عمل مفتوح المصدر مخصص لدعم التعرف على الكيانات في الرسائل النصية. بعد إجراء بحث شامل حول أنظمة NER الحالية، شعر فريق Haptik بالحاجة القوية إلى بناء إطار عمل مصمم خصيصًا للذكاء الاصطناعي للمحادثة ويدعم أيضًا اللغات الهندية. يدعم Chatbot-ner حاليًا اللغة الإنجليزية والهندية والغوجاراتية والماراثية والبنغالية والتاميلية وشكلها المختلط من التعليمات البرمجية. يستخدم هذا الإطار حاليًا أنماطًا شائعة إلى جانب عدد قليل من تقنيات البرمجة اللغوية العصبية (NLP) لاستخراج الكيانات الضرورية من اللغات ذات البيانات المتفرقة. تم تصميم بنية واجهة برمجة التطبيقات الخاصة بـ Chatbot ner مع الأخذ في الاعتبار سهولة الاستخدام لتطبيقات الذكاء الاصطناعي للمحادثة. يعمل فريق Haptik باستمرار على تطوير هذا الإطار لجميع اللغات الهندية واللهجات المحلية الخاصة بها .
تتوفر هنا وثائق مفصلة حول كيفية إعداد Chatbot NER على نظامك باستخدام عامل الإرساء.
نوع الكيان | مرجع الكود | وصف | مثال | اللغات المدعومة - رمز ISO 639-1 |
---|---|---|---|---|
وقت | TimeDetector | كشف الوقت من نص معين. | صباح الغد الساعة 5، كل صباح بعد الظهر، كال صباح 5 باجي | "en"، "مرحبًا"، "gu"، "bn"، "السيد"، "ta" |
تاريخ | DateAdvancedDetector | كشف التاريخ من نص معين | الاثنين المقبل، agle somvar، في وقت لاحق | "en"، "مرحبًا"، "gu"، "bn"، "السيد"، "ta" |
رقم | NumberDetector | كشف الرقم والوحدات المعنية في نص معين | 50 روبية للشخص الواحد, كيلو شاول, تحتاج إلى لتر زيت | "en"، "مرحبًا"، "gu"، "bn"، "السيد"، "ta" |
رقم التليفون | PhoneDetector | كشف رقم الهاتف في نص معين | 9833530536، +91 9833530536، هامبورغ | "en"، "مرحبًا"، "gu"، "bn"، "السيد"، "ta" |
بريد إلكتروني | EmailDetector | كشف البريد الإلكتروني في النص | [email protected] | "أون" |
نص | TextDetector | اكتشف الكيانات المخصصة في سلسلة نصية باستخدام البحث عن النص الكامل في Datastore أو بناءً على النموذج السياقي | اطلب لي بيتزا في حالة الموسم في مومباي | البحث مدعوم عن 'en' و'hi' و'gu' و'bn' و'mr' و'ta'، والنموذج السياقي مدعوم لـ 'en' فقط |
رقم سجل الركاب | PNRDetector | كشف رموز PNR (المسلسل) في نص معين. | رقم سجل رحلتي هو 4SGX3E | "أون" |
regex | RegexDetector | اكتشاف الكيانات باستخدام أنماط التعبير العادي المخصصة | رقم سجل رحلتي هو 4SGX3E | غير متوفر |
هناك أدوات كشف مخصصة أخرى مثل المدينة وحجم التسوق الاقتصادي وهي مشتقة من أدوات الكشف الأساسية المذكورة أعلاه ولكنها مدعومة حاليًا باللغة الإنجليزية فقط وتقتصر على المستخدمين الهنود فقط. نحن نعمل حاليًا على إعادة هيكلتها لتوسيع نطاقها عبر اللغات والجغرافيا وقد يتم إهمال إصداراتها الحالية في المستقبل. لذلك ، بالنسبة للتطبيقات قيد الإنتاج بالفعل ، نوصيك باستخدام أجهزة الكشف الأولية المذكورة في الجدول أعلاه فقط .
الوثائق التفصيلية لواجهات برمجة التطبيقات لجميع أنواع الكيانات متاحة هنا. تم تصميم بنية واجهة برمجة التطبيقات الحالية لسهولة الوصول إليها من تطبيقات الذكاء الاصطناعي للمحادثة. ومع ذلك، يمكن استخدامه لتطبيقات أخرى أيضًا.
في أي تطبيق للذكاء الاصطناعي للمحادثة، هناك العديد من الكيانات التي يجب تحديدها وقد يختلف منطق اكتشاف كيان واحد عن الآخر. لقد قمنا بتنظيم هذا المستودع كما هو موضح أدناه
لقد قمنا بتصنيف الكيانات إلى أربعة أنواع رئيسية وهي: رقمية ، نمطية ، زمنية ، نصية .
رقمي: هذا النوع سيحتوي على كافة الكيانات التي تتعامل مع الرقم أو الأرقام. على سبيل المثال، اكتشاف الأرقام، والكشف عن الميزانية، والكشف عن الحجم، وما إلى ذلك.
النمط: سيحتوي هذا على جميع منطق الاكتشاف حيث يمكن تحديد الهوية باستخدام الأنماط أو التعبيرات العادية. على سبيل المثال، البريد الإلكتروني، رقم_الهاتف، رقم الهاتف، وما إلى ذلك.
مؤقت: سيحتوي على منطق الكشف لاكتشاف الوقت والتاريخ.
نصي: يحدد الكيانات من خلال النظر في القاموس. يحتوي هذا الاكتشاف بشكل أساسي على اكتشاف النص (مثل المطبخ والأطباق والمطاعم وما إلى ذلك)، واسم المدن، وموقع المستخدم، وما إلى ذلك.
تم نقل الأرقام والمؤقت والنمط إلى ner_v2 لسهولة نقل اللغة مع منطق اكتشاف أكثر مرونة. في ner_v1، حاليًا الكيان النصي فقط هو الذي يتمتع بدعم اللغة. سنقوم بنقله إلى ner_v2 دون أي تغييرات كبيرة في واجهة برمجة التطبيقات.
حاليًا، يمكنك المساهمة في ner_v2 في Chatbot NER إما عن طريق إضافة بيانات التدريب أو عن طريق المساهمة في أنماط الكشف في شكل regex. سنعمل على إزالة بعض القيود المعمارية التي ستسهل عملية إضافة نماذج تعلم الآلة والكيانات الجديدة في المستقبل.
يرجى الرجوع إلى الخطوات العامة للمساهمة والموافقة وإرشادات الترميز المذكورة هنا.