أداة لتمديد المعجم باستخدام أساليب نشر التسمية. ومن خلال مجموعة نصية وقاموس المرادفات الموجود، يقوم بإنشاء اقتراحات لتوسيع مجموعات المرادفات الموجودة. تم تطوير هذه الأداة خلال رسالة الماجستير " Label Propagation for Tax Law Thesaurus Extension " في كرسي "هندسة البرمجيات لأنظمة معلومات الأعمال (sebis)" بجامعة ميونيخ التقنية (TUM).
ملخص الأطروحة. مع ظهور الرقمنة، يجب أن يتعامل استرجاع المعلومات مع الكميات المتزايدة من المحتوى الرقمي. يستثمر موفرو المحتوى القانوني الكثير من الأموال لبناء أنطولوجيات خاصة بالمجال مثل قاموس المرادفات لاسترداد عدد متزايد بشكل كبير من المستندات ذات الصلة. منذ عام 2002، تم تطوير العديد من طرق نشر العلامات، على سبيل المثال لتحديد مجموعات من العقد المتشابهة في الرسوم البيانية. نشر الملصقات عبارة عن عائلة من خوارزميات التعلم الآلي شبه الخاضعة للإشراف والقائمة على الرسم البياني. في هذه الأطروحة، سوف نقوم باختبار مدى ملاءمة طرق نشر التسمية لتوسيع قاموس المرادفات من مجال قانون الضرائب. الرسم البياني الذي يعمل عليه نشر التسمية هو رسم بياني للتشابه تم إنشاؤه من تضمينات الكلمات. نحن نغطي العملية من البداية إلى النهاية ونجري العديد من دراسات المعلمات لفهم تأثير بعض المعلمات المفرطة على الأداء العام. ثم يتم تقييم النتائج في الدراسات اليدوية ومقارنتها بالنهج الأساسي.
تم تنفيذ الأداة باستخدام بنية الأنابيب والمرشحات التالية:
pipenv
(دليل التثبيت).pipenv install
. data/RW40jsons
وقاموس المرادفات في data/german_relat_pretty-20180605.json
. راجعphase1.py وphase4.py للحصول على معلومات حول تنسيقات الملفات المتوقعة.output//
. الأكثر أهمية هي 08_propagation_evaluation
و XX_runs
. في 08_propagation_evaluation
، يتم تخزين إحصائيات التقييم كـ stats.json
مع جدول يحتوي على التنبؤات والتدريب ومجموعة الاختبار ( main.txt
، في البرامج النصية الأخرى غالبًا ما يشار إليها باسم df_evaluation
). في XX_runs
، يتم تخزين سجل التشغيل. إذا تم تشغيل عمليات تشغيل متعددة عبر multi_runs.py (لكل منها مجموعة تدريب/اختبار مختلفة)، فسيتم تخزين الإحصائيات المجمعة لجميع عمليات التشغيل الفردية كـ all_stats.json
أيضًا. عبر purew2v_parameter_studies.py، يمكن تنفيذ خط الأساس المتجه لمجموعة Synset الذي قدمناه في أطروحتنا. يتطلب الأمر مجموعة من تضمينات الكلمات وتقسيمًا واحدًا أو عدة تدريبات/اختبارات لقاموس المرادفات. راجع Sample_commands.md للحصول على مثال.
في ipynbs
، قدمنا بعض دفاتر ملاحظات Jupyter النموذجية التي تم استخدامها لإنشاء (أ) الإحصائيات و(ب) الرسوم البيانية و(ج) ملفات Excel للتقييمات اليدوية. يمكنك استكشافها عن طريق تشغيل pipenv shell
ثم تشغيل Jupyter باستخدام jupyter notebook
.
main.py
أو multi_run.py
.