يستكشف هذا المشروع إمكانات نماذج الذكاء الاصطناعي التوليدية مفتوحة المصدر، وخاصة تلك المستندة إلى بنية المحولات، لأتمتة تلخيص محتوى المستند. الهدف هو تقييم وتطبيق نماذج الذكاء الاصطناعي التوليدية الحالية لتحليل وفهم السياق وإنشاء ملخصات للمستندات غير المنظمة.
ولتحقيق ذلك، قمت بضبط نموذجين بارزين: t5-small وfacebook/bart-base، مع التركيز على تحسين أداء التلخيص الخاص بهما.
ينصب التركيز على نماذج التشفير وفك التشفير التي تتبع البنية التي اقترحتها المحولات الأصلية بسبب التعيين المعقد بين تسلسلات الإدخال والإخراج المطلوبة لتلخيص النص. تتميز نماذج التشفير وفك التشفير بالمهارة في التقاط العلاقات ضمن هذه التسلسلات، مما يجعلها مناسبة لهذه المهمة.
تأكد من تثبيت Python 3.x على نظامك. ثم اتبع الخطوات أدناه لإعداد بيئتك:
$ xcode-select --install
$ pip3 install --upgrade pip
$ pip3 install --upgrade setuptools
$ pip3 install -r requirements.txt
python3 main.py
يتكون المشروع من ست مراحل رئيسية:
كانت مجموعة البيانات المستخدمة لضبط نموذجي T5 وBART هي مجموعة بيانات براءات الاختراع الكبيرة، والتي تتألف من 1.3 مليون وثيقة براءة اختراع أمريكية إلى جانب ملخصاتها المجردة المكتوبة بواسطة الإنسان. يتم تصنيف كل وثيقة في مجموعة البيانات هذه ضمن رمز تصنيف براءات الاختراع التعاوني (CPC)، الذي يغطي مجموعة واسعة من المواضيع بدءًا من الضروريات البشرية وحتى الفيزياء والكهرباء. ويضمن هذا التنوع أن النماذج تواجه مجموعة واسعة من استخدامات اللغة والمصطلحات التقنية، وهو أمر بالغ الأهمية لتطوير قدرة تلخيص قوية.
تم اختيار مجموعة بيانات البراءات الكبرى نظرًا لارتباطها بهدف المشروع المتمثل في تلخيص المستندات المعقدة. إن براءات الاختراع مفصلة وتقنية بطبيعتها، مما يجعلها تحديًا مثاليًا لاختبار قدرة النماذج على تكثيف المعلومات مع الحفاظ على المحتوى والسياق الأساسيين. يوفر التنسيق المنظم لمجموعة البيانات ووجود ملخصات عالية الجودة أساسًا قويًا للتدريب وتقييم أداء النماذج في إنشاء ملخصات دقيقة ومتماسكة.
تم تقييم أداء النماذج باستخدام مقياس ROUGE، مع التركيز على قدرتها على إنشاء ملخصات تتوافق بشكل وثيق مع الملخصات المكتوبة بواسطة الإنسان. تم ضبط كل من نموذجي BART وT5 باستخدام مجموعة بيانات براءات الاختراع الكبيرة، مع التركيز على تحقيق تلخيص تجريدي عالي الجودة.
متري | قيمة |
---|---|
خسارة التقييم (خسارة التقييم) | 1.9244 |
روج-1 | 0.5007 |
روج-2 | 0.2704 |
روج-L | 0.3627 |
روج لاسوم | 0.3636 |
متوسط طول الجيل (جين لين) | 122.1489 |
وقت التشغيل (ثواني) | 1459.3826 |
عينات في الثانية | 1.312 |
خطوات في الثانية | 0.164 |
متري | قيمة |
---|---|
خسارة التقييم (خسارة التقييم) | 1.9984 |
روج-1 | 0.503 |
روج-2 | 0.286 |
روج-L | 0.3813 |
روج لاسوم | 0.3813 |
متوسط طول الجيل (جين لين) | 151.918 |
وقت التشغيل (ثواني) | 714.4344 |
عينات في الثانية | 2.679 |
خطوات في الثانية | 0.336 |