الباحث
يوفر لك الباحث الوقت باستخدام Google وGPT-3 للإجابة على الأسئلة بإيجاز ودقة. ويشمل الاستشهادات حتى تتمكن من البحث عن المصادر.
إنه نموذج بحث مختلف عن استخدام Google أو GPT وحدهما. باستخدام Google، يتعين عليك فحص عدة أجزاء من محتوى البريد العشوائي لتحسين محركات البحث للعثور على الإجابة. مع GPT، لا يمكنك التأكد من صحة الإجابة التي حصلت عليها، أو من أين جاءت.
يقوم الباحث بحل هذه المشكلات عن طريق تغذية الأقسام ذات الصلة من نتائج بحث Google إلى GPT-3 لإنشاء نظرة عامة.
مقارنة
ومن خلال تغذية سياق الويب في نموذج لغة كبير، يمكنك تحسين الدقة والتحقق من المعلومات. في هذا المثال، ليس لديك طريقة للتحقق من المعلومات من ChatGPT. كما أنها ليست محددة للغاية. يمنحك الباحث المصادر المستشهد بها ومعلومات أكثر تحديدًا من خلال الاعتماد على السياق من Google.
ChatGPT | الباحث |
---|
| |
لقطات الشاشة
أسئلة وأجوبة فنية | توصية |
---|
| |
تثبيت
- استنساخ هذا المستودع باستخدام git.
- تأكد من تثبيت Python 3.8+. اعتبارًا من 22/12، لا يدعم Pytorch إصدار Python 3.11 على جميع الأنظمة الأساسية، لذا يوصى باستخدام Python 3.10.
- قم بتشغيل
cd researcher
للوصول إلى مجلد المستودع. - قم بتشغيل
pip install -r requirements.txt
لتثبيت الحزم المطلوبة. - أدخل مفتاح OpenAI API الخاص بك في
settings.py
في المتغير OPENAI_KEY
. - قم بتشغيل
python app.py
لتشغيل التطبيق. بشكل افتراضي، سيتم تشغيله على المنفذ 5000
. - [اختياري] افتراضيًا، سيقوم الباحث باستخلاص نتائج بحث Google. هذا ليس موثوقًا دائمًا. إذا كنت تريد المزيد من الموثوقية، قم بتسجيل محرك بحث مخصص لدى Google، ثم:
- أدخل مفتاح API في
settings.py
في المتغير SEARCH_KEY
. - أدخل معرف محرك البحث المخصص في
SEARCH_ID
. - قم بتغيير
SEARCH_METHOD
إلى api
.
الاستخدام
- تفضل بزيارة
http://127.0.0.1:5000
لرؤية واجهة البحث. - أدخل استعلام بحث وانقر على "بحث". الأسئلة تعمل بشكل أفضل.
- يمكن أن يستغرق الأمر من 10 إلى 20 ثانية للحصول على النتائج، اعتمادًا على الاستعلام. سترى ملخصًا والمصادر المستخدمة لإنشاء الملخص.
كيف يعمل
- يتم سحب نتائج البحث الأولية من جوجل
- يتم كشط كل موقع باستخدام الطلبات
- يتم تخزين HTML للموقع في قاعدة بيانات sqlite محلية
- تتم تصفية النتائج لإزالة المواقع التي تحتوي على عدد كبير جدًا من الإعلانات أو أدوات التتبع
- يتم سحب أجزاء من النص من كل موقع، وتصنيفها مقابل استعلام البحث
- يتم استخدام الأجزاء النصية N العليا لإنشاء ملخص باستخدام GPT-3
- يتم عرض الملخص مع المصادر المستخدمة في إنشائه
التعليمات
- هل هذا يكلف مالاً؟ يستخدم هذا واجهة برمجة تطبيقات OpenAI، والتي يمكن أن تكلف أموالاً اعتمادًا على الاعتمادات الخاصة بك. يجب أن يكلف كل استعلام حوالي 1/3 سنتًا. إذا كنت تستخدم وضع واجهة برمجة التطبيقات (API)، فقد يكلفك ذلك أيضًا أموالًا بناءً على عمليات البحث التي تجريها على Google. يقدم بحث Google المخصص 100 عملية بحث مجانية يوميًا، ثم سيكلف 5 دولارات لكل 1000 استعلام.
- لماذا يستغرق الأمر وقتًا طويلاً للحصول على النتائج؟ يقوم الباحث بإجراء بحث، ثم يقوم بمسح المواقع للحصول على السياق ذي الصلة، ثم يستدعي واجهة برمجة التطبيقات (API) لتلخيص السياق. هذه العمليات تستغرق وقتا طويلا. قد يؤدي ضبط بعض الإعدادات إلى تسريع هذا الأمر. طول القطعة بشكل خاص وعدد النتائج.
- لماذا أحصل على خطأ 429؟ افتراضيًا، سيقوم الباحث باستخلاص نتائج Google. إذا قمت بذلك كثيرًا، فقد تحصل على خطأ 429. قم بالتبديل إلى وضع API (الموضح أعلاه) لتجنب ذلك.
- لماذا تظهر لي رسالة خطأ مفادها أنه لا يمكن إنشاء الملخص؟ ستواجه واجهة برمجة تطبيقات OpenAI أحيانًا مشكلة. سيؤدي هذا إلى عدم عرض الملخص. فقط قم بتشغيل البحث مرة أخرى لإصلاح هذا.
التحسينات المستقبلية
- تسريع عملية البحث
- تحسين الخوارزمية للعثور على أجزاء النص المثالية
- جرب نموذجًا مستضافًا ذاتيًا بدلاً من GPT-3 (ربما PEGASUS للتلخيص، أو متغير BLOOM أو T5 المضبوط بدقة)
- قم بتلخيص أجزاء النص قبل المرور إلى GPT-3