حاول بدون مصادقة Firebase (حل مؤقت): #2 (تعليق)
تتكون مجموعتنا من Next.js وRust وPostgres وMeiliSearch وFirebase Auth للمصادقة. يرجى التسجيل للحصول على حساب Firebase وإنشاء مشروع.
في Firebase، انتقل إلى إعدادات المشروع -> حسابات الخدمة، وقم بإنشاء مفتاح خاص، واحفظه داخل firebaseAdmin/cert/dev.json
إذا كان للتطوير أو prod.json إذا كان للإنتاج.
بعد ذلك، تأكد من تثبيت التبعيات قبل بدء التطبيق.
npm install
npm run db:deploy
npm run dev
(للتطوير)npm run build
(للإنتاج)npm run start
(للإنتاج) بمجرد تشغيل "dev" أو "build"، ستجد الامتداد مدمجًا داخل المجلد ./client/extension/build
. يمكنك بعد ذلك تحميل هذا المجلد كملحق غير مضغوط في متصفحك.
هناك العديد من المشاكل مع وكلاء المتصفح الحاليين. وهنا نشرح المشاكل وكيف قمنا بحلها.
هناك العديد من التقنيات للقيام بذلك، بدءًا من إرسال نموذج مختصر من HTML إلى GPT-3، وإنشاء مربع محيط بمعرفات وإرساله إلى GPT-4-vision لاتخاذ الإجراءات، أو مطالبة GPT-4-vision مباشرة بالحصول على إحداثيات X وY للعنصر. ومع ذلك، لم تكن أي من هذه الأساليب موثوقة؛ كلهم أدى إلى الهلوسة.
لمعالجة هذه المشكلة، قمنا بتطوير تقنية جديدة حيث نقوم بفهرسة DOM بالكامل في MeiliSearch، مما يسمح لـ GPT-4-vision بإنشاء أوامر للنص الداخلي للعنصر للنقر عليه أو نسخه أو تنفيذ إجراءات أخرى. نقوم بعد ذلك بالبحث في الفهرس بالنص الذي تم إنشاؤه واسترداد معرف العنصر لإرساله مرة أخرى إلى المتصفح لاتخاذ الإجراء. هناك بعض القيود هنا، ولكننا قمنا بتنفيذ بعض التقنيات للتغلب عليها، مثل التعامل مع نفس النص في عناصر متعددة أو النقر على أيقونة (لا نزال نعمل على ذلك).
لمنع GPT من الانحراف عن المهام، نستخدم تقنية تشبه الجيل المعزز للاسترجاع، ولكننا نسميها نوعًا ما إنشاء الإجراءات المعززة. في الأساس، عندما يقوم المستخدم بإنشاء سير عمل، فإننا لا نسجل الشاشة أو الميكروفون أو الكاميرا، ولكننا نسجل تغييرات عنصر DOM لكل إجراء (النقر والكتابة وما إلى ذلك) الذي يتخذه المستخدم. نستخدم بعد ذلك عنوان سير العمل والهدف والإجراءات المسجلة لإنشاء مجموعة من المهام. عندما نقوم بتنفيذ مهمة، نقوم بتضمين جميع الإجراءات التي اتخذها المستخدم في هذا المجال المحدد مع المطالبة. بهذه الطريقة، تظل GPT على المسار الصحيح للمهمة، حتى لو لم يقدم المستخدم عنوانًا وهدفًا مختصرين للغاية؛ ستوجه أفعالهم GPT لإكمال المهمة.