فتح واجهة

Autopilot الكامل لجميع أجهزة الكمبيوتر باستخدام LLMS
فتح واجهة
- يقود أجهزة الكمبيوتر الذاتية عن طريق إرسال طلبات المستخدم إلى الواجهة الخلفية LLM (GPT-4V ، إلخ) لمعرفة الخطوات المطلوبة.
- ينفذ تلقائيًا الخطوات عن طريق محاكاة لوحة المفاتيح وإدخال الماوس.
- تصحيحات الدورة التدريبية عن طريق إرسال LLMS لقطة شاشة حالية للكمبيوتر حسب الحاجة.
برامج القيادة الذاتية لجميع أجهزة الكمبيوتر الخاصة بك
العرض التوضيحي
["اجعلني خطة وجبة في مستندات Google"]

المزيد من العروض التوضيحية
ثَبَّتَ ؟
ماكوس
- قم بتنزيل MacOS Binary من أحدث إصدار.
- قم بإلغاء ضغط الملف ونقل الواجهة المفتوحة إلى مجلد التطبيقات.

Macs Silicon M-Series Macs
- ستطلب منك Open Interface الوصول إلى إمكانية الوصول لتشغيل لوحة المفاتيح والماوس لك ، والوصول إلى تسجيل الشاشة لالتقاط لقطات شاشة لتقييم تقدمها.
- في حال لم يفعل ذلك ، أضف هذه الإذن يدويًا عبر إعدادات النظام -> الخصوصية والأمان


إنتل ماك
- قم بتشغيل التطبيق من مجلد التطبيقات.
قد تواجه خطأ MAC القياسي "لا يمكن فتح الواجهة المفتوحة" .

في هذه الحالة ، اضغط على "إلغاء" .
ثم انتقل إلى تفضيلات النظام -> الأمان والخصوصية -> فتح على أي حال.



- ستحتاج المفتوحة أيضًا إلى إمكانية الوصول إلى إمكانية الوصول لتشغيل لوحة المفاتيح والماوس من أجلك ، والوصول إلى تسجيل الشاشة لالتقاط لقطات شاشة لتقييم تقدمها.


- أخيرًا ، الخروج من قسم الإعداد لتوصيل الواجهة المفتوحة بـ LLMS (Openai GPT-4V)
Linux
- تم اختبار Linux Binary على Ubuntu 20.04 حتى الآن.
- قم بتنزيل ملف Linux zip من أحدث إصدار.
- استخراج القابل للتنفيذ وقم بتشغيله من المحطة عبر
./Open Interface
- الخروج من قسم الإعداد لتوصيل الواجهة المفتوحة بـ LLMS (Openai GPT-4V)
النوافذ
- تم اختبار Windows Binary على Windows 10.
- قم بتنزيل ملف Windows zip من أحدث إصدار.
- قم بفك ضغط المجلد ، وحرك exe إلى الموقع المطلوب ، وانقر مزدوجًا للفتح ، وفويلا.
- الخروج من قسم الإعداد لتوصيل الواجهة المفتوحة بـ LLMS (Openai GPT-4V)
يثبت
قم بإعداد مفتاح Openai API
احصل على مفتاح Openai API الخاص بك
- Open Interface يحتاج إلى الوصول إلى GPT-4V لتنفيذ طلبات المستخدم. يمكن تنزيل مفاتيح GPT-4V من حساب Openai الخاص بك.
- اتبع الخطوات هنا لإضافة رصيد إلى حساب Openai الخاص بك. لفتح GPT-4V هناك حاجة إلى الحد الأدنى من 5 دولارات.
- مزيد من المعلومات
احفظ مفتاح API في إعدادات الواجهة المفتوحة
- في الواجهة المفتوحة ، انتقل إلى قائمة الإعدادات في أعلى اليمين وأدخل المفتاح الذي تلقيته من Openai في حقل النص مثل:

بعد تعيين مفتاح API لأول مرة ، ستحتاج إلى إعادة تشغيل التطبيق.
اختياري: إعداد LLM مخصص
- تدعم Open Interface باستخدام Openai API Style LLMS (مثل LLAVA) كواجهة خلفية ويمكن تكوينها بسهولة في نافذة الإعدادات المتقدمة.
- أدخل عنوان URL الأساسي المخصص واسم النموذج في نافذة الإعدادات المتقدمة ومفتاح API في نافذة الإعدادات حسب الحاجة.

- إذا كانت LLM لا تدعم واجهة برمجة تطبيقات Openai Style ، فيمكنك استخدام مكتبة مثل هذه لتحويلها إلى واحدة.
- ستحتاج إلى إعادة تشغيل التطبيق بعد هذه التغييرات.
الأشياء سيئة في (الآن) ؟
- الدقة المكانية-الانتعاش وبالتالي النقر فوق الأزرار.
- تتبع نفسه في سياقات جدولية ، مثل Excel و Google Sheets ، لأسباب مماثلة كما هو مذكور أعلاه.
- التنقل في التطبيقات الغنية بالعبواتي المبتكرة مثل الإضراب المضاد ، سبوتيفي ، فرقة المرآب ، إلخ بسبب الاعتماد الشديد على تصرفات المؤشر.
مستقبل ؟
( مع نماذج أفضل تدرب على تجول في الفيديو مثل دروس يوتيوب )
- "قم بإنشاء اثنين من عينات الجهير بالنسبة لي في فرقة المرآب لأحدث مشروعي."
- "اقرأ مستند التصميم هذا لميزة جديدة ، وقم بتحرير الرمز على Github ، وقم بإرساله للمراجعة."
- "ابحث عن طعم موسيقى أصدقائي من Spotify وقم بإنشاء قائمة تشغيل للحفلات لحدث الليلة."
- "التقط الصور من رحلة تاهو وصنع مونتاج من نوع اللوتس الأبيض في imovie."
ملحوظات
- التكلفة: 0.05 دولار - 0.20 دولار لكل طلب مستخدم.
(سيكون هذا أقل بكثير في المستقبل القريب بمجرد أن يتيح GPT-4V الوضع المساعد/الدولي) - يمكنك مقاطعة التطبيق في أي وقت عن طريق الضغط على زر STOP ، أو عن طريق سحب المؤشر إلى أي من زوايا الشاشة.
- لا يمكن لفتح الواجهة رؤية العرض الأساسي الخاص بك إلا عند استخدام شاشات متعددة. لذلك ، إذا كان المؤشر/التركيز على شاشة ثانوية ، فقد يستمر في إعادة إعادة محاولة نفس الإجراءات لأنه غير قادر على رؤية تقدمه (خاصة في MacOS مع إطلاق الأضواء).
مخطط النظام ؟ ️
+----------------------------------------------------+
| App |
| |
| +-------+ |
| | GUI | |
| +-------+ |
| ^ |
| | |
| v |
| +-----------+ (Screenshot + Goal) +-----------+ |
| | | --------------------> | | |
| | Core | | LLM | |
| | | <-------------------- | (GPT-4V) | |
| +-----------+ (Instructions) +-----------+ |
| | |
| v |
| +-------------+ |
| | Interpreter | |
| +-------------+ |
| | |
| v |
| +-------------+ |
| | Executer | |
| +-------------+ |
+----------------------------------------------------+
تاريخ النجوم ️
الروابط ؟
- تحقق من المزيد من مشاريعي في Ambersah.dev.
- يمكن العثور على عروض تجريبية أخرى ومجموعة الصحافة في Media.MD.