تنزيل self operating computer - تنزيل رمز مصدر self operating computer

self operating computer

شفرة المصدر الأخرى

update to `1.4.6`

تنزيل

إطار الكمبيوتر الذي يعمل بالذات

إطار لتمكين النماذج متعددة الوسائط لتشغيل الكمبيوتر.

باستخدام نفس المدخلات والمخرجات كمشغل بشري ، ينظر النموذج على الشاشة ويقرر سلسلة من إجراءات الماوس ولوحة المفاتيح للوصول إلى هدف.

الميزات الرئيسية

التوافق : مصمم لمختلف النماذج متعددة الوسائط.
التكامل : متكامل حاليًا مع GPT-4O و Gemini Pro Vision و Claude 3 و Llava.
الخطط المستقبلية : دعم لنماذج إضافية.

التنمية المستمرة

في HyperWriteai ، نقوم بتطوير Agent-1-Vision نموذج متعدد الوسائط مع تنبؤات موقع النقرات الأكثر دقة.

Agent-1-Vision Model API API

سنقدم قريبًا وصول API إلى نموذج Agent-1-Fision.

إذا كنت مهتمًا بالوصول إلى واجهة برمجة التطبيقات هذه ، فقم بالتسجيل هنا.

العرض التوضيحي

النهائي Low.mp4

تشغيل `Self-Operating Computer`

تثبيت المشروع

 pip install self-operating-computer

تشغيل المشروع

 operate

أدخل مفتاح Openai الخاص بك : إذا لم يكن لديك مفتاح ، فيمكنك الحصول على مفتاح Openai هنا. إذا كنت بحاجة إلى تغيير المفتاح الخاص بك في نقطة لاحقة ، فقم بتشغيل vim .env لفتح .env واستبدال المفتاح القديم.

امنح التطبيق الطرفي الأذونات المطلوبة : كخطوة أخيرة ، سيطلب التطبيق الطرفي إذن "تسجيل الشاشة" و "إمكانية الوصول" في صفحة "الأمان والخصوصية" من "تفضيلات النظام" في Mac.

باستخدام أوضاع `operate`

نماذج متعددة `-m`

يتوافق نموذج إضافي الآن مع إطار الكمبيوتر العاملة الذاتي. جرب gemini-pro-vision من Google من خلال اتباع الإرشادات أدناه.

ابدأ operate مع نموذج الجوزاء

 operate -m gemini-pro-vision

أدخل مفتاح Google AI Studio API عندما يطالبك Terminal بذلك إذا لم يكن لديك مفتاح ، يمكنك الحصول على مفتاح هنا بعد إعداد حساب Google AI Studio الخاص بك. قد تحتاج أيضًا إلى تفويض بيانات الاعتماد لتطبيق سطح المكتب. استغرق الأمر مني بعض الوقت لأعمل ، إذا كان أي شخص يعرف طريقة أبسط ، يرجى عمل العلاقات العامة.

جرب كلود `-m claude-3`

استخدم Claude 3 مع Vision لمعرفة كيف تصل إلى GPT-4-Vision في تشغيل جهاز كمبيوتر. انتقل إلى لوحة معلومات كلود للحصول على مفتاح API وتشغيل الأمر أدناه لتجربته.

 operate -m claude-3

جرب Llava المستضافة من خلال Ollama `-m llava`

إذا كنت ترغب في تجربة إطار الكمبيوتر الذي يعمل ذاتيًا باستخدام LLAVA على جهازك الخاص ، فيمكنك مع Ollama!
ملاحظة: يدعم Ollama حاليًا MacOS و Linux فقط

أولاً ، قم بتثبيت Ollama على جهازك من https://ollama.ai/download.

بمجرد تثبيت Ollama ، اسحب نموذج LLAVA:

 ollama pull llava

سيؤدي ذلك إلى تنزيل النموذج على جهازك الذي يستغرق حوالي 5 جيجابايت من التخزين.

عندما تنتهي Ollama من سحب Llava ، ابدأ الخادم:

 ollama serve

هذا كل شيء! ابدأ الآن operate وحدد نموذج LLAVA:

 operate -m llava

هام: معدلات الخطأ عند استخدام LLAVA مرتفعة للغاية. يهدف هذا ببساطة إلى أن يكون قاعدة للبناء مع تحسن النماذج متعددة الوسائط المحلية مع مرور الوقت.

تعرف على المزيد حول Ollama في مستودع GitHub

الوضع الصوتي `--voice`

يدعم الإطار المدخلات الصوتية للهدف. جرب الصوت باتباع التعليمات أدناه. استنساخ الريبو إلى دليل على جهاز الكمبيوتر الخاص بك:

 git clone https://github.com/OthersideAI/self-operating-computer.git

القرص المضغوط في الدليل :

 cd self-operating-computer

قم بتثبيت requirements-audio.txt

 pip install -r requirements-audio.txt

تثبيت متطلبات الجهاز لمستخدمي Mac:

 brew install portaudio

لمستخدمي Linux:

 sudo apt install portaudio19-dev python3-pyaudio

تشغيل مع الوضع الصوتي

 operate --voice

وضع التعرف على الأحرف البصرية `-m gpt-4-with-ocr`

يدمج إطار الكمبيوتر الذي يعمل ذاتيًا الآن إمكانيات التعرف على الأحرف البصرية (OCR) مع وضع gpt-4-with-ocr . يعطي هذا الوضع خريطة تجزئة GPT-4 A للعناصر القابلة للنقر من خلال الإحداثيات. يمكن لـ GPT-4 أن تقرر click العناصر عن طريق النص ، ثم يشير الكود إلى خريطة التجزئة للحصول على الإحداثيات لهذا العنصر GPT-4 الذي يريد النقر عليه.

استنادًا إلى الاختبارات الحديثة ، يؤدي OCR أداء أفضل من som و Vanilla GPT-4 ، لذلك جعلناه افتراضيًا للمشروع. لاستخدام وضع التعرف الضوئي على الحروف ، يمكنك الكتابة ببساطة:

operate أو operate -m gpt-4-with-ocr .

تحطيم مجموعة من العلامات `-m gpt-4-with-som`

يدعم إطار الكمبيوتر الذي يعمل ذاتيًا الآن مجموعة العلامات (SOM) التي تقدم بأمر gpt-4-with-som . تعزز هذه الطريقة الجديدة للطلاء البصري إمكانيات التأريض البصري للنماذج الكبيرة متعددة الوسائط.

تعرف على المزيد حول SOM التي تقدمت في ورقة Arxiv التفصيلية: هنا.

بالنسبة لهذا الإصدار الأولي ، يتم تدريب طراز YOLOV8 البسيط للكشف عن الأزرار ، ويتم تضمين best.pt ملف model/weights/ يتم تشجيع المستخدمين على المبادلة في best.pt ملفهم لتقييم تحسينات الأداء. إذا كان النموذج الخاص بك يتفوق على النموذج الحالي ، فيرجى المساهمة عن طريق إنشاء طلب سحب (PR).

ابدأ operate مع طراز SOM

 operate -m gpt-4-with-som

المساهمات موضع ترحيب!:

إذا كنت تريد المساهمة بنفسك ، انظر المساهمة.

تعليق

لأي مدخلات حول تحسين هذا المشروع ، لا تتردد في الوصول إلى Josh على Twitter.

انضم إلى مجتمع Discord

للمناقشات في الوقت الفعلي ودعم المجتمع ، انضم إلى خادم Discord الخاص بنا.

إذا كنت عضوًا بالفعل ، انضم إلى المناقشة في #-self-acputer.
إذا كنت جديدًا ، انضم أولاً إلى خادم Discord الخاص بنا ، ثم انتقل إلى الحاسوب الذاتي.

اتبع HyperWriteai لمزيد من التحديثات

ابق على اطلاع دائم بأحدث التطورات:

اتبع HyperWriteai على Twitter.
اتبع Hyperwriteai على LinkedIn.

التوافق

هذا المشروع متوافق مع نظام التشغيل Mac OS و Windows و Linux (مع تثبيت خادم X).

ملاحظة الحد من معدل Openai

مطلوب نموذج gpt-4o . لإلغاء تأمين الوصول إلى هذا النموذج ، يحتاج حسابك إلى إنفاق ما لا يقل عن 5 دولارات في ائتمانات API. سيتم فتح الوصول المسبق لهذه الاعتمادات إذا لم تنفق بالفعل الحد الأدنى 5 دولارات.
تعرف على المزيد هنا

يوسع

معلومات إضافية