إطار لتمكين النماذج متعددة الوسائط لتشغيل الكمبيوتر.
باستخدام نفس المدخلات والمخرجات كمشغل بشري ، ينظر النموذج على الشاشة ويقرر سلسلة من إجراءات الماوس ولوحة المفاتيح للوصول إلى هدف.
في HyperWriteai ، نقوم بتطوير Agent-1-Vision نموذج متعدد الوسائط مع تنبؤات موقع النقرات الأكثر دقة.
سنقدم قريبًا وصول API إلى نموذج Agent-1-Fision.
إذا كنت مهتمًا بالوصول إلى واجهة برمجة التطبيقات هذه ، فقم بالتسجيل هنا.
Self-Operating Computer
pip install self-operating-computer
operate
vim .env
لفتح .env
واستبدال المفتاح القديم. operate
-m
يتوافق نموذج إضافي الآن مع إطار الكمبيوتر العاملة الذاتي. جرب gemini-pro-vision
من Google من خلال اتباع الإرشادات أدناه.
ابدأ operate
مع نموذج الجوزاء
operate -m gemini-pro-vision
أدخل مفتاح Google AI Studio API عندما يطالبك Terminal بذلك إذا لم يكن لديك مفتاح ، يمكنك الحصول على مفتاح هنا بعد إعداد حساب Google AI Studio الخاص بك. قد تحتاج أيضًا إلى تفويض بيانات الاعتماد لتطبيق سطح المكتب. استغرق الأمر مني بعض الوقت لأعمل ، إذا كان أي شخص يعرف طريقة أبسط ، يرجى عمل العلاقات العامة.
-m claude-3
استخدم Claude 3 مع Vision لمعرفة كيف تصل إلى GPT-4-Vision في تشغيل جهاز كمبيوتر. انتقل إلى لوحة معلومات كلود للحصول على مفتاح API وتشغيل الأمر أدناه لتجربته.
operate -m claude-3
-m llava
إذا كنت ترغب في تجربة إطار الكمبيوتر الذي يعمل ذاتيًا باستخدام LLAVA على جهازك الخاص ، فيمكنك مع Ollama!
ملاحظة: يدعم Ollama حاليًا MacOS و Linux فقط
أولاً ، قم بتثبيت Ollama على جهازك من https://ollama.ai/download.
بمجرد تثبيت Ollama ، اسحب نموذج LLAVA:
ollama pull llava
سيؤدي ذلك إلى تنزيل النموذج على جهازك الذي يستغرق حوالي 5 جيجابايت من التخزين.
عندما تنتهي Ollama من سحب Llava ، ابدأ الخادم:
ollama serve
هذا كل شيء! ابدأ الآن operate
وحدد نموذج LLAVA:
operate -m llava
هام: معدلات الخطأ عند استخدام LLAVA مرتفعة للغاية. يهدف هذا ببساطة إلى أن يكون قاعدة للبناء مع تحسن النماذج متعددة الوسائط المحلية مع مرور الوقت.
تعرف على المزيد حول Ollama في مستودع GitHub
--voice
يدعم الإطار المدخلات الصوتية للهدف. جرب الصوت باتباع التعليمات أدناه. استنساخ الريبو إلى دليل على جهاز الكمبيوتر الخاص بك:
git clone https://github.com/OthersideAI/self-operating-computer.git
القرص المضغوط في الدليل :
cd self-operating-computer
قم بتثبيت requirements-audio.txt
pip install -r requirements-audio.txt
تثبيت متطلبات الجهاز لمستخدمي Mac:
brew install portaudio
لمستخدمي Linux:
sudo apt install portaudio19-dev python3-pyaudio
تشغيل مع الوضع الصوتي
operate --voice
-m gpt-4-with-ocr
يدمج إطار الكمبيوتر الذي يعمل ذاتيًا الآن إمكانيات التعرف على الأحرف البصرية (OCR) مع وضع gpt-4-with-ocr
. يعطي هذا الوضع خريطة تجزئة GPT-4 A للعناصر القابلة للنقر من خلال الإحداثيات. يمكن لـ GPT-4 أن تقرر click
العناصر عن طريق النص ، ثم يشير الكود إلى خريطة التجزئة للحصول على الإحداثيات لهذا العنصر GPT-4 الذي يريد النقر عليه.
استنادًا إلى الاختبارات الحديثة ، يؤدي OCR أداء أفضل من som
و Vanilla GPT-4 ، لذلك جعلناه افتراضيًا للمشروع. لاستخدام وضع التعرف الضوئي على الحروف ، يمكنك الكتابة ببساطة:
operate
أو operate -m gpt-4-with-ocr
.
-m gpt-4-with-som
يدعم إطار الكمبيوتر الذي يعمل ذاتيًا الآن مجموعة العلامات (SOM) التي تقدم بأمر gpt-4-with-som
. تعزز هذه الطريقة الجديدة للطلاء البصري إمكانيات التأريض البصري للنماذج الكبيرة متعددة الوسائط.
تعرف على المزيد حول SOM التي تقدمت في ورقة Arxiv التفصيلية: هنا.
بالنسبة لهذا الإصدار الأولي ، يتم تدريب طراز YOLOV8 البسيط للكشف عن الأزرار ، ويتم تضمين best.pt
ملف model/weights/
يتم تشجيع المستخدمين على المبادلة في best.pt
ملفهم لتقييم تحسينات الأداء. إذا كان النموذج الخاص بك يتفوق على النموذج الحالي ، فيرجى المساهمة عن طريق إنشاء طلب سحب (PR).
ابدأ operate
مع طراز SOM
operate -m gpt-4-with-som
إذا كنت تريد المساهمة بنفسك ، انظر المساهمة.
لأي مدخلات حول تحسين هذا المشروع ، لا تتردد في الوصول إلى Josh على Twitter.
للمناقشات في الوقت الفعلي ودعم المجتمع ، انضم إلى خادم Discord الخاص بنا.
ابق على اطلاع دائم بأحدث التطورات:
مطلوب نموذج gpt-4o
. لإلغاء تأمين الوصول إلى هذا النموذج ، يحتاج حسابك إلى إنفاق ما لا يقل عن 5 دولارات في ائتمانات API. سيتم فتح الوصول المسبق لهذه الاعتمادات إذا لم تنفق بالفعل الحد الأدنى 5 دولارات.
تعرف على المزيد هنا