لقد جذبت ميزة "استخدام الكمبيوتر" الخاصة بـ Anthropic، والتي تم إطلاقها في أكتوبر، الاهتمام بقدرات وكيل الذكاء الاصطناعي التي يتمتع بها، وأصبح كلود أول نموذج متطور يمكنه التفاعل من خلال نفس واجهة المستخدم الرسومية (GUI) مثل البشر. سيمنحك محرر Downcodes فهمًا متعمقًا للتقدم المذهل الذي حققته هذه التكنولوجيا، بالإضافة إلى التحديات التي تواجهها واتجاه تطورها المستقبلي.
منذ أن أطلقت Anthropic ميزة "استخدام الكمبيوتر" لكلود في أكتوبر، جذبت قدرات وكيل الذكاء الاصطناعي اهتمامًا واسع النطاق. تجعل هذه الميزة من كلود أول نموذج متطور يتفاعل من خلال نفس واجهة المستخدم الرسومية (GUI) التي يستخدمها الإنسان.
يوفر Claude للمستخدمين طريقة ملائمة لأتمتة العمليات دون الحاجة إلى واجهة API من خلال الوصول إلى لقطات شاشة سطح المكتب وإكمال المهام من خلال عمليات لوحة المفاتيح والماوس.
في دراسة أجراها Show Lab التابع لجامعة سنغافورة الوطنية، اختبر الباحثون كلود في مجموعة متنوعة من المهام، بما في ذلك عمليات البحث على الويب، وإكمال سير العمل، وإنتاجية المكتب، وألعاب الفيديو. اختبرت هذه المهام قدرة كلود في سيناريوهات مختلفة، مثل البحث عن العناصر وشرائها على الويب، أو استخراج المعلومات من موقع ويب وإدراجها في جدول بيانات. من خلال هذه الاختبارات، قام الباحثون بتقييم أداء كلود من خلال ثلاثة أبعاد: التخطيط والعمل والتقييم.
أداء كلود مثير للإعجاب عندما يتعلق الأمر بتنفيذ المهام المعقدة. هي القدرة على صياغة خطة واضحة، ومتابعتها خطوة بخطوة، وتقييم تقدمها في كل خطوة. بالإضافة إلى ذلك، يمكنه التنسيق بين تطبيقات متعددة، مثل نسخ صفحات الويب الخاصة بالمعلومات إلى جدول بيانات. وفي بعض الحالات، يستطيع كلود مراجعة النتائج في نهاية المهمة للتأكد من أن كل شيء على ما يرام.
ومع ذلك، يرتكب كلود أيضًا بعض الأخطاء البسيطة التي يمكن للمستخدم العادي تجنبها بسهولة. على سبيل المثال، في إحدى المهام، فشلت في إكمال الاشتراك لأنه لم يكن هناك تمرير لأسفل الصفحة للعثور على الزر المقابل.
كانت هناك أيضًا حالات كان فيها الأمر صعبًا عند تنفيذ مهام واضحة، مثل تحديد النص واستبداله أو تغيير التعداد النقطي إلى أرقام. بالإضافة إلى ذلك، لا يدرك كلود أحيانًا أخطائه أو يضع افتراضات غير صحيحة حول سبب فشله في تحقيق أهدافه.
وأشار الباحثون إلى أن أوجه القصور لدى كلود في آليات التقييم الذاتي قد تكون السبب وراء هذه الأخطاء، وأن إطار عمل وكيل واجهة المستخدم الرسومية قد يحتاج إلى تحسين في المستقبل لإضافة وحدات تقييم ذاتي أكثر صرامة. تظهر النتائج أيضًا أن وكلاء واجهة المستخدم الرسومية الحاليين لا يكررون بشكل كامل الفروق الأساسية في كيفية استخدام البشر لأجهزة الكمبيوتر.
بالنسبة للشركات، تعد إمكانية استخدام نص بسيط لوصف المهام الآلية أمرًا مغريًا، لكن التكنولوجيا ليست جاهزة بعد للتبني على نطاق واسع. سلوك النموذج غير منتظم، مما قد يؤدي إلى عواقب غير متوقعة في التطبيقات الحساسة. وفي الوقت نفسه، فإن تنفيذ العمليات من خلال واجهة مصممة بواسطة الإنسان ليس الطريقة الأسرع لإكمال المهمة.
قبل النشر على نطاق واسع، تحتاج المؤسسات أيضًا إلى القلق بشأن المخاطر الأمنية التي يفرضها إسناد نماذج اللغات الكبيرة (LLMs) إلى أجهزة الماوس ولوحات المفاتيح. على سبيل المثال، أظهرت الأبحاث أن وكلاء الشبكة معرضون للهجمات العدائية التي يمكن للبشر تجاهلها بسهولة. ومع ذلك، يمكن لأدوات مثل Claude أن تساعد فرق المنتجات على استكشاف الأفكار وتكرار الحلول، مما يوفر الوقت والمال قبل تطوير ميزات أو خدمات جديدة.
توضح ميزة "استخدام الكمبيوتر" لكلود الإمكانات الهائلة للتقدم في تكنولوجيا الذكاء الاصطناعي، ولكنها تكشف أيضًا عن مجال للتحسين من حيث الموثوقية والأمان. في المستقبل، مع استمرار التكنولوجيا في التطور والتحسن، أعتقد أن أدوات الذكاء الاصطناعي مثل كلود ستخدم البشر بشكل أفضل، وتحسن الكفاءة، وتجلب المزيد من الإمكانيات.