منحت ميزة "استخدام الكمبيوتر" التي أطلقها كلود من Anthropic في أكتوبر لعملاء الذكاء الاصطناعي قدرات غير مسبوقة للتفاعل مع البشر من خلال واجهة المستخدم الرسومية (GUI)، والتي جذبت اهتمامًا واسع النطاق. تتخطى هذه الوظيفة القيود المفروضة على واجهات API التقليدية وتسمح لـ Claude بالتحكم المباشر في الكمبيوتر لإكمال المهام الأكثر تعقيدًا. أجرى البحث الذي أجراه مختبر العرض بجامعة سنغافورة الوطنية اختبارًا شاملاً على كلود لتقييم أدائه في سيناريوهات مختلفة، مما يوضح لنا إمكانات هذه التكنولوجيا وقيودها.
منذ أن أطلقت Anthropic ميزة "استخدام الكمبيوتر" لكلود في أكتوبر، جذبت قدرات وكيل الذكاء الاصطناعي اهتمامًا واسع النطاق. تجعل هذه الميزة من كلود أول نموذج متطور يتفاعل من خلال نفس واجهة المستخدم الرسومية (GUI) التي يستخدمها الإنسان.
يوفر Claude للمستخدمين طريقة ملائمة لأتمتة العمليات دون الحاجة إلى واجهة API من خلال الوصول إلى لقطات شاشة سطح المكتب وإكمال المهام من خلال عمليات لوحة المفاتيح والماوس.
في دراسة أجراها Show Lab التابع لجامعة سنغافورة الوطنية، اختبر الباحثون كلود في مجموعة متنوعة من المهام، بما في ذلك عمليات البحث على الويب، وإكمال سير العمل، وإنتاجية المكتب، وألعاب الفيديو. اختبرت هذه المهام قدرة كلود في سيناريوهات مختلفة، مثل البحث عن العناصر وشرائها على الويب، أو استخراج المعلومات من موقع ويب وإدراجها في جدول بيانات. ومن خلال هذه الاختبارات، قام الباحثون بتقييم أداء كلود من خلال ثلاثة أبعاد: التخطيط، والعمل، والتقييم.
أداء كلود مثير للإعجاب عندما يتعلق الأمر بتنفيذ المهام المعقدة. هي القدرة على صياغة خطة واضحة، ومتابعتها خطوة بخطوة، وتقييم تقدمها في كل خطوة. بالإضافة إلى ذلك، يمكنه التنسيق بين تطبيقات متعددة، مثل نسخ صفحات الويب الخاصة بالمعلومات إلى جدول بيانات. وفي بعض الحالات، يستطيع كلود مراجعة النتائج في نهاية المهمة للتأكد من أن كل شيء على ما يرام.
ومع ذلك، يرتكب كلود أيضًا بعض الأخطاء البسيطة التي يمكن للمستخدم العادي تجنبها بسهولة. على سبيل المثال، في إحدى المهام، فشلت في إكمال الاشتراك لأنه لم يكن هناك تمرير لأسفل الصفحة للعثور على الزر المقابل.
كانت هناك أيضًا حالات كان فيها الأمر صعبًا عند تنفيذ مهام واضحة، مثل تحديد النص واستبداله أو تغيير التعداد النقطي إلى أرقام. بالإضافة إلى ذلك، لا يدرك كلود أحيانًا أخطائه أو يضع افتراضات غير صحيحة حول سبب فشله في تحقيق أهدافه.
وأشار الباحثون إلى أن أوجه القصور لدى كلود في آليات التقييم الذاتي قد تكون السبب وراء هذه الأخطاء، وأن إطار عمل وكيل واجهة المستخدم الرسومية قد يحتاج إلى تحسين في المستقبل لإضافة وحدات تقييم ذاتي أكثر صرامة. تظهر النتائج أيضًا أن وكلاء واجهة المستخدم الرسومية الحاليين لا يكررون بشكل كامل الفروق الأساسية في كيفية استخدام البشر لأجهزة الكمبيوتر.
بالنسبة للشركات، تعد إمكانية استخدام نص بسيط لوصف المهام الآلية أمرًا مغريًا، لكن التكنولوجيا ليست جاهزة بعد للتبني على نطاق واسع. سلوك النموذج غير منتظم، مما قد يؤدي إلى عواقب غير متوقعة في التطبيقات الحساسة. وفي الوقت نفسه، فإن تنفيذ العمليات من خلال واجهة مصممة بواسطة الإنسان ليس الطريقة الأسرع لإكمال المهمة.
قبل النشر على نطاق واسع، تحتاج المؤسسات أيضًا إلى القلق بشأن المخاطر الأمنية التي يفرضها إسناد نماذج اللغات الكبيرة (LLMs) إلى أجهزة الماوس ولوحات المفاتيح. على سبيل المثال، أظهرت الأبحاث أن وكلاء الشبكة معرضون للهجمات العدائية التي يمكن للبشر تجاهلها بسهولة. ومع ذلك، يمكن لأدوات مثل Claude أن تساعد فرق المنتجات على استكشاف الأفكار وتكرار الحلول، مما يوفر الوقت والمال قبل تطوير ميزات أو خدمات جديدة.
تسليط الضوء على:
1. يتفوق كلود في قدرته على أتمتة المهام المعقدة من خلال واجهة مستخدم رسومية.
2. يرتكب كلود أخطاء عند أداء المهام البسيطة، مما يعكس عدم كفاية آلية التقييم الذاتي لديه.
3. في هذه المرحلة، هذه التكنولوجيا ليست مناسبة للتطبيق على نطاق واسع، ويجب على الشركات توخي الحذر بشأن المخاطر الأمنية المحتملة.
وبشكل عام، توضح ميزة "استخدام الكمبيوتر" لكلود الإمكانات الكبيرة للذكاء الاصطناعي في مجال الأتمتة، ولكنها تكشف أيضًا عن المجالات التي لا تزال بحاجة إلى التحسين من حيث الاستقرار والأمن. في المستقبل، ومع التطوير والتحسين المستمر للتكنولوجيا، سيلعب عملاء الذكاء الاصطناعي مثل كلود دورًا مهمًا في المزيد من المجالات.