أصدر فريق أبحاث مايكروسوفت تقنية جديدة للذكاء الاصطناعي - نموذج العمل الكبير (LAM)، الذي يمكنه تشغيل برامج Windows بشكل مستقل، مما يمثل مرحلة جديدة من الذكاء الاصطناعي ينتقل من الحوار البسيط والاقتراحات إلى التنفيذ الفعلي للمهام. على عكس نماذج اللغة التقليدية، يمكن لـ LAM فهم مجموعة متنوعة من المدخلات مثل النص والصوت والصور، وتحويلها إلى خطط عمل مفصلة، ويمكنها أيضًا تعديل الاستراتيجيات بناءً على المواقف في الوقت الفعلي لحل بعض المشكلات التي لا تستطيع أنظمة الذكاء الاصطناعي الأخرى التعامل معها مع. توفر هذه التكنولوجيا المتقدمة إمكانيات أوسع للذكاء الاصطناعي في التطبيقات العملية وتمهد الطريق لتطوير مساعدي الذكاء الاصطناعي في المستقبل.
أطلق فريق أبحاث مايكروسوفت مؤخرًا تقنية ذكاء اصطناعي تسمى "نموذج العمل الكبير" (LAM)، مما يمثل مرحلة جديدة في تطوير الذكاء الاصطناعي. على عكس نماذج اللغة التقليدية مثل GPT-4o، يمكن لـ LAM تشغيل برامج Windows بشكل مستقل، مما يعني أن الذكاء الاصطناعي لا يمكنه التحدث أو تقديم الاقتراحات فحسب، بل يمكنه بالفعل أداء المهام.
تكمن قوة LAM في قدرتها على فهم مجموعة متنوعة من مدخلات المستخدم، بما في ذلك النص والكلام والصور، ثم ترجمة هذه الطلبات إلى خطط مفصلة خطوة بخطوة. لا تقوم LAM بتطوير الخطط فحسب، بل تقوم أيضًا بتكييف استراتيجيات عملها بناءً على الظروف في الوقت الفعلي. تنقسم عملية بناء LAM بشكل أساسي إلى أربع خطوات: أولاً، يتعلم النموذج تقسيم المهمة إلى خطوات منطقية، ثم، من خلال أنظمة الذكاء الاصطناعي الأكثر تقدمًا (مثل GPT-4o)، يتعلم كيفية ترجمة هذه الخطط إلى وإجراءات محددة، بعد ذلك، سوف يستكشف LAM حلولًا جديدة بشكل مستقل وحتى يحل المشكلات التي لا تستطيع أنظمة الذكاء الاصطناعي الأخرى التعامل معها، وأخيرًا، يقوم بضبط التدريب من خلال آلية المكافأة؛
وفي التجربة، قام فريق البحث ببناء نموذج LAM يعتمد على ميسترال-7B واختبره في بيئة اختبار Word. وأظهرت النتائج أن النموذج أكمل المهمة بنجاح بنسبة 71% من الوقت، مقارنة بـ 63% من GPT-4o بدون معلومات مرئية.
بالإضافة إلى ذلك، أداء LAM جيد أيضًا في سرعة تنفيذ المهام، حيث تستغرق كل مهمة 30 ثانية فقط، بينما يستغرق GPT-4o 86 ثانية. على الرغم من أن معدل نجاح GPT-4o يرتفع إلى 75.5% عند معالجة المعلومات المرئية، إلا أن LAM يتمتع بمزايا كبيرة من حيث السرعة والتأثير.
لبناء بيانات التدريب، قام فريق البحث في البداية بجمع 29000 مثال على أزواج المهام والخطط من مستندات Microsoft ومقالات wikiHow وعمليات بحث Bing. ثم استخدموا GPT-4o لتحويل المهام البسيطة إلى مهام معقدة، وبالتالي توسيع مجموعة البيانات إلى 76000 زوج، أي بزيادة قدرها 150%. في النهاية، تم تضمين ما يقرب من 2000 تسلسل عمل ناجح في مجموعة التدريب النهائية.
على الرغم من أن LAM أثبتت إمكاناتها في تطوير الذكاء الاصطناعي، إلا أن فريق البحث لا يزال يواجه بعض التحديات، مثل مشكلة الأخطاء المحتملة في إجراءات الذكاء الاصطناعي، والقضايا التنظيمية ذات الصلة، والقيود الفنية في التوسع والتكيف في التطبيقات المختلفة. ومع ذلك، يعتقد الباحثون أن LAM يمثل تحولًا مهمًا في تطوير الذكاء الاصطناعي، مما يشير إلى أن مساعدي الذكاء الاصطناعي سيكونون قادرين على مساعدة البشر بشكل أكثر نشاطًا في إكمال المهام العملية.
أبرز النقاط:
يمكن لـ LAM تنفيذ برامج Windows بشكل مستقل، مخترقًا قيود الذكاء الاصطناعي التقليدي الذي يمكنه التحدث فقط.
⏱ في اختبار الكلمات، وصلت احتمالية إكمال المهمة بنجاح لـ LAM إلى 71%، وهي أعلى من احتمالية GPT-4o البالغة 63%، كما أن سرعة التنفيذ أسرع.
استخدم فريق البحث استراتيجية توسيع البيانات لزيادة عدد أزواج خطة المهمة إلى 76000 زوج، مما أدى إلى تحسين تأثير التدريب للنموذج.
يبشر ظهور LAM بتحول الذكاء الاصطناعي من مزود المعلومات إلى منفذ الفعل الفعلي، مما يؤدي إلى تغييرات ثورية في التفاعل بين الإنسان والحاسوب في المستقبل والمكاتب الآلية. على الرغم من أنها لا تزال تواجه تحديات، إلا أن LAM لديها إمكانات كبيرة، ومن الجدير التطلع إلى تطبيقها على نطاق واسع ومواصلة تطويرها في مختلف المجالات.