كشفت وسائل الإعلام مؤخرًا أن شركة Nvidia استولت سرًا على بيانات فيديو YouTube على نطاق واسع لتدريب نموذج الذكاء الاصطناعي الخاص بها، مما أثار جدلاً قانونيًا وأخلاقيًا واسع النطاق. تتضمن هذه الخطوة العديد من منتجات الذكاء الاصطناعي الخاصة بشركة Nvidia، بما في ذلك نموذج التعلم العميق Cosmos وخوارزميات القيادة الذاتية وما إلى ذلك. وتكون طريقة الحصول على البيانات مخفية وبدون إذن من صانع الفيديو وجوجل. تظهر رسائل البريد الإلكتروني الداخلية لشركة NVIDIA أن كبار المسؤولين التنفيذيين متفائلون بشأن هذا السلوك ويعتقدون أنه "تمت الموافقة عليه بالكامل". ويتعارض هذا البيان مع البيان الرسمي لشركة Google، والذي نص بوضوح على أن هذا السلوك ينتهك شروط خدمة النظام الأساسي. إن الكم الهائل من البيانات المعنية، وأساليب التشغيل السرية، والاستجابات المختلفة تمامًا من جميع الأطراف، جعلت هذا الحادث مثيرًا للقلق.
في الآونة الأخيرة، تم الكشف عن عملية سرية قامت بها شركة التكنولوجيا العملاقة Nvidia في الحصول على البيانات. وفقًا لتقارير من Media 404، قامت Nvidia بتدريب نموذج الذكاء الاصطناعي الخاص بها من خلال الاستيلاء على كميات هائلة من بيانات فيديو YouTube، وهو أمر غامض تمامًا من حيث القانون والأخلاق.
وأشار التقرير إلى أن Nvidia تستخدم بيانات الفيديو هذه لتدريب نماذج الذكاء الاصطناعي المتعددة الخاصة بها، بما في ذلك نماذج التعلم العميق Cosmos، وخوارزميات القيادة الذاتية، ومنتجات الصور الرمزية الرقمية للذكاء الاصطناعي البشري، وأداة بناء العالم ثلاثية الأبعاد Omniverse.
ومن المفهوم أن Nvidia اتخذت العديد من التدابير السرية للتغطية على سلوكها في استخراج البيانات، وذلك باستخدام "أجهزة افتراضية" متعددة وتغيير عناوين IP باستمرار لتجنب اكتشافها بواسطة YouTube. علاوة على ذلك، لم يمنح مُنشئ الفيديو والشركة الأم لموقع YouTube Google أي ترخيص لنشاط استخراج البيانات هذا. تُظهر الاتصالات الداخلية لشركة Nvidia أن استراتيجيتها جريئة للغاية، حيث ذكر أحد المسؤولين التنفيذيين في رسالة بريد إلكتروني أنهم يقومون ببناء "مصنع بيانات الفيديو" الذي يمكنه إنشاء بيانات تجربة مرئية تعادل حياة الإنسان كل يوم.
ومن المثير للاهتمام أنه عندما أعرب الموظفون عن مخاوفهم بشأن شرعية وأخلاقيات الحصول على هذه البيانات، بدت الإدارة واثقة تمامًا، معتقدة أن كل هذا كان قرارًا رفيع المستوى. وجاء في البريد الإلكتروني: "لدينا موافقة شاملة على جميع البيانات".
والأمر الأكثر إثارة للقلق هو أن شركة Nvidia كانت تعلم لبعض الوقت أنها كانت تستخدم مجموعة بيانات HD-VG-130M التي تحتوي على 130 مليون مقطع فيديو على YouTube، والتي تم إنشاؤها في الأصل للبحث الأكاديمي. وقد أعرب العديد من الخبراء عن استيائهم الشديد من هذا الأمر، معتبرين أن تسويق البيانات المستخدمة في الأبحاث أمر غير مناسب.
باعتبارها لاعبًا أساسيًا في صناعة الذكاء الاصطناعي، تحتل NVIDIA مكانة بارزة في السوق، وتعد وحدات معالجة الرسومات الخاصة بها (GPUs) الأساس للعديد من أنظمة الذكاء الاصطناعي المكثفة حسابيًا. وقد أعربت الشركات التي تعمل مع Nvidia، مثل OpenAI وMicrosoft وGoogle، عن قلقها بشأن هذا السلوك. وذكر متحدث باسم جوجل أن استخدام بيانات يوتيوب دون إذن يعد انتهاكًا واضحًا لشروط خدمة النظام الأساسي.
ردًا على وسائل الإعلام، ادعت شركة Nvidia أن ممارساتها التدريبية في مجال الذكاء الاصطناعي "متوافقة تمامًا مع روح ونص قانون حقوق الطبع والنشر". ومع ذلك، ما رأي المبدعين الذين يستخدمون هذا المحتوى في هذا البيان؟
تسليط الضوء على:
قامت شركة Nvidia سرًا بجمع كمية كبيرة من بيانات مقاطع الفيديو على YouTube للتدريب على الذكاء الاصطناعي، مما أثار مخاوف بشأن القضايا القانونية والأخلاقية.
تظهر رسائل البريد الإلكتروني الداخلية أن المديرين التنفيذيين لشركة Nvidia يعتقدون أن هذا السلوك قد تمت الموافقة عليه بالكامل وأن موقفهم كان جريئًا للغاية.
أشارت جوجل إلى أن استخدام بيانات يوتيوب دون إذن ينتهك بشكل واضح شروط خدمة النظام الأساسي، وأثار رد إنفيديا جدلاً.
أثار سلوك NVIDIA في جمع البيانات مناقشات واسعة النطاق حول أخلاقيات وقوانين الحصول على بيانات الذكاء الاصطناعي، وفشل ردها في تهدئة الجدل. وتسلط هذه الحادثة الضوء على التحديات التي تواجهها شركات التكنولوجيا الكبرى في استخدام البيانات، والحاجة الملحة إلى تحسين القوانين واللوائح ذات الصلة. وفي المستقبل، قد تستمر حوادث مماثلة في جذب الانتباه وتدفع الصناعة إلى تعزيز الانضباط الذاتي وتوحيد سلوكيات استخدام البيانات.