في الآونة الأخيرة، رفعت صحيفتا نيويورك تايمز وديلي نيوز دعوى قضائية ضد شركة OpenAI، متهمتين إياها باستخدام أعمالها لتدريب نماذج الذكاء الاصطناعي دون تصريح. ركزت القضية على حقيقة أن مهندسي OpenAI حذفوا عن طريق الخطأ أدلة قد تكون حاسمة في القضية، مما أثار قلقًا واسع النطاق. ولم تؤثر هذه الخطوة على عملية المحاكمة في القضية فحسب، بل كشفت أيضًا عن المخاطر المحتملة والقضايا الأخلاقية المتعلقة بمعالجة البيانات أثناء تدريب نماذج اللغات الكبيرة. ستحلل هذه المقالة خصوصيات وعموميات هذه الحادثة بالتفصيل وتستكشف تأثيرها على تطوير صناعة الذكاء الاصطناعي.
في الآونة الأخيرة، رفعت صحيفتا نيويورك تايمز وديلي نيوز دعوى قضائية مشتركة ضد شركة OpenAI، متهمتين إياها باستخدام أعمالهما لتدريب نماذج الذكاء الاصطناعي دون إذن.
وقد اجتذب تطور القضية انتباه الجمهور لأن الفريق القانوني للمدعي أشار في أحدث وثائق المحكمة إلى أن مهندسي OpenAI حذفوا عن طريق الخطأ الأدلة التي قد يكون لها تأثير مهم على القضية عند معالجة البيانات ذات الصلة.
يُذكر أن شركة OpenAI وافقت على توفير جهازين افتراضيين هذا الخريف حتى يتمكن الفريق القانوني للمدعي من البحث في بيانات التدريب الخاصة به عن المحتوى المحمي بحقوق الطبع والنشر. الجهاز الظاهري هو جهاز كمبيوتر افتراضي يعمل ضمن نظام تشغيل الكمبيوتر ويستخدم عادةً للاختبار والنسخ الاحتياطي للبيانات وتشغيل التطبيقات. لقد عمل المستشارون القانونيون من صحيفة نيويورك تايمز وديلي نيوز وخبرائهم المعينين على بيانات تدريب OpenAI لأكثر من 150 ساعة منذ الأول من نوفمبر.
ومع ذلك، في 14 نوفمبر، قام مهندسو OpenAI عن طريق الخطأ بمسح بيانات البحث المخزنة على أحد الأجهزة الافتراضية. وفقًا لرسالة محامي المدعين، بينما حاولت OpenAI استعادة البيانات المفقودة، ونجحت في معظم الحالات، لم يكن من الممكن استخدام البيانات المستردة لتحديد الأخبار التي كانت مقالات المدعين لأن بنية المجلدات وأسماء الملفات كانت "غير قابل للاسترداد." كيف يتم استخدامه لتدريب نماذج OpenAI.
أشار المستشار القانوني للمدعين إلى أنهم لا يعتقدون أن الإزالة كانت مقصودة، لكن الحادث يوضح أن OpenAI "في أفضل وضع للبحث في مجموعات البيانات الخاصة بها عن محتوى يحتمل أن يمثل انتهاكًا". وهذا يعني أن OpenAI يجب أن تستخدم أدواتها الخاصة للعثور على المحتوى المخالف ذي الصلة بشكل أكثر كفاءة.
وقد أكدت OpenAI في هذه الحالة وغيرها من الحالات أن استخدام البيانات المتاحة للجمهور للتدريب النموذجي يعد استخدامًا عادلاً. وهذا يعني أن شركة OpenAI تعتقد أنها ليست مضطرة إلى دفع إتاوات مقابل استخدام هذه الأمثلة، على الرغم من أنها تجني الأموال من هذه النماذج.
ومن الجدير بالذكر أن OpenAI وقعت اتفاقيات ترخيص مع عدد متزايد من وسائل الإعلام الجديدة، بما في ذلك Associated Press وBusiness Insider وFinancial Times وغيرها، لكن OpenAI لم تكشف عن الشروط المحددة لهذه الاتفاقيات. يُذكر أن شريك المحتوى Dotdash يتلقى ما لا يقل عن 16 مليون دولار أمريكي كتعويض سنوي.
على الرغم من النزاع القانوني، لم تؤكد OpenAI أو تنفي استخدام أعمال محددة محمية بحقوق الطبع والنشر لتدريب الذكاء الاصطناعي دون إذن.
تسليط الضوء على:
تم اتهام OpenAI بحذف أدلة مهمة عن طريق الخطأ في دعوى قضائية تتعلق بحقوق الطبع والنشر.
وقال محامو المدعين إنهم أمضوا الكثير من الوقت والجهد في محاولة استعادة البيانات.
تؤكد OpenAI أن استخدام البيانات المتاحة للجمهور لتدريب نماذجها يعد استخدامًا عادلاً.
يسلط هذا الحادث الضوء على مدى تعقيد مشكلات المصدر وحقوق الطبع والنشر لبيانات تدريب نموذج الذكاء الاصطناعي، ويثير أيضًا مخاوف بشأن أمن البيانات وإدارة الأدلة. ما إذا كان سلوك OpenAI يشكل انتهاكًا وكيفية تحديد حدود "الاستخدام العادل" ستكون من القضايا المهمة التي تحتاج إلى مزيد من المناقشة في المستقبل. سيكون للنتيجة النهائية لهذه القضية تأثير عميق على تطوير صناعة الذكاء الاصطناعي.