سيساعدك محرر Downcodes على فهم "الاستخدامات البديلة" للأوراق الأكاديمية! في السنوات الأخيرة، اجتذب مصدر بيانات التدريب لنماذج الذكاء الاصطناعي اهتمامًا واسع النطاق، حيث يقوم العديد من الناشرين الأكاديميين "بتغليف وبيع" الأوراق البحثية لشركات التكنولوجيا لتحسين قدرات أنظمة الذكاء الاصطناعي. وشمل ذلك معاملات ضخمة وأثار مناقشات ساخنة في المجتمع الأكاديمي حول حقوق الملكية الفكرية، وحقوق المؤلف، وأخلاقيات تطوير الذكاء الاصطناعي. وسوف تتعمق هذه المقالة في الآليات والتأثيرات والاتجاهات المستقبلية وراء هذه الظاهرة.
هل فكرت يومًا أنه ربما تم استخدام ورقتك البحثية لتدريب الذكاء الاصطناعي. نعم، يقوم العديد من الناشرين الأكاديميين "بتغليف وبيع" نتائجهم لشركات التكنولوجيا التي تعمل على تطوير نماذج الذكاء الاصطناعي. ولا شك أن هذه الخطوة أحدثت ضجة كبيرة في مجتمع البحث العلمي، خاصة عندما لا يعرف المؤلفون عنها شيئًا. يقول الخبراء أنه إذا لم يتم استخدام نموذجك اللغوي بالفعل بواسطة نموذج لغة كبير (LLM)، فهناك فرصة جيدة أن يتم ذلك في المستقبل القريب.
في الآونة الأخيرة، توصل الناشر الأكاديمي البريطاني تايلور آند فرانسيس إلى صفقة بقيمة 10 ملايين دولار مع مايكروسوفت، مما يسمح لعملاق التكنولوجيا باستخدام بياناتهم البحثية لتحسين قدرات أنظمة الذكاء الاصطناعي الخاصة بها. وفي وقت مبكر من شهر يونيو، توصل الناشر الأمريكي وايلي أيضًا إلى اتفاق مع إحدى الشركات وحصل على إيرادات بقيمة 23 مليون دولار أمريكي مقابل استخدام محتواه لتدريب نماذج الذكاء الاصطناعي التوليدية.
إذا كانت الورقة متاحة عبر الإنترنت، سواء كانت متاحة للوصول المفتوح أو خلف نظام حظر الاشتراك غير المدفوع، فمن المحتمل أنه تم إدخالها في نموذج لغة كبير. وقالت لوسي لو وانغ، باحثة الذكاء الاصطناعي في جامعة واشنطن: "بمجرد استخدام ورقة لتدريب نموذج، لا يمكن إزالتها بعد تدريب النموذج".
تتطلب النماذج اللغوية الكبيرة كميات كبيرة من البيانات للتدريب، والتي غالبًا ما يتم استخراجها من الإنترنت. ومن خلال تحليل مليارات المقتطفات اللغوية، تصبح هذه النماذج قادرة على التعلم وإنشاء نص بطلاقة. أصبحت الأوراق الأكاديمية "كنزًا" قيمًا للغاية لمطوري LLM نظرًا لكثافة المعلومات العالية وطول الطول. تساعد مثل هذه البيانات الذكاء الاصطناعي على التوصل إلى استنتاجات أفضل في العلوم.
في الآونة الأخيرة، تزايد اتجاه شراء مجموعات البيانات عالية الجودة، وبدأت العديد من الوسائط والمنصات المعروفة في التعاون مع مطوري الذكاء الاصطناعي لبيع محتواها. وبالنظر إلى أنه بدون اتفاق، قد يتم حذف العديد من الأعمال بصمت، فإن هذا النوع من التعاون سيصبح أكثر شيوعًا في المستقبل.
ومع ذلك، يختار بعض مطوري الذكاء الاصطناعي، مثل شبكة الذكاء الاصطناعي واسعة النطاق، إبقاء مجموعات البيانات الخاصة بهم مفتوحة، لكن العديد من الشركات التي تعمل على تطوير الذكاء الاصطناعي التوليدي تحافظ على سرية بيانات التدريب الخاصة بها مما لا شك فيه أن منصات مثل arXiv وقواعد البيانات مثل PubMed هي أهداف شائعة يمكن لشركات الذكاء الاصطناعي الزحف إليها.
ليس من السهل إثبات ما إذا كانت ورقة معينة تظهر في مجموعة التدريب الخاصة بماجستير في القانون معين. يمكن للباحثين استخدام جمل غير عادية من الورقة لاختبار ما إذا كانت مخرجات النموذج تتطابق مع النص الأصلي، لكن هذا لا يثبت تمامًا أن الورقة لم يتم استخدامها، لأنه يمكن للمطورين تعديل النموذج لتجنب إخراج بيانات التدريب مباشرة.
حتى لو ثبت أن LLM قد استخدمت نصًا محددًا، فماذا يحدث بعد ذلك يدعي الناشرون أن الاستخدام غير المصرح به للنص المحمي بحقوق الطبع والنشر يشكل انتهاكًا، ولكن هناك أيضًا اعتراضات على أن LLM لا تقوم بنسخ النص، بل تقوم بإنشاء نص جديد. من خلال تحليل محتوى المعلومات.
توجد حاليًا دعوى قضائية بشأن حقوق الطبع والنشر جارية في الولايات المتحدة والتي يمكن أن تصبح قضية تاريخية. رفعت صحيفة نيويورك تايمز دعوى قضائية ضد شركة Microsoft وشركة تطوير ChatGPT OpenAI، متهمة إياهما باستخدام محتواها الإخباري لتدريب العارضات دون إذن.
يرحب العديد من العلماء بإدراج أعمالهم في بيانات التدريب في LLM، خاصة عندما تتمكن هذه النماذج من تحسين دقة البحث. ومع ذلك، لا يأخذ كل الباحثين في هذه المهنة هذا الأمر على محمل الجد، ويشعر الكثيرون أن وظائفهم مهددة.
بشكل عام، ليس للمؤلفين العلميين الفرديين حاليًا أي تأثير يذكر في قرارات المبيعات التي يتخذها الناشرون، ولا توجد آلية واضحة لكيفية تخصيص الائتمان وما إذا كان سيتم استخدامه للمقالات المنشورة. وأعرب بعض الباحثين عن إحباطهم: "نأمل أن نحصل على مساعدة من نماذج الذكاء الاصطناعي، ولكننا نأمل أيضًا أن تكون لدينا آلية عادلة. لم نجد مثل هذا الحل بعد".
مراجع:
https://www.nature.com/articles/d41586-024-02599-9
https://arxiv.org/pdf/2112.03570
لا يزال الاتجاه المستقبلي للذكاء الاصطناعي والنشر الأكاديمي غير واضح، وتحتاج قضايا حقوق النشر، وخصوصية البيانات، وآليات حماية حقوق المؤلفين ومصالحهم إلى مزيد من التحسين. وهذه ليست مجرد لعبة بين الناشرين وشركات التكنولوجيا، ولكنها أيضًا قضية رئيسية تتعلق بالتنمية المستدامة للبحث الأكاديمي وأخلاقيات تكنولوجيا الذكاء الاصطناعي، الأمر الذي يتطلب الاهتمام والجهود المشتركة من المجتمع بأكمله.