تسلط قضايا حقوق الطبع والنشر لبيانات التدريب على نماذج كبيرة من الذكاء الاصطناعي الضوء على قيمة قواعد بيانات التدريب عالية الجودة التي يمكن إعادة تقييمها

الكاتب：Eve Cole وقت التحديث：2025-02-03 15:00:03

في الآونة الأخيرة، وضع العمالقة في مجال الذكاء الاصطناعي خططًا وقاموا بتحركات متكررة في الحصول على البيانات والتعاون الفني. ستركز هذه المقالة على العديد من الأخبار المهمة وتحلل تأثيرها على التطور والاتجاهات المستقبلية لصناعة الذكاء الاصطناعي. تتضمن الأخبار صفقة Reddit الضخمة مع Google والتعاون المتعمق لـ OpenAI مع العديد من مؤسسات النشر، مما يوضح الطلب الهائل على البيانات عالية الجودة للتدريب على النماذج الكبيرة والدور الرئيسي الذي تلعبه صناعة النشر فيه. لا توفر عمليات التعاون هذه زخمًا جديدًا لتطوير الذكاء الاصطناعي فحسب، بل تشير أيضًا إلى أن الحصول على موارد البيانات واستخدامها سيكون أكثر توحيدًا وتسويقًا تجاريًا في المستقبل.

لدى Reddit وGoogle اتفاقية تبلغ قيمتها حوالي 60 مليون دولار سنويًا، وفقًا لأشخاص مطلعين على الأمر. أبرمت Springer Publishing Group شراكة مع OpenAI لتصبح أول مؤسسة نشر تدمج الصحافة وتكنولوجيا الذكاء الاصطناعي بشكل عميق. يوضح تعاون OpenAI مع Axel Springer أن تدريب النماذج الكبيرة قد يتطلب وصولاً مدفوع الأجر إلى البيانات. تتمتع الشركات العاملة في مجال النشر برسومات إلكترونية غنية وموارد نصية، والتي قد تصبح مجموعات بيانات تدريب نموذجية كبيرة مهمة. تحاول CITIC Publishing التعاون مع المؤلفين والشركات النموذجية الكبيرة للتدريب على اللغة، وتجري Palm Reading Technology تعاونًا متعمقًا مع Byte في جوانب مثل حقوق الطبع والنشر وإنتاج المحتوى.

يمكن أن نرى من الحالات المذكورة أعلاه أن صناعة الذكاء الاصطناعي تمر بمرحلة من التطور السريع، وأن المنافسة على موارد البيانات أصبحت شرسة بشكل متزايد، وفي المستقبل، ستخضع طرق الحصول على البيانات واستخدامها لتغييرات عميقة، الأمر الذي سيتغير كما أنها تجلب فرصًا وتحديات جديدة لصناعة النشر.