أصدر الباحثون في OpenAI نموذجًا مثيرًا للإعجاب لتناسق الوقت المستمر (sCM) يحقق طفرة في سرعة إنشاء محتوى الوسائط المتعددة، حيث يولد صورًا أسرع 50 مرة من نماذج الانتشار التقليدية، ويتطلب أقل من 0.1 صورة يمكن إنشاؤها في ثوانٍ. شارك في تأليف هذا البحث لو تشينج ويانج سونج، وتم نشر الورقة على موقع arXiv.org، وعلى الرغم من أنها لم تخضع لمراجعة النظراء بعد، إلا أن تأثيرها المحتمل هائل ويبشر بقفزة كبيرة في الذكاء الاصطناعي التوليدي في الوقت الفعلي. التطبيقات. سيمنحك محرر Downcodes فهمًا متعمقًا للابتكارات وآفاق التطبيق المستقبلية لنموذج sCM.
مؤخرًا، أصدر الباحثون في OpenAI نتيجة بحثية مثيرة، حيث قدموا نموذجًا جديدًا لتناسق الوقت المستمر (sCM). يحقق هذا النموذج قفزة في سرعة إنشاء محتوى الوسائط المتعددة (مثل الصور ومقاطع الفيديو والصوت)، أي أسرع بـ 50 مرة من نموذج النشر التقليدي. على وجه التحديد، يمكن لـ sCM إنشاء صورة في أقل من 0.1 ثانية، بينما تتطلب نماذج الانتشار التقليدية غالبًا أكثر من 5 ثوانٍ.
ومن خلال هذه التقنية، نجح فريق البحث في إنتاج عينات عالية الجودة بخطوتين فقط لأخذ العينات. وهذا الابتكار يجعل عملية التوليد أكثر كفاءة دون التضحية بجودة العينة. شارك في كتابة المقال باحثان من OpenAI، لو تشينج ويانج سونج، وتم نشرهما على موقع arXiv.org، وعلى الرغم من أنه لم تتم مراجعته بعد من قبل النظراء، إلا أنه لا يمكن الاستهانة بتأثيره المحتمل.
اقترح يانغ سونغ لأول مرة مفهوم "نموذج الاتساق" في ورقة بحثية عام 2023، والتي وضعت الأساس لتطوير SCM. على الرغم من أن نماذج الانتشار ممتازة في إنشاء صور واقعية ونماذج ثلاثية الأبعاد وصوت وفيديو، إلا أنها ليست فعالة جدًا في أخذ العينات، وغالبًا ما تتطلب عشرات إلى مئات الخطوات، مما يجعلها غير عملية في التطبيقات في الوقت الفعلي.
أخذ العينات أسرع
أكبر ما يميز نموذج sCM هو أنه يمكنه تحقيق سرعة أخذ عينات أسرع دون زيادة العبء الحسابي . يحتوي أكبر نموذج sCM في OpenAI على 1.5 مليار معلمة، وعلى وحدة معالجة الرسومات A100، يبلغ وقت إنشاء العينة 0.11 ثانية فقط. يؤدي هذا إلى تسريع وقت ساعة الحائط بمقدار 50 مرة مقارنة بنماذج الانتشار، مما يجعل تطبيقات الذكاء الاصطناعي التوليدية في الوقت الفعلي أكثر جدوى.
يتطلب موارد حاسوبية أقل
فيما يتعلق بجودة العينة، تم تدريب sCM على مجموعة بيانات ImageNet 512×512 وحقق درجة Fréchet Inception Distance (FID) تبلغ 1.88، وهو ما يختلف بنسبة أقل من 10% عن نموذج النشر العلوي. ومن خلال المقارنة المرجعية الشاملة مع النماذج التوليدية المتقدمة الأخرى، أثبت فريق البحث أن نظام sCM يوفر أفضل النتائج مع تقليل النفقات الحسابية بشكل كبير.
في المستقبل، سيؤدي أخذ العينات السريعة وقابلية التوسع لنماذج SCM إلى فتح إمكانيات جديدة لتطبيقات الذكاء الاصطناعي التوليدية في الوقت الفعلي في مجالات متعددة. من توليد الصور إلى تركيب الصوت والفيديو، يوفر SCM حلاً عمليًا للحاجة إلى مخرجات سريعة وعالية الجودة. وفي الوقت نفسه، يشير بحث OpenAI أيضًا إلى إمكانية تحسين النظام بشكل أكبر، مما قد يؤدي إلى تسريع أداء النموذج وفقًا لاحتياجات الصناعات المختلفة.
المدونة الرسمية: https://openai.com/index/simplifying-stabilizing-and-scaling-continious-time-consistency-models/
الورقة: https://arxiv.org/html/2410.11081v1
يمثل ظهور نموذج sCM إنجازًا كبيرًا في مجال توليد صور الذكاء الاصطناعي. لقد فتحت سرعة أخذ العينات الفعالة والمخرجات عالية الجودة فصلاً جديدًا للتطبيقات في الوقت الفعلي، وإمكانيات التطوير المستقبلية غير محدودة وتستحق التطلع إليها!