مع إنشاء مجال جديد تمامًا يسمى "الذكاء الاصطناعي التوليدي"، سواء أعجبك هذا المصطلح أم لا، لم يبطئ البحث وتيرته المحمومة، وخاصة الصناعة، التي شهدت أكبر ازدهار لها في تنفيذ تقنيات الذكاء الاصطناعي على الإطلاق. إن الذكاء الاصطناعي وفهمنا للدماغ البشري وارتباطه بالذكاء الاصطناعي يتطور باستمرار، وتظهر تطبيقات واعدة تعمل على تحسين جودة حياتنا في المستقبل القريب. ومع ذلك، يتعين علينا أن نكون حذرين فيما يتعلق بالتكنولوجيا التي نختار تطبيقها.
"لا يمكن للعلم أن يخبرنا بما يجب أن نفعله، بل فقط ما يمكننا القيام به."
- جان بول سارتر، الوجود والعدم
فيما يلي قائمة منسقة بأحدث الإنجازات في مجال الذكاء الاصطناعي وعلوم البيانات حسب تاريخ الإصدار مع شرح فيديو واضح، ورابط لمقالة أكثر تفصيلاً، والتعليمات البرمجية (إن أمكن). استمتع بالقراءة!
يتم إدراج المرجع الكامل لكل ورقة في نهاية هذا المستودع. قم بتمييز هذا المستودع بنجمة لتبقى على اطلاع دائم وترقب العام المقبل! ️
المشرف: louisfb01، نشط أيضًا على YouTube وكمذيع بودكاست إذا كنت تريد رؤية/سماع المزيد عن الذكاء الاصطناعي!
اشترك في النشرة الإخبارية الخاصة بي - يتم شرح آخر التحديثات في الذكاء الاصطناعي كل أسبوع.
لا تتردد في مراسلتي بأي ورقة مثيرة للاهتمام ربما فاتتني إضافتها إلى هذا المستودع.
ضع علامة علي على TwitterWhats_AI أو LinkedIn @Louis (What's AI) Bouchard إذا شاركت القائمة! وتعال للدردشة معنا في مجتمع Learn AI Together Discord!
؟ إذا كنت ترغب في دعم عملي ، يمكنك التحقق من رعاية هذا المستودع أو دعمي على Patreon.
شهدنا العام الماضي انتفاضة الذكاء الاصطناعي التوليدي لكل من الصور والنصوص، وكان آخرها مع ChatGPT. الآن، خلال الأسبوع الأول من عام 2023، أنشأ الباحثون بالفعل نظامًا جديدًا للبيانات الصوتية يسمى VALL-E.
VALL-E قادر على تقليد صوت شخص ما من خلال تسجيل مدته 3 ثوانٍ فقط مع تشابه وطبيعية كلام أعلى من أي وقت مضى. ChatGPT قادر على تقليد الكاتب البشري؛ VALL-E يفعل الشيء نفسه بالنسبة للصوت.
نحن نعلم أن الذكاء الاصطناعي يمكنه توليد الصور؛ الآن، دعونا تحريرها!
هذا النموذج الجديد المسمى InstructPix2Pix يفعل ذلك بالضبط؛ يقوم بتحرير صورة باتباع تعليمات نصية مقدمة من المستخدم. ما عليك سوى إلقاء نظرة على تلك النتائج المذهلة... وهذا ليس من OpenAI أو Google بميزانية غير محدودة.
إنه منشور حديث من تيم بروكس والمتعاونين في جامعة كاليفورنيا، بما في ذلك البروفيسور. Alexei A. Efros، شخصية معروفة في صناعة الرؤية الحاسوبية. كما ترون، النتائج لا تصدق.
لقد قمنا مؤخرًا بتغطية نموذج قادر على تقليد صوت شخص ما يسمى VALL-E. دعونا نقفز خطوة أخرى إلى الأمام في الاتجاه الإبداعي مع هذا الذكاء الاصطناعي الجديد المسمى MusicLM. يتيح لك MusicLM إنشاء الموسيقى من وصف النص.
دعونا لا ننتظر أكثر من ذلك ونتعمق في النتائج... ما ستسمعه سيذهلك!
أنشأت شركة Runway نظامًا يسمى GEN-1 يمكنه التقاط مقطع فيديو وتطبيق نمط مختلف تمامًا عليه في ثوانٍ. هذا النموذج قيد التنفيذ ويحتوي على عيوب، لكنه لا يزال يقوم بنقل أسلوب رائع جدًا من صورة أو نص إلى مقطع فيديو، وهو أمر كان مستحيلًا قبل بضع سنوات أو حتى أشهر. والأكثر برودة هو كيف يعمل ...
PaLM-E، أحدث منشورات Google، هو ما يسمونه نموذج اللغة متعدد الوسائط المتجسد. ماذا يعني هذا؟ هذا يعني أنه نموذج يمكنه فهم أنواع مختلفة من البيانات، مثل النصوص والصور من نماذج ViT وPaLM التي ذكرناها، وهو قادر على تحويل هذه الرؤى إلى أفعال من يد الروبوتات!
التقسيم إلى شرائح - إنه مثل عالم الصور المعادل للعب دور المحقق. تتيح لك هذه القوة الخارقة تحديد أي شيء وكل شيء في الصورة، من الأشياء إلى الأشخاص، بدقة بكسل مثالية. إنها تغير قواعد اللعبة لجميع أنواع التطبيقات، مثل المركبات ذاتية القيادة التي تحتاج إلى معرفة ما يجري حولها، سواء كانت سيارة أو مشاة.
أنت أيضًا تعرف بالتأكيد عن المطالبة الآن. ولكن هل سمعت عن التجزئة السريعة؟ إنه أحدث طفل في المنطقة، وهو رائع حقًا. باستخدام هذه الخدعة الجديدة، يمكنك مطالبة نموذج الذكاء الاصطناعي الخاص بك بتقسيم أي شيء تريده - وأعني أي شيء! بفضل SAM الجديد المذهل (Segment Anything Model) من Meta، ليس هناك حدود لما يمكنك القيام به.
إذا كنت مهتمًا بمعرفة كيفية عمل التجزئة السريعة ونموذج SAM بشكل سحري، فلن ترغب في تفويت مقطع الفيديو الخاص بي. ستتعلم فيه كل شيء عن كيفية تغيير هذه التكنولوجيا الجديدة المذهلة للعبة عندما يتعلق الأمر بتجزئة الصور. لذا اجلس واسترخي واسمحوا لي أن آخذك في رحلة إلى عالم التجزئة السريعة باستخدام SAM. صدقني، لن تندم على ذلك!
تخيل إنشاء صور مذهلة على Instagram دون مغادرة المنزل أو التقاط الصور! يعمل نموذج الذكاء الاصطناعي الجديد من NVIDIA، Perfusion، على تطوير عملية تحويل النص إلى صورة مع تحكم ودقة معززين للمرئيات القائمة على المفاهيم.
يعد التروية بمثابة تحسن كبير مقارنة بتقنيات الذكاء الاصطناعي الحالية، والتغلب على القيود في إنشاء صور تظل وفية للمحتوى الأصلي. يمكن لهذا النموذج إنشاء هذه "المفاهيم" بدقة في مجموعة متنوعة من السيناريوهات الجديدة.
يعتمد Perfusion على Stable Diffusion مع آليات إضافية للتثبيت على "مفاهيم" متعددة وتوليدها في صور جديدة في وقت واحد. ويؤدي هذا إلى أداء كمي ونوعي لا يهزم، مما يفتح إمكانيات مثيرة عبر الصناعات المتنوعة.
؟ على الرغم من أن Perfusion ليس مثاليًا، إلا أنه يعد خطوة مهمة للأمام بالنسبة لنماذج تحويل النص إلى صورة. تشمل التحديات الحفاظ على هوية الكائن وبعض الإفراط في التعميم، بالإضافة إلى الحاجة إلى القليل من العمل الهندسي السريع.
يمهد برنامج Perfusion من NVIDIA الطريق لمستقبل مثير من الصور المولدة بواسطة الذكاء الاصطناعي والمصممة خصيصًا لتلبية رغباتنا.
يقوم Drag Your Gan بإعطاء الأولوية لسحب الكائن الدقيق على إنشاء الصور أو معالجة النص. يقوم الذكاء الاصطناعي بتكييف الصورة بأكملها بشكل واقعي، وتعديل موضع الكائن ووضعه وشكله وتعبيراته وعناصر الإطار الأخرى.
؟؟ قم بتحرير تعبيرات الكلاب، أو اجعلها تجلس، أو اضبط أوضاع الإنسان، أو حتى قم بتغيير المناظر الطبيعية بسلاسة. يقدم Drag Your Gan طريقة مبتكرة وتفاعلية لتجربة تحرير الصور.
كيف يعمل؟ تعمل تقنية Drag Your Gan على تعزيز StyleGAN2، وهي بنية GAN المتطورة من NVIDIA. من خلال العمل في مساحة الميزة (الرمز الكامن)، يتعلم الذكاء الاصطناعي كيفية تحرير الصور بشكل صحيح من خلال سلسلة من الخطوات وحسابات الخسارة.
على الرغم من أن النتائج رائعة، كما سترى أدناه، فمن الضروري ملاحظة أن Drag Your Gan لديه بعض القيود، بما في ذلك القدرة على تحرير الصور التي تم إنشاؤها فقط في الوقت الحالي. الصور هي جزء من التوزيع. القيود الأخرى هي أن تحديد النقاط يعتمد على ألوان البكسل والتباين، لذلك لا يمكنك سحب أي شيء حقًا. إذا أخذت جزءًا من سيارة حمراء وحركته مع بقائها على السيارة الحمراء، فقد لا يفهم أنك تحركها على الإطلاق.
لا تستطيع الانتظار لتجربتها؟ يذكر المؤلفون أن الكود يجب أن يكون متاحًا في يونيو. تابع الفيديو (أو المقالة) لمعرفة المزيد حول أسلوب معالجة الصور الجديد هذا باستخدام DragYourGan!
تحقق من البودكاست What's AI لمزيد من محتوى الذكاء الاصطناعي في شكل مقابلات مع خبراء في هذا المجال! سنغطي أنا وخبير الذكاء الاصطناعي المدعو موضوعات ومجالات فرعية وأدوار محددة تتعلق بالذكاء الاصطناعي لتدريس المعرفة ومشاركتها من الأشخاص الذين عملوا بجد لجمعها.
Neuralangelo هو أحدث إنجاز لـ NVIDIA في تحويل الصورة إلى 3D AI. يعتمد هذا النهج الجديد على Instant NeRF، مما يعزز جودة السطح ويوفر مشاهد ثلاثية الأبعاد واقعية للغاية من صور بسيطة في ثوانٍ معدودة.
تهدف Neuralangelo إلى التغلب على القيود المفروضة على سابقتها، Instant NeRF، مثل الافتقار إلى الهياكل التفصيلية والمظهر الكارتوني إلى حد ما للنماذج ثلاثية الأبعاد التي تم إنشاؤها بواسطة الذكاء الاصطناعي.
يكمن السر وراء تحسينات Neuralangelo في اختلافين رئيسيين: استخدام التدرجات الرقمية لحساب المشتقات ذات الترتيب الأعلى، واعتماد تحسين من الخشن إلى الدقيق على شبكات التجزئة التي تتحكم في مستويات التفاصيل، والتي نتعمق فيها في الفيديو.
تؤدي عملية التحسين هذه إلى إدخال أكثر سلاسة لإعادة بناء النموذج ثلاثي الأبعاد، وتسمح بمزج المزيد من المعلومات، وتخلق توازنًا مثاليًا بين الاتساق والتفاصيل الدقيقة للحصول على نتيجة واقعية.
تعد جودة نماذج Neuralangelo ثلاثية الأبعاد مذهلة حقًا، لكن الذكاء الاصطناعي يواجه تحديات من خلال المشاهد شديدة الانعكاس. ومع ذلك، فإن تطبيقاتها المحتملة في العالم الحقيقي واسعة ومثيرة!
قررت في حلقة هذا الأسبوع استكشاف بحث جديد يسمى TryOnDiffusion، والذي تم تقديمه في مؤتمر CVPR 2023. يمثل هذا النهج المبتكر قفزة كبيرة إلى الأمام في تجارب التجارب الافتراضية الواقعية. ومن خلال تدريب نماذج الذكاء الاصطناعي على فهم الصور المدخلة، وتمييز الملابس عن الشخص، وجمع المعلومات بذكاء، يقدم TryOnDiffusion نتائج مبهرة تقربنا من الهدف النهائي المتمثل في تجربة افتراضية مثالية.
إذا كنت مهتمًا بالتقاطع بين الذكاء الاصطناعي والموضة، انضم إلينا ونحن نكشف عن الأعمال الداخلية لـ TryOnDiffusion وتأثيرها المحتمل على مستقبل التسوق عبر الإنترنت. سواء كنت متحمسًا للذكاء الاصطناعي، أو عاشقًا للموضة، أو مجرد فضول بشأن أحدث التطورات التكنولوجية، يقدم الفيديو رؤى قيمة حول العالم المتطور لتجربة الملابس الافتراضية.
سوف نغوص في عالم نماذج الانتشار، وشبكات UNets، والاهتمام، حيث تجمع كل هذه الآليات القوية بشكل لا يصدق قواها مع مساعدة مجال الموضة والتجزئة عبر الإنترنت. وبطبيعة الحال، هذا العمل له حدود، ولكن (كما سترون) كانت النتائج مذهلة وواعدة للغاية.
دعونا نتحدث عن نماذج الذكاء الاصطناعي التي تأخذ وجهك ويمكنها تحويله إلى رسم كاريكاتوري مضحك، أو تعديل سمات الوجه مثل تغيير لون شعرك، أو ببساطة ترقية صورتك لجعلها أكثر دقة. إذا كنت من متابعي مقالاتي، فأنت تعلم أن معظم هذه التطبيقات تعتمد على نموذج واحد وإصداراته المتعددة تسمى StyleGAN، والتي قمت بتغطيتها عدة مرات بالفعل. StyleGAN عبارة عن بنية قائمة على GAN تم تطويرها بواسطة NVIDIA والتي يمكنها أخذ مدخلات وتحويلها إلى مدخلات أخرى تتبع نمطًا محددًا تم التدريب عليه. كما أنها مفتوحة المصدر، أي أنه يمكن للجميع استخدامها والبناء عليها، ولماذا تستخدمها جميع الأوراق البحثية.
تكمن مشكلة StyleGAN في أنها تقتصر على الوجوه التي تم اقتصاصها ومحاذاةها بدقة صورة ثابتة من البيانات التي تم تدريبها عليها. وهذا يعني أنه بالنسبة لصور العالم الحقيقي، فأنت بحاجة إلى طرق أخرى للعثور على الوجه واقتصاصه وإعادة توجيهه، كما يجب أن تتمتع بنفس دقة الصورة. هذه مشكلة كبيرة نظرًا لأنك ترغب عادةً في الحصول على صور عالية الجودة ولكن التدريب عليها سيكون طويلاً بشكل لا يصدق.
لذا فإن ما نفعله عادةً هو أننا نستخدم بنية StyleGAN لإجراء نقل النمط لصورتنا، ثم نستخدم شبكة أخرى لرفع مستوى الصورة إلى دقة أعلى. على الرغم من أن هذا النهج يعمل بشكل جيد، إلا أنه بالتأكيد ليس مثاليًا. أنت بحاجة إلى نموذجين بدلاً من نموذج واحد، مما يضيف المزيد من التحيزات والأخطاء المحتملة، فضلاً عن الحاجة إلى تدريب كليهما والحد من قدرات التعميم. لحسن حظنا، يعمل بعض الباحثين المذهلين على حل مشكلة الصور ذات الإدخال المحدود وقد نشروا مؤخرًا نهجًا جديدًا في ICCV 2023 يسمى StyleGANEX من خلال بعض التغييرات الصغيرة الذكية جدًا...
ضع علامة علي على TwitterWhats_AI أو LinkedIn @Louis (What's AI) Bouchard إذا شاركت القائمة!
لقد شهدنا القدرات الرائعة لنماذج اللغات الكبيرة (LLMs)، ولكن كانت هناك فجوة، وهي قطعة مفقودة في فهمهم للعالم من حولنا. لقد تفوقوا في النصوص والأكواد والصور، ومع ذلك فقد كافحوا للتفاعل حقًا مع واقعنا. أي حتى الآن. إليك قفزة رائدة إلى الأمام في مشهد الذكاء الاصطناعي: 3D-LLM.
3D-LLM هو نموذج جديد يسد الفجوة بين اللغة والعالم ثلاثي الأبعاد الذي نعيش فيه. على الرغم من أنه لا يغطي عالمنا بأكمله، إلا أنه يمثل خطوة هائلة في فهم الأبعاد والنصوص الحاسمة التي تشكل حياتنا. كما ستكتشف في الفيديو، فإن 3D-LLM لا يدرك العالم فحسب، بل يتفاعل معه أيضًا. يمكنك طرح أسئلة حول البيئة، أو البحث عن الأشياء أو التنقل عبر المساحات، ومشاهدة منطقها المنطقي - الذي يذكرنا بالمآثر المذهلة التي شهدناها مع ChatGPT.
والأمر الأكثر إثارة للاهتمام هو أن المؤلفين قاموا بتسخير براعة ChatGPT لجمع البيانات من خلال ثلاث طرق متميزة ستتعرف عليها، وإنشاء مستودع شامل للمهام والأمثلة لكل مشهد يستخدم لتدريب النموذج...
يقدم هذا العمل إطارًا جديدًا لتنسيق نماذج اللغة الكبيرة للعمل بشكل متماسك مع التخفيف من مخاطر الهلوسة. يجمع هذا النهج بين قوة وكلاء الذكاء الاصطناعي ووضوح إجراءات التشغيل الموحدة، مما يضمن تعاون الوكلاء بشكل فعال والبقاء متوافقين مع أهداف المستخدم.
اشترك في النشرة الإخبارية الأسبوعية وكن على اطلاع بأحدث المنشورات في مجال الذكاء الاصطناعي لعام 2023!
ليو وآخرون. استخدم GPT-4 لإنشاء نموذج رؤية لغوي للأغراض العامة يسمى LLaVA، وهو أول نموذج للأغراض العامة يفهم ويتبع التعليمات المرئية والقائمة على اللغة. نعم، لم يستخدموا GPT-4 كنموذج أساسي، ولكن لتدريب نموذجهم! وكما سنرى في الفيديو، تم استخدام GPT-4 لإنشاء مجموعة بيانات كبيرة وعالية الجودة لتدريب نموذج جديد يفهم الصور. ومن الواضح أنه لا يفهم الصور فحسب، بل يفهم النصوص أيضًا (هناك الوسائط المتعددة)، مما يعني أنه يمكنه الإجابة على مجموعة واسعة من الأسئلة المتعلقة بها! تعرف على المزيد في المقال كاملاً أو في الفيديو...
لقد رأينا العديد من الأساليب الجديدة لإنشاء النصوص، ثم أصبح إنشاء الصور أفضل. بعد ذلك، رأينا أعمالًا أولية مذهلة أخرى لإنشاء مقاطع فيديو وحتى نماذج ثلاثية الأبعاد من النص. فقط تخيل مدى تعقيد مثل هذه المهمة عندما يكون كل ما لديك هو جملة، وتحتاج إلى إنشاء شيء يمكن أن يبدو وكأنه كائن في العالم الحقيقي، بكل تفاصيله. حسنًا، هذه خطوة جديدة ليست مجرد خطوة أولية؛ إنها خطوة كبيرة إلى الأمام في إنشاء نموذج ثلاثي الأبعاد من مجرد نص: MVDream!
Distil-Whisper هو نموذج نسخ صوتي أسرع 6 مرات من نموذج Whisper الأصلي، وأصغر بنسبة 49%، ويحافظ على 99% من الدقة. وأفضل ما فيها هو أنها مفتوحة المصدر بالكامل، ويمكنك استخدامها الآن.
في هذا الفيديو، نتعمق في تقنية Stable Video Diffusion (SVD)، ونستكشف كيف تُحدث هذه التقنية المبتكرة من Stability AI ثورة في إنشاء الفيديو المعتمد على الذكاء الاصطناعي. فهم المبادئ الأساسية لنماذج الانتشار وتطبيقاتها في تحويل النص إلى فيديو وتوليف العرض المتعدد، وهو مثالي لعشاق الذكاء الاصطناعي والوسائط الرقمية الذين يتوقون إلى فهم مستقبل توليد الفيديو.
إذا كنت ترغب في قراءة المزيد من الأوراق البحثية والحصول على رؤية أوسع، فإليك مستودعًا رائعًا آخر يغطي عام 2022: 2022: عام مليء بأبحاث الذكاء الاصطناعي المذهلة - مراجعة ولا تتردد في الاشتراك في رسالتي الإخبارية الأسبوعية والبقاء على اطلاع دائم - موعد مع المنشورات الجديدة في الذكاء الاصطناعي لعام 2023!
ضع علامة علي على TwitterWhats_AI أو LinkedIn @Louis (What's AI) Bouchard إذا شاركت القائمة!
[1] وانغ، سي، تشن، إس، وو، واي، تشانغ، زي، تشو، إل.، ليو، إس، تشين، زي، ليو، واي، وانغ، إتش، لي، J. and He, L., 2023. نماذج لغة الترميز العصبي عبارة عن مُركِّبات تحويل النص إلى كلام بدون لقطة، https://arxiv.org/abs/2301.02111
[2] بروكس وآخرون، 2022: InstructPix2Pix، https://arxiv.org/abs/2211.09800
[3] أجوستينيلي وآخرون، 2023: ميوزيك إل إم، https://arxiv.org/abs/2301.11325
[4] Esser, P., Chiu, J., Atighehchian, P., Granskog, J. and Germanidis, A., 2023. تركيب الفيديو الموجه بالبنية والمحتوى مع نماذج الانتشار، https://arxiv.org/abs /2302.03011
[5] دريس، د.، شيا، ف.، سجادي، إم إس، لينش، سي.، شودري، أ.، إشتر، ب.، وحيد، أ.، تومسون، ج.، فونج، كيو، يو، تي. . وهوانغ، دبليو، 2023. Palm-e: نموذج لغة متعدد الوسائط متجسد، https://arxiv.org/abs/2303.03378
[6] كيريلوف، أ.، مينتون، إي.، رافي، إن.، ماو، إتش.، رولاند، سي.، غوستافسون، إل.، شياو، تي.، وايتهيد، إس.، بيرج، إيه سي، لو، وي واي ودولار، ب.، 2023. قم بتقسيم أي شيء، https://arxiv.org/abs/2304.02643
[7] Tewel, Y., Gal, R., Chechik, G. and Atzmon, Y., 2023. التحرير من المرتبة الأولى بمفتاح مقفل لتخصيص تحويل النص إلى صورة، https://arxiv.org/abs/2305.01644
[8] Pan, X., Tewari, A., Leimkühler, T., Liu, L., Meka, A. and Theobalt, C., 2023. اسحب GAN الخاص بك: معالجة تفاعلية قائمة على النقاط في مشعب الصور التوليدية، https://arxiv.org/abs/2305.10973
[9] Li, Z., Müller, T., Evans, A., Taylor, RH, Unberath, M., Liu, MY and Lin, CH, 2023. Neuralangelo: إعادة بناء السطح العصبي عالي الدقة. في وقائع مؤتمر IEEE/CVF حول الرؤية الحاسوبية والتعرف على الأنماط (الصفحات 8456-8465)، https://arxiv.org/abs/2306.03092
[10] Zhu, L., Yang, D., Zhu, T., Reda, F., Chan, W., Saharia, C., Norouzi, M. and Kemelmacher-Shlizerman, I., 2023. TryOnDiffusion: A حكاية اثنين من UNets. في وقائع مؤتمر IEEE/CVF حول الرؤية الحاسوبية والتعرف على الأنماط (الصفحات 4606-4615)، https://arxiv.org/abs/2306.08276
[11] Yang, S., Jiang, L., Liu, Z. and Loy, CC, 2023. StyleGANEX: التلاعب القائم على StyleGAN وراء الوجوه المحاذية المقطوعة. arXiv الطباعة المسبقة arXiv:2303.06146.
[12] Hong, Y., Zhen, H., Chen, P., Zheng, S., Du, Y., Chen, Z. and Gan, C., 2023. 3d-llm: حقن العالم ثلاثي الأبعاد في مساحة كبيرة نماذج اللغة. arXiv الطباعة المسبقة arXiv:2307.12981.
[13] هونغ، إس، زينج، إكس، تشين، جيه، تشينج، واي، تشانغ، سي، وانج، زي، ياو، إس كيه إس، لين، زي، تشو، إل.، ران، سي . وشياو، إل.، 2023. Metagpt: البرمجة الوصفية لإطار عمل تعاوني متعدد الوكلاء. arXiv الطباعة المسبقة arXiv:2308.00352.
[14] Liu, H., Li, C., Wu, Q. and Lee, YJ, 2023. ضبط التعليمات المرئية. arXiv الطباعة المسبقة arXiv:2304.08485.
[15] Shi, Y., Wang, P., Ye, J., Long, M., Li, K. and Yang, X., 2023. Mvdream: نشر متعدد العروض للجيل ثلاثي الأبعاد. arXiv الطباعة المسبقة arXiv:2308.16512.
[16] Gandhi, S., von Platen, P. and Rush, AM, 2023. Distil-Whisper: تقطير قوي للمعرفة عبر وضع العلامات الزائفة على نطاق واسع. arXiv الطباعة المسبقة arXiv:2311.00430.
[17] بلاتمان وآخرون، 2023: الانتشار المستقر للفيديو. https://static1.squarespace.com/static/6213c340453c3f502425776e/t/655ce779b9d47d342a93c890/1700587395994/stable_video_diffusion.pdf