في حين أن العالم لا يزال يتعافى ، لم يبطئ البحث وتيرته المحمومة ، خاصة في مجال الذكاء الاصطناعي. أكثر من ذلك ، تم تسليط الضوء على العديد من الجوانب المهمة هذا العام ، مثل الجوانب الأخلاقية والتحيزات المهمة والحوكمة والشفافية وأكثر من ذلك بكثير. تتطور الذكاء الاصطناعي وفهمنا للدماغ البشري وارتباطه بمنظمة العفو الدولية باستمرار ، مما يدل على تطبيقات واعدة تعمل على تحسين جودة حياتنا في المستقبل القريب. ومع ذلك ، يجب أن نكون حذرين مع التكنولوجيا التي نختار تقديمها.
"لا يمكن للعلم أن يخبرنا بما يجب أن نفعله ، فقط ما يمكننا القيام به."
- جان بول سارتر ، كونه ولا شيء
فيما يلي أوراق البحث الأكثر إثارة للاهتمام لهذا العام ، في حال فاتتك أي منها. باختصار ، يتم تنسيق قائمة من أحدث الاختراقات في AI وعلوم البيانات حسب تاريخ الإصدار مع شرح فيديو واضح ، وربط مقالة أكثر تعمقا ، والرمز (إن أمكن). استمتع بالقراءة!
يتم سرد الإشارة الكاملة إلى كل ورقة في نهاية هذا المستودع. نجم هذا المستودع للبقاء على اطلاع دائم! ️
المشرف: Louffb01
اشترك في النشرة الإخبارية الخاصة بي - أشرح آخر التحديثات في الذكاء الاصطناعي كل أسبوع.
لا تتردد في مراسلتي بأي ورقة مثيرة للاهتمام قد فاتني لإضافتها إلى هذا المستودع.
ضع علامة على twitter @whats_ai أو linkedIn @louis (ما هو AI) Bouchard إذا كنت تشارك القائمة!
قائمة منسقة من أفضل 10 منشورات CV في عام 2021 مع شرح فيديو واضح ، ارتباط بمقالة أكثر تعمقا ، والرمز.
أفضل 10 أوراق رؤية للكمبيوتر لعام 2021
؟ إذا كنت ترغب في دعم عملي واستخدام W & B (مجانًا) لتتبع تجارب ML الخاصة بك وجعل عملك قابلًا للتكرار أو التعاون مع فريق ، فيمكنك تجربته باتباع هذا الدليل! نظرًا لأن معظم التعليمات البرمجية هنا تعتمد على Pytorch ، فقد اعتقدنا أن دليل QuickStart لاستخدام W&B على Pytorch سيكون أكثر إثارة للاهتمام.
اتبع هذا الدليل السريع ، استخدم نفس خطوط W&B في الكود الخاص بك أو أي من Repos أدناه ، وقم بتتبع جميع تجاربك تلقائيًا في حساب W&B الخاص بك! لا يستغرق الأمر أكثر من 5 دقائق لإعداده وسيغير حياتك كما فعلت بالنسبة لي! إليك دليل أكثر تقدماً لاستخدام عمليات عمليات مسح Hyperparameter إذا كانت مهتمة :)
؟ شكرًا لك على Weirds & Biass لرعايتك هذا المستودع والعمل الذي كنت أقوم به ، وبفضل أي منكم يستخدم هذا الرابط ومحاولة W & B!
قام Openai بنجاح بتدريب شبكة قادرة على إنشاء صور من التسميات التوضيحية النصية. إنه مشابه جدًا لـ GPT-3 و Image GPT وينتج نتائج مذهلة.
استخدمت Google بنية stylegan2 المعدلة لإنشاء غرفة ملائمة عبر الإنترنت حيث يمكنك تجربة أي سراويل أو قمصان تريد تلقائيًا فقط باستخدام صورة لنفسك.
TL ؛ DR: يجمعون كفاءة GANs والمناهج التلافيفية مع تعبير المحولات لإنتاج طريقة قوية وفعالة من الوقت لتوليف الصور عالي الجودة الموجهة بشكل دلالي.
استلهم الإلهام من القدرات البشرية نحو أسئلة أكثر عمومية وجديرة بالثقة و 10 أسئلة لمجتمع أبحاث الذكاء الاصطناعي.
Odei Garcia-Garin et al. من جامعة برشلونة طورت خوارزمية عميقة تعتمد على التعلم قادرة على اكتشاف القمامة العائمة وقياسها من الصور الجوية. كما قاموا بتطبيق موجه نحو الويب يسمح للمستخدمين بتحديد هذه القمامة ، المسمى عائم الماكرو البحري العائم ، أو FMML ، داخل صور سطح البحر.
فقط تخيل مدى روعة التقاط صورة لكائن وجعلها ثلاثية الأبعاد لإدراجها في فيلم أو لعبة فيديو تقوم بإنشائها أو في مشهد ثلاثي الأبعاد للحصول على توضيح.
إنهم يستفيدون أساسًا من آلية انتباه المحولات في بنية Stylegan2 القوية لجعلها أكثر قوة!
اشترك في رسالتي الإخبارية الأسبوعية والبقاء على اطلاع مع منشورات جديدة في الذكاء الاصطناعي لعام 2022!
هل ستمرح على ملف تعريف الذكاء الاصطناعي؟ هل يمكنك التمييز بين الإنسان الفعلي عن الجهاز؟ هذا ما تكشفه هذه الدراسة باستخدام الأشخاص الذين صنعهم منظمة العفو الدولية على تطبيقات المواعدة.
هل سيستبدل المحولات CNNs في رؤية الكمبيوتر؟ في أقل من 5 دقائق ، ستعرف كيف يمكن تطبيق بنية المحولات على رؤية الكمبيوتر مع ورقة جديدة تسمى محول Swin.
هذا النموذج الواعد المسمى Ganverse3D يحتاج فقط إلى صورة لإنشاء رقم ثلاثي الأبعاد يمكن تخصيصه ورسوم متحرك!
"سأشارك علانية كل شيء حول شبكات العميق لتطبيقات الرؤية ، ونجاحاتها ، والقيود التي يتعين علينا معالجتها."
الخطوة التالية لتوليف العرض: جيل العرض الدائم ، حيث الهدف هو التقاط صورة للطيران فيه واستكشاف المشهد!
مع هذه الواجهة العصبية التي تعمل بالنيابة ، يمكن لـ AMPTEE التحكم في يد عصبية مع البراعة الشبيهة بالحياة والبناء.
ارجع بشكل صحيح أي صورة بناءً على إضاءة الخلفية الجديدة التي تضيفها. هل أردت يومًا تغيير خلفية الصورة ولكن هل تبدو واقعية؟ إذا كنت قد جربت ذلك بالفعل ، فأنت تعلم بالفعل أنه ليس بسيطًا. لا يمكنك التقاط صورة لنفسك في منزلك وتغيير الخلفية للشاطئ. يبدو الأمر سيئًا وليست واقعية. أي شخص سيقول فقط "هذا هو photoshopped" في ثانية. بالنسبة للأفلام ومقاطع الفيديو المهنية ، تحتاج إلى إضاءة وفنانين مثاليين لإعادة إنتاج صورة عالية الجودة ، وهذا مكلف للغاية. لا توجد طريقة يمكنك القيام بذلك مع صورك الخاصة. أم يمكنك؟
قم بإنشاء نماذج ثلاثية الأبعاد من البشر أو الحيوانات التي تنتقل من مقطع فيديو قصير فقط كمدخلات. هذه طريقة جديدة لتوليد نماذج ثلاثية الأبعاد من البشر أو الحيوانات التي تنتقل من مقطع فيديو قصير فقط كمدخلات. في الواقع ، إنه في الواقع يدرك أن هذا شكل غريب ، أنه يمكن أن يتحرك ، ولكن لا يزال يحتاج إلى البقاء مرتبطًا لأن هذا لا يزال "كائنًا" واحد وليس فقط العديد من الأشياء معًا ...
يمكن تطبيق AI على الهواء مباشرة على لعبة الفيديو وتحويل كل إطار لتبدو أكثر طبيعية. نشر الباحثون من Intel Labs للتو هذه الورقة التي تسمى تعزيز تعزيز الواقعية. وإذا كنت تعتقد أن هذا قد يكون "مجرد GAN آخر" ، مع التقاط صورة لألعاب الفيديو كمدخلات وتغييرها بعد أسلوب العالم الطبيعي ، اسمحوا لي أن أغير رأيك. لقد عملوا على هذا النموذج لمدة عامين لجعله قويًا للغاية. يمكن تطبيقه على الهواء مباشرة على لعبة الفيديو وتحويل كل إطار لتبدو أكثر طبيعية. فقط تخيل الإمكانيات التي يمكنك من خلالها بذل جهد أقل بكثير في رسم اللعبة ، وجعلها مستقرة وكاملة للغاية ، ثم تحسين النمط باستخدام هذا النموذج ...
كيفية اكتشاف مزيف عميق في عام 2021.
على الرغم من أنهم يبدو أنهم كانوا دائمًا هناك ، إلا أن أول ديفيك واقعية للغاية لم يظهر حتى عام 2017. لقد انتقلت من أول صور تشبه على الإطلاق تم إنشاؤها تلقائيًا إلى نسخة متطابقة اليوم من شخص ما على مقاطع الفيديو ، مع الصوت.
والحقيقة هي أننا لا نستطيع رؤية الفرق بين مقطع فيديو أو صورة حقيقية و DeepFake بعد الآن. كيف يمكننا معرفة ما هو حقيقي من ما هو غير ذلك؟ كيف يمكن استخدام ملفات الصوت أو ملفات الفيديو في المحكمة كدليل إذا كان بإمكان AI إنشاءها بالكامل؟ حسنًا ، قد توفر هذه الورقة الجديدة إجابات لهذه الأسئلة. والجواب هنا قد يكون مرة أخرى استخدام الذكاء الاصطناعي. القول "سأصدق ذلك عندما أراه" قد يتغير قريبًا من أجل "سأصدق ذلك عندما يخبرني الذكاء الاصطناعى أن أصدق ذلك ..."
ضع أي نمط على صورتك 4K في الوقت الفعلي باستخدام هذا النهج الجديد القائم على التعلم!
هذه المقالة لا تتعلق بتقنية جديدة في حد ذاتها. بدلاً من ذلك ، يتعلق الأمر بتطبيق جديد ومثير لـ Gans. في الواقع ، رأيت العنوان ، ولم يكن Clickbait. يمكن لهذا الذكاء الاصطناعي نقل شعرك لترى كيف سيبدو قبل الالتزام بالتغيير ...
يمكن أن يترجم نموذج Facebook AI الجديد أو تحرير النص مباشرة في الصورة بلغتك الخاصة ، باتباع نفس النمط!
تخيل أنك في إجازة في بلد آخر لا تتحدث فيه اللغة. تريد تجربة مطعم محلي ، لكن قائمتهم في اللغة التي لا تتحدثها. أعتقد أن هذا لن يكون من الصعب للغاية تخيله لأن معظمنا واجه بالفعل هذا الموقف سواء رأيت عناصر القائمة أو الاتجاهات ولا يمكنك فهم ما هو مكتوب. حسنًا ، في عام 2020 ، ستخرج هاتفك وترجمة جوجل ما تراه. في عام 2021 ، لا تحتاج حتى إلى فتح ترجمة Google بعد الآن ومحاولة كتابة ما تراه واحدًا تلو الآخر لترجمته. بدلاً من ذلك ، يمكنك ببساطة استخدام هذا النموذج الجديد بواسطة Facebook AI لترجمة كل نص في الصورة بلغتك الخاصة ...
إذا كنت ترغب في قراءة المزيد من الأوراق البحثية أيضًا ، فإنني أوصيك بقراءة مقالتي حيث أشارك أفضل نصائحي لإيجاد وقراءة المزيد من الأوراق البحثية.
يلتقط هذا النموذج صورة ، ويفهم الجسيمات التي من المفترض أن تتحرك ، وتنقلها بشكل واقعي في حلقة لا حصر لها مع الحفاظ على بقية الصورة لا تزال إنشاء مقاطع فيديو مدهشة مثل هذه ...
باستخدام بنية GAN المعدلة ، يمكنهم نقل الكائنات في الصورة دون التأثير على الخلفية أو الكائنات الأخرى!
اكتشف كيف يقوم هذا النموذج الجديد من Openai بإنشاء رمز من الكلمات!
باستخدام خوارزميات متعددة تعتمد على التعلم الآلي تعمل بشكل خاص على جهازك ، تتيح لك Apple تنظيم الصور ومقاطع الفيديو الخاصة بك على iOS 15.
قل وداعا للبنية المعقدة GAN و Transformer لتوليد الصور! هذه الطريقة الجديدة من قبل Chenling Meng et al. من جامعة ستانفورد وجامعة كارنيجي ميلون يمكنها إنشاء صور جديدة من أي مدخلات قائمة على المستخدم. حتى أشخاص مثلي مع مهارات فنية صفرية يمكنهم الآن توليد صور أو تعديلات جميلة من الرسومات السريعة ...
اجعل تدريب Gans أسهل للجميع عن طريق إنشاء صور بعد رسم! في الواقع ، هذه الطريقة الجديدة ، يمكنك التحكم في مخرجات GAN الخاصة بك استنادًا إلى أبسط أنواع المعرفة التي يمكن أن توفرها: رسومات مرسومة باليد.
إذا كنت تتساءل كيف لا يمكن لسيارة تسلا رؤيتها فحسب ، بل تنقل الطرق مع المركبات الأخرى ، فهذا هو الفيديو الذي كنت تنتظره. قبل يومين كان أول يوم تسلا AI حيث قدم Andrej Karpathy ، مدير الذكاء الاصطناعي في Tesla ، وغيرهم كيف يعمل Autopilot Tesla من الحصول على الصور من خلال كاميراتهم الثمانية إلى عملية الملاحة على الطرق.
يمكن أن تقوم الذكاء الاصطناعي بإنشاء صور ، إذن ، باستخدام الكثير من القوة والتجربة والخطأ ، يمكن للباحثين التحكم في النتائج بعد أنماط محددة. الآن ، مع هذا النموذج الجديد ، يمكنك القيام بذلك باستخدام النص فقط!
يمكن أن يفهم Timelens حركة الجسيمات بين إطارات مقطع فيديو لإعادة بناء ما حدث بالفعل بسرعة حتى لا يمكن أن تراه أعيننا. في الواقع ، يحقق نتائج يمكن أن تصل إليها هواتفنا الذكية وأي نماذج أخرى من قبل!
اشترك في رسالتي الإخبارية الأسبوعية والبقاء على اطلاع مع منشورات جديدة في الذكاء الاصطناعي لعام 2022!
هل أردت يومًا تحرير مقطع فيديو؟
قم بإزالة أو إضافة شخص ما ، أو قم بتغيير الخلفية ، أو اجعله يستمر لفترة أطول قليلاً ، أو قم بتغيير الدقة لتناسب نسبة العرض إلى الارتفاع المحددة دون ضغط أو تمديدها. بالنسبة لأولئك منكم الذين قاموا بالفعل بتشغيل حملات الإعلان ، أردت بالتأكيد أن يكون لديك اختلافات في مقاطع الفيديو الخاصة بك لاختبار AB ومعرفة ما هو أفضل. حسنًا ، هذا البحث الجديد الذي أجراه Niv Haim et al. يمكن أن تساعدك على القيام بكل هذه الفيديو من مقطع فيديو واحد وفي HD!
في الواقع ، باستخدام مقطع فيديو بسيط ، يمكنك تنفيذ أي مهام ذكرتها للتو في ثوانٍ أو بضع دقائق لمقاطع الفيديو عالية الجودة. يمكنك استخدامه بشكل أساسي لأي معالجة فيديو أو تطبيق توليد الفيديو الذي تفكر فيه. حتى أنه يتفوق على Gans بجميع الطرق ولا يستخدم أي أبحاث خيالية للتعلم العميق ولا تتطلب مجموعة بيانات ضخمة وغير عملية! وأفضل شيء هو أن هذه التقنية قابلة للتطوير لمقاطع الفيديو عالية الدقة.
أصدرت DeepMind للتو نموذجًا توليديًا قادرًا على التفوق على أساليب Nowcasting المستخدمة على نطاق واسع في 89 ٪ من المواقف لدقتها وفائدتها التي تم تقييمها من قبل أكثر من 50 خبيرًا في الأرصاد الجوية! يركز نموذجهم على التنبؤ بالتوسعات في الساعتين القادمة ويحقق ذلك بشكل مدهش بشكل مدهش. إنه نموذج توليدي ، مما يعني أنه سيولد التوقعات بدلاً من مجرد التنبؤ بها. يأخذ بشكل أساسي بيانات الرادار من الماضي لإنشاء بيانات رادار مستقبلية. لذا باستخدام كل من الوقت والمكونات المكانية من الماضي ، يمكنهم توليد ما سيبدو عليه في المستقبل القريب.
يمكنك أن ترى هذا مثل المرشحات Snapchat ، وأخذ وجهك وتوليد وجه جديد مع تعديلات عليه. لتدريب مثل هذا النموذج التوليدي ، تحتاج إلى مجموعة من البيانات من كل من الوجوه البشرية ونوع الوجه الذي تريد توليده. بعد ذلك ، باستخدام نموذج مشابه جدًا مدرب لعدة ساعات ، سيكون لديك نموذج توليدي قوي. يستخدم هذا النوع من النماذج في كثير من الأحيان بنية Gans لأغراض التدريب ثم يستخدم نموذج المولد بشكل مستقل.
هل سبق لك أن قمت بضبط مقطع فيديو أو برنامج تلفزيوني وكان الممثلون غير مسموعون تمامًا ، أو كانت الموسيقى عالية جدًا؟ حسنًا ، هذه المشكلة ، التي تسمى أيضًا مشكلة حفلة الكوكتيل ، قد لا تحدث مرة أخرى. نشرت Mitsubishi و Indiana University للتو نموذجًا جديدًا بالإضافة إلى مجموعة بيانات جديدة تعالج هذه المهمة المتمثلة في تحديد الموسيقى التصويرية المناسبة. على سبيل المثال ، إذا أخذنا نفس مقطع الصوت ، فقد ركضنا للتو مع Music Way بصوت عالٍ للغاية ، فيمكنك ببساطة زيادة أو أسفل مسار الصوت الذي تريد إعطاء أهمية أكبر للكلام أكثر من الموسيقى.
تكمن المشكلة هنا في عزل أي مصدر صوت مستقل من مشهد صوتي معقد مثل مشهد فيلم أو مقطع فيديو على YouTube حيث لا تكون بعض الأصوات متوازنة جيدًا. في بعض الأحيان ، لا يمكنك ببساطة سماع بعض الممثلين بسبب تشغيل الموسيقى أو الانفجارات أو الأصوات المحيطة الأخرى في الخلفية. حسنًا ، إذا نجحت في عزل الفئات المختلفة في الموسيقى التصويرية ، فهذا يعني أنه يمكنك أيضًا رفع أو أسفل واحد منها ، مثل رفض الموسيقى قليلاً لسماع جميع الممثلين الآخرين بشكل صحيح. هذا هو بالضبط ما حققه الباحثون.
تخيل أنك تريد إنشاء طراز ثلاثي الأبعاد أو ببساطة مقطع فيديو سائل من مجموعة من الصور التي التقطتها. حسنًا ، أصبح هذا ممكنًا الآن! لا أريد أن أعطي الكثير ، لكن النتائج ببساطة مذهلة وتحتاج إلى التحقق من ذلك بنفسك!
هل سبق لك أن حلمت بأسلوب صورة ، مثل أسلوب الرسم الرائع هذا على اليسار ، وتطبيقه على صورة جديدة من اختيارك؟ حسنًا ، لقد فعلت ذلك ، ولم يكن من السهل القيام به. في الواقع ، يمكنك حتى تحقيق ذلك من النص فقط ويمكنك تجربته الآن باستخدام هذه الطريقة الجديدة ومكتب Notebook Google Colab المتاح للجميع (انظر المراجع). ما عليك سوى التقاط صورة للنمط الذي تريد نسخه ، وإدخال النص الذي تريد إنشاؤه ، وستقوم هذه الخوارزمية بإنشاء صورة جديدة منه! مجرد إلقاء نظرة على النتائج أعلاه ، مثل هذه الخطوة الكبيرة إلى الأمام! النتائج مثيرة للإعجاب للغاية ، خاصة إذا كنت تفكر في أنها مصنوعة من خط واحد من النص!
هل سبق لك أن حصلت على صورة أعجبك حقًا ويمكنك فقط العثور على نسخة صغيرة منها تبدو وكأنها هذه الصورة أدناه على اليسار؟ ما مدى روعة إذا تمكنت من التقاط هذه الصورة وجعلها تبدو جيدة مرتين؟ إنه لأمر رائع ، لكن ماذا لو استطعت أن تجعلها حتى أربع أو ثماني مرات أكثر عالية؟ الآن نحن نتحدث ، فقط انظر إلى ذلك.
قمنا هنا بتحسين دقة الصورة بعامل أربعة ، مما يعني أن لدينا أربع مرات أكثر من الطول وعرض البكسل لمزيد من التفاصيل ، مما يجعلها تبدو أكثر سلاسة. أفضل شيء هو أن هذا يتم في غضون بضع ثوانٍ ، تلقائيًا تمامًا ، ويعمل مع أي صورة إلى حد كبير. أوه ، ويمكنك حتى استخدامه بنفسك مع عرض تجريبي أتاحوا ...
التحكم في أي ميزة من مسودات سريعة ، وسوف تقوم فقط بتحرير ما تريد الحفاظ على بقية الصورة كما هو! تحرير صور SOTA من نموذج الرسومات على أساس GANS من NVIDIA و MIT و UOFT.
يسمى النموذج Citynerf وينمو من NERF ، والتي سبق أن غطتها على قناتي. NERF هي واحدة من النماذج الأولى التي تستخدم حقول الإشعاع والتعلم الآلي لبناء نماذج ثلاثية الأبعاد من الصور. لكن NERF ليس فعالًا ويعمل على نطاق واحد. هنا ، يتم تطبيق Citynerf على الصور الأقمار الصناعية والمستوى الأرضي في نفس الوقت لإنتاج موازين نموذج ثلاثية الأبعاد مختلفة لأي وجهة نظر. بكلمات بسيطة ، فإنها تجلب nerf إلى نطاق المدينة. لكن كيف؟
لقد رأينا الذكاء الاصطناعي يولد صورًا من صور أخرى باستخدام Gans. ثم ، كانت هناك نماذج قادرة على إنشاء صور مشكوك فيها باستخدام النص. في أوائل عام 2021 ، تم نشر Dall-E ، متغلبًا على جميع المحاولات السابقة لإنشاء صور من إدخال نص باستخدام Clip ، وهو نموذج يربط الصور بنص كدليل. قد تبدو مهمة مشابهة جدًا تسمى تسميات التسمية التوضيحية للصورة بسيطة للغاية ولكنها ، في الواقع ، تمامًا مثل المعقدة. إنها قدرة الجهاز على توليد وصف طبيعي للصورة. من السهل ببساطة وضع علامة على الكائنات التي تراها في الصورة ، لكن من الصعب تمامًا فهم ما يحدث في صورة ثنائية الأبعاد واحدة ، وهذا النموذج الجديد يفعل ذلك بشكل جيد للغاية ...
إذا كنت ترغب في قراءة المزيد من الأوراق ولديك عرض أوسع ، فإليك مستودعًا رائعًا آخر لك يغطي 2020: 2020: عام مليء بأوراق الذكاء الاصطناع -مع منشورات جديدة في الذكاء الاصطناعي لعام 2022!
ضع علامة على twitter @whats_ai أو linkedIn @louis (ما هو AI) Bouchard إذا كنت تشارك القائمة!
[1] A. Ramesh et al. ، Zero-Shot Text-to-image Generation ، 2021. Arxiv: 2102.12092
[2] لويس ، كاثلين م.
[3] ترويض محولات لتوليف الصور عالي الدقة ، Esser et al. ، 2020.
[4] التفكير بسرعة وبطيئة في AI ، Booch et al. ، (2020) ، https://arxiv.org/abs/2010.06002.
[5] Odei Garcia-Garin et al. 10.1016/j.envpol.2021.116490.
[6] Rematas ، K. ، Martin-Brualla ، R. ، and Ferrari ، V.
[7] Drew A. Hudson and C. Lawrence Zitnick ، Transferal Transversarial ، (2021)
[8] ساندرا براينت وآخرون ، "لقد طلبنا الذكاء الاصطناعي لإنشاء ملفات تعريف مواعدة. هل ستمرر اليمين؟ "، (2021) ، مدونة Unsw Sydney.
[9] Liu ، Z. et al. ، 2021 ، "محول Swin: محول الرؤية الهرمي باستخدام Windows المتحولة" ، Arxiv preprint https://arxiv.org/abs/2103.14030v1
[10] Zhang ، Y. ، Chen ، W. ، Ling ، H. ، Gao ، J. ، Zhang ، Y. ، Torralba ، A. and Fidler ، S. ، 2020. التقديم العصبي ثلاثي الأبعاد. Arxiv preprint Arxiv: 2010.09125.
[11] يويل ، آل ، وليو ، سي ، 2021 International Journal of Computer Vision, 129(3), pp.781–802, https://arxiv.org/abs/1805.04025.
[12] Liu, A., Tucker, R., Jampani, V., Makadia, A., Snavely, N. and Kanazawa, A., 2020. Infinite Nature: Perpetual View Generation of Natural Scenes from a Single Image, https://arxiv.org/pdf/2012.09855.pdf
[13] Nguyen & Drealan et al. (2021) A Portable, Self-Contained Neuroprosthetic Hand with Deep Learning-Based Finger Control: https://arxiv.org/abs/2103.13452
[14] Pandey et al., 2021, Total Relighting: Learning to Relight Portraits for Background Replacement, doi: 10.1145/3450626.3459872, https://augmentedperception.github.io/total_relighting/total_relighting_paper.pdf.
[15] Gengshan Yang et al., (2021), LASR: Learning Articulated Shape Reconstruction from a Monocular Video, CVPR, https://lasr-google.github.io/.
[16] Richter, Abu AlHaija, Koltun, (2021), "Enhancing Photorealism Enhancement", https://intel-isl.github.io/PhotorealismEnhancement/.
[17] DeepFakeHop: Chen, Hong-Shuo, et al., (2021), “DefakeHop: A Light-Weight High-Performance Deepfake Detector.” ArXiv abs/2103.06929.
[18] Liang, Jie and Zeng, Hui and Zhang, Lei, (2021), "High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network", https://export.arxiv.org/pdf/2105.09188.pdf.
[19] Peihao Zhu et al., (2021), Barbershop, https://arxiv.org/pdf/2106.01505.pdf.
[20] Praveen Krishnan, Rama Kovvuri, Guan Pang, Boris Vassilev, and Tal Hassner, Facebook AI, (2021), ”TextStyleBrush: Transfer of text aesthetics from a single example”.
[21] Holynski, Aleksander, et al. “Animating Pictures with Eulerian Motion Fields.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.
[22] Michael Niemeyer and Andreas Geiger, (2021), "GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields", Published in CVPR 2021.
[23] Chen, M., Tworek, J., Jun, H., Yuan, Q., Pinto, HPDO, Kaplan, J., Edwards, H., Burda, Y., Joseph, N., Brockman, G. and Ray, A., 2021. Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374.
[24] Apple, “Recognizing People in Photos Through Private On-Device Machine Learning”, (2021), https://machinelearning.apple.com/research/recognizing-people-photos
[25] Meng, C., Song, Y., Song, J., Wu, J., Zhu, JY and Ermon, S., 2021. Sdedit: Image synthesis and editing with stochastic differential equations. arXiv preprint arXiv:2108.01073.
[26] Wang, SY, Bau, D. and Zhu, JY, 2021. Sketch Your Own GAN. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 14050-14060).
[27] “Tesla AI Day”, Tesla, August 19th 2021, https://youtu.be/j0z4FweCy4M
[28] Patashnik, Or, et al., (2021), “Styleclip: Text-driven manipulation of StyleGAN imagery.”, https://arxiv.org/abs/2103.17249
[29] Stepan Tulyakov*, Daniel Gehrig*, Stamatios Georgoulis, Julius Erbach, Mathias Gehrig, Yuanyou Li, Davide Scaramuzza, TimeLens: Event-based Video Frame Interpolation, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, 2021 و http://rpg.ifi.uzh.ch/docs/CVPR21_Gehrig.pdf
[30] Haim, N., Feinstein, B., Granot, N., Shocher, A., Bagon, S., Dekel, T., & Irani, M. (2021). Diverse Generation from a Single Video Made Possible, https://arxiv.org/abs/2109.08591.
[31] Ravuri, S., Lenc, K., Willson, M., Kangin, D., Lam, R., Mirowski, P., Fitzsimons, M., Athanassiadou, M., Kashem, S., Madge, S. and Prudden, R., 2021. Skillful Precipitation Nowcasting using Deep Generative Models of Radar, https://www.nature.com/articles/s41586-021-03854-z
[32] Petermann, D., Wichern, G., Wang, Z., & Roux, JL (2021). The Cocktail Fork Problem: Three-Stem Audio Separation for Real-World Soundtracks. https://arxiv.org/pdf/2110.09958.pdf.
[33] Rückert, D., Franke, L. and Stamminger, M., 2021. ADOP: Approximate Differentiable One-Pixel Point Rendering, https://arxiv.org/pdf/2110.06635.pdf.
[34] a) CLIPDraw: exploring text-to-drawing synthesis through language-image encoders
b) StyleCLIPDraw: Schaldenbrand, P., Liu, Z. and Oh, J., 2021. StyleCLIPDraw: Coupling Content and Style in Text-to-Drawing Synthesis.
[35] Liang, J., Cao, J., Sun, G., Zhang, K., Van Gool, L. and Timofte, R., 2021. SwinIR: Image restoration using swin transformer. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 1833–1844).
[36] Ling, H., Kreis, K., Li, D., Kim, SW, Torralba, A. and Fidler, S., 2021, May. EditGAN: High-Precision Semantic Image Editing. In Thirty-Fifth Conference on Neural Information Processing Systems.
[37] Xiangli, Y., Xu, L., Pan, X., Zhao, N., Rao, A., Theobalt, C., Dai, B. and Lin, D., 2021. CityNeRF: Building NeRF at City Scale.
[38] Mokady, R., Hertz, A. and Bermano, AH, 2021. ClipCap: CLIP Prefix for Image Captioning. https://arxiv.org/abs/2111.09734