best_AI_papers_2021 تنزيل - best_AI_papers_2021 تنزيل رمز المصدر

2021: سنة مليئة بأوراق الذكاء الاصطناعى المذهلة- مراجعة؟

قائمة منسقة من أحدث الاختراقات في الذكاء الاصطناعى حسب تاريخ الإصدار مع شرح فيديو واضح ، وربط إلى مقالة أكثر تعمقا ، والرمز.

في حين أن العالم لا يزال يتعافى ، لم يبطئ البحث وتيرته المحمومة ، خاصة في مجال الذكاء الاصطناعي. أكثر من ذلك ، تم تسليط الضوء على العديد من الجوانب المهمة هذا العام ، مثل الجوانب الأخلاقية والتحيزات المهمة والحوكمة والشفافية وأكثر من ذلك بكثير. تتطور الذكاء الاصطناعي وفهمنا للدماغ البشري وارتباطه بمنظمة العفو الدولية باستمرار ، مما يدل على تطبيقات واعدة تعمل على تحسين جودة حياتنا في المستقبل القريب. ومع ذلك ، يجب أن نكون حذرين مع التكنولوجيا التي نختار تقديمها.

"لا يمكن للعلم أن يخبرنا بما يجب أن نفعله ، فقط ما يمكننا القيام به."
- جان بول سارتر ، كونه ولا شيء

فيما يلي أوراق البحث الأكثر إثارة للاهتمام لهذا العام ، في حال فاتتك أي منها. باختصار ، يتم تنسيق قائمة من أحدث الاختراقات في AI وعلوم البيانات حسب تاريخ الإصدار مع شرح فيديو واضح ، وربط مقالة أكثر تعمقا ، والرمز (إن أمكن). استمتع بالقراءة!

يتم سرد الإشارة الكاملة إلى كل ورقة في نهاية هذا المستودع. نجم هذا المستودع للبقاء على اطلاع دائم! ️

المشرف: Louffb01

اشترك في النشرة الإخبارية الخاصة بي - أشرح آخر التحديثات في الذكاء الاصطناعي كل أسبوع.

لا تتردد في مراسلتي بأي ورقة مثيرة للاهتمام قد فاتني لإضافتها إلى هذا المستودع.

ضع علامة على twitter @whats_ai أو linkedIn @louis (ما هو AI) Bouchard إذا كنت تشارك القائمة!

شاهد عودة كاملة 2021 في 15 دقيقة

إذا كنت مهتمًا بأبحاث رؤية الكمبيوتر ، فإليك مستودعًا رائعًا آخر لك:

قائمة منسقة من أفضل 10 منشورات CV في عام 2021 مع شرح فيديو واضح ، ارتباط بمقالة أكثر تعمقا ، والرمز.

أفضل 10 أوراق رؤية للكمبيوتر لعام 2021

؟ إذا كنت ترغب في دعم عملي واستخدام W & B (مجانًا) لتتبع تجارب ML الخاصة بك وجعل عملك قابلًا للتكرار أو التعاون مع فريق ، فيمكنك تجربته باتباع هذا الدليل! نظرًا لأن معظم التعليمات البرمجية هنا تعتمد على Pytorch ، فقد اعتقدنا أن دليل QuickStart لاستخدام W&B على Pytorch سيكون أكثر إثارة للاهتمام.

اتبع هذا الدليل السريع ، استخدم نفس خطوط W&B في الكود الخاص بك أو أي من Repos أدناه ، وقم بتتبع جميع تجاربك تلقائيًا في حساب W&B الخاص بك! لا يستغرق الأمر أكثر من 5 دقائق لإعداده وسيغير حياتك كما فعلت بالنسبة لي! إليك دليل أكثر تقدماً لاستخدام عمليات عمليات مسح Hyperparameter إذا كانت مهتمة :)

؟ شكرًا لك على Weirds & Biass لرعايتك هذا المستودع والعمل الذي كنت أقوم به ، وبفضل أي منكم يستخدم هذا الرابط ومحاولة W & B!

القائمة الكاملة

Dall · E: توليد نص إلى صورة صفر من Openai [1]
Vogue: Try-On by Stylegan Enterpolation Optimization [2]
محولات ترويض لتوليف الصور عالي الدقة [3]
التفكير بسرعة وبطيئة في الذكاء الاصطناعي [4]
الكشف التلقائي والقياس الكمي للعفاة الكلية البحرية العائمة في الصور الجوية [5]
شارف: حقول الإشعاع المكيفة من وجهة نظر واحدة [6]
المحولات العدوانية التوليدية [7]
طلبنا الذكاء الاصطناعي لإنشاء ملفات تعريف المواعدة. هل ستسحب أليس كذلك؟ [8]
محول Swin: محول الرؤية الهرمي باستخدام النوافذ المتحولة [9]
تلبي Gans Image عرضًا قابل للتمييز للرسومات العكسية والعرض العصبي ثلاثي الأبعاد القابل للتفسير [10]
الشباك العميقة: ما الذي فعلوه من أجل الرؤية؟ [11]
الطبيعة اللانهائية: العرض الدائم توليد المشاهد الطبيعية من صورة واحدة [12]
يد محمولة ، اليد العصبية العكسية مع السيطرة العميقة القائمة على التعلم [13]
الإخالة الكلية: تعلم إعادة صياغة صور لاستبدال الخلفية [14]
LASR: تعلم إعادة بناء الشكل المفصل من فيديو أحادي [15]
تعزيز تعزيز الواقعية [16]
Defakehop: كاشف DeepFake خفيفة الوزن خفيفة الأداء [17]
ترجمة الصورة الواقعة عالية الدقة في الوقت الفعلي: شبكة ترجمة هرم لابلاسي [18]
Parbershop: تركيب الصور المستند إلى GAN باستخدام أقنعة التجزئة [19]
SextStylebrush: نقل جماليات النص من مثال واحد [20]
صور متحركة مع حقول الحركة الأوليري [21]
CVPR 2021 أفضل جائزة الورق: الزرافة - توليد الصور القابلة للتحكم [22]
Github CoPilot & Codex: تقييم نماذج اللغة الكبيرة المدربة على الكود [23]
Apple: التعرف على الأشخاص في الصور من خلال التعلم الآلي الخاص على الأجهزة [24]
تخليق الصور والتحرير مع المعادلات التفاضلية العشوائية [25]
رسم GAN الخاص بك [26]
أوضحت Autopilot Tesla [27]
Styleclip: معالجة مصور من صور Stylegan [28]
Timelens: استيفاء إطار الفيديو القائم على الأحداث [29]
جيل متنوع من مقطع فيديو واحد أصبح ممكنًا [30]
الهطول الماهر الآن باستخدام نماذج توليدية عميقة للرادار [31]
مشكلة شوكة الكوكتيل: فصل الصوت ثلاثي الجسم للموسيقى التصويرية في العالم الحقيقي [32]
التبني: تقريبي تقريبي نقطة واحدة من نقطة واحدة [33]
(Style) ClipDraw: محتوى اقتران وأسلوب في توليف النص إلى السحب [34]
Swinir: استعادة الصور باستخدام Swin Transformer [35]
Editgan: تحرير الصور الدلالية عالية الدقة [36]
Citynerf: بناء nerf على نطاق المدينة [37]
Clipcap: بادئة مقطع لتسمية التعليق على الصورة [38]
المراجع الورقية

Dall · E: توليد نص إلى صورة صفر من Openai [1]

قام Openai بنجاح بتدريب شبكة قادرة على إنشاء صور من التسميات التوضيحية النصية. إنه مشابه جدًا لـ GPT-3 و Image GPT وينتج نتائج مذهلة.

شرح الفيديو القصير:
قراءة قصيرة: Openai's Dall · E: توليد نص إلى صورة أوضح
الورق: توليد نص إلى صورة إلى صورة صفر
الرمز: رمز ومزيد من المعلومات عن VAE المنفصل المستخدم في Dall · e

Vogue: Try-On by Stylegan Enterpolation Optimization [2]

استخدمت Google بنية stylegan2 المعدلة لإنشاء غرفة ملائمة عبر الإنترنت حيث يمكنك تجربة أي سراويل أو قمصان تريد تلقائيًا فقط باستخدام صورة لنفسك.

شرح الفيديو القصير:
قراءة قصيرة: غرفة التركيب على الإنترنت التي تعمل بنيو آر: Vogue
الورقة: Vogue: Try-On by Stylegan Enterpolation Optimization

محولات ترويض لتوليف الصور عالي الدقة [3]

TL ؛ DR: يجمعون كفاءة GANs والمناهج التلافيفية مع تعبير المحولات لإنتاج طريقة قوية وفعالة من الوقت لتوليف الصور عالي الجودة الموجهة بشكل دلالي.

شرح الفيديو القصير:
قراءة قصيرة: الجمع بين تعبيرية المحولات وكفاءة CNNS لتوليف الصور عالي الدقة
الورق: ترويض محولات لتوليف الصور عالي الدقة
الكود: ترويض محولات

التفكير بسرعة وبطيئة في الذكاء الاصطناعي [4]

استلهم الإلهام من القدرات البشرية نحو أسئلة أكثر عمومية وجديرة بالثقة و 10 أسئلة لمجتمع أبحاث الذكاء الاصطناعي.

شرح الفيديو القصير:
قراءة قصيرة: الموجة الثالثة من الذكاء الاصطناعي | التفكير بسرعة وبطيئة
الورق: التفكير بسرعة وبطيئة في الذكاء الاصطناعي

الكشف التلقائي والقياس الكمي للعفاة الكلية البحرية العائمة في الصور الجوية [5]

Odei Garcia-Garin et al. من جامعة برشلونة طورت خوارزمية عميقة تعتمد على التعلم قادرة على اكتشاف القمامة العائمة وقياسها من الصور الجوية. كما قاموا بتطبيق موجه نحو الويب يسمح للمستخدمين بتحديد هذه القمامة ، المسمى عائم الماكرو البحري العائم ، أو FMML ، داخل صور سطح البحر.

شرح الفيديو القصير:
قراءة قصيرة: برنامج AI قادر على اكتشاف النفايات البلاستيكية وحسابها في المحيط
الورق: الكشف التلقائي وتقدير الكميين العائمة الماكرو البحرية في الصور الجوية: تقديم نهج تعليمي عميق جديد متصل بتطبيق ويب في R ، التلوث البيئي
انقر هنا للحصول على الرمز

شارف: حقول الإشعاع المكيفة من وجهة نظر واحدة [6]

فقط تخيل مدى روعة التقاط صورة لكائن وجعلها ثلاثية الأبعاد لإدراجها في فيلم أو لعبة فيديو تقوم بإنشائها أو في مشهد ثلاثي الأبعاد للحصول على توضيح.

شرح الفيديو القصير:
قراءة قصيرة: Sharf: التقط صورة من كائن واقعية ، وقم بإنشاء نموذج ثلاثي الأبعاد منه
ورقة: شارف: حقول الإشعاع المكيفة من عرض واحد
انقر هنا للحصول على الرمز

المحولات العدوانية التوليدية [7]

إنهم يستفيدون أساسًا من آلية انتباه المحولات في بنية Stylegan2 القوية لجعلها أكثر قوة!

شرح الفيديو القصير:
قراءة قصيرة: Gansformers: توليد المشهد مع محولات الخصومة التوليدية
الورق: محولات عدوانية توليدية
انقر هنا للحصول على الرمز

اشترك في رسالتي الإخبارية الأسبوعية والبقاء على اطلاع مع منشورات جديدة في الذكاء الاصطناعي لعام 2022!

طلبنا الذكاء الاصطناعي لإنشاء ملفات تعريف المواعدة. هل ستسحب أليس كذلك؟ [8]

هل ستمرح على ملف تعريف الذكاء الاصطناعي؟ هل يمكنك التمييز بين الإنسان الفعلي عن الجهاز؟ هذا ما تكشفه هذه الدراسة باستخدام الأشخاص الذين صنعهم منظمة العفو الدولية على تطبيقات المواعدة.

شرح الفيديو القصير:
قراءة قصيرة: هل ستنشر على ملف تعريف الذكاء الاصطناعي؟
ورقة: طلبنا الذكاء الاصطناعي لإنشاء ملفات تعريف المواعدة. هل ستسحب أليس كذلك؟
انقر هنا للحصول على الرمز

محول Swin: محول الرؤية الهرمي باستخدام النوافذ المتحولة [9]

هل سيستبدل المحولات CNNs في رؤية الكمبيوتر؟ في أقل من 5 دقائق ، ستعرف كيف يمكن تطبيق بنية المحولات على رؤية الكمبيوتر مع ورقة جديدة تسمى محول Swin.

شرح الفيديو القصير:
قراءة قصيرة: هل سيحل المحولات محل CNN في رؤية الكمبيوتر؟
الورق: محول Swin: محول الرؤية الهرمي باستخدام النوافذ المحولة
انقر هنا للحصول على الرمز

تلبي Gans Image عرضًا قابل للتمييز للرسومات العكسية والعرض العصبي ثلاثي الأبعاد القابل للتفسير [10]

هذا النموذج الواعد المسمى Ganverse3D يحتاج فقط إلى صورة لإنشاء رقم ثلاثي الأبعاد يمكن تخصيصه ورسوم متحرك!

شرح الفيديو القصير:
قراءة قصيرة: إنشاء نماذج ثلاثية الأبعاد من الصور! Ganverse3d & nvidia omniverse
الورقة: صورة خانس تلبي عرضًا قابل للتمييز للرسومات العكسية والتقديم العصبي ثلاثي الأبعاد القابل للتفسير

الشباك العميقة: ما الذي فعلوه من أجل الرؤية؟ [11]

"سأشارك علانية كل شيء حول شبكات العميق لتطبيقات الرؤية ، ونجاحاتها ، والقيود التي يتعين علينا معالجتها."

شرح الفيديو القصير:
قراءة قصيرة: ما هي حالة الذكاء الاصطناعي في رؤية الكمبيوتر؟
الورق: شباك عميقة: ماذا فعلوا من قبل للرؤية؟

الطبيعة اللانهائية: العرض الدائم توليد المشاهد الطبيعية من صورة واحدة [12]

الخطوة التالية لتوليف العرض: جيل العرض الدائم ، حيث الهدف هو التقاط صورة للطيران فيه واستكشاف المشهد!

شرح الفيديو القصير:
قراءة قصيرة: الطبيعة اللانهائية: تطير إلى صورة واستكشف المشهد الطبيعي
الورق: الطبيعة اللانهائية: عرض دائم للتوليد المشاهد الطبيعية من صورة واحدة
انقر هنا للحصول على الرمز
Colab Demo

يد محمولة ، اليد العصبية العكسية مع السيطرة العميقة القائمة على التعلم [13]

مع هذه الواجهة العصبية التي تعمل بالنيابة ، يمكن لـ AMPTEE التحكم في يد عصبية مع البراعة الشبيهة بالحياة والبناء.

شرح الفيديو القصير:
قراءة قصيرة: ببت مع يد منظمة العفو الدولية! ؟
الورق: يد محمولة ، ويد عصبية قائمة بذاتها مع التحكم العميق في الإصبع التعليمي

الإخالة الكلية: تعلم إعادة صياغة صور لاستبدال الخلفية [14]

ارجع بشكل صحيح أي صورة بناءً على إضاءة الخلفية الجديدة التي تضيفها. هل أردت يومًا تغيير خلفية الصورة ولكن هل تبدو واقعية؟ إذا كنت قد جربت ذلك بالفعل ، فأنت تعلم بالفعل أنه ليس بسيطًا. لا يمكنك التقاط صورة لنفسك في منزلك وتغيير الخلفية للشاطئ. يبدو الأمر سيئًا وليست واقعية. أي شخص سيقول فقط "هذا هو photoshopped" في ثانية. بالنسبة للأفلام ومقاطع الفيديو المهنية ، تحتاج إلى إضاءة وفنانين مثاليين لإعادة إنتاج صورة عالية الجودة ، وهذا مكلف للغاية. لا توجد طريقة يمكنك القيام بذلك مع صورك الخاصة. أم يمكنك؟

شرح الفيديو القصير:
قراءة قصيرة: إضاءة واقعية على خلفيات مختلفة
الورقة: الإخالة الكلية: تعلم إعادة صياغة صور لاستبدال الخلفية

LASR: تعلم إعادة بناء الشكل المفصل من فيديو أحادي [15]

قم بإنشاء نماذج ثلاثية الأبعاد من البشر أو الحيوانات التي تنتقل من مقطع فيديو قصير فقط كمدخلات. هذه طريقة جديدة لتوليد نماذج ثلاثية الأبعاد من البشر أو الحيوانات التي تنتقل من مقطع فيديو قصير فقط كمدخلات. في الواقع ، إنه في الواقع يدرك أن هذا شكل غريب ، أنه يمكن أن يتحرك ، ولكن لا يزال يحتاج إلى البقاء مرتبطًا لأن هذا لا يزال "كائنًا" واحد وليس فقط العديد من الأشياء معًا ...

شرح الفيديو القصير:
قراءة قصيرة: إعادة إعمار ثلاثية الأبعاد من مقاطع الفيديو
الورق: LASR: التعلم التعلم إعادة بناء الشكل من فيديو أحادي
انقر هنا للحصول على الرمز

تعزيز تعزيز الواقعية [16]

يمكن تطبيق AI على الهواء مباشرة على لعبة الفيديو وتحويل كل إطار لتبدو أكثر طبيعية. نشر الباحثون من Intel Labs للتو هذه الورقة التي تسمى تعزيز تعزيز الواقعية. وإذا كنت تعتقد أن هذا قد يكون "مجرد GAN آخر" ، مع التقاط صورة لألعاب الفيديو كمدخلات وتغييرها بعد أسلوب العالم الطبيعي ، اسمحوا لي أن أغير رأيك. لقد عملوا على هذا النموذج لمدة عامين لجعله قويًا للغاية. يمكن تطبيقه على الهواء مباشرة على لعبة الفيديو وتحويل كل إطار لتبدو أكثر طبيعية. فقط تخيل الإمكانيات التي يمكنك من خلالها بذل جهد أقل بكثير في رسم اللعبة ، وجعلها مستقرة وكاملة للغاية ، ثم تحسين النمط باستخدام هذا النموذج ...

شرح الفيديو القصير:
قراءة قصيرة: هل منظمة العفو الدولية هي مستقبل تصميم ألعاب الفيديو؟ تعزيز تعزيز الواقعية
الورقة: تعزيز تعزيز الواقعية
انقر هنا للحصول على الرمز

Defakehop: كاشف DeepFake خفيفة الوزن خفيفة الأداء [17]

كيفية اكتشاف مزيف عميق في عام 2021.

على الرغم من أنهم يبدو أنهم كانوا دائمًا هناك ، إلا أن أول ديفيك واقعية للغاية لم يظهر حتى عام 2017. لقد انتقلت من أول صور تشبه على الإطلاق تم إنشاؤها تلقائيًا إلى نسخة متطابقة اليوم من شخص ما على مقاطع الفيديو ، مع الصوت.

والحقيقة هي أننا لا نستطيع رؤية الفرق بين مقطع فيديو أو صورة حقيقية و DeepFake بعد الآن. كيف يمكننا معرفة ما هو حقيقي من ما هو غير ذلك؟ كيف يمكن استخدام ملفات الصوت أو ملفات الفيديو في المحكمة كدليل إذا كان بإمكان AI إنشاءها بالكامل؟ حسنًا ، قد توفر هذه الورقة الجديدة إجابات لهذه الأسئلة. والجواب هنا قد يكون مرة أخرى استخدام الذكاء الاصطناعي. القول "سأصدق ذلك عندما أراه" قد يتغير قريبًا من أجل "سأصدق ذلك عندما يخبرني الذكاء الاصطناعى أن أصدق ذلك ..."

شرح الفيديو القصير:
قراءة قصيرة: كيفية اكتشاف مزيف عميق. اختراق تكنولوجيا الجيش الأمريكي (2021)
ورقة: DefakeHop: كاشف DeepFake عالي الأداء خفيف الوزن

ترجمة الصورة الواقعة عالية الدقة في الوقت الفعلي: شبكة ترجمة هرم لابلاسي [18]

ضع أي نمط على صورتك 4K في الوقت الفعلي باستخدام هذا النهج الجديد القائم على التعلم!

شرح الفيديو القصير:
قراءة قصيرة: ترجمة صورة واقعية عالية الدقة في الوقت الفعلي
الورقة: ترجمة الصورة الواقعة واقعية عالية الدقة في الوقت الفعلي: شبكة ترجمة هرم لابلاسيان
انقر هنا للحصول على الرمز

Parbershop: تركيب الصور المستند إلى GAN باستخدام أقنعة التجزئة [19]

هذه المقالة لا تتعلق بتقنية جديدة في حد ذاتها. بدلاً من ذلك ، يتعلق الأمر بتطبيق جديد ومثير لـ Gans. في الواقع ، رأيت العنوان ، ولم يكن Clickbait. يمكن لهذا الذكاء الاصطناعي نقل شعرك لترى كيف سيبدو قبل الالتزام بالتغيير ...

شرح الفيديو القصير:
قراءة قصيرة: الحلاقة: جرب قصات الشعر وألوان الشعر المختلفة من الصور (Gans)
الورق: الحلاقة: تركيب الصور المستندة إلى GAN باستخدام أقنعة التجزئة
انقر هنا للحصول على الرمز

SextStylebrush: نقل جماليات النص من مثال واحد [20]

يمكن أن يترجم نموذج Facebook AI الجديد أو تحرير النص مباشرة في الصورة بلغتك الخاصة ، باتباع نفس النمط!

تخيل أنك في إجازة في بلد آخر لا تتحدث فيه اللغة. تريد تجربة مطعم محلي ، لكن قائمتهم في اللغة التي لا تتحدثها. أعتقد أن هذا لن يكون من الصعب للغاية تخيله لأن معظمنا واجه بالفعل هذا الموقف سواء رأيت عناصر القائمة أو الاتجاهات ولا يمكنك فهم ما هو مكتوب. حسنًا ، في عام 2020 ، ستخرج هاتفك وترجمة جوجل ما تراه. في عام 2021 ، لا تحتاج حتى إلى فتح ترجمة Google بعد الآن ومحاولة كتابة ما تراه واحدًا تلو الآخر لترجمته. بدلاً من ذلك ، يمكنك ببساطة استخدام هذا النموذج الجديد بواسطة Facebook AI لترجمة كل نص في الصورة بلغتك الخاصة ...

شرح الفيديو القصير:
قراءة قصيرة: ترجمة أو تحرير النص من الصور المحاكاة النمط: TextStylebrush
الورق: TextStylebrush: نقل جماليات النص من مثال واحد
انقر هنا للحصول على الرمز

إذا كنت ترغب في قراءة المزيد من الأوراق البحثية أيضًا ، فإنني أوصيك بقراءة مقالتي حيث أشارك أفضل نصائحي لإيجاد وقراءة المزيد من الأوراق البحثية.

صور متحركة مع حقول الحركة الأوليري [21]

يلتقط هذا النموذج صورة ، ويفهم الجسيمات التي من المفترض أن تتحرك ، وتنقلها بشكل واقعي في حلقة لا حصر لها مع الحفاظ على بقية الصورة لا تزال إنشاء مقاطع فيديو مدهشة مثل هذه ...

شرح الفيديو القصير:
قراءة قصيرة: قم بإنشاء مقاطع فيديو واقعية للرسوم المتحركة من الصور
الورق: صور متحركة مع حقول الحركة الأوليرية
انقر هنا للحصول على الرمز

CVPR 2021 أفضل جائزة الورق: الزرافة - توليد الصور القابلة للتحكم [22]

باستخدام بنية GAN المعدلة ، يمكنهم نقل الكائنات في الصورة دون التأثير على الخلفية أو الكائنات الأخرى!

شرح الفيديو القصير:
قراءة قصيرة: CVPR 2021 أفضل جائزة الورق: Giraffe - توليد الصور يمكن التحكم فيه
الورق: الزرافة: تمثيل المشاهد كمجالات للميزات العصبية التوليفية التركيبية
انقر هنا للحصول على الرمز

Github CoPilot & Codex: تقييم نماذج اللغة الكبيرة المدربة على الكود [23]

اكتشف كيف يقوم هذا النموذج الجديد من Openai بإنشاء رمز من الكلمات!

شرح الفيديو القصير:
قراءة قصيرة: مولد الرمز الجديد من Openai: Github Copilot (و Codex)
الورقة: تقييم نماذج اللغة الكبيرة المدربة على الكود
انقر هنا للحصول على الرمز

Apple: التعرف على الأشخاص في الصور من خلال التعلم الآلي الخاص على الأجهزة [24]

باستخدام خوارزميات متعددة تعتمد على التعلم الآلي تعمل بشكل خاص على جهازك ، تتيح لك Apple تنظيم الصور ومقاطع الفيديو الخاصة بك على iOS 15.

شرح الفيديو القصير:
قراءة قصيرة: كيف تتعرف صور Apple على الأشخاص في صور خاصة باستخدام التعلم الآلي
ورقة: التعرف على الأشخاص في الصور من خلال التعلم الآلي الخاص على الجهاز

تخليق الصور والتحرير مع المعادلات التفاضلية العشوائية [25]

قل وداعا للبنية المعقدة GAN و Transformer لتوليد الصور! هذه الطريقة الجديدة من قبل Chenling Meng et al. من جامعة ستانفورد وجامعة كارنيجي ميلون يمكنها إنشاء صور جديدة من أي مدخلات قائمة على المستخدم. حتى أشخاص مثلي مع مهارات فنية صفرية يمكنهم الآن توليد صور أو تعديلات جميلة من الرسومات السريعة ...

شرح الفيديو القصير:
قراءة قصيرة: تخليق الصور والتحرير من الرسومات: sdedit. لا مزيد من التدريب مملة مطلوبة!
الورق: تخليق الصور والتحرير مع المعادلات التفاضلية العشوائية
انقر هنا للحصول على الرمز
Colab Demo

رسم GAN الخاص بك [26]

اجعل تدريب Gans أسهل للجميع عن طريق إنشاء صور بعد رسم! في الواقع ، هذه الطريقة الجديدة ، يمكنك التحكم في مخرجات GAN الخاصة بك استنادًا إلى أبسط أنواع المعرفة التي يمكن أن توفرها: رسومات مرسومة باليد.

شرح الفيديو القصير:
قراءة قصيرة: اجعل تدريب Gans أسهل للجميع: إنشاء صور بعد رسم
الورق: رسم يا جان خاص بك
انقر هنا للحصول على الرمز

أوضحت Autopilot Tesla [27]

إذا كنت تتساءل كيف لا يمكن لسيارة تسلا رؤيتها فحسب ، بل تنقل الطرق مع المركبات الأخرى ، فهذا هو الفيديو الذي كنت تنتظره. قبل يومين كان أول يوم تسلا AI حيث قدم Andrej Karpathy ، مدير الذكاء الاصطناعي في Tesla ، وغيرهم كيف يعمل Autopilot Tesla من الحصول على الصور من خلال كاميراتهم الثمانية إلى عملية الملاحة على الطرق.

شرح الفيديو القصير:
قراءة قصيرة: أوضح تشيلا أوفيلوت

Styleclip: معالجة مصور من صور Stylegan [28]

يمكن أن تقوم الذكاء الاصطناعي بإنشاء صور ، إذن ، باستخدام الكثير من القوة والتجربة والخطأ ، يمكن للباحثين التحكم في النتائج بعد أنماط محددة. الآن ، مع هذا النموذج الجديد ، يمكنك القيام بذلك باستخدام النص فقط!

شرح الفيديو القصير:
قراءة قصيرة: معالجة الصور الحقيقية مع النص - منظمة العفو الدولية للفنانين المبدعين! أوضح Styleclip
الورق: Styleclip: معالجة نصية من صور stylegan.
انقر هنا للحصول على الرمز
Colab Demo

Timelens: استيفاء إطار الفيديو القائم على الأحداث [29]

يمكن أن يفهم Timelens حركة الجسيمات بين إطارات مقطع فيديو لإعادة بناء ما حدث بالفعل بسرعة حتى لا يمكن أن تراه أعيننا. في الواقع ، يحقق نتائج يمكن أن تصل إليها هواتفنا الذكية وأي نماذج أخرى من قبل!

شرح الفيديو القصير:
قراءة قصيرة: كيفية صنع مقاطع فيديو حركة بطيئة مع الذكاء الاصطناعي!
الورق: Timelens: استيفاء إطار الفيديو القائم على الأحداث
انقر هنا للحصول على الرمز

اشترك في رسالتي الإخبارية الأسبوعية والبقاء على اطلاع مع منشورات جديدة في الذكاء الاصطناعي لعام 2022!

جيل متنوع من مقطع فيديو واحد أصبح ممكنًا [30]

هل أردت يومًا تحرير مقطع فيديو؟

قم بإزالة أو إضافة شخص ما ، أو قم بتغيير الخلفية ، أو اجعله يستمر لفترة أطول قليلاً ، أو قم بتغيير الدقة لتناسب نسبة العرض إلى الارتفاع المحددة دون ضغط أو تمديدها. بالنسبة لأولئك منكم الذين قاموا بالفعل بتشغيل حملات الإعلان ، أردت بالتأكيد أن يكون لديك اختلافات في مقاطع الفيديو الخاصة بك لاختبار AB ومعرفة ما هو أفضل. حسنًا ، هذا البحث الجديد الذي أجراه Niv Haim et al. يمكن أن تساعدك على القيام بكل هذه الفيديو من مقطع فيديو واحد وفي HD!

في الواقع ، باستخدام مقطع فيديو بسيط ، يمكنك تنفيذ أي مهام ذكرتها للتو في ثوانٍ أو بضع دقائق لمقاطع الفيديو عالية الجودة. يمكنك استخدامه بشكل أساسي لأي معالجة فيديو أو تطبيق توليد الفيديو الذي تفكر فيه. حتى أنه يتفوق على Gans بجميع الطرق ولا يستخدم أي أبحاث خيالية للتعلم العميق ولا تتطلب مجموعة بيانات ضخمة وغير عملية! وأفضل شيء هو أن هذه التقنية قابلة للتطوير لمقاطع الفيديو عالية الدقة.

شرح الفيديو القصير:
قراءة قصيرة: إنشاء اختلافات الفيديو - لا توجد مجموعة بيانات أو التعلم العميق المطلوب!
الورقة: جيل متنوع من مقطع فيديو واحد أصبح ممكنًا
انقر هنا للحصول على الرمز

الهطول الماهر الآن باستخدام نماذج توليدية عميقة للرادار [31]

أصدرت DeepMind للتو نموذجًا توليديًا قادرًا على التفوق على أساليب Nowcasting المستخدمة على نطاق واسع في 89 ٪ من المواقف لدقتها وفائدتها التي تم تقييمها من قبل أكثر من 50 خبيرًا في الأرصاد الجوية! يركز نموذجهم على التنبؤ بالتوسعات في الساعتين القادمة ويحقق ذلك بشكل مدهش بشكل مدهش. إنه نموذج توليدي ، مما يعني أنه سيولد التوقعات بدلاً من مجرد التنبؤ بها. يأخذ بشكل أساسي بيانات الرادار من الماضي لإنشاء بيانات رادار مستقبلية. لذا باستخدام كل من الوقت والمكونات المكانية من الماضي ، يمكنهم توليد ما سيبدو عليه في المستقبل القريب.

يمكنك أن ترى هذا مثل المرشحات Snapchat ، وأخذ وجهك وتوليد وجه جديد مع تعديلات عليه. لتدريب مثل هذا النموذج التوليدي ، تحتاج إلى مجموعة من البيانات من كل من الوجوه البشرية ونوع الوجه الذي تريد توليده. بعد ذلك ، باستخدام نموذج مشابه جدًا مدرب لعدة ساعات ، سيكون لديك نموذج توليدي قوي. يستخدم هذا النوع من النماذج في كثير من الأحيان بنية Gans لأغراض التدريب ثم يستخدم نموذج المولد بشكل مستقل.

شرح الفيديو القصير:
قراءة قصيرة: يستخدم DeepMind AI للتنبؤ بتوقعات الطقس أكثر دقة
الورق: هطول الأمطار الماهر الآن باستخدام نماذج توليدية عميقة للرادار
انقر هنا للحصول على الرمز

مشكلة شوكة الكوكتيل: فصل الصوت ثلاثي الجسم للموسيقى التصويرية في العالم الحقيقي [32]

هل سبق لك أن قمت بضبط مقطع فيديو أو برنامج تلفزيوني وكان الممثلون غير مسموعون تمامًا ، أو كانت الموسيقى عالية جدًا؟ حسنًا ، هذه المشكلة ، التي تسمى أيضًا مشكلة حفلة الكوكتيل ، قد لا تحدث مرة أخرى. نشرت Mitsubishi و Indiana University للتو نموذجًا جديدًا بالإضافة إلى مجموعة بيانات جديدة تعالج هذه المهمة المتمثلة في تحديد الموسيقى التصويرية المناسبة. على سبيل المثال ، إذا أخذنا نفس مقطع الصوت ، فقد ركضنا للتو مع Music Way بصوت عالٍ للغاية ، فيمكنك ببساطة زيادة أو أسفل مسار الصوت الذي تريد إعطاء أهمية أكبر للكلام أكثر من الموسيقى.

تكمن المشكلة هنا في عزل أي مصدر صوت مستقل من مشهد صوتي معقد مثل مشهد فيلم أو مقطع فيديو على YouTube حيث لا تكون بعض الأصوات متوازنة جيدًا. في بعض الأحيان ، لا يمكنك ببساطة سماع بعض الممثلين بسبب تشغيل الموسيقى أو الانفجارات أو الأصوات المحيطة الأخرى في الخلفية. حسنًا ، إذا نجحت في عزل الفئات المختلفة في الموسيقى التصويرية ، فهذا يعني أنه يمكنك أيضًا رفع أو أسفل واحد منها ، مثل رفض الموسيقى قليلاً لسماع جميع الممثلين الآخرين بشكل صحيح. هذا هو بالضبط ما حققه الباحثون.

شرح الفيديو القصير:
قراءة قصيرة: عزل الصوت والموسيقى والمؤثرات الصوتية مع الذكاء الاصطناعي
الورق: مشكلة شوكة الكوكتيل: فصل الصوت ثلاثي الجسم للموسيقى التصويرية في العالم الحقيقي
انقر هنا للحصول على الرمز

التبني: تقريبي تقريبي نقطة واحدة من نقطة واحدة [33]

تخيل أنك تريد إنشاء طراز ثلاثي الأبعاد أو ببساطة مقطع فيديو سائل من مجموعة من الصور التي التقطتها. حسنًا ، أصبح هذا ممكنًا الآن! لا أريد أن أعطي الكثير ، لكن النتائج ببساطة مذهلة وتحتاج إلى التحقق من ذلك بنفسك!

شرح الفيديو القصير:
قراءة قصيرة: AI تجمع مقاطع فيديو سلسة من بضع صور!
الورقة: تبني: تقريبي تقريبي واحد من نقطة واحدة من نقطة بكسل
انقر هنا للحصول على الرمز

(Style) ClipDraw: محتوى اقتران وأسلوب في توليف النص إلى السحب [34]

هل سبق لك أن حلمت بأسلوب صورة ، مثل أسلوب الرسم الرائع هذا على اليسار ، وتطبيقه على صورة جديدة من اختيارك؟ حسنًا ، لقد فعلت ذلك ، ولم يكن من السهل القيام به. في الواقع ، يمكنك حتى تحقيق ذلك من النص فقط ويمكنك تجربته الآن باستخدام هذه الطريقة الجديدة ومكتب Notebook Google Colab المتاح للجميع (انظر المراجع). ما عليك سوى التقاط صورة للنمط الذي تريد نسخه ، وإدخال النص الذي تريد إنشاؤه ، وستقوم هذه الخوارزمية بإنشاء صورة جديدة منه! مجرد إلقاء نظرة على النتائج أعلاه ، مثل هذه الخطوة الكبيرة إلى الأمام! النتائج مثيرة للإعجاب للغاية ، خاصة إذا كنت تفكر في أنها مصنوعة من خط واحد من النص!

شرح الفيديو القصير:
قراءة قصيرة: توليف النص إلى السحب مع التحكم الفني | ClipDraw & Styleclipdraw
ورقة (ClipDraw): ClipDraw: استكشاف توليف النص إلى السحب من خلال ترميزات صورة اللغة
ورقة (styleclipdraw): styleclipdraw: محتوى اقتران وأسلوب في توليف النص إلى السحب
Clipdraw Colab Demo
Styleclipdraw Colab Demo

Swinir: استعادة الصور باستخدام Swin Transformer [35]

هل سبق لك أن حصلت على صورة أعجبك حقًا ويمكنك فقط العثور على نسخة صغيرة منها تبدو وكأنها هذه الصورة أدناه على اليسار؟ ما مدى روعة إذا تمكنت من التقاط هذه الصورة وجعلها تبدو جيدة مرتين؟ إنه لأمر رائع ، لكن ماذا لو استطعت أن تجعلها حتى أربع أو ثماني مرات أكثر عالية؟ الآن نحن نتحدث ، فقط انظر إلى ذلك.

قمنا هنا بتحسين دقة الصورة بعامل أربعة ، مما يعني أن لدينا أربع مرات أكثر من الطول وعرض البكسل لمزيد من التفاصيل ، مما يجعلها تبدو أكثر سلاسة. أفضل شيء هو أن هذا يتم في غضون بضع ثوانٍ ، تلقائيًا تمامًا ، ويعمل مع أي صورة إلى حد كبير. أوه ، ويمكنك حتى استخدامه بنفسك مع عرض تجريبي أتاحوا ...

شرح الفيديو القصير:
قراءة قصيرة: Swinir: استعادة الصور باستخدام محول Swin
الورق: سويرين: استعادة الصور باستخدام محول SWIN
انقر هنا للحصول على الرمز
العرض التوضيحي

Editgan: تحرير الصور الدلالية عالية الدقة [36]

التحكم في أي ميزة من مسودات سريعة ، وسوف تقوم فقط بتحرير ما تريد الحفاظ على بقية الصورة كما هو! تحرير صور SOTA من نموذج الرسومات على أساس GANS من NVIDIA و MIT و UOFT.

شرح الفيديو القصير:
قراءة قصيرة: nvidia editgan: تحرير الصور مع التحكم الكامل من الرسومات
الورقة: Editgan: تحرير الصور الدلالية عالية الدقة
انقر هنا للحصول على الرمز (سيتم إصداره قريبًا)

Citynerf: بناء nerf على نطاق المدينة [37]

يسمى النموذج Citynerf وينمو من NERF ، والتي سبق أن غطتها على قناتي. NERF هي واحدة من النماذج الأولى التي تستخدم حقول الإشعاع والتعلم الآلي لبناء نماذج ثلاثية الأبعاد من الصور. لكن NERF ليس فعالًا ويعمل على نطاق واحد. هنا ، يتم تطبيق Citynerf على الصور الأقمار الصناعية والمستوى الأرضي في نفس الوقت لإنتاج موازين نموذج ثلاثية الأبعاد مختلفة لأي وجهة نظر. بكلمات بسيطة ، فإنها تجلب nerf إلى نطاق المدينة. لكن كيف؟

شرح الفيديو القصير:
قراءة قصيرة: Citynerf: النمذجة ثلاثية الأبعاد على نطاق المدينة!
الورق: Citynerf: بناء nerf على نطاق المدينة
انقر هنا للحصول على الرمز (سيتم إصداره قريبًا)

Clipcap: بادئة مقطع لتسمية التعليق على الصورة [38]

لقد رأينا الذكاء الاصطناعي يولد صورًا من صور أخرى باستخدام Gans. ثم ، كانت هناك نماذج قادرة على إنشاء صور مشكوك فيها باستخدام النص. في أوائل عام 2021 ، تم نشر Dall-E ، متغلبًا على جميع المحاولات السابقة لإنشاء صور من إدخال نص باستخدام Clip ، وهو نموذج يربط الصور بنص كدليل. قد تبدو مهمة مشابهة جدًا تسمى تسميات التسمية التوضيحية للصورة بسيطة للغاية ولكنها ، في الواقع ، تمامًا مثل المعقدة. إنها قدرة الجهاز على توليد وصف طبيعي للصورة. من السهل ببساطة وضع علامة على الكائنات التي تراها في الصورة ، لكن من الصعب تمامًا فهم ما يحدث في صورة ثنائية الأبعاد واحدة ، وهذا النموذج الجديد يفعل ذلك بشكل جيد للغاية ...

شرح الفيديو القصير:
قراءة قصيرة: تسميات توضيحية جديدة لـ SOTA: ClipCap
الورق: clipcap: بادئة مقطع لتسمية الصورة
انقر هنا للحصول على الرمز
انقر هنا للحصول على عرض كولاب

إذا كنت ترغب في قراءة المزيد من الأوراق ولديك عرض أوسع ، فإليك مستودعًا رائعًا آخر لك يغطي 2020: 2020: عام مليء بأوراق الذكاء الاصطناع -مع منشورات جديدة في الذكاء الاصطناعي لعام 2022!

ضع علامة على twitter @whats_ai أو linkedIn @louis (ما هو AI) Bouchard إذا كنت تشارك القائمة!

المراجع الورقية

[1] A. Ramesh et al. ، Zero-Shot Text-to-image Generation ، 2021. Arxiv: 2102.12092

[2] لويس ، كاثلين م.

[3] ترويض محولات لتوليف الصور عالي الدقة ، Esser et al. ، 2020.

[4] التفكير بسرعة وبطيئة في AI ، Booch et al. ، (2020) ، https://arxiv.org/abs/2010.06002.

[5] Odei Garcia-Garin et al. 10.1016/j.envpol.2021.116490.

[6] Rematas ، K. ، Martin-Brualla ، R. ، and Ferrari ، V.

[7] Drew A. Hudson and C. Lawrence Zitnick ، Transferal Transversarial ، (2021)

[8] ساندرا براينت وآخرون ، "لقد طلبنا الذكاء الاصطناعي لإنشاء ملفات تعريف مواعدة. هل ستمرر اليمين؟ "، (2021) ، مدونة Unsw Sydney.

[9] Liu ، Z. et al. ، 2021 ، "محول Swin: محول الرؤية الهرمي باستخدام Windows المتحولة" ، Arxiv preprint https://arxiv.org/abs/2103.14030v1

[10] Zhang ، Y. ، Chen ، W. ، Ling ، H. ، Gao ، J. ، Zhang ، Y. ، Torralba ، A. and Fidler ، S. ، 2020. التقديم العصبي ثلاثي الأبعاد. Arxiv preprint Arxiv: 2010.09125.

[11] يويل ، آل ، وليو ، سي ، 2021 International Journal of Computer Vision, 129(3), pp.781–802, https://arxiv.org/abs/1805.04025.

[12] Liu, A., Tucker, R., Jampani, V., Makadia, A., Snavely, N. and Kanazawa, A., 2020. Infinite Nature: Perpetual View Generation of Natural Scenes from a Single Image, https://arxiv.org/pdf/2012.09855.pdf

[13] Nguyen & Drealan et al. (2021) A Portable, Self-Contained Neuroprosthetic Hand with Deep Learning-Based Finger Control: https://arxiv.org/abs/2103.13452

[14] Pandey et al., 2021, Total Relighting: Learning to Relight Portraits for Background Replacement, doi: 10.1145/3450626.3459872, https://augmentedperception.github.io/total_relighting/total_relighting_paper.pdf.

[15] Gengshan Yang et al., (2021), LASR: Learning Articulated Shape Reconstruction from a Monocular Video, CVPR, https://lasr-google.github.io/.

[16] Richter, Abu AlHaija, Koltun, (2021), "Enhancing Photorealism Enhancement", https://intel-isl.github.io/PhotorealismEnhancement/.

[17] DeepFakeHop: Chen, Hong-Shuo, et al., (2021), “DefakeHop: A Light-Weight High-Performance Deepfake Detector.” ArXiv abs/2103.06929.

[18] Liang, Jie and Zeng, Hui and Zhang, Lei, (2021), "High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network", https://export.arxiv.org/pdf/2105.09188.pdf.

[19] Peihao Zhu et al., (2021), Barbershop, https://arxiv.org/pdf/2106.01505.pdf.

[20] Praveen Krishnan, Rama Kovvuri, Guan Pang, Boris Vassilev, and Tal Hassner, Facebook AI, (2021), ”TextStyleBrush: Transfer of text aesthetics from a single example”.

[21] Holynski, Aleksander, et al. “Animating Pictures with Eulerian Motion Fields.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.

[22] Michael Niemeyer and Andreas Geiger, (2021), "GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields", Published in CVPR 2021.

[23] Chen, M., Tworek, J., Jun, H., Yuan, Q., Pinto, HPDO, Kaplan, J., Edwards, H., Burda, Y., Joseph, N., Brockman, G. and Ray, A., 2021. Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374.

[24] Apple, “Recognizing People in Photos Through Private On-Device Machine Learning”, (2021), https://machinelearning.apple.com/research/recognizing-people-photos

[25] Meng, C., Song, Y., Song, J., Wu, J., Zhu, JY and Ermon, S., 2021. Sdedit: Image synthesis and editing with stochastic differential equations. arXiv preprint arXiv:2108.01073.

[26] Wang, SY, Bau, D. and Zhu, JY, 2021. Sketch Your Own GAN. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 14050-14060).

[27] “Tesla AI Day”, Tesla, August 19th 2021, https://youtu.be/j0z4FweCy4M

[28] Patashnik, Or, et al., (2021), “Styleclip: Text-driven manipulation of StyleGAN imagery.”, https://arxiv.org/abs/2103.17249

[29] Stepan Tulyakov*, Daniel Gehrig*, Stamatios Georgoulis, Julius Erbach, Mathias Gehrig, Yuanyou Li, Davide Scaramuzza, TimeLens: Event-based Video Frame Interpolation, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, 2021 و http://rpg.ifi.uzh.ch/docs/CVPR21_Gehrig.pdf

[30] Haim, N., Feinstein, B., Granot, N., Shocher, A., Bagon, S., Dekel, T., & Irani, M. (2021). Diverse Generation from a Single Video Made Possible, https://arxiv.org/abs/2109.08591.

[31] Ravuri, S., Lenc, K., Willson, M., Kangin, D., Lam, R., Mirowski, P., Fitzsimons, M., Athanassiadou, M., Kashem, S., Madge, S. and Prudden, R., 2021. Skillful Precipitation Nowcasting using Deep Generative Models of Radar, https://www.nature.com/articles/s41586-021-03854-z

[32] Petermann, D., Wichern, G., Wang, Z., & Roux, JL (2021). The Cocktail Fork Problem: Three-Stem Audio Separation for Real-World Soundtracks. https://arxiv.org/pdf/2110.09958.pdf.

[33] Rückert, D., Franke, L. and Stamminger, M., 2021. ADOP: Approximate Differentiable One-Pixel Point Rendering, https://arxiv.org/pdf/2110.06635.pdf.

[34] a) CLIPDraw: exploring text-to-drawing synthesis through language-image encoders
b) StyleCLIPDraw: Schaldenbrand, P., Liu, Z. and Oh, J., 2021. StyleCLIPDraw: Coupling Content and Style in Text-to-Drawing Synthesis.

[35] Liang, J., Cao, J., Sun, G., Zhang, K., Van Gool, L. and Timofte, R., 2021. SwinIR: Image restoration using swin transformer. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 1833–1844).

[36] Ling, H., Kreis, K., Li, D., Kim, SW, Torralba, A. and Fidler, S., 2021, May. EditGAN: High-Precision Semantic Image Editing. In Thirty-Fifth Conference on Neural Information Processing Systems.

[37] Xiangli, Y., Xu, L., Pan, X., Zhao, N., Rao, A., Theobalt, C., Dai, B. and Lin, D., 2021. CityNeRF: Building NeRF at City Scale.

[38] Mokady, R., Hertz, A. and Bermano, AH, 2021. ClipCap: CLIP Prefix for Image Captioning. https://arxiv.org/abs/2111.09734

يوسع