حتى مع كل ما حدث في العالم هذا العام، لا تزال لدينا الفرصة لرؤية الكثير من الأبحاث المذهلة. وخاصة في مجال الذكاء الاصطناعي وبشكل أدق الرؤية الحاسوبية. علاوة على ذلك، تم تسليط الضوء على العديد من الجوانب المهمة هذا العام، مثل الجوانب الأخلاقية والتحيزات المهمة وغير ذلك الكثير. الذكاء الاصطناعي وفهمنا للدماغ البشري وارتباطه بالذكاء الاصطناعي يتطور باستمرار، وتظهر تطبيقات واعدة في المستقبل القريب، والتي سأغطيها بالتأكيد.
فيما يلي أهم 10 أوراق بحثية مثيرة للاهتمام لهذا العام في مجال رؤية الكمبيوتر، في حالة فاتتك أي منها. باختصار، إنها في الأساس قائمة منسقة بأحدث الإنجازات في مجال الذكاء الاصطناعي والسيرة الذاتية مع شرح فيديو واضح، ورابط لمقالة أكثر تعمقًا، وكود (إن أمكن). استمتع بالقراءة، وأخبرني إذا فاتني أي أوراق مهمة في التعليقات، أو من خلال التواصل معي مباشرة على LinkedIn!
يتم إدراج المرجع الكامل لكل ورقة في نهاية هذا المستودع.
مشرف - louisfb01
لا تتردد في مراسلتي بأي أوراق رائعة فاتني إضافتها إلى هذا المستودع على [email protected]
ضع علامة علي على TwitterWhats_AI أو LinkedIn @Louis (What's AI) Bouchard إذا شاركت القائمة!
قائمة منسقة بأحدث الإنجازات في مجال الذكاء الاصطناعي حسب تاريخ الإصدار مع شرح فيديو واضح، ورابط لمقالة أكثر تفصيلاً، والتعليمة البرمجية.
2020: عام مليء بأبحاث الذكاء الاصطناعي المذهلة – مراجعة
هل سبق لك أن تساءلت كيف سيبدو المحيط بدون ماء؟ قم بإزالة هذا اللون الأزرق والأخضر من الصور تحت الماء، وستظل تتمتع بالألوان الحقيقية للشعاب المرجانية؟ حسنًا، باستخدام الرؤية الحاسوبية وخوارزميات التعلم الآلي، تمكن باحثون من جامعة حيفا من تحقيق ذلك بالضبط!
نجح باحثون من IST Austria وMIT في تدريب سيارة ذاتية القيادة باستخدام نظام ذكاء اصطناعي جديد يعتمد على أدمغة الحيوانات الصغيرة، مثل الديدان الخيطية. لقد حققوا ذلك من خلال عدد قليل من الخلايا العصبية القادرة على التحكم في السيارة ذاتية القيادة، مقارنة بملايين الخلايا العصبية التي تحتاجها الشبكات العصبية العميقة الشائعة مثل Inceptions، أو Resnets، أو VGG. تمكنت شبكتهم من التحكم الكامل في السيارة باستخدام 75000 معلمة فقط، تتألف من 19 خلية تحكم عصبية، بدلاً من الملايين!
هذه الطريقة الجديدة قادرة على توليد مشهد كامل ثلاثي الأبعاد ولديها القدرة على تحديد إضاءة المشهد. كل هذا بتكاليف حسابية محدودة للغاية ونتائج مذهلة مقارنة بالطرق السابقة.
تم تقديم هذا الإصدار الرابع مؤخرًا في أبريل 2020 بواسطة Alexey Bochkovsky et al. في الورقة "YOLOv4: السرعة والدقة المثلى لاكتشاف الأشياء". كان الهدف الرئيسي من هذه الخوارزمية هو إنشاء جهاز كشف الأشياء بسرعة فائقة وبجودة عالية من حيث الدقة.
تعمل هذه الخوارزمية الجديدة على تحويل الصورة الباهتة إلى صورة عالية الدقة! يمكنه التقاط صورة فائقة الدقة مقاس 16 × 16 وتحويلها إلى وجه بشري عالي الوضوح بدقة 1080 بكسل! أنت لا تصدقني؟ ثم يمكنك أن تفعل مثلي وتجربته بنفسك في أقل من دقيقة! لكن أولاً، دعونا نرى كيف فعلوا ذلك.
يمكن لذكاء اصطناعي جيد، مثل ذلك المستخدم في Gmail، إنشاء نص متماسك وإنهاء عبارتك. يستخدم هذا نفس المبادئ لإكمال الصورة! يتم كل ذلك في تدريب غير خاضع للإشراف دون الحاجة إلى تسميات على الإطلاق!
يمكنك الآن إنشاء صور وجه عالية الجودة من رسومات تقريبية أو حتى غير مكتملة بدون مهارات رسم باستخدام تقنية الترجمة الجديدة من صورة إلى صورة! إذا كانت مهاراتك في الرسم سيئة مثل مهاراتي، فيمكنك تعديل مدى تأثير العيون والفم والأنف على الصورة النهائية! دعونا نرى ما إذا كان يعمل حقا وكيف فعلوا ذلك.
يُنشئ هذا الذكاء الاصطناعي عمليات إعادة بناء ثلاثية الأبعاد عالية الدقة للأشخاص من صور ثنائية الأبعاد! لا يتطلب الأمر سوى صورة واحدة لك لإنشاء صورة رمزية ثلاثية الأبعاد تشبهك تمامًا، حتى من الخلف!
جائزة أفضل ورقة بحثية لعام 2020 من ECCV تذهب إلى فريق برينستون. لقد طوروا نموذجًا جديدًا قابلاً للتدريب من البداية إلى النهاية للتدفق البصري. تتفوق طريقتهم على دقة البنى الحديثة عبر مجموعات بيانات متعددة وهي أكثر كفاءة بكثير. حتى أنهم جعلوا الكود متاحًا للجميع على موقع Github الخاص بهم!
يمكن لهذا الذكاء الاصطناعي ملء وحدات البكسل المفقودة خلف جسم متحرك تمت إزالته وإعادة بناء الفيديو بأكمله بدقة أكبر وأقل تشويشًا من الأساليب الحديثة الحالية!
تخيل أن لديك صورًا قديمة ومطوية وحتى ممزقة لجدتك عندما كان عمرها 18 عامًا بدقة عالية وبدون أي آثار. وهذا ما يسمى استعادة الصور القديمة وقد فتحت هذه الورقة للتو طريقًا جديدًا تمامًا لمعالجة هذه المشكلة باستخدام نهج التعلم العميق.
تعد عملية التلميع البشري مهمة مثيرة للاهتمام للغاية حيث يكون الهدف هو العثور على أي إنسان في الصورة وإزالة الخلفية منها. من الصعب حقًا تحقيقه نظرًا لتعقيد المهمة، حيث يتعين عليك العثور على الشخص أو الأشخاص ذوي الكفاف المثالي. في هذا المنشور، أستعرض أفضل التقنيات المستخدمة على مر السنين ونهجًا جديدًا تم نشره في 29 نوفمبر 2020. تستخدم العديد من التقنيات خوارزميات الرؤية الحاسوبية الأساسية لتحقيق هذه المهمة، مثل خوارزمية GrabCut، وهي سريعة للغاية، ولكنها ليست كذلك. دقيق جدا.
DeOldify هي تقنية لتلوين واستعادة الصور القديمة بالأبيض والأسود أو حتى لقطات الأفلام. تم تطويره وما زال يتم تحديثه بواسطة شخص واحد فقط هو Jason Antic. إنها الآن أحدث الطرق لتلوين الصور بالأبيض والأسود، وكل شيء مفتوح المصدر، ولكننا سنعود إلى هذا الأمر بعد قليل.
ضع علامة علي على TwitterWhats_AI أو LinkedIn @Louis (What's AI) Bouchard إذا شاركت القائمة!
[1] اكيناك، دريا وتريبيتز، تالي. (2019). البحر من خلال: طريقة لإزالة المياه من الصور تحت الماء. 1682-1691. 10.1109/CVPR.2019.00178.
[2] ليخنر، م.، حسني، ر.، أميني، أ. وآخرون. سياسات الدوائر العصبية تمكن من الاستقلالية القابلة للتدقيق. نات ماخ إنتل 2، 642-652 (2020). https://doi.org/10.1038/s42256-020-00237-3
[3] PP Srinivasan، B. Deng، X. Zhang، M. Tancik، B. Mildenhall، and JT Barron، "Nerv: الانعكاس العصبي ومجالات الرؤية لإعادة الإضاءة وتركيب العرض،" في arXiv، 2020.
[4] أ. بوشكوفسكي، سي.-ي. وانغ، وH.-YM لياو، Yolov4: السرعة والدقة المثلى للكشف عن الأشياء، 2020. أرخايف:2004.10934 [cs.CV].
[5] S. Menon, A. Damian, S. Hu, N. Ravi, and C. Rudin, Pulse: تجميع الصور تحت الإشراف الذاتي عبر استكشاف الفضاء الكامن للنماذج التوليدية، 2020. أرخايف:2003.03808 [cs.CV].
[6] M. Chen، A. Radford، R. Child، J. Wu، H. Jun، D. Luan، and I. Sutskever، "التدريب المسبق التوليدي من وحدات البكسل،" في وقائع المؤتمر الدولي السابع والثلاثين للتعلم الآلي، HD III وA. سينغ، محرران، سر. وقائع أبحاث التعلم الآلي، المجلد. 119، افتراضيًا: PMLR، 13-18 يوليو 2020، الصفحات من 1691 إلى 1703. [متصل].
[7] س.-ي. Chen, W. Su, L. Gao, S. Xia, and H. Fu, "DeepFaceDrawing: الجيل العميق لصور الوجه من الرسومات،" ACM Transactions on Graphics (Proceedings of ACM SIGGRAPH2020)، المجلد. 39، لا. 4، 72: 1–72: 16، 2020. متاح:http://proceedings.mlr.press/v119/chen20s.html.
[8] S. Saito, T. Simon, J. Saragih, and H. Joo, Pifuhd: دالة ضمنية محاذاة للبكسل متعددة المستويات للرقمنة البشرية ثلاثية الأبعاد عالية الدقة، 2020. أرخايف:2004.00452 [cs.CV].
[9] Z. Teed وJ. Deng، Raft: تحويلات المجال لجميع الأزواج المتكررة للتدفق البصري، 2020. arXiv:2003.12039 [cs.CV].
[10] Y. Zeng, J. Fu, and H. Chao, تعلم التحولات المكانية والزمانية المشتركة للرسم بالفيديو، 2020. arXiv:2007.10247 [cs.CV].
[مكافأة 1] Z. Wan, B. Zhang, D. Chen, P. Zhang, D. Chen, J. Liao, and F. Wen, استعادة الصور القديمة عبر ترجمة الفضاء العميق العميق، 2020. arXiv:2009.07047 [cs. السيرة الذاتية].
[مكافأة 2] Z. Ke وK. Li وY. Zhou وQ. Wu وX. Mao وQ. Yan وRW Lau، "هل الشاشة الخضراء ضرورية حقًا لتلميع الصور الشخصية في الوقت الفعلي؟" أركايف، المجلد. أبس/2011.11961، 2020.
[مكافأة 3] جيسون أنتيك، مبتكر DeOldify، https://github.com/jantic/DeOldify