尽管世界仍在恢复,但研究并没有减慢其疯狂的步伐,尤其是在人工智能领域。更重要的是,今年强调了许多重要方面,例如道德方面,重要的偏见,治理,透明度等。人工智能以及我们对人脑及其与AI的联系的理解正在不断发展,显示出令人鼓舞的应用,在不久的将来改善了我们生活的质量。不过,我们应该谨慎使用我们选择采用哪种技术。
“科学不能告诉我们我们应该做什么,只有我们能做什么。”
- 让·保罗·萨特(Jean-Paul Sartre),《存在与虚无》
这是当年最有趣的研究论文,以防您错过任何一个。简而言之,它是通过发行日期策划了AI和数据科学中最新突破的列表,并具有清晰的视频说明,链接到更深入的文章和代码(如果适用)。享受阅读!
对每篇论文的完整引用在此存储库的末尾列出。明星这个存储库保持最新状态!配x
维护者:Louisfb01
订阅我的时事通讯 - AI中的最新更新每周都会解释。
随意向我发消息,我可能错过的任何有趣的论文都会添加到此存储库中。
如果您共享列表,请在Twitter @Whats_ai或LinkedIn @Lououis(What是AI)上标记我!
2021年排名前10的CV出版物的策划列表,其中包含清晰的视频说明,链接到更深入的文章和代码。
2021年的十大计算机视觉论文
?如果您想支持我的工作,并使用W&B(免费)跟踪您的ML实验,并使您的工作可再现或与团队合作,则可以通过遵循本指南来尝试一下!由于这里的大多数代码都是基于Pytorch的,因此我们认为在Pytorch上使用W&B的快速启动指南将最有趣。
遵循此快速指南,在下面的代码或任何存储库中使用相同的W&B行,并在W&B帐户中自动跟踪所有实验!设置不超过5分钟,并且会像对我那样改变您的生活!如果有兴趣,这是一个更高级的指南,用于使用超参数扫描:)
?感谢Weights&Biases赞助此存储库和我一直在做的工作,并感谢您使用此链接并尝试W&B的任何人!
Openai成功训练了一个能够从文本标题中生成图像的网络。它与GPT-3和Image GPT非常相似,并产生了惊人的结果。
Google使用了修改后的Stylegan2体系结构来创建一个在线固定室,您可以在其中只使用自己的图像来自动尝试任何想要的裤子或衬衫。
TL; dr:他们将gan和卷积方法的效率与变形金刚的表现力相结合,以产生一种强大且效率的方法,用于语义引导的高质量图像合成。
从人类能力到AI研究社区的更普遍和值得信赖的AI和10个问题。
Odei Garcia-Garin等。来自巴塞罗那大学(University of Barcelona)开发了一种基于深度学习的算法,能够从空中图像中检测和量化浮动垃圾。他们还制作了一个面向网络的应用程序,允许用户在海面图像中识别这些垃圾,称为浮动海洋宏观误列或FMML。
试想一下,只拍摄对象的照片并将其插入您正在创建的电影或视频游戏中或在3D场景中插入以获取插图会有多酷。
他们基本上利用了强大的StyleGAN架构中的变形金刚的注意力机制,使其更加强大!
订阅我的每周新闻通讯,并在2022年的AI中与新出版物保持最新状态!
您会在AI配置文件上滑动吗?您可以将实际人与机器区分开吗?这是这项研究揭示的使用AI-Made-Up人员在约会应用程序上。
变形金刚在计算机视觉中会取代CNN吗?在不到5分钟的时间内,您将使用称为Swin Transformer的新论文将变压器体系结构应用于计算机视觉。
这个名为ganverse3d的有前途的模型只需要一个图像来创建一个可以自定义和动画的3D图!
“我将公开分享有关视觉应用,其成功以及我们必须解决的局限性的有关深网的所有内容。”
视图综合的下一步:永久视图一代,目标是拍摄图像进入它并探索景观!
借助这种AI驱动的神经界面,截肢者可以控制具有生命的灵巧性和直觉的神经假体手。
根据您添加的新背景的照明,适当地重新保留任何肖像。您是否曾经想更改图片的背景,但看起来很现实?如果您已经尝试过,那么您已经知道这并不简单。您不能只是在家里拍摄自己的照片,然后更改海滩的背景。它看起来很糟糕,不现实。任何人都会在一秒钟内说“那是photoshop的”。对于电影和专业视频,您需要完美的照明和艺术家来复制高质量的图像,这非常昂贵。您无法用自己的图片做到这一点。还是可以?
生成3D模型的人类或动物仅从短视频作为输入中移动的动物。这是一种新的方法,用于生成人类的3D模型或仅从短视频作为输入中移动的动物。确实,它实际上知道这是一个奇怪的形状,它可以移动,但是仍然需要依恋,因为这仍然是一个“对象”,而不仅仅是许多对象在一起...
该AI可以现场现场应用于视频游戏,并改变每个框架以看起来更自然。英特尔实验室的研究人员刚刚发表了本文,称增强了光真主的增强。而且,如果您认为这可能只是“另一个gan”,将视频游戏的照片作为输入并按照自然世界的风格进行更改,那么让我改变主意。他们在这种模型上工作了两年,使其非常强大。它可以实时应用于视频游戏,并改变每个框架以看起来更自然。试想一下,您可以在游戏图形上付出更少的精力,使其超级稳定和完整,然后使用此模型改进样式...
如何在2021年发现一个深层假的伪造。使用人工智能来寻找深层捕获的美国陆军技术。
虽然他们似乎一直都去过那里,但直到2017年才出现的第一个现实的深击才出现。它从有史以来的第一个类似的假图像到自动生成的伪造图像到当今的视频中的某人相同的副本,并带有声音。
现实情况是,我们再也看不到真实的视频或图片与深击之间的区别了。我们怎么能说出什么不是什么?如果AI能够完全生成它们,如何在法庭上使用音频文件或视频文件作为证明?好吧,这篇新论文可能会为这些问题提供答案。这里的答案可能再次是人工智能的使用。 “我会看到它时我会相信它”的说法很快就会改变“当AI告诉我相信它时,我会相信的……”
使用这种基于机器学习的方法实时将任何样式实时应用于您的4K图像!
本文本身并不是关于新技术的。相反,这是关于gan的新的令人兴奋的应用。确实,您看到了标题,而不是点击诱饵。这个人工智能可以转移您的头发,以查看在进行更改之前的外观……
这种新的Facebook AI模型可以按照相同的样式直接用您自己的语言翻译或编辑文本!
想象一下,您在另一个不说语言的国家度假。您想尝试当地餐厅,但他们的菜单是您不会说的语言。我认为这不会太难想象,因为无论您看到菜单项还是指示,您都已经面对这种情况,而且您无法理解写的内容。好吧,在2020年,您将拿出手机,然后Google翻译您所看到的内容。在2021年,您甚至不需要再打开Google翻译,而是尝试将您看到的内容逐一写入翻译。相反,您可以简单地使用Facebook AI使用此新模型来以您自己的语言翻译图像中的每个文本…
如果您也想阅读更多研究论文,建议您阅读我的文章,其中我分享了我查找和阅读更多研究论文的最佳技巧。
该模型拍摄了一张图片,了解哪些粒子应该在移动,并在无限的循环中将它们实际上动画起来,同时完全保存其余图片仍在完全创建像这样的令人惊叹的视频...
使用修改后的GAN体系结构,它们可以在图像中移动对象而不会影响背景或其他对象!
找出该新模型如何从单词中生成代码!
Apple使用在设备上私下运行的多个基于机器学习的算法,使您可以准确地策划和整理iOS 15上的图像和视频。
告别复杂的gan和变压器体系结构,以生成图像! Chenling Meng等人的这种新方法。来自斯坦福大学和卡内基·梅隆大学(Carnegie Mellon University)可以从任何基于用户的输入中产生新图像。即使像我这样具有零艺术能力的人,现在也可以通过快速草图产生美丽的图像或修改...
通过草图生成图像,使每个人更轻松地训练甘斯训练!确实,惠特这种新方法,您可以根据可以提供的最简单的知识类型来控制gan的输出:手绘草图。
如果您想知道特斯拉汽车不仅可以看到,还可以用其他车辆在道路上航行,这就是您正在等待的视频。几天前,Tesla AI日是特斯拉AI主任Andrej Karpathy,其他人则介绍了特斯拉的自动驾驶仪如何通过其八台相机从图像获取到道路的导航过程。
AI可以生成图像,然后使用大量的脑力和反复试验,研究人员可以控制以下特定样式的结果。现在,有了这个新型号,您只能使用文本来完成此操作!
Timelens可以理解视频框架之间的粒子的运动,以重建即使是我们的眼睛也看不到的速度实际发生的事情。实际上,它实现了我们智能手机和其他模型以前无法达到的结果!
订阅我的每周新闻通讯,并在2022年的AI中与新出版物保持最新状态!
您想编辑视频吗?
删除或添加某人,更改背景,使其持续时间更长,或更改分辨率以拟合特定的长宽比而不压缩或拉伸。对于那些已经开展广告活动的人来说,您当然想拥有视频的变化进行AB测试,并查看最有效的视频。好吧,Niv Haim等人的这项新研究。可以通过单个视频和高清帮助您完成所有这些操作!
确实,使用一个简单的视频,您可以执行我在几秒钟或几分钟内提到的任何任务,以获取高质量的视频。您基本上可以将其用于您想到的任何视频操作或视频生成应用程序。它甚至在各种方面都超越了甘恩,并且不使用任何深度学习的幻想研究,也不需要一个庞大且不切实际的数据集!最好的是,该技术可扩展到高分辨率视频。
DeepMind刚刚发布了一种生成模型,能够在89%的情况下超过50多种专家气象学家评估的准确性和实用性,以超过89%的情况下使用广泛使用的现状方法!他们的模型着重于预测接下来的两个小时的降水量,并出乎意料地实现了这一点。它是一个生成模型,这意味着它将生成预测,而不是简单地预测它们。它基本上从过去获取雷达数据来创建未来的雷达数据。因此,使用过去的时间和空间组件,它们可以在不久的将来产生它的外观。
您可以将其视为与Snapchat过滤器相同的,拿起脸并产生一个带有修改的新面孔。要训练这样的生成模型,您需要从人的面孔和想要生成的那种面孔的数据中进行大量数据。然后,使用经过多个小时的非常相似的模型,您将拥有一个强大的生成模型。这种模型经常使用gans体系结构进行培训,然后独立使用发电机模型。
您是否曾经调到视频或电视节目,演员完全听不清,或者音乐太大了?好吧,这个问题也称为鸡尾酒会问题,可能再也不会发生。三菱和印第安纳大学刚刚发布了一种新的模型以及一个新的数据集,以应对这项确定合适配乐的任务。例如,如果我们采用相同的音频剪辑,那么我们只是用音乐来跑得太大,您可以简单地向上或淡化您想要比音乐更重要的音轨。
这里的问题是将任何独立的声音源与复杂的声学场景(例如电影场景或YouTube视频)隔离开来,其中有些声音无法平衡。有时,您只是因为音乐播放,爆炸或其他环境声音而听不到某些演员。好吧,如果您成功地隔离了配乐中的不同类别,则意味着您也只能向上或下降其中的一个,例如稍微调低音乐以正确听到所有其他演员。这正是研究人员所取得的成就。
想象一下,您想从您拍摄的一堆图片中生成3D模型或简单的流体视频。好吧,现在有可能!我不想透露太多,但是结果简直令人惊讶,您需要自己检查一下!
您是否曾经梦想过拍摄图片的风格,例如左侧的这种酷炫的Tiktok绘图风格,并将其应用于您选择的新图片中?好吧,我做到了,而且从未更容易做。实际上,您甚至只能从文本中实现这一目标,并且可以使用此新方法及其Google COLAB笔记本现在可以尝试(请参阅参考文献)。只需拍摄要复制的样式的图片,输入要生成的文本,此算法就会从中生成新图片!回顾上面的结果,这么大的一步就可以了!结果非常令人印象深刻,尤其是如果您认为它们是由单行文本制成的!
您是否曾经有一个您真正喜欢的图像,并且只能设法找到它的小版本,看起来像下面的图像?如果您可以拍摄这张图像并使其两倍好,那将有多酷?太好了,但是如果您可以使其高四到八倍的高清晰度,该怎么办?现在我们在谈论,只要看一下。
在这里,我们将图像的分辨率提高了四倍,这意味着我们的高度和宽度像素多四倍,以获取更多细节,使其看起来更加顺畅。最好的事情是,这是在几秒钟内完全自动完成的,并且几乎可以使用任何图像。哦,您甚至可以自己使用的演示自己使用它...
从快速草稿中控制任何功能,它只会编辑您想要的内容,使其余图像保持不变!基于Nvidia,MIT和Uoft的gans的草图模型的SOTA图像编辑。
该模型称为Citynerf,并从Nerf生长,我以前在频道上介绍了该模型。 NERF是使用RadIance字段和机器学习来构建图像中的3D模型的最早模型之一。但是nerf并不是那么有效,并且可以单一尺度工作。在这里,Citynerf同时将Citynerf应用于卫星和地面图像上,以生成各种3D模型尺度。简而言之,它们将NERF带到城市规模。但是如何?
我们已经看到AI使用gan从其他图像中生成图像。然后,有一些模型能够使用文本生成可疑的图像。在2021年初,DALL-E发布了以前的所有尝试,尝试使用Clip从文本输入中生成图像,该模型将图像与文本链接为指导。一个非常相似的任务称为图像字幕听起来真的很简单,但实际上同样复杂。这是机器生成图像自然描述的能力。简单地标记您在图像中看到的对象很容易,但是了解单个二维图片中发生的事情是另一个挑战,而这种新模型非常好...
如果您想阅读更多论文并拥有更广阔的视野,这是您介绍2020:2020的另一个很棒的存储库:一年充满了令人惊叹的AI论文 - 一份评论,并随时订阅我的每周新闻通讯并保持最新状态 - 与2022年AI的新出版物一起使用!
如果您共享列表,请在Twitter @Whats_ai或LinkedIn @Lououis(What是AI)上标记我!
[1] A. Ramesh等人,零射击文本到图像生成,2021。Arxiv:2102.12092
[2] Lewis,Kathleen M等人,(2021),Vogue:the-On by Stylegan插值优化。
[3]驯服用于高分辨率图像合成的变压器,Esser等,2020。
[4]在AI,Booch等人(2020),https://arxiv.org/abs/2010.06002中快速思考。
[5] Odei Garcia-Garin等人,空中图像中浮动海洋宏观单位的自动检测和量化:引入一种新颖的深度学习方法,该方法与R,环境污染中的Web应用程序相连,https://doi.org/ https://doi.org/ 10.1016/j.envpol.2021.116490。
[6] Rematas,K.,Martin-Brualla,R。和Ferrari,V。,“ Sharf:单一视图的形状条件辐射场”,(2021),https://arxiv.org/abs/2102.08860
[7] Drew A. Hudson和C. Lawrence Zitnick,《生成对抗变压器》,(2021年)
[8] Sandra Bryant等人,“我们要求人工智能创建约会概况。您会滑动对吗?
[9] Liu,Z。等,2021,“ Swin Transformer:使用移位窗口的层次视觉变压器”,Arxiv Preprint https://arxiv.org/abs/2103.14030v1
[10] Zhang,Y.,Chen,W.,Ling,H.,Gao,J.,Zhang,Y.,Torralba,A。和Fidler,S. 3D神经渲染。 ARXIV预印型ARXIV:2010.09125。
[11] Yuille,Al和C. Liu,2021年。深网:他们为视力做了什么?国际计算机视觉杂志,129(3),第781–802页,https://arxiv.org/abs/1805.04025。
[12] Liu, A., Tucker, R., Jampani, V., Makadia, A., Snavely, N. and Kanazawa, A., 2020. Infinite Nature: Perpetual View Generation of Natural Scenes from a Single Image, https://arxiv.org/pdf/2012.09855.pdf
[13] Nguyen & Drealan et al. (2021) A Portable, Self-Contained Neuroprosthetic Hand with Deep Learning-Based Finger Control: https://arxiv.org/abs/2103.13452
[14] Pandey et al., 2021, Total Relighting: Learning to Relight Portraits for Background Replacement, doi: 10.1145/3450626.3459872, https://augmentedperception.github.io/total_relighting/total_relighting_paper.pdf.
[15] Gengshan Yang et al., (2021), LASR: Learning Articulated Shape Reconstruction from a Monocular Video, CVPR, https://lasr-google.github.io/.
[16] Richter, Abu AlHaija, Koltun, (2021), "Enhancing Photorealism Enhancement", https://intel-isl.github.io/PhotorealismEnhancement/.
[17] DeepFakeHop: Chen, Hong-Shuo, et al., (2021), “DefakeHop: A Light-Weight High-Performance Deepfake Detector.” ArXiv abs/2103.06929.
[18] Liang, Jie and Zeng, Hui and Zhang, Lei, (2021), "High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network", https://export.arxiv.org/pdf/2105.09188.pdf.
[19] Peihao Zhu et al., (2021), Barbershop, https://arxiv.org/pdf/2106.01505.pdf.
[20] Praveen Krishnan, Rama Kovvuri, Guan Pang, Boris Vassilev, and Tal Hassner, Facebook AI, (2021), ”TextStyleBrush: Transfer of text aesthetics from a single example”.
[21] Holynski, Aleksander, et al. “Animating Pictures with Eulerian Motion Fields.” IEEE/CVF计算机视觉和模式识别会议论文集。 2021。
[22] Michael Niemeyer and Andreas Geiger, (2021), "GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields", Published in CVPR 2021.
[23] Chen, M., Tworek, J., Jun, H., Yuan, Q., Pinto, HPDO, Kaplan, J., Edwards, H., Burda, Y., Joseph, N., Brockman, G 。 ARXIV预印型ARXIV:2107.03374。
[24] Apple, “Recognizing People in Photos Through Private On-Device Machine Learning”, (2021), https://machinelearning.apple.com/research/recognizing-people-photos
[25] Meng, C., Song, Y., Song, J., Wu, J., Zhu, JY and Ermon, S., 2021. Sdedit: Image synthesis and editing with stochastic differential equations. arXiv preprint arXiv:2108.01073.
[26] Wang, SY, Bau, D. and Zhu, JY, 2021. Sketch Your Own GAN. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 14050-14060).
[27] “Tesla AI Day”, Tesla, August 19th 2021, https://youtu.be/j0z4FweCy4M
[28] Patashnik, Or, et al., (2021), “Styleclip: Text-driven manipulation of StyleGAN imagery.”, https://arxiv.org/abs/2103.17249
[29] Stepan Tulyakov*, Daniel Gehrig*, Stamatios Georgoulis, Julius Erbach, Mathias Gehrig, Yuanyou Li, Davide Scaramuzza, TimeLens: Event-based Video Frame Interpolation, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, 2021 ,,,, http://rpg.ifi.uzh.ch/docs/CVPR21_Gehrig.pdf
[30] Haim, N., Feinstein, B., Granot, N., Shocher, A., Bagon, S., Dekel, T., & Irani, M. (2021). Diverse Generation from a Single Video Made Possible, https://arxiv.org/abs/2109.08591.
[31] Ravuri, S., Lenc, K., Willson, M., Kangin, D., Lam, R., Mirowski, P., Fitzsimons, M., Athanassiadou, M., Kashem, S., Madge, S. and Prudden, R., 2021. Skillful Precipitation Nowcasting using Deep Generative Models of Radar, https://www.nature.com/articles/s41586-021-03854-z
[32] Petermann, D., Wichern, G., Wang, Z., & Roux, JL (2021). The Cocktail Fork Problem: Three-Stem Audio Separation for Real-World Soundtracks. https://arxiv.org/pdf/2110.09958.pdf.
[33] Rückert, D., Franke, L. and Stamminger, M., 2021. ADOP: Approximate Differentiable One-Pixel Point Rendering, https://arxiv.org/pdf/2110.06635.pdf.
[34] a) CLIPDraw: exploring text-to-drawing synthesis through language-image encoders
b) StyleCLIPDraw: Schaldenbrand, P., Liu, Z. and Oh, J., 2021. StyleCLIPDraw: Coupling Content and Style in Text-to-Drawing Synthesis.
[35] Liang, J., Cao, J., Sun, G., Zhang, K., Van Gool, L. and Timofte, R., 2021. SwinIR: Image restoration using swin transformer. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 1833–1844).
[36] Ling, H., Kreis, K., Li, D., Kim, SW, Torralba, A. and Fidler, S., 2021, May. EditGAN: High-Precision Semantic Image Editing.在第三十五次关于神经信息处理系统的会议上。
[37] Xiangli, Y., Xu, L., Pan, X., Zhao, N., Rao, A., Theobalt, C., Dai, B. and Lin, D., 2021. CityNeRF: Building NeRF at City Scale.
[38] Mokady, R., Hertz, A. and Bermano, AH, 2021. ClipCap: CLIP Prefix for Image Captioning. https://arxiv.org/abs/2111.09734