随着一个名为“生成人工智能”的全新领域的创建,无论你是否喜欢这个术语,研究并没有放慢其疯狂的步伐,尤其是该行业,该行业在人工智能技术的实施方面出现了有史以来最大的繁荣。人工智能以及我们对人脑及其与人工智能的联系的理解正在不断发展,显示出在不久的将来改善我们生活质量的有前途的应用。尽管如此,我们还是应该谨慎选择应用哪种技术。
“科学不能告诉我们应该做什么,只能告诉我们可以做什么。”
——让·保罗·萨特《存在与虚无》
以下是按发布日期列出的人工智能和数据科学最新突破的精选列表,其中包含清晰的视频说明、更深入的文章链接和代码(如果适用)。享受阅读的乐趣!
本存储库的末尾列出了每篇论文的完整参考文献。给这个存储库加注星标以保持最新状态并敬请期待明年! ️
维护者:louisfb01,如果您想看到/听到有关人工智能的更多信息,他也活跃在 YouTube 和播客中!
订阅我的时事通讯 - 每周都会解释人工智能的最新更新。
请随时向我发送任何我可能错过添加到此存储库的有趣论文。
如果您分享该列表,请在Twitter @Whats_AI 或LinkedIn @Louis (What's AI) Bouchard 上标记我!欢迎在我们的 Learn AI Discord 社区中与我们聊天!
?如果您想支持我的工作,您可以查看赞助此存储库或在 Patreon 上支持我。
去年,我们看到了图像和文本生成人工智能的兴起,最近的一次是 ChatGPT。现在,在 2023 年的第一周内,研究人员已经创建了一个名为 VALL-E 的新音频数据系统。
VALL-E只需3秒的录音就能模仿某人的声音,其相似度和语音自然度比以往任何时候都高。 ChatGPT 能够模仿人类作家; VALL-E 对语音也做了同样的事情。
我们知道人工智能可以生成图像;现在,让我们编辑它们!
这个名为 InstructPix2Pix 的新模型正是这样做的;它按照用户给出的基于文本的指令编辑图像。看看这些惊人的结果……这不是来自 OpenAI 或预算无限的谷歌。
这是蒂姆·布鲁克斯(Tim Brooks)和加州大学合作者(包括教授)最近发表的一篇论文。 Alexei A. Efros,计算机视觉行业的知名人物。正如您所看到的,结果令人难以置信。
我们最近介绍了一种能够模仿某人声音的模型,称为 VALL-E。让我们利用名为 MusicLM 的新人工智能在创意方向上更进一步。 MusicLM 允许您根据文本描述生成音乐。
让我们不要再等待了,直接进入结果......您将听到的内容会让您大吃一惊!
Runway 创建了一个名为 GEN-1 的系统,可以拍摄视频,并在几秒钟内对其应用完全不同的风格。该模型仍在开发中,存在缺陷,但仍然能够以相当酷的方式将图像或文本提示转换为视频,这在几年甚至几个月前是不可能的。更酷的是它的工作原理......
PaLM-E,Google 的最新出版物,被他们称为“体现的多模态语言模型”。这意味着什么?这意味着它是一个可以理解各种类型数据的模型,例如我们提到的 ViT 和 PaLM 模型中的文本和图像,并且能够将这些见解转化为机器人手的动作!
分割——这就像照片世界中扮演侦探一样。这种超能力使您能够以像素完美的精度识别图像中的任何事物(从物体到人物)。它改变了各种应用的游戏规则,例如自动驾驶汽车需要知道周围发生了什么,无论是汽车还是行人。
您现在肯定也知道如何进行提示了。但您听说过即时细分吗?这是最新的产品,而且真的很酷。有了这个新技巧,你可以提示你的人工智能模型分割你想要的任何东西 - 我的意思是任何东西!感谢 Meta 令人难以置信的全新 SAM(分段任意模型),您可以做的事情没有任何限制。
如果您对及时分割和 SAM 模型如何发挥其魔力感到好奇,那么您将不想错过我的视频。在其中,您将了解这项令人惊叹的新技术如何改变图像分割领域的游戏规则。因此,坐下来,放松一下,让我带您踏上 SAM 快速分割世界的旅程。相信我,你不会后悔的!
想象一下,无需离开家或拍照即可创建令人惊叹的 Instagram 图片! NVIDIA 的全新 AI 模型 Perfusion 通过增强的控制和基于概念的视觉效果的保真度,推进了文本到图像的生成。
灌注是对现有人工智能技术的重大改进,克服了生成忠实于原始内容的图像的限制。这个模型可以在各种新场景中准确地创建这些“概念”。
灌注建立在稳定扩散的基础上,具有额外的机制,可同时锁定并生成新图像中的多个“概念”。这带来了无与伦比的定量和定性性能,为不同行业带来了令人兴奋的可能性。
?虽然灌注并不完美,但它是文本到图像模型向前迈出的重要一步。挑战包括维护对象的身份和一些过度概括,以及需要一些即时的工程工作。
NVIDIA 的 Perfusion 为人工智能生成图像的激动人心的未来奠定了基础,以满足我们的需求。
Drag Your Gan 优先考虑精确的对象拖动,而不是图像生成或文本操作。人工智能真实地适应整个图像,修改对象的位置、姿势、形状、表情和其他框架元素。
??编辑狗的表情,让它们坐下,调整人类姿势,甚至无缝地改变风景。 Drag Your Gan 提供了一种创新的交互式方式来尝试图像编辑。
它是如何运作的? Drag Your Gan 利用 StyleGAN2,这是 NVIDIA 的最先进的 GAN 架构。通过在特征空间(潜在代码)中进行操作,人工智能通过一系列步骤和损失计算来学习如何正确编辑图像。
尽管结果非常棒(如下所示),但必须注意 Drag Your Gan 有一些限制,包括目前只能编辑生成的图像。图像是分发的一部分。其他限制是点的选择基于像素颜色和对比度,因此您无法真正拖动任何内容。如果您取出红色汽车的一部分并将其移动到红色汽车上,它可能根本不理解您移动它。
迫不及待想尝试一下吗?作者提到该代码应该在六月可用。观看视频(或文章),了解有关 DragYourGan 这种新图像处理风格的更多信息!
查看什么是 AI 播客,以采访该领域专家的形式了解更多 AI 内容!我和一位受邀的人工智能专家将讨论与人工智能相关的特定主题、子领域和角色,以教授和分享那些努力收集人工智能的人们的知识。
Neuralangelo 是 NVIDIA 在图像到 3D AI 领域的最新突破。这种新方法建立在 Instant NeRF 的基础上,可提高表面质量并在短短几秒钟内从简单图像提供高度逼真的 3D 场景。
Neuralangelo 旨在克服其前身 Instant NeRF 的局限性,例如人工智能生成的 3D 模型缺乏详细结构以及有点卡通化的外观。
Neuralangelo 改进背后的秘密在于两个关键区别:使用数值梯度计算高阶导数,以及对控制细节级别的哈希网格采用从粗到细的优化,我们将在视频中深入探讨这一点。
此优化过程可以为 3D 模型重建提供更平滑的输入,允许混合更多信息,并在一致性和细粒度细节之间创建完美平衡,以获得真实的结果。
Neuralangelo 的 3D 模型的质量确实令人惊叹,但人工智能确实面临着高反射场景的挑战。尽管如此,它在现实世界中的潜在应用是巨大且令人兴奋的!
在本周的节目中,我决定探索一项名为 TryOnDiffusion 的新研究,该研究在 CVPR 2023 会议上提出。这种创新方法代表了现实虚拟试穿体验的重大飞跃。通过训练人工智能模型来理解输入图像、区分服装和人并智能地组合信息,TryOnDiffusion 产生了令人印象深刻的结果,使我们更接近完美虚拟试穿的最终目标。
如果您对人工智能与时尚的交集感兴趣,请加入我们,我们将揭开 TryOnDiffusion 的内部运作原理及其对未来在线购物的潜在影响。无论您是人工智能爱好者、时尚爱好者,还是只是对最新技术进步感到好奇,该视频都可以为您提供有关虚拟试衣前沿世界的宝贵见解。
我们将深入探讨扩散模型、UNet 和注意力的世界,所有这些令人难以置信的强大机制将力量结合在一起,为时尚和在线零售领域提供帮助。当然,这项工作有局限性,但(正如您将看到的)结果令人兴奋且非常有希望。
让我们来谈谈人工智能模型,它们可以把你的脸变成有趣的卡通,编辑面部属性,比如改变你的头发颜色,或者简单地升级你的图像,使其更加高清。如果您一直在关注我的文章,您就会知道大多数应用程序都依赖于一个模型及其多个版本(称为 StyleGAN),我已经多次介绍过该模型。 StyleGAN 是 NVIDIA 开发的一种基于 GAN 的架构,它可以接受输入并将其转换为另一种输入,遵循其训练的特定给定风格。它也是开源的,这意味着每个人都可以使用它并在其基础上进行构建,这也是所有研究论文都使用它的原因。
StyleGAN 的问题在于,它仅限于根据训练数据以固定图像分辨率裁剪和对齐面部。这意味着对于现实世界的图像,您需要其他方法来找到脸部、裁剪它并重新定位它,并且它还必须具有相同的图像分辨率。这是一个大问题,因为您通常想要拥有高质量的图像,但使用它们进行训练会花费非常长的时间。
因此,我们通常做的是使用 StyleGAN 架构对图像进行风格迁移,然后使用另一个网络将图像升级到更高分辨率。虽然这种方法效果很好,但绝对不理想。您需要两个模型而不是一个模型,从而增加更多偏差和潜在错误,并且需要同时训练这两个模型并限制泛化能力。对我们来说幸运的是,一些出色的研究人员正在研究这个有限的输入图像问题,并且最近通过一些非常聪明的小改变在 ICCV 2023 上发布了一种名为 StyleGANEX 的新方法......
如果您分享该列表,请在Twitter @Whats_AI 或LinkedIn @Louis (What's AI) Bouchard 上标记我!
我们已经见证了大型语言模型 (LLM) 的卓越能力,但仍然存在差距——他们对我们周围世界的理解中缺失了一块。他们在文本、代码和图像方面表现出色,但在真正融入我们的现实方面却遇到了困难。也就是说,到现在为止。这是人工智能领域的突破性飞跃:3D-LLM。
3D-LLM 是一种新颖的模型,它弥合了语言与我们所居住的 3D 领域之间的差距。虽然它并没有涵盖我们整个世界,但在理解塑造我们生活的关键维度和文本方面,这是一个巨大的进步。正如您将在视频中发现的那样,3D-LLM 不仅可以感知世界,还可以与之交互。您可以提出有关环境的问题、寻找物体或在空间中导航,并见证其常识性推理——让人想起我们在 ChatGPT 上经历过的令人惊叹的壮举。
更有趣的是,作者利用 ChatGPT 的能力通过您将了解的三种不同方法收集数据,为用于训练模型的每个场景创建一个全面的任务和示例存储库......
这项工作引入了一种新颖的框架,用于编排大型语言模型,使其协同工作,同时减轻幻觉的风险。这种方法将人工智能代理的强大功能与标准化操作程序的清晰度相结合,确保代理有效协作并与用户目标保持一致。
订阅我的每周时事通讯,了解 2023 年人工智能领域的最新出版物!
刘等人。使用 GPT-4 创建了一个名为 LLaVA 的通用语言视觉模型,这是第一个理解并遵循基于视觉和语言的指令的通用模型。是的,他们没有使用 GPT-4 作为基础模型,而是用来训练他们的模型!正如我们将在视频中看到的,GPT-4 用于生成大型且高质量的数据集,以训练理解图像的新模型。哦,显然它不仅可以理解图像,还可以理解文本(存在多模态),这意味着它可以回答有关图像的各种问题!在全文或视频中了解更多信息...
我们已经看到了很多生成文本的新方法,然后生成图像的方法也越来越好。然后,我们看到了其他令人惊叹的初始作品,用于生成视频,甚至从文本中生成 3D 模型。想象一下这样的任务的复杂性,当你只有一个句子,并且你需要生成一些看起来像现实世界中的对象及其所有细节的东西。嗯,这是一个新的步骤,它不仅仅是第一步;它是一个新的步骤。这是从文本生成 3D 模型的巨大进步:MVDream!
Distil-Whisper 是一种音频转录模型,比原始 Whisper 模型快 6 倍,体积缩小 49%,并保持 99% 的准确性。它最好的一点是它是完全开源的,你现在就可以使用它。
在本视频中,我们深入探讨稳定视频扩散 (SVD),探索 Stability AI 的这项创新技术如何彻底改变人工智能驱动的视频创作。了解扩散模型的核心原理及其在文本到视频和多视图合成中的应用,非常适合渴望掌握视频生成未来的人工智能和数字媒体爱好者。
如果您想阅读更多论文并拥有更广阔的视野,这里是另一个涵盖 2022 年的精彩存储库:2022:充满令人惊叹的 AI 论文的一年 - 回顾,并随时订阅我的每周通讯并随时了解最新动态-与 2023 年人工智能领域的新出版物同步!
如果您分享该列表,请在Twitter @Whats_AI 或LinkedIn @Louis (What's AI) Bouchard 上标记我!
[1] 王成、陈胜、吴勇、张志、周立、刘胜、陈志、刘勇、王红、李、 J. 和 He, L.,2023。神经编解码器语言模型是零样本文本到语音合成器,https://arxiv.org/abs/2301.02111
[2] Brooks 等人,2022:InstructPix2Pix,https://arxiv.org/abs/2211.09800
[3] Agostinelli 等人,2023:MusicLM,https://arxiv.org/abs/2301.11325
[4] Esser, P.、Chiu, J.、Atighehchian, P.、Granskog, J. 和 Germanidis, A., 2023。使用扩散模型的结构和内容引导视频合成,https://arxiv.org/abs /2302.03011
[5] Driess, D.、Xia, F.、Sajjadi, MS、Lynch, C.、Chowdhery, A.、Ichter, B.、Wahid, A.、Tompson, J.、Vuong, Q.、Yu, T和 Huang, W.,2023。Palm-e:一种具体化的多模态语言模型,https://arxiv.org/abs/2303.03378
[6] Kirillov, A.、Mintun, E.、Ravi, N.、Mao, H.、Rolland, C.、Gustafson, L.、Xiao, T.、Whitehead, S.、Berg, AC、Lo, WY和 Dollár, P.,2023。分割任何内容,https://arxiv.org/abs/2304.02643
[7] Tewel, Y.、Gal, R.、Chechik, G. 和 Atzmon, Y.,2023。用于文本到图像个性化的按键锁定一级编辑,https://arxiv.org/abs/2305.01644
[8] Pan, X.、Tewari, A.、Leimkühler, T.、Liu, L.、Meka, A. 和 Theobalt, C.,2023。拖动您的 GAN:生成图像流形上的交互式基于点的操作, https://arxiv.org/abs/2305.10973
[9] Li, Z.、Müller, T.、Evans, A.、Taylor, RH、Unberath, M.、Liu, MY 和 Lin, CH, 2023。Neuralangelo:高保真神经表面重建。 IEEE/CVF 计算机视觉和模式识别会议论文集(第 8456-8465 页),https://arxiv.org/abs/2306.03092
[10] Zhu, L.、Yang, D.、Zhu, T.、Reda, F.、Chan, W.、Saharia, C.、Norouzi, M. 和 Kemelmacher-Shlizerman, I.,2023。TryOnDiffusion:A两个UNet的故事。 IEEE/CVF 计算机视觉和模式识别会议论文集(第 4606-4615 页),https://arxiv.org/abs/2306.08276
[11] Yang, S.、Jiang, L.、Liu, Z. 和 Loy, CC, 2023。StyleGANEX:基于 StyleGAN 的超越裁剪对齐面的操作。 arXiv 预印本 arXiv:2303.06146。
[12] Hong,Y.,Zhen,H.,Chen,P.,Zheng,S.,Du,Y.,Chen,Z.和Gan,C.,2023。3d-llm:将3d世界注入大语言模型。 arXiv 预印本 arXiv:2307.12981。
[13] 洪胜、郑新、陈杰、程勇、张成、王正、丘成贤、林志、周立、冉成. 和Xiao, L.,2023。Metagpt:多智能体协作框架的元编程。 arXiv 预印本 arXiv:2308.00352。
[14] Liu, H., Li, C., Wu, Q. and Lee, YJ, 2023. 视觉指令调优。 arXiv 预印本 arXiv:2304.08485。
[15] Shi, Y., Wang, P., Ye, J., Long, M., Li, K. and Yang, X., 2023. Mvdream:3d 生成的多视图扩散。 arXiv 预印本 arXiv:2308.16512。
[16] Gandhi, S.、von Platen, P. 和 Rush, AM,2023。Distil-Whisper:通过大规模伪标签进行稳健的知识蒸馏。 arXiv 预印本 arXiv:2311.00430。
[17] Blattmann 等人,2023:稳定的视频扩散。 https://static1.squarespace.com/static/6213c340453c3f502425776e/t/655ce779b9d47d342a93c890/1700587395994/stable_video_diffusion.pdf