隨著一個名為「生成人工智慧」的全新領域的創建,無論你是否喜歡這個術語,研究並沒有放慢其瘋狂的步伐,尤其是該行業,該行業在人工智慧技術的實施方面出現了有史以來最大的繁榮。人工智慧以及我們對人腦及其與人工智慧的連結的理解正在不斷發展,顯示出在不久的將來改善我們生活品質的有前途的應用。儘管如此,我們還是應該謹慎選擇應用哪種技術。
“科學不能告訴我們應該做什麼,只能告訴我們可以做什麼。”
——尚‧保羅‧薩特《存在與虛無》
以下是按發布日期列出的人工智慧和數據科學最新突破的精選列表,其中包含清晰的影片說明、更深入的文章連結和程式碼(如果適用)。享受閱讀的樂趣!
本存儲庫的末尾列出了每篇論文的完整參考文獻。給這個存儲庫加註星標以保持最新狀態並敬請期待明年! ️
維護者:louisfb01,如果您想看到/聽到有關人工智慧的更多信息,他也活躍在 YouTube 和播客中!
訂閱我的電子報 - 每週都會解釋人工智慧的最新更新。
請隨時向我發送任何我可能錯過添加到此存儲庫的有趣論文。
如果您分享該列表,請在Twitter @Whats_AI 或LinkedIn @Louis (What's AI) Bouchard 上標記我!歡迎在我們的 Learn AI Discord 社群中與我們聊天!
?如果您想支持我的工作,您可以查看贊助此儲存庫或在 Patreon 上支持我。
去年,我們看到了圖像和文字生成人工智慧的興起,最近的一次是 ChatGPT。現在,在 2023 年的第一周內,研究人員已經創建了一個名為 VALL-E 的新音訊資料系統。
VALL-E只需3秒的錄音就能模仿某人的聲音,其相似度和語音自然度比以往任何時候都高。 ChatGPT 能夠模仿人類作家; VALL-E 對語音也做了同樣的事情。
我們知道人工智慧可以產生圖像;現在,讓我們編輯它們!
這個名為 InstructPix2Pix 的新模型正是這樣做的;它按照用戶給出的基於文字的指令編輯圖像。看看這些驚人的結果……這不是來自 OpenAI 或預算無限的谷歌。
這是 Tim Brooks和加州大學合作者(包括教授)最近發表的一篇論文。 Alexei A. Efros,電腦視覺產業的知名人物。正如您所看到的,結果令人難以置信。
我們最近介紹了一個能夠模仿某人聲音的模型,稱為 VALL-E。讓我們利用名為 MusicLM 的新人工智慧在創意方向上更進一步。 MusicLM 可讓您根據文字描述產生音樂。
讓我們不要再等待了,直接進入結果......您將聽到的內容會讓您大吃一驚!
Runway 創建了一個名為 GEN-1 的系統,可以拍攝視頻,並在幾秒鐘內對其應用完全不同的風格。該模型仍在開發中,存在缺陷,但仍然能夠以相當酷的方式將圖像或文字提示轉換為視頻,這在幾年甚至幾個月前是不可能的。更酷的是它的工作原理...
PaLM-E,Google 的最新出版物,被他們稱為「體現的多模態語言模型」。這意味著什麼?這意味著它是一個可以理解各種類型資料的模型,例如我們提到的 ViT 和 PaLM 模型中的文字和圖像,並且能夠將這些見解轉化為機器人手的動作!
分割——這就像照片世界中扮演偵探一樣。這種超能力使您能夠以像素完美的精度識別影像中的任何事物(從物體到人物)。它改變了各種應用的遊戲規則,例如自動駕駛汽車需要知道周圍發生了什麼,無論是汽車還是行人。
現在您肯定也知道如何進行提示了。但您聽過即時細分嗎?這是最新的產品,而且真的很酷。有了這個新技巧,你可以提示你的人工智慧模型分割你想要的任何東西 - 我的意思是任何東西!感謝 Meta 令人難以置信的全新 SAM(分段任意模型),您可以做的事情沒有任何限制。
如果您對及時分割和 SAM 模型如何發揮其魔力感到好奇,那麼您將不想錯過我的影片。在其中,您將了解這項令人驚嘆的新技術如何改變影像分割領域的遊戲規則。因此,坐下來,放鬆一下,讓我帶您踏上 SAM 快速分割世界的旅程。相信我,你不會後悔的!
想像一下,無需離開家或拍照即可創建令人驚嘆的 Instagram 圖片! NVIDIA 的全新 AI 模型 Perfusion 透過增強的控制和基於概念的視覺效果的保真度,推進了文字到圖像的生成。
灌注是對現有人工智慧技術的重大改進,克服了產生忠實於原始內容的圖像的限制。這個模型可以在各種新場景中準確地創建這些「概念」。
灌注建立在穩定擴散的基礎上,具有額外的機制,可同時鎖定並產生新影像中的多個「概念」。這帶來了無與倫比的定量和定性性能,為不同行業帶來了令人興奮的可能性。
?雖然灌注並不完美,但它是文字到圖像模型向前邁出的重要一步。挑戰包括維護對象的身份和一些過度概括,以及需要一些即時的工程工作。
NVIDIA 的 Perfusion 為人工智慧生成圖像的激動人心的未來奠定了基礎,以滿足我們的需求。
Drag Your Gan 優先考慮精確的物件拖曳,而不是影像產生或文字操作。人工智慧真實地適應整個影像,修改物件的位置、姿勢、形狀、表情和其他框架元素。
??編輯狗狗的表情,讓它們坐下,調整人類姿勢,甚至無縫地改變風景。 Drag Your Gan 提供了一種創新的互動式方式來嘗試圖像編輯。
它是如何運作的? Drag Your Gan 使用 StyleGAN2,這是 NVIDIA 的最先進的 GAN 架構。透過在特徵空間(潛在程式碼)中進行操作,人工智慧透過一系列步驟和損失計算來學習如何正確編輯圖像。
儘管結果非常棒(如下所示),但必須注意 Drag Your Gan 有一些限制,包括目前只能編輯生成的圖像。圖像是分發的一部分。其他限制是點的選擇基於像素顏色和對比度,因此您無法真正拖曳任何內容。如果您取出紅色汽車的一部分並將其移動到紅色汽車上,它可能根本不理解您移動它。
迫不及待想嘗試嗎?作者提到該代碼應該在六月可用。觀看影片(或文章),以了解有關 DragYourGan 這種新圖像處理風格的更多資訊!
看看什麼是 AI 播客,以採訪該領域專家的形式了解更多 AI 內容!我和一位受邀的人工智慧專家將討論與人工智慧相關的特定主題、子領域和角色,以教導和分享那些努力收集人工智慧的人們的知識。
Neuralangelo 是 NVIDIA 在影像到 3D AI 領域的最新突破。這種新方法建立在 Instant NeRF 的基礎上,可提高表面品質並在短短幾秒鐘內從簡單影像提供高度逼真的 3D 場景。
Neuralangelo 旨在克服其前身 Instant NeRF 的局限性,例如人工智慧生成的 3D 模型缺乏詳細結構以及有點卡通化的外觀。
Neuralangelo 改進背後的秘密在於兩個關鍵區別:使用數值梯度計算高階導數,以及對控制細節層級的雜湊網格採用從粗到細的最佳化,我們將在影片中深入探討這一點。
此最佳化過程可以為 3D 模型重建提供更平滑的輸入,允許混合更多信息,並在一致性和細粒度細節之間創建完美平衡,以獲得真實的結果。
Neuralangelo 的 3D 模型的品質確實令人驚嘆,但人工智慧確實面臨著高反射場景的挑戰。儘管如此,它在現實世界中的潛在應用是巨大且令人興奮的!
在本週的節目中,我決定探索一項名為 TryOnDiffusion 的新研究,該研究在 CVPR 2023 會議上提出。這種創新方法代表了現實虛擬試穿體驗的重大飛躍。透過訓練人工智慧模型來理解輸入圖像、區分服裝和人並聰明地組合訊息,TryOnDiffusion 產生了令人印象深刻的結果,使我們更接近完美虛擬試穿的最終目標。
如果您對人工智慧與時尚的交集感興趣,請加入我們,我們將揭開 TryOnDiffusion 的內部運作原理及其對未來線上購物的潛在影響。無論您是人工智慧愛好者、時尚愛好者,還是只是對最新技術進步感到好奇,該影片都可以為您提供有關虛擬試衣前沿世界的寶貴見解。
我們將深入探討擴散模型、UNet 和注意力的世界,所有這些令人難以置信的強大機制將力量結合在一起,為時尚和線上零售領域提供幫助。當然,這項工作有局限性,但(正如您將看到的)結果令人興奮且非常有希望。
讓我們來談談人工智慧模型,它們可以把你的臉變成有趣的卡通,編輯臉部屬性,例如改變你的頭髮顏色,或簡單地升級你的圖像,使其更加高清。如果您一直在關注我的文章,您就會知道大多數應用程式都依賴於一個模型及其多個版本(稱為 StyleGAN),我已經多次介紹過該模型。 StyleGAN 是 NVIDIA 開發的基於 GAN 的架構,它可以接受輸入並將其轉換為另一種輸入,遵循其訓練的特定給定風格。它也是開源的,這意味著每個人都可以使用它並在其基礎上進行構建,這也是所有研究論文都使用它的原因。
StyleGAN 的問題在於,它僅限於根據訓練資料以固定影像解析度裁剪和對齊臉部。這意味著對於現實世界的圖像,您需要其他方法來找到臉部、裁剪它並重新定位它,而且它還必須具有相同的圖像解析度。這是一個大問題,因為您通常想要擁有高品質的圖像,但使用它們進行訓練會花費非常長的時間。
因此,我們通常會做的是使用 StyleGAN 架構對影像進行風格遷移,然後使用另一個網路將影像升級到更高解析度。雖然這種方法效果很好,但絕對不理想。您需要兩個模型而不是一個模型,從而增加更多偏差和潛在錯誤,並且需要同時訓練這兩個模型並限制泛化能力。對我們來說幸運的是,一些出色的研究人員正在研究這個有限的輸入圖像問題,並且最近通過一些非常聰明的小改變在ICCV 2023 上發布了一種名為StyleGANEX 的新方法..... .
如果您分享該列表,請在Twitter @Whats_AI 或LinkedIn @Louis (What's AI) Bouchard 上標記我!
我們已經見證了大型語言模型 (LLM) 的卓越能力,但仍然存在差距——他們對周圍世界的理解中缺失了一塊。他們在文字、程式碼和圖像方面表現出色,但在真正融入我們的現實方面卻遇到了困難。也就是說,到現在為止。這是人工智慧領域的突破性飛躍:3D-LLM。
3D-LLM 是一種新穎的模型,它彌合了語言與我們所居住的 3D 領域之間的差距。雖然它並沒有涵蓋我們整個世界,但在理解塑造我們生活的關鍵維度和文本方面,這是一個巨大的進步。正如您將在影片中發現的那樣,3D-LLM 不僅可以感知世界,還可以與之互動。您可以提出有關環境的問題、尋找物件或在空間中導航,並見證其常識性推理——讓人想起我們在 ChatGPT 上經歷過的令人驚嘆的壯舉。
更有趣的是,作者利用 ChatGPT 的能力透過您將了解的三種不同方法收集數據,為用於訓練模型的每個場景創建一個全面的任務和範例儲存庫...
這項工作引入了一種新穎的框架,用於編排大型語言模型,使其協同工作,同時減輕幻覺的風險。這種方法將人工智慧代理的強大功能與標準化操作程序的清晰度相結合,確保代理有效協作並與使用者目標保持一致。
訂閱我的每週通訊,了解 2023 年人工智慧領域的最新出版物!
劉等人。使用 GPT-4 創建了一個名為 LLaVA 的通用語言視覺模型,這是第一個理解並遵循基於視覺和語言的指令的通用模型。是的,他們沒有使用 GPT-4 作為基礎模型,而是用來訓練他們的模型!正如我們將在影片中看到的,GPT-4 用於生成大型且高品質的資料集,以訓練理解圖像的新模型。哦,顯然它不僅可以理解圖像,還可以理解文字(存在多模態),這意味著它可以回答有關圖像的各種問題!在全文或影片中了解更多...
我們已經看到了很多生成文字的新方法,然後生成圖像的方法也越來越好。然後,我們看到了其他令人驚嘆的初始作品,用於生成視頻,甚至從文本中生成 3D 模型。想像這樣的任務的複雜性,當你只有一個句子,並且你需要產生一些看起來像現實世界中的物件及其所有細節的東西。嗯,這是一個新的步驟,它不僅僅是第一步;它是一個新的步驟。這是從文字生成 3D 模型的巨大進步:MVDream!
Distil-Whisper 是一種音訊轉錄模型,比原始 Whisper 模型快 6 倍,體積縮小 49%,並保持 99% 的準確性。它最好的一點是它是完全開源的,你現在就可以使用它。
在本影片中,我們深入探討穩定視訊擴散 (SVD),並探索 Stability AI 的這項創新技術如何徹底改變人工智慧驅動的影片創作。了解擴散模型的核心原理及其在文字到視訊和多視圖合成中的應用,非常適合渴望掌握視訊生成未來的人工智慧和數位媒體愛好者。
如果您想閱讀更多論文並擁有更廣闊的視野,這裡是另一個涵蓋2022 年的精彩存儲庫:2022:充滿令人驚嘆的AI 論文的一年- 回顧,並隨時訂閱我的每週通訊並隨時了解最新動態-與 2023 年人工智慧領域的新出版物同步!
如果您分享該列表,請在Twitter @Whats_AI 或LinkedIn @Louis (What's AI) Bouchard 上標記我!
[1] 王成、陳勝、吳勇、張志、週立、劉勝、陳志、劉勇、王紅、李、 J. 和He, L.,2023。到語音合成器,https://arxiv.org/abs/2301.02111
[2] Brooks 等人,2022:InstructPix2Pix,https://arxiv.org/abs/2211.09800
[3] Agostinelli 等人,2023:MusicLM,https://arxiv.org/abs/2301.11325
[4] Esser, P.、Chiu, J.、Atighehchian, P.、Granskog, J. 和 Germanidis, A., 2023。 /2302.03011
[5] Driess, D.、Xia, F.、Sajjadi, MS、Lynch, C.、Chowdhery, A.、Ichter, B.、Wahid, A.、Tompson, J.、Vuong, Q.、Yu, T和Huang, W.,2023。
[6] Kirillov, A.、Mintun, E.、Ravi, N.、Mao, H.、Rolland, C.、Gustafson, L.、Xiao, T.、Whitehead, S.、Berg, AC、Lo, WY和Dollár, P.,2023。
[7] Tewel, Y.、Gal, R.、Chechik, G. 和 Atzmon, Y.,2023 用於文字對影像個人化的按鍵鎖定一級編輯,https://arxiv.org/abs/2305.01644
[8] Pan, X.、Tewari, A.、Leimkühler, T.、Liu, L.、Meka, A. 和Theobalt, C.,2023。點的操作, https://arxiv.org/abs/2305.10973
[9] Li, Z.、Müller, T.、Evans, A.、Taylor, RH、Unberath, M.、Liu, MY 和 Lin, CH, 2023。 IEEE/CVF 電腦視覺與模式辨識會議論文集(第 8456-8465 頁),https://arxiv.org/abs/2306.03092
[10] Zhu, L.、Yang, D.、Zhu, T.、Reda, F.、Chan, W.、Saharia, C.、Norouzi, M. 和 Kemelmacher-Shlizerman, I.,2023。兩個UNet的故事。 IEEE/CVF 電腦視覺與模式辨識會議論文集(第 4606-4615 頁),https://arxiv.org/abs/2306.08276
[11] Yang, S.、Jiang, L.、Liu, Z. 和 Loy, CC, 2023。 arXiv 預印本 arXiv:2303.06146。
[12] Hong,Y.,Zhen,H.,Chen,P.,Zheng,S.,Du,Y.,Chen,Z.和Gan,C.,2023。3d-llm:將3d世界注入大語言模型。 arXiv 預印本 arXiv:2307.12981。
[13] 洪勝、鄭新、陳傑、程勇、張成、王正、丘成賢、林志、週立、冉成. 和Xiao, L.,2023。 。 arXiv 預印本 arXiv:2308.00352。
[14] Liu, H., Li, C., Wu, Q. and Lee, YJ, 2023. 視覺指令調優。 arXiv 預印本 arXiv:2304.08485。
[15] Shi, Y., Wang, P., Ye, J., Long, M., Li, K. and Yang, X., 2023. Mvdream:3d 產生的多視圖擴散。 arXiv 預印本 arXiv:2308.16512。
[16] Gandhi, S.、von Platen, P. 和 Rush, AM,2023。 arXiv 預印本 arXiv:2311.00430。
[17] Blattmann 等人,2023:穩定的視訊擴散。 https://static1.squarespace.com/static/6213c340453c3f502425776e/t/655ce779b9d47d342a93c890/1700587395994/stable_video_iffusion.pdf