儘管世界仍在恢復,但研究並沒有減慢其瘋狂的步伐,尤其是在人工智能領域。更重要的是,今年強調了許多重要方面,例如道德方面,重要的偏見,治理,透明度等。人工智能以及我們對人腦及其與AI的聯繫的理解正在不斷發展,顯示出令人鼓舞的應用,在不久的將來改善了我們生活的質量。不過,我們應該謹慎使用我們選擇採用哪種技術。
“科學不能告訴我們我們應該做什麼,只有我們能做什麼。”
- 讓·保羅·薩特(Jean-Paul Sartre),《存在與虛無》
這是當年最有趣的研究論文,以防您錯過任何一個。簡而言之,它是通過發行日期策劃了AI和數據科學中最新突破的列表,並具有清晰的視頻說明,鏈接到更深入的文章和代碼(如果適用)。享受閱讀!
對每篇論文的完整引用在此存儲庫的末尾列出。明星這個存儲庫保持最新狀態!配x
維護者:Louisfb01
訂閱我的時事通訊 - AI中的最新更新每週都會解釋。
隨意向我發消息,我可能錯過的任何有趣的論文都會添加到此存儲庫中。
如果您共享列表,請在Twitter @Whats_ai或LinkedIn @Lououis(What是AI)上標記我!
2021年排名前10的CV出版物的策劃列表,其中包含清晰的視頻說明,鏈接到更深入的文章和代碼。
2021年的十大計算機視覺論文
?如果您想支持我的工作,並使用W&B(免費)跟踪您的ML實驗,並使您的工作可再現或與團隊合作,則可以通過遵循本指南來嘗試一下!由於這裡的大多數代碼都是基於Pytorch的,因此我們認為在Pytorch上使用W&B的快速啟動指南將最有趣。
遵循此快速指南,在下面的代碼或任何存儲庫中使用相同的W&B行,並在W&B帳戶中自動跟踪所有實驗!設置不超過5分鐘,並且會像對我那樣改變您的生活!如果有興趣,這是一個更高級的指南,用於使用超參數掃描:)
?感謝Weights&Biases贊助此存儲庫和我一直在做的工作,並感謝您使用此鏈接並嘗試W&B的任何人!
Openai成功訓練了一個能夠從文本標題中生成圖像的網絡。它與GPT-3和Image GPT非常相似,並產生了驚人的結果。
Google使用了修改後的Stylegan2體系結構來創建一個在線固定室,您可以在其中只使用自己的圖像來自動嘗試任何想要的褲子或襯衫。
TL; dr:他們將gan和卷積方法的效率與變形金剛的表現力相結合,以產生一種強大且效率的方法,用於語義引導的高質量圖像合成。
從人類能力到AI研究社區的更普遍和值得信賴的AI和10個問題。
Odei Garcia-Garin等。來自巴塞羅那大學(University of Barcelona)開發了一種基於深度學習的算法,能夠從空中圖像中檢測和量化浮動垃圾。他們還製作了一個面向網絡的應用程序,允許用戶在海面圖像中識別這些垃圾,稱為浮動海洋宏觀誤列或FMML。
試想一下,只拍攝對象的照片並將其插入您正在創建的電影或視頻遊戲中或在3D場景中插入以獲取插圖會有多酷。
他們基本上利用了強大的StyleGAN架構中的變形金剛的注意力機制,使其更加強大!
訂閱我的每週新聞通訊,並在2022年的AI中與新出版物保持最新狀態!
您會在AI配置文件上滑動嗎?您可以將實際人與機器區分開嗎?這是這項研究揭示的使用AI-Made-Up人員在約會應用程序上。
變形金剛在計算機視覺中會取代CNN嗎?在不到5分鐘的時間內,您將使用稱為Swin Transformer的新論文將變壓器體系結構應用於計算機視覺。
這個名為ganverse3d的有前途的模型只需要一個圖像來創建一個可以自定義和動畫的3D圖!
“我將公開分享有關視覺應用,其成功以及我們必須解決的局限性的有關深網的所有內容。”
視圖綜合的下一步:永久視圖一代,目標是拍攝圖像進入它並探索景觀!
借助這種AI驅動的神經界面,截肢者可以控制具有生命的靈巧性和直覺的神經假體手。
根據您添加的新背景的照明,適當地重新保留任何肖像。您是否曾經想更改圖片的背景,但看起來很現實?如果您已經嘗試過,那麼您已經知道這並不簡單。您不能只是在家裡拍攝自己的照片,然後更改海灘的背景。它看起來很糟糕,不現實。任何人都會在一秒鐘內說“那是photoshop的”。對於電影和專業視頻,您需要完美的照明和藝術家來複製高質量的圖像,這非常昂貴。您無法用自己的圖片做到這一點。還是可以?
生成3D模型的人類或動物僅從短視頻作為輸入中移動的動物。這是一種新的方法,用於生成人類的3D模型或僅從短視頻作為輸入中移動的動物。確實,它實際上知道這是一個奇怪的形狀,它可以移動,但是仍然需要依戀,因為這仍然是一個“對象”,而不僅僅是許多對像在一起...
該AI可以現場現場應用於視頻遊戲,並改變每個框架以看起來更自然。英特爾實驗室的研究人員剛剛發表了本文,稱增強了光真主的增強。而且,如果您認為這可能只是“另一個gan”,將視頻遊戲的照片作為輸入並按照自然世界的風格進行更改,那麼讓我改變主意。他們在這種模型上工作了兩年,使其非常強大。它可以實時應用於視頻遊戲,並改變每個框架以看起來更自然。試想一下,您可以在遊戲圖形上付出更少的精力,使其超級穩定和完整,然後使用此模型改進樣式...
如何在2021年發現一個深層假的偽造。使用人工智能來尋找深層捕獲的美國陸軍技術。
雖然他們似乎一直都去過那裡,但直到2017年才出現的第一個現實的深擊才出現。它從有史以來的第一個類似的假圖像到自動生成的偽造圖像到當今的視頻中的某人相同的副本,並帶有聲音。
現實情況是,我們再也看不到真實的視頻或圖片與深擊之間的區別了。我們怎麼能說出什麼不是什麼?如果AI能夠完全生成它們,如何在法庭上使用音頻文件或視頻文件作為證明?好吧,這篇新論文可能會為這些問題提供答案。這裡的答案可能再次是人工智能的使用。 “我會看到它時我會相信它”的說法很快就會改變“當AI告訴我相信它時,我會相信的……”
使用這種基於機器學習的方法實時將任何樣式實時應用於您的4K圖像!
本文本身並不是關於新技術的。相反,這是關於gan的新的令人興奮的應用。確實,您看到了標題,而不是點擊誘餌。這個人工智能可以轉移您的頭髮,以查看在進行更改之前的外觀……
這種新的Facebook AI模型可以按照相同的樣式直接用您自己的語言翻譯或編輯文本!
想像一下,您在另一個不說語言的國家度假。您想嘗試當地餐廳,但他們的菜單是您不會說的語言。我認為這不會太難想像,因為無論您看到菜單項還是指示,您都已經面對這種情況,而且您無法理解寫的內容。好吧,在2020年,您將拿出手機,然後Google翻譯您所看到的內容。在2021年,您甚至不需要再打開Google翻譯,而是嘗試將您看到的內容逐一寫入翻譯。相反,您可以簡單地使用Facebook AI使用此新模型來以您自己的語言翻譯圖像中的每個文本…
如果您也想閱讀更多研究論文,建議您閱讀我的文章,其中我分享了我查找和閱讀更多研究論文的最佳技巧。
該模型拍攝了一張圖片,了解哪些粒子應該在移動,並在無限的循環中將它們實際上動畫起來,同時完全保存其餘圖片仍在完全創建像這樣的令人驚嘆的視頻...
使用修改後的GAN體系結構,它們可以在圖像中移動對象而不會影響背景或其他對象!
找出該新模型如何從單詞中生成代碼!
Apple使用在設備上私下運行的多個基於機器學習的算法,使您可以準確地策劃和整理iOS 15上的圖像和視頻。
告別複雜的gan和變壓器體系結構,以生成圖像! Chenling Meng等人的這種新方法。來自斯坦福大學和卡內基·梅隆大學(Carnegie Mellon University)可以從任何基於用戶的輸入中產生新圖像。即使像我這樣具有零藝術能力的人,現在也可以通過快速草圖產生美麗的圖像或修改...
通過草圖生成圖像,使每個人更輕鬆地訓練甘斯訓練!確實,惠特這種新方法,您可以根據可以提供的最簡單的知識類型來控制gan的輸出:手繪草圖。
如果您想知道特斯拉汽車不僅可以看到,還可以用其他車輛在道路上航行,這就是您正在等待的視頻。幾天前,Tesla AI日是特斯拉AI主任Andrej Karpathy,其他人則介紹了特斯拉的自動駕駛儀如何通過其八台相機從圖像獲取到道路的導航過程。
AI可以生成圖像,然後使用大量的腦力和反複試驗,研究人員可以控制以下特定樣式的結果。現在,有了這個新型號,您只能使用文本來完成此操作!
Timelens可以理解視頻框架之間的粒子的運動,以重建即使是我們的眼睛也看不到的速度實際發生的事情。實際上,它實現了我們智能手機和其他模型以前無法達到的結果!
訂閱我的每週新聞通訊,並在2022年的AI中與新出版物保持最新狀態!
您想編輯視頻嗎?
刪除或添加某人,更改背景,使其持續時間更長,或更改分辨率以擬合特定的長寬比而不壓縮或拉伸。對於那些已經開展廣告活動的人來說,您當然想擁有視頻的變化進行AB測試,並查看最有效的視頻。好吧,Niv Haim等人的這項新研究。可以通過單個視頻和高清幫助您完成所有這些操作!
確實,使用一個簡單的視頻,您可以執行我在幾秒鐘或幾分鐘內提到的任何任務,以獲取高質量的視頻。您基本上可以將其用於您想到的任何視頻操作或視頻生成應用程序。它甚至在各種方面都超越了甘恩,並且不使用任何深度學習的幻想研究,也不需要一個龐大且不切實際的數據集!最好的是,該技術可擴展到高分辨率視頻。
DeepMind剛剛發布了一種生成模型,能夠在89%的情況下超過50多種專家氣象學家評估的準確性和實用性,以超過89%的情況下使用廣泛使用的現狀方法!他們的模型著重於預測接下來的兩個小時的降水量,並出乎意料地實現了這一點。它是一個生成模型,這意味著它將生成預測,而不是簡單地預測它們。它基本上從過去獲取雷達數據來創建未來的雷達數據。因此,使用過去的時間和空間組件,它們可以在不久的將來產生它的外觀。
您可以將其視為與Snapchat過濾器相同的,拿起臉並產生一個帶有修改的新面孔。要訓練這樣的生成模型,您需要從人的面孔和想要生成的那種面孔的數據中進行大量數據。然後,使用經過多個小時的非常相似的模型,您將擁有一個強大的生成模型。這種模型經常使用gans體系結構進行培訓,然後獨立使用發電機模型。
您是否曾經調到視頻或電視節目,演員完全聽不清,或者音樂太大了?好吧,這個問題也稱為雞尾酒會問題,可能再也不會發生。三菱和印第安納大學剛剛發布了一種新的模型以及一個新的數據集,以應對這項確定合適配樂的任務。例如,如果我們採用相同的音頻剪輯,那麼我們只是用音樂來跑得太大,您可以簡單地向上或淡化您想要比音樂更重要的音軌。
這裡的問題是將任何獨立的聲音源與復雜的聲學場景(例如電影場景或YouTube視頻)隔離開來,其中有些聲音無法平衡。有時,您只是因為音樂播放,爆炸或其他環境聲音而聽不到某些演員。好吧,如果您成功地隔離了配樂中的不同類別,則意味著您也只能向上或下降其中的一個,例如稍微調低音樂以正確聽到所有其他演員。這正是研究人員所取得的成就。
想像一下,您想從您拍攝的一堆圖片中生成3D模型或簡單的流體視頻。好吧,現在有可能!我不想透露太多,但是結果簡直令人驚訝,您需要自己檢查一下!
您是否曾經夢想過拍攝圖片的風格,例如左側的這種酷炫的Tiktok繪圖風格,並將其應用於您選擇的新圖片中?好吧,我做到了,而且從未更容易做。實際上,您甚至只能從文本中實現這一目標,並且可以使用此新方法及其Google COLAB筆記本現在可以嘗試(請參閱參考文獻)。只需拍攝要復制的樣式的圖片,輸入要生成的文本,此算法就會從中生成新圖片!回顧上面的結果,這麼大的一步就可以了!結果非常令人印象深刻,尤其是如果您認為它們是由單行文本製成的!
您是否曾經有一個您真正喜歡的圖像,並且只能設法找到它的小版本,看起來像下面的圖像?如果您可以拍攝這張圖像並使其兩倍好,那將有多酷?太好了,但是如果您可以使其高四到八倍的高清晰度,該怎麼辦?現在我們在談論,只要看一下。
在這裡,我們將圖像的分辨率提高了四倍,這意味著我們的高度和寬度像素多四倍,以獲取更多細節,使其看起來更加順暢。最好的事情是,這是在幾秒鐘內完全自動完成的,並且幾乎可以使用任何圖像。哦,您甚至可以自己使用的演示自己使用它...
從快速草稿中控制任何功能,它只會編輯您想要的內容,使其餘圖像保持不變!基於Nvidia,MIT和Uoft的gans的草圖模型的SOTA圖像編輯。
該模型稱為Citynerf,並從Nerf生長,我以前在頻道上介紹了該模型。 NERF是使用RadIance字段和機器學習來構建圖像中的3D模型的最早模型之一。但是nerf並不是那麼有效,並且可以單一尺度工作。在這裡,Citynerf同時將Citynerf應用於衛星和地面圖像上,以生成各種3D模型尺度。簡而言之,它們將NERF帶到城市規模。但是如何?
我們已經看到AI使用gan從其他圖像中生成圖像。然後,有一些模型能夠使用文本生成可疑的圖像。在2021年初,DALL-E發布了以前的所有嘗試,嘗試使用Clip從文本輸入中生成圖像,該模型將圖像與文本鏈接為指導。一個非常相似的任務稱為圖像字幕聽起來真的很簡單,但實際上同樣複雜。這是機器生成圖像自然描述的能力。簡單地標記您在圖像中看到的對像很容易,但是了解單個二維圖片中發生的事情是另一個挑戰,而這種新模型非常好...
如果您想閱讀更多論文並擁有更廣闊的視野,這是您介紹2020:2020的另一個很棒的存儲庫:一年充滿了令人驚嘆的AI論文- 一份評論,並隨時訂閱我的每週新聞通訊並保持最新狀態 - 與2022年AI的新出版物一起使用!
如果您共享列表,請在Twitter @Whats_ai或LinkedIn @Lououis(What是AI)上標記我!
[1] A. Ramesh等人,零射擊文本到圖像生成,2021。Arxiv:2102.12092
[2] Lewis,Kathleen M等人,(2021),Vogue:the-On by Stylegan插值優化。
[3]馴服用於高分辨率圖像合成的變壓器,Esser等,2020。
[4]在AI,Booch等人(2020),https://arxiv.org/abs/2010.06002中快速思考。
[5] Odei Garcia-Garin等人,空中圖像中浮動海洋宏觀單位的自動檢測和量化:引入一種新穎的深度學習方法,該方法與R,環境污染中的Web應用程序相連,https:// doi.org/ https://doi.org/ 10.1016/j.envpol.2021.116490。
[6] Rematas,K.,Martin-Brualla,R。和Ferrari,V。,“ Sharf:單一視圖的形狀條件輻射場”,(2021),https://arxiv.org/abs/2102.08860
[7] Drew A. Hudson和C. Lawrence Zitnick,《生成對抗變壓器》,(2021年)
[8] Sandra Bryant等人,“我們要求人工智能創建約會概況。您會滑動對嗎?
[9] Liu,Z。等,2021,“ Swin Transformer:使用移位窗口的層次視覺變壓器”,Arxiv Preprint https://arxiv.org/abs/2103.14030v1
[10] Zhang,Y.,Chen,W.,Ling,H.,Gao,J.,Zhang,Y.,Torralba,A。和Fidler,S. 3D神經渲染。 ARXIV預印型ARXIV:2010.09125。
[11] Yuille,Al和C. Liu,2021年。深網:他們為視力做了什麼?國際計算機視覺雜誌,129(3),第781–802頁,https://arxiv.org/abs/1805.04025。
[12] Liu,A.,Tucker,R.,Jampani,V.,Makadia,A.,Snavely,N。和Kanazawa,A. ://arxiv.org/pdf/2012.09855.pdf
[13] Nguyen&Drealan等。 (2021)具有基於深度學習的手指控制的便攜式,獨立的神經假體手:https://arxiv.org/abs/2103.13452
[14] Pandey et al., 2021, Total Relighting: Learning to Relight Portraits for Background Replacement, doi: 10.1145/3450626.3459872, https://augmentedperception.github.io/total_relighting/total_relighting_paper.pdf.
[15] Gengshan Yang等人,(2021),LASR:從單眼視頻中學習清晰的形狀重建,CVPR,https://lasr-google.github.io/。
[16] Richter,Abu Alhaija,Koltun,(2021),“增強光真實主義增強”,https://intel-isl.github.io/photorealismenhancement/。
[17] Deepfakehop:Chen,Hong-Shuo等,(2021),“ Defakehop:輕巧的高性能深擊探測器。” ARXIV ABS/2103.06929。
[18] Liang,Jie和Zeng,Hui和Zhang,Lei,Lei,(2021),“實時的高分辨率影像圖像翻譯:Laplacian金字塔翻譯網絡”,https://export.arxiv.arxiv.org.org /pdf/ 2105.09188.pdf。
[19] Peihao Zhu等人,(2021),理髮店,https://arxiv.org/pdf/2106.01505.pdf。
[20] Praveen Krishnan,Rama Kovvuri,Guan Pang,Boris Vassilev和Tal Hassner,Facebook AI(2021),“ TextStylebrush:從一個示例中轉移文本美學”。
[21] Holynski,Aleksander等。 “用歐拉運動場來動畫圖片。” IEEE/CVF計算機視覺和模式識別會議論文集。 2021。
[22] Michael Niemeyer和Andreas Geiger(2021),“長頸鹿:代表場景為構圖生成神經特徵領域”,發表在CVPR 2021中。
[23] Chen,M.,Tworek,J.,Jun,H.,Yuan,Q.,Pinto,HPDO,HPDO,Kaplan,J.,Edwards,H.,Burda,Y.,Joseph,N. 。 ARXIV預印型ARXIV:2107.03374。
[24]蘋果,“通過私人設備機器學習在照片中認識照片”,(2021),https://machinelearning.apple.com/research/recopnizing-people-photos
[25] Meng,C.,Song,Y.,Song,J.,Wu,J.,Zhu,Jy和Ermon,S.,2021。Sdedit:圖像合成和編輯隨機微分方程。 ARXIV預印型ARXIV:2108.01073。
[26] Wang,Sy,Bau,D。和Zhu,Jy,2021年。素描您自己的gan。在IEEE/CVF國際計算機願景會議論文集(第14050-14060頁)中。
[27]“特斯拉AI日”,特斯拉,2021年8月19日,https://youtu.be/j0z4fwecy4m
[28] Patashnik等人,(2021年),“ StyleClip:text-trive-the tylegan圖像的操縱。”,https://arxiv.org/abs/2103.17249
[29] Stepan Tulyakov*,Daniel Gehrig*,Stamatios Georgoulis,Julius Erbach,Mathias Gehrig,Yuanyou Li,Davide Scaramuzza,Timelens:基於事件的視頻框架插值,IEEE,IEEE計算機視覺和圖案識別(CVPR),納什維爾, 20211年, ,http://rpg.ifi.uzh.ch/docs/cvpr21_gehrig.pdf
[30] Haim,N.,Feinstein,B.,Granot,N.,Shocher,A.,Bagon,S.,Dekel,T。,&Irani,M。(2021)。從單個視頻中獲得的多元化成為可能,https://arxiv.org/abs/2109.08591。
[31] Ravuri,S.,Lenc,K.,Willson,M.,Kangin,D.,Lam,R.,Mirowski,P.,Fitzsimons,M.,Athanassiadou,M.,Kashem,S.,Madge, Madge, S. and Prudden,R.,2021。熟練的降水使用雷達的深層生成模型,https://www.nature.com/articles/s41586-021-03854-z
[32] Petermann,D.,Wichern,G.,Wang,Z。,&Roux,JL(2021)。雞尾酒叉問題:現實世界配樂的三型音頻分離。 https://arxiv.org/pdf/2110.09958.pdf。
[33]Rückert,D.,Franke,L。和Stamminger,M.,2021年。採用:近似可區分的單像素點渲染,https://arxiv.org/pdf/2110.066635.pdf。
[34] a)剪貼畫:通過語言圖像編碼器探索文本到繪製的綜合
b)StyleClipDraw:Schaldenbrand,P.,Liu,Z。和Oh,J.,2021。StyleClipDraw:在文本到繪製合成中的耦合內容和样式。
[35] Liang,J.,Cao,J.,Sun,G.,Zhang,K.,Van Gool,L。和Timofte,R.,2021。Swinir:使用Swin Transformer使用Swin Transformer的圖像修復。在IEEE/CVF國際計算機願景會議論文集(第1833-1844頁)。
[36] Ling,H.,Kreis,K.,Li,D.,Kim,SW,Torralba,A。和Fidler,S.,2021年,5月。 Editgan:高精度語義圖像編輯。在第三十五次關於神經信息處理系統的會議上。
[37] Xiangli,Y.,Xu,L.,Pan,X.,Zhao,N.,Rao,A.城市規模。
[38] Mokady,R.,Hertz,A。和Bermano,AH,2021年。剪貼畫:圖像字幕的剪輯前綴。 https://arxiv.org/abs/2111.09734