Sementara dunia masih pulih, penelitian belum memperlambat kecepatannya yang hingar -bingar, terutama di bidang kecerdasan buatan. Lebih banyak, banyak aspek penting disorot tahun ini, seperti aspek etika, bias penting, tata kelola, transparansi dan banyak lagi. Kecerdasan buatan dan pemahaman kita tentang otak manusia dan hubungannya dengan AI terus berkembang, menunjukkan aplikasi yang menjanjikan meningkatkan kualitas hidup kita dalam waktu dekat. Namun, kami harus berhati -hati dengan teknologi mana yang kami pilih untuk diterapkan.
"Sains tidak bisa memberi tahu kita apa yang seharusnya kita lakukan, hanya apa yang bisa kita lakukan."
- Jean-Paul Sartre, Being and Nothingness
Berikut adalah makalah penelitian paling menarik tahun ini, jika Anda melewatkan salah satu dari mereka. Singkatnya, ini dikuratori daftar terobosan terbaru dalam AI dan ilmu data berdasarkan tanggal rilis dengan penjelasan video yang jelas, tautan ke artikel yang lebih mendalam, dan kode (jika berlaku). Nikmati bacaannya!
Referensi lengkap untuk setiap kertas tercantum di akhir repositori ini. Bintang repositori ini agar tetap up to date! ️
Pemelihara: LouisfB01
Berlangganan buletin saya - pembaruan terbaru di AI dijelaskan setiap minggu.
Jangan ragu untuk mengirimi saya kertas menarik yang mungkin saya lewatkan untuk ditambahkan ke repositori ini.
Tag saya di twitter @whats_ai atau linkedin @louis (apa ai) bouchard jika Anda berbagi daftar!
Daftar publikasi 10 CV teratas yang dikuratori pada tahun 2021 dengan penjelasan video yang jelas, tautan ke artikel yang lebih mendalam, dan kode.
10 kertas visi komputer teratas tahun 2021
? Jika Anda ingin mendukung pekerjaan saya dan menggunakan W&B (gratis) untuk melacak eksperimen ML Anda dan membuat pekerjaan Anda dapat direproduksi atau berkolaborasi dengan tim, Anda dapat mencobanya dengan mengikuti panduan ini! Karena sebagian besar kode di sini berbasis Pytorch, kami berpikir bahwa panduan QuickStart untuk menggunakan W&B di Pytorch akan paling menarik untuk dibagikan.
Ikuti panduan cepat ini, gunakan baris W&B yang sama dalam kode Anda atau salah satu repo di bawah ini, dan minta semua eksperimen Anda secara otomatis dilacak di akun W&B Anda! Tidak perlu lebih dari 5 menit untuk mengatur dan akan mengubah hidup Anda seperti halnya bagi saya! Berikut panduan yang lebih canggih untuk menggunakan sapuan hiperparameter jika tertarik :)
? Terima kasih untuk Bobot & Bias untuk mensponsori repositori ini dan pekerjaan yang telah saya lakukan, dan terima kasih kepada Anda yang menggunakan tautan ini dan mencoba W&B!
Openai berhasil melatih jaringan yang dapat menghasilkan gambar dari teks teks. Ini sangat mirip dengan GPT-3 dan Image GPT dan menghasilkan hasil yang luar biasa.
Google menggunakan arsitektur StyleGan2 yang dimodifikasi untuk membuat ruang pemasangan online di mana Anda dapat secara otomatis mencoba celana atau kemeja yang Anda inginkan hanya menggunakan gambar diri Anda.
TL; DR: Mereka menggabungkan efisiensi GAN dan pendekatan konvolusional dengan ekspresifitas transformator untuk menghasilkan metode yang kuat dan efisien waktu untuk sintesis gambar berkualitas tinggi yang dipandu secara semantik.
Menggambar inspirasi dari kemampuan manusia menuju pertanyaan AI & 10 yang lebih umum dan dapat dipercaya untuk komunitas riset AI.
Odei Garcia-Garin et al. Dari University of Barcelona telah mengembangkan algoritma berbasis pembelajaran yang mendalam untuk mendeteksi dan mengukur sampah mengambang dari gambar udara. Mereka juga membuat aplikasi berorientasi web yang memungkinkan pengguna untuk mengidentifikasi sampah ini, yang disebut floating marine makro-litter, atau FMML, di dalam gambar permukaan laut.
Bayangkan saja betapa kerennya mengambil gambar objek dan memilikinya dalam 3D untuk dimasukkan ke dalam film atau video game yang Anda buat atau dalam adegan 3D untuk ilustrasi.
Mereka pada dasarnya memanfaatkan mekanisme perhatian Transformers dalam arsitektur StyleGan2 yang kuat untuk membuatnya lebih kuat!
Berlangganan buletin mingguan saya dan tetap mutakhir dengan publikasi baru di AI untuk 2022!
Maukah Anda menggesekkan profil AI? Bisakah Anda membedakan manusia yang sebenarnya dari mesin? Inilah yang diungkapkan oleh penelitian ini menggunakan orang-orang buatan AI pada aplikasi kencan.
Akankah Transformers Mengganti CNN dalam Visi Komputer? Dalam waktu kurang dari 5 menit, Anda akan tahu bagaimana arsitektur transformator dapat diterapkan pada visi komputer dengan kertas baru yang disebut Swin Transformer.
Model yang menjanjikan yang disebut Ganverse3D ini hanya membutuhkan gambar untuk membuat angka 3D yang dapat disesuaikan dan dianimasikan!
"Saya akan secara terbuka membagikan segalanya tentang jaring yang dalam untuk aplikasi visi, keberhasilan mereka, dan keterbatasan yang harus kami atasi."
Langkah selanjutnya untuk sintesis view: generasi pandangan abadi, di mana tujuannya adalah untuk mengambil gambar untuk terbang ke dalamnya dan menjelajahi lanskap!
Dengan antarmuka saraf bertenaga AI ini, orang yang diamputasi dapat mengendalikan tangan neuroprostetik dengan ketangkasan dan intuitif seperti kehidupan.
Menghasilkan kembali potret apa pun dengan benar berdasarkan pencahayaan latar belakang baru yang Anda tambahkan. Pernahkah Anda ingin mengubah latar belakang gambar tetapi sudah terlihat realistis? Jika Anda sudah mencobanya, Anda sudah tahu bahwa itu tidak sederhana. Anda tidak bisa hanya mengambil foto diri Anda di rumah Anda dan mengubah latar belakang pantai. Itu hanya terlihat buruk dan tidak realistis. Siapa pun hanya akan mengatakan "Itu Photoshopped" dalam sedetik. Untuk film dan video profesional, Anda memerlukan pencahayaan yang sempurna dan artis untuk mereproduksi citra berkualitas tinggi, dan itu sangat mahal. Tidak mungkin Anda bisa melakukannya dengan foto Anda sendiri. Atau bisakah kamu?
Hasilkan model 3D manusia atau hewan yang bergerak hanya dari video pendek sebagai input. Ini adalah metode baru untuk menghasilkan model 3D manusia atau hewan yang bergerak hanya dari video pendek sebagai input. Memang, itu benar -benar memahami bahwa ini adalah bentuk yang aneh, bahwa ia dapat bergerak, tetapi masih perlu tetap terpasang karena ini masih satu "objek" dan bukan hanya banyak objek bersama ...
AI ini dapat diterapkan secara langsung ke video game dan mengubah setiap bingkai agar terlihat jauh lebih alami. Para peneliti dari Intel Labs baru saja menerbitkan makalah ini yang disebut peningkatan fotorealisme. Dan jika Anda berpikir bahwa ini mungkin "hanyalah gan lain," mengambil gambar video game sebagai input dan mengubahnya mengikuti gaya dunia alami, izinkan saya mengubah pikiran Anda. Mereka mengerjakan model ini selama dua tahun untuk membuatnya sangat kuat. Ini dapat diterapkan secara langsung ke video game dan mengubah setiap bingkai agar terlihat jauh lebih alami. Bayangkan saja kemungkinan di mana Anda dapat berupaya lebih sedikit ke dalam grafik game, membuatnya sangat stabil dan lengkap, kemudian meningkatkan gaya menggunakan model ini ...
Cara menemukan palsu yang dalam pada tahun 2021. Terobosan teknologi Angkatan Darat AS menggunakan kecerdasan buatan untuk menemukan Deepfake.
Sementara mereka tampak seperti selalu ada di sana, Deepfake realistis pertama tidak muncul sampai 2017. Itu berubah dari gambar palsu pertama yang dihasilkan secara otomatis ke salinan seseorang yang identik dari seseorang di video, dengan suara.
Kenyataannya adalah bahwa kita tidak dapat melihat perbedaan antara video atau gambar nyata dan Deepfake lagi. Bagaimana kita bisa tahu apa yang nyata dari apa yang bukan? Bagaimana file audio atau file video dapat digunakan di pengadilan sebagai bukti jika AI dapat sepenuhnya menghasilkannya? Nah, makalah baru ini dapat memberikan jawaban atas pertanyaan -pertanyaan ini. Dan jawabannya di sini mungkin sekali lagi penggunaan kecerdasan buatan. Pepatah "Saya akan percaya ketika saya akan melihatnya" mungkin segera berubah untuk "Saya akan percaya ketika AI menyuruh saya untuk mempercayainya ..."
Terapkan gaya apa pun ke gambar 4K Anda secara real-time menggunakan pendekatan berbasis pembelajaran mesin baru ini!
Artikel ini bukan tentang teknologi baru itu sendiri. Sebaliknya, ini tentang aplikasi GANS yang baru dan menarik. Memang, Anda melihat judulnya, dan itu bukan clickbait. AI ini dapat mentransfer rambut Anda agar terlihat seperti sebelum berkomitmen pada perubahan ...
Model AI Facebook baru ini dapat menerjemahkan atau mengedit teks secara langsung dalam gambar dalam bahasa Anda sendiri, mengikuti gaya yang sama!
Bayangkan Anda sedang berlibur di negara lain di mana Anda tidak berbicara bahasa. Anda ingin mencoba restoran lokal, tetapi menu mereka dalam bahasa yang tidak Anda bicarakan. Saya pikir ini tidak akan terlalu sulit untuk dibayangkan karena kebanyakan dari kita sudah menghadapi situasi ini apakah Anda melihat item menu atau arah dan Anda tidak dapat memahami apa yang tertulis. Nah, pada tahun 2020, Anda akan mengeluarkan ponsel Anda dan Google menerjemahkan apa yang Anda lihat. Pada tahun 2021 Anda bahkan tidak perlu membuka Google Translate lagi dan mencoba menulis apa yang Anda lihat satu per satu untuk menerjemahkannya. Sebagai gantinya, Anda dapat menggunakan model baru ini oleh Facebook AI untuk menerjemahkan setiap teks dalam gambar dalam bahasa Anda sendiri…
Jika Anda juga ingin membaca makalah penelitian lebih lanjut, saya sarankan Anda membaca artikel saya di mana saya membagikan tips terbaik saya untuk menemukan dan membaca lebih banyak makalah penelitian.
Model ini mengambil gambar, memahami partikel mana yang seharusnya bergerak, dan secara realistis menjiwai mereka dalam lingkaran tak terbatas sambil melestarikan sisa gambar yang masih membuat video yang tampak luar biasa seperti ini ...
Menggunakan arsitektur GAN yang dimodifikasi, mereka dapat memindahkan objek pada gambar tanpa mempengaruhi latar belakang atau objek lainnya!
Cari tahu bagaimana model baru ini dari OpenAI menghasilkan kode dari kata -kata!
Menggunakan beberapa algoritma berbasis pembelajaran mesin yang berjalan secara pribadi di perangkat Anda, Apple memungkinkan Anda untuk secara akurat mengkuratori dan mengatur gambar dan video Anda di iOS 15.
Ucapkan selamat tinggal pada arsitektur gan dan transformator yang kompleks untuk pembuatan gambar! Metode baru ini oleh Chenling Meng et al. Dari Universitas Stanford dan Universitas Carnegie Mellon dapat menghasilkan gambar baru dari input berbasis pengguna apa pun. Bahkan orang -orang seperti saya dengan keterampilan artistik nol sekarang dapat menghasilkan gambar atau modifikasi yang indah dari sketsa cepat ...
Buat pelatihan GANS lebih mudah untuk semua orang dengan menghasilkan gambar mengikuti sketsa! Memang, sedikit pun metode baru ini, Anda dapat mengontrol output GAN Anda berdasarkan jenis pengetahuan paling sederhana yang dapat Anda berikan: sketsa yang ditarik dengan tangan.
Jika Anda bertanya -tanya bagaimana mobil Tesla tidak hanya dapat melihat tetapi menavigasi jalan dengan kendaraan lain, ini adalah video yang Anda tunggu. Beberapa hari yang lalu adalah hari Tesla AI pertama di mana Andrej Karpathy, direktur AI di Tesla, dan yang lainnya mempresentasikan bagaimana autopilot Tesla bekerja dari akuisisi gambar melalui delapan kamera mereka ke proses navigasi di jalan.
AI dapat menghasilkan gambar, kemudian, menggunakan banyak daya otak dan coba -coba, para peneliti dapat mengendalikan hasil mengikuti gaya spesifik. Sekarang, dengan model baru ini, Anda dapat melakukannya hanya menggunakan teks!
Timelens dapat memahami pergerakan partikel di antara bingkai video untuk merekonstruksi apa yang sebenarnya terjadi dengan kecepatan yang bahkan tidak dapat dilihat oleh mata kita. Bahkan, itu mencapai hasil bahwa ponsel cerdas kami dan tidak ada model lain yang dapat dicapai sebelumnya!
Berlangganan buletin mingguan saya dan tetap mutakhir dengan publikasi baru di AI untuk 2022!
Pernahkah Anda ingin mengedit video?
Hapus atau tambahkan seseorang, ubah latar belakang, buat itu bertahan sedikit lebih lama, atau ubah resolusi agar sesuai dengan rasio aspek tertentu tanpa mengompresi atau meregangkannya. Bagi Anda yang sudah menjalankan kampanye iklan, Anda tentu ingin memiliki variasi video Anda untuk pengujian AB dan melihat apa yang paling berhasil. Nah, penelitian baru ini oleh NIV Haim et al. Dapat membantu Anda melakukan semua ini dari satu video dan dalam HD!
Memang, menggunakan video sederhana, Anda dapat melakukan tugas apa pun yang baru saja saya sebutkan dalam hitungan detik atau beberapa menit untuk video berkualitas tinggi. Anda pada dasarnya dapat menggunakannya untuk manipulasi video atau aplikasi pembuatan video apa pun yang ada dalam pikiran Anda. Bahkan mengungguli gans dalam segala hal dan tidak menggunakan penelitian mewah yang mendalam atau membutuhkan dataset yang besar dan tidak praktis! Dan yang terbaik adalah teknik ini dapat diskalakan untuk video resolusi tinggi.
DeepMind baru saja merilis model generatif yang mampu mengungguli metode sekarang yang digunakan secara luas dalam 89% situasi karena keakuratan dan kegunaannya yang dinilai oleh lebih dari 50 ahli meteorologi ahli! Model mereka berfokus pada memprediksi endapan dalam 2 jam ke depan dan mencapai itu dengan sangat baik. Ini adalah model generatif, yang berarti akan menghasilkan ramalan alih -alih hanya memprediksi mereka. Ini pada dasarnya mengambil data radar dari masa lalu untuk membuat data radar di masa depan. Jadi menggunakan komponen waktu dan spasial dari masa lalu, mereka dapat menghasilkan seperti apa jadinya dalam waktu dekat.
Anda dapat melihat ini sama dengan filter Snapchat, mengambil wajah Anda dan menghasilkan wajah baru dengan modifikasi di atasnya. Untuk melatih model generatif seperti itu, Anda memerlukan banyak data dari wajah manusia dan jenis wajah yang ingin Anda hasilkan. Kemudian, menggunakan model yang sangat mirip yang dilatih selama berjam -jam, Anda akan memiliki model generatif yang kuat. Model semacam ini sering menggunakan arsitektur GANS untuk tujuan pelatihan dan kemudian menggunakan model generator secara mandiri.
Pernahkah Anda mendengarkan video atau acara TV dan para aktor benar -benar tidak terdengar, atau musiknya terlalu keras? Nah, masalah ini, juga disebut masalah pesta koktail, mungkin tidak akan pernah terjadi lagi. Mitsubishi dan Universitas Indiana baru saja menerbitkan model baru serta dataset baru yang menangani tugas ini mengidentifikasi soundtrack yang tepat. Misalnya, jika kami mengambil klip audio yang sama, kami baru saja berlari dengan musik terlalu keras, Anda bisa memunculkan atau ke bawah trek audio yang ingin Anda berikan lebih penting pada pidato daripada musik.
Masalahnya di sini adalah mengisolasi sumber suara independen dari adegan akustik yang kompleks seperti adegan film atau video YouTube di mana beberapa suara tidak seimbang. Kadang -kadang Anda tidak dapat mendengar beberapa aktor karena pemutaran musik atau ledakan atau suara ambien lainnya di latar belakang. Nah, jika Anda berhasil mengisolasi kategori yang berbeda dalam soundtrack, itu berarti Anda juga dapat memunculkan atau turun hanya satu dari mereka, seperti menolak musik sedikit untuk mendengar semua aktor lain dengan benar. Inilah yang dicapai para peneliti.
Bayangkan Anda ingin menghasilkan model 3D atau hanya video cairan dari banyak gambar yang Anda ambil. Nah, sekarang mungkin! Saya tidak ingin memberikan terlalu banyak, tetapi hasilnya luar biasa dan Anda perlu memeriksanya sendiri!
Pernahkah Anda bermimpi mengambil gaya gambar, seperti gaya menggambar Tiktok yang keren ini di sebelah kiri, dan menerapkannya pada gambar baru pilihan Anda? Ya, saya melakukannya, dan tidak pernah semudah ini. Bahkan, Anda bahkan dapat mencapainya hanya dari teks dan dapat mencobanya sekarang dengan metode baru ini dan notebook Google Colab mereka tersedia untuk semua orang (lihat referensi). Cukup ambil gambar gaya yang ingin Anda salin, masukkan teks yang ingin Anda hasilkan, dan algoritma ini akan menghasilkan gambar baru dari itu! Lihat saja hasilnya di atas, langkah maju yang begitu besar! Hasilnya sangat mengesankan, terutama jika Anda menganggap bahwa mereka dibuat dari satu baris teks!
Pernahkah Anda memiliki gambar yang benar -benar Anda sukai dan hanya bisa menemukan versi kecil yang tampak seperti gambar di bawah ini di sebelah kiri? Seberapa keren jika Anda bisa mengambil gambar ini dan membuatnya dua kali terlihat bagus? Ini bagus, tetapi bagaimana jika Anda bisa membuatnya bahkan empat atau delapan kali lebih tinggi definisi tinggi? Sekarang kita berbicara, lihat saja.
Di sini kami meningkatkan resolusi gambar dengan faktor empat, yang berarti bahwa kami memiliki piksel tinggi dan lebar empat kali lebih banyak untuk lebih jelasnya, membuatnya terlihat jauh lebih halus. Hal terbaik adalah bahwa ini dilakukan dalam beberapa detik, sepenuhnya secara otomatis, dan bekerja dengan hampir semua gambar. Oh, dan Anda bahkan dapat menggunakannya sendiri dengan demo yang mereka sediakan ...
Kontrol fitur apa pun dari draft cepat, dan itu hanya akan mengedit apa yang Anda inginkan menjaga sisa gambar yang sama! Pengeditan gambar sota dari model sketsa berdasarkan gans oleh nvidia, mit dan uoft.
Model ini disebut Citynerf dan tumbuh dari NERF, yang sebelumnya saya bahas di saluran saya. NERF adalah salah satu model pertama yang menggunakan bidang pancaran dan pembelajaran mesin untuk membangun model 3D dari gambar. Tetapi NERF tidak seefisien dan bekerja untuk skala tunggal. Di sini, Citynerf diterapkan pada gambar satelit dan permukaan tanah pada saat yang sama untuk menghasilkan berbagai skala model 3D untuk sudut pandang apa pun. Dengan kata-kata sederhana, mereka membawa nerf ke skala kota. Tapi bagaimana caranya?
Kami telah melihat AI menghasilkan gambar dari gambar lain menggunakan GANS. Kemudian, ada model yang dapat menghasilkan gambar yang dipertanyakan menggunakan teks. Pada awal 2021, Dall-E diterbitkan, mengalahkan semua upaya sebelumnya untuk menghasilkan gambar dari input teks menggunakan klip, model yang menautkan gambar dengan teks sebagai panduan. Tugas yang sangat mirip yang disebut captioning gambar mungkin terdengar sangat sederhana tetapi, pada kenyataannya, sama rumitnya. Ini adalah kemampuan mesin untuk menghasilkan deskripsi alami dari suatu gambar. Sangat mudah untuk hanya menandai objek yang Anda lihat pada gambar tetapi merupakan tantangan lain untuk memahami apa yang terjadi dalam satu gambar 2 dimensi, dan model baru ini melakukannya dengan sangat baik ...
Jika Anda ingin membaca lebih banyak makalah dan memiliki pandangan yang lebih luas, berikut adalah repositori hebat lainnya untuk Anda yang meliput 2020: 2020: setahun penuh dengan makalah AI yang luar biasa- ulasan dan jangan ragu untuk berlangganan buletin mingguan saya dan tetap mutakhir -Data dengan publikasi baru di AI untuk 2022!
Tag saya di twitter @whats_ai atau linkedin @louis (apa ai) bouchard jika Anda berbagi daftar!
[1] A. Ramesh et al., Generasi Teks-ke-Teks Zero-Shot, 2021. Arxiv: 2102.12092
[2] Lewis, Kathleen M et al., (2021), Vogue: TRY-ON oleh Optimasi Interpolasi StyleGan.
[3] Taming Transformers untuk Sintesis Gambar Resolusi Tinggi, Esser et al., 2020.
[4] Berpikir cepat dan lambat di AI, Booch et al., (2020), https://arxiv.org/abs/2010.06002.
[5] Odei Garcia-Garin et al., Deteksi otomatis dan kuantifikasi floating marine makro-litter dalam gambar udara: memperkenalkan pendekatan pembelajaran mendalam baru yang terhubung ke aplikasi web dalam R, polusi lingkungan, https://doi.org/ 10.1016/j.envpol.2021.116490.
[6] Rematas, K., Martin-Brulaalla, R., dan Ferrari, V., "Sharf: bidang padie-conditioned dari satu tampilan", (2021), https://arxiv.org/abs/2102.08860
[7] Drew A. Hudson dan C. Lawrence Zitnick, Transformer Perselisihan Generatif, (2021)
[8] Sandra Bryant et al., “Kami meminta kecerdasan buatan untuk membuat profil kencan. Maukah Anda menggesek kan? ”, (2021), blog UNSW Sydney.
[9] Liu, Z. et al., 2021, “Swin Transformer: Hierarchical Vision Transformer Menggunakan Windows Geser”, Arxiv Preprint https://arxiv.org/abs/2103.14030v1
[10] Zhang, Y., Chen, W., Ling, H., Gao, J., Zhang, Y., Torralba, A. dan Fidler, S., 2020. Gambar Gans memenuhi rendering yang dapat dibedakan untuk grafik terbalik dan dapat diinterpretasikan Render saraf 3D. ARXIV Preprint ARXIV: 2010.09125.
[11] Yuille, Al, dan Liu, C., 2021. Jaring dalam: Apa yang pernah mereka lakukan untuk penglihatan?. International Journal of Computer Vision, 129(3), pp.781–802, https://arxiv.org/abs/1805.04025.
[12] Liu, A., Tucker, R., Jampani, V., Makadia, A., Snavely, N. and Kanazawa, A., 2020. Infinite Nature: Perpetual View Generation of Natural Scenes from a Single Image, https://arxiv.org/pdf/2012.09855.pdf
[13] Nguyen & Drealan et al. (2021) A Portable, Self-Contained Neuroprosthetic Hand with Deep Learning-Based Finger Control: https://arxiv.org/abs/2103.13452
[14] Pandey et al., 2021, Total Relighting: Learning to Relight Portraits for Background Replacement, doi: 10.1145/3450626.3459872, https://augmentedperception.github.io/total_relighting/total_relighting_paper.pdf.
[15] Gengshan Yang et al., (2021), LASR: Learning Articulated Shape Reconstruction from a Monocular Video, CVPR, https://lasr-google.github.io/.
[16] Richter, Abu AlHaija, Koltun, (2021), "Enhancing Photorealism Enhancement", https://intel-isl.github.io/PhotorealismEnhancement/.
[17] DeepFakeHop: Chen, Hong-Shuo, et al., (2021), “DefakeHop: A Light-Weight High-Performance Deepfake Detector.” ArXiv abs/2103.06929.
[18] Liang, Jie and Zeng, Hui and Zhang, Lei, (2021), "High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network", https://export.arxiv.org/pdf/2105.09188.pdf.
[19] Peihao Zhu et al., (2021), Barbershop, https://arxiv.org/pdf/2106.01505.pdf.
[20] Praveen Krishnan, Rama Kovvuri, Guan Pang, Boris Vassilev, and Tal Hassner, Facebook AI, (2021), ”TextStyleBrush: Transfer of text aesthetics from a single example”.
[21] Holynski, Aleksander, et al. “Animating Pictures with Eulerian Motion Fields.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.
[22] Michael Niemeyer and Andreas Geiger, (2021), "GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields", Published in CVPR 2021.
[23] Chen, M., Tworek, J., Jun, H., Yuan, Q., Pinto, HPDO, Kaplan, J., Edwards, H., Burda, Y., Joseph, N., Brockman, G. and Ray, A., 2021. Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374.
[24] Apple, “Recognizing People in Photos Through Private On-Device Machine Learning”, (2021), https://machinelearning.apple.com/research/recognizing-people-photos
[25] Meng, C., Song, Y., Song, J., Wu, J., Zhu, JY and Ermon, S., 2021. Sdedit: Image synthesis and editing with stochastic differential equations. arXiv preprint arXiv:2108.01073.
[26] Wang, SY, Bau, D. and Zhu, JY, 2021. Sketch Your Own GAN. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 14050-14060).
[27] “Tesla AI Day”, Tesla, August 19th 2021, https://youtu.be/j0z4FweCy4M
[28] Patashnik, Or, et al., (2021), “Styleclip: Text-driven manipulation of StyleGAN imagery.”, https://arxiv.org/abs/2103.17249
[29] Stepan Tulyakov*, Daniel Gehrig*, Stamatios Georgoulis, Julius Erbach, Mathias Gehrig, Yuanyou Li, Davide Scaramuzza, TimeLens: Event-based Video Frame Interpolation, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, 2021 , http://rpg.ifi.uzh.ch/docs/CVPR21_Gehrig.pdf
[30] Haim, N., Feinstein, B., Granot, N., Shocher, A., Bagon, S., Dekel, T., & Irani, M. (2021). Diverse Generation from a Single Video Made Possible, https://arxiv.org/abs/2109.08591.
[31] Ravuri, S., Lenc, K., Willson, M., Kangin, D., Lam, R., Mirowski, P., Fitzsimons, M., Athanassiadou, M., Kashem, S., Madge, S. and Prudden, R., 2021. Skillful Precipitation Nowcasting using Deep Generative Models of Radar, https://www.nature.com/articles/s41586-021-03854-z
[32] Petermann, D., Wichern, G., Wang, Z., & Roux, JL (2021). The Cocktail Fork Problem: Three-Stem Audio Separation for Real-World Soundtracks. https://arxiv.org/pdf/2110.09958.pdf.
[33] Rückert, D., Franke, L. and Stamminger, M., 2021. ADOP: Approximate Differentiable One-Pixel Point Rendering, https://arxiv.org/pdf/2110.06635.pdf.
[34] a) CLIPDraw: exploring text-to-drawing synthesis through language-image encoders
b) StyleCLIPDraw: Schaldenbrand, P., Liu, Z. and Oh, J., 2021. StyleCLIPDraw: Coupling Content and Style in Text-to-Drawing Synthesis.
[35] Liang, J., Cao, J., Sun, G., Zhang, K., Van Gool, L. and Timofte, R., 2021. SwinIR: Image restoration using swin transformer. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 1833–1844).
[36] Ling, H., Kreis, K., Li, D., Kim, SW, Torralba, A. and Fidler, S., 2021, May. EditGAN: High-Precision Semantic Image Editing. In Thirty-Fifth Conference on Neural Information Processing Systems.
[37] Xiangli, Y., Xu, L., Pan, X., Zhao, N., Rao, A., Theobalt, C., Dai, B. and Lin, D., 2021. CityNeRF: Building NeRF at City Scale.
[38] Mokady, R., Hertz, A. and Bermano, AH, 2021. ClipCap: CLIP Prefix for Image Captioning. https://arxiv.org/abs/2111.09734