В то время как мир все еще восстанавливается, исследования не замедлили его неистовые темпы, особенно в области искусственного интеллекта. Более того, в этом году было выделено многие важные аспекты, такие как этические аспекты, важные предубеждения, управление, прозрачность и многое другое. Искусственный интеллект и наше понимание человеческого мозга и его связи с ИИ постоянно развиваются, показывая многообещающие приложения, улучшающие качество нашей жизни в ближайшем будущем. Тем не менее, мы должны быть осторожны с какой технологией, которую мы выбираем для применения.
«Наука не может сказать нам, что мы должны делать, только то, что мы можем сделать».
- Жан-Поль Сартр, бытие и ничто
Вот самые интересные исследовательские работы года, если вы пропустили любой из них. Короче говоря, это куриный список последних прорывов в области искусственного интеллекта и науки о данных по дате выпуска с четким видео объяснением, ссылкой на более подробную статью и код (если применимо). Наслаждайтесь чтением!
Полная ссылка на каждую статью указана в конце этого репозитория. Светь этот репозиторий, чтобы оставаться в курсе! ️
Сопровождающий: Louisfb01
Подпишитесь на мою новостную рассылку - последние обновления в ИИ объясняются каждую неделю.
Не стесняйтесь написать мне любую интересную статью, которую я мог упустить, чтобы добавить в этот репозиторий.
Оставьте меня в Twitter @Whats_ai или LinkedIn @louis (что такое AI) Bouchard, если вы поделитесь списком!
Куративный список из 10 лучших публикаций CV в 2021 году с четким видео объяснением, ссылка на более подробную статью и код.
10 лучших документов компьютерного зрения 2021 года
? Если вы хотите поддержать мою работу и использовать W & B (бесплатно), чтобы отслеживать ваши эксперименты ML и сделать вашу работу воспроизводимой или сотрудничать с командой, вы можете попробовать его, следуя этому руководству! Поскольку большая часть кода здесь основана на Pytorch, мы подумали, что руководство QuickStart для использования W & B на Pytorch было бы наиболее интересным.
Следуйте этому быстрому руководству, используйте одни и те же строки W & B в вашем коде или любой из приведенных ниже репо, и проведите все ваши эксперименты автоматически в вашей учетной записи W & B! Настройка не займет более 5 минут, и он изменит вашу жизнь, как это было для меня! Вот более продвинутое руководство по использованию гиперпараметрических зачистков, если интересно :)
? Спасибо весам и предубеждениям за спонсирование этого хранилища и работы, которую я делал, и благодаря любому из вас, используя эту ссылку и попробовал W & B!
OpenAI успешно обучил сеть, способную генерировать изображения из текстовых подписей. Это очень похоже на GPT-3 и Image GPT и дает удивительные результаты.
Google использовал модифицированную архитектуру Stylegan2, чтобы создать онлайн-комнату для фитинга, где вы можете автоматически пытаться любые брюки или рубашки, которые вы хотите, используя только изображение себя.
TL; DR: они объединили эффективность GAN и сверточные подходы с выразительностью трансформаторов для создания мощного и эффективного метода времени для семантически управляемого высококачественного синтеза изображения.
Извлекая вдохновение из человеческих способностей к более общим и заслуживающим доверия вопросам ИИ и 10 для исследовательского сообщества ИИ.
Odei Garcia-Garin et al. Из Университета Барселоны разработал алгоритм на основе глубокого обучения, способный обнаружить и количественно оценить плавающий мусор из воздушных изображений. Они также сделали веб-ориентированное приложение, позволяющее пользователям идентифицировать эти гарбейги, называемые плавающим морским макро-литером или FMML, на изображениях поверхности моря.
Представьте себе, как круто было бы просто сфотографировать объект и иметь его в 3D для вставки в фильм или видеоигру, которую вы создаете, или в 3D -сцене для иллюстрации.
Они в основном используют механизм внимания трансформаторов в мощной архитектуре Stylegan2, чтобы сделать его еще более мощным!
Подпишитесь на мою еженедельную рассылку и будьте в курсе новых публикаций в ИИ на 2022 год!
Вы бы провалились прямо на профиле ИИ? Можете ли вы отличить настоящего человека от машины? Это то, что это исследование показывает, что использует AI-Up Peopls в приложениях для знакомств.
Будут ли трансформаторы заменить CNN в компьютерном зрении? Менее чем за 5 минут вы узнаете, как архитектура трансформатора может быть применена к компьютерному зрению с помощью новой статьи под названием Swin Transformer.
Эта многообещающая модель под названием Ganverse3D нуждается только в изображении для создания трехмерной фигуры, которая может быть настроена и анимирована!
«Я буду открыто поделиться всем о Deep Nets для приложений для видения, их успехов и ограничений, которые мы должны решить».
Следующий шаг для синтеза обзора: Поколение вечного представления, где цель состоит в том, чтобы взять изображение, чтобы влететь в него и исследовать ландшафт!
С помощью этого интерфейса нерва, усиленного AI, ампутированная лакей может контролировать нейропротетическую руку с жизненной ловкостью и интуитивностью.
Правильно переоцените любой портрет на основе освещения нового фона, который вы добавите. Вы когда -нибудь хотели изменить фон картин, но выглядеть реалистично? Если вы уже пробовали это, вы уже знаете, что это не просто. Вы не можете просто сфотографировать себя в своем доме и изменить фон для пляжа. Это просто выглядит плохо и не реалистично. Любой просто скажет «это фотошоп» за секунду. Для фильмов и профессиональных видео вам нужно идеальное освещение и художники, чтобы воспроизвести высококачественное изображение, и это очень дорого. Вы никак не можете сделать это со своими собственными фотографиями. Или ты можешь?
Создайте 3D -модели людей или животных, перемещающихся от лишь короткого видео в качестве ввода. Это новый метод для генерации 3D -моделей людей или животных, перемещающихся от только короткого видео в качестве ввода. Действительно, это на самом деле понимает, что это странная форма, что она может двигаться, но все еще нужно оставаться прикрепленным, поскольку это все еще один «объект», а не просто много объектов вместе ...
Этот ИИ может быть применен вживую для видеоигры и преобразовать каждый кадр, чтобы выглядеть гораздо более естественным. Исследователи из Intel Labs только что опубликовали эту статью под названием «Усиление фотореализма. И если вы думаете, что это может быть «просто еще один Gan», сфотографировать видеоигру в качестве ввода и изменить ее после стиля природы, позвольте мне передумать. Они работали над этой моделью в течение двух лет, чтобы сделать ее чрезвычайно надежным. Его можно применить вживую к видеоигры и преобразовать каждый кадр, чтобы выглядеть гораздо более естественным. Представьте себе возможности, где вы можете приложить гораздо меньше усилий в игровой графике, сделать его сверхустойчивым и полным, а затем улучшить стиль, используя эту модель ...
Как определить глубокую подделку в 2021 году. Прорывные технологии армии США с использованием искусственного интеллекта для поиска глубоких норм.
Хотя они, кажется, всегда были там, самая первая реалистичная Deepfake не появилась до 2017 года. Это было от первого в истории напоминающих фальшивых изображений, автоматически сгенерированных до сегодняшней идентичной копии кого-то на видео, со звуком.
Реальность такова, что мы больше не можем видеть разницу между настоящим видео или картиной и глубокой нормой. Как мы можем сказать, что реально из того, что нет? Как аудиофайлы или видеофайлы могут использоваться в суде в качестве доказательства, может ли ИИ полностью их генерировать? Ну, эта новая статья может дать ответы на эти вопросы. И ответ здесь может быть снова использование искусственного интеллекта. Поговорка «Я поверю, когда увижу это», может скоро измениться для «Я поверю, когда ИИ скажет мне поверить в это…»
Примените любой стиль к своему изображению 4K в режиме реального времени, используя этот новый подход, основанный на машинном обучении!
Эта статья сама по себе не о новой технологии. Вместо этого речь идет о новом и захватывающем применении Gans. Действительно, вы видели название, и это не было Clickbait. Этот ИИ может перенести ваши волосы, чтобы увидеть, как это будет выглядеть, прежде чем совершать изменения ...
Эта новая модель AI Facebook может перевести или редактировать текст непосредственно на изображении на вашем собственном языке, следуя тому же стилю!
Представьте, что вы находитесь в отпуске в другой стране, где вы не говорите на языке. Вы хотите попробовать местный ресторан, но их меню находится на языке, на котором вы не говорите. Я думаю, что это не будет слишком сложно представить, так как большинство из нас уже столкнулись с этой ситуацией, видите ли вы пункты меню или направления, и вы не можете понять, что написано. Что ж, в 2020 году вы вытащите свой телефон, а Google переведет то, что вы видите. В 2021 году вам даже не нужно больше открывать Google Translate и пытаться написать то, что вы видите один за другим, чтобы перевести его. Вместо этого вы можете просто использовать эту новую модель от Facebook AI, чтобы перевести каждый текст на изображении на вашем языке…
Если вы также хотите прочитать больше исследовательских работ, я рекомендую вам прочитать мою статью, где я делюсь своими лучшими советами по поиску и чтению дополнительных исследовательских работ.
Эта модель делает снимок, понимает, какие частицы должны двигаться, и реалистично анимирует их в бесконечной цикле, сохраняя оставшуюся часть картины, все еще создавая удивительные видео, подобные этой ...
Используя модифицированную архитектуру GAN, они могут перемещать объекты на изображении, не влияя на фон или другие объекты!
Узнайте, как эта новая модель от Openai генерирует код из слов!
Используя несколько алгоритмов, основанных на машинном обучении, работающих в частном порядке на вашем устройстве, Apple позволяет точно курировать и организовывать ваши изображения и видео на iOS 15.
Попрощайтесь со сложными архитектурами Gan и Transformer для генерации изображений! Этот новый метод от Chenling Meng et al. Из Стэнфордского университета и Университета Карнеги-Меллона могут генерировать новые изображения из любых пользовательских входов. Даже такие люди, как я с нулевыми художественными навыками, теперь могут генерировать красивые образы или модификации из быстрых набросков ...
Сделайте облегчение обучения Gans для всех, генерируя изображения после эскиза! Действительно, этот новый метод, вы можете управлять выходами вашего GAN на основе простейшего типа знаний, которые вы можете предоставить: нарисованные вручную эскизы.
Если вам интересно, как автомобиль Tesla может не только видеть, но и перемещаться по дорогам с другими транспортными средствами, это видео, которое вы ждали. Пару дней назад был первый день Tesla AI, когда Андрей Карпати, директор искусственного интеллекта в Tesla, и другие представили, как автопилот Tesla работает от приобретения изображения через их восемь камер до навигационного процесса на дорогах.
ИИ может генерировать изображения, тогда, используя множество мозговых и проб и ошибок, исследователи могут контролировать результаты после конкретных стилей. Теперь, с этой новой моделью, вы можете сделать это только с помощью текста!
Тимленс может понять движение частиц между кадрами видео, чтобы реконструировать то, что действительно произошло на скорости, даже наши глаза не могут видеть. На самом деле, это достигает результатов, которые наши интеллектуальные телефоны и никакие другие модели не могли достичь раньше!
Подпишитесь на мою еженедельную рассылку и будьте в курсе новых публикаций в ИИ на 2022 год!
Вы когда -нибудь хотели отредактировать видео?
Удалите или добавьте кого -то, измените фон, продлитесь дольше или измените разрешение, чтобы соответствовать конкретному соотношению сторон без сжатия и растяжения. Для тех из вас, кто уже проводил рекламные кампании, вы, безусловно, хотели иметь вариации ваших видео для тестирования AB и посмотреть, что работает лучше всего. Ну, это новое исследование Niv Haim et al. может помочь вам сделать все это из одного видео и в HD!
Действительно, используя простое видео, вы можете выполнять любые задачи, которые я только что упомянул за считанные секунды или несколько минут для высококачественных видео. Вы можете использовать его для любых видео -манипуляций или приложения для генерации видео, которые вы имеете в виду. Он даже превосходит GAN во всех отношениях и не использует никаких глубоких причудливых исследований, а также требует огромного и непрактичного набора данных! И самое лучшее, что эта техника масштабируется для видео с высоким разрешением.
DeepMind только что выпустил генеративную модель, способную превзойти широко используемые методы новелоседа в 89% ситуаций для ее точности и полезности, оцениваемых более чем 50 метеорологами-экспертами! Их модель фокусируется на прогнозировании осадков в ближайшие 2 часа и достигает этого на удивление. Это генеративная модель, которая означает, что она будет генерировать прогнозы вместо того, чтобы просто прогнозировать их. В основном он берет радарные данные из прошлого, чтобы создать будущие радиолокационные данные. Таким образом, используя как время, так и пространственные компоненты из прошлого, они могут генерировать то, как оно будет выглядеть в ближайшем будущем.
Вы можете видеть это так же, как фильтры Snapchat, захватывая ваше лицо и генерируя новое лицо с модификациями. Чтобы обучить такую генеративную модель, вам нужна куча данных как с человеческих лиц, так и из -за того, что вы хотите генерировать. Затем, используя очень похожую модель, обученную в течение многих часов, у вас будет мощная генеративная модель. Этот вид модели часто использует архитектуры GANS для учебных целей, а затем использует модель генератора независимо.
Вы когда -нибудь настроились на видео или телешоу, и актеры были совершенно неразборчивы, или музыка была слишком громкой? Что ж, эта проблема, также называемая проблемой коктейльной вечеринки, может никогда не повториться. Митсубиши и Университет Индианы только что опубликовали новую модель, а также новый набор данных, решающий эту задачу по определению правильного саундтрека. Например, если мы возьмем тот же аудио клип, мы только что бегали с музыкой слишком громко, вы можете просто поднять или вниз по аудио -треку, который вы хотите придать речи больше, чем музыка.
Проблема здесь заключается в изоляции любого независимого источника звука из сложной акустической сцены, такой как сцена фильма или видео на YouTube, где некоторые звуки не очень хорошо сбалансированы. Иногда вы просто не можете слышать некоторых актеров из -за музыки, играющих или взрывов или других окружающих звуков на заднем плане. Что ж, если вы успешно изолируете различные категории в саундтреке, это означает, что вы также можете выключить или опустить только один из них, например, немного отказаться от музыки, чтобы правильно услышать всех других актеров. Это именно то, чего достигли исследователи.
Представьте, что вы хотите создать 3D -модель или просто плавное видео из кучи фотографий, которые вы сделали. Ну, теперь это возможно! Я не хочу выдавать слишком много, но результаты просто потрясающие, и вам нужно проверить это самостоятельно!
Вы когда -нибудь мечтали сделать стиль картинки, как этот крутой стиль рисования Tiktok слева, и применить его к новой картине по вашему выбору? Ну, я сделал, и это никогда не было проще. На самом деле, вы можете даже достичь этого из текста только и можете попробовать это прямо сейчас с этим новым методом и их ноутбуком Google Colab, доступным для всех (см. Ссылки). Просто сфотографируйте стиль, который вы хотите скопировать, введите текст, который вы хотите сгенерировать, и этот алгоритм генерирует из него новую картину! Просто посмотрите на приведенные выше результаты, такой большой шаг вперед! Результаты чрезвычайно впечатляют, особенно если вы считаете, что они были сделаны из одной линии текста!
Было ли у вас когда -нибудь изображение, которое вам действительно нравилось, и это удалось найти только небольшую версию, которая выглядела как это изображение ниже слева? Насколько круто было бы, если бы вы могли взять это изображение и сделать его дважды так же хорошо? Это здорово, но что, если бы вы могли сделать это даже в четыре или восемь раз больше высокого определения? Теперь мы говорим, просто посмотрите на это.
Здесь мы улучшили разрешение изображения в четырех из четырех человек, что означает, что у нас в четыре раза больше пикселей высоты и ширины для более подробной информации, что делает его намного более гладким. Лучше всего то, что это делается в течение нескольких секунд, полностью автоматически и работает практически с любым изображением. О, и вы даже можете использовать его сами с демонстрацией, которую они сделали доступной ...
Управляйте любой функцией из быстрых драйвов, и она будет редактировать только то, что вы хотите, чтобы остальное изображение было одинаковым! Редактирование изображений SOTA из модели эскизов на основе Gans от NVIDIA, MIT и UOFT.
Модель называется Citynerf и растет из NERF, который я ранее освещал на своем канале. NERF является одной из первых моделей, использующих поля Radiance и машинное обучение для создания трехмерных моделей из изображений. Но Nerf не так эффективен и работает для одного масштаба. Здесь Citynerf применяется к изображениям спутникового и земельного уровня одновременно для получения различных 3D-модельных шкал для любой точки зрения. Проще говоря, они приносят Nerf в городской масштаб. Но как?
Мы видели, как ИИ генерирует изображения из других изображений с использованием GANS. Затем были модели, способные генерировать сомнительные изображения, используя текст. В начале 2021 года был опубликован Dall-E, обыграв все предыдущие попытки генерировать изображения из ввода текста, используя CLIP, модель, которая связывает изображения с текстом в качестве руководства. Очень похожая задача, называемая подписанием изображения, может показаться действительно простой, но на самом деле так же сложна. Это способность машины генерировать естественное описание изображения. Легко просто пометить объекты, которые вы видите на изображении, но это еще одна проблема, чтобы понять, что происходит на одной двухмерной картине, и эта новая модель делает это очень хорошо ...
Если вы хотите прочитать больше документов и иметь более широкий взгляд, вот еще один отличный репозиторий для вас, охватывающий 2020: 2020: год, полный удивительных документов искусственного интеллекта- обзор и не стесняйтесь подписаться на мою еженедельную рассылку и оставаться в норме -Тате с новыми публикациями в ИИ на 2022 год!
Оставьте меня в Twitter @Whats_ai или LinkedIn @louis (что такое AI) Bouchard, если вы поделитесь списком!
[1] A. Ramesh et al., Ноль выстрела текста к изображению, 2021. Arxiv: 2102.12092
[2] Льюис, Кэтлин М. и др., (2021), Vogue: Try-on Stylegan интерполяция оптимизация.
[3] Приручение трансформаторов для синтеза изображения высокого разрешения, Esser et al., 2020.
[4] Мышление быстро и медленно в AI, Booch et al., (2020), https://arxiv.org/abs/2010.06002.
[5] Odei Garcia-Garin et al., Автоматическое обнаружение и количественная оценка плавучего морского макро-литера в воздушных изображениях: внедрение нового подхода глубокого обучения, связанного с веб-приложением в R, загрязнении окружающей среды, https://doi.org/ 10.1016/j.envpol.2021.116490.
[6] Rematas, K., Martin-Brualla, R., и Ferrari, V., «Sharf: Shape-Conditioned Sadiance Поля из одного представления», (2021), https://arxiv.org/abs/2102.08860
[7] Дрю А. Хадсон и С. Лоуренс Зитник, генеративные состязательные трансформаторы, (2021)
[8] Сандра Брайант и др., «Мы попросили искусственный интеллект для создания профилей знакомств. Вы бы проведите правильно? », (2021), блог Unsw Sydney.
[9] Liu, Z. et al., 2021, «Трансформатор Suin: иерархическое трансформатор зрения с использованием смещенных окон», Arxiv Preprint https://arxiv.org/abs/2103.14030V1
[10] Чжан Ю., Чен В., Лин, Х., Гао Дж., Чжан Ю., Торралба А. и Фидлер С., 2020. Изображение Ганс встречается с дифференцируемой рендерингом для обратной графики и интерпретации 3D Нейронный рендеринг. Arxiv Preprint arxiv: 2010.09125.
[11] Юйл, Ал и Лю, С., 2021. Глубокие сети: что они когда -либо делали для видения?. International Journal of Computer Vision, 129(3), pp.781–802, https://arxiv.org/abs/1805.04025.
[12] Liu, A., Tucker, R., Jampani, V., Makadia, A., Snavely, N. and Kanazawa, A., 2020. Infinite Nature: Perpetual View Generation of Natural Scenes from a Single Image, https://arxiv.org/pdf/2012.09855.pdf
[13] Nguyen & Drealan et al. (2021) A Portable, Self-Contained Neuroprosthetic Hand with Deep Learning-Based Finger Control: https://arxiv.org/abs/2103.13452
[14] Pandey et al., 2021, Total Relighting: Learning to Relight Portraits for Background Replacement, doi: 10.1145/3450626.3459872, https://augmentedperception.github.io/total_relighting/total_relighting_paper.pdf.
[15] Gengshan Yang et al., (2021), LASR: Learning Articulated Shape Reconstruction from a Monocular Video, CVPR, https://lasr-google.github.io/.
[16] Richter, Abu AlHaija, Koltun, (2021), "Enhancing Photorealism Enhancement", https://intel-isl.github.io/PhotorealismEnhancement/.
[17] DeepFakeHop: Chen, Hong-Shuo, et al., (2021), “DefakeHop: A Light-Weight High-Performance Deepfake Detector.” ArXiv abs/2103.06929.
[18] Liang, Jie and Zeng, Hui and Zhang, Lei, (2021), "High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network", https://export.arxiv.org/pdf/2105.09188.pdf.
[19] Peihao Zhu et al., (2021), Barbershop, https://arxiv.org/pdf/2106.01505.pdf.
[20] Praveen Krishnan, Rama Kovvuri, Guan Pang, Boris Vassilev, and Tal Hassner, Facebook AI, (2021), ”TextStyleBrush: Transfer of text aesthetics from a single example”.
[21] Holynski, Aleksander, et al. “Animating Pictures with Eulerian Motion Fields.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.
[22] Michael Niemeyer and Andreas Geiger, (2021), "GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields", Published in CVPR 2021.
[23] Chen, M., Tworek, J., Jun, H., Yuan, Q., Pinto, HPDO, Kaplan, J., Edwards, H., Burda, Y., Joseph, N., Brockman, G. and Ray, A., 2021. Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374.
[24] Apple, “Recognizing People in Photos Through Private On-Device Machine Learning”, (2021), https://machinelearning.apple.com/research/recognizing-people-photos
[25] Meng, C., Song, Y., Song, J., Wu, J., Zhu, JY and Ermon, S., 2021. Sdedit: Image synthesis and editing with stochastic differential equations. arXiv preprint arXiv:2108.01073.
[26] Wang, SY, Bau, D. and Zhu, JY, 2021. Sketch Your Own GAN. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 14050-14060).
[27] “Tesla AI Day”, Tesla, August 19th 2021, https://youtu.be/j0z4FweCy4M
[28] Patashnik, Or, et al., (2021), “Styleclip: Text-driven manipulation of StyleGAN imagery.”, https://arxiv.org/abs/2103.17249
[29] Stepan Tulyakov*, Daniel Gehrig*, Stamatios Georgoulis, Julius Erbach, Mathias Gehrig, Yuanyou Li, Davide Scaramuzza, TimeLens: Event-based Video Frame Interpolation, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, 2021 В http://rpg.ifi.uzh.ch/docs/CVPR21_Gehrig.pdf
[30] Haim, N., Feinstein, B., Granot, N., Shocher, A., Bagon, S., Dekel, T., & Irani, M. (2021). Diverse Generation from a Single Video Made Possible, https://arxiv.org/abs/2109.08591.
[31] Ravuri, S., Lenc, K., Willson, M., Kangin, D., Lam, R., Mirowski, P., Fitzsimons, M., Athanassiadou, M., Kashem, S., Madge, S. and Prudden, R., 2021. Skillful Precipitation Nowcasting using Deep Generative Models of Radar, https://www.nature.com/articles/s41586-021-03854-z
[32] Petermann, D., Wichern, G., Wang, Z., & Roux, JL (2021). The Cocktail Fork Problem: Three-Stem Audio Separation for Real-World Soundtracks. https://arxiv.org/pdf/2110.09958.pdf.
[33] Rückert, D., Franke, L. and Stamminger, M., 2021. ADOP: Approximate Differentiable One-Pixel Point Rendering, https://arxiv.org/pdf/2110.06635.pdf.
[34] a) CLIPDraw: exploring text-to-drawing synthesis through language-image encoders
b) StyleCLIPDraw: Schaldenbrand, P., Liu, Z. and Oh, J., 2021. StyleCLIPDraw: Coupling Content and Style in Text-to-Drawing Synthesis.
[35] Liang, J., Cao, J., Sun, G., Zhang, K., Van Gool, L. and Timofte, R., 2021. SwinIR: Image restoration using swin transformer. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 1833–1844).
[36] Ling, H., Kreis, K., Li, D., Kim, SW, Torralba, A. and Fidler, S., 2021, May. EditGAN: High-Precision Semantic Image Editing. In Thirty-Fifth Conference on Neural Information Processing Systems.
[37] Xiangli, Y., Xu, L., Pan, X., Zhao, N., Rao, A., Theobalt, C., Dai, B. and Lin, D., 2021. CityNeRF: Building NeRF at City Scale.
[38] Mokady, R., Hertz, A. and Bermano, AH, 2021. ClipCap: CLIP Prefix for Image Captioning. https://arxiv.org/abs/2111.09734