С созданием совершенно новой области под названием «Генераторный ИИ», нравится вам этот термин или нет, исследования не замедлили свой бешеный темп, особенно в отрасли, которая пережила самый большой за всю историю бум внедрения технологий ИИ. Искусственный интеллект и наше понимание человеческого мозга и его связи с ИИ постоянно развиваются, демонстрируя многообещающие применения, улучшающие качество нашей жизни в ближайшем будущем. Тем не менее, нам следует быть осторожными с тем, какую технологию мы выбираем для применения.
«Наука не может сказать нам, что нам следует делать, она говорит только то, что мы можем сделать».
- Жан-Поль Сартр, Бытие и ничто.
Вот тщательно подобранный список последних достижений в области искусственного интеллекта и науки о данных по датам выпуска с четким видеообъяснением, ссылкой на более подробную статью и кодом (если применимо). Приятного чтения!
Полная ссылка на каждую статью приведена в конце этого репозитория. Поставьте отметку этому репозиторию, чтобы быть в курсе событий и следите за обновлениями в следующем году! ️
Сопровождающий: louisfb01, также активен на YouTube и в качестве подкастера, если вы хотите увидеть/услышать больше об искусственном интеллекте!
Подпишитесь на мою рассылку — каждую неделю объясняются последние обновления в области искусственного интеллекта.
Не стесняйтесь присылать мне любые интересные статьи, которые я, возможно, пропустил, добавив в этот репозиторий.
Отметьте меня в Твиттере @Whats_AI или LinkedIn @Louis (What's AI) Бушар, если поделитесь этим списком! Пообщайтесь с нами в нашем сообществе Learn AI Together Discord!
? Если вы хотите поддержать мою работу , вы можете выбрать «Спонсировать этот репозиторий» или поддержать меня на Patreon.
В прошлом году мы стали свидетелями расцвета генеративного искусственного интеллекта как для изображений, так и для текста, последний раз — с ChatGPT. Теперь, в течение первой недели 2023 года, исследователи уже создали новую систему аудиоданных под названием VALL-E.
ВАЛЛ-И способен имитировать чей-то голос всего лишь с помощью 3-секундной записи с более высоким сходством и естественностью речи, чем когда-либо прежде. ChatGPT способен имитировать человека-писателя; ВАЛЛ-И делает то же самое с голосом.
Мы знаем, что ИИ может генерировать изображения; теперь давайте отредактируем их!
Новая модель под названием InstructPix2Pix делает именно это; он редактирует изображение, следуя текстовой инструкции, данной пользователем. Просто посмотрите на эти потрясающие результаты… и это не OpenAI или Google с бесконечным бюджетом.
Это недавняя публикация Тима Брукса и его сотрудников из Калифорнийского университета, в том числе проф. Алексей Эфрос, известный деятель индустрии компьютерного зрения. Как видите, результаты просто невероятные.
Недавно мы рассказывали о модели, способной имитировать чей-то голос, по имени ВАЛЛ-И. Давайте сделаем еще один шаг вперед в творческом направлении с помощью нового искусственного интеллекта под названием MusicLM. MusicLM позволяет генерировать музыку из текстового описания.
Давайте не будем больше ждать и сразу же приступим к результатам... то, что вы услышите, поразит вас!
Компания Runway создала систему под названием GEN-1, которая может снимать видео и за считанные секунды применять к нему совершенно другой стиль. Модель находится в стадии разработки и имеет недостатки, но по-прежнему обеспечивает довольно крутой перенос стиля из изображения или текстовой подсказки в видео, что было бы невозможно несколько лет или даже месяцев назад. Еще круче то, как это работает...
PaLM-E, последняя публикация Google, представляет собой то, что они называют воплощенной мультимодальной языковой моделью. Что это значит? Это означает, что это модель, которая может понимать различные типы данных, такие как текст и изображения из моделей ViT и PaLM, о которых мы упоминали, и способна превращать эти идеи в действия из рук робота!
Сегментация — это что-то вроде эквивалента игры в детектива в фотомире. Эта сверхспособность позволяет вам идентифицировать на изображении все и вся — от объектов до людей — с точностью до пикселя. Это меняет правила игры для всех видов приложений, например, для автономных транспортных средств, которым необходимо знать, что происходит вокруг них, будь то автомобиль или пешеход.
Вы также наверняка уже знаете о подсказках. Но слышали ли вы об оперативной сегментации? Это самый новый ребенок в квартале, и это действительно круто. Имея в запасе этот новый трюк, вы можете заставить свою модель ИИ сегментировать все, что захотите – я имею в виду что угодно! Благодаря невероятной новой модели SAM (Segment Anything Model) от Meta, ваши возможности безграничны.
Если вам интересно, как оперативная сегментация и модель SAM творят чудеса, то вы не захотите пропустить мое видео. Из него вы узнаете все о том, как эта удивительная новая технология меняет правила игры, когда дело доходит до сегментации изображений. Так что расслабьтесь, расслабьтесь и позвольте мне отправиться в путешествие в мир быстрой сегментации с помощью SAM. Поверьте, вы не пожалеете!
Представьте себе, что вы можете создавать потрясающие изображения в Instagram, не выходя из дома и не делая фотографий! Новая модель искусственного интеллекта NVIDIA, Perfusion, совершенствует генерацию текста в изображение с улучшенным контролем и точностью для концептуальных визуальных эффектов.
Perfusion — это значительное улучшение по сравнению с существующими методами искусственного интеллекта, позволяющее преодолеть ограничения в создании изображений, которые остаются верными исходному контенту. Эта модель может точно создавать эти «концепции» в различных новых сценариях.
Perfusion основывается на Stable Diffusion с дополнительными механизмами для одновременной фиксации и генерации нескольких «концепций» в новых изображениях. Это приводит к непревзойденным количественным и качественным результатам, открывая захватывающие возможности в различных отраслях.
? Хотя Perfusion и не идеален, он является значительным шагом вперед для моделей преобразования текста в изображение. Проблемы включают в себя сохранение идентичности объекта и некоторое чрезмерное обобщение, а также необходимость некоторой оперативной инженерной работы.
NVIDIA Perfusion закладывает основу для захватывающего будущего изображений, созданных с помощью искусственного интеллекта и адаптированных к нашим желаниям.
Drag Your Gan отдает приоритет точному перетаскиванию объекта, а не созданию изображений или манипулированию текстом. ИИ реалистично адаптирует все изображение, изменяя положение, позу, форму, выражения и другие элементы кадра объекта.
?? Редактируйте выражения лиц собак, заставляйте их сидеть, корректируйте человеческие позы или даже легко изменяйте пейзажи. Drag Your Gan предлагает инновационный и интерактивный способ экспериментировать с редактированием изображений.
Как это работает? Drag Your Gan использует StyleGAN2, современную архитектуру GAN от NVIDIA. Действуя в пространстве функций (скрытом коде), ИИ учится правильно редактировать изображения с помощью ряда шагов и расчетов потерь.
Несмотря на то, что результаты фантастические, как вы увидите ниже, важно отметить, что Drag Your Gan имеет некоторые ограничения, в том числе возможность редактировать только сгенерированные изображения. Изображения являются частью дистрибутива. Другие ограничения заключаются в том, что выбор точек основан на цветах пикселей и контрастности, поэтому вы не можете ничего перетаскивать. Если вы возьмете часть красной машины и переместите ее, оставаясь на красной машине, она может вообще не понять, что вы ее перемещаете.
Не можете дождаться, чтобы попробовать? Авторы отмечают, что код должен быть доступен в июне. Посмотрите видео (или статью), чтобы узнать больше об этом новом стиле манипуляции изображениями с помощью DragYourGan!
Посетите подкаст «Что такое искусственный интеллект», чтобы узнать больше об искусственном интеллекте в виде интервью с экспертами в этой области! Приглашенный эксперт по искусственному интеллекту и я рассмотрим конкретные темы, подобласти и роли, связанные с искусственным интеллектом, чтобы обучать и делиться знаниями от людей, которые усердно работали над их сбором.
Neuralangelo — это последний прорыв NVIDIA в области искусственного интеллекта для преобразования изображения в 3D. Этот новый подход основан на Instant NeRF, улучшая качество поверхности и создавая высокореалистичные 3D-сцены из простых изображений за считанные секунды.
Neuralangelo стремится преодолеть ограничения своего предшественника Instant NeRF, такие как отсутствие детальных структур и несколько мультяшный вид 3D-моделей, созданных искусственным интеллектом.
Секрет улучшений Neuralangelo заключается в двух ключевых различиях: использовании числовых градиентов для вычисления производных более высокого порядка и оптимизации хэш-сеток от грубого к точному, контролирующих уровни детализации, которые мы углубимся в видео.
Этот процесс оптимизации приводит к более плавному входу для реконструкции 3D-модели, позволяет смешивать больше информации и создает идеальный баланс между согласованностью и детализацией для реалистичного результата.
Качество 3D-моделей Neuralangelo действительно поражает, но ИИ сталкивается с проблемами при работе со сценами с высоким уровнем отражения. Тем не менее, его потенциальные возможности реального применения огромны и интересны!
В выпуске этой недели я решил изучить новое исследование под названием TryOnDiffusion, представленное на конференции CVPR 2023. Этот инновационный подход представляет собой значительный шаг вперед в области реалистичных виртуальных примерок. Обучая модели ИИ понимать входные изображения, отличать одежду от человека и разумно комбинировать информацию, TryOnDiffusion дает впечатляющие результаты, которые приближают нас к конечной цели — идеальной виртуальной примерке.
Если вас заинтриговало пересечение искусственного интеллекта и моды, присоединяйтесь к нам, и мы раскроем внутреннюю работу TryOnDiffusion и ее потенциальное влияние на будущее онлайн-покупок. Являетесь ли вы энтузиастом искусственного интеллекта, любителем моды или просто интересуетесь последними технологическими достижениями, это видео предлагает ценную информацию о передовом мире виртуальной примерки одежды.
Мы окунемся в мир диффузионных моделей, UNets и внимания, где все эти невероятно мощные механизмы объединяют усилия, помогая сфере моды и онлайн-торговли. Конечно, у этой работы есть ограничения, но (как вы увидите) результаты просто ошеломляющие и очень многообещающие.
Давайте поговорим о моделях искусственного интеллекта, которые воспринимают ваше лицо и могут превратить его в забавный мультфильм, отредактировать атрибуты лица, например, изменить цвет волос, или просто повысить качество изображения, чтобы сделать его более HD. Если вы следили за моими статьями, то знаете, что большинство этих приложений основаны на одной модели и ее нескольких версиях под названием StyleGAN, о которых я уже рассказывал много раз. StyleGAN — это архитектура на основе GAN, разработанная NVIDIA, которая может принимать входные данные и преобразовывать их в другие, следуя определенному стилю, которому она была обучена. Это также открытый исходный код, а это означает, что каждый может использовать его и развивать его, и именно поэтому он используется во всех исследовательских работах.
Проблема StyleGAN заключается в том, что он ограничен обрезанием и выравниванием лиц при фиксированном разрешении изображения на основе данных, на которых он обучался. Это означает, что для изображений реального мира вам нужны другие подходы, чтобы найти лицо, обрезать его и переориентировать, а также оно должно иметь такое же разрешение изображения. Это большая проблема, поскольку обычно хочется иметь изображения высокого качества, но обучение с ними будет невероятно долгим.
Итак, мы обычно используем архитектуру StyleGAN для передачи стиля нашего изображения, а затем используем другую сеть для масштабирования изображения до более высокого разрешения. Хотя этот подход работает хорошо, он определенно не идеален. Вам нужны две модели вместо одной, что добавляет больше предвзятостей и потенциальных ошибок, а также требует обучения обеих и ограничивает возможности обобщения. К счастью для нас, некоторые замечательные исследователи работают над этой проблемой ограниченного ввода изображений и недавно на ICCV 2023 опубликовали новый подход под названием StyleGANEX, в котором были внесены некоторые очень умные небольшие изменения...
Отметьте меня в Твиттере @Whats_AI или LinkedIn @Louis (What's AI) Бушар, если поделитесь этим списком!
Мы стали свидетелями замечательных возможностей больших языковых моделей (LLM), но в их понимании окружающего мира существует пробел — недостающая часть. Они преуспели в работе с текстом, кодом и изображениями, но им было трудно по-настоящему взаимодействовать с нашей реальностью. То есть до сих пор. Вот революционный шаг вперед в сфере искусственного интеллекта: 3D-LLM.
3D-LLM — это новая модель, которая устраняет разрыв между языком и трехмерной реальностью, в которой мы живем. Хотя он не охватывает весь наш мир, это монументальный шаг в понимании важнейших измерений и текста, которые формируют нашу жизнь. Как вы узнаете из видео, 3D-LLM не только воспринимает мир, но и взаимодействует с ним. Вы можете задавать вопросы об окружающей среде, искать объекты или перемещаться по пространству, а также наблюдать за его здравым смыслом, что напоминает впечатляющие достижения, которые мы испытали с ChatGPT.
Еще более интересно то, что авторы использовали возможности ChatGPT для сбора данных с помощью трех различных методов, о которых вы узнаете, создав всеобъемлющий репозиторий задач и примеров для каждой сцены, используемой для обучения модели...
Эта работа представляет новую основу для согласованной работы больших языковых моделей и снижения риска галлюцинаций. Этот подход сочетает в себе мощь агентов ИИ с ясностью стандартизированных рабочих процедур, гарантируя эффективное сотрудничество агентов и соответствие целям пользователей.
Подпишитесь на мою еженедельную рассылку и будьте в курсе новых публикаций в области ИИ за 2023 год!
Лю и др. использовали GPT-4 для создания модели языкового зрения общего назначения под названием LLaVA, первой модели общего назначения, которая понимает и следует визуальным и языковым инструкциям. Да, они использовали GPT-4 не как базовую модель, а для тренировки своей модели! Как мы увидим на видео, GPT-4 использовался для создания большого и высококачественного набора данных для обучения новой модели, понимающей изображения. Да, и очевидно, что он понимает не только изображения, но и текст (есть мультимодальность), а это значит, что он может отвечать на самые разные вопросы о них! Подробнее читайте в полной статье или в видео...
Мы видели так много новых подходов к генерации текста, а генерация изображений становится все лучше. Затем мы увидели другие потрясающие первоначальные работы по созданию видео и даже 3D-моделей из текста. Только представьте себе сложность такой задачи, когда все, что у вас есть, — это предложение, и вам нужно сгенерировать что-то, что могло бы выглядеть как объект в реальном мире, со всеми его деталями. Что ж, вот новый, который является не просто начальным шагом; это огромный шаг вперед в создании 3D-моделей с помощью простого текста: MVDream!
Distil-Whisper — это модель транскрипции аудио, которая в 6 раз быстрее исходной модели Whisper, на 49 % меньше и сохраняет 99 % точности. И самое лучшее в этом то, что исходный код полностью открыт, и вы можете использовать его прямо сейчас.
В этом видео мы погружаемся в Stable Video Diffusion (SVD), изучая, как эта инновационная технология Stability AI совершает революцию в создании видео на основе искусственного интеллекта. Познакомьтесь с основными принципами моделей диффузии и их применением в синтезе текста в видео и многовидовом режиме, что идеально подходит для энтузиастов искусственного интеллекта и цифровых медиа, стремящихся понять будущее создания видео.
Если вы хотите прочитать больше статей и иметь более широкое представление, вот еще один отличный репозиторий для вас, охватывающий 2022 год: 2022 год: год, полный удивительных статей по искусственному интеллекту - обзор. Не стесняйтесь подписаться на мой еженедельный информационный бюллетень и оставаться в курсе -познакомьтесь с новыми публикациями по ИИ за 2023 год!
Отметьте меня в Твиттере @Whats_AI или LinkedIn @Louis (What's AI) Бушар, если поделитесь этим списком!
[1] Ван, К., Чен, С., Ву, Ю., Чжан, З., Чжоу, Л., Лю, С., Чен, З., Лю, Ю., Ван, Х., Ли, Дж. и Хе, Л., 2023. Языковые модели нейронных кодеков представляют собой синтезаторы речи с нулевым выстрелом, https://arxiv.org/abs/2301.02111
[2] Брукс и др., 2022: InstructPix2Pix, https://arxiv.org/abs/2211.09800.
[3] Агостинелли и др., 2023: MusicLM, https://arxiv.org/abs/2301.11325.
[4] Эссер П., Чиу Дж., Атигечян П., Гранског Дж. и Германидис А., 2023. Синтез видео на основе структуры и содержания с помощью диффузионных моделей, https://arxiv.org/abs /2302.03011
[5] Дрисс Д., Ся Ф., Саджади М.С., Линч К., Чоудхери А., Ичтер Б., Вахид А., Томпсон Дж., Вуонг К., Ю, Т. и Хуанг, В., 2023. Palm-e: воплощенная мультимодальная языковая модель. https://arxiv.org/abs/2303.03378
[6] Кириллов А., Минтун Э., Рави Н., Мао Х., Роллан К., Густафсон Л., Сяо Т., Уайтхед С., Берг А.С., Ло, Вайоминг. и Доллар П., 2023. Сегментируйте что угодно, https://arxiv.org/abs/2304.02643.
[7] Тьюэл, Ю., Гал, Р., Чечик, Г. и Ацмон, Ю., 2023. Редактирование первого ранга с блокировкой клавиш для персонализации преобразования текста в изображение, https://arxiv.org/abs/2305.01644
[8] Пан, X., Тевари, А., Леймкюлер, Т., Лю, Л., Мека, А. и Теобальт, К., 2023. Перетащите свой GAN: интерактивное точечное манипулирование генеративным многообразием изображений, https://arxiv.org/abs/2305.10973
[9] Ли З., Мюллер Т., Эванс А., Тейлор Р.Х., Унберат М., Лю М.Ю. и Лин Ч., 2023. Неураланджело: Высокоточная реконструкция поверхности нейронов. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию образов (стр. 8456-8465), https://arxiv.org/abs/2306.03092.
[10] Чжу Л., Ян Д., Чжу Т., Реда Ф., Чан В., Сахария К., Норузи М. и Кемельмахер-Шлизерман И., 2023. TryOnDiffusion: A Сказка о двух юнцах. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию образов (стр. 4606-4615), https://arxiv.org/abs/2306.08276.
[11] Ян С., Цзян Л., Лю З. и Лой К.С., 2023. StyleGANEX: манипуляции на основе StyleGAN за пределами обрезанных выровненных лиц. Препринт arXiv arXiv:2303.06146.
[12] Хун Ю., Чжэнь Х., Чен П., Чжэн С., Ду Ю., Чен З. и Ган К., 2023. 3D-кинофильмы: Внедрение трехмерного мира в большой языковые модели. Препринт arXiv arXiv:2307.12981.
[13] Хун С., Чжэн С., Чэнь Дж., Ченг Ю., Чжан К., Ван З., Яу, СКС, Линь З., Чжоу Л., Ран, К. и Сяо, Л., 2023. Metagpt: Метапрограммирование для многоагентной среды совместной работы. Препринт arXiv arXiv:2308.00352.
[14] Лю, Х., Ли, К., Ву, К. и Ли, Ю.Дж., 2023. Настройка визуальных инструкций. Препринт arXiv arXiv:2304.08485.
[15] Ши, Ю., Ван, П., Йе, Дж., Лонг, М., Ли, К. и Ян, К., 2023. Mvdream: Многопроекционное распространение для 3D-поколения. Препринт arXiv arXiv:2308.16512.
[16] Ганди С., фон Платен П. и Раш А.М., 2023. Distil-Whisper: надежная дистилляция знаний посредством крупномасштабной псевдомаркировки. Препринт arXiv arXiv:2311.00430.
[17] Блаттманн и др., 2023: Стабильная диффузия видео. https://static1.squarespace.com/static/6213c340453c3f502425776e/t/655ce779b9d47d342a93c890/1700587395994/stable_video_diffusion.pdf