Исследователи из OpenAI выпустили впечатляющую модель согласованности в непрерывном времени (sCM), которая обеспечивает прорыв в скорости генерации мультимедийного контента, генерируя изображения в 50 раз быстрее, чем традиционные модели диффузии, требуя менее 0,1 секунды. Изображение может быть создано за секунды. Соавторами этого исследования являются Лу Ченг и Ян Сун, и статья опубликована на arXiv.org. Хотя она еще не прошла рецензирование, ее потенциальное влияние огромно и предвещает серьезный скачок в генеративном искусственном интеллекте в реальном времени. приложения. Редактор Downcodes даст вам более глубокое понимание инноваций и перспектив дальнейшего применения модели sCM.
Недавно исследователи из OpenAI опубликовали впечатляющий результат исследования, представив новую модель согласованности в непрерывном времени (sCM). Эта модель обеспечивает скачок в скорости создания мультимедийного контента (например, изображений, видео и аудио), в 50 раз быстрее, чем традиционная модель диффузии. В частности, sCM может сгенерировать изображение менее чем за 0,1 секунды, тогда как традиционным диффузионным моделям часто требуется более 5 секунд.
С помощью этой технологии исследовательская группа успешно создала высококачественные образцы всего за два этапа отбора проб. Это нововведение делает процесс генерации более эффективным без ущерба для качества образца. Статья была написана совместно двумя исследователями из OpenAI, Лу Ченгом и Ян Сонгом, и была опубликована на arXiv.org. Хотя она еще не прошла рецензирование, ее потенциальное влияние нельзя недооценивать.
Ян Сун впервые предложил концепцию «модели согласованности» в статье 2023 года, которая заложила основу для развития SCM. Хотя диффузионные модели превосходно подходят для создания фотореалистичных изображений, 3D-моделей, аудио и видео, они не очень эффективны при дискретизации, часто требуя от десятков до сотен шагов, что делает их непрактичными в приложениях реального времени.
Выборка происходит быстрее
Самым большим преимуществом модели sCM является то, что она может обеспечить более высокую скорость выборки без увеличения вычислительной нагрузки . Самая большая модель sCM OpenAI имеет 1,5 миллиарда параметров, а на графическом процессоре A100 время генерации выборки составляет всего 0,11 секунды. Это приводит к 50-кратному ускорению времени настенных часов по сравнению с диффузионными моделями, что делает приложения генеративного искусственного интеллекта в реальном времени более осуществимыми.
Требует меньше вычислительных ресурсов
Что касается качества выборки, sCM был обучен на наборе данных ImageNet 512×512 и достиг оценки начального расстояния Фреше (FID) 1,88, что менее чем на 10% отличается от модели верхней диффузии. Путем обширного сравнения с другими передовыми генеративными моделями исследовательская группа продемонстрировала, что sCM обеспечивает наилучшие результаты при значительном сокращении вычислительных затрат.
В будущем быстрая выборка и масштабируемость моделей sCM откроют новые возможности для приложений генеративного искусственного интеллекта в реальном времени во многих областях. От генерации изображения до синтеза аудио и видео — sCM обеспечивает практическое решение необходимости быстрого и высококачественного вывода. В то же время исследование OpenAI также намекает на потенциал дальнейшей оптимизации системы, которая может повысить производительность модели в соответствии с потребностями различных отраслей.
Официальный блог: https://openai.com/index/simplifying-stabilizing-and-scaling-continous-time-consistency-models/
Документ: https://arxiv.org/html/2410.11081v1.
Появление модели sCM знаменует собой крупный прорыв в области генерации изображений с помощью ИИ. Его эффективная скорость выборки и высококачественный результат открыли новую главу для приложений реального времени. Его будущий потенциал развития безграничен, и его стоит с нетерпением ждать!