Команда технологий коммерциализации ByteDance открыла исходный код своей последней разработанной графовой модели Винсента Infinity. Эта модель совершила значительный прорыв в качестве генерации изображений и скорости вывода, превзойдя многие ведущие в отрасли модели, такие как Stable Diffusion 3 и HART, LlamaGen и др. Основная инновация модели Infinity заключается в ее уникальной системе авторегрессии Bitwise Token и бесконечном словаре, который позволяет модели улавливать более мелкие детали изображения и значительно повышать верхний предел качества и производительности генерируемых изображений. В этой статье подробно представлены технические детали, производительность и ситуация с открытым исходным кодом модели Infinity.
В области искусственного интеллекта модель Infinity, последнее достижение технологической команды коммерциализации ByteDance, стала новым королем в области авторегрессионных графов Винсента благодаря своей превосходной производительности и инновационным технологиям. Эта новая модель с открытым исходным кодом не только превосходит Stable Diffusion3 по качеству генерации изображений, но также демонстрирует значительные преимущества в скорости вывода.
Основным нововведением модели Infinity является принятие структуры авторегрессии побитового токена. Эта структура значительно улучшает способность модели обнаруживать высокочастотные сигналы путем прогнозирования мелкозернистого «побитового токена», состоящего из +1 или -1 в следующий раз. уровень разрешения захвата, что приводит к более детальным изображениям. Кроме того, модель Infinity расширяет словарный запас до бесконечности, значительно расширяя пространство представления токенизатора изображений и улучшая верхний предел производительности авторегрессионной венограммы.
В сравнении производительности модель Infinity показала выдающиеся результаты среди авторегрессионных методов, намного превзойдя HART, LlamaGen, Emu3 и другие методы, и победила модель HART при оценке человеком с процентом выигрыша почти 90%. В то же время Infinity также победила диффузные модели SOTA, такие как PixArt-Sigma, SD-XL, SD3-Meidum и т. д., с процентом выигрыша 75%, 80% и 65%, доказав свои преимущества среди моделей того же размера. .
Еще одной важной особенностью модели Infinity являются ее хорошие характеристики масштабирования. По мере увеличения размера модели и инвестирования ресурсов обучения потери проверочного набора неуклонно уменьшаются, а точность проверочного набора неуклонно возрастает. Кроме того, Infinity также предложила технологию самокоррекции битов, которая повышает способность модели к самокоррекции и устраняет проблему накопления ошибок во время авторегрессионного рассуждения.
Что касается скорости вывода, Infinity унаследовала преимущество в скорости VAR. Модели 2B требуется всего 0,8 секунды для создания изображения 1024x1024, что в 3 раза быстрее, чем SD3-Medium того же размера, и в 14 раз быстрее, чем 12B Flux Dev. . Модель 8B в 7 раз быстрее, чем SD3.5 того же размера. Модели 20B требуется 3 секунды для создания изображения 1024x1024, что почти в 4 раза быстрее, чем у 12B Flux Dev.
В настоящее время код обучения и вывода, демонстрация и веса модели Infinity запущены на складе GitHub, а также предоставляется веб-сайт, позволяющий пользователям опробовать и оценить эффект модели.
Страница проекта: https://foundationvision.github.io/infinity.project/
В целом, модель Infinity принесла новые прорывы в область авторегрессионных винсентовских графов благодаря своей продвинутой технической архитектуре, отличной производительности и удобным методам с открытым исходным кодом, что заслуживает внимания и дальнейших исследований. Его эффективная скорость вывода и возможности создания высококачественных изображений открывают ему большой потенциал в практических приложениях.