Визуальная модель (LVLMS) добилась значительного прогресса в области понимания изображения, но «галлюцинации» стали его узким местом развития. Команда Living Living Living Dao Group предложила новый метод, который называется «оптимизация предпочтений токена» (TPO) для этого вопроса. Ядром TPO является генерация автоматических сигналов вознаграждения токенов, избегая утомительной искусственной маркировки и вознаграждения вознаграждением зависимостями визуальной информации каждому распределению токенов для повышения производительности модели.
Самым большим инновацией TPO является то, что он осознает сигнал вознаграждения уровня токена автоматизации. Этот метод может автоматически идентифицировать токен визуального якоря в данных предпочтения, избегая утомительности искусственной мелкой гранулярной маркировки. Этот самооборотный сигнал вознаграждения визуального якоря направлен на оптимизацию зависимости модели от визуальной информации, тем самым эффективно снижая возникновение галлюцинаций.
Исследования показали, что модель TPO значительно лучше, чем традиционный метод в многочисленных критериях оценки, особенно в более сложных задачах, ответы, генерируемые генерацией модели, все чаще зависят от информации о изображении вместо предварительных знаний языковых моделей. Этот прогресс не только улучшает понимание модели, но также обеспечивает важную теоретическую основу для дальнейших исследований.
Кроме того, исследовательская группа также провела эксперименты с абляцией в различных параметрах параметров TPO и обнаружила, что оптимизированные дополнительные шаги шума и стратегии распределения вознаграждения могут еще больше улучшить производительность модели. Это открытие, несомненно, указало на направление для исследования и применения крупных визуальных моделей в будущем.
Короче говоря, это инновационное достижение Tao Tian предоставляет новые идеи для технологии мультимодального выравнивания и способствует применению технологии ИИ в области жизни ИИ в области жизни и потребления.
Благодаря применению метода TPO, задача «галлюцинации» крупных визуальных моделей решается, надежность и точность модели улучшаются, и она обеспечивает новое направление для разработки крупных визуальных моделей в будущем Закладывает прочную основу и имеет важное теоретическое значение и значение применения. Результаты этого исследования вносят новые силы в разработку мультимодальной технологии.