Исследователи Meta AI и академические партнеры разработали инновационную систему, MILS (мультимодальный итеративный решатель LLM), которая обучает больших языковых моделей обработать изображения, видео и аудио без специального обучения. MILS опирается на естественную способность решать языковые модели, а не большие объемы обучения данных, показывая его уникальные преимущества.
MILS работает, сочетая две модели искусственного интеллекта для выполнения решений задач: один является «генератором», ответственным за предложение решений задач, а другая - «RatingR», используемый для оценки эффективности сгенерированного решения. Обратная связь, предоставленная бомбардиром, может помочь генератору непрерывно оптимизировать ответ, пока не достигнет удовлетворительного результата. Например, в задаче описания изображения MILS может постепенно уточнить описания изображений, тем самым точно описывая детали изображения на разных уровнях.
MILS особенно хорошо работает в описании изображения. Используя модель Llama-3.1-8b в качестве генератора и модели клипа в качестве бомбардира, MILS способен создавать описания изображений, сопоставимые с описаниями современных ведущих методов, хотя клип не специально обучен задачам описания изображения. Кроме того, MILS также расширяет возможности генерации текста до изображения путем тонкого настройки текстовых подсказок и может объединить подсказки, созданные AI, с инструментами обработки изображений для обработки задач редактирования изображений, таких как преобразование стиля.
Точность описания изображения увеличивается с количеством шагов между генератором и бомбардиром. |.
Возможности MILS не ограничиваются изображениями, он также распространяется на видео и аудио. При тестировании с использованием видео-данных видео MSR-VTT MILS превосходит существующие модели в описании видеоконтента. Поскольку MILS не изменяет параметры модели во время работы, он может преобразовать различные типы данных в читаемый текст, поддерживая слияние и преобразование информации из нескольких источников, таких как изображения и аудио в желаемый формат, таким образом, создавая мультимодальную информацию с конвергенными приложениями открывать новые возможности.
Тесты показывают, что использование более крупных генераторов и моделей оценки может привести к более точным результатам, а увеличение числа потенциальных решений может значительно повысить производительность. Исследователи также обнаружили, что расширение на более крупную языковую модель не только улучшает качество результатов, но и значительно повышает производительность.
Ландшафты развиваются от простых основных описаний до сложных ландшафтных представлений с более точными деталями и более естественными элементами. |.
Эта инновационная стратегия, принятая MILS, соответствует текущей тенденции области искусственного интеллекта к более разумным возможностям рассуждения. Мета -команда также заявила, что MILS может проявлять большой потенциал в будущем в таких областях, как 3D -обработка данных, дополнительно продвижение развития мультимодального ИИ.
С быстрой разработкой GPT-4 Openai и других альтернатив с открытым исходным кодом, таких как Llama's Llama 3.2, Pixtral Mistral и Deepseek's Janus Pro, эти новые мультимодальные системы искусственного интеллекта ускоряют их применение в повседневной жизни. Развитие искусственного интеллекта.