В последнее время оценка производительности мультимодальных моделей большого языка (MLLM) стала горячей точкой исследований в области искусственного интеллекта. Тест Mementos, совместно запущенный Университетом Мэриленда и Чапел-Хилл Северной Каролины, обеспечивает новый стандарт для оценки возможностей MLLM в обработке последовательностей изображений. Этот тест охватывает последовательности изображений из различных сцен, таких как реальный мир, роботы и анимация, и предназначен для всестороннего изучения рассуждений MLLM. Публикация результатов испытаний предоставляет ценные данные для нашего понимания преимуществ и ограничений MLLM.
Недавно Университет Мэриленда и Северная Каролина-Чапел-Хилл совместно выпустили Mementos, тест последовательности изображений, специально разработанный для мультимодальных моделей большого языка. Он предназначен для всесторонней проверки логических возможностей этих моделей в реальном мире, в роботах и в реальных условиях. последовательности анимационных изображений. Однако результаты испытаний шокируют: такие MLLM, как GPT-4V и Gemini, достигают точности менее 20% в наборе данных комиксов. Это показывает явную неадекватность этих моделей в работе с иллюзиями, объектами и поведенческом понимании в последовательностях изображений.Результаты тестов Mementos показывают, что текущий основной MLLM по-прежнему имеет значительные недостатки в обработке сложных последовательностей изображений, особенно последовательностей анимационных изображений. Это дает важный ориентир для будущего направления исследований MLLM, а также напоминает нам, что нам нужно быть осторожными в отношении надежности MLLM в различных сценариях применения. Будущие исследования должны быть сосредоточены на том, как улучшить способность MLLM понимать последовательности изображений, уменьшить галлюцинации и улучшить способность к обобщению различных типов последовательностей изображений.