Благодаря быстрому развитию технологий искусственного интеллекта интеграция данных зрения и текстовых данных стала важной проблемой. Традиционные модели имеют много ограничений при работе со структурированными визуальными документами, которые влияют на автоматическое извлечение и понимание контента. Недавно выпущенный гранитный визит-3.1-2b от IBM является моделью визуального языка, предназначенной для решения этой проблемы.
Благодаря непрерывному развитию технологий искусственного интеллекта, интеграция данных зрения и текстовых данных стала сложной задачей. Традиционные модели часто имеют трудности с точным анализом структурированных визуальных документов, таких как таблицы, диаграммы, инфографика и иллюстрации. Столкнувшись с этим требованием, IBM недавно выпустила гранит-Vision-3.1-2b, небольшую модель визуального языка, разработанная для понимания документов.
Гранит-висист-3,1-2b способен извлекать контент из различных визуальных форматов, включая таблицы, диаграммы и иллюстрации. Модель обучается тщательно выбранному набору данных с источниками данных, включая общественные и синтетические источники, способные выполнять различные задачи, связанные с документами. Как улучшенная версия большой языковой модели Granite, он интегрирует два модальности изображения и текста, тем самым улучшая способность интерпретации модели и подходит для различных практических сценариев применения.
Модель состоит из трех ключевых компонентов: во-первых, визуальный энкодер, который эффективно обрабатывает и кодирует визуальные данные с использованием Siglip; Визуальная информация с текстовой информацией;
Во время тренировки гранитное висию-3,1-2B опирается на LLAVA и объединяет характеристики многослойных кодеров, а также более плотное разрешение сетки в AnyRes. Эти улучшения улучшают способность модели понимать подробный визуальный контент, позволяя ему более точно выполнять визуальные задачи документов, такие как анализ таблиц и диаграмм, выполнение оптического распознавания символов (OCR) и ответа на запросы на основе документов.
Результаты оценки показывают, что гранитно-висиально-3,1-2B хорошо показало многочисленные показатели, особенно в понимании документов. В тесте ChartQA модель набрала 0,86, превзойдя другие модели с параметрами в диапазоне 1B-4B. В тесте TextVQA оценка составляет 0,76, демонстрируя сильную способность проанализировать и отвечать на текстовую информацию, встроенную в изображения. Эти результаты подчеркивают потенциал модели для точной обработки визуальных и текстовых данных в корпоративных приложениях.
Гранитно-висиальное визионо IBM-3.1-2B представляет собой важный прогресс в модели визуального языка и обеспечивает сбалансированное решение для понимания визуальных документов. Его архитектура и методы обучения позволяют эффективно анализировать и анализировать сложные визуальные и текстовые данные. Благодаря своей нативной поддержке трансформаторов и VLLM модель может быть адаптирована к различным вариантам использования и может быть развернута в облачных средах, таких как Colab T4, предоставляя исследователям и специалистам практическое инструмент для расширения возможностей обработки документов.
Модель: https://huggingface.co/ibm-granite/granite-vision-3.1-2b-preview
Ключевые моменты:
Granite-Vision-3.1-2b-это небольшая модель визуального языка, специально разработанная для понимания документов IBM, которая может обрабатывать извлечение контента в нескольких визуальных форматах.
Модель состоит из трех частей: визуального энкодера, разъема визуального языка и большой языковой модели, которая улучшает понимание сложных вводов.
Отлично по нескольким показателям, особенно в области понимания документов, демонстрируя сильный потенциал предприятия.
Гранитно-висиальное значение IBM-3.1-2B не только улучшает способность интегрировать визуальные и текстовые данные, но также предоставляет предприятиям мощные инструменты обработки документов, демонстрируя огромный потенциал технологии ИИ в практических приложениях.