Передовая грамотная техника
Введение
Конечная цель нашего исследования — создать систему, обладающую интеллектом высокого уровня, то есть способной читать, думать и творить , настолько развитой, что однажды в будущем она сможет даже превзойти человеческий интеллект. Мы называем такие системы Advanced Literate Machinery (ALM) .
Начнем с того, что в настоящее время мы концентрируемся на обучении машин чтению изображений и документов. В ближайшие годы мы будем исследовать возможности наделения машин интеллектуальными способностями мышления и творчества , догоняя и превосходя GPT-4 и GPT-4V.
Этот проект поддерживается командой 读光 OCR (读光-Du Guang означает « Читающий свет ») в лаборатории Tongyi, Alibaba Group.
Посетите наш портал 读光-Du Guang и DocMaster, чтобы ознакомиться с онлайн-демонстрациями оптического распознавания символов и понимания документов.
Недавние обновления
Выпуск 2024.12
- CC-OCR ( CC-OCR: комплексный и сложный тест OCR для оценки больших мультимодальных моделей в грамотности . статья): тест CC-OCR специально разработан для оценки возможностей больших мультимодальных моделей, ориентированных на оптическое распознавание текста. CC-OCR предлагает широкий спектр сценариев, задач и задач, который включает четыре направления, ориентированных на распознавание текста: многосценное чтение текста, многоязычное чтение текста, анализ документов и извлечение ключевой информации. Он включает в себя 39 подмножеств с 7058 полными аннотированными изображениями, из которых 41% взяты из реальных приложений, публикуемых впервые.
Выпуск 2024.9
Platypus ( Platypus: A Generalized Specialist Model for Reading Text в различных формах, документ ECCV 2024): Platypus представляет новый подход к чтению текста с изображений, устраняя ограничения как специализированных, так и универсальных моделей. Platypus использует единую унифицированную архитектуру для эффективного распознавания текста в различных формах , сохраняя высокую точность и эффективность. Мы также представляем новый набор данных Worms , который объединяет и частично перемаркирует предыдущие наборы данных для поддержки разработки и оценки модели.
SceneVTG ( Генерация визуального текста в дикой природе, документ ECCV 2024): Мы предлагаем генератор визуального текста (называемый SceneVTG), который может создавать высококачественные текстовые изображения в дикой природе . Следуя двухэтапной парадигме , SceneVTG использует мультимодальную модель большого языка, чтобы рекомендовать разумные текстовые области и содержимое в нескольких масштабах и уровнях, которые используются моделью условного распространения в качестве условий для создания текстовых изображений. Для обучения SceneVTG мы также предоставляем новый набор данных SceneVTG-Erase с подробными аннотациями OCR.
WebRPG ( WebRPG: автоматическая генерация параметров веб-рендеринга для визуального представления, документ ECCV 2024): мы представляем WebRPG, новую задачу, направленную на автоматизацию создания визуальных презентаций для веб-страниц на основе HTML-кода. В отсутствие эталона мы создали новый набор данных с помощью автоматизированного конвейера . Предлагаемые нами модели, построенные на архитектуре VAE и пользовательских встраиваниях HTML , эффективно управляют многочисленными веб-элементами и параметрами рендеринга. Комплексные эксперименты, включая индивидуальные количественные оценки, демонстрируют эффективность модели WebRPG при создании веб-презентаций.
ProcTag ( ProcTag: Process Tagged for Assessing the Efficacy of Document Instruction Data, arXiv 2024. paper): Эффективный метод оценки данных инструкций документа имеет решающее значение для создания данных инструкций с высокой эффективностью, что, в свою очередь, облегчает обучение LLM и MLLM для понимания документов. Мы предлагаем ProcTag, метод, ориентированный на данные, который помечает процесс выполнения инструкций, а не сам текст, что позволяет более эффективно оценивать и выборочно выбирать инструкции документа.
Выпуск 2024.4
- OmniParser ( OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition, документ CVPR 2024): Мы предлагаем универсальную модель для анализа визуально расположенного текста в различных сценариях, называемую OmniParser, которая может одновременно обрабатывать три типичных визуально-ориентированных сценария. Задачи синтаксического анализа расположенного текста: обнаружение текста, извлечение ключевой информации и распознавание таблиц. В OmniParser все задачи имеют единую архитектуру кодировщика-декодера , единую цель: генерацию текста с точечными условиями и единое представление ввода и вывода: подсказки и структурированные последовательности .
Выпуск 2024.3
- GEM ( GEM: Расширенная гештальт-модель языка разметки для понимания веб-страниц с помощью дерева рендеринга, EMNLP, 2023. Статья): Веб-страницы служат для людей важными носителями для получения и восприятия информации. Вдохновленные гештальт-психологической теорией, мы предлагаем инновационную модель языка расширенной гештальт-разметки (сокращенно GEM) для размещения разнородной визуальной информации из деревьев рендеринга веб-страниц , что приводит к отличным результатам при выполнении таких задач, как ответы на веб-вопросы и извлечение веб-информации.
Выпуск 2023.9
- DocXChain ( DocXChain: мощный инструментарий с открытым исходным кодом для анализа документов и не только, отчет arXiv 2023.): Чтобы повысить уровень оцифровки и структуризации документов , мы разрабатываем и выпускаем набор инструментов с открытым исходным кодом, называемый DocXChain, для точного и детального разбор документов. В настоящее время предоставляются базовые возможности, включая обнаружение текста, распознавание текста, распознавание структуры таблиц и анализ макета. Кроме того, типичные конвейеры, т. е. общее чтение текста, анализ таблиц и структурирование документов, созданы для поддержки более сложных приложений, связанных с документами. Большинство алгоритмических моделей взяты из ModelScope. Теперь поддерживается распознавание формул (с использованием моделей RapidLatexOCR) и полное преобразование PDF-файлов (формат PDF в JSON).
- LISTER ( LISTER: Соседнее декодирование для распознавания текста сцены с учетом длины, документ ICCV 2023): Мы предлагаем метод под названием «Распознаватель текста сцены с учетом длины» (LISTER), который устраняет ограничение устойчивости к текстам различной длины . В частности, предлагается декодер соседей для получения точных карт внимания символов с помощью новой матрицы соседей независимо от длины текста. Кроме того, разработан модуль расширения функций для моделирования зависимости на большом расстоянии с низкой стоимостью вычислений, который может выполнять итерации с соседним декодером для постепенного улучшения карты функций.
- VGT ( Vision Grid Transformer для анализа макета документа, документ ICCV 2023): Чтобы в полной мере использовать мультимодальную информацию и использовать методы предварительного обучения для изучения лучшего представления для анализа макета документа (DLA), мы представляем VGT, двухпотоковое видение. Grid Transformer, в котором Grid Transformer (GiT) предлагается и предварительно обучен для семантического понимания 2D-токенов и сегментов. Кроме того, разработан и выпущен новый тест для оценки алгоритмов анализа макета документа, названный D^4LA.
- VLPT-STD ( Предварительное обучение визуальному языку для повышения эффективности детекторов текста сцены, документ CVPR 2022): Мы адаптируем совместное обучение визуальному языку для обнаружения текста сцены — задачи, которая по своей сути предполагает кросс-модальное взаимодействие между двумя модальностями: зрением и язык. Предварительно обученная модель способна создавать более информативные представления с более богатой семантикой, что может легко принести пользу существующим детекторам текста сцены (таким как EAST и DB) в последующей задаче обнаружения текста.
Выпуск 2023.6
- LiteWeightOCR ( Создание мобильного распознавателя текста с помощью NAS на основе усеченного SVD, BMVC 2023. документ): Чтобы модели OCR можно было развертывать на мобильных устройствах, сохраняя при этом высокую точность , мы предлагаем облегченный распознаватель текста, который интегрирует усеченное единственное значение. Дистилляция знаний (KD) на основе декомпозиции (TSVD) в процесс поиска нейронной архитектуры (NAS).
Выпуск 2023.4
- GeoLayoutLM ( GeoLayoutLM: Geometric Pre-training for Visual Information Extraction, CVPR 2023. paper): Мы предлагаем мультимодальную структуру под названием GeoLayoutLM для визуального извлечения информации (VIE). В отличие от предыдущих методов предварительного обучения документов, которые обычно изучают геометрическое представление неявным способом, GeoLayoutLM явно моделирует геометрические отношения объектов в документах .
Выпуск 2023.2
- LORE-TSR ( LORE: Сеть регрессии логического местоположения для распознавания структур таблиц, статья AAAI 2022). Мы моделируем распознавание структуры таблиц (TSR) как задачу регрессии логического местоположения и предлагаем новый алгоритм под названием LORE, что означает сеть регрессии логического местоположения, который впервые сочетает в себе регрессию логического местоположения с регрессией пространственного местоположения ячеек таблицы.
Выпуск 2022.9
- MGP-STR ( Многоуровневое прогнозирование для распознавания текста сцены, документ ECCV 2022): на основе ViT и адаптированного модуля адаптивной адресации и агрегирования мы исследуем неявный способ включения лингвистических знаний путем введения представлений подслов для облегчения многоуровневого прогнозирования. и слияние в распознавании текста сцены.
- LevOCR ( Levenshtein OCR, ECCV 2022. paper): Вдохновленные Трансформатором Левенштейна, мы рассматриваем проблему распознавания текста сцены как итеративный процесс уточнения последовательности, который обеспечивает параллельное декодирование, динамическое изменение длины и хорошую интерпретируемость .