고급 문학 기계
소개
우리 연구의 궁극적인 목표는 높은 수준의 지능, 즉 읽고, 생각하고, 창조하는 능력을 보유하여 미래에는 인간의 지능을 능가할 수 있는 시스템을 구축하는 것입니다. 우리는 이러한 종류의 시스템을 ALM(Advanced Literate Machinery) 이라고 부릅니다.
우선, 우리는 현재 기계가 이미지와 문서를 읽을 수 있도록 가르치는 데 중점을 두고 있습니다. 앞으로 몇 년 안에 우리는 GPT-4와 GPT-4V를 따라잡고 능가하는 사고하고 창조하는 지적 능력을 기계에 부여하는 가능성을 탐구할 것입니다.
이 프로젝트는 Alibaba Group의 Tongyi Lab 내读光 OCR 팀 (读光-Du Guang은 " 빛을 읽는다 "를 의미함)이 관리합니다.
读光-Du Guang Portal 및 DocMaster를 방문하여 OCR 및 문서 이해에 대한 온라인 데모를 경험해 보세요.
최근 업데이트
2024.12 출시
- CC-OCR ( CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy . 논문): CC-OCR 벤치마크는 대규모 다중 모드 모델의 OCR 중심 기능을 평가하기 위해 특별히 설계되었습니다. CC-OCR은 다중 장면 텍스트 읽기, 다국어 텍스트 읽기, 문서 구문 분석 및 핵심 정보 추출의 4가지 OCR 중심 트랙으로 구성된 다양한 시나리오, 작업 및 과제를 보유하고 있습니다. 여기에는 전체 주석이 달린 7,058개의 이미지가 포함된 39개의 하위 세트가 포함되어 있으며, 이 중 41%는 실제 애플리케이션에서 가져온 것이며 처음으로 출시되었습니다.
2024.9 출시
오리너구리 ( 오리너구리: 다양한 형식의 텍스트를 읽기 위한 일반화된 전문가 모델, ECCV 2024. 논문): 오리너구리는 전문가 모델과 일반 모델 모두의 한계를 해결하면서 이미지에서 텍스트를 읽는 새로운 접근 방식을 소개합니다. 오리너구리는 단일 통합 아키텍처를 활용하여 다양한 형태 의 텍스트를 효과적으로 인식하고 높은 정확성과 효율성을 유지합니다. 또한 모델 개발 및 평가를 지원하기 위해 이전 데이터 세트를 결합하고 부분적으로 레이블을 다시 지정하는 새로운 데이터 세트 Worms를 소개합니다.
SceneVTG ( Visual Text Generation in the Wild, ECCV 2024. 논문): 우리는 야생에서 고품질의 텍스트 이미지를 생성할 수 있는 시각적 텍스트 생성기(SceneVTG라고 함)를 제안합니다. 2단계 패러다임 에 따라 SceneVTG는 다중 모달 대형 언어 모델을 활용하여 조건부 확산 모델에서 텍스트 이미지를 생성하는 조건으로 사용되는 여러 규모와 수준에 걸쳐 합리적인 텍스트 영역과 콘텐츠를 추천합니다. SceneVTG를 교육하기 위해 자세한 OCR 주석이 포함된 새로운 데이터 세트 SceneVTG-Erase 도 제공합니다.
WebRPG ( WebRPG: 시각적 프리젠테이션을 위한 자동 웹 렌더링 매개변수 생성, ECCV 2024. 논문): HTML 코드를 기반으로 웹 페이지의 시각적 프리젠테이션 생성을 자동화하는 데 초점을 맞춘 새로운 작업인 WebRPG를 소개합니다. 벤치마크가 없을 경우 자동화된 파이프라인을 통해 새로운 데이터 세트를 생성했습니다. VAE 아키텍처 와 사용자 정의 HTML 임베딩을 기반으로 구축된 우리가 제안한 모델은 수많은 웹 요소와 렌더링 매개변수를 효율적으로 관리합니다. 맞춤형 정량적 평가를 포함한 포괄적인 실험은 웹 프리젠테이션 생성에 있어 WebRPG 모델의 효율성을 입증합니다.
ProcTag ( ProcTag: 문서 지시 데이터의 효율성 평가를 위한 프로세스 태그 지정, arXiv 2024. 논문): 문서 지시 데이터에 대한 효과적인 평가 방법은 효율성이 높은 지시 데이터를 구성하는 데 중요하며, 이는 결과적으로 LLM 교육을 촉진하고 문서 이해를 위한 MLLM. 우리는 텍스트 자체가 아닌 명령의 실행 과정에 태그를 지정하는 데이터 중심 방법인 ProcTag를 제안하여 문서 명령을 보다 효과적으로 평가하고 선택적으로 샘플링할 수 있습니다.
2024.4 출시
- OmniParser ( OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition, CVPR 2024. 논문): 우리는 OmniParser라고 불리는 다양한 시나리오에서 시각적으로 상황에 맞는 텍스트를 구문 분석하기 위한 범용 모델을 제안합니다. 이는 세 가지 일반적인 시각적으로 동시에 처리할 수 있습니다. 위치 텍스트 구문 분석 작업: 텍스트 발견, 주요 정보 추출 및 테이블 인식. OmniParser에서 모든 작업은 통합 인코더-디코더 아키텍처 , 통합 목표: 포인트 조건 텍스트 생성 , 통합 입력 및 출력 표현: 프롬프트 및 구조화된 시퀀스를 공유합니다.
2024.3 출시
- GEM ( GEM: 렌더 트리를 통한 웹 이해를 위한 Gestalt Enhanced Markup Language Model, EMNLP 2023. 논문): 웹 페이지는 인간이 정보를 획득하고 인식하는 데 중요한 전달자 역할을 합니다. 게슈탈트 심리학 이론에서 영감을 받아 웹 페이지의 렌더링 트리에서 이질적인 시각적 정보를 호스팅하여 웹 질문 응답 및 웹 정보 추출과 같은 작업에 대한 탁월한 성능을 제공하기 위한 혁신적인 게슈탈트 강화 마크업 언어 모델(GEM)을 제안합니다.
2023.9 출시
- DocXChain ( DocXChain: A Powerful Open-Source Toolchain for Document Parsing and Beyond, arXiv 2023. 보고서): 문서의 디지털화 및 구조화 수준을 높이기 위해 우리는 정확하고 상세한 분석을 위해 DocXChain이라는 오픈 소스 도구 체인을 개발 및 출시합니다. 문서 분석. 현재는 텍스트 검출, 텍스트 인식, 테이블 구조 인식, 레이아웃 분석 등의 기본 기능을 제공하고 있다. 또한 일반 텍스트 읽기, 테이블 구문 분석, 문서 구조화 등 일반적인 파이프라인을 구축하여 문서와 관련된 보다 복잡한 애플리케이션을 지원합니다. 대부분의 알고리즘 모델은 ModelScope에서 나왔습니다. 이제 수식 인식(RapidLatexOCR 모델 사용) 및 전체 PDF 변환(PDF에서 JSON 형식으로)이 지원됩니다.
- LISTER ( LISTER: Neighbor Decoding for Length-Insensitive Scene Text Recognition, ICCV 2023. 논문): 다양한 텍스트 길이에 대한 견고성 과 관련된 한계를 해결하는 Length-Insensitive Scene TExt Recognizer(LISTER)라는 방법을 제안합니다. 구체적으로, 텍스트 길이에 관계없이 새로운 이웃 행렬의 도움으로 정확한 문자 주의 지도를 얻기 위해 이웃 디코더가 제안되었습니다. 게다가 기능 강화 모듈은 낮은 계산 비용으로 장거리 종속성을 모델링하기 위해 고안되었으며, 이웃 디코더와 반복을 수행하여 기능 맵을 점진적으로 향상시킬 수 있습니다.
- VGT ( 문서 레이아웃 분석을 위한 Vision Grid Transformer, ICCV 2023. 논문): 다중 모드 정보를 최대한 활용하고 사전 훈련 기술을 활용하여 문서 레이아웃 분석(DLA)에 대한 더 나은 표현을 학습하기 위해 2스트림 비전인 VGT를 제시합니다. 2D 토큰 수준 및 세그먼트 수준 의미 체계 이해를 위해 GiT(Grid Transformer)를 제안하고 사전 훈련한 Grid Transformer입니다. 또한 D^4LA라고 하는 문서 레이아웃 분석 알고리즘을 평가하기 위한 새로운 벤치마크가 선별되어 출시되었습니다.
- VLPT-STD ( 장면 텍스트 감지기 강화를 위한 비전-언어 사전 훈련, CVPR 2022. 논문): 장면 텍스트 감지를 위한 비전-언어 공동 학습을 적용합니다. 이 작업은 본질적으로 비전과 두 양식 간의 교차 모드 상호 작용을 포함하는 작업입니다. 언어. 사전 훈련된 모델은 더 풍부한 의미론으로 더 많은 정보를 제공하는 표현을 생성할 수 있으며, 이는 다운스트림 텍스트 감지 작업에서 기존 장면 텍스트 감지기(예: EAST 및 DB)에 쉽게 도움이 될 수 있습니다.
2023.6 출시
- LiteWeightOCR ( Building A Mobile Text Recognizer via Truncated SVD-based Knowledge Distillation-Guided NAS, BMVC 2023. 논문): 높은 정확도를 유지하면서 OCR 모델을 모바일 장치에 배포할 수 있도록 하기 위해 Truncated Singular Value를 통합하는 경량 텍스트 인식기를 제안합니다. 분해(TSVD) 기반 지식 증류(KD)를 신경 아키텍처 검색(NAS) 프로세스로 전환합니다.
2023.4 출시
- GeoLayoutLM ( GeoLayoutLM: 시각적 정보 추출을 위한 기하학적 사전 훈련, CVPR 2023. 논문): 우리는 시각적 정보 추출(VIE)을 위해 GeoLayoutLM이라는 다중 모드 프레임워크를 제안합니다. 일반적으로 암시적인 방식으로 기하학적 표현을 학습하는 이전 문서 사전 학습 방법과 달리 GeoLayoutLM은 문서에 있는 개체의 기하학적 관계를 명시적으로 모델링합니다 .
2023.2 출시
- LORE-TSR ( LORE: Logical Location Regression Network for Table Structure Recognition, AAAI 2022. 논문): TSR(Table Structure Recognition)을 논리적 위치 회귀 문제로 모델링하고 LOgical Location REgression Network를 의미하는 LORE라는 새로운 알고리즘을 제안합니다. 이는 처음으로 논리적 위치 회귀와 테이블 셀의 공간 위치 회귀를 결합한 것입니다 .
2022.9 출시
- MGP-STR ( 장면 텍스트 인식을 위한 다중 세분성 예측, ECCV 2022. 논문): ViT 및 맞춤형 적응형 주소 지정 및 집계 모듈을 기반으로 하위 단어 표현을 도입하여 다중 세분성 예측을 촉진함으로써 언어 지식을 통합하는 암시적 방법을 탐색합니다. 장면 텍스트 인식의 융합.
- LevOCR ( Levenshtein OCR, ECCV 2022. 논문): Levenshtein Transformer에서 영감을 받아 장면 텍스트 인식 문제를 반복적인 시퀀스 개선 프로세스로 캐스팅하여 병렬 디코딩, 동적 길이 변경 및 우수한 해석 가능성을 허용합니다.