Mesin Melek Maju
Perkenalan
Tujuan akhir dari penelitian kami adalah untuk membangun suatu sistem yang memiliki kecerdasan tingkat tinggi, yaitu memiliki kemampuan membaca, berpikir, dan berkreasi , sedemikian canggihnya sehingga suatu hari nanti bahkan dapat melampaui kecerdasan manusia. Kami menamakan sistem semacam ini Advanced Literate Machinery (ALM) .
Untuk memulainya, saat ini kami fokus pada mesin pengajaran untuk membaca gambar dan dokumen. Di tahun-tahun mendatang, kami akan menjajaki kemungkinan untuk memberikan mesin kemampuan intelektual dalam berpikir dan berkreasi , menyamai dan melampaui GPT-4 dan GPT-4V.
Proyek ini dikelola oleh Tim OCR读光(读光-Du Guang berarti “ Membaca Cahaya ”) di Lab Tongyi, Grup Alibaba.
Kunjungi Portal 读光-Du Guang dan DocMaster kami untuk merasakan demo online untuk OCR dan Pemahaman Dokumen.
Pembaruan Terkini
Rilis 2024.12
- CC-OCR ( CC-OCR: Tolok Ukur OCR yang Komprehensif dan Menantang untuk Mengevaluasi Model Multimodal Besar dalam Literasi . makalah): Tolok ukur CC-OCR dirancang khusus untuk mengevaluasi kemampuan yang berpusat pada OCR dari Model Multimodal Besar. CC-OCR memiliki beragam skenario, tugas, dan tantangan, yang terdiri dari empat jalur yang berpusat pada OCR: pembacaan teks multi-adegan, pembacaan teks multibahasa, penguraian dokumen, dan ekstraksi informasi penting. Ini mencakup 39 subset dengan 7.058 gambar beranotasi penuh, yang 41% di antaranya bersumber dari aplikasi nyata, yang dirilis untuk pertama kalinya.
Rilis 2024.9
Platipus ( Platipus: Model Spesialis Umum untuk Membaca Teks dalam Berbagai Bentuk, makalah ECCV 2024): Platipus memperkenalkan pendekatan baru pada pembacaan teks dari gambar, mengatasi keterbatasan model spesialis dan generalis. Platipus memanfaatkan satu arsitektur terpadu untuk secara efektif mengenali teks dalam berbagai bentuk , menjaga akurasi dan efisiensi tinggi. Kami juga memperkenalkan kumpulan data baru Worms yang menggabungkan dan memberi label ulang sebagian pada kumpulan data sebelumnya untuk mendukung pengembangan dan evaluasi model.
SceneVTG ( Visual Text Generation in the Wild, makalah ECCV 2024): Kami mengusulkan generator teks visual (disebut SceneVTG), yang dapat menghasilkan gambar teks berkualitas tinggi di alam liar . Mengikuti paradigma dua tahap , SceneVTG memanfaatkan Model Bahasa Besar Multimodal untuk merekomendasikan wilayah dan konten teks yang masuk akal di berbagai skala dan tingkat, yang digunakan oleh model difusi bersyarat sebagai kondisi untuk menghasilkan gambar teks. Untuk melatih SceneVTG, kami juga menyumbangkan kumpulan data baru SceneVTG-Erase dengan anotasi OCR mendetail.
WebRPG ( WebRPG: Pembuatan Parameter Rendering Web Otomatis untuk Presentasi Visual, makalah ECCV 2024): Kami memperkenalkan WebRPG, tugas baru yang berfokus pada otomatisasi pembuatan presentasi visual untuk halaman web berdasarkan kode HTML. Dengan tidak adanya tolok ukur, kami membuat kumpulan data baru melalui jalur pipa otomatis . Model yang kami usulkan, dibangun berdasarkan arsitektur VAE dan penyematan HTML khusus , mengelola berbagai elemen web dan parameter rendering secara efisien. Eksperimen komprehensif, termasuk evaluasi kuantitatif yang disesuaikan, menunjukkan efektivitas model WebRPG dalam menghasilkan presentasi web.
ProcTag ( ProcTag: Penandaan Proses untuk Menilai Kemanjuran Data Instruksi Dokumen, arXiv 2024. makalah): Metode evaluasi yang efektif untuk data instruksi dokumen sangat penting dalam membangun data instruksi dengan kemanjuran tinggi, yang, pada gilirannya, memfasilitasi pelatihan LLM dan MLLM untuk pemahaman dokumen. Kami mengusulkan ProcTag, sebuah metode berorientasi data yang menandai proses pelaksanaan instruksi, bukan teks itu sendiri, sehingga memungkinkan penilaian yang lebih efektif dan pengambilan sampel instruksi dokumen secara selektif.
Rilis 2024.4
- OmniParser ( OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition, makalah CVPR 2024): Kami mengusulkan model universal untuk mengurai teks yang ditempatkan secara visual di berbagai skenario, yang disebut OmniParser, yang secara bersamaan dapat menangani tiga jenis visual- tugas penguraian teks terletak: pencarian teks, ekstraksi informasi kunci, dan pengenalan tabel. Di OmniParser, semua tugas berbagi arsitektur encoder-decoder terpadu , tujuan terpadu: pembuatan teks berkondisi titik , dan representasi masukan & keluaran terpadu: urutan cepat & terstruktur .
Rilis 2024.3
- PERMATA ( PERMATA: Model Bahasa Markup yang Ditingkatkan Gestalt untuk Pemahaman Web melalui Render Tree, makalah EMNLP 2023): Halaman web berfungsi sebagai pembawa penting bagi manusia untuk memperoleh dan memahami informasi. Terinspirasi oleh teori psikologis Gestalt, kami mengusulkan Model Bahasa Markup Gestalt yang Ditingkatkan (disingkat GEM) yang inovatif untuk menampung informasi visual heterogen dari pohon render halaman web , yang menghasilkan kinerja luar biasa pada tugas-tugas seperti menjawab pertanyaan web dan ekstraksi informasi web.
Rilis 2023.9
- DocXChain ( DocXChain: Rantai Alat Sumber Terbuka yang Kuat untuk Penguraian Dokumen dan Lebih Lanjutnya, laporan arXiv 2023.): Untuk meningkatkan tingkat digitalisasi dan strukturisasi dokumen , kami mengembangkan dan merilis rantai alat sumber terbuka, yang disebut DocXChain, untuk presisi dan detail penguraian dokumen. Saat ini, kemampuan dasar, termasuk deteksi teks, pengenalan teks, pengenalan struktur tabel, dan analisis tata letak, telah disediakan. Selain itu, pipeline tipikal, yaitu pembacaan teks umum, penguraian tabel, dan strukturisasi dokumen, dibangun untuk mendukung aplikasi yang lebih rumit terkait dokumen. Sebagian besar model algoritmik berasal dari ModelScope. Pengenalan rumus (menggunakan model dari RapidLatexOCR) dan seluruh konversi PDF (format PDF ke JSON) kini didukung.
- LISTER ( LISTER: Decoding Tetangga untuk Pengenalan Teks Adegan yang Tidak Sensitif Panjang, makalah ICCV 2023): Kami mengusulkan metode yang disebut Pengenal Teks Adegan Tidak Sensitif Panjang (LISTER), yang mengatasi batasan mengenai ketahanan terhadap berbagai panjang teks . Secara khusus, Decoder Tetangga diusulkan untuk mendapatkan peta perhatian karakter yang akurat dengan bantuan matriks tetangga baru berapa pun panjang teksnya. Selain itu, Modul Peningkatan Fitur dirancang untuk memodelkan ketergantungan jangka panjang dengan biaya komputasi rendah, yang mampu melakukan iterasi dengan decoder tetangga untuk meningkatkan peta fitur secara progresif.
- VGT ( Vision Grid Transformer for Document Layout Analysis, ICCV 2023. makalah): Untuk sepenuhnya memanfaatkan informasi multi-modal dan memanfaatkan teknik pra-pelatihan guna mempelajari representasi yang lebih baik untuk analisis tata letak dokumen (DLA), kami menyajikan VGT, sebuah Visi dua aliran Grid Transformer, di mana Grid Transformer (GiT) diusulkan dan dilatih sebelumnya untuk pemahaman semantik tingkat token 2D dan tingkat segmen. Selain itu, tolok ukur baru untuk menilai algoritme analisis tata letak dokumen, yang disebut D^4LA, telah dikurasi dan dirilis.
- VLPT-STD ( Pra-Pelatihan Bahasa Penglihatan untuk Meningkatkan Detektor Teks Pemandangan, makalah CVPR 2022.): Kami mengadaptasi pembelajaran bersama bahasa penglihatan untuk deteksi teks pemandangan , sebuah tugas yang secara intrinsik melibatkan interaksi lintas modal antara dua modalitas: penglihatan dan bahasa. Model yang telah dilatih sebelumnya mampu menghasilkan representasi yang lebih informatif dengan semantik yang lebih kaya, yang dapat memberikan manfaat bagi pendeteksi teks adegan yang ada (seperti EAST dan DB) dalam tugas deteksi teks hilir.
Rilis 2023.6
- LiteWeightOCR ( Membangun Pengenal Teks Seluler melalui NAS Dipandu Distilasi Pengetahuan berbasis SVD Terpotong, makalah BMVC 2023.): Agar model OCR dapat diterapkan di perangkat seluler dengan tetap menjaga akurasi tinggi , kami mengusulkan pengenal teks ringan yang mengintegrasikan Nilai Singular Terpotong Distilasi Pengetahuan (KD) berbasis Dekomposisi (TSVD) ke dalam proses Neural Architecture Search (NAS).
Rilis 2023.4
- GeoLayoutLM ( GeoLayoutLM: Pra-pelatihan Geometris untuk Ekstraksi Informasi Visual, makalah CVPR 2023): Kami mengusulkan kerangka kerja multi-modal, bernama GeoLayoutLM, untuk Ekstraksi Informasi Visual (VIE). Berbeda dengan metode pra-pelatihan dokumen sebelumnya, yang biasanya mempelajari representasi geometris secara implisit, GeoLayoutLM secara eksplisit memodelkan hubungan geometris entitas dalam dokumen .
Rilis 2023.2
- LORE-TSR ( LORE: Jaringan Regresi Lokasi Logis untuk Pengenalan Struktur Tabel, makalah AAAI 2022.): Kami memodelkan Pengenalan Struktur Tabel (TSR) sebagai masalah regresi lokasi logis dan mengusulkan algoritma baru yang disebut LORE, singkatan dari jaringan REgresi lokasi LOGis, yang untuk pertama kalinya menggabungkan regresi lokasi logis dengan regresi lokasi spasial sel tabel.
Rilis 2022.9
- MGP-STR ( Multi-Granularity Prediction for Scene Text Recognition, ECCV 2022. makalah): Berdasarkan ViT dan modul Adaptive Addressing and Aggregation yang disesuaikan, kami mengeksplorasi cara implisit untuk menggabungkan pengetahuan linguistik dengan memperkenalkan representasi subkata untuk memfasilitasi prediksi multi-granularitas dan fusi dalam pengenalan teks adegan.
- LevOCR ( Levenshtein OCR, ECCV 2022. makalah): Terinspirasi oleh Levenshtein Transformer, kami menjadikan masalah pengenalan teks adegan sebagai proses penyempurnaan urutan berulang, yang memungkinkan pengodean paralel, perubahan panjang dinamis, dan kemampuan interpretasi yang baik .