Este repositório é uma implementação oficial do artigo intitulado acima. Consulte a página do projeto ou documento para obter mais detalhes.
Verificamos a reprodutibilidade neste ambiente.
Instale dependências python. Talvez isso deva ser feito dentro de venv
.
pip install -r requirements.txt
Observe que o Tensorflow possui um requisito de sistema específico da versão para o ambiente de GPU. Verifique se o tempo de execução CUDA/CuDNN compatível está instalado.
Para experimentar a demonstração em modelos pré-treinados
./data
../results
.Você pode testar algumas tarefas usando os modelos pré-treinados no notebook.
Você pode treinar seu próprio modelo. O script do treinador usa alguns argumentos para controlar os hiperparâmetros. Consulte src/mfp/mfp/args.py
para obter a lista de opções disponíveis. Se o script retardar um erro de falta de memória, certifique-se de que outros processos não ocupem a memória da GPU e ajuste --batch_size
.
bin/train_mfp.sh crello --masking_method random # Ours-IMP
bin/train_mfp.sh crello --masking_method elem_pos_attr_img_txt # Ours-EXP
bin/train_mfp.sh crello --masking_method elem_pos_attr_img_txt --weights < WEIGHTS > # Ours-EXP-FT
O treinador gera logs, resultados de avaliação e pontos de verificação para tmp/mfp/jobs/<job_id>
. O progresso do treinamento pode ser monitorado via tensorboard
.
Você realiza avaliação quantitativa.
bin/eval_mfp.sh --job_dir < JOB_DIR > ( < ADDITIONAL_ARGS > )
Consulte eval.py para <ADDITIONAL_ARGS>
.
Você pode testar algumas tarefas usando os modelos pré-treinados no notebook.
O processo é quase semelhante ao anterior.
bin/train_mfp.sh rico --masking_method random # Ours-IMP
bin/train_mfp.sh rico --masking_method elem_pos_attr # Ours-EXP
bin/train_mfp.sh rico --masking_method elem_pos_attr --weights < WEIGHTS > # Ours-EXP-FT
O processo é semelhante ao acima.
Se você achar este código útil para sua pesquisa, cite nosso artigo.
@inproceedings{inoue2023document,
title={{Towards Flexible Multi-modal Document Models}},
author={Naoto Inoue and Kotaro Kikuchi and Edgar Simo-Serra and Mayu Otani and Kota Yamaguchi},
booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
year={2023},
pages={14287-14296},
}