Esta es una reimplementación de PyTorch/GPU del documento Los codificadores automáticos enmascarados son aprendices de visión escalables:
@Article{MaskedAutoencoders2021,
author = {Kaiming He and Xinlei Chen and Saining Xie and Yanghao Li and Piotr Doll{'a}r and Ross Girshick},
journal = {arXiv:2111.06377},
title = {Masked Autoencoders Are Scalable Vision Learners},
year = {2021},
}
La implementación original fue en TensorFlow+TPU. Esta reimplementación está en PyTorch+GPU.
Este repositorio es una modificación del repositorio DeiT. La instalación y preparación siguen ese repositorio.
Este repositorio se basa en timm==0.3.2
, por lo que se necesita una solución para funcionar con PyTorch 1.8.1+.
Ejecute nuestra demostración de visualización interactiva utilizando el portátil Colab (no se necesita GPU):
La siguiente tabla proporciona los puntos de control previamente entrenados utilizados en el documento, convertidos de TF/TPU a PT/GPU:
ViT-Base | ViT-grande | ViT-enorme | |
---|---|---|---|
punto de control previamente entrenado | descargar | descargar | descargar |
md5 | 8cad7c | b8b06e | 9bdbb0 |
Las instrucciones de ajuste fino se encuentran en FINETUNE.md.
Al ajustar estos modelos previamente entrenados, ocupamos el puesto número 1 en estas tareas de clasificación (detalladas en el documento):
ViT-B | ViT-L | ViT-H | ViT-H 448 | anterior mejor | |
---|---|---|---|---|---|
ImageNet-1K (sin datos externos) | 83,6 | 85,9 | 86,9 | 87,8 | 87.1 |
A continuación se presentan evaluaciones de los mismos pesos del modelo (ajustados en ImageNet-1K original): | |||||
ImageNet-Corrupción (tasa de error) | 51,7 | 41,8 | 33,8 | 36,8 | 42,5 |
ImageNet-Adversario | 35,9 | 57.1 | 68.2 | 76,7 | 35,8 |
Representación de ImageNet | 48.3 | 59,9 | 64,4 | 66,5 | 48,7 |
ImageNet-Sketch | 34,5 | 45.3 | 49,6 | 50,9 | 36.0 |
A continuación se muestra el aprendizaje por transferencia mediante el ajuste del MAE previamente entrenado en el conjunto de datos de destino: | |||||
iNaturalistas 2017 | 70,5 | 75,7 | 79,3 | 83,4 | 75,4 |
iNaturalistas 2018 | 75,4 | 80.1 | 83.0 | 86,8 | 81.2 |
iNaturalistas 2019 | 80,5 | 83,4 | 85,7 | 88.3 | 84.1 |
Lugares205 | 63,9 | 65,8 | 65,9 | 66,8 | 66.0 |
Lugares365 | 57,9 | 59,4 | 59,8 | 60.3 | 58.0 |
Las instrucciones previas al entrenamiento se encuentran en PRETRAIN.md.
Este proyecto está bajo la licencia CC-BY-NC 4.0. Consulte LICENCIA para obtener más detalles.