Descarga de transformers data augmentation - transformers data augmentation Descarga del código fuente

transformers data augmentation

Otro código fuente

1.0.0

Descargar

Aumento de datos mediante modelos de transformadores previamente entrenados

Código asociado con el documento Aumento de datos mediante modelos de transformadores previamente entrenados

El código contiene la implementación de los siguientes métodos de aumento de datos.

EDA (línea de base)
Retrotraducción (línea de base)
CBERT (línea de base)
BERT Prepend (Nuestro artículo)
GPT-2 Prepend (Nuestro artículo)
BART Prepend (Nuestro periódico)

Conjuntos de datos

En papel, utilizamos tres conjuntos de datos de los siguientes recursos.

STSA-2: https://github.com/1024er/cbert_aug/tree/crayon/datasets/stsa.binary
TREC: https://github.com/1024er/cbert_aug/tree/crayon/datasets/TREC
RECORTES: https://github.com/MiuLab/SlotGated-SLU/tree/master/data/snips

Configuración del experimento de régimen de datos bajos

Ejecute el archivo src/utils/download_and_prepare_datasets.sh para preparar todos los conjuntos de datos.
download_and_prepare_datasets.sh realiza los siguientes pasos

Descargar datos de github
Reemplace las etiquetas numéricas con texto para el conjunto de datos STSA-2 y TREC
Para un conjunto de datos determinado, crea 15 divisiones aleatorias de datos de tren y desarrollo.

Dependencias

Para ejecutar este código, necesita las siguientes dependencias

Pytorch 1.5
fairseq 0.9
transformadores 2.9

como correr

Para ejecutar un experimento de aumento de datos para un conjunto de datos determinado, ejecute el script bash en la carpeta scripts . Por ejemplo, para ejecutar el aumento de datos en un conjunto de datos snips ,

ejecute scripts/bart_snips_lower.sh para el experimento BART
ejecute scripts/bert_snips_lower.sh para el resto de los métodos de aumento de datos

como citar

 @inproceedings{kumar-etal-2020-data,
    title = "Data Augmentation using Pre-trained Transformer Models",
    author = "Kumar, Varun  and
      Choudhary, Ashutosh  and
      Cho, Eunah",
    booktitle = "Proceedings of the 2nd Workshop on Life-long Learning for Spoken Language Systems",
    month = dec,
    year = "2020",
    address = "Suzhou, China",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.lifelongnlp-1.3",
    pages = "18--26",
}