Descarga RGX - Descarga del código fuente RGX

RGX

Código Fuente de IA

1.0.0

Descargar

RGX : generación de preguntas y respuestas para documentos

Este repositorio contiene el software desarrollado para el artículo,

Autoformación cooperativa para la comprensión de la lectura automática, Luo H., Li S.-W., Gao M., Yu S., Glass J., NAACL 2022.

Pruebe nuestra demostración en vivo con pasajes de longitud media (próximamente una versión de documento largo).

Dependencia

Ejecutamos este software utilizando los siguientes paquetes,

Pitón 3.8.13
NLTK 3.7
Estrofa 1.4.0
PyTorch 1.11.0 + cu113
Transformadores 4.19.2
Conjuntos de datos 2.3.2

Los modelos previamente entrenados están disponibles a través de este enlace de Google Drive. Descargue los modelos y muévalos al directorio model_file/ si su máquina no puede descargar los modelos desde el centro de Huggingface.

model_file/ext_sqv2.pt : modelo de respuesta a preguntas grandes ELECTRA previamente entrenado en SQuAD v2.0.
model_file/ques_gen_squad.pt : modelo de generación de preguntas grandes de BART previamente entrenado en SQuAD v2.0.
model_file/electra-tokenize.pt : tokenizador Electra-large proporcionado por Huggingface.
model_file/bart-tokenizer.pt : tokenizador grande de BART proporcionado por Huggingface.

Inicio rápido (?)

Genere pares de preguntas y respuestas en los pasajes de ejemplo de SQuAD que proporcionamos en data/squad/doc_data_0.json ejecutando el siguiente comando:

RGX_doc.py --dataset_name squad --data_split 0 --output_dir tmp/ RGX --version_2_with_negative">

 python RGX _doc.py 
    --dataset_name squad 
    --data_split 0 
    --output_dir tmp/ RGX 
    --version_2_with_negative

Los datos generados se almacenarán en data_gen/squad , incluidos RGX _0.json y qa_train_corpus_0.json . Proporcionamos la opción $DATA_SPLIT para la generación de datos distribuidos, por ejemplo, con Slurm. Si solo genera pares de control de calidad con un proceso, simplemente use --data_split 0 .

Ubicaciones de datos y archivos

Todos los datos se almacenan en los directorios data/ y data_gen/ .

data/{$DATASET_NAME}/doc_data_{$DATA_SPLIT}.json : documentos sin etiquetar del conjunto de datos de destino.
data_gen/{$DATASET_NAME}/ RGX _{$DATA_SPLIT}.json : datos de control de calidad generados alineados con cada documento del conjunto de datos correspondiente.
data_gen/{$DATASET_NAME}/qa_train_corpus_{$DATA_SPLIT}.json : conjunto de entrenamiento de control de calidad generado del conjunto de datos dado. Los ejemplos de entrenamiento siguen el formato de datos SQuAD y se mezclan aleatoriamente.

Formato de datos

El formato del archivo de entrada, doc_data_{$DATA_SPLIT}.json es una lista de diccionarios como

 [
    {"context": INPUT_DOC_TXT__0},
    {"context": INPUT_DOC_TXT__1},
    ...,
    {"context": INPUT_DOC_TXT__N},
]

El formato del archivo de salida, qa_train_corpus_{$DATA_SPLIT}.json , es una lista de diccionarios como

 [
    {
        "context": INPUT_DOC_TXT_0,
        "question": GEN_QUESTION_TXT_0,
        "answers": {
            "text": [ ANSWER_TXT ], # only one answer per question
            "answer_start": [ ANSWER_ST_CHAR ]
            # index of the starting character of the answer txt
        }
    },
    {
        ...
    },
]

El formato del archivo de salida, RGX _{$DATA_SPLIT}.json es una lista de asignaciones de control de calidad del documento,

 [
    [
        $DOCUMENT_i,
        $ANS2ITEM_LIST_i,
        $GEN_QA_LIST_i
    ],
    ...
]

$DOCUMENT_i tiene el mismo formato que el archivo de entrada. $ANS2ITEM_LIST_i son los metadatos de todas las respuestas reconocidas y preguntas generadas. Tenga en cuenta que una respuesta puede tener varias preguntas y las preguntas pueden ser correctas o no. El resultado final del modelo es $GEN_QA_LIST_i , que es una lista de diccionarios de pares de control de calidad generados en función del documento de entrada.

 [
    {
        "question": GEN_QUESTION_TXT_0,
        "answers": {
            "text": [ ANSWER_TXT ],
            "answer_start": [ ANSWER_ST_CHAR ]
        }
    }
]

Generación de control de calidad para sus documentos

Ejecute el siguiente comando o cree directorios manualmente en los directorios data/ y data_gen/ ,

 bash new_dataset.sh $NEW_DATASET_NAME

Mueva el archivo de entrada que contiene los documentos de destino como data/$NEW_DATASET_NAME/doc_data_0.json . El formato se describe en la sección anterior.
Ejecute el siguiente comando

RGX_doc.py --dataset_name $NEW_DATASET_NAME --data_split 0 --output_dir tmp/ RGX --version_2_with_negative">

 python RGX _doc.py 
    --dataset_name $NEW_DATASET_NAME 
    --data_split 0 
    --output_dir tmp/ RGX 
    --version_2_with_negative

Los archivos generados se almacenarán en data_gen/{$NEW_DATASET_NAME}/ .

Ajuste de modelos de control de calidad con datos sintéticos

Sugerimos dos enfoques para ajustar el control de calidad con los pares de control de calidad generados.

Entrenamiento previo secundario: ajuste del modelo de control de calidad en el corpus sintético y ajuste en SQuAD. El modelo se puede evaluar en diferentes dominios.
Mezcla de modelos: ajuste dos modelos en el corpus generado y SQuAD, y promedie todos los pesos de los dos modelos usando el script mix_mode.py con

 python mix_model.py $MIX_RATE $SQUAD_MODEL_PATH $ RGX _MODEL_PATH

Por ejemplo,

 python mix_model.py 0.5 model_ft_file/ext_sq.pt model_ft_file/ext_ RGX .pt

El modelo de salida se almacenará como model_ft_file/ext_mixed.pt .

Contacto y citación

Comuníquese con el primer autor, Hongyin Luo (hyluo en mit dot edu) si tiene alguna pregunta. Si nuestro sistema se aplica en su trabajo, por favor cite nuestro artículo.

 @article{luo2021cooperative,
  title={Cooperative self-training machine reading comprehension},
  author={Luo, Hongyin and Li, Shang-Wen and Mingye Gao, and Yu, Seunghak and Glass, James},
  journal={arXiv preprint arXiv:2103.07449},
  year={2021}
}

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2024-12-30
tamaño 50MB
Proviene de Github

Aplicaciones relacionadas

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
node telegram bot api

Código Fuente de IA

v0.50.0
typebot.io

Código Fuente de IA

v3.1.2
python wechaty getting started

Código Fuente de IA

1.0.0
waymo open dataset

Otro código fuente

December 2023 Update
termwind

Otras categorias

v2.3.0
wp functions

Otras categorias

1.0.0

Información relacionada Todo