Ceci est le référentiel du papier:
La confiance excessive face à l'ambiguïté avec des données contradictoires. Margaret Li * et Julian Michael, * Actes du premier atelier sur la collecte dynamique de données adversariennes (DADC) à NAACL 2022.
(L'acronyme idiot provient du nom de travail original, "Une évaluation ambiguë de l'évaluation contradictoire")
Dans ce référentiel:
aeae/
: code source pour les données, les mesures, etc.scripts/
: Points d'entrée pour exécuter les prédictions, évaluer et produire des parcelles pour notre analyse. Dans l'article, nous oublions de mentionner que les données Fever-NLI ont été utilisées avec SNLI et MNLI pour former le modèle classical
. Cela signifie que classical
est formé sur toutes les données non collectées non adversariennes sur lesquelles les modèles de semences pour Anli ont été formés.
Ce projet nécessite Python 3 et est écrit à l'aide de AllenLP et Pytorch.
Configuration de la station de travail:
python scripts/download.py
à partir du répertoire de base pour télécharger des ensembles de données.pip install -r requirements.txt
.python scripts/build_data.py
.À la formation du modèle de vérification de la raison, courez
MODE=tiny allennlp train config/basic.jsonnet --include-package aeae -o '{"trainer.cuda_device": -1}' -s save/tiny
Cela entraînera un modèle sur un minuscule sous-ensemble de MNLI en utilisant CPU. Le changement de mode en conséquence utilise différentes sources de données (voir Basic.jsonNet) Le périphérique CUDA détermine quel GPU est utilisé.
Les instances de NLI sont prétraitées dans le format suivant:
{
"uid": String,
"premise": String,
"hypothesis": String,
"label": "e" | "c" | "n"
}
Le reste de la documentation est TODO.