Este é o repositório para o artigo:
O excesso de confiança diante da ambiguidade com dados adversários. Margaret Li* e Julian Michael,* Anais do primeiro workshop sobre coleta dinâmica de dados adversários (DADC) na NAACL 2022.
(O acrônimo bobo é do nome de trabalho original, "Uma avaliação ambígua da avaliação adversária")
Neste repositório:
aeae/
: código -fonte para dados, métricas, etc.scripts/
: Pontos de entrada para executar previsões, avaliação e produção de parcelas para nossa análise. No artigo, esquecemos de mencionar que os dados da febre-NLI foram usados em conjunto com SNLI e MNLI para treinar o modelo classical
. Isso significa que classical
é treinado em todos os dados não contraditórios em que os modelos de sementes para ANLI foram treinados.
Este projeto requer Python 3 e é escrito usando AllennLP e Pytorch.
Configuração da estação de trabalho:
python scripts/download.py
do diretório base para baixar conjuntos de dados.pip install -r requirements.txt
.python scripts/build_data.py
.Para o treinamento do modelo de verificação de sanidade, execute
MODE=tiny allennlp train config/basic.jsonnet --include-package aeae -o '{"trainer.cuda_device": -1}' -s save/tiny
Isso treinará um modelo em um pequeno subconjunto de MNLI usando a CPU. O modo de alteração usa de acordo com diferentes fontes de dados (consulte Basic.jsonnet) O dispositivo CUDA determina qual GPU é usada.
As instâncias da NLI são pré -processadas no seguinte formato:
{
"uid": String,
"premise": String,
"hypothesis": String,
"label": "e" | "c" | "n"
}
O restante da documentação é TODO.