O corpus PERSUADE 2.0 baseia-se no corpus PERSUADE 1.0, fornecendo pontuações holísticas de ensaios para cada ensaio persuasivo no corpus PERSUADE 1.0, bem como pontuações de proficiência para cada elemento argumentativo e discursivo encontrado no corpus inicial. Esta versão também contém todas as redações (em comparação com 1.0 que vinculava o conjunto de treinamento para a competição Kaggle)
No total, o corpus PERSUADE 2.0 compreende mais de 25.000 ensaios argumentativos produzidos por alunos do 6º ao 12º ano nos Estados Unidos para 15 instruções em duas tarefas de redação: redação independente e redação baseada em fontes. O corpus PERSUADE 2.0 fornece informações individuais e demográficas detalhadas de cada escritor, bem como as anotações iniciais para elementos argumentativos e discursivos encontrados no PERSUADE 1.0.
Os arquivos .csv são muito grandes para o GitHub. Os links para os dataframes estão abaixo
Todas as anotações dos elementos argumentativos e discursivos e pontuações de eficácia estão disponíveis em
Conjunto de treinamento
Conjunto de teste
ATENÇÃO : O conjunto de teste é um arquivo zip protegido por senha. A senha é persuadi_test .
Pode ser necessário usar um software específico para descriptografar o arquivo zip, como 7-Zip para Windows ou Keka para Mac.
O artigo publicado para o conjunto de dados está disponível e publicado aqui.
A referência do artigo é
Crossley, SA, Baffour, P., Tian, Y., Franklin, A., Benner, M., & Boser., U. (2024). Um corpus em larga escala para avaliar a argumentação escrita: PERSUADE 2.0. Avaliando a escrita, 61.
Uma pré-impressão do artigo associado está no zenodo.
Os dados são fornecidos sob uma licença CC BY-NC-SA 4.0 DEED Attribution-NonCommercial-ShareAlike 4.0 International (https://creativecommons.org/licenses/by-nc-sa/4.0/deed.en)