Este repositório contém o código do artigo respeitoso ou tóxico? Usando aprendizado de tiro zero com modelos de idiomas para detectar o discurso de ódio aceito no 7º workshop sobre abuso e danos on-line (WOAH) na ACL 2023.
FLOR MIRIAM PLAZA-DEL-ARCO • Debora Nozza • Dirk Hovy •
O código vem do HuggingFace e, portanto, nossa licença é uma licença do MIT.
Para restrições de modelos, podem ser aplicados nos dados (que são derivados dos conjuntos de dados existentes) ou do Twitter (principal fonte de dados). Referimos os usuários às licenças originais que acompanham cada conjunto de dados e regulamentos do Twitter.
Para usar o codificador LMS, você pode importar o módulo prompting
do encoder_lms
:
from encoder_lms import prompting
prompt_template = "This text is"
verb_h = "toxic" # verbalizer for hate speech class
verb_nh = "respectful" # verbalizer for non-hate speech class
enc_lms = prompting("deberta-base") # Models: roberta-base, roberta-large, bert, deberta-base, deberta-large, xlm-roberta
# The input can be a dataframe, a text or a list of texts
enc_lms.predict(prompt_template, verb_h, verb_nh, ["Shut your dumbass up bitch we all know you a hoe", "My lovely cat"])
>> ["hate", "non-hate"]
Para usar a instrução LMS ajustada, você pode importar o módulo prompting
de instruction_fine_tuned_lms
:
from instruction_fine_tuned_lms import prompting
prompt_template = "Classify this text as hate or non-hate. Text:"
output_indicator = "Answer:"
inst_lms = prompting("flant5") # Models: flant5, mt0
# The input can be a dataframe, a text or a list of texts
inst_lms.predict(prompt_template, output_indicator, ["Shut your dumbass up bitch we all know you a hoe", "My lovely cat"])
>> ["hate", "non-hate"]
Nota: Os exemplos (ódio) fornecidos são provenientes de um corpus de discurso de ódio e não são criados pelos autores deste repositório.