prompting_hate_speech Download - prompting_hate_speech download do código fonte

prompting_hate_speech

Código-Fonte de IA

1.0.0

Baixar

Respeitoso ou tóxico? Usando aprendizado de tiro zero com modelos de idiomas para detectar discurso de ódio

Este repositório contém o código do artigo respeitoso ou tóxico? Usando aprendizado de tiro zero com modelos de idiomas para detectar o discurso de ódio aceito no 7º workshop sobre abuso e danos on-line (WOAH) na ACL 2023.

Autores

FLOR MIRIAM PLAZA-DEL-ARCO • Debora Nozza • Dirk Hovy •

Licença

O código vem do HuggingFace e, portanto, nossa licença é uma licença do MIT.

Para restrições de modelos, podem ser aplicados nos dados (que são derivados dos conjuntos de dados existentes) ou do Twitter (principal fonte de dados). Referimos os usuários às licenças originais que acompanham cada conjunto de dados e regulamentos do Twitter.

Instruções para executar o código

Codificador lms

Para usar o codificador LMS, você pode importar o módulo prompting do encoder_lms :

 from encoder_lms import prompting

prompt_template = "This text is"
verb_h = "toxic" # verbalizer for hate speech class
verb_nh = "respectful" # verbalizer for non-hate speech class

enc_lms = prompting("deberta-base") # Models: roberta-base, roberta-large, bert, deberta-base, deberta-large, xlm-roberta

# The input can be a dataframe, a text or a list of texts
enc_lms.predict(prompt_template, verb_h, verb_nh, ["Shut your dumbass up bitch we all know you a hoe", "My lovely cat"]) 

>> ["hate", "non-hate"]

Instruções LMS ajustadas finas

Para usar a instrução LMS ajustada, você pode importar o módulo prompting de instruction_fine_tuned_lms :

 from instruction_fine_tuned_lms import prompting

prompt_template = "Classify this text as hate or non-hate. Text:"
output_indicator = "Answer:"

inst_lms = prompting("flant5") # Models: flant5, mt0

# The input can be a dataframe, a text or a list of texts
inst_lms.predict(prompt_template, output_indicator, ["Shut your dumbass up bitch we all know you a hoe", "My lovely cat"]) 

>> ["hate", "non-hate"]

Nota: Os exemplos (ódio) fornecidos são provenientes de um corpus de discurso de ódio e não são criados pelos autores deste repositório.

Expandir

Informações adicionais