Téléchargement de prompting_hate_speech prompting_hate_speech Téléchargement du code source

prompting_hate_speech

Code Source AI

1.0.0

Télécharger

Respectueux ou toxique? Utiliser un apprentissage zéro avec des modèles de langue pour détecter le discours de haine

Ce référentiel contient le code du papier respectueux ou toxique? Utiliser un apprentissage zéro avec des modèles de langue pour détecter le discours de haine accepté lors du 7e atelier sur les abus et les préjudices en ligne (WOAH) à l'ACL 2023.

Auteurs

Flor Miriam Plaza-del-Arco • Debora Nozza • Dirk Hovy •

Licence

Le code vient de HuggingFace et donc notre licence est une licence MIT.

Pour les modèles, les restrictions peuvent s'appliquer sur les données (qui sont dérivées des ensembles de données existants) ou Twitter (source de données principale). Nous renvoyons les utilisateurs aux licences originales accompagnant chaque ensemble de données et réglementation Twitter.

Instructions pour exécuter le code

Encodeur LMS

Pour utiliser l'encodeur LMS, vous pouvez importer le module prompting à partir d' encoder_lms :

 from encoder_lms import prompting

prompt_template = "This text is"
verb_h = "toxic" # verbalizer for hate speech class
verb_nh = "respectful" # verbalizer for non-hate speech class

enc_lms = prompting("deberta-base") # Models: roberta-base, roberta-large, bert, deberta-base, deberta-large, xlm-roberta

# The input can be a dataframe, a text or a list of texts
enc_lms.predict(prompt_template, verb_h, verb_nh, ["Shut your dumbass up bitch we all know you a hoe", "My lovely cat"]) 

>> ["hate", "non-hate"]

Instruction LMS réglée

Pour utiliser l'instruction LMS affinée, vous pouvez importer le module prompting à partir de instruction_fine_tuned_lms :

 from instruction_fine_tuned_lms import prompting

prompt_template = "Classify this text as hate or non-hate. Text:"
output_indicator = "Answer:"

inst_lms = prompting("flant5") # Models: flant5, mt0

# The input can be a dataframe, a text or a list of texts
inst_lms.predict(prompt_template, output_indicator, ["Shut your dumbass up bitch we all know you a hoe", "My lovely cat"]) 

>> ["hate", "non-hate"]

Remarque: Les exemples (haine) fournis proviennent d'un corpus de discours de haine et ne sont pas créés par les auteurs de ce référentiel.

Développer

Informations supplémentaires