hf for legal - hf for legal

hf for legal

Code Source AI

0.0.12

Télécharger

HF for Legal : un package communautaire pour les applications juridiques ?

Bienvenue dans le package HF for Legal, une bibliothèque dédiée à briser l'opacité des modèles de langage pour les professionnels du droit. Notre mission est de donner aux praticiens du droit, aux universitaires et aux chercheurs les connaissances et les outils dont ils ont besoin pour naviguer dans le monde complexe de l’IA dans le domaine juridique. Chez HF for Legal, nous visons à :

Démystifier les modèles de langage d’IA pour la communauté juridique
Partagez des ressources organisées, notamment des modèles juridiques spécialisés, des ensembles de données et des outils.
Favoriser la collaboration sur des projets qui améliorent la recherche et la pratique juridiques grâce à l’IA
Fournir une plateforme pour discuter des implications éthiques et des meilleures pratiques de l’IA en droit
Proposer des tutoriels et des ateliers sur l’exploitation des technologies d’IA dans le travail juridique

En réunissant des experts juridiques, des chercheurs en IA et des passionnés de technologie, nous nous efforçons de créer un écosystème ouvert où les professionnels du droit peuvent facilement accéder, comprendre et utiliser des modèles d'IA adaptés à leurs besoins. Que vous soyez un avocat en exercice, un juriste ou un technologue intéressé par les applications juridiques de l'IA, HF for Legal est votre plateforme d'exploration, d'apprentissage et d'innovation dans le paysage évolutif de la pratique juridique assistée par l'IA.

Installation

Pour utiliser hf-for-legal, vous devez installer les packages Python suivants :

numpy
datasets
tqdm

Vous pouvez installer ces packages via pip :

pip install numpy datasets hf-for-legal tqdm

Usage

Tout d'abord, initialisez la classe DatasetFormatter avec votre ensemble de données :

 import datasets
from hf_for_legal import DatasetFormatter

# Load a sample dataset
dataset = datasets . Dataset . from_dict (
  {
    "document" : [
      "This is a test document." , 
      "Another test document."
    ]
  }
)

# Create an instance of DatasetFormatter
formatter = DatasetFormatter ( dataset )

# Apply the hash and UUID functions
formatted_dataset = formatter ()
print ( formatted_dataset )

Classe : DatasetFormatter

Paramètres :

dataset ( datasets.Dataset ) : L'ensemble de données à formater.

Attributs :

dataset ( datasets.Dataset ) : l'ensemble de données d'origine.

Méthodes

hash(self, column_name : str = "document", hash_column_name : str = "hash") -> datasets.Dataset

Ajoutez une colonne de hachage SHA-256 à l'ensemble de données.

Paramètres :

column_name ( str , facultatif) : Le nom de la colonne contenant le texte à hacher. La valeur par défaut est "document".
hash_column_name ( str , facultatif) : le nom de la colonne pour stocker les valeurs de hachage. La valeur par défaut est "hachage".

Retours :

datasets.Dataset : l'ensemble de données avec la nouvelle colonne de hachage.

Augmente :

ValueError : si le nom_colonne spécifié n'existe pas dans l'ensemble de données.

uuid(self, uuid_column_name : str = "uuid") -> datasets.Dataset

Ajoutez une colonne UUID à l'ensemble de données.

Paramètres :

uuid_column_name ( str , facultatif) : le nom de la colonne pour stocker les valeurs UUID. La valeur par défaut est "uuid".

Retours :

datasets.Dataset : l'ensemble de données avec la nouvelle colonne UUID.

normalize_text(self, nom_colonne : str, nom_colonne_normalisé : facultatif[str] = Aucun) -> datasets.Dataset

Normalisez le texte dans une colonne spécifiée en le convertissant en minuscules et en supprimant les espaces.

Paramètres :

column_name ( str ) : Le nom de la colonne contenant le texte à normaliser.
normalized_column_name ( str , facultatif) : Le nom de la nouvelle colonne pour stocker le texte normalisé. S'il n'est pas fourni, il écrase la colonne d'origine.

Retours :

datasets.Dataset : l'ensemble de données avec la colonne de texte normalisée.

Augmente :

ValueError : si le nom_colonne spécifié n'existe pas dans l'ensemble de données.

filter_rows (self, condition : appelable) -> datasets.Dataset

Filtrez les lignes en fonction d'une condition donnée.

Paramètres :

condition ( Callable ) : une fonction qui prend une ligne (dict) et renvoie True si la ligne doit être incluse dans l'ensemble de données filtré.

Retours :

datasets.Dataset : l'ensemble de données filtré.

rename_column(self, old_column_name : str, new_column_name : str) -> datasets.Dataset

Renommez une colonne dans l'ensemble de données.

Paramètres :

old_column_name ( str ) : Le nom actuel de la colonne à renommer.
new_column_name ( str ) : Le nouveau nom de la colonne.

Retours :

datasets.Dataset : l'ensemble de données avec la colonne renommée.

Augmente :

ValueError : si le old_column_name spécifié n'existe pas dans l'ensemble de données.

drop_column(self, column_name : str) -> datasets.Dataset

Supprimez une colonne spécifiée de l’ensemble de données.

Paramètres :

column_name ( str ) : Le nom de la colonne à supprimer.

Retours :

datasets.Dataset : l'ensemble de données avec la colonne spécifiée supprimée.

Augmente :

ValueError : si le nom_colonne spécifié n'existe pas dans l'ensemble de données.

add_constant_column(self, nom_colonne : str, valeur_constante) -> datasets.Dataset

Ajoutez une nouvelle colonne avec une valeur constante.

Paramètres :

column_name ( str ) : Le nom de la nouvelle colonne à ajouter.
constant_value : La valeur constante à attribuer à chaque ligne de la nouvelle colonne.

Retours :

datasets.Dataset : l'ensemble de données avec la nouvelle colonne de valeur constante.

convert_column_type(self, column_name : str, new_type : Union[type, str]) -> datasets.Dataset

Convertit une colonne en un type de données spécifié.

Paramètres :

column_name ( str ) : Le nom de la colonne à convertir.
new_type ( Union[type, str] ) : Le nouveau type de données pour la colonne, par exemple, int, float, str.

Retours :

datasets.Dataset : l'ensemble de données avec la colonne convertie.

Augmente :

ValueError : si le nom_colonne spécifié n'existe pas dans l'ensemble de données.

fill_missing(self, column_name : str, fill_value) -> datasets.Dataset

Remplissez les valeurs manquantes dans une colonne avec une valeur spécifiée.

Paramètres :

column_name ( str ) : Le nom de la colonne avec les valeurs manquantes à remplir.
fill_value : La valeur à remplir pour les valeurs manquantes.

Retours :

datasets.Dataset : l'ensemble de données avec les valeurs manquantes remplies.

Augmente :

ValueError : si le nom_colonne spécifié n'existe pas dans l'ensemble de données.

computing_summary(self, nom_colonne : str) -> Dict[str, float]

Calculer des statistiques récapitulatives pour une colonne numérique.

Paramètres :

column_name ( str ) : Le nom de la colonne numérique pour laquelle calculer les statistiques récapitulatives.

Retours :

Dict[str, float] : Un dictionnaire contenant des statistiques récapitulatives (moyenne, médiane, std) pour la colonne.

Augmente :

ValueError : si le nom_colonne spécifié n'existe pas dans l'ensemble de données.

appel (self, hash_column_name : str = "hash", uuid_column_name : str = "uuid") -> datasets.Dataset

Appliquez les fonctions de hachage et d'UUID à l'ensemble de données.

Paramètres :

hash_column_name ( str , facultatif) : le nom de la nouvelle colonne pour stocker les valeurs de hachage. La valeur par défaut est "hachage".
uuid_column_name ( str , facultatif) : le nom de la nouvelle colonne pour stocker les valeurs UUID. La valeur par défaut est "uuid".

Retours :

datasets.Dataset : l'ensemble de données avec les colonnes de hachage et d'UUID.

Discorde communautaire

Vous pouvez désormais rejoindre, communiquer et partager sur le serveur de la communauté HF for Legal sur Discord.

Lien vers le serveur : https://discord.gg/adwsfUUhw8

Ce serveur simplifiera la communication entre les membres de l'organisation et générera des synergies autour des différents projets dans les trois domaines des applications interactives, des bases de données et des modèles.

Un exemple de projet qui sera bientôt publié : une duplication de la base de données Laws, mais contenant cette fois des embeddings déjà calculés pour différents modèles, pour permettre une intégration simplifiée au sein des Spaces (chatbot RAG ?) et économiser les coûts de déploiement pour les utilisateurs souhaitant utiliser ces technologies pour leurs projets professionnels et personnels.

Citations et auteurs

Si vous utilisez ce code dans votre recherche, veuillez utiliser l'entrée BibTeX suivante.

 @misc { louisbrulenaudet2024 ,
  author =       { Louis Brulé Naudet } ,
  title =        { HF for Legal: A Community Package for Legal Applications } ,
  year =         { 2024 }
  howpublished = { url{https://github.com/louisbrulenaudet/hf-for-legal} } ,
}