Bienvenue dans le package HF for Legal, une bibliothèque dédiée à briser l'opacité des modèles de langage pour les professionnels du droit. Notre mission est de donner aux praticiens du droit, aux universitaires et aux chercheurs les connaissances et les outils dont ils ont besoin pour naviguer dans le monde complexe de l’IA dans le domaine juridique. Chez HF for Legal, nous visons à :
En réunissant des experts juridiques, des chercheurs en IA et des passionnés de technologie, nous nous efforçons de créer un écosystème ouvert où les professionnels du droit peuvent facilement accéder, comprendre et utiliser des modèles d'IA adaptés à leurs besoins. Que vous soyez un avocat en exercice, un juriste ou un technologue intéressé par les applications juridiques de l'IA, HF for Legal est votre plateforme d'exploration, d'apprentissage et d'innovation dans le paysage évolutif de la pratique juridique assistée par l'IA.
Pour utiliser hf-for-legal, vous devez installer les packages Python suivants :
numpy
datasets
tqdm
Vous pouvez installer ces packages via pip :
pip install numpy datasets hf-for-legal tqdm
Tout d'abord, initialisez la classe DatasetFormatter avec votre ensemble de données :
import datasets
from hf_for_legal import DatasetFormatter
# Load a sample dataset
dataset = datasets . Dataset . from_dict (
{
"document" : [
"This is a test document." ,
"Another test document."
]
}
)
# Create an instance of DatasetFormatter
formatter = DatasetFormatter ( dataset )
# Apply the hash and UUID functions
formatted_dataset = formatter ()
print ( formatted_dataset )
datasets.Dataset
) : L'ensemble de données à formater. datasets.Dataset
) : l'ensemble de données d'origine. Ajoutez une colonne de hachage SHA-256 à l'ensemble de données.
str
, facultatif) : Le nom de la colonne contenant le texte à hacher. La valeur par défaut est "document".str
, facultatif) : le nom de la colonne pour stocker les valeurs de hachage. La valeur par défaut est "hachage". datasets.Dataset
: l'ensemble de données avec la nouvelle colonne de hachage. Ajoutez une colonne UUID à l'ensemble de données.
str
, facultatif) : le nom de la colonne pour stocker les valeurs UUID. La valeur par défaut est "uuid". datasets.Dataset
: l'ensemble de données avec la nouvelle colonne UUID.Normalisez le texte dans une colonne spécifiée en le convertissant en minuscules et en supprimant les espaces.
str
) : Le nom de la colonne contenant le texte à normaliser.str
, facultatif) : Le nom de la nouvelle colonne pour stocker le texte normalisé. S'il n'est pas fourni, il écrase la colonne d'origine. datasets.Dataset
: l'ensemble de données avec la colonne de texte normalisée. Filtrez les lignes en fonction d'une condition donnée.
Callable
) : une fonction qui prend une ligne (dict) et renvoie True si la ligne doit être incluse dans l'ensemble de données filtré. datasets.Dataset
: l'ensemble de données filtré.Renommez une colonne dans l'ensemble de données.
str
) : Le nom actuel de la colonne à renommer.str
) : Le nouveau nom de la colonne. datasets.Dataset
: l'ensemble de données avec la colonne renommée. Supprimez une colonne spécifiée de l’ensemble de données.
str
) : Le nom de la colonne à supprimer. datasets.Dataset
: l'ensemble de données avec la colonne spécifiée supprimée. Ajoutez une nouvelle colonne avec une valeur constante.
str
) : Le nom de la nouvelle colonne à ajouter.datasets.Dataset
: l'ensemble de données avec la nouvelle colonne de valeur constante.Convertit une colonne en un type de données spécifié.
str
) : Le nom de la colonne à convertir.Union[type, str]
) : Le nouveau type de données pour la colonne, par exemple, int, float, str. datasets.Dataset
: l'ensemble de données avec la colonne convertie. Remplissez les valeurs manquantes dans une colonne avec une valeur spécifiée.
str
) : Le nom de la colonne avec les valeurs manquantes à remplir.datasets.Dataset
: l'ensemble de données avec les valeurs manquantes remplies. Calculer des statistiques récapitulatives pour une colonne numérique.
str
) : Le nom de la colonne numérique pour laquelle calculer les statistiques récapitulatives. Appliquez les fonctions de hachage et d'UUID à l'ensemble de données.
str
, facultatif) : le nom de la nouvelle colonne pour stocker les valeurs de hachage. La valeur par défaut est "hachage".str
, facultatif) : le nom de la nouvelle colonne pour stocker les valeurs UUID. La valeur par défaut est "uuid". datasets.Dataset
: l'ensemble de données avec les colonnes de hachage et d'UUID. Vous pouvez désormais rejoindre, communiquer et partager sur le serveur de la communauté HF for Legal sur Discord.
Lien vers le serveur : https://discord.gg/adwsfUUhw8
Ce serveur simplifiera la communication entre les membres de l'organisation et générera des synergies autour des différents projets dans les trois domaines des applications interactives, des bases de données et des modèles.
Un exemple de projet qui sera bientôt publié : une duplication de la base de données Laws, mais contenant cette fois des embeddings déjà calculés pour différents modèles, pour permettre une intégration simplifiée au sein des Spaces (chatbot RAG ?) et économiser les coûts de déploiement pour les utilisateurs souhaitant utiliser ces technologies pour leurs projets professionnels et personnels.
Si vous utilisez ce code dans votre recherche, veuillez utiliser l'entrée BibTeX suivante.
@misc { louisbrulenaudet2024 ,
author = { Louis Brulé Naudet } ,
title = { HF for Legal: A Community Package for Legal Applications } ,
year = { 2024 }
howpublished = { url{https://github.com/louisbrulenaudet/hf-for-legal} } ,
}
Si vous avez des commentaires, veuillez nous contacter à [email protected].