Bienvenido al paquete HF for Legal, una biblioteca dedicada a acabar con la opacidad de los modelos de lenguaje para los profesionales del derecho. Nuestra misión es brindar a los profesionales del derecho, académicos e investigadores el conocimiento y las herramientas que necesitan para navegar por el complejo mundo de la IA en el ámbito jurídico. En HF for Legal, nuestro objetivo es:
Al reunir a expertos legales, investigadores de IA y entusiastas de la tecnología, nos esforzamos por crear un ecosistema abierto donde los profesionales del derecho puedan acceder, comprender y utilizar fácilmente modelos de IA adaptados a sus necesidades. Ya sea que sea un abogado en ejercicio, un estudioso del derecho o un tecnólogo interesado en las aplicaciones legales de la IA, HF for Legal es su centro de exploración, aprendizaje e innovación en el panorama en evolución de la práctica jurídica asistida por la IA.
Para utilizar hf-for-legal, necesita tener instalados los siguientes paquetes de Python:
numpy
datasets
tqdm
Puede instalar estos paquetes a través de pip:
pip install numpy datasets hf-for-legal tqdm
Primero, inicializa la clase DatasetFormatter con tu conjunto de datos:
import datasets
from hf_for_legal import DatasetFormatter
# Load a sample dataset
dataset = datasets . Dataset . from_dict (
{
"document" : [
"This is a test document." ,
"Another test document."
]
}
)
# Create an instance of DatasetFormatter
formatter = DatasetFormatter ( dataset )
# Apply the hash and UUID functions
formatted_dataset = formatter ()
print ( formatted_dataset )
datasets.Dataset
): el conjunto de datos que se va a formatear. datasets.Dataset
): el conjunto de datos original. Agregue una columna hash SHA-256 al conjunto de datos.
str
, opcional): el nombre de la columna que contiene el texto a aplicar hash. El valor predeterminado es "documento".str
, opcional): el nombre de la columna para almacenar los valores hash. El valor predeterminado es "hash". datasets.Dataset
: el conjunto de datos con la nueva columna hash. Agregue una columna UUID al conjunto de datos.
str
, opcional): el nombre de la columna para almacenar los valores UUID. El valor predeterminado es "uuid". datasets.Dataset
: el conjunto de datos con la nueva columna UUID.Normalice el texto en una columna específica convirtiéndolo a minúsculas y eliminando los espacios en blanco.
str
): el nombre de la columna que contiene el texto que se va a normalizar.str
, opcional): el nombre de la nueva columna para almacenar el texto normalizado. Si no se proporciona, sobrescribe la columna original. datasets.Dataset
: el conjunto de datos con la columna de texto normalizado. Filtrar filas según una condición determinada.
Callable
): una función que toma una fila (dict) y devuelve True si la fila debe incluirse en el conjunto de datos filtrado. datasets.Dataset
: el conjunto de datos filtrado.Cambie el nombre de una columna en el conjunto de datos.
str
): El nombre actual de la columna cuyo nombre se va a cambiar.str
): el nuevo nombre de la columna. datasets.Dataset
: el conjunto de datos con la columna renombrada. Elimina una columna especificada del conjunto de datos.
str
): el nombre de la columna que se eliminará. datasets.Dataset
: el conjunto de datos con la columna especificada eliminada. Agregue una nueva columna con un valor constante.
str
): el nombre de la nueva columna que se agregará.datasets.Dataset
: el conjunto de datos con la nueva columna de valor constante.Convierta una columna a un tipo de datos específico.
str
): el nombre de la columna que se va a convertir.Union[type, str]
): el nuevo tipo de datos para la columna, por ejemplo, int, float, str. datasets.Dataset
: el conjunto de datos con la columna convertida. Complete los valores faltantes en una columna con un valor específico.
str
): el nombre de la columna con valores faltantes que se deben completar.datasets.Dataset
: el conjunto de datos con valores faltantes completados. Calcular estadísticas resumidas para una columna numérica.
str
): el nombre de la columna numérica para calcular las estadísticas resumidas. Aplique las funciones hash y UUID al conjunto de datos.
str
, opcional): el nombre de la nueva columna para almacenar los valores hash. El valor predeterminado es "hash".str
, opcional): el nombre de la nueva columna para almacenar los valores UUID. El valor predeterminado es "uuid". datasets.Dataset
: el conjunto de datos con columnas hash y UUID. Ahora puede unirse, comunicarse y compartir en el servidor de la comunidad HF for Legal en Discord.
Enlace al servidor: https://discord.gg/adwsfUUhw8
Este servidor simplificará la comunicación entre los miembros de la organización y generará sinergias en torno a los distintos proyectos en las tres áreas de aplicaciones interactivas, bases de datos y modelos.
Un ejemplo de un proyecto que se publicará próximamente: una duplicación de la base de datos Laws, pero esta vez con incorporaciones ya calculadas para diferentes modelos, para permitir una integración simplificada dentro de Spaces (¿RAG chatbot?) y ahorrar costos de implementación para los usuarios que deseen utilizar estas tecnologías. para sus proyectos profesionales y personales.
Si utiliza este código en su investigación, utilice la siguiente entrada BibTeX.
@misc { louisbrulenaudet2024 ,
author = { Louis Brulé Naudet } ,
title = { HF for Legal: A Community Package for Legal Applications } ,
year = { 2024 }
howpublished = { url{https://github.com/louisbrulenaudet/hf-for-legal} } ,
}
Si tiene algún comentario, comuníquese con [email protected].