hf for legal - hf for legal del código fuente

hf for legal

Código Fuente de IA

0.0.12

Descargar

HF for Legal: ¿Un paquete comunitario para aplicaciones legales?

Bienvenido al paquete HF for Legal, una biblioteca dedicada a acabar con la opacidad de los modelos de lenguaje para los profesionales del derecho. Nuestra misión es brindar a los profesionales del derecho, académicos e investigadores el conocimiento y las herramientas que necesitan para navegar por el complejo mundo de la IA en el ámbito jurídico. En HF for Legal, nuestro objetivo es:

Desmitificar los modelos de lenguaje de IA para la comunidad jurídica
Comparta recursos seleccionados, incluidos modelos legales, conjuntos de datos y herramientas especializados.
Fomentar la colaboración en proyectos que mejoren la investigación y la práctica jurídica a través de la IA.
Proporcionar una plataforma para debatir las implicaciones éticas y las mejores prácticas de la IA en el derecho.
Ofrecer tutoriales y talleres sobre cómo aprovechar las tecnologías de inteligencia artificial en el trabajo legal.

Al reunir a expertos legales, investigadores de IA y entusiastas de la tecnología, nos esforzamos por crear un ecosistema abierto donde los profesionales del derecho puedan acceder, comprender y utilizar fácilmente modelos de IA adaptados a sus necesidades. Ya sea que sea un abogado en ejercicio, un estudioso del derecho o un tecnólogo interesado en las aplicaciones legales de la IA, HF for Legal es su centro de exploración, aprendizaje e innovación en el panorama en evolución de la práctica jurídica asistida por la IA.

Instalación

Para utilizar hf-for-legal, necesita tener instalados los siguientes paquetes de Python:

numpy
datasets
tqdm

Puede instalar estos paquetes a través de pip:

pip install numpy datasets hf-for-legal tqdm

Uso

Primero, inicializa la clase DatasetFormatter con tu conjunto de datos:

 import datasets
from hf_for_legal import DatasetFormatter

# Load a sample dataset
dataset = datasets . Dataset . from_dict (
  {
    "document" : [
      "This is a test document." , 
      "Another test document."
    ]
  }
)

# Create an instance of DatasetFormatter
formatter = DatasetFormatter ( dataset )

# Apply the hash and UUID functions
formatted_dataset = formatter ()
print ( formatted_dataset )

Clase: DatasetFormatter

Parámetros:

conjunto de datos ( datasets.Dataset ): el conjunto de datos que se va a formatear.

Atributos:

conjunto de datos ( datasets.Dataset ): el conjunto de datos original.

Métodos

hash(self, nombre_columna: str = "documento", nombre_columna_hash: str = "hash") -> conjuntos de datos.Conjunto de datos

Agregue una columna hash SHA-256 al conjunto de datos.

Parámetros:

nombre_columna ( str , opcional): el nombre de la columna que contiene el texto a aplicar hash. El valor predeterminado es "documento".
hash_column_name ( str , opcional): el nombre de la columna para almacenar los valores hash. El valor predeterminado es "hash".

Devoluciones:

datasets.Dataset : el conjunto de datos con la nueva columna hash.

Sube:

ValueError : si el nombre_columna especificado no existe en el conjunto de datos.

uuid(self, uuid_column_name: str = "uuid") -> conjuntos de datos.Conjunto de datos

Agregue una columna UUID al conjunto de datos.

Parámetros:

uuid_column_name ( str , opcional): el nombre de la columna para almacenar los valores UUID. El valor predeterminado es "uuid".

Devoluciones:

datasets.Dataset : el conjunto de datos con la nueva columna UUID.

normalize_text(self, column_name: str, normalized_column_name: Opcional[str] = Ninguno) -> datasets.Dataset

Normalice el texto en una columna específica convirtiéndolo a minúsculas y eliminando los espacios en blanco.

Parámetros:

nombre_columna ( str ): el nombre de la columna que contiene el texto que se va a normalizar.
normalized_column_name ( str , opcional): el nombre de la nueva columna para almacenar el texto normalizado. Si no se proporciona, sobrescribe la columna original.

Devoluciones:

datasets.Dataset : el conjunto de datos con la columna de texto normalizado.

Sube:

ValueError : si el nombre_columna especificado no existe en el conjunto de datos.

filter_rows(self, condición: Invocable) -> conjuntos de datos.Conjunto de datos

Filtrar filas según una condición determinada.

Parámetros:

condición ( Callable ): una función que toma una fila (dict) y devuelve True si la fila debe incluirse en el conjunto de datos filtrado.

Devoluciones:

datasets.Dataset : el conjunto de datos filtrado.

cambiar nombre_columna(self, nombre_columna_antiguo: cadena, nombre_columna_nueva: cadena) -> conjuntos de datos.Conjunto de datos

Cambie el nombre de una columna en el conjunto de datos.

Parámetros:

old_column_name ( str ): El nombre actual de la columna cuyo nombre se va a cambiar.
new_column_name ( str ): el nuevo nombre de la columna.

Devoluciones:

datasets.Dataset : el conjunto de datos con la columna renombrada.

Sube:

ValueError : si el nombre_columna_antiguo especificado no existe en el conjunto de datos.

drop_column(self, nombre_columna: str) -> conjuntos de datos.Conjunto de datos

Elimina una columna especificada del conjunto de datos.

Parámetros:

nombre_columna ( str ): el nombre de la columna que se eliminará.

Devoluciones:

datasets.Dataset : el conjunto de datos con la columna especificada eliminada.

Sube:

ValueError : si el nombre_columna especificado no existe en el conjunto de datos.

add_constant_column(self, nombre_columna: cadena, valor_constante) -> conjuntos de datos.Conjunto de datos

Agregue una nueva columna con un valor constante.

Parámetros:

nombre_columna ( str ): el nombre de la nueva columna que se agregará.
valor_constante : el valor constante que se asignará a cada fila de la nueva columna.

Devoluciones:

datasets.Dataset : el conjunto de datos con la nueva columna de valor constante.

convert_column_type(self, nombre_columna: cadena, nuevo_tipo: Unión[tipo, cadena]) -> conjuntos de datos.Conjunto de datos

Convierta una columna a un tipo de datos específico.

Parámetros:

nombre_columna ( str ): el nombre de la columna que se va a convertir.
new_type ( Union[type, str] ): el nuevo tipo de datos para la columna, por ejemplo, int, float, str.

Devoluciones:

datasets.Dataset : el conjunto de datos con la columna convertida.

Sube:

ValueError : si el nombre_columna especificado no existe en el conjunto de datos.

fill_missing(self, nombre_columna: cadena, valor_relleno) -> conjuntos de datos.Conjunto de datos

Complete los valores faltantes en una columna con un valor específico.

Parámetros:

nombre_columna ( str ): el nombre de la columna con valores faltantes que se deben completar.
fill_value : el valor a completar para los valores faltantes.

Devoluciones:

datasets.Dataset : el conjunto de datos con valores faltantes completados.

Sube:

ValueError : si el nombre_columna especificado no existe en el conjunto de datos.

calcular_summary(self, nombre_columna: cadena) -> Dict[cadena, flotante]

Calcular estadísticas resumidas para una columna numérica.

Parámetros:

nombre_columna ( str ): el nombre de la columna numérica para calcular las estadísticas resumidas.

Devoluciones:

Dict[str, float] : un diccionario que contiene estadísticas resumidas (media, mediana, estándar) para la columna.

Sube:

ValueError : si el nombre_columna especificado no existe en el conjunto de datos.

llamada (self, hash_column_name: str = "hash", uuid_column_name: str = "uuid") -> conjuntos de datos.Dataset

Aplique las funciones hash y UUID al conjunto de datos.

Parámetros:

hash_column_name ( str , opcional): el nombre de la nueva columna para almacenar los valores hash. El valor predeterminado es "hash".
uuid_column_name ( str , opcional): el nombre de la nueva columna para almacenar los valores UUID. El valor predeterminado es "uuid".

Devoluciones:

datasets.Dataset : el conjunto de datos con columnas hash y UUID.

Discordia comunitaria

Ahora puede unirse, comunicarse y compartir en el servidor de la comunidad HF for Legal en Discord.

Enlace al servidor: https://discord.gg/adwsfUUhw8

Este servidor simplificará la comunicación entre los miembros de la organización y generará sinergias en torno a los distintos proyectos en las tres áreas de aplicaciones interactivas, bases de datos y modelos.

Un ejemplo de un proyecto que se publicará próximamente: una duplicación de la base de datos Laws, pero esta vez con incorporaciones ya calculadas para diferentes modelos, para permitir una integración simplificada dentro de Spaces (¿RAG chatbot?) y ahorrar costos de implementación para los usuarios que deseen utilizar estas tecnologías. para sus proyectos profesionales y personales.

Citas y autores

Si utiliza este código en su investigación, utilice la siguiente entrada BibTeX.

 @misc { louisbrulenaudet2024 ,
  author =       { Louis Brulé Naudet } ,
  title =        { HF for Legal: A Community Package for Legal Applications } ,
  year =         { 2024 }
  howpublished = { url{https://github.com/louisbrulenaudet/hf-for-legal} } ,
}