Bem-vindo ao pacote HF for Legal, uma biblioteca dedicada a quebrar a opacidade dos modelos de linguagem para profissionais do direito. Nossa missão é capacitar profissionais do direito, acadêmicos e pesquisadores com o conhecimento e as ferramentas necessárias para navegar no complexo mundo da IA no domínio jurídico. Na HF for Legal, pretendemos:
Ao reunir especialistas jurídicos, pesquisadores de IA e entusiastas da tecnologia, nos esforçamos para criar um ecossistema aberto onde os profissionais jurídicos possam acessar, compreender e utilizar facilmente modelos de IA adaptados às suas necessidades. Quer você seja um advogado, um acadêmico jurídico ou um tecnólogo interessado em aplicações jurídicas de IA, o HF for Legal é o seu centro de exploração, aprendizado e inovação no cenário em evolução da prática jurídica assistida por IA.
Para usar o hf-for-legal, você precisa ter os seguintes pacotes Python instalados:
numpy
datasets
tqdm
Você pode instalar esses pacotes via pip:
pip install numpy datasets hf-for-legal tqdm
Primeiro, inicialize a classe DatasetFormatter com seu conjunto de dados:
import datasets
from hf_for_legal import DatasetFormatter
# Load a sample dataset
dataset = datasets . Dataset . from_dict (
{
"document" : [
"This is a test document." ,
"Another test document."
]
}
)
# Create an instance of DatasetFormatter
formatter = DatasetFormatter ( dataset )
# Apply the hash and UUID functions
formatted_dataset = formatter ()
print ( formatted_dataset )
datasets.Dataset
): O conjunto de dados a ser formatado. datasets.Dataset
): O conjunto de dados original. Adicione uma coluna de hash SHA-256 ao conjunto de dados.
str
, opcional): O nome da coluna que contém o texto para hash. O padrão é "documento".str
, opcional): O nome da coluna para armazenar os valores hash. O padrão é "hash". datasets.Dataset
: o conjunto de dados com a nova coluna hash. Adicione uma coluna UUID ao conjunto de dados.
str
, opcional): O nome da coluna para armazenar os valores UUID. O padrão é "uuid". datasets.Dataset
: o conjunto de dados com a nova coluna UUID.Normalize o texto em uma coluna especificada convertendo para letras minúsculas e eliminando os espaços em branco.
str
): O nome da coluna que contém o texto a ser normalizado.str
, opcional): O nome da nova coluna para armazenar o texto normalizado. Se não for fornecido, substituirá a coluna original. datasets.Dataset
: o conjunto de dados com a coluna de texto normalizado. Filtre linhas com base em uma determinada condição.
Callable
): Uma função que pega uma linha (dict) e retorna True se a linha deve ser incluída no conjunto de dados filtrado. datasets.Dataset
: o conjunto de dados filtrado.Renomeie uma coluna no conjunto de dados.
str
): O nome atual da coluna a ser renomeada.str
): O novo nome da coluna. datasets.Dataset
: o conjunto de dados com a coluna renomeada. Elimine uma coluna especificada do conjunto de dados.
str
): O nome da coluna a ser eliminada. datasets.Dataset
: o conjunto de dados com a coluna especificada eliminada. Adicione uma nova coluna com um valor constante.
str
): O nome da nova coluna a ser adicionada.datasets.Dataset
: o conjunto de dados com a nova coluna de valor constante.Converta uma coluna em um tipo de dados especificado.
str
): O nome da coluna a ser convertida.Union[type, str]
): O novo tipo de dados para a coluna, por exemplo, int, float, str. datasets.Dataset
: o conjunto de dados com a coluna convertida. Preencha os valores ausentes em uma coluna com um valor especificado.
str
): O nome da coluna com valores faltantes a serem preenchidos.datasets.Dataset
: o conjunto de dados com valores ausentes preenchidos. Calcule estatísticas resumidas para uma coluna numérica.
str
): O nome da coluna numérica para a qual calcular estatísticas resumidas. Aplique as funções hash e UUID ao conjunto de dados.
str
, opcional): O nome da nova coluna para armazenar os valores hash. O padrão é "hash".str
, opcional): O nome da nova coluna para armazenar os valores UUID. O padrão é "uuid". datasets.Dataset
: o conjunto de dados com colunas hash e UUID. Agora você pode participar, comunicar e compartilhar no servidor da comunidade HF for Legal no Discord.
Link para o servidor: https://discord.gg/adwsfUUhw8
Este servidor irá simplificar a comunicação entre os membros da organização e gerar sinergias em torno dos vários projetos nas três áreas de aplicações interativas, bases de dados e modelos.
Um exemplo de projeto a ser publicado em breve: uma duplicação do banco de dados de Leis, mas desta vez contendo embeddings já calculados para diferentes modelos, para permitir integração simplificada dentro do Spaces (RAG chatbot?) e economizar custos de implantação para usuários que desejam utilizar essas tecnologias para seus projetos profissionais e pessoais.
Se você usar este código em sua pesquisa, use a seguinte entrada do BibTeX.
@misc { louisbrulenaudet2024 ,
author = { Louis Brulé Naudet } ,
title = { HF for Legal: A Community Package for Legal Applications } ,
year = { 2024 }
howpublished = { url{https://github.com/louisbrulenaudet/hf-for-legal} } ,
}
Se você tiver algum comentário, entre em contato pelo e-mail [email protected].