欢迎来到 HF for Legal 软件包,这是一个致力于为法律专业人士打破语言模型不透明性的图书馆。我们的使命是为法律从业者、学者和研究人员提供他们所需的知识和工具,以驾驭法律领域复杂的人工智能世界。在 HF for Legal,我们的目标是:
通过汇集法律专家、人工智能研究人员和技术爱好者,我们致力于创建一个开放的生态系统,让法律专业人士可以轻松访问、理解和使用适合其需求的人工智能模型。无论您是执业律师、法律学者还是对人工智能法律应用感兴趣的技术专家,HF for Legal 都是您在不断发展的人工智能辅助法律实践领域中探索、学习和创新的中心。
要使用 hf-for-legal,您需要安装以下 Python 包:
numpy
datasets
tqdm
您可以通过 pip 安装这些软件包:
pip install numpy datasets hf-for-legal tqdm
首先,使用数据集初始化 DatasetFormatter 类:
import datasets
from hf_for_legal import DatasetFormatter
# Load a sample dataset
dataset = datasets . Dataset . from_dict (
{
"document" : [
"This is a test document." ,
"Another test document."
]
}
)
# Create an instance of DatasetFormatter
formatter = DatasetFormatter ( dataset )
# Apply the hash and UUID functions
formatted_dataset = formatter ()
print ( formatted_dataset )
datasets.Dataset
):要格式化的数据集。 datasets.Dataset
):原始数据集。 将 SHA-256 哈希列添加到数据集。
str
,可选):包含要散列的文本的列的名称。默认为“文档”。str
, 可选):存储哈希值的列的名称。默认为“哈希”。 datasets.Dataset
:具有新哈希列的数据集。 将 UUID 列添加到数据集。
str
,可选):存储 UUID 值的列的名称。默认为“uuid”。 datasets.Dataset
:具有新 UUID 列的数据集。通过转换为小写并去除空格来规范指定列中的文本。
str
):包含要规范化的文本的列的名称。str
,可选):用于存储规范化文本的新列的名称。如果未提供,它将覆盖原始列。 datasets.Dataset
:具有标准化文本列的数据集。 根据给定条件过滤行。
Callable
):一个函数,它接受一行 (dict),如果该行应包含在筛选的数据集中,则返回 True。 datasets.Dataset
:过滤后的数据集。重命名数据集中的列。
str
):要重命名的列的当前名称。str
):列的新名称。 datasets.Dataset
:具有重命名列的数据集。 从数据集中删除指定的列。
str
):要删除的列的名称。 datasets.Dataset
:删除指定列的数据集。 添加具有常量值的新列。
str
):要添加的新列的名称。datasets.Dataset
:具有新常量值列的数据集。将列转换为指定的数据类型。
str
):要转换的列的名称。Union[type, str]
):列的新数据类型,例如 int、float、str。 datasets.Dataset
:具有转换列的数据集。 使用指定值填充列中的缺失值。
str
):要填充缺失值的列的名称。datasets.Dataset
:填充了缺失值的数据集。 计算数字列的摘要统计信息。
str
):要为其计算摘要统计信息的数字列的名称。 将哈希函数和 UUID 函数应用于数据集。
str
, 可选):用于存储哈希值的新列的名称。默认为“哈希”。str
,可选):用于存储 UUID 值的新列的名称。默认为“uuid”。 datasets.Dataset
:同时包含哈希列和 UUID 列的数据集。 您现在可以在 Discord 上的 HF for Legal 社区服务器上加入、交流和分享。
服务器链接:https://discord.gg/adwsfUUhw8
该服务器将简化组织成员之间的通信,并围绕交互式应用程序、数据库和模型三个领域的各个项目产生协同效应。
即将发布的项目示例:Laws 数据库的副本,但这次包含已针对不同模型计算的嵌入,以实现 Spaces 内的简化集成(RAG 聊天机器人?),并为希望使用这些技术的用户节省部署成本用于他们的专业和个人项目。
如果您在研究中使用此代码,请使用以下 BibTeX 条目。
@misc { louisbrulenaudet2024 ,
author = { Louis Brulé Naudet } ,
title = { HF for Legal: A Community Package for Legal Applications } ,
year = { 2024 }
howpublished = { url{https://github.com/louisbrulenaudet/hf-for-legal} } ,
}
如果您有任何反馈,请发送电子邮件至 [email protected]。