歡迎來到 HF for Legal 軟體包,這是一個致力於為法律專業人士打破語言模型不透明性的圖書館。我們的使命是為法律從業者、學者和研究人員提供所需的知識和工具,以駕馭法律領域複雜的人工智慧世界。在 HF for Legal,我們的目標是:
透過匯集法律專家、人工智慧研究人員和技術愛好者,我們致力於創建一個開放的生態系統,讓法律專業人士可以輕鬆存取、理解和使用適合其需求的人工智慧模型。無論您是執業律師、法律學者還是對人工智慧法律應用感興趣的技術專家,HF for Legal 都是您在不斷發展的人工智慧輔助法律實踐領域中探索、學習和創新的中心。
要使用 hf-for-legal,您需要安裝以下 Python 套件:
numpy
datasets
tqdm
您可以透過 pip 安裝這些軟體包:
pip install numpy datasets hf-for-legal tqdm
首先,使用資料集初始化 DatasetFormatter 類別:
import datasets
from hf_for_legal import DatasetFormatter
# Load a sample dataset
dataset = datasets . Dataset . from_dict (
{
"document" : [
"This is a test document." ,
"Another test document."
]
}
)
# Create an instance of DatasetFormatter
formatter = DatasetFormatter ( dataset )
# Apply the hash and UUID functions
formatted_dataset = formatter ()
print ( formatted_dataset )
datasets.Dataset
):要格式化的資料集。 datasets.Dataset
):原始資料集。 將 SHA-256 雜湊列新增至資料集。
str
,可選):包含要散列的文字的列的名稱。預設為“文檔”。str
, 可選):儲存雜湊值的欄位的名稱。預設為“哈希”。 datasets.Dataset
:具有新雜湊的資料集。 將 UUID 欄位新增至資料集。
str
,可選):儲存 UUID 值的欄位的名稱。預設為“uuid”。 datasets.Dataset
:具有新 UUID 欄位的資料集。透過轉換為小寫並移除空格來規範指定列中的文字。
str
):包含要規範化的文字的欄位的名稱。str
,可選):用於儲存規範化文字的新欄位的名稱。如果未提供,它將覆蓋原始列。 datasets.Dataset
:具有標準化文字列的資料集。 根據給定條件過濾行。
Callable
):一個函數,它接受一行 (dict),如果該行應包含在篩選的資料集中,則傳回 True。 datasets.Dataset
:過濾後的資料集。重命名資料集中的列。
str
):要重新命名的欄位的目前名稱。str
):列的新名稱。 datasets.Dataset
:具有重命名列的資料集。 從資料集中刪除指定的列。
str
):要刪除的欄位的名稱。 datasets.Dataset
:刪除指定列的資料集。 新增具有常數值的新列。
str
):要新增的新欄位的名稱。datasets.Dataset
:具有新常數值列的資料集。將列轉換為指定的資料類型。
str
):要轉換的欄位的名稱。Union[type, str]
):列的新資料型別,例如 int、float、str。 datasets.Dataset
:具有轉換列的資料集。 使用指定值填入列中的缺失值。
str
):要填入缺少值的欄位的名稱。datasets.Dataset
:填充了缺失值的資料集。 計算數字列的摘要統計資料。
str
):要為其計算摘要統計資料的數字欄位的名稱。 將雜湊函數和 UUID 函數應用於資料集。
str
, 可選):用於儲存雜湊值的新欄位的名稱。預設為“哈希”。str
,可選):用於儲存 UUID 值的新欄位的名稱。預設為“uuid”。 datasets.Dataset
:同時包含哈希列和 UUID 列的資料集。 現在您可以在 Discord 上的 HF for Legal 社群伺服器上加入、交流和分享。
伺服器連結:https://discord.gg/adwsfUUhw8
該伺服器將簡化組織成員之間的通信,並圍繞互動應用程式、資料庫和模型三個領域的各個項目產生協同效應。
即將發布的專案範例:Laws 資料庫的副本,但這次包含已針對不同模型計算的嵌入,以實現 Spaces 內的簡化整合(RAG 聊天機器人?),並為希望使用這些技術的用戶節省部署成本用於他們的專業和個人專案。
如果您在研究中使用此程式碼,請使用以下 BibTeX 條目。
@misc { louisbrulenaudet2024 ,
author = { Louis Brulé Naudet } ,
title = { HF for Legal: A Community Package for Legal Applications } ,
year = { 2024 }
howpublished = { url{https://github.com/louisbrulenaudet/hf-for-legal} } ,
}
如果您有任何回饋,請發送電子郵件至 [email protected]。