法務専門家向けの言語モデルの不透明性を打ち破ることに特化したライブラリである HF for Legal パッケージへようこそ。私たちの使命は、法律実務家、学者、研究者に、法的領域における AI の複雑な世界をナビゲートするために必要な知識とツールを提供することです。 HF for Legal では、次のことを目指しています。
法律専門家、AI 研究者、テクノロジー愛好家を結集することで、法律専門家がニーズに合わせた AI モデルに簡単にアクセスし、理解し、利用できるオープンなエコシステムの構築に努めています。現役の弁護士、法学者、AI の法的応用に興味のある技術者であっても、HF for Legal は、AI 支援による法律実務の進化する状況における探索、学習、イノベーションのハブとなります。
hf-for-legal を使用するには、次の Python パッケージがインストールされている必要があります。
numpy
datasets
tqdm
これらのパッケージは pip 経由でインストールできます。
pip install numpy datasets hf-for-legal tqdm
まず、データセットを使用して DatasetFormatter クラスを初期化します。
import datasets
from hf_for_legal import DatasetFormatter
# Load a sample dataset
dataset = datasets . Dataset . from_dict (
{
"document" : [
"This is a test document." ,
"Another test document."
]
}
)
# Create an instance of DatasetFormatter
formatter = DatasetFormatter ( dataset )
# Apply the hash and UUID functions
formatted_dataset = formatter ()
print ( formatted_dataset )
datasets.Dataset
): フォーマットされるデータセット。 datasets.Dataset
): 元のデータセット。 SHA-256 ハッシュ列をデータセットに追加します。
str
、オプション): ハッシュするテキストを含む列の名前。デフォルトは「ドキュメント」です。str
、オプション): ハッシュ値を保存する列の名前。デフォルトは「ハッシュ」です。 datasets.Dataset
: 新しいハッシュ列を含むデータセット。 データセットに UUID 列を追加します。
str
、オプション): UUID 値を格納する列の名前。デフォルトは「uuid」です。 datasets.Dataset
: 新しい UUID 列を持つデータセット。指定した列のテキストを小文字に変換し、空白を削除して正規化します。
str
): 正規化するテキストを含む列の名前。str
、オプション): 正規化されたテキストを格納する新しい列の名前。指定しない場合は、元の列が上書きされます。 datasets.Dataset
: 正規化されたテキスト列を含むデータセット。 指定された条件に基づいて行をフィルターします。
Callable
): 行 (dict) を受け取り、その行がフィルター処理されたデータセットに含まれる必要がある場合に True を返す関数。 datasets.Dataset
: フィルタリングされたデータセット。データセット内の列の名前を変更します。
str
): 名前を変更する列の現在の名前。str
): 列の新しい名前。 datasets.Dataset
: 列の名前が変更されたデータセット。 指定された列をデータセットから削除します。
str
): 削除する列の名前。 datasets.Dataset
: 指定された列が削除されたデータセット。 定数値を含む新しい列を追加します。
str
): 追加する新しい列の名前。datasets.Dataset
: 新しい定数値列を含むデータセット。列を指定されたデータ型に変換します。
str
): 変換される列の名前。Union[type, str]
): 列の新しいデータ型 (int、float、str など)。 datasets.Dataset
: 変換された列を含むデータセット。 列の欠損値を指定された値で埋めます。
str
): 欠損値を埋める列の名前。datasets.Dataset
: 欠損値が埋められたデータセット。 数値列の要約統計を計算します。
str
): 要約統計量を計算する数値列の名前。 ハッシュ関数と UUID 関数の両方をデータセットに適用します。
str
、オプション): ハッシュ値を保存する新しい列の名前。デフォルトは「ハッシュ」です。str
、オプション): UUID 値を格納する新しい列の名前。デフォルトは「uuid」です。 datasets.Dataset
: ハッシュ列と UUID 列の両方を含むデータセット。 Discord の HF for Legal コミュニティ サーバーに参加、通信、共有できるようになりました。
サーバーへのリンク: https://discord.gg/adwsfUUhw8
このサーバーは、組織のメンバー間のコミュニケーションを簡素化し、インタラクティブなアプリケーション、データベース、モデルの 3 つの領域におけるさまざまなプロジェクトを中心に相乗効果を生み出します。
間もなく公開されるプロジェクトの例: Laws データベースの複製ですが、今回は、Spaces (RAG チャットボット ?) 内での統合の簡素化を可能にし、これらのテクノロジーの使用を希望するユーザーの導入コストを節約するために、さまざまなモデル用にすでに計算された埋め込みが含まれています。彼らの専門的および個人的なプロジェクトのために。
研究でこのコードを使用する場合は、次の BibTeX エントリを使用してください。
@misc { louisbrulenaudet2024 ,
author = { Louis Brulé Naudet } ,
title = { HF for Legal: A Community Package for Legal Applications } ,
year = { 2024 }
howpublished = { url{https://github.com/louisbrulenaudet/hf-for-legal} } ,
}
フィードバックがある場合は、[email protected] までご連絡ください。