hf for legalダウンロード - hf for legalソースコードダウンロード

hf for legal

AI ソースコード

0.0.12

ダウンロード

HF for Legal: 法的アプリケーションのためのコミュニティパッケージ ?

法務専門家向けの言語モデルの不透明性を打ち破ることに特化したライブラリである HF for Legal パッケージへようこそ。私たちの使命は、法律実務家、学者、研究者に、法的領域における AI の複雑な世界をナビゲートするために必要な知識とツールを提供することです。 HF for Legal では、次のことを目指しています。

法曹界向けの AI 言語モデルをわかりやすく説明する
専門的な法的モデル、データセット、ツールなど、厳選されたリソースを共有します
AI を通じて法律研究と実務を強化するプロジェクトでのコラボレーションを促進する
法律における AI の倫理的影響とベストプラクティスについて議論するためのプラットフォームを提供する
法務業務における AI テクノロジーの活用に関するチュートリアルとワークショップを提供する

法律専門家、AI 研究者、テクノロジー愛好家を結集することで、法律専門家がニーズに合わせた AI モデルに簡単にアクセスし、理解し、利用できるオープンなエコシステムの構築に努めています。現役の弁護士、法学者、AI の法的応用に興味のある技術者であっても、HF for Legal は、AI 支援による法律実務の進化する状況における探索、学習、イノベーションのハブとなります。

インストール

hf-for-legal を使用するには、次の Python パッケージがインストールされている必要があります。

numpy
datasets
tqdm

これらのパッケージは pip 経由でインストールできます。

pip install numpy datasets hf-for-legal tqdm

使用法

まず、データセットを使用して DatasetFormatter クラスを初期化します。

 import datasets
from hf_for_legal import DatasetFormatter

# Load a sample dataset
dataset = datasets . Dataset . from_dict (
  {
    "document" : [
      "This is a test document." , 
      "Another test document."
    ]
  }
)

# Create an instance of DatasetFormatter
formatter = DatasetFormatter ( dataset )

# Apply the hash and UUID functions
formatted_dataset = formatter ()
print ( formatted_dataset )

クラス: データセットフォーマッター

パラメータ:

dataset ( datasets.Dataset ): フォーマットされるデータセット。

属性:

データセット( datasets.Dataset ): 元のデータセット。

メソッド

hash(self, column_name: str = "ドキュメント", hash_column_name: str = "ハッシュ") -> datasets.Dataset

SHA-256 ハッシュ列をデータセットに追加します。

パラメータ:

column_name ( str 、オプション): ハッシュするテキストを含む列の名前。デフォルトは「ドキュメント」です。
hash_column_name ( str 、オプション): ハッシュ値を保存する列の名前。デフォルトは「ハッシュ」です。

戻り値:

datasets.Dataset : 新しいハッシュ列を含むデータセット。

発生するもの:

ValueError : 指定された column_name がデータセットに存在しない場合。

uuid(self, uuid_column_name: str = "uuid") -> datasets.Dataset

データセットに UUID 列を追加します。

パラメータ:

uuid_column_name ( str 、オプション): UUID 値を格納する列の名前。デフォルトは「uuid」です。

戻り値:

datasets.Dataset : 新しい UUID 列を持つデータセット。

Normalize_text(self、column_name: str、normalized_column_name: Optional[str] = None) -> datasets.Dataset

指定した列のテキストを小文字に変換し、空白を削除して正規化します。

パラメータ:

column_name ( str ): 正規化するテキストを含む列の名前。
Normalized_column_name ( str 、オプション): 正規化されたテキストを格納する新しい列の名前。指定しない場合は、元の列が上書きされます。

戻り値:

datasets.Dataset : 正規化されたテキスト列を含むデータセット。

発生するもの:

ValueError : 指定された column_name がデータセットに存在しない場合。

filter_rows(self, 条件: 呼び出し可能) -> datasets.Dataset

指定された条件に基づいて行をフィルターします。

パラメータ:

条件( Callable ): 行 (dict) を受け取り、その行がフィルター処理されたデータセットに含まれる必要がある場合に True を返す関数。

戻り値:

datasets.Dataset : フィルタリングされたデータセット。

rename_column(self, old_column_name: str, new_column_name: str) -> datasets.Dataset

データセット内の列の名前を変更します。

パラメータ:

old_column_name ( str ): 名前を変更する列の現在の名前。
new_column_name ( str ): 列の新しい名前。

戻り値:

datasets.Dataset : 列の名前が変更されたデータセット。

発生するもの:

ValueError : 指定された old_column_name がデータセットに存在しない場合。

ドロップ列(self, 列名: str) -> データセット.データセット

指定された列をデータセットから削除します。

パラメータ:

column_name ( str ): 削除する列の名前。

戻り値:

datasets.Dataset : 指定された列が削除されたデータセット。

発生するもの:

ValueError : 指定された column_name がデータセットに存在しない場合。

add_constant_column(self, column_name: str, constant_value) -> datasets.Dataset

定数値を含む新しい列を追加します。

パラメータ:

column_name ( str ): 追加する新しい列の名前。
constant_value : 新しい列の各行に割り当てられる定数値。

戻り値:

datasets.Dataset : 新しい定数値列を含むデータセット。

Convert_column_type(self, column_name: str, new_type: Union[type, str]) -> datasets.Dataset

列を指定されたデータ型に変換します。

パラメータ:

column_name ( str ): 変換される列の名前。
new_type ( Union[type, str] ): 列の新しいデータ型 (int、float、str など)。

戻り値:

datasets.Dataset : 変換された列を含むデータセット。

発生するもの:

ValueError : 指定された column_name がデータセットに存在しない場合。

fill_missing(self, column_name: str, fill_value) -> datasets.Dataset

列の欠損値を指定された値で埋めます。

パラメータ:

column_name ( str ): 欠損値を埋める列の名前。
fill_value : 欠損値を埋める値。

戻り値:

datasets.Dataset : 欠損値が埋められたデータセット。

発生するもの:

ValueError : 指定された column_name がデータセットに存在しない場合。

compute_summary(self, column_name: str) -> 辞書[str, float]

数値列の要約統計を計算します。

パラメータ:

column_name ( str ): 要約統計量を計算する数値列の名前。

戻り値:

Dict[str, float] : 列の要約統計量 (平均、中央値、標準) を含む辞書。

発生するもの:

ValueError : 指定された column_name がデータセットに存在しない場合。

call (self, hash_column_name: str = "hash", uuid_column_name: str = "uuid") -> datasets.Dataset

ハッシュ関数と UUID 関数の両方をデータセットに適用します。

パラメータ:

hash_column_name ( str 、オプション): ハッシュ値を保存する新しい列の名前。デフォルトは「ハッシュ」です。
uuid_column_name ( str 、オプション): UUID 値を格納する新しい列の名前。デフォルトは「uuid」です。

戻り値:

datasets.Dataset : ハッシュ列と UUID 列の両方を含むデータセット。

コミュニティの不和

Discord の HF for Legal コミュニティサーバーに参加、通信、共有できるようになりました。

サーバーへのリンク: https://discord.gg/adwsfUUhw8

このサーバーは、組織のメンバー間のコミュニケーションを簡素化し、インタラクティブなアプリケーション、データベース、モデルの 3 つの領域におけるさまざまなプロジェクトを中心に相乗効果を生み出します。

間もなく公開されるプロジェクトの例: Laws データベースの複製ですが、今回は、Spaces (RAG チャットボット ?) 内での統合の簡素化を可能にし、これらのテクノロジーの使用を希望するユーザーの導入コストを節約するために、さまざまなモデル用にすでに計算された埋め込みが含まれています。彼らの専門的および個人的なプロジェクトのために。

引用と著者

研究でこのコードを使用する場合は、次の BibTeX エントリを使用してください。

 @misc { louisbrulenaudet2024 ,
  author =       { Louis Brulé Naudet } ,
  title =        { HF for Legal: A Community Package for Legal Applications } ,
  year =         { 2024 }
  howpublished = { url{https://github.com/louisbrulenaudet/hf-for-legal} } ,
}

フィードバック

フィードバックがある場合は、[email protected] までご連絡ください。

拡大する

追加情報

バージョン 0.0.12
タイプ AI ソースコード
更新時間 2024-12-26
サイズ 32.17KB
から Github

hf for legal

HF for Legal: 法的アプリケーションのためのコミュニティ パッケージ ?

インストール

使用法

クラス: データセットフォーマッター

パラメータ:

属性:

メソッド

hash(self, column_name: str = "ドキュメント", hash_column_name: str = "ハッシュ") -> datasets.Dataset

パラメータ:

戻り値:

発生するもの:

uuid(self, uuid_column_name: str = "uuid") -> datasets.Dataset

パラメータ:

戻り値:

Normalize_text(self、column_name: str、normalized_column_name: Optional[str] = None) -> datasets.Dataset

パラメータ:

戻り値:

発生するもの:

filter_rows(self, 条件: 呼び出し可能) -> datasets.Dataset

パラメータ:

戻り値:

rename_column(self, old_column_name: str, new_column_name: str) -> datasets.Dataset

パラメータ:

戻り値:

発生するもの:

ドロップ列(self, 列名: str) -> データセット.データセット

パラメータ:

戻り値:

発生するもの:

add_constant_column(self, column_name: str, constant_value) -> datasets.Dataset

パラメータ:

戻り値:

Convert_column_type(self, column_name: str, new_type: Union[type, str]) -> datasets.Dataset

パラメータ:

戻り値:

発生するもの:

fill_missing(self, column_name: str, fill_value) -> datasets.Dataset

パラメータ:

戻り値:

発生するもの:

compute_summary(self, column_name: str) -> 辞書[str, float]

パラメータ:

戻り値:

発生するもの:

call (self, hash_column_name: str = "hash", uuid_column_name: str = "uuid") -> datasets.Dataset

パラメータ:

戻り値:

コミュニティの不和

引用と著者

フィードバック

HF for Legal: 法的アプリケーションのためのコミュニティパッケージ ?