법률 전문가를 위한 언어 모델의 불투명성을 해소하는 데 전념하는 라이브러리인 HF for Legal 패키지에 오신 것을 환영합니다. 우리의 임무는 법률 전문가, 학자, 연구자에게 법률 분야에서 AI의 복잡한 세계를 탐색하는 데 필요한 지식과 도구를 제공하는 것입니다. HF for Legal의 목표는 다음과 같습니다.
법률 전문가, AI 연구자, 기술 마니아를 한데 모아 법률 전문가가 자신의 요구에 맞는 AI 모델에 쉽게 접근하고, 이해하고, 활용할 수 있는 개방형 생태계를 조성하기 위해 노력하고 있습니다. 현직 변호사, 법률 학자 또는 AI 법률 적용에 관심이 있는 기술 전문가라면 HF for Legal은 진화하는 AI 지원 법률 업무 환경에서 탐색, 학습 및 혁신을 위한 허브입니다.
hf-for-legal을 사용하려면 다음 Python 패키지가 설치되어 있어야 합니다.
numpy
datasets
tqdm
pip를 통해 다음 패키지를 설치할 수 있습니다.
pip install numpy datasets hf-for-legal tqdm
먼저 데이터세트로 DatasetFormatter 클래스를 초기화합니다.
import datasets
from hf_for_legal import DatasetFormatter
# Load a sample dataset
dataset = datasets . Dataset . from_dict (
{
"document" : [
"This is a test document." ,
"Another test document."
]
}
)
# Create an instance of DatasetFormatter
formatter = DatasetFormatter ( dataset )
# Apply the hash and UUID functions
formatted_dataset = formatter ()
print ( formatted_dataset )
datasets.Dataset
): 형식을 지정할 데이터세트입니다. datasets.Dataset
): 원본 데이터세트입니다. 데이터세트에 SHA-256 해시 열을 추가합니다.
str
, 선택 사항): 해시할 텍스트가 포함된 열의 이름입니다. 기본값은 "문서"입니다.str
, 선택 사항): 해시 값을 저장할 열의 이름입니다. 기본값은 "해시"입니다. datasets.Dataset
: 새 해시 열이 있는 데이터세트입니다. 데이터세트에 UUID 열을 추가합니다.
str
, 선택 사항): UUID 값을 저장할 열의 이름입니다. 기본값은 "uuid"입니다. datasets.Dataset
: 새 UUID 열이 있는 데이터세트입니다.소문자로 변환하고 공백을 제거하여 지정된 열의 텍스트를 정규화합니다.
str
): 정규화할 텍스트가 포함된 열의 이름입니다.str
, 선택 사항): 정규화된 텍스트를 저장할 새 열의 이름입니다. 제공되지 않으면 원래 열을 덮어씁니다. datasets.Dataset
: 정규화된 텍스트 열이 있는 데이터세트입니다. 주어진 조건에 따라 행을 필터링합니다.
Callable
): 행(dict)을 가져와 해당 행이 필터링된 데이터세트에 포함되어야 하는 경우 True를 반환하는 함수입니다. datasets.Dataset
: 필터링된 데이터세트입니다.데이터세트의 열 이름을 바꿉니다.
str
): 이름을 바꿀 열의 현재 이름입니다.str
): 열의 새 이름입니다. datasets.Dataset
: 이름이 변경된 열이 있는 데이터세트입니다. 데이터 세트에서 지정된 열을 삭제합니다.
str
): 삭제할 열의 이름입니다. datasets.Dataset
: 지정된 열이 삭제된 데이터세트입니다. 상수 값을 가진 새 열을 추가합니다.
str
): 추가할 새 열의 이름입니다.datasets.Dataset
: 새 상수 값 열이 있는 데이터세트입니다.열을 지정된 데이터 유형으로 변환합니다.
str
): 변환할 컬럼의 이름입니다.Union[type, str]
): 열의 새 데이터 유형입니다(예: int, float, str). datasets.Dataset
: 변환된 열이 있는 데이터세트입니다. 열의 누락된 값을 지정된 값으로 채웁니다.
str
): 채워질 누락된 값이 있는 열의 이름입니다.datasets.Dataset
: 누락된 값이 채워진 데이터세트입니다. 숫자 열에 대한 요약 통계를 계산합니다.
str
): 요약 통계를 계산할 숫자 열의 이름입니다. 해시 및 UUID 함수를 모두 데이터세트에 적용합니다.
str
, 선택 사항): 해시 값을 저장할 새 열의 이름입니다. 기본값은 "해시"입니다.str
, 선택 사항): UUID 값을 저장할 새 열의 이름입니다. 기본값은 "uuid"입니다. datasets.Dataset
: 해시 및 UUID 열이 모두 포함된 데이터세트입니다. 이제 Discord의 법률 커뮤니티 서버를 위한 HF에 가입하고 소통하고 공유할 수 있습니다.
서버 링크: https://discord.gg/adwsfUUhw8
이 서버는 조직 구성원 간의 통신을 단순화하고 대화형 애플리케이션, 데이터베이스 및 모델의 세 가지 영역에서 다양한 프로젝트에 대한 시너지 효과를 생성합니다.
곧 게시될 프로젝트의 예: Laws 데이터베이스가 복제되었지만 이번에는 다른 모델에 대해 이미 계산된 임베딩이 포함되어 있어 Spaces(RAG 챗봇?) 내 통합을 단순화하고 이러한 기술을 사용하려는 사용자의 배포 비용을 절약할 수 있습니다. 전문적이고 개인적인 프로젝트를 위해.
연구에 이 코드를 사용하는 경우 다음 BibTeX 항목을 사용하십시오.
@misc { louisbrulenaudet2024 ,
author = { Louis Brulé Naudet } ,
title = { HF for Legal: A Community Package for Legal Applications } ,
year = { 2024 }
howpublished = { url{https://github.com/louisbrulenaudet/hf-for-legal} } ,
}
피드백이 있는 경우 [email protected]으로 문의해 주세요.