ยินดีต้อนรับสู่แพ็คเกจ HF for Legal ไลบรารีที่ทุ่มเทให้กับการทำลายความทึบของโมเดลภาษาสำหรับผู้เชี่ยวชาญด้านกฎหมาย ภารกิจของเราคือการเสริมศักยภาพผู้ปฏิบัติงานด้านกฎหมาย นักวิชาการ และนักวิจัยด้วยความรู้และเครื่องมือที่จำเป็นในการนำทางโลกที่ซับซ้อนของ AI ในขอบเขตทางกฎหมาย ที่ HF for Legal เรามุ่งมั่นที่จะ:
ด้วยการนำผู้เชี่ยวชาญด้านกฎหมาย นักวิจัย AI และผู้ชื่นชอบเทคโนโลยีมารวมตัวกัน เรามุ่งมั่นที่จะสร้างระบบนิเวศแบบเปิดที่ผู้เชี่ยวชาญด้านกฎหมายสามารถเข้าถึง ทำความเข้าใจ และใช้แบบจำลอง AI ที่ปรับให้เหมาะกับความต้องการของพวกเขาได้อย่างง่ายดาย ไม่ว่าคุณจะเป็นทนายความฝึกหัด นักวิชาการด้านกฎหมาย หรือนักเทคโนโลยีที่สนใจการประยุกต์ใช้ทางกฎหมายของ AI HF for Legal คือศูนย์กลางในการสำรวจ การเรียนรู้ และนวัตกรรมในภูมิทัศน์ที่เปลี่ยนแปลงไปของการปฏิบัติตามกฎหมายที่ได้รับความช่วยเหลือจาก AI
หากต้องการใช้ hf-for-legal คุณต้องติดตั้งแพ็คเกจ Python ต่อไปนี้:
numpy
datasets
tqdm
คุณสามารถติดตั้งแพ็คเกจเหล่านี้ผ่าน pip:
pip install numpy datasets hf-for-legal tqdm
ขั้นแรก เริ่มต้นคลาส DatasetFormatter ด้วยชุดข้อมูลของคุณ:
import datasets
from hf_for_legal import DatasetFormatter
# Load a sample dataset
dataset = datasets . Dataset . from_dict (
{
"document" : [
"This is a test document." ,
"Another test document."
]
}
)
# Create an instance of DatasetFormatter
formatter = DatasetFormatter ( dataset )
# Apply the hash and UUID functions
formatted_dataset = formatter ()
print ( formatted_dataset )
datasets.Dataset
): ชุดข้อมูลที่จะจัดรูปแบบ datasets.Dataset
): ชุดข้อมูลดั้งเดิม เพิ่มคอลัมน์แฮช SHA-256 ลงในชุดข้อมูล
str
, ตัวเลือก): ชื่อของคอลัมน์ที่มีข้อความที่จะแฮช ค่าเริ่มต้นคือ "เอกสาร"str
, ตัวเลือก): ชื่อของคอลัมน์ที่จะจัดเก็บค่าแฮช ค่าเริ่มต้นคือ "แฮช" datasets.Dataset
: ชุดข้อมูลที่มีคอลัมน์แฮชใหม่ เพิ่มคอลัมน์ UUID ให้กับชุดข้อมูล
str
เป็นทางเลือก): ชื่อของคอลัมน์ที่จะจัดเก็บค่า UUID ค่าเริ่มต้นคือ "uuid" datasets.Dataset
: ชุดข้อมูลที่มีคอลัมน์ UUID ใหม่ทำให้ข้อความในคอลัมน์ที่ระบุเป็นมาตรฐานโดยแปลงเป็นตัวพิมพ์เล็กและตัดช่องว่าง
str
): ชื่อของคอลัมน์ที่มีข้อความที่จะทำให้เป็นมาตรฐานstr
, ตัวเลือก): ชื่อของคอลัมน์ใหม่เพื่อจัดเก็บข้อความที่ทำให้เป็นมาตรฐาน หากไม่ได้ระบุไว้ ระบบจะเขียนทับคอลัมน์เดิม datasets.Dataset
: ชุดข้อมูลที่มีคอลัมน์ข้อความมาตรฐาน กรองแถวตามเงื่อนไขที่กำหนด
Callable
): ฟังก์ชันที่รับแถว (dict) และส่งคืนค่า True หากควรรวมแถวไว้ในชุดข้อมูลที่กรอง datasets.Dataset
: ชุดข้อมูลที่กรองเปลี่ยนชื่อคอลัมน์ในชุดข้อมูล
str
): ชื่อปัจจุบันของคอลัมน์ที่จะเปลี่ยนชื่อstr
): ชื่อใหม่สำหรับคอลัมน์ datasets.Dataset
: ชุดข้อมูลที่มีคอลัมน์ที่เปลี่ยนชื่อ วางคอลัมน์ที่ระบุจากชุดข้อมูล
str
): ชื่อของคอลัมน์ที่จะทิ้ง datasets.Dataset
: ชุดข้อมูลที่มีคอลัมน์ที่ระบุถูกทิ้ง เพิ่มคอลัมน์ใหม่ที่มีค่าคงที่
str
): ชื่อของคอลัมน์ใหม่ที่จะเพิ่มdatasets.Dataset
: ชุดข้อมูลที่มีคอลัมน์ค่าคงที่ใหม่แปลงคอลัมน์ให้เป็นชนิดข้อมูลที่ระบุ
str
): ชื่อของคอลัมน์ที่จะแปลงUnion[type, str]
): ชนิดข้อมูลใหม่สำหรับคอลัมน์ เช่น int, float, str datasets.Dataset
: ชุดข้อมูลที่มีคอลัมน์ที่แปลงแล้ว เติมค่าที่หายไปในคอลัมน์ด้วยค่าที่ระบุ
str
): ชื่อของคอลัมน์ที่มีค่าหายไปที่ต้องกรอกdatasets.Dataset
: ชุดข้อมูลที่เติมค่าที่หายไป คำนวณสถิติสรุปสำหรับคอลัมน์ตัวเลข
str
): ชื่อของคอลัมน์ตัวเลขเพื่อคำนวณสถิติสรุป ใช้ทั้งฟังก์ชันแฮชและ UUID กับชุดข้อมูล
str
, ตัวเลือก): ชื่อของคอลัมน์ใหม่ที่จะจัดเก็บค่าแฮช ค่าเริ่มต้นคือ "แฮช"str
เป็นทางเลือก): ชื่อของคอลัมน์ใหม่ที่จะจัดเก็บค่า UUID ค่าเริ่มต้นคือ "uuid" datasets.Dataset
: ชุดข้อมูลที่มีทั้งคอลัมน์แฮชและ UUID ตอนนี้คุณสามารถเข้าร่วม สื่อสาร และแบ่งปันบนเซิร์ฟเวอร์ชุมชน HF สำหรับกฎหมายบน Discord ได้แล้ว
ลิงก์ไปยังเซิร์ฟเวอร์: https://discord.gg/adwsfUUhw8
เซิร์ฟเวอร์นี้จะทำให้การสื่อสารระหว่างสมาชิกขององค์กรง่ายขึ้น และสร้างการทำงานร่วมกันรอบโครงการต่างๆ ในสามด้านของแอปพลิเคชันแบบโต้ตอบ ฐานข้อมูล และแบบจำลอง
ตัวอย่างของโครงการที่จะเผยแพร่ในเร็วๆ นี้: การทำซ้ำฐานข้อมูล Laws แต่คราวนี้มีการฝังที่คำนวณไว้แล้วสำหรับรุ่นต่างๆ เพื่อเปิดใช้งานการผสานรวมที่ง่ายขึ้นภายใน Spaces (RAG chatbot ?) และประหยัดค่าใช้จ่ายในการปรับใช้สำหรับผู้ใช้ที่ต้องการใช้เทคโนโลยีเหล่านี้ สำหรับโครงการด้านอาชีพและส่วนตัว
หากคุณใช้รหัสนี้ในการวิจัยของคุณ โปรดใช้รายการ BibTeX ต่อไปนี้
@misc { louisbrulenaudet2024 ,
author = { Louis Brulé Naudet } ,
title = { HF for Legal: A Community Package for Legal Applications } ,
year = { 2024 }
howpublished = { url{https://github.com/louisbrulenaudet/hf-for-legal} } ,
}
หากคุณมีข้อเสนอแนะใด ๆ โปรดติดต่อที่ [email protected]