Selamat datang di paket HF untuk Hukum, perpustakaan yang didedikasikan untuk memecahkan keburaman model bahasa bagi para profesional hukum. Misi kami adalah memberdayakan praktisi hukum, cendekiawan, dan peneliti dengan pengetahuan dan alat yang mereka perlukan untuk menavigasi dunia AI yang kompleks dalam domain hukum. Di HF for Legal, kami bertujuan untuk:
Dengan mempertemukan para pakar hukum, peneliti AI, dan penggemar teknologi, kami berupaya menciptakan ekosistem terbuka di mana para profesional hukum dapat dengan mudah mengakses, memahami, dan memanfaatkan model AI yang disesuaikan dengan kebutuhan mereka. Baik Anda seorang pengacara, sarjana hukum, atau ahli teknologi yang tertarik dengan penerapan hukum AI, HF for Legal adalah pusat eksplorasi, pembelajaran, dan inovasi dalam lanskap praktik hukum yang dibantu AI yang terus berkembang.
Untuk menggunakan hf-for-legal, Anda perlu menginstal paket Python berikut:
numpy
datasets
tqdm
Anda dapat menginstal paket-paket ini melalui pip:
pip install numpy datasets hf-for-legal tqdm
Pertama, inisialisasi kelas DatasetFormatter dengan kumpulan data Anda:
import datasets
from hf_for_legal import DatasetFormatter
# Load a sample dataset
dataset = datasets . Dataset . from_dict (
{
"document" : [
"This is a test document." ,
"Another test document."
]
}
)
# Create an instance of DatasetFormatter
formatter = DatasetFormatter ( dataset )
# Apply the hash and UUID functions
formatted_dataset = formatter ()
print ( formatted_dataset )
datasets.Dataset
): Kumpulan data yang akan diformat. datasets.Dataset
): Kumpulan data asli. Tambahkan kolom hash SHA-256 ke himpunan data.
str
, opsional): Nama kolom yang berisi teks yang akan di-hash. Standarnya adalah "dokumen".str
, opsional): Nama kolom untuk menyimpan nilai hash. Standarnya adalah "hash". datasets.Dataset
: Kumpulan data dengan kolom hash baru. Tambahkan kolom UUID ke kumpulan data.
str
, opsional): Nama kolom untuk menyimpan nilai UUID. Standarnya adalah "uuid". datasets.Dataset
: Dataset dengan kolom UUID baru.Normalisasikan teks dalam kolom tertentu dengan mengonversi ke huruf kecil dan menghapus spasi.
str
): Nama kolom yang berisi teks yang akan dinormalisasi.str
, opsional): Nama kolom baru untuk menyimpan teks yang dinormalisasi. Jika tidak disediakan, kolom aslinya akan ditimpa. datasets.Dataset
: Kumpulan data dengan kolom teks yang dinormalisasi. Filter baris berdasarkan kondisi tertentu.
Callable
): Fungsi yang mengambil baris (dict) dan mengembalikan True jika baris tersebut harus disertakan dalam kumpulan data yang difilter. datasets.Dataset
: Kumpulan data yang difilter.Ganti nama kolom dalam kumpulan data.
str
): Nama kolom saat ini yang akan diganti namanya.str
): Nama baru untuk kolom. datasets.Dataset
: Himpunan data dengan kolom yang diganti namanya. Hapus kolom tertentu dari kumpulan data.
str
): Nama kolom yang akan dihapus. datasets.Dataset
: Kumpulan data dengan kolom tertentu dihilangkan. Tambahkan kolom baru dengan nilai konstan.
str
): Nama kolom baru yang akan ditambahkan.datasets.Dataset
: Kumpulan data dengan kolom nilai konstanta baru.Ubah kolom menjadi tipe data tertentu.
str
): Nama kolom yang akan dikonversi.Union[type, str]
): Tipe data baru untuk kolom, misalnya int, float, str. datasets.Dataset
: Himpunan data dengan kolom yang dikonversi. Isi nilai yang hilang di kolom dengan nilai yang ditentukan.
str
): Nama kolom dengan nilai yang hilang untuk diisi.datasets.Dataset
: Kumpulan data dengan nilai yang hilang terisi. Hitung statistik ringkasan untuk kolom numerik.
str
): Nama kolom numerik untuk menghitung ringkasan statistik. Terapkan fungsi hash dan UUID ke kumpulan data.
str
, opsional): Nama kolom baru untuk menyimpan nilai hash. Standarnya adalah "hash".str
, opsional): Nama kolom baru untuk menyimpan nilai UUID. Standarnya adalah "uuid". datasets.Dataset
: Himpunan data dengan kolom hash dan UUID. Anda sekarang dapat bergabung, berkomunikasi, dan berbagi di server komunitas HF untuk Hukum di Discord.
Tautan ke server: https://discord.gg/adwsfUUhw8
Server ini akan menyederhanakan komunikasi antar anggota organisasi dan menghasilkan sinergi seputar berbagai proyek di tiga bidang aplikasi interaktif, database, dan model.
Contoh proyek yang akan segera diterbitkan: duplikasi database Laws, namun kali ini berisi penyematan yang sudah dihitung untuk model berbeda, untuk memungkinkan integrasi yang disederhanakan dalam Spaces (RAG chatbot?) dan menghemat biaya penerapan bagi pengguna yang ingin menggunakan teknologi ini untuk proyek profesional dan pribadi mereka.
Jika Anda menggunakan kode ini dalam penelitian Anda, silakan gunakan entri BibTeX berikut.
@misc { louisbrulenaudet2024 ,
author = { Louis Brulé Naudet } ,
title = { HF for Legal: A Community Package for Legal Applications } ,
year = { 2024 }
howpublished = { url{https://github.com/louisbrulenaudet/hf-for-legal} } ,
}
Jika Anda memiliki masukan, silakan hubungi [email protected].