مرحبًا بكم في HF for Legal package، وهي مكتبة مخصصة لكسر غموض النماذج اللغوية للعاملين في المجال القانوني. مهمتنا هي تمكين الممارسين القانونيين والعلماء والباحثين بالمعرفة والأدوات التي يحتاجونها للتنقل في عالم الذكاء الاصطناعي المعقد في المجال القانوني. في HF للشؤون القانونية، نهدف إلى:
من خلال الجمع بين الخبراء القانونيين والباحثين في مجال الذكاء الاصطناعي وعشاق التكنولوجيا، فإننا نسعى جاهدين لإنشاء نظام بيئي مفتوح حيث يمكن للمهنيين القانونيين الوصول بسهولة إلى نماذج الذكاء الاصطناعي المصممة خصيصًا لتلبية احتياجاتهم وفهمها واستخدامها. سواء كنت محاميًا ممارسًا أو باحثًا قانونيًا أو تقنيًا مهتمًا بالتطبيقات القانونية للذكاء الاصطناعي، فإن HF for Legal هو مركزك للاستكشاف والتعلم والابتكار في المشهد المتطور للممارسات القانونية المدعومة بالذكاء الاصطناعي.
لاستخدام hf-for-legal، يجب تثبيت حزم Python التالية:
numpy
datasets
tqdm
يمكنك تثبيت هذه الحزم عبر النقطة:
pip install numpy datasets hf-for-legal tqdm
أولاً، قم بتهيئة فئة DatasetFormatter باستخدام مجموعة البيانات الخاصة بك:
import datasets
from hf_for_legal import DatasetFormatter
# Load a sample dataset
dataset = datasets . Dataset . from_dict (
{
"document" : [
"This is a test document." ,
"Another test document."
]
}
)
# Create an instance of DatasetFormatter
formatter = DatasetFormatter ( dataset )
# Apply the hash and UUID functions
formatted_dataset = formatter ()
print ( formatted_dataset )
datasets.Dataset
): مجموعة البيانات المراد تنسيقها. datasets.Dataset
): مجموعة البيانات الأصلية. أضف عمود تجزئة SHA-256 إلى مجموعة البيانات.
str
، اختياري): اسم العمود الذي يحتوي على النص المراد تجزئته. الافتراضي هو "المستند".str
، اختياري): اسم العمود الذي سيتم تخزين قيم التجزئة فيه. الافتراضي هو "التجزئة". datasets.Dataset
: مجموعة البيانات التي تحتوي على عمود التجزئة الجديد. أضف عمود UUID إلى مجموعة البيانات.
str
، اختياري): اسم العمود الذي سيتم تخزين قيم UUID فيه. الافتراضي هو "uuid". datasets.Dataset
: مجموعة البيانات التي تحتوي على عمود UUID الجديد.تطبيع النص في عمود محدد عن طريق التحويل إلى أحرف صغيرة وإزالة المسافات البيضاء.
str
): اسم العمود الذي يحتوي على النص المراد تطبيعه.str
، اختياري): اسم العمود الجديد لتخزين النص الذي تمت تسويته. إذا لم يتم توفيره، فإنه يقوم بالكتابة فوق العمود الأصلي. datasets.Dataset
: مجموعة البيانات التي تحتوي على عمود النص الذي تمت تسويته. تصفية الصفوف بناءً على شرط معين.
Callable
): دالة تأخذ صفًا (dict) وترجع True إذا كان يجب تضمين الصف في مجموعة البيانات التي تمت تصفيتها. datasets.Dataset
: مجموعة البيانات التي تمت تصفيتها.إعادة تسمية عمود في مجموعة البيانات.
str
): الاسم الحالي للعمود المراد إعادة تسميته.str
): الاسم الجديد للعمود. datasets.Dataset
: مجموعة البيانات مع العمود المعاد تسميته. قم بإسقاط عمود محدد من مجموعة البيانات.
str
): اسم العمود الذي سيتم إسقاطه. datasets.Dataset
: تم إسقاط مجموعة البيانات التي تحتوي على العمود المحدد. أضف عمودًا جديدًا بقيمة ثابتة.
str
): اسم العمود الجديد المراد إضافته.datasets.Dataset
: مجموعة البيانات التي تحتوي على عمود القيمة الثابتة الجديد.تحويل عمود إلى نوع بيانات محدد.
str
): اسم العمود المراد تحويله.Union[type, str]
): نوع البيانات الجديد للعمود، على سبيل المثال، int، float، str. datasets.Dataset
: مجموعة البيانات مع العمود المحول. املأ القيم المفقودة في عمود بقيمة محددة.
str
): اسم العمود الذي يحتوي على قيم مفقودة المراد ملؤها.datasets.Dataset
: مجموعة البيانات ذات القيم المفقودة المملوءة. حساب إحصائيات الملخص لعمود رقمي.
str
): اسم العمود الرقمي الذي سيتم حساب إحصائيات التلخيص له. قم بتطبيق كلاً من وظائف التجزئة وUUID على مجموعة البيانات.
str
، اختياري): اسم العمود الجديد لتخزين قيم التجزئة. الافتراضي هو "التجزئة".str
، اختياري): اسم العمود الجديد لتخزين قيم UUID. الافتراضي هو "uuid". datasets.Dataset
: مجموعة البيانات التي تحتوي على أعمدة التجزئة وUUID. يمكنك الآن الانضمام والتواصل والمشاركة على HF لخادم المجتمع القانوني على Discord.
رابط السيرفر: https://discord.gg/adwsfUUhw8
سيعمل هذا الخادم على تبسيط الاتصال بين أعضاء المنظمة وتوليد التآزر حول المشاريع المختلفة في المجالات الثلاثة للتطبيقات التفاعلية وقواعد البيانات والنماذج.
مثال لمشروع سيتم نشره قريبًا: نسخة مكررة من قاعدة بيانات القوانين، ولكن هذه المرة تحتوي على عمليات تضمين محسوبة بالفعل لنماذج مختلفة، لتمكين التكامل المبسط داخل Spaces (RAG chatbot؟) وتوفير تكاليف النشر للمستخدمين الراغبين في استخدام هذه التقنيات لمشاريعهم المهنية والشخصية.
إذا كنت تستخدم هذا الرمز في بحثك، يرجى استخدام إدخال BibTeX التالي.
@misc { louisbrulenaudet2024 ,
author = { Louis Brulé Naudet } ,
title = { HF for Legal: A Community Package for Legal Applications } ,
year = { 2024 }
howpublished = { url{https://github.com/louisbrulenaudet/hf-for-legal} } ,
}
إذا كانت لديك أي تعليقات، يرجى التواصل معنا على [email protected].