Добро пожаловать в пакет HF for Legal, библиотеку, призванную устранить непрозрачность языковых моделей для юристов. Наша миссия — предоставить практикующим юристам, ученым и исследователям знания и инструменты, необходимые им для навигации в сложном мире искусственного интеллекта в юридической сфере. В HF for Legal мы стремимся:
Объединяя экспертов по праву, исследователей искусственного интеллекта и энтузиастов технологий, мы стремимся создать открытую экосистему, в которой юристы смогут легко получать доступ, понимать и использовать модели искусственного интеллекта, адаптированные к их потребностям. Независимо от того, являетесь ли вы практикующим адвокатом, ученым-юристом или технологом, интересующимся юридическим применением ИИ, HF for Legal — это ваш центр исследований, обучения и инноваций в развивающейся сфере юридической практики с использованием ИИ.
Чтобы использовать hf-for-legal, вам необходимо установить следующие пакеты Python:
numpy
datasets
tqdm
Вы можете установить эти пакеты через pip:
pip install numpy datasets hf-for-legal tqdm
Сначала инициализируйте класс DatasetFormatter своим набором данных:
import datasets
from hf_for_legal import DatasetFormatter
# Load a sample dataset
dataset = datasets . Dataset . from_dict (
{
"document" : [
"This is a test document." ,
"Another test document."
]
}
)
# Create an instance of DatasetFormatter
formatter = DatasetFormatter ( dataset )
# Apply the hash and UUID functions
formatted_dataset = formatter ()
print ( formatted_dataset )
datasets.Dataset
): набор данных, который нужно отформатировать. datasets.Dataset
): исходный набор данных. Добавьте в набор данных хэш-столбец SHA-256.
str
, необязательно): имя столбца, содержащего текст для хеширования. По умолчанию — «документ».str
, необязательно): имя столбца для хранения хэш-значений. По умолчанию используется «хэш». datasets.Dataset
: набор данных с новым хеш-столбцом. Добавьте столбец UUID в набор данных.
str
, необязательно): имя столбца для хранения значений UUID. По умолчанию — «uuid». datasets.Dataset
: набор данных с новым столбцом UUID.Нормализовать текст в указанном столбце путем преобразования в нижний регистр и удаления пробелов.
str
): имя столбца, содержащего текст, который нужно нормализовать.str
, необязательно): имя нового столбца для хранения нормализованного текста. Если он не указан, он перезаписывает исходный столбец. datasets.Dataset
: набор данных с нормализованным текстовым столбцом. Фильтровать строки по заданному условию.
Callable
): функция, которая принимает строку (dict) и возвращает True, если строка должна быть включена в отфильтрованный набор данных. datasets.Dataset
: отфильтрованный набор данных.Переименуйте столбец в наборе данных.
str
): текущее имя столбца, который нужно переименовать.str
): новое имя столбца. datasets.Dataset
: набор данных с переименованным столбцом. Удалите указанный столбец из набора данных.
str
): имя столбца, который нужно удалить. datasets.Dataset
: набор данных с удаленным указанным столбцом. Добавьте новый столбец с постоянным значением.
str
): имя нового добавляемого столбца.datasets.Dataset
: набор данных с новым столбцом постоянного значения.Преобразуйте столбец в указанный тип данных.
str
): имя столбца, который нужно преобразовать.Union[type, str]
): новый тип данных для столбца, например, int, float, str. datasets.Dataset
: набор данных с преобразованным столбцом. Заполните недостающие значения в столбце указанным значением.
str
): имя столбца с пропущенными значениями, которые необходимо заполнить.datasets.Dataset
: набор данных с заполненными пропущенными значениями. Вычисление сводной статистики для числового столбца.
str
): имя числового столбца, для которого вычисляется сводная статистика. Примените к набору данных функции хеширования и UUID.
str
, необязательно): имя нового столбца для хранения хеш-значений. По умолчанию используется «хеш».str
, необязательно): имя нового столбца для хранения значений UUID. По умолчанию — «uuid». datasets.Dataset
: набор данных со столбцами хеша и UUID. Теперь вы можете присоединяться, общаться и делиться информацией на сервере сообщества HF for Legal в Discord.
Ссылка на сервер: https://discord.gg/adwsfUUhw8
Этот сервер упростит общение между членами организации и обеспечит синергию вокруг различных проектов в трех областях: интерактивные приложения, базы данных и модели.
Пример проекта, который скоро будет опубликован: дублирование базы данных Laws, но на этот раз содержащее встраивания, уже рассчитанные для разных моделей, чтобы обеспечить упрощенную интеграцию в Spaces (чат-бот RAG?) и сэкономить затраты на развертывание для пользователей, желающих использовать эти технологии. для своих профессиональных и личных проектов.
Если вы используете этот код в своих исследованиях, используйте следующую запись BibTeX.
@misc { louisbrulenaudet2024 ,
author = { Louis Brulé Naudet } ,
title = { HF for Legal: A Community Package for Legal Applications } ,
year = { 2024 }
howpublished = { url{https://github.com/louisbrulenaudet/hf-for-legal} } ,
}
Если у вас есть какие-либо отзывы, напишите по адресу [email protected].