Willkommen beim HF for Legal-Paket, einer Bibliothek, die sich der Aufschlüsselung der Undurchsichtigkeit von Sprachmodellen für Juristen widmet. Unsere Mission ist es, Rechtspraktikern, Wissenschaftlern und Forschern das Wissen und die Werkzeuge zur Verfügung zu stellen, die sie benötigen, um sich in der komplexen Welt der KI im Rechtsbereich zurechtzufinden. Bei HF for Legal haben wir folgende Ziele:
Indem wir Rechtsexperten, KI-Forscher und Technologiebegeisterte zusammenbringen, streben wir danach, ein offenes Ökosystem zu schaffen, in dem Rechtsexperten einfach auf auf ihre Bedürfnisse zugeschnittene KI-Modelle zugreifen, diese verstehen und nutzen können. Egal, ob Sie ein praktizierender Anwalt, ein Rechtswissenschaftler oder ein Technologe sind, der sich für juristische Anwendungen von KI interessiert, HF for Legal ist Ihr Zentrum für Erkundung, Lernen und Innovation in der sich entwickelnden Landschaft der KI-gestützten Rechtspraxis.
Um hf-for-legal verwenden zu können, müssen die folgenden Python-Pakete installiert sein:
numpy
datasets
tqdm
Sie können diese Pakete über pip installieren:
pip install numpy datasets hf-for-legal tqdm
Initialisieren Sie zunächst die DatasetFormatter-Klasse mit Ihrem Datensatz:
import datasets
from hf_for_legal import DatasetFormatter
# Load a sample dataset
dataset = datasets . Dataset . from_dict (
{
"document" : [
"This is a test document." ,
"Another test document."
]
}
)
# Create an instance of DatasetFormatter
formatter = DatasetFormatter ( dataset )
# Apply the hash and UUID functions
formatted_dataset = formatter ()
print ( formatted_dataset )
datasets.Dataset
): Der zu formatierende Datensatz. datasets.Dataset
): Der ursprüngliche Datensatz. Fügen Sie dem Datensatz eine SHA-256-Hash-Spalte hinzu.
str
, optional): Der Name der Spalte, die den zu hashenden Text enthält. Der Standardwert ist „Dokument“.str
, optional): Der Name der Spalte zum Speichern der Hashwerte. Der Standardwert ist „Hash“. datasets.Dataset
: Der Datensatz mit der neuen Hash-Spalte. Fügen Sie dem Datensatz eine UUID-Spalte hinzu.
str
, optional): Der Name der Spalte zum Speichern der UUID-Werte. Der Standardwert ist „uuid“. datasets.Dataset
: Der Datensatz mit der neuen UUID-Spalte.Normalisieren Sie Text in einer angegebenen Spalte, indem Sie ihn in Kleinbuchstaben konvertieren und Leerzeichen entfernen.
str
): Der Name der Spalte, die den zu normalisierenden Text enthält.str
, optional): Der Name der neuen Spalte zum Speichern des normalisierten Texts. Wenn nicht angegeben, wird die ursprüngliche Spalte überschrieben. datasets.Dataset
: Der Datensatz mit der normalisierten Textspalte. Filtern Sie Zeilen basierend auf einer bestimmten Bedingung.
Callable
): Eine Funktion, die eine Zeile (dict) entgegennimmt und „True“ zurückgibt, wenn die Zeile in den gefilterten Datensatz aufgenommen werden soll. datasets.Dataset
: Der gefilterte Datensatz.Benennen Sie eine Spalte im Datensatz um.
str
): Der aktuelle Name der Spalte, die umbenannt werden soll.str
): Der neue Name für die Spalte. datasets.Dataset
: Der Datensatz mit der umbenannten Spalte. Löschen Sie eine bestimmte Spalte aus dem Datensatz.
str
): Der Name der zu löschenden Spalte. datasets.Dataset
: Der Datensatz mit der angegebenen Spalte wurde gelöscht. Fügen Sie eine neue Spalte mit einem konstanten Wert hinzu.
str
): Der Name der neuen Spalte, die hinzugefügt werden soll.datasets.Dataset
: Der Datensatz mit der neuen Konstantwertspalte.Konvertieren Sie eine Spalte in einen angegebenen Datentyp.
str
): Der Name der zu konvertierenden Spalte.Union[type, str]
): Der neue Datentyp für die Spalte, z. B. int, float, str. datasets.Dataset
: Der Datensatz mit der konvertierten Spalte. Füllen Sie fehlende Werte in einer Spalte mit einem angegebenen Wert.
str
): Der Name der Spalte mit fehlenden Werten, die gefüllt werden sollen.datasets.Dataset
: Der Datensatz mit fehlenden Werten gefüllt. Berechnen Sie zusammenfassende Statistiken für eine numerische Spalte.
str
): Der Name der numerischen Spalte, für die zusammenfassende Statistiken berechnet werden sollen. Wenden Sie sowohl die Hash- als auch die UUID-Funktion auf den Datensatz an.
str
, optional): Der Name der neuen Spalte zum Speichern der Hashwerte. Der Standardwert ist „Hash“.str
, optional): Der Name der neuen Spalte zum Speichern der UUID-Werte. Der Standardwert ist „uuid“. datasets.Dataset
: Der Datensatz mit Hash- und UUID-Spalten. Sie können jetzt dem HF for Legal-Community-Server auf Discord beitreten, kommunizieren und Inhalte teilen.
Link zum Server: https://discord.gg/adwsfUUhw8
Dieser Server soll die Kommunikation zwischen den Mitgliedern der Organisation vereinfachen und Synergien rund um die verschiedenen Projekte in den drei Bereichen interaktive Anwendungen, Datenbanken und Modelle generieren.
Ein Beispiel für ein Projekt, das bald veröffentlicht wird: eine Duplizierung der Laws-Datenbank, dieses Mal jedoch mit bereits berechneten Einbettungen für verschiedene Modelle, um eine vereinfachte Integration in Spaces (RAG-Chatbot?) zu ermöglichen und Bereitstellungskosten für Benutzer zu sparen, die diese Technologien nutzen möchten für ihre beruflichen und persönlichen Projekte.
Wenn Sie diesen Code in Ihrer Recherche verwenden, verwenden Sie bitte den folgenden BibTeX-Eintrag.
@misc { louisbrulenaudet2024 ,
author = { Louis Brulé Naudet } ,
title = { HF for Legal: A Community Package for Legal Applications } ,
year = { 2024 }
howpublished = { url{https://github.com/louisbrulenaudet/hf-for-legal} } ,
}
Wenn Sie Feedback haben, wenden Sie sich bitte an [email protected].