Interpretation von Guidewire CDA als Delta -Tabelle: Als Technologieunternehmen bietet Guidewire eine Branchenplattform für Immobilien- und Unfallversicherungsträger weltweit. Durch verschiedene Produkte und Dienstleistungen im Rahmen ihrer Versicherungssuite bieten sie den Benutzern die Betriebsfunktionen, die erforderlich sind, um Ansprüche zu erwerben, zu verarbeiten und zu begleichen, Richtlinien beizubehalten und Versicherungs- und Anpassungsverfahren zu unterstützen. DATABRICKS DAGEN AUF DER NEUERSCHAFTEN ANALYTISCHE FÜHRUNGEN (VON BASISCHE MONTERUNG bis hin zu komplexen ML -Lösungen) über ihr Lakehouse für die Versicherung. Durch die Kombination von beiden Plattformen können P & C -Versicherungsunternehmen nun mit der Integration fortschrittlicher Analysefunktionen (KI/ML) in ihre Kerngeschäftsprozesse beginnen und Kundeninformationen mit alternativen Daten (z. Skala.
GuideWire unterstützt den Datenzugriff auf die analytische Umgebung über das Cloud -Datenzugriffsangebot (CDA). Das Speichern von Dateien als individuelle Parkettdateien unter verschiedenen Zeitstempeln und Schemaentwicklung macht die Verarbeitung für Endbenutzer leider schwierig. Warum sollten wir die delta log
nicht einzeln verarbeiten, um nur Informationen zu lesen, die wir benötigen, wenn wir sie benötigen, ohne komplexe Informationen herunterzuladen, zu verarbeiten und in Einklang zu bringen? Dies ist das Prinzip hinter dieser Initiative. Die generierte Delta -Tabelle wird nicht materialisiert (Daten werden nicht physikalisch bewegt), sondern wirken als flache Klon zu Guidewire -Daten.
Insbesondere verarbeiten wir alle Guidewire -Tabellen unabhängig voneinander und parallel (dh als Funkenjob), wobei jede Aufgabe nur darin besteht, Parquetendateien und Ordner aufzulisten und Delta -Protokoll entsprechend zu generieren. Vom Standpunkt des Endbenutzers aus wird GuideWire als Delta -Tabelle aussehen und als solche verarbeitet werden, wodurch die Verarbeitungszeit von Tagen auf Sekunden verkürzt wird (da wir jede Datei nicht herunterladen und über viele Funkenjobs verarbeiten müssen).
Da die Daten jetzt am Delta Lake (physisch materialisiert oder nicht) liegen Zeit für Erkenntnisse von Tagen bis Minuten.
Da dieses Modell einem flachen Klonansatz folgt, wird empfohlen, dem Endbenutzer nur die Berechtigung zu erteilen, da ein VACCUM
auf dem generierten Delta möglicherweise zu einem Datenverlust auf dem Leitfadendraht -S3 -Eimer führen würde. Wir empfehlen dringend, dass die Organisation diesen RAW -Datensatz nicht den Endbenutzern aussetzt, sondern eine Silberversion mit materialisierten Daten für den Verbrauch erstellen. Beachten Sie, dass ein OPTIMIZE
zur Materialisierung des neuesten Delta -Snapshots mit optimierten Parkettdateien führt. Nur die relevanten Dateien werden physisch von Original S3 in die Zieltabelle heruntergeladen.
import com . databricks . labs . guidewire . Guidewire
val manifestUri = " s3://bucket/key/manifest.json "
val databasePath = " /path/to/delta/database "
Guidewire .index(manifestUri, databasePath)
Dieser Befehl wird standardmäßig in einem Dateninkrement ausgeführt und unsere vorherigen Kontrollpunkte geladen, die als Delta -Tabelle unter ${databasePath}/_checkpoints
gespeichert sind. Sollten Sie die gesamten Leitfadenwirtschaftsdaten wieder in den Guidewire benötigen, geben Sie bitte den optionalen savemode
-Parameter wie folgt an
import org . apache . spark . sql . SaveMode
Guidewire .index(manifestUri, databasePath, saveMode = SaveMode . Overwrite )
Nach einem "flachen Klon" -Muster werden Guidewire -Dateien nicht gespeichert, sondern aus einem Delta -Ort verwiesen, der als externe Tabelle definiert werden kann.
CREATE DATABASE IF NOT EXISTS guidewire;
CREATE EXTERNAL TABLE IF NOT EXISTS guidewire . policy_holders LOCATION ' /path/to/delta/database/policy_holders ' ;
Schließlich können wir Guidewire -Daten abfragen und auf alle verschiedenen Versionen in verschiedenen Zeitstempeln zugreifen.
SELECT * FROM guidewire . policy_holders
VERSION AS OF 2
mvn clean package -Pshaded
Fügen Sie nach dem Maven -Standard das Profil hinzu, shaded
um eine eigenständige JAR -Datei mit allen enthaltenen Abhängigkeiten zu generieren. Dieses Glas kann entsprechend in einer Datenbahnenumgebung installiert werden.