Guidewire CDAをデルタテーブルとして解釈する:テクノロジー企業として、Guidewireは世界中の不動産および犠牲者の保険会社のための業界プラットフォームを提供しています。保険スイートの下でさまざまな製品とサービスを通じて、ユーザーは、請求を取得、処理、解決するために必要な運用機能を提供し、ポリシーを維持し、引受および調整プロセスをサポートします。一方、Databricksは、保険のためにLakehouseを通じて、ユーザーに分析機能(基本レポートから複雑なMLソリューションまで)を提供します。両方のプラットフォームを組み合わせることにより、P&C Insurance Companiesは、高度な分析機能(AI/ML)のコアビジネスプロセスに統合を開始し、顧客情報を代替データ(気象データなど)で充実させることができますが、エンタープライズで重要な情報を等しく調整および報告することができるようになりました。規模。
GuideWireは、クラウドデータアクセス提供(CDA)を介して、分析環境へのデータアクセスをサポートしています。ファイルをさまざまなタイムスタンプやスキーマの進化の下で個々の寄木細工ファイルとして保存することは、残念ながらエンドユーザーにとって処理を困難にしています。ファイルを個別に処理する代わりに、複雑な情報をダウンロード、処理、調整することなく、必要なときに必要な情報のみを読み取るためにdelta log
マニフェストファイルを生成しないのはなぜですか?これがこのイニシアチブの背後にある原則です。生成されたデルタテーブルは具体化されません(データは物理的に移動することはありません)が、ガイドワイヤーデータの浅いクローンとして機能します。
より具体的には、すべてのガイドワイヤーテーブルを独立して、並行して(つまり、スパークジョブとして)処理します。各タスクは、寄木細工ファイルとフォルダーのリストのみで構成され、それに応じてデルタログを生成します。エンドユーザーの観点から、GuideWireはデルタテーブルのように見え、そのように処理され、処理時間が数日から秒に短縮されます(多くのSparkジョブを通じて各ファイルをダウンロードして処理する必要がないため)。
データは現在デルタ湖(物理的に具体化されているかどうか)にあるため、デルタ湖のすべてのダウンストリーム機能の恩恵を受けることができます。自動ローダー機能、デルタライブテーブル(DLT)、またはデルタ共有を介して変更するために「購読」して、加速数日から分から洞察までの時間。
このモデルは浅いクローンアプローチに従うため、生成されたデルタでのVACCUM
操作がガイドワイヤーS3バケットでデータ損失をもたらす可能性があるため、エンドユーザーに読み取り許可のみを付与することをお勧めします。この生データセットをエンドユーザーに公開するのではなく、消費のための具体化されたデータを備えたシルバーバージョンを作成することを強くお勧めします。 OPTIMIZE
コマンドは、最適化された寄木細工ファイルを備えた最新のデルタスナップショットの具体化をもたらすことに注意してください。関連するファイルのみが、元のS3から宛先テーブルに物理的にダウンロードされます。
import com . databricks . labs . guidewire . Guidewire
val manifestUri = " s3://bucket/key/manifest.json "
val databasePath = " /path/to/delta/database "
Guidewire .index(manifestUri, databasePath)
このコマンドは、デフォルトでデータ増分で実行され、 ${databasePath}/_checkpoints
の下にデルタテーブルとして保存されている以前のチェックポイントをロードします。 Guidewireデータ全体を再インドする必要がある場合は、次のようにオプションのsavemode
パラメーターを提供してください
import org . apache . spark . sql . SaveMode
Guidewire .index(manifestUri, databasePath, saveMode = SaveMode . Overwrite )
「浅いクローン」パターンに従って、ガイドワイヤーファイルは保存されませんが、外部テーブルとして定義できるデルタの場所から参照されます。
CREATE DATABASE IF NOT EXISTS guidewire;
CREATE EXTERNAL TABLE IF NOT EXISTS guidewire . policy_holders LOCATION ' /path/to/delta/database/policy_holders ' ;
最後に、Guidewireデータをクエリし、異なるタイムスタンプでそのすべての異なるバージョンにアクセスできます。
SELECT * FROM guidewire . policy_holders
VERSION AS OF 2
mvn clean package -Pshaded
Maven Standardに続いて、 shaded
プロファイルを追加して、すべての依存関係を含むスタンドアロンのJARファイルを生成します。この瓶は、それに応じてDataBricks環境にインストールできます。