GuideWire CDA 해석 델타 테이블 : 기술 회사 인 GuideWire는 전 세계적으로 부동산 및 사상자 보험 회사를위한 산업 플랫폼을 제공합니다. 보험 스위트 하의 다양한 제품 및 서비스를 통해 사용자에게 청구를 획득, 처리 및 정책을 해결하는 데 필요한 운영 능력을 제공하며 정책을 유지하며 인수 및 조정 프로세스를 지원합니다. 반면에 Databricks는 사용자에게 Lakehouse를 통해 보험을 통해 분석 기능 (기본보고부터 복잡한 ML 솔루션에 이르기까지)을 제공합니다. 두 플랫폼을 함께 결합함으로써 P & C Insurance Company는 이제 고급 분석 기능 (AI/ML)을 핵심 비즈니스 프로세스에 통합하여 대체 데이터 (예 : 날씨 데이터)를 사용하여 고객 정보를 풍부하게하는 기능을 시작할 수 있습니다. 규모.
가이드 와이어는 클라우드 데이터 액세스 오퍼링 (CDA)을 통해 분석 환경에 대한 데이터 액세스를 지원합니다. 다른 타임 스탬프 및 스키마 진화에서 파일을 개별 파크 파일로 저장하는 것은 불행히도 최종 사용자에게 처리를 어렵게 만듭니다. 파일을 개별적으로 처리하는 대신, delta log
매니페스트 파일을 생성하여 필요한 정보 만 읽을 필요가있을 때 복잡한 정보를 다운로드, 처리 및 조정하지 않아도되는 이유는 무엇입니까? 이것이이 이니셔티브의 원칙입니다. 생성 된 델타 테이블은 구체화되지 않지만 (데이터는 물리적으로 움직이지 않습니다) 데이터를 가이드 와이어 데이터에 얕은 클론 역할을합니다.
보다 구체적으로, 우리는 모든 가이드 와이어 테이블을 독립적으로 (즉, 스파크 작업) 독립적으로 처리 할 것입니다. 각 작업은 파라크 파일과 폴더를 나열하고 그에 따라 델타 로그를 생성하는 데만 구성됩니다. 최종 사용자 관점에서 GuideWire는 델타 테이블로 보이며 처리 시간을 며칠에서 초로 줄입니다 (많은 Spark 작업을 통해 각 파일을 다운로드하여 처리 할 필요가 없기 때문에).
데이터가 이제 델타 레이크 (물리적으로 구체화 된 것인지 아닌)에 있으므로 델타 레이크의 모든 다운 스트림 기능을 통해 자동 로더 기능, 델타 라이브 테이블 (DLT) 또는 델타 공유, 가속을 통한 변경 사항에 대한 "구독"의 이점을 얻을 수 있습니다. 며칠에서 몇 분 동안 통찰력을 발휘할 시간입니다.
이 모델은 얕은 클론 접근법을 따르기 때문에 생성 된 델타에서의 VACCUM
조작이 가이드 와이어 S3 버킷의 데이터 손실을 초래할 수 있으므로 최종 사용자에게만 읽기 권한을 부여하는 것이 좋습니다. 우리는이 원시 데이터 세트를 최종 사용자에게 노출시키지 않고 소비를 위해 구체화 된 데이터가있는 실버 버전을 만드는 것을 강력히 권장합니다. OPTIMIZE
명령은 최적화 된 파크 파일로 최신 델타 스냅 샷을 구체화하게됩니다. 관련 파일 만 원래 S3에서 대상 테이블로 물리적으로 다운로드됩니다.
import com . databricks . labs . guidewire . Guidewire
val manifestUri = " s3://bucket/key/manifest.json "
val databasePath = " /path/to/delta/database "
Guidewire .index(manifestUri, databasePath)
이 명령은 기본적으로 데이터 증분으로 실행되며, 이전 체크 포인트는 ${databasePath}/_checkpoints
아래에 델타 테이블로 저장됩니다. 가이드 와이어 데이터 전체를 다시 표시 해야하는 경우 다음과 같이 선택적인 savemode
매개 변수를 제공하십시오.
import org . apache . spark . sql . SaveMode
Guidewire .index(manifestUri, databasePath, saveMode = SaveMode . Overwrite )
'얕은 클론'패턴에 따라 가이드 와이어 파일은 저장되지 않지만 외부 테이블로 정의 될 수있는 델타 위치에서 참조됩니다.
CREATE DATABASE IF NOT EXISTS guidewire;
CREATE EXTERNAL TABLE IF NOT EXISTS guidewire . policy_holders LOCATION ' /path/to/delta/database/policy_holders ' ;
마지막으로, 가이드 와이어 데이터를 쿼리하고 다른 타임 스탬프에서 모든 버전에 액세스 할 수 있습니다.
SELECT * FROM guidewire . policy_holders
VERSION AS OF 2
mvn clean package -Pshaded
Maven Standard에 이어 프로파일을 추가 shaded
모든 종속성이 포함 된 독립형 JAR 파일을 생성하십시오. 이 항아리는 그에 따라 데이터 사역 환경에 설치할 수 있습니다.