تفسير GuideWire CDA كطاولة دلتا: كشركة تكنولوجيا ، تقدم GuideWire منصة صناعية لناقلات التأمين على العقارات والخسائر في جميع أنحاء العالم. من خلال المنتجات والخدمات المختلفة بموجب جناح التأمين الخاص بهم ، فإنهم يوفرون للمستخدمين إمكانيات التشغيل المطلوبة لاكتساب المطالبات ومعالجتها وتسويتها ، ويحافظ على السياسات ، ودعم الاكتتاب وعمليات التعديل. من ناحية أخرى ، توفر Databricks للمستخدمين إمكانات تحليلية (من التقارير الأساسية إلى حلول ML المعقدة) من خلال Lakehouse للتأمين. من خلال الجمع بين كلا المنصتين معًا ، أصبحت شركات التأمين على P&C الآن القدرة على البدء في دمج إمكانات التحليلات المتقدمة (AI/ML) في عملياتها التجارية الأساسية ، وإثراء معلومات العملاء وبيانات بديلة (مثل بيانات الطقس) ولكنها تساوي المعلومات الهامة بالتساوي في المؤسسة حجم.
يدعم GuideWire الوصول إلى البيانات إلى البيئة التحليلية عبر عرض الوصول إلى البيانات السحابية (CDA). إن تخزين الملفات كملفات parquet الفردية تحت الطوابع الزمنية المختلفة وتطور المخطط هو للأسف مما يجعل المعالجة صعبة للمستخدمين النهائيين. بدلاً من معالجة الملفات بشكل فردي ، لماذا لا نقوم بإنشاء ملفات delta log
الباسصة لقراءة المعلومات التي نحتاجها فقط ، عندما نحتاجها ، دون الحاجة إلى تنزيل المعلومات المعقدة ومعالجتها وتوفيقها؟ هذا هو المبدأ وراء هذه المبادرة. لن يتم تجسيد جدول الدلتا الذي تم إنشاؤه (لن تكون البيانات تتحرك جسديًا) ولكنها تعمل كاستنساخ ضحل لبيانات التوجيه.
وبشكل أكثر تحديداً ، سنقوم بمعالجة جميع جداول الأسلاك التوجيهية بشكل مستقل ، بالتوازي (أي وظيفة شرارة) ، حيث ستتألف كل مهمة فقط في إدراج ملفات ومجلدات الباركيه وتوليد سجل الدلتا وفقًا لذلك. من وجهة نظر المستخدم النهائية ، سيبدو GuideWire كطاولة دلتا وسيتم معالجتها على هذا النحو ، مما يقلل من وقت المعالجة من أيام إلى ثوان (حيث لا يتعين علينا تنزيل ومعالجة كل ملف من خلال العديد من وظائف Spark).
نظرًا لأن البيانات موجودة الآن على Delta Lake (تتحقق جسديًا أم لا) ، يمكن للمرء أن يستفيد من جميع إمكانات مجرى النهر في بحيرة دلتا ، "الاشتراك" للتغييرات عبر إمكانيات الحمل التلقائي ، أو دلتا الطاولة المباشرة (DLT) أو حتى مشاركة دلتا ، وتسريعها. حان الوقت للرؤى من أيام إلى دقائق.
نظرًا لأن هذا النموذج يتبع نهج استنساخ ضحل ، يوصى بمنح إذن القراءة فقط إلى المستخدم النهائي لأن عملية VACCUM
على الدلتا التي تم إنشاؤها قد تؤدي إلى فقدان البيانات على دلو S3 S3. نحن نوصي بشدة بعدم تعريض مجموعة البيانات الأولية هذه للمستخدمين النهائيين ، بل إنشاء إصدار فضية مع بيانات ملموسة للاستهلاك. لاحظ أن الأمر OPTIMIZE
سيؤدي إلى تجسيد لقطات دلتا مع ملفات parquet المحسنة. سيتم تنزيل الملفات ذات الصلة فقط من S3 الأصلي إلى جدول الوجهة.
import com . databricks . labs . guidewire . Guidewire
val manifestUri = " s3://bucket/key/manifest.json "
val databasePath = " /path/to/delta/database "
Guidewire .index(manifestUri, databasePath)
سيتم تشغيل هذا الأمر على زيادة البيانات افتراضيًا ، وتحميل نقاط التفتيش السابقة التي تم تخزينها كجدول دلتا تحت ${databasePath}/_checkpoints
. إذا كنت بحاجة إلى إعادة الفهرسة على بيانات الأسلاك التوجيهية بأكملها ، يرجى تقديم معلمة savemode
اختيارية على النحو التالي
import org . apache . spark . sql . SaveMode
Guidewire .index(manifestUri, databasePath, saveMode = SaveMode . Overwrite )
بعد نمط "استنساخ ضحل" ، لن يتم تخزين ملفات Guidewire ولكن يتم الرجوع إليها من موقع دلتا يمكن تعريفه على أنه جدول خارجي.
CREATE DATABASE IF NOT EXISTS guidewire;
CREATE EXTERNAL TABLE IF NOT EXISTS guidewire . policy_holders LOCATION ' /path/to/delta/database/policy_holders ' ;
أخيرًا ، يمكننا الاستعلام عن بيانات أداة التوجيه والوصول إلى جميع إصداراتها المختلفة في الطوابع الزمنية المختلفة.
SELECT * FROM guidewire . policy_holders
VERSION AS OF 2
mvn clean package -Pshaded
بعد Maven Standard ، أضف ملف تعريف shaded
لإنشاء ملف جرة مستقل مع جميع التبعيات المدرجة. يمكن تثبيت هذه الجرة على بيئة Databricks وفقًا لذلك.