Minggu lalu kami berdiskusi panjang lebar tentang arah pemodelan data warehouse, mencoba menemukan metodologi pemodelan yang cocok untuk pengembangan platform data warehouse Alibaba. Dua teori khas pemodelan data warehouse adalah pemodelan dimensi dan pemodelan hubungan entitas berdasarkan domain subjek. Kedua metode ini masing-masing diwakili oleh dua master Kimball dan Immon. Pemodelan dimensi didorong oleh kebutuhan analisis data dan mendukung arsitektur bus: fakta yang konsisten dan dimensi yang konsisten. Model data ini mudah dipahami dan dioperasikan oleh pengguna untuk analisis data. Pemodelan hubungan entitas berdasarkan domain subjek didorong oleh data sistem sumber, mengintegrasikan semua data perusahaan, mengabstraksi dan mengintegrasikan data dari tingkat perusahaan, dan mengadopsi pemodelan teori hubungan entitas 3NF. Metode pemodelan data ini menggunakan upaya pendekatan yang lebih abstrak untuk membangun model data yang relatif stabil dan dapat menggambarkan hubungan data tingkat perusahaan. Dalam industri, kedua metode ini sering digabungkan untuk menggunakan hierarki data yang berbeda di gudang data.
Minggu lalu kami melakukan diskusi mendalam tentang metode integrasi data dalam pemodelan hubungan entitas berdasarkan domain subjek, dan membahas tiga gagasan berikut:
Atribut entitas berbeda dalam domain subjek yang sama berupa agregasi atribut. Misalnya, untuk objek entitas seperti anggota, perusahaan, pelanggan, dll., kita semua memiliki informasi atribut alamat, informasi atribut identifikasi nama, dll. Idenya adalah untuk mengintegrasikan bidang dengan kohesi atribut tinggi dan memberi label atribut yang berbeda dengan identifikasi tipe Tersimpan dalam bentuk meja pohon. Keuntungannya adalah: pertama, modelnya stabil, dan jika sistem periferal mengubah bidang, ia hanya perlu menambahkan tipe yang berbeda tanpa mengubah struktur tabel, kedua, mengurangi sejumlah besar data historis yang berlebihan; Kerugiannya adalah: pertama, ia kehilangan banyak informasi identifikasi atribut entitas. Kita tidak akan dapat melihat atribut alamat apa yang dimiliki anggota dari model. Informasi ini hanya dapat diperoleh dengan menanyakan kode tipe; jumlah record dalam tabel data sangat banyak karena disimpan dalam bentuk tabel vertikal; ketiga, sulit untuk diterapkan, dan efisiensi merupakan masalah besar, karena kita sering kali perlu menggunakan beberapa bidang suatu entitas, dan akan ada banyak operasi gabungan dan vertikal. Operasi memutar secara horizontal. Keempat: Agregasi atribut juga merupakan proses yang relatif sulit karena merupakan proses abstrak, yang sangat menuntut pengetahuan latar belakang bisnis dan kemampuan abstraksi pemodel; Kelima: Meskipun redundansi berkurang Ini mencatat data historis, tetapi pengoperasian pencatatan sejarah juga lebih rumit.
Gunakan pemodelan berorientasi objek untuk mengabstraksi atribut umum dari entitas yang berbeda, lalu gunakan ide berorientasi objek seperti pewarisan dan kombinasi untuk mengkonkretkan entitas selangkah demi selangkah. Kelebihannya adalah konsep modelnya relatif jelas, namun kelemahannya adalah modelnya relatif tidak stabil, dan integrasi data selanjutnya juga harus menghadapi masalah rekombinasi.
Metode pemodelan terlampir sumber: Pemodelan dilakukan dengan cara yang pada dasarnya memelihara sistem sumber, dengan fokus pada standarisasi dan konsistensi data, dan memilah signifikansi bisnis dari data tersebut. Pendekatan ini mirip dengan pendekatan data warehouse kami saat ini. Implementasinya relatif mudah, implementasinya cepat, dan front-end dapat langsung menggunakan data; kelemahannya adalah tingkat integrasinya tidak tinggi dan modelnya tidak stabil.
Bagaimanapun, model tersebut melayani aplikasi analisis data. Metode pemodelan spesifik yang digunakan perlu ditentukan berdasarkan karakteristik bisnis aktual dan karakteristik sistem sumber. Sistem sumber Alibaba berubah dengan cepat, dan analisis data harus berubah dengan cepat dan merespons dengan cepat. Terlebih lagi, permintaan kami untuk integrasi antar sistem yang berbeda tidaklah besar. Integrasi data yang mendalam sering kali membuat aplikasi menjadi sulit untuk dijalankan. Oleh karena itu, menurut saya pribadi, metode memposting sumbernya adalah solusi yang lebih baik saat ini.
Artikel ini berasal dari blog CSDN. Harap sebutkan sumbernya saat mencetak ulang: http://blog.csdn.net/wsbupt/archive/2009/12/30/5109309.aspx
-