أجرينا في الأسبوع الماضي مناقشة مطولة حول اتجاه نمذجة مستودع البيانات، في محاولة للعثور على منهجية نمذجة مناسبة لتطوير منصة مستودع البيانات الخاصة بشركة علي بابا. النظريتان النموذجيتان لنمذجة مستودع البيانات هما نمذجة الأبعاد ونمذجة علاقات الكيانات بناءً على مجالات الموضوع. ويمثل هاتين الطريقتين السيدان كيمبال وإيمون على التوالي. تعتمد نمذجة الأبعاد على احتياجات تحليل البيانات وتؤيد بنية الناقل: حقائق متسقة وأبعاد متسقة يسهل على المستخدمين فهمها وتشغيلها لتحليل البيانات. تعتمد نمذجة علاقات الكيانات على مجال الموضوع على بيانات نظام المصدر، وتدمج جميع بيانات المؤسسة، وتلخص البيانات من مستوى المؤسسة وتدمجها، وتعتمد نمذجة نظرية علاقات الكيانات 3NF. تستخدم طريقة نمذجة البيانات هذه محاولات نهج أكثر تجريدًا لإنشاء نموذج بيانات مستقر نسبيًا ويمكنه وصف علاقات البيانات على مستوى المؤسسة. في الصناعة، غالبًا ما يتم الجمع بين الطريقتين لاستخدام تسلسلات هرمية مختلفة للبيانات في مستودعات البيانات.
أجرينا في الأسبوع الماضي مناقشة متعمقة حول طريقة تكامل البيانات في نمذجة علاقات الكيانات بناءً على مجالات الموضوع، وناقشنا الأفكار الثلاثة التالية:
سمات الكيانات المختلفة في نفس مجال الموضوع في شكل تجميع السمات. على سبيل المثال، بالنسبة لكائنات الكيانات مثل الأعضاء والشركات والعملاء وما إلى ذلك، لدينا جميعًا معلومات سمة العنوان ومعلومات سمة تعريف الاسم وما إلى ذلك. تتمثل هذه الفكرة في دمج الحقول ذات تماسك السمات العالي وتسمية السمات المختلفة مع تحديد النوع المخزن على شكل طاولة شجرة. مزاياه هي: أولاً، النموذج مستقر، وإذا قام النظام المحيطي بتغيير الحقول، فإنه يحتاج فقط إلى إضافة أنواع مختلفة دون تغيير بنية الجدول، وثانيًا، فإنه يقلل من كمية كبيرة من البيانات التاريخية الزائدة عن الحاجة. عيوبه هي: أولاً، فإنه يفقد الكثير من معلومات تعريف السمات الخاصة بالكيانات، ولن نتمكن من معرفة سمات العنوان التي يمتلكها العضو من النموذج، ولا يمكن الحصول على هذه المعلومات إلا عن طريق الاستعلام عن رمز النوع يتم توسيع عدد السجلات في جدول البيانات بشكل كبير لأنه يتم تخزينه في شكل جدول عمودي. ثالثًا، يصعب تطبيقه، والكفاءة مشكلة كبيرة، لأننا غالبًا ما نحتاج إلى استخدام حقول متعددة للكيان؛ وسيكون هناك الكثير من عمليات الدمج والعمودية وعملية الدوران الأفقي. رابعًا: يعد تجميع السمات أيضًا عملية صعبة نسبيًا لأنها عملية مجردة، مما يضع متطلبات عالية على المعرفة الأساسية للأعمال وقدرات التجريد لدى المصمم. خامسًا: على الرغم من تقليل التكرار، فإنه يسجل البيانات التاريخية، إلا أن عملية تسجيل التاريخ هو أيضا أكثر تعقيدا.
استخدم النمذجة الموجهة للكائنات لتجريد السمات المشتركة للكيانات المختلفة، ثم استخدم الأفكار الموجهة للكائنات مثل الميراث والجمع لتجسيد الكيانات خطوة بخطوة. وتتمثل ميزتها في أن مفهوم النموذج واضح نسبيًا، ولكن عيبه هو أن النموذج غير مستقر نسبيًا، ويجب أن يواجه التكامل اللاحق للبيانات أيضًا مشكلة إعادة التركيب.
طريقة النمذجة المرتبطة بالمصدر: يتم تنفيذ النمذجة بطريقة تحافظ بشكل أساسي على نظام المصدر، مع التركيز على توحيد البيانات واتساقها، وفرز الأهمية التجارية للبيانات. يشبه هذا النهج نهجنا الحالي في مستودع البيانات. إنه سهل التنفيذ نسبيًا وسريع التنفيذ ويمكن للواجهة الأمامية استخدام البيانات مباشرة والعيب هو أن درجة التكامل ليست عالية والنموذج غير مستقر.
بعد كل شيء، يخدم النموذج تطبيقات تحليل البيانات. يجب تحديد طريقة النمذجة المحددة بناءً على خصائص العمل الفعلية وخصائص النظام المصدر. يتغير نظام مصدر Alibaba بسرعة، ويجب أن يتغير تحليل البيانات بسرعة ويستجيب بسرعة، علاوة على ذلك، فإن طلبنا للتكامل بين الأنظمة المختلفة ليس كبيرًا في كثير من الأحيان. لذلك أعتقد شخصياً أن طريقة نشر المصدر هي الحل الأفضل في الوقت الحالي.
هذه المقالة مأخوذة من مدونة CSDN، يرجى الإشارة إلى المصدر عند إعادة الطباعة: http://blog.csdn.net/wsbupt/archive/2009/12/30/5109309.aspx.
-