先週、私たちはアリババのデータ ウェアハウス プラットフォームの開発に適したモデリング手法を見つけるために、データ ウェアハウス モデリングの方向性について長時間議論しました。データ ウェアハウス モデリングの 2 つの代表的な理論は、サブジェクト ドメインに基づくディメンション モデリングとエンティティ関係モデリングであり、これら 2 つの手法はそれぞれ、2 人の巨匠 Kimball と Immon によって代表されます。ディメンション モデリングはデータ分析のニーズによって推進され、バス アーキテクチャ、つまり一貫した事実と一貫したディメンションを提唱します。このデータ モデルは、ユーザーが理解しやすく、データ分析のために操作しやすいものです。対象ドメインに基づくエンティティ関係モデリングは、ソース システム データによって駆動され、企業のすべてのデータを統合し、企業レベルからデータを抽象化して統合し、3NF エンティティ関係理論モデリングを採用します。このデータ モデリング方法では、より抽象的なアプローチを試みます。比較的安定したデータ モデルを確立し、エンタープライズ レベルのデータ関係を記述することができます。業界では、これら 2 つの方法を組み合わせて、データ ウェアハウス内の異なるデータ階層を使用することがよくあります。
先週は主に、対象領域に基づいたエンティティ関係モデリングにおけるデータ統合の手法について徹底的に議論し、次の 3 つのアイデアについて議論しました。
属性集約の形式での、同じサブジェクト ドメイン内の異なるエンティティの属性。たとえば、メンバー、会社、顧客などのエンティティ オブジェクトの場合、誰もが住所属性情報、名前識別属性情報などを持っています。このアイデアは、属性の凝集度が高いフィールドを統合し、さまざまな属性を型識別でラベル付けすることです。ツリーテーブルの形式で。その利点は、第一に、モデルが安定しており、周辺システムがフィールドを変更する場合、テーブル構造を変更せずに異なるタイプを追加するだけで済むこと、第二に、大量の冗長な履歴データが削減されることです。その欠点は、まず、エンティティの多くの属性識別情報が失われることです。この情報は、型コードをクエリすることによってのみ取得できます。データテーブルは垂直テーブルの形式で保存されるため、非常にレコード数が増加します。第三に、エンティティの複数のフィールドを使用する必要があることが多いため、適用が難しく、効率が大きな問題になります。結合操作や垂直方向と水平方向に回転する操作が多くなります。 4 番目: 属性の集約も抽象的なプロセスであるため、比較的困難なプロセスであり、モデラーのビジネス背景知識と抽象化能力が要求されます。 5 番目: 冗長性は減りますが、履歴データは記録されます。もさらに複雑です。
オブジェクト指向モデリングを使用してさまざまなエンティティの共通属性を抽象化し、継承や結合などのオブジェクト指向のアイデアを使用してエンティティを段階的に具体化します。その利点は、モデルの概念が比較的明確であることですが、欠点は、モデルが比較的不安定であり、その後のデータの統合では再結合の問題にも直面する必要があることです。
ソースアタッチドモデリング手法: データの標準化と一貫性、データのビジネス上の重要性の整理に重点を置き、基本的にソースシステムを維持する方法でモデリングが実行されます。このアプローチは、現在のデータ ウェアハウスのアプローチに似ています。実装が比較的簡単で、迅速に実行できますが、フロントエンドはデータを直接使用できますが、統合度が高くなく、モデルが不安定であるという欠点があります。
結局のところ、モデルはデータ分析アプリケーションに使用されるため、実際のビジネス特性とソース システムの特性に基づいて、使用される具体的なモデリング方法を決定する必要があります。アリババのソース システムは急速に変化するため、データ分析は迅速に変化し、迅速に対応する必要があります。さらに、異なるシステム間の統合に対する要求は大きくなく、アプリケーションを利用するのに不便なことがよくあります。したがって、現時点ではソースを掲載する方法がより良い解決策であると個人的には考えています。
この記事は CSDN ブログからのものです。転載する場合は出典を明記してください: http://blog.csdn.net/wsbupt/archive/2009/12/30/5109309.aspx
-