Letzte Woche hatten wir eine lange Diskussion über die Richtung der Data-Warehouse-Modellierung und versuchten, eine Modellierungsmethodik zu finden, die für die Entwicklung der Data-Warehouse-Plattform von Alibaba geeignet ist. Die beiden typischen Theorien der Data-Warehouse-Modellierung sind die dimensionale Modellierung und die Entity-Relationship-Modellierung auf Basis von Subjektdomänen. Diese beiden Methoden werden von den beiden Meistern Kimball bzw. Immon vertreten. Die dimensionale Modellierung basiert auf Datenanalyseanforderungen und befürwortet eine Busarchitektur: konsistente Fakten und konsistente Dimensionen. Dieses Datenmodell ist für Benutzer leicht zu verstehen und für die Datenanalyse zu verwenden. Die auf der Subjektdomäne basierende Entitätsbeziehungsmodellierung basiert auf Quellsystemdaten, integriert alle Daten des Unternehmens, abstrahiert und integriert die Daten auf Unternehmensebene und übernimmt die Modellierung der 3NF-Entitätsbeziehungstheorie. Diese Datenmodellierungsmethode verwendet einen abstrakteren Ansatz um ein relativ stabiles Datenmodell zu erstellen und Datenbeziehungen auf Unternehmensebene zu beschreiben. In der Industrie werden die beiden Methoden häufig kombiniert, um unterschiedliche Datenhierarchien in Data Warehouses zu nutzen.
Letzte Woche hatten wir vor allem eine ausführliche Diskussion über die Methode der Datenintegration in der Entity-Relationship-Modellierung basierend auf Subjektdomänen und diskutierten die folgenden drei Ideen:
Attribute verschiedener Entitäten in derselben Themendomäne in Form einer Attributaggregation. Für Entitätsobjekte wie Mitglieder, Unternehmen, Kunden usw. verfügen wir beispielsweise alle über Adressattributinformationen, Namensidentifikationsattributinformationen usw. Diese Idee besteht darin, Felder mit hoher Attributkohäsion zu integrieren und verschiedene Attribute mit Typidentifikation zu kennzeichnen in Form einer Baumtabelle. Seine Vorteile sind: Erstens ist das Modell stabil und wenn das periphere System Felder ändert, muss es nur verschiedene Typen hinzufügen, ohne die Tabellenstruktur zu ändern. Zweitens wird eine große Menge redundanter historischer Daten reduziert. Seine Nachteile sind: Erstens gehen viele Attributidentifikationsinformationen von Entitäten verloren. Wir können nicht sehen, welche Adressattribute ein Mitglied aus dem Modell hat. Zweitens können wir diese Informationen erhalten Die Anzahl der Datensätze in der Datentabelle wird extrem erhöht, da sie in Form einer vertikalen Tabelle gespeichert ist. Drittens ist die Anwendung schwierig und die Effizienz ist ein großes Problem, da wir häufig mehrere Felder einer Entität verwenden müssen. und es wird viele Verbindungsoperationen und vertikale Drehungen in horizontaler Richtung geben. Viertens: Die Attributaggregation ist ebenfalls ein relativ schwieriger Prozess, da es sich um einen abstrakten Prozess handelt, der hohe Anforderungen an das Geschäftshintergrundwissen und die Abstraktionsfähigkeiten des Modellierers stellt. Fünftens: Obwohl die Redundanz reduziert wird, werden historische Daten aufgezeichnet, aber der Vorgang der Aufzeichnungshistorie ist auch komplizierter.
Verwenden Sie die objektorientierte Modellierung, um die gemeinsamen Attribute verschiedener Entitäten zu abstrahieren, und verwenden Sie dann objektorientierte Ideen wie Vererbung und Kombination, um die Entitäten Schritt für Schritt zu konkretisieren. Sein Vorteil besteht darin, dass das Konzept des Modells relativ klar ist, sein Nachteil besteht jedoch darin, dass das Modell relativ instabil ist und die anschließende Integration der Daten auch mit dem Problem der Rekombination konfrontiert sein sollte.
Methode zur quellenbezogenen Modellierung: Die Modellierung erfolgt im Wesentlichen so, dass das Quellsystem erhalten bleibt, der Schwerpunkt auf der Standardisierung und Konsistenz der Daten liegt und die geschäftliche Bedeutung der Daten ermittelt wird. Dieser Ansatz ähnelt unserem aktuellen Data-Warehouse-Ansatz. Es ist relativ einfach und schnell zu implementieren und das Front-End kann Daten direkt verwenden. Der Nachteil besteht darin, dass der Integrationsgrad nicht hoch ist und das Modell instabil ist.
Schließlich dient das Modell Datenanalyseanwendungen. Die verwendete spezifische Modellierungsmethode muss auf der Grundlage der tatsächlichen Geschäftsmerkmale und der Merkmale des Quellsystems bestimmt werden. Das Quellsystem von Alibaba ändert sich schnell, und die Datenanalyse sollte sich schnell ändern und schnell reagieren. Darüber hinaus ist unser Bedarf an Integration zwischen verschiedenen Systemen oft unbequem. Daher halte ich persönlich die Methode der Quellenangabe derzeit für die bessere Lösung.
Dieser Artikel stammt aus dem CSDN-Blog. Bitte geben Sie beim Nachdruck die Quelle an: http://blog.csdn.net/wsbupt/archive/2009/12/30/5109309.aspx
-