La semaine dernière, nous avons eu une longue discussion sur l'orientation de la modélisation des entrepôts de données, en essayant de trouver une méthodologie de modélisation adaptée au développement de la plate-forme d'entrepôt de données d'Alibaba. Les deux théories typiques de la modélisation des entrepôts de données sont la modélisation dimensionnelle et la modélisation des relations entre entités basées sur des domaines thématiques. Ces deux méthodes sont représentées respectivement par les deux maîtres Kimball et Immon. La modélisation dimensionnelle est motivée par les besoins d'analyse des données et préconise une architecture de bus : des faits cohérents et des dimensions cohérentes. Ce modèle de données est facile à comprendre et à utiliser pour l'analyse des données. La modélisation des relations entre entités basée sur le domaine est pilotée par les données du système source, intègre toutes les données de l'entreprise, résume et intègre les données au niveau de l'entreprise et adopte la modélisation de la théorie des relations entre les entités 3NF. Cette méthode de modélisation des données utilise une approche plus abstraite. pour établir un modèle de données relativement stable et peut décrire les relations entre les données au niveau de l'entreprise. Dans l’industrie, les deux méthodes sont souvent combinées pour utiliser différentes hiérarchies de données dans les entrepôts de données.
La semaine dernière, nous avons principalement eu une discussion approfondie sur la méthode d'intégration des données dans la modélisation des relations entre entités basée sur les domaines thématiques, et avons discuté des trois idées suivantes :
Attributs de différentes entités dans le même domaine sous forme d'agrégation d'attributs. Par exemple, pour les objets d'entité tels que les membres, les entreprises, les clients, etc., nous avons tous des informations sur les attributs d'adresse, des informations sur les attributs d'identification du nom, etc. Cette idée est d'intégrer des champs avec une cohésion d'attribut élevée et d'étiqueter différents attributs avec une identification de type stocké. sous la forme d'une table arborescente. Ses avantages sont les suivants : premièrement, le modèle est stable, et si le système périphérique change de champ, il lui suffit d'ajouter différents types sans modifier la structure de la table ; deuxièmement, il réduit une grande quantité de données historiques redondantes ; Ses inconvénients sont les suivants : premièrement, il perd beaucoup d'informations d'identification des attributs des entités. Nous ne pourrons pas voir quels attributs d'adresse un membre possède à partir du modèle. Ces informations ne peuvent être obtenues qu'en interrogeant le code de type. extrêmement Le nombre d'enregistrements dans le tableau de données est augmenté car il est stocké sous la forme d'un tableau vertical ; troisièmement, il est difficile à appliquer et l'efficacité est un gros problème, car nous devons souvent utiliser plusieurs champs d'une entité, et il y aura beaucoup d'opérations de jointure et verticales. L'opération de rotation horizontale. Quatrièmement : l'agrégation d'attributs est également un processus relativement difficile car il s'agit d'un processus abstrait, qui impose des exigences élevées aux connaissances métier et aux capacités d'abstraction du modélisateur. Cinquièmement : bien que la redondance soit réduite, elle enregistre les données historiques, mais l'opération d'enregistrement de l'historique ; est aussi plus compliqué.
Utilisez la modélisation orientée objet pour résumer les attributs communs de différentes entités, puis utilisez des idées orientées objet telles que l'héritage et la combinaison pour concrétiser les entités étape par étape. Son avantage est que le concept du modèle est relativement clair, mais son inconvénient est que le modèle est relativement instable et que l'intégration ultérieure des données devrait également être confrontée au problème de la recombinaison.
Méthode de modélisation attachée à la source : la modélisation est effectuée de manière à maintenir essentiellement le système source, en se concentrant sur la standardisation et la cohérence des données et en triant l'importance commerciale des données. Cette approche est similaire à notre approche actuelle d’entrepôt de données. Il est relativement facile à mettre en œuvre, rapide à mettre en œuvre et le front-end peut utiliser directement les données ; l'inconvénient est que le degré d'intégration n'est pas élevé et que le modèle est instable ;
Après tout, le modèle sert aux applications d'analyse de données. La méthode de modélisation spécifique utilisée doit être déterminée en fonction des caractéristiques commerciales réelles et des caractéristiques du système source. Le système source d'Alibaba change rapidement, et l'analyse des données doit changer rapidement et réagir rapidement. De plus, notre demande d'intégration entre les différents systèmes n'est pas grande. L'intégration approfondie des données amène souvent des applications peu pratiques. Par conséquent, je pense personnellement que la méthode de publication de la source est actuellement la meilleure solution.
Cet article provient du blog CSDN Veuillez indiquer la source lors de la réimpression : http://blog.csdn.net/wsbupt/archive/2009/12/30/5109309.aspx.
-