La semana pasada tuvimos una larga discusión sobre la dirección del modelado de almacenes de datos, tratando de encontrar una metodología de modelado adecuada para el desarrollo de la plataforma de almacén de datos de Alibaba. Las dos teorías típicas del modelado de almacenes de datos son el modelado dimensional y el modelado de relaciones entre entidades basado en dominios temáticos. Estos dos métodos están representados por los dos maestros Kimball e Immon respectivamente. El modelado dimensional está impulsado por las necesidades de análisis de datos y aboga por una arquitectura de bus: hechos consistentes y dimensiones consistentes. Este modelo de datos es fácil de entender y operar para los usuarios para el análisis de datos. El modelado de relaciones entre entidades basado en el dominio temático está impulsado por los datos del sistema fuente, integra todos los datos de la empresa, abstrae e integra los datos a nivel empresarial y adopta el modelado de la teoría de relaciones entre entidades 3NF. Este método de modelado de datos utiliza un enfoque más abstracto. para establecer un modelo de datos relativamente estable y puede describir las relaciones de datos a nivel empresarial. En la industria, los dos métodos suelen combinarse para utilizar diferentes jerarquías de datos en los almacenes de datos.
La semana pasada tuvimos principalmente una discusión en profundidad sobre el método de integración de datos en el modelado de relaciones entre entidades basado en dominios temáticos, y discutimos las siguientes tres ideas:
Atributos de diferentes entidades en el mismo dominio temático en forma de agregación de atributos. Por ejemplo, para objetos de entidad como miembros, empresas, clientes, etc., todos tenemos información de atributos de dirección, información de atributos de identificación de nombres, etc. Esta idea es integrar campos con alta cohesión de atributos y etiquetar diferentes atributos con identificación de tipo Almacenado. en forma de mesa de árbol. Sus ventajas son: primero, el modelo es estable y si el sistema periférico cambia de campo, solo necesita agregar diferentes tipos sin cambiar la estructura de la tabla; segundo, reduce una gran cantidad de datos históricos redundantes; Sus desventajas son: primero, pierde mucha información de identificación de atributos de las entidades. No podremos ver qué atributos de dirección tiene un miembro del modelo. Esta información solo se puede obtener consultando el código de tipo. extremadamente La cantidad de registros en la tabla de datos aumenta porque se almacena en forma de tabla vertical. En tercer lugar, es difícil de aplicar y la eficiencia es un gran problema, porque a menudo necesitamos usar múltiples campos de una entidad; y habrá muchas operaciones de unión y verticales La operación de girar horizontalmente. Cuarto: la agregación de atributos también es un proceso relativamente difícil porque es un proceso abstracto, que impone grandes exigencias al conocimiento empresarial y las capacidades de abstracción del modelador. Quinto: aunque la redundancia se reduce, registra datos históricos, pero la operación de registro del historial; También es más complicado.
Utilice el modelado orientado a objetos para abstraer los atributos comunes de diferentes entidades y luego utilice ideas orientadas a objetos como la herencia y la combinación para concretar las entidades paso a paso. Su ventaja es que el concepto del modelo es relativamente claro, pero su desventaja es que el modelo es relativamente inestable y la integración posterior de los datos también debería enfrentar el problema de la recombinación.
Método de modelado adjunto a la fuente: el modelado se lleva a cabo de una manera que básicamente mantiene el sistema fuente, enfocándose en la estandarización y consistencia de los datos y clasificando la importancia comercial de los datos. Este enfoque es similar a nuestro enfoque actual de almacenamiento de datos. Es relativamente fácil de implementar, rápido de implementar y el front-end puede usar datos directamente. La desventaja es que el grado de integración no es alto y el modelo es inestable;
Después de todo, el modelo sirve para aplicaciones de análisis de datos. El método de modelado específico utilizado debe determinarse en función de las características comerciales reales y las características del sistema fuente. El sistema fuente de Alibaba cambia rápidamente y el análisis de datos debería cambiar rápidamente y responder rápidamente. Además, nuestra demanda de integración entre diferentes sistemas no es muy grande. La integración profunda de datos a menudo trae aplicaciones. Por lo tanto, personalmente creo que el método de publicar la fuente es la mejor solución en este momento.
Este artículo proviene del blog de CSDN. Indique la fuente al reimprimir: http://blog.csdn.net/wsbupt/archive/2009/12/30/5109309.aspx.
-