Na semana passada tivemos uma longa discussão sobre a direção da modelagem de data warehouse, tentando encontrar uma metodologia de modelagem adequada para o desenvolvimento da plataforma de data warehouse do Alibaba. As duas teorias típicas de modelagem de data warehouse são modelagem dimensional e modelagem de relacionamento de entidade baseada em domínios de assunto. Esses dois métodos são representados pelos dois mestres Kimball e Immon, respectivamente. A modelagem dimensional é orientada pelas necessidades de análise de dados e defende uma arquitetura de barramento: fatos consistentes e dimensões consistentes. Este modelo de dados é fácil para os usuários entenderem e operarem para análise de dados. A modelagem de relacionamento de entidade baseada no domínio do assunto é orientada pelos dados do sistema de origem, integra todos os dados da empresa, abstrai e integra os dados de um nível empresarial e adota a modelagem da teoria de relacionamento de entidade 3NF. Este método de modelagem de dados usa uma abordagem mais abstrata. para estabelecer um modelo de dados relativamente estável e pode descrever relacionamentos de dados em nível empresarial. Na indústria, os dois métodos são frequentemente combinados para usar diferentes hierarquias de dados em data warehouses.
Na semana passada, tivemos uma discussão aprofundada principalmente sobre o método de integração de dados na modelagem de relacionamento de entidades com base em domínios de assunto e discutimos as três ideias a seguir:
Atributos de diferentes entidades no mesmo domínio de assunto na forma de agregação de atributos. Por exemplo, para objetos de entidade como membros, empresas, clientes, etc., todos temos informações de atributos de endereço, informações de atributos de identificação de nome, etc. Essa ideia é integrar campos com alta coesão de atributos e rotular diferentes atributos com identificação de tipo armazenado. na forma de uma mesa de árvore. Suas vantagens são: primeiro, o modelo é estável e, se o sistema periférico mudar de campo, basta adicionar diferentes tipos sem alterar a estrutura da tabela, em segundo lugar, reduz uma grande quantidade de dados históricos redundantes; Suas desvantagens são: primeiro, perde muitas informações de identificação de atributos das entidades. Em segundo lugar, não poderemos ver quais atributos de endereço um membro possui. extremamente O número de registros na tabela de dados é ampliado porque é armazenado na forma de uma tabela vertical, em terceiro lugar, é difícil de aplicar e a eficiência é um grande problema, porque muitas vezes precisamos usar vários campos de uma entidade; e haverá muitas operações de junção e vertical A operação de giro horizontal. Quarto: A agregação de atributos também é um processo relativamente difícil porque é um processo abstrato, que exige muito do conhecimento prévio do negócio e das capacidades de abstração do modelador. Quinto: Embora a redundância seja reduzida, ele registra dados históricos, mas a operação de registrar o histórico; também é mais complicado.
Use modelagem orientada a objetos para abstrair os atributos comuns de diferentes entidades e, em seguida, use ideias orientadas a objetos, como herança e combinação, para concretizar as entidades passo a passo. A sua vantagem é que o conceito do modelo é relativamente claro, mas a sua desvantagem é que o modelo é relativamente instável, e a subsequente integração dos dados também deve enfrentar o problema da recombinação.
Método de modelagem anexada à fonte: A modelagem é realizada de forma que basicamente mantém o sistema de origem, com foco na padronização e consistência dos dados e na classificação da importância comercial dos dados. Essa abordagem é semelhante à nossa abordagem atual de data warehouse. É relativamente fácil de implementar, rápido de implementar e o front-end pode usar dados diretamente. A desvantagem é que o grau de integração não é alto e o modelo é instável;
Afinal, o modelo atende a aplicações de análise de dados. O método de modelagem específico utilizado precisa ser determinado com base nas características reais do negócio e nas características do sistema de origem. O sistema de origem do Alibaba muda rapidamente e a análise de dados deve mudar e responder rapidamente. Além disso, nossa demanda por integração entre diferentes sistemas não é grande. Portanto, pessoalmente penso que o método de publicação da fonte é a melhor solução no momento.
Este artigo vem do blog CSDN. Indique a fonte ao reimprimir: http://blog.csdn.net/wsbupt/archive/2009/12/30/5109309.aspx.
-