지난주 우리는 알리바바의 데이터 웨어하우스 플랫폼 개발에 적합한 모델링 방법론을 찾기 위해 데이터 웨어하우스 모델링의 방향에 대해 오랜 토론을 했습니다. 데이터 웨어하우스 모델링의 두 가지 대표적인 이론은 주제 영역을 기반으로 한 차원 모델링과 엔터티 관계 모델링입니다. 이 두 가지 방법은 각각 Kimball과 Immon이라는 두 명의 거장으로 대표됩니다. 차원 모델링은 데이터 분석 요구에 따라 이루어지며 일관된 사실과 일관된 차원이라는 버스 아키텍처를 옹호합니다. 이 데이터 모델은 사용자가 데이터 분석을 쉽게 이해하고 작동할 수 있습니다. 주제 도메인 기반의 개체 관계 모델링은 소스 시스템 데이터를 중심으로 기업의 모든 데이터를 통합하고, 기업 수준의 데이터를 추상화 및 통합하며, 3NF 개체 관계 이론 모델링을 채택합니다. 이 데이터 모델링 방법은 보다 추상적인 접근 방식을 시도합니다. 비교적 안정적인 데이터 모델을 구축하고 기업 수준의 데이터 관계를 설명할 수 있습니다. 업계에서는 데이터 웨어하우스에서 서로 다른 데이터 계층을 사용하기 위해 두 가지 방법을 결합하는 경우가 많습니다.
지난 주에는 주로 주제 영역 기반의 개체 관계 모델링에서 데이터 통합 방법에 대해 심도 있는 논의를 진행했으며, 다음 세 가지 아이디어에 대해 논의했습니다.
속성 집계 형태로 동일한 주제 도메인에 있는 다양한 엔터티의 속성입니다. 예를 들어 구성원, 회사, 고객 등과 같은 엔터티 개체의 경우 주소 속성 정보, 이름 식별 속성 정보 등을 모두 가지고 있습니다. 이 아이디어는 속성 응집력이 높은 필드를 통합하고 유형 식별을 통해 다양한 속성에 레이블을 지정하는 것입니다. 나무 테이블 형태로. 장점은 첫째, 모델이 안정적이고, 주변 시스템이 필드를 변경하는 경우 테이블 구조를 변경하지 않고 다른 유형만 추가하면 되며, 둘째, 중복된 기록 데이터의 양이 많이 줄어듭니다. 단점은 첫째, 엔터티의 속성 식별 정보가 많이 손실된다는 것입니다. 이 정보는 유형 코드를 쿼리해야만 얻을 수 있습니다. 극도로 수직 테이블 형태로 저장되기 때문에 데이터 테이블의 레코드 개수가 확장된다. 셋째, 엔터티의 여러 필드를 사용해야 하는 경우가 많기 때문에 적용이 어렵고 효율성이 큰 문제이다. 그리고 조인 작업과 수직 수평 회전 작업이 많이 있을 것입니다. 넷째: 속성 집계 역시 추상적인 프로세스이기 때문에 모델러의 비즈니스 배경 지식과 추상화 능력에 대한 요구가 높기 때문에 상대적으로 어려운 프로세스입니다. 다섯째: 중복성은 줄어들지만 이력 데이터를 기록하지만 이력을 기록하는 작업이 수행됩니다. 또한 더 복잡합니다.
객체지향 모델링을 사용하여 서로 다른 엔터티의 공통 속성을 추상화한 다음 상속, 조합과 같은 객체지향 아이디어를 사용하여 엔터티를 단계별로 구체화합니다. 장점은 모델의 개념이 상대적으로 명확하다는 점이지만, 단점은 모델이 상대적으로 불안정하고 이후의 데이터 통합에서도 재조합 문제에 직면해야 한다는 것입니다.
소스 부착 모델링 방법: 기본적으로 소스 시스템을 유지하는 방식으로 모델링을 수행하며, 데이터의 표준화 및 일관성에 중점을 두고 데이터의 비즈니스 중요성을 분류합니다. 이 접근 방식은 현재의 데이터 웨어하우스 접근 방식과 유사합니다. 구현이 상대적으로 쉽고 빠르며 프런트 엔드에서 데이터를 직접 사용할 수 있다는 단점은 통합 정도가 높지 않고 모델이 불안정하다는 것입니다.
결국, 모델은 데이터 분석 애플리케이션을 제공하며, 사용되는 구체적인 모델링 방법은 실제 비즈니스 특성과 소스 시스템의 특성을 기반으로 결정되어야 합니다. Alibaba의 소스 시스템은 빠르게 변화하며, 데이터 분석은 빠르게 변화하고 신속하게 대응해야 합니다. 더욱이 서로 다른 시스템 간의 통합에 대한 우리의 요구는 크지 않습니다. 따라서 개인적으로 현재로서는 소스를 게시하는 방식이 더 나은 해결책이라고 생각합니다.
이 기사는 CSDN 블로그에서 가져온 것입니다. 재인쇄할 때 출처를 표시하십시오: http://blog.csdn.net/wsbupt/archive/2009/12/30/5109309.aspx
-