На прошлой неделе мы долго обсуждали направления моделирования хранилищ данных, пытаясь найти методологию моделирования, подходящую для разработки платформы хранилищ данных Alibaba. Двумя типичными теориями моделирования хранилищ данных являются многомерное моделирование и моделирование отношений сущностей на основе предметных областей. Эти два метода представлены двумя мастерами Кимбаллом и Иммоном соответственно. Многомерное моделирование обусловлено потребностями анализа данных и поддерживает шинную архитектуру: согласованные факты и согласованные измерения. Эта модель данных проста для понимания и использования пользователями для анализа данных. Моделирование отношений сущностей на основе предметной области основано на данных исходной системы, объединяет все данные предприятия, абстрагирует и интегрирует данные с уровня предприятия и использует моделирование теории отношений сущностей 3NF. Этот метод моделирования данных использует более абстрактный подход. создать относительно стабильную модель данных и описать взаимосвязи данных на уровне предприятия. В отрасли эти два метода часто комбинируются для использования разных иерархий данных в хранилищах данных.
На прошлой неделе мы в основном подробно обсуждали метод интеграции данных при моделировании отношений сущностей на основе предметных областей и обсуждали следующие три идеи:
Атрибуты разных сущностей в одной предметной области в форме агрегации атрибутов. Например, для сущностных объектов, таких как участники, компании, клиенты и т. д., у всех нас есть информация об атрибутах адреса, информация об атрибутах идентификации имени и т. д. Эта идея состоит в том, чтобы объединить поля с высокой связностью атрибутов и пометить различные атрибуты идентификатором типа «Сохранено». в виде древовидной таблицы. Его преимущества: во-первых, модель стабильна, и если периферийная система меняет поля, ей нужно только добавлять разные типы без изменения структуры таблицы, во-вторых, это уменьшает большой объем избыточных исторических данных; Его недостатки: во-первых, он теряет много идентификационной информации атрибутов сущностей. Мы не сможем увидеть, какие атрибуты адреса имеет элемент из модели. Эту информацию можно получить только путем запроса кода типа; чрезвычайно расширяется количество записей в таблице данных, поскольку она хранится в виде вертикальной таблицы, в-третьих, ее сложно применять, а эффективность является большой проблемой, поскольку нам часто приходится использовать несколько полей сущности; и будет много операций соединения и вертикальной операции поворота по горизонтали. Четвертое: Агрегация атрибутов также является относительно сложным процессом, поскольку это абстрактный процесс, который предъявляет высокие требования к базовым бизнес-знаниям и возможностям абстракции разработчика модели. Пятое: хотя избыточность уменьшена. Он записывает исторические данные, но выполняет операцию записи истории; также является более сложным.
Используйте объектно-ориентированное моделирование, чтобы абстрагировать общие атрибуты различных сущностей, а затем используйте объектно-ориентированные идеи, такие как наследование и комбинирование, для пошаговой конкретизации сущностей. Его преимуществом является то, что концепция модели относительно ясна, а недостатком является то, что модель относительно нестабильна, и последующая интеграция данных также должна столкнуться с проблемой рекомбинации.
Метод моделирования с привязкой к источнику: моделирование осуществляется таким образом, чтобы в основном поддерживать исходную систему, уделяя особое внимание стандартизации и согласованности данных, а также определяя деловую значимость данных. Этот подход аналогичен нашему текущему подходу к хранилищу данных. Его относительно легко и быстро реализовать, а внешний интерфейс может напрямую использовать данные; недостатком является невысокая степень интеграции и нестабильность модели.
В конце концов, модель служит приложениям для анализа данных. Конкретный используемый метод моделирования необходимо определять на основе фактических характеристик бизнеса и характеристик исходной системы. Исходная система Alibaba быстро меняется, а анализ данных должен быстро меняться и быстро реагировать. Кроме того, наша потребность в интеграции между различными системами невелика. Глубокая интеграция данных часто приводит к появлению приложений, с которыми неудобно работать. Поэтому я лично считаю, что метод размещения источника является лучшим решением в настоящее время.
Эта статья взята из блога CSDN. При перепечатке указывайте источник: http://blog.csdn.net/wsbupt/archive/2009/12/30/5109309.aspx.
-