Главная
страница 1страница 2страница 3страница 4 ... страница 11страница 12

1.2 Хранилища данных


Причина использования OLAP — это скорость. Реляционные БД хранят сущности в отдельных таблицах, которые обычно хорошо нормализованы. Эта структура удобна для операционных БД (системы OLTP), но сложные многотабличные запросы в ней выполняются относительно медленно. Более хорошей моделью для запросов, а не для изменения, является пространственная (часто называемая многомерной) БД [7].

Представим себе ситуацию, что в какой-то момент времени с OLTP-системой работают 1000 пользователей и один из них захотел построить сводный отчёт за относительно большой временной период. Запрос на построение такого рода отчётов, содержащий множество соединений таблиц, выполняется долго и во время выполнения блокирует остальных пользователей. Поэтому проектные решения современных информационно-аналитических систем основываются не на одной базе данных, а на нескольких: в одной из них хранятся неизменяемые данные - такая БД называется хранилищем данных (ХД), а в остальных – данные, которые со временем могут измениться (оперативные данные) (рис. 1.1). Неизменяемые данные обычно используются для долговременного хранения статистической информации. Поэтому когда пользователь захочет построить сводный отчёт за большой временной период, то данные для этого отчёта будут приходить именно из хранилища данных и, соответственно, выполняющийся запрос не будет блокировать остальных пользователей.



e:\magister\поток данных в хд.png

Рис.1.1 Источники информации для хранилищ данных

Данные в хранилище данных могут поступать не только из операционных баз данных, но и из других источников, таких как XML-документы, Excel-таблицы и прочих текстовых документов. Данные загружаются в хранилище с определённой периодичностью (например, еженедельно, ежедневно или ежечасно — в зависимости от потребностей), поэтому актуальность данных несколько отстает от OLTP-систем.

Таким образом, OLAP используется данные, находящиеся не в операционных БД, а в хранилищах данных.

Задача хранилища - предоставить "сырье" для анализа в одном месте и в простой, понятной структуре [1].

Автором концепции хранилищ данных является Б. Инмон [9], который определил хранилища данных как: "предметно-ориентированные, интегрированные, неизменчивые, поддерживающие хронологию наборы данных, организованные для целей поддержки управления", призванные выступать в роли "единого и единственного источника истины", обеспечивающего менеджеров и аналитиков достоверной информацией, необходимой для оперативного анализа и принятия решений.

В основе концепции хранилищ данных лежат две основополагающие идеи [1]:


  • Интеграция ранее разъединенных детализированных данных в едином хранилище данных, их согласование и, возможно, агрегация:

    • исторических архивов;

    • данных из традиционных систем обработки данных;

    • данных из внешних источников.

  • Разделение наборов данных, используемых для операционной обработки, и наборов данных, применяемых для решения задач анализа.

Цель концепции хранилищ данных - выяснить требования к данным, помещаемым в целевую БД хранилища данных (см. табл. 1.2), определить общие принципы и этапы ее построения, основные источники данных, дать рекомендации по решению потенциальных проблем, возникающих при их выгрузке, очистке, согласовании, транспортировке и загрузке в целевую БД [9].

Таблица 1.2. Основные требования к данным в хранилище данных.



Требование

Комментарий

Предметная ориентированность

Все данные о некотором предмете (бизнес-объекте) собираются (обычно из множества различных источников), очищаются, согласовываются, дополняются, агрегируются и представляются в единой, удобной для их использования в бизнес-анализе форме.

Интегрированность

Все данные о разных бизнес-объектах взаимно согласованы и хранятся в едином общекорпоративном хранилище.

Неизменчивость

Исходные (исторические) данные, после того как они были согласованы, верифицированы и внесены в общекорпоративное хранилище, остаются неизменными и используются исключительно в режиме чтения.

Поддержка хронологии

Данные хронологически структурированы и отражают историю, за достаточный для выполнения задач бизнес-анализа и прогнозирования период времени.

Без поддержки хронологии (наличия исторических данных) нельзя говорить о решении задач прогнозирования и анализа тенденций. Но наиболее критичными и болезненными оказываются вопросы, связанные с согласованием данных.

Основным требованием аналитика является даже не столько оперативность, сколько достоверность ответа. Но достоверность, в конечном счете, определяется согласованностью данных. Пока не проведена работа по взаимному согласованию значений данных из различных источников, сложно говорить об их достоверности.

Хранилища данных бывают двух типов: корпоративные хранилища данных (enterprise data warehouses) и витрины данных (data marts) [5]. Первые содержат информацию, относящуюся ко всей корпорации и собранную из множества оперативных источников для консолидированного анализа. Обычно такие хранилища охватывают целый ряд аспектов деятельности корпорации и используются для принятия тактических и стратегических решений. Корпоративное хранилище содержит как детальную, так и суммарную информацию и в объеме может достигать от (условно) 50 Гб до одного или нескольких терабайт.

Стоимость создания и поддержки корпоративных хранилищ может быть очень высокой. Обычно их созданием занимаются централизованные отделы информационных технологий, причем создаются они сверху вниз, т.е. сначала проектируется общая схема и лишь затем заполняется данными. Построение такого хранилища может длиться несколько лет.

Витрины данных содержат подмножества корпоративных данных и строятся для отделов или подразделений внутри организации. Витрины часто строятся силами самого отдела и охватывают конкретный аспект, интересующий сотрудников данного отдела. Витрина может получать данные из корпоративного хранилища (зависимая витрина данных, dependent data mart) или, что вероятнее, данные могут поступать прямо из оперативных источников (независимая витрина данных, independent data mart).

Витрины и хранилища данных строятся по сходным принципам и используют практически одинаковые технологии. Структуры данных хранилища заметно отличаются от применяемых в OLTP-системах. Это в первую очередь определяется предметной ориентированностью хранилища: данные организованы вокруг того или иного аспекта деятельности предприятия. В следующей главе речь пойдёт о многомерной модели данных, на которой основаны хранилища данных.



<< предыдущая страница   следующая страница >>
Смотрите также:
2. Исследование предметной области разрабатываемого модуля многомерного анализа данных 35
572.04kb.
9 стр.
2. Исследование предметной области разрабатываемого модуля многомерного анализа данных 35
816.08kb.
12 стр.
Особенности анализа многомерных данных
170.74kb.
1 стр.
Отчет о лаботарорной работе методы и средства анализа данных по теме: «Система анализа данных weka»
383.87kb.
2 стр.
Диссертация посвящена вопросу оперативного многомерного анализа данных (olap) в системах поддержки принятия решений (сппр). Рассматривается класс систем, учитывающих для формирования оптимальных решений изменяемые с течением времени факторы
945.67kb.
7 стр.
12 Пример применения: оптимизация зоны обслуживания на основе векторных данных
52.42kb.
1 стр.
Формула специальности: Содержанием специальности 22. 00. 04 – «Социальная структура, социальные институты и процессы»
36.75kb.
1 стр.
Дипломная работа студента Коробкина А. А
588.33kb.
4 стр.
Отчет о лаботарорной работе по дисциплине Методы и средства анализа данных по теме: «Система анализа данных weka»
229.16kb.
1 стр.
Лабораторные работы по дисциплине "Теория экономических информационных систем"
95.98kb.
1 стр.
Исследование предметной области 11 2 Проектирование системы 24 3 Разработка системы 38
421.31kb.
1 стр.
Место теории измерений в методах анализа данных
266.06kb.
1 стр.