Главная
страница 1 ... страница 2страница 3страница 4страница 5страница 6страница 7

3.2 Выбор хранилища данных


Основное требование к хранилищу данных – это оптимизация структур данных, на которых построено хранилище, для оперативного анализа данных. Также необходимо учесть выбор OLAP-сервера – выбранный OLAP-сервер Mondrian является ROLAP-сервером, поэтому хранилище данных должно быть построено на реляционной СУБД.

Для выполнения первого требования об оптимизации структур данных было принято решение использовать схему «Звезда» для проектирования структур данных хранилища. Схема «Звезда» по сравнению со схемой «Снежинка» снижает время выполнения запросов за счет уменьшения количества таблиц, объединяемых в одном запросе.

В настоящее время на рынке производителей СУБД предлагается широкий спектр СУБД. В предложенном подходе рассматривались две СУБД – MySQL и PostgreSQL. Обе СУБД являются бесплатными. Выбор был сделан в пользу PostgreSQL, т.к. данная СУБД обладает большими функциональными возможностями по сравнению с MySQL. В частности, PostgreSQL поддерживает следующие расширения языка SQL 92:


  • хранимые процедуры;

  • триггеры;

  • правила;

  • агрегирующие функции, задаваемые пользователем;

  • встроенные языки программирования:

    • SQL;

    • PL/pgSQL;

    • PL/Tcl;

    • PL/Perl;

    • Embedded SQL в С.

  • операторы, создаваемые пользователем;

  • генераторы числовых последовательностей, задаваемые пользователем;

  • новые типы данных, задаваемые пользователем.

3.3 Выбор модуля преобразования и загрузки данных


Основные требования, предъявляемые к модулю преобразования и загрузки данных:

  • возможность загрузки в OLAP-хранилище только изменённых данных;

  • возможность преобразования данных в процессе загрузки;

  • поддержка актуальности данных в OLAP-хранилище.

Ввиду принудительного запуска выполнения процедуры загрузки данных в OLAP-хранилище модуль должен поддерживать загрузку только обновлённых данных. Структуры хранилища данных СППР отличаются от структур данных в OLAP-хранилище, поэтому для обновления данных в OLAP-хранилище необходимо применять некоторые модификации к исходным данным. Такой процесс преобразования данных называется ETL (от англ. Extract, Transform, Load — дословно «извлечение, преобразование, загрузка»), включающий в себя:

  • извлечение данных из внешних источников;

  • их трансформация и очистка (англ. Data cleansing), чтобы они соответствовали нуждам бизнес-модели;

  • и загрузка их в хранилище данных.

Необходима возможность описания ETL-процесса, а также запуска процесса по требованию.

Рассматривались следующие варианты реализации модуля:



  • реализовать собственный модуль;

  • использовать готовый открытый программный продукт Pentaho Kettle.

Выбор был сделан в пользу готового программного продукта, т.к. данный продукт полностью удовлетворяет заявленным требованиям.

Продукт Kettle оперирует такими понятиями как преобразование (transformation) и задание (job). Задание – это специально описанная в виде направленного графа последовательность преобразований данных и условий, в зависимости от которых будет выбираться направление обхода графа. Описать ETL-процесс в Kettle – означает построить направленный граф, узлами которого являются операции преобразования данных, задания и некоторые другие элементы, такие как работа с файловой системой, условиями, сценариями, электронной почтой и др.

Входными источниками данных для Kettle могут быть:


  • таблицы в БД (любого производителя);

  • таблицы Microsoft Excel;

  • текстовые и XML файлы;

  • данные, полученные из RSS-канала;

  • данные, полученные по протоколу XMLA;

  • данные, полученные по LDAP (например, учётные записи пользователей домена);

  • Kettle может заполнить входные данные псевдослучайными значениями.

В Kettle существуют готовые элементы преобразования, которые могут обновлять данные в хранилище (Lookup/update), дублировать строки/столбцы таблиц, генерировать новые идентификаторы, а также выполнять какие-либо действия на основании условий.

ETL-процесс, описанный в Kettle, может быть вызван из командной строки Kettle написан на Java и, соответственно, может работать в гетерогенной среде.


3.4 Выбор OLAP-клиента


Основные требования, предъявляемые к OLAP-клиенту:

  • возможность добавления новых кубов данных без модификации продукта;

  • выполнение всех операций над многомерными данными: срезы, детализация/обобщение, поворот и др.;

  • доступ к OLAP-серверу по унифицированному протоколу.

На сегодняшний день существует множество поставщиков OLAP-клиентов. Некоторые из них исполнены в виде настольных приложений, другие – в виде веб-приложений.

Все современные OLAP-клиенты удовлетворяют принципам аналитической обработки в реальном времени, изложенным Коддом в 1993 году (см. подразд. 1.1), а позднее дополненными в 1995 году.

У каждого клиента есть свои протоколы обмена информацией с OLAP-сервером и языки запросов к многомерным данным – в области OLAP на данный момент не существует каких-либо стандартизованных протоколов обмена информацией. Но при этом почти каждый клиент поддерживает стандарты «де факто» обмена информацией – XMLA (XML for Analysis) и языка запросов к многомерным данным фирмы Microsoft – MDX (Multidimensional Expressions).

Для выбора OLAP-клиента, удовлетворяющего заявленным требованиям, было принято решение провести сравнительный анализ наиболее известных клиентов.


3.4.1 Сравнительный анализ существующих OLAP-клиентов


В виду достаточно большого количества производителей OLAP-клиентов было принято решение рассмотреть только тех клиентов, которые исполнены в виде веб-приложений, т.к. веб-приложения в настоящий момент являются перспективой областью развития IT и в скором времени вытеснят настольные программы. Таким образом, были выбраны следующие продукты (табл. 3.3):

Таблица 3.3

Исследуемые OLAP-клиенты




Фирма-производитель

Название OLAP-клиента

1

MicroStrategy

MicroStrategy 9i

2

Cognos

PowerPlay

3

Jedox

JPalo Pivot

4

Pentaho

JPivot

Для исследования возможностей и сравнения OLAP-клиентов необходимо определить критерии, по которым данные продукты можно сравнивать. Выбор критериев сравнения клиентов происходил на основании требований, предъявляемых к OLAP-клиентам.

Были выбраны следующие критерии:



  1. Поддержка всех операций над многомерными данными: срезы, детализация/обобщение, поворот и др.

  2. Возможность фильтрации входящих данных. Аналитику бывает необходимо сравнить не все значения иерархии, а только часть (например, значения за два определённых года). Данный критерий достаточно важен при выборе OLAP-клиента.

  3. Документирование. OLAP-клиент должен иметь хорошую документацию для быстрого освоения продукта.

  4. Список поддерживаемых API и языков запросов. Необходимо, чтобы API и язык запросов, используемые клиентом, поддерживались OLAP-сервером.

  5. Цена продукта.

В ходе сравнительного анализа были получены следующие результаты:

Таблица 3.4



Сравнительный анализ OLAP-клиентов

Критерий/OLAP-клиент

MicroStrategy

PowerPlay

JPalo Pivot

JPivot

Поддержка всех операций над многомерными данными

+

+

+

+

Возможность фильтрации входящих данных

+

+

+

-

Подробная документированность на русском языке

+

+

-

-

Поддержка XMLA и MDX

+

+

+

+

Цена продукта

1000$

1000$

беспл.

беспл.

Таким образом, можно сделать следующие выводы:

  • все рассматриваемые продукты полностью соответствуют принципам аналитической обработки в реальном времени, изложенным Коддом, и тесту FASMI (см. подразд. 1.1);

  • платные продукты полностью удовлетворяют всем заявленным критериям;

  • платные продукты очень подробно документированы (на русском языке);

  • все рассматриваемые продукты поддерживают спецификацию XMLA и язык запросов к многомерным данным - MDX;

  • в отличие от JPivot, в котором относительно плохо реализована фильтрация входящих данных, JPalo Pivot поддерживает эту функциональность на уровне платных продуктов;

Для предлагаемого подхода было принято решение использовать OLAP-клиент JPalo Pivot, исходя из следующих соображений:

  • Стоимость - клиент JPalo Pivot абсолютно бесплатен.

  • Возможности по фильтрации входящих данных в JPalo Pivot гораздо шире, чем у JPivot.

  • Графический интерфейс у JPalo Pivot удобнее, чем у JPivot.



<< предыдущая страница   следующая страница >>
Смотрите также:
Диссертация посвящена вопросу оперативного многомерного анализа данных (olap) в системах поддержки принятия решений (сппр). Рассматривается класс систем, учитывающих для формирования оптимальных решений изменяемые с течением времени факторы
945.67kb.
7 стр.
«модели представления времени и их применение в интеллектуальных системах»
44.04kb.
1 стр.
На выполнение работ по созданию информационной системы поддержки оперативного принятия решений на основе цифровых ситуационных карт шельфовых проектов
115.71kb.
1 стр.
Программа «Методы анализа и синтеза проектных решений»
26.32kb.
1 стр.
Трехуровневая модель планирования и принятия решений
586.19kb.
5 стр.
Представленная Соколовой Татьяной Петровной диссертация
28.8kb.
1 стр.
Разработка программных средств для интерактивного анализа публикаций на основе olap-технологии
27.73kb.
1 стр.
Теоретические особенности принятия управленческого решения 2 1 Роль и место принятия решений в процессе управления 2
441.69kb.
2 стр.
Маркетинговые информационные системы
187.16kb.
1 стр.
Перспективы создания информационной системы поддержки принятия решений абитуриентами Г. И. Болтунов, А. Л. Лымарь
30.16kb.
1 стр.
Технология принятия управленческих решений
1188.33kb.
7 стр.
Лабораторная работа №5 «Анализ оптимального решения в условиях риска и неопределенности» Задание на лабораторную работу
253.42kb.
1 стр.