Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Методика проектирования интегрированных программных систем многомерного анализа данных Ровкин Игорь Олегович

Методика проектирования интегрированных программных систем многомерного анализа данных
<
Методика проектирования интегрированных программных систем многомерного анализа данных Методика проектирования интегрированных программных систем многомерного анализа данных Методика проектирования интегрированных программных систем многомерного анализа данных Методика проектирования интегрированных программных систем многомерного анализа данных Методика проектирования интегрированных программных систем многомерного анализа данных Методика проектирования интегрированных программных систем многомерного анализа данных Методика проектирования интегрированных программных систем многомерного анализа данных Методика проектирования интегрированных программных систем многомерного анализа данных Методика проектирования интегрированных программных систем многомерного анализа данных Методика проектирования интегрированных программных систем многомерного анализа данных Методика проектирования интегрированных программных систем многомерного анализа данных Методика проектирования интегрированных программных систем многомерного анализа данных
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Ровкин Игорь Олегович. Методика проектирования интегрированных программных систем многомерного анализа данных : диссертация ... кандидата технических наук : 05.13.11 Москва, 2007 114 с., Библиогр.: с. 111-114 РГБ ОД, 61:07-5/4474

Содержание к диссертации

Введение

Глава 1. Характеристика особенностей и проблем многомерного анализа данных 6

1.1. Бизнес-интеллект и СППР 6

1.2. OLTP и анализ данных на основе транзакционных систем 9

1.3. Подготовка данных для анализа и хранилища данных 10

1.4. Аналитические средства 16

1.5. Этапы развития многомерного анализа данных 18

1.6. Функциональность OLAP-систем 23

1.7. Классификация OLAP-систем по способам хранения детальных и консолидированных данных 25

1.8. Проблемы исследования технологии OLAP-анализа, ориентированной на малый и средний иизнес 29

Глава 2. Методология интегрированного подхода к построению аналитических OLAP-систем 37

2.1. Классификация аналитических OLAP-систем по степени интеграции компонентных технологии 39

2.2. Основные требования к интегрированным OLAP-системам и выбор инструментальной среды для построения интегрированных аналитических систем 44

2.3. Метод интеграции компонентных технологий OLAP на основе универсальных фреймовых структур 46

2.4. Функциональные возможности языка программирования для разработки интегрированных OLAP-систем 49

2.5. Интеграция на основе встроенных внутренних и внешних Интерфейсов 50

2.6. Этапы проектирования интегрированной OLAP-системы 52

2.6.1. Формирование источников данных 52

2.6.2. Подготовка данных для многомерной обработки 54

2.6.3. Создание гиперкубовой структуры 55

2.6.4. Вывод результатов многомерного анализа данных 57

Глава 3. Исследование фундаментальных проблем многомерного OLAP-анализа 60

3.1. Анализ свойств неопределенности вывода решений гиперкуба 60

3.1.1. Базовые свойства многомерной модели данных 60

3.1.2. Исследование свойств неопределенности вывода решений с помощью гиперкубовых структур 61

3.2. Анализ влияния «взрывного» роста объема данных на производительность и масштабируемость гиперкубовых структур 64

3.2.1. Стратегии повышения производительности и масштабируемости хранилищ данных 65

3.2.1.1. ILM-стратегия повышения производительности и масштабируемости хранилищ данных 65

3.2.1.2. Стратегия секционирования таблиц и индексов хранилища 66

3.2.1.3. Стратегия параллельного исполнения запросов 68

3.2.2. Анализ свойств декомпозируемости гиперкубовых структур...70

3.2.2.1. Аддитивная декомпозиция гиперкуба многомерных данных 70

3.2.2.2. Неаддитивная декомпозиция гиперкуба многомерных данных 71

3.2.3 Сравнительный анализ стратегий повышения производительности и масштабируемости OLAP-систем 73

3.3. Метод аддитивной декомпозиции гиперкубов в условиях неаддитивного индексирования данных 78

3.3.1. Анализ условий индексирования для аддитивной декомпозиции гиперкубовой структуры 78

Глава 4. Комплекс алгоритмов и программ интегрированной olap-системы для предприятий торговли в сфере малого и среднего бизнеса 86

4.1. Типовые бизнес-процессы в подсистеме сбыта промышленно-торгового комплекса 86

4.2. Программные модули OLAP-системы для решения задач прецизионного сегментирования клиентской базы 89

4.3. Поддержка принятия решений по обеспечению равномерности отгрузок товара заказчикам 102

4.4. Показатели эффекта от применения разработанной информационно-аналитической системы 107

4.5. Внедрение интегрированных OLAP-решений 107

Заключение 109

Литература 111

Введение к работе

Актуальность работы

Повсеместное распространение компьютеров на производстве, в науке, бизнесе, образовании, быстрое увеличение числа информационных систем масштаба предприятия во всем мире, широкий охват компьютерными средствами автоматизации самых разнообразных технологий, отраслевых комплексов, финансовых структур, международных корпораций, предприятий малого, среднего и крупного бизнеса - все это привело к накоплению, хранению и обработке огромных объемов информации, от оперативности и качества анализа которой во многом стала зависеть выживаемость компаний в условиях острой рыночной конкуренции

Характерно, что большие и быстро растущие объемы информации пополняются главным образом за счет «сырых» и необработанных данных, из которых трудно извлечь полезную информацию при отсутствии современных аналитических программных средств, способных работать с большими объемами данных и извлекать из них ценные знания, помогающиг принимать важные решения управленческого характера Поэтому проблема эффективного извлечения знаний из быстро накапливающихся массивов необработанных данных становится все более актуальной по мере роста объемов информации, используемой предприятиями в компьютерном виде

Повышение вычислительной мощности компьютеров способствует ускорению обработки больших объемов данных, но этого недостаточно для извлечения знаний, поскольку знания как более сложный вид информации получают с помощью специальных интеллектуальных методов обработки данных, имитирующих процессы мышления человека В настоящее время важным новым и перспективным направлением в интеллектуальном извлечении знаний из данных является многомерный OLAP-анализ (аббревиатура по названию On-Line Analytical Processing переводится как многомерный оперативный анализ данных), который базируется на интеллектуальном процессе обобщения детализированных данных и позволяет получать знания из консолидированных по разным аспектам анализа взаимосвязанных фрагментов информации Благодаря такой интеллектуальной особенности OLAP-анализ получил в последние годы широкое распространение в практических приложениях, так как он дает возможность аналитикам и менеджерам легко работать с огромными объемами исходных данных, переводя их в очень сжатую, наглядную и синтезированную форму, по существу, в форму извлеченных из данных знаний

Однако, с позиций построения систем OLAP-анализа, интеллектуализация методов анализа, к сожалению, сопровождается усложнением моделей, алгоритмов, программ и разрабатываемых аналитических систем, что несомненно отражается на стоимости программных продуктов и затратах, связанных с их внедрением и эксплуатацией Поэтому в полной мере воспользоваться преимуществами OLAP-анализа пока могут только компании крупного бизнеса, обладающие необходимыми ресурсами для поддержки подобных усложненных и дорогих аналитических решений, способных работать с терабайтными базами и хранилищами данных Более широкое распространение этой перспективной информационной технологии на сектор малого и среднего бизнеса сдерживается из-за отсутствия недорогих, компактных и высокоэффективных аналитических систем на основе технологии OLAP, ориентированных на небольшие предприятия с ограниченными объемами баз данных, для которых первостепенное значение имеют простота и удобство работы с интеллектуальными процессами обработки данных, а не необходимость углубляться в специфику технологии работы со сверхбольшими объемами данных

Из сказанного выше следует, что на современном этапе развития OLAP-анализа актуальна проблема исследования методологии построения систем многомерного анализа данных для сектора малого и среднего бизнеса, а также создание новых подходов к интеллектуальной обработке данных на основе OLAP-технологии с учетом специфики задач, решаемых в малом бизнесе

Цель диссертационной работы

Основной целью диссертационной работы является формирование и исследование методологии построения компактных интегрированных систем многомерного OLAP-анализа, ориентированных на малый и средний бизнес, а также разработка комплекса алгоритмов и программ для реализации интегрированного подхода к OLAP-технологии и решения задач интеллектуальной обработки данных в условиях действия ограничений, характерных для малого бизнеса

Для достижения этой цели в работе решены следующие задачи

  1. Выполнен анализ существующих методологий и методов построения аналитических систем многомерной обработки данных

  2. Предложена новая классификация систем многомерного OLAP-аналша по степени интегрированности компонентных технологий

  3. Разработаны концепция и принципы интегрированного подхода к построению архитектуры OLAP-систем.

  4. Сформирована и исследована методология построения компактных интегрированных систем многомерного OLAP-анализа, ориентированных на малый и средний бизнес

  5. Исследованы фундаментальные свойства многомерных моделей данных в виде гиперкубовых структур и проблемы теоретического и прикладного характера, возникающие в многомерном анализе в связи с реализацией интегрированного подхода

  6. Проведен анализ и выбор инструментальной среды для разработки интегрированных OLAP-систем

  7. Разработан комплекс методов, алгоритмов и программ для решения типовых задач многомерного анализа данных и поддержки принятия решений в компаниях малого и среднего бизнеса

  8. На основе полученных в диссертации теоретических результатов разработана практическая OLAP-система, которая внедрена в оптовых торгово-производственных компаниях, бизнес деятельность которых связана с реализацией металлопродукции и продукции пищевой промышленности.

Методы исследования

В диссертационной работе использованы методы системного анализа, информатики, теории принятия решений, математической логики, теории множеств, многомерного анализа данных, теории представления знаний

Результаты, выносимые на защиту

  1. Классификация OLAP-технологии по степени интегрированности компонентных решений

  2. Концепция интегрированного подхода к созданию систем многомерного анализа данных и модель интегрированной архитектуры систем OLAP-анализа

  3. Методология построения интегрированных OLAP-систем в условиях действия ограничений, свойственных предприятиям малого и среднего бизнеса

  4. Доказательство существования логического вывода решений для разреженных гиперкубовых структур

  5. Методы аддитивной и неаддитивной декомпозиции гиперкубовых структур для повышения производительности и масштабируемости OLAP-систем и решения проблемы «взрывного» роста объемов данных

  6. Метод и алгоритм нелинейного агрегирования данных декомпозированных гиперкубов в условиях пересечения индексов

  7. Программная реализация предложенных методов и алгоритмов

  8. Результаты внедрения разработанных в диссертации интегрированных OLAP-систем в малом и среднем бизнесе

Научная новизна работы

В диссертации получены следующие новые научные результаты

  1. Предложена новая классификация OLAP-технологии, учитывающая степень взаимодействия основных компонентов многослойной структуры аналитической системы

  2. Обоснован принцип интеграции системы многослойного OLAP-анализа на базе интегрированной инструментальной среды разработки приложений, обеспечивающий гибкую сбалансированность OLAP-решений и возможность построения компактных, недорогих и эффективных в функциональном отношении систем многомерного анализа данных

  3. Сформирована методология синтеза интегрированных OLAP-систем на основе

универсальной модели OLAP-объектов фреймового типа,

многофункционального языка программирования и разработки приложений,

встроенных внутренних и внешних интерфейсов

  1. Введена мера неопределенности логического вывода решений гиперкубовой структурой, получены необходимые и достаточные условия уменьшения неопределенности логического вывода в условиях разреженных гиперкубов, произвольного числа размерностей и градаций шкал размерностей

  2. Обоснована возможность решения специфической проблемы «взрывного» роста объемов данных в OLAP-системах с помощью методов декомпозиции гиперкубовых структур Получены необходимые и достаточные условия успешности декомпозиции гиперкубов

  3. Исследована проблема нарушения целостности агрегирования данных в декомпозированном гиперкубе в результате действия нерегламентированных запросов и предложен эффективный метод решения этой проблемы

  4. Построена компактная высокоэффективная интегрированная OLAP-система для оптовых торгово-производственных компаний в сфере малого и среднего бизнеса

Практическая ценность работы

Теоретические выводы и результаты диссертационной работы реализованы в виде программной системы многомерного OLAP-анализа, с помощью которой менеджеры, финансисты, трейдеры, аналитики компаний малого и среднего бизнеса могут извлекать необходимые знания из больших массивов накапливаемой в базах данных детализированной и слабоструктурированной информации в целях поддержки принятия решений по повышению эффективности и конкурентоспособности бизнеса компаний

На основе разработанной в диссертации методологии построения интегрированных OLAP-систем создан комплекс алгоритмов и программ для многомерного анализа типовых бизнес процессов, осуществляемых оптовыми торгово-производственными предприятиями малого и среднего бизнеса Созданные компактнье интегрированные OLAP-системы предназначены для широкого класса торгово-производственных компаний разной отраслевой направленности, а эффективность, обоснованность и корректность предлагаемых OLAP-решений и разработанных систем подтверждена результатами внедрения в компании по производству и реализации металлопродукции ООО «Металлик и КО» г Одинцово, Московской области и ряде компаний по переработке и реализации пищевых продуктов (2005-2007 годы)

Теоретические и прикладные результаты диссертации внедрены в учебный курс «Многомерный анализ данных и проектирование аналитических систем» и практические занятия на факультете Информационных технологий Университета Н Нестеровой (2006-2007 годы)

Реализация результатов

Результаты диссертации использованы при выполнении проекта 2 44 Программы фундаментальных исследований Президиума РАН «Математическое моделирование и интеллектуальные системы» (2001-2005 годы), проектов 01-04-00386, 01-07-00572 Российского фонда фундаментальных исследований (2004-2007 годы)

Апробация работы

Результаты диссертации и материалы исследований докладывались и обсуждались на 1-й международной конференции «Системный анализ и информационные технологии (САИТ-2005), Переславль-Залесский, 12-16 сентября 2005 г, 10-й научно-технической конференцій Московской государственной академии приборостроения и информатики, апрель 2007 г, г Москва, 2-й международной конференции «Системный анализ и информационные технологии (САИТ-2007), г Обнинск, Калужской обл, 10-14 сентября 2007 г, на Научной сессии Отделения информационных технологий и вычислительных систем РАН 20 июня 2007 г

Публикации

По материалам диссертации опубликовано б работ (в том числе 3 публикации в ведущих рецензируемых научных изданиях, рекомендованных ВАК, 2 публикации в трудах международных конференций)

Личный вклад соискателя

Результаты, выносимые на защиту, получены автором самостоятельно Личный вклад соискателя в совместно опубликованных работах составляет 1 8 п л

Структура и объем работы

Диссертация состоит из введения, четырех глав, заключения, списка литературы (68 наименований) Общий объем работы составляет 115 стр , включая 13 таблиц и 50 рисунков

OLTP и анализ данных на основе транзакционных систем

Режим оперативной обработки транзакций OLTP (On-Line Transaction Processing) [13,16, 22 ] применяется в информационных системах организационного управления для отражения актуального состояния предметной области в любой момент времени.

Информационные системы класса OLTP предназначены для сбора, регистрации, ввода исходных данных, относящихся к той или иной предметной области, первичной обработки данных, их хранения, адекватной визуализации, поиска, выдачи справок и отчетных материалов. Первичная обработка включает проверку корректности вводимых данных и их соответствия ограничениям целостности, идентификацию описываемых данными объектов, кодирование, передачу данных по горизонтальным и вертикальным связям

Подобные системы обеспечивают ввод, структурированное хранение и обработку информации в режиме реального времени. OLTP-системы позволяют сформулировать запросы типа: сколько, где и т.п. Предоставляя данные из постоянно синхронизируемых (обновляемых) БД, операционные системы не отслеживают динамику изменения процессов на больших временных промежутках, практически не производят аналитическую обработку данных (за исключением определенных расчетов) и, что самое важное, не формируют выводы по имеющимся данным, оставляя эту функцию лицу, принимающему решение. Обычно аналитические возможности OLTP-систем сильно ограничены, они используются для того, чтобы способствовать повседневной деятельности корпорации, опираясь на актуальные для текущего момента данные.

Основная функция OLTP-систем заключается в одновременном выполнении большого количества коротких транзакций от большого числа пользователей. Сами транзакции выглядят относительно просто, например, «снять сумму денег со счета А, добавить эту сумму на счет В».

OLTP-приложениями охватывается широкий спектр задач во многих отраслях -автоматизация бухгалтерского, складского учета, управление потоками документов и т.п. Информационные системы класса OLTP характеризуются следующими особенностями: относительной алгоритмической простотой выполняемых операций; высокой динамикой обработки входных документов, что связано с непосредственной близостью этих систем к предметной области; массовостью и территориальной распределенностью мест сбора исходных данных; высокими требованиями к достоверности и актуальности вводимых данных; низкими требованиями к компьютерной квалификации пользователей при высокой квалификации персонала поддержки и обслуживания систем; поддержкой большого числа пользователей; малым временем отклика на запрос; стандартным режимом работы с относительно короткими запросами к небольшому числу таблиц; регламентированным характером запросов; трудоемким программированием сложных аналитических задач. Исторически OLTP-системы возникли в первую очередь, поскольку они реализовывали потребности в учете, скорости обслуживания, сборе данных и пр. Однако вскоре пришло понимание, что сбор данных - не самоцель и накопленные данные могут быть полезны: из данных можно извлечь информацию и знания. В 1990-е годы были сделаны попытки наделить OLTP-системы сложной аналитикой, однако большого успеха добиться не удалось из-за строгой ориентации таких систем на обработку транзакций и существенного недостатка, связанного с трудоемким негибким программированием аналитических задач. Системы анализа, построенные на OLTP обработке, позволяют собрать большие массивы фактографических данных и жестко их структурировать преимущественно в табличной форме в виде так называемых «структурированных отчетов» для целей поддержки решений. Реляционные базы данных составляют главную основу аналитических систем в рамках OLTP обработки. Такие базы ориентированы на быструю запись и выборку операционной информации, например, транзакций, а аналитические задачи решаются сложней, порой требуют нарушения основных принципов нормализации, соблюдаемых в реляционных базах, и анализ приводит к трудоемкому дополнительному программированию. Причем значительные затраты на программирование задач анализа в OLTP системах в полной мере не оправдываются, так как не позволяют оперативно перестраивать процедуру анализа к перекладывают на человека основную нагрузку по превращению «сырых» данных в полезную для процесса решений информацию.

Неудачный по существу опыт встраивания аналитики в OLTP обработку сделал очевидной необходимость отделить аналитическую обработку от транзакционной или операционной обработки. Так возникло новое направление - создание хранилищ данных, в котором была реализована идея разделения аналитической и операционной информации с целью поддержки процессов принятия решений.

Ключевым фактором рыночного успеха в сегодняшних условиях высокой конкуренции становится оперативное принятие эффективных деловых решений. Однако естественное стремление многих организаций усовершенствовать свои процессы принятия решений может натолкнуться на труднопреодолимое препятствие - огромный объем и высокая сложность данных, содержащихся в разнообразных оперативных и производственных системах этих организаций. Сделать такую информацию доступной более широкому кругу бизнес-пользователей - вот одна из наиболее серьезных проблем, стоящих сегодня перед профессионалами в области информационных технологий.

Для решения этой задачи избирают путь построения хранилища данных (data warehouse) [60], позволяющего «высвободить» информацию из жестких рамок оперативных систем и лучше осознать проблемы реального бизнеса. Хранилище данных -это интегрированный накопитель информации, собранной из других систем, на основе которого строятся процессы принятия решений и анализа данных.

Начало развития этого направления относится к 1988 году, когда появились первые статьи, посвященные хранилищам данных, авторов Девлин и Мэрфи (США). Однако, родоначальником направления считают Билла Инмона [44, 45], технического директора компании Prism Solutions, который представил концепцию хранилищ данных в 1992 г. в книге «Построение хранилищ данных».

Основные требования к интегрированным OLAP-системам и выбор инструментальной среды для построения интегрированных аналитических систем

Интегрированная OLAP-система должна удовлетворять стандартным требованиям, относящимся к созданию гиперкубовой структуры (многомерная модель данных, выбор размерностей и измерений, агрегирование и детализация данных и т.д. в соответствии с требованиями тестов Э.Кодда и FASMI - см. раздел 1.4), а также ряду дополнительных требований, которые обусловлены тем, что OLAP функционал в таких системах расширен в результате включения в него средств создания баз данных, хранилищ данных, витрин данных, генераторов отчетов и средств быстрой разработки/отладки приложений. К дополнительным требованиям относятся: легкость создания и репликации баз данных; «прозрачность» иерархии хранилища и всей структуры аналитической системы для разработчиков и пользователей; «бесшовные» переходы между гиперкубовой структурой, витринами и хранилищами данных, системами обработки и вывода отчетов; сочетание в языке программирования OLAP-системы функций аналитической обработки данных и функций быстрой разработки прикладных задач; наличие семантических слоев в структуре системы для автоматической трансляции запросов непрограммирующих пользователей в синтаксические конструкции универсального языка запросов SQL; невысокая стоимость создания системы в расчете на одно пользовательское рабочее место, позволяющая малому и среднему бизнесу в полной мере ощутить преимущества современной OLAP-технологаи. При выборе инструментальных средств важно учитывать как основные, так и дополнительные требования, а также возможность обеспечить с помощью выбранного инструмента создание различных моделей представления данных, включая реляционные и многомерные; применение универсальных языковых средств программирования с функциями как языка запросов, так и процедурного языка; использование встроенных интерфейсных средств взаимосвязи основных компонентных технологий. Для выбора инструментальной среды проведен сравнительный анализ четырех интегрированных платформ и применяемой в них техники интеграции: Cognos Power Play компании Cognos, Business Objects компании Business Objects, Brio Query компании Brio Technology, Clever Path Forest&Trees компании Computer Associates. Результаты сравнения кратко представлены ниже. COGNOS POWER PLAY Мощное интегрированное средство разработки аналитических систем в виде универсального сервера приложений и клиентских служб - клиент Windows, клиент WEB и клиент EXCEL - с открытой архитектурой для подключения к другим OLAP-системам, например, Microsoft OLAP Services, SAP BW, Hyperion Essbase, IBM OLAP for DB2. В качестве платформы для интеграции используется специальный механизм трансформации (transformation engine) Transformer, с помощью которого создаются кубы и осуществляется многомерный анализ данных, получаемых из разных реляционных баз и хранилищ. Встроенные интерфейсы для интеграции компонентных технологий базируются на стандартах API с открытым кодом, что позволяет развивать структуру анализа и моделирования на основе многомерной модели данных. Power Play имеет дополнительные механизмы повышения производительности программных средств, благодаря чему обеспечивается работа с большими объемами данных. Существенными препятствиями для применения продукта компании COGNOS в малом бизнесе являются высокая стоимость программных средств и сложные процессы разработки и сопровождения систем. BUSINESS OBJECTS Интегрированное средство разработки, ориентированное на создание программных средств бизнес-интеллекта и покрывающее не только многомерный анализ данных, но и другие задачи интеллектуальной обработки данных, включая Data Mining. Интеграция компонентных технологий в Business Objects осуществляется с помощью специального семантического слоя, который отображает физические модели данных в бизнес-модели. Бизнес-модели трактуются на привычном пользователю языке предметной области. Часть семантического слоя определена как Universe - в виде словарной системы, объекты которой позволяют строить запросы к источникам данных. Результаты запросов представляют данные в многомерном виде и отображают их в табличных и графических формах. Основные аналитические задачи поддержаны программными движками, ускоряющими работу системы. Технология генерации отчетов базируется па решениях Crystal Reports. К недостаткам программных продуктов Business Objects применительно к малому бизнесу относятся - необходимость иметь высококвалифицированную команду специалистов для реализации и поддержки семантического слоя преобразования моделей и данных, комплексный охват достаточно разнородных задач управления в масштабе предприятия (например, управление информационным обеспечением, управление организационными стратегиями), достаточно высокая стоимость программных средств. BRIO QUERY Интегрированное среда разработки, ориентированная на создание аналитических систем с возможностями ROLAP и MOLAP структур. Среда разработки представляет собой модульную структуру, объединяющую набор модулей, названных секциями (Sections). Каждая секция реализует определенную функцию. Все секции разделены на два класса - реляционные секции и многомерные секции. Реляционные секции служат для построения ROLAP структур и включают следующие секции: документ Brio Query файл соединения таблиц запрос результирующая таблица поворот осей размерностей диаграмма отчет Для построения MOLAP структуры имеется секция «Многомерный OLAP запрос» и механизм поддержки многомерного анализа Outliner. Недостатками данного продукта, с точки зрения малого бизнеса, являются -жесткая структура модулей, не позволяющая развивать аналитическую систему путем добавления новых секций; модуль OLAP существенно ограничивает возможности одновременной манипуляции иерархиями размерностей и фильтрами; затруднена отладка приложений в условиях «непрозрачной» структуры системы.

Анализ влияния «взрывного» роста объема данных на производительность и масштабируемость гиперкубовых структур

В последние десятилетия во всем мире происходит стремительное увеличение объемов баз данных и хранилищ данных. Ежегодно объемы хранимой и обрабатываемой информации удваиваются. Так, в Северной Америке более 30% хранилищ данных превышают по своим размерам терабайтные объемы [25]. При этом хранилища данных и OLAP системы получают все большее распространение, поскольку благодаря им стало возможным быстрое развитие программных средств бизнес-интеллекта, обеспечивающих аналитическую обработку огромных объемов бизнес-информации в целях поддержки принятия стратегических и оперативных решений по совершенствованию деятельности и повышению конкурентоспособности фирм и корпораций. Увеличение объемов хранилищ данных всегда означает снижение производительности обработки запросов пользователей и увеличение времени реакции системы на запросы. Этот эффект объясняется преимущественно переборным характером обработки данных в базах и хранилищах. Понятно, что по мере увеличения объемов обрабатываемых таблиц хранилища, процедуры перебора строк таблиц становятся все более громоздкими и требуют больше времени. Без принятия специальных мер, с ростом объемов данных страдает не только производительность, но и масштабируемость хранилища. В конечном счете, любая база или хранилище данных накладывают определенные ограничения на допустимый объем памяти, выделяемый на каждую реляционную таблицу или представление. С ростом хранилища часть таблиц может достигать заданных критических пределов, в результате чего возможность дальнейшего масштабирования системы нарушается. Эта проблема весьма актуальна для хранилищ данных и OLAP систем, так как хранилища включают в свой состав таблицы двух типов: таблицы размерностей и таблицы фактов. Если таблицы размерностей характеризуются небольшими объемами данных, то таблицы фактов, которые могут содержать полную историю деятельности фирмы за многие годы, достигают очень больших размеров. В современных мощных СУБД применяют различные стратегии повышения производительности обработки данных и увеличения масштабируемости по мере роста объемов баз данных [10]. Основные идеи, на которых базируются такие стратегии, сводятся к следующим способам: разделение данных на активные и пассивные, уменьшение размера таблиц в результате их секционирования, организация параллельной обработки запросов. Часто названные способы используются совместно, что позволяет добиться независимости производительности обработки данных от роста объемов обрабатываемой информации. Если хранилище данных создается в рамках мощной СУБД с современной архитектурой, то для таблиц фактов легко реализуются способы повышения производительности на основе имеющихся в СУБД механизмов. Но такие решения отличаются высокой стоимостью и сложностью эксплуатации, поэтому в широкой практике малого и среднего бизнеса хранилища и OLAP системы создаются на менее мощных платформах. В результате проблемы производительности и масштабируемости приобретают особую остроту в системах, ориентированных на анализ данных и не имеющих встроенных механизмов повышения производительности. Кроме того, при построении гиперкубов в OLAP системах простые способы декомпозиции таблицы фактов хранилища по диапазонам ключевых факторов могут противоречить основным принципам агрегирования данных, свойственных гиперкубам и определяющих важнейшие характеристики гиперкубовых структур. Далее рассмотрены проблемы повышения производительности обработки запросов в реляционных хранилищах данных и аналитических OLAP системах в условиях быстрого роста объема обрабатываемых данных и при отсутствии встроенных механизмов повышения производительности и масштабируемости систем. 3.2.1. Стратегии повышения производительности и масштабируемости хранилищ данных Реляционные базы данных и системы транзакционной обработки данных (OLTP) предназначены для текущей обработки детальных данных. С помощью таких систем фиксируется оперативная бизнес деятельность компании, при этом отдельная транзакция изменяет небольшой фрагмент базы данных, не затрагивая основной объем базы. Рост базы зависит главным образом от скорости добавления новых данных и соответствующих им новых фрагментов базы. Следовательно, за небольшие периоды времени изменению подвергается малая часть базы данных, а подавляющая ее часть остается неизменной. Этой особенностью можно воспользоваться и применить наиболее простую и очевидную стратегию повышения производительности, основанную на понятии актуальности данных. Такая стратегия получила название «Управление жизненным циклом информации» (ILM - Information Life cycle Management) [47 ]. Хранилища данных и аналитические OLAP системы предназначены для анализа и систематизации детальных данных, поэтому они могут включать полный объем детальных данных, содержащихся в базах-источниках, а также могут увеличивать объем данных в результате денормализации и дублирования части детальных данных, и, кроме того, объем данных может расти при добавлении к детальным данным агрегированной информации. Этим объясняется ускоренный рост объемов хранилищ данных по сравнению с темпом увеличения объемов исходных баз данных. Нередко для обозначения такого явления используют термин «взрывной» характер объемов хранилища данных [5, 21, 25]. Однако, если хранилище и построенная на нем аналитическая система обладают свойством декомпозируемости данных на актуальные (или активные) и пассивные, тогда ILM-стратегия вполне применима и к аналитическим системам со «взрывным» характером. хранилище ведется на основе хронологически «свежей» информации, а старые данные сохраняются в расчете на появление запросов, выходящих за рамки штатных ситуаций. Например, штатный текущий анализ может вестись ежемесячно, но в конце года анализируются все двенадцать месяцев года и проводится сравнение показателей с предыдущим годом. Поэтому в штатной ситуации необходима информация только за последний месяц, а данные предшествующих месяцев могут сохраняться в архиве и передаваться в более дешевую систему хранения. Данные за текущий месяц можно отнести к категории активных данных, а остальные - к категории пассивных. Объем активных данных значительно меньше объема пассивных данных, поэтому разделение данных по актуальности существенно повышает производительность системы и уменьшает объем данных для текущей обработки. При этом важно, что пассивные данные не удаляются из хранилища, т.е. доступ аналитиков к данным предыдущих месяцев сохраняется, но в текущей обработке эти данные не участвуют. К важным особенностям ILM-стратегии относятся: четкое представление аналитиков и администраторов хранилища о регулярности использования данных хранилища в целях выделения активной части данных, первоочередное использование критерия разделения данных по времени, удовлетворяющего большому спектру задач бизнес-анализа, использование других критериев, основанных: на статистических характеристиках запросов, хранение агрегатных данных вместе с активными данными отдельно от пассивных данных, но с возможностью доступа к пассивным данным по требованию пользователей, наличие процедур быстрого архивирования и восстановления данных, накапливаемых в пассивных разделах хранилища, создание в пассивных разделах хранилища специального слоя абстракции для метаданных в целях упрощения процессов взаимодействия с приложениями.

Программные модули OLAP-системы для решения задач прецизионного сегментирования клиентской базы

В соответствии с моделью потоков данных (рис. 4.2) разработаны следующие программные модули для многомерного анализа и сегментирования клиентской базы: модуль анализа заказов и исполнения контрактов; модуль анализа распределения складских запасов; модуль анализа текущих отгрузок товара клиентам; модуль анализа текущей оплаты за товар; модуль анализа текущей и просроченной задолженности клиентов. Результаты работы модулей иллюстрируются примерами, которые относятся к оптовой торгово-промышленной компании в области продажи и переработки пищевой продукции, имеющей свыше 5000 клиентов, номенклатуру продукции свыше 40 наименований, 10-20 ежедневно заключаемых контрактов с клиентами и поставщиками, ежемесячный оборот компании превышает $10 млн. Модуль анализа заказов и исполнения открытых контрактов

В данной задаче по бизнес-технологии после заключения контракта он приобретает статус открытого и начинается процесс его исполнения. Сегментирование клиентов и их контрактов производится по определенным периодам времени - недели, месяцы, кварталы, годы. Имеется возможность выбирать произвольный период. Для иллюстрации используется период неделя. Сегментируются клиенты, контракты которых заключены в течение рассматриваемой недели. Многомерные признаки сегментов позволяют специалисту легко определять состояние исполнения контрактов, попавших в соответствующий сегмент. Блок-диаграмма формирования гиперкуба в системе F&T представлена на рис. 4.3.

Основной запрос базируется на таблице «Контракты за период» и включает все необходимые размерности: продукты, клиенты, контракты, типы платежей, условия отпуска товара и т.д.

Результаты сегментирования представлены в Таб. 4.1. На данном этапе бизнес процесса важно знать, по каким клиентам началось исполнение заключенных контрактов, завершены ли на этой же неделе контрактные поставки, есть ли от этих клиентов оплата. Черным цветом отделены сегменты по типам продукции. Серая заливка выделяет подсегменты, по которым получена хотя бы частичная оплата. Светлые строки таблицы указывают на подсегменты, по которым оплата пока не произведена, хотя отгрузки возможно начались. Например, клиент CL_11 по контракту 318804CN1, заключенному на рассматриваемой неделе, и продукту PROD_l получил весь заказанный продукт на этой же неделе и произвел его оплату, то есть его контракт фактически закрыт. Клиент CL_8 в этом сегменте тоже получил весь заказанный товар, но оплату пока не произвел ввиду кредитного условия платежа, поэтому его контракт остается открытым.

Данный статический отчет выполняется в режиме off-line для специалистов аналитического отдела фирмы, специалистов по маркетингу, трейдеров, руководителей финансовых служб.

Эти же специалисты имеют возможность проводить персонализированную сегментацию клиентов в режиме on-line. С этой целью они обеспечены специальными копиями программных модулей, с помощью которых они могут выделить любую интересующую их группу клиентов (или отдельных клиентов) и провести анализ на гиперкубе по своему набору критериев. Режим on-line очень удобен при контактном взаимодействии с клиентами, так как позволяет почти мгновенно отвечать на их запросы и быстро отслеживать профили клиентов. Имея полную свободу в выборе критериев и глубины детализации или агрегирования показателей, в то же время пользователи не

Черным цветом отделены сегменты клиентов, предпочитающих расчеты в иностранной валюте (USD) или в национальной валюте (RUB), а также сегменты с небольшими суммами долгов ( $ 1500). Серая заливка выделяет подсегменты клиентов, имеющих текущую задолженность, то есть входящих в группу надежных по оплате клиентов. Светлые строки таблицы соответствуют подсегментам клиентов, имеющих просроченную задолженность, таким клиентам специалисты фирмы уделяют повышенное внимание в процессе контактного взаимодействия и по остальным гиперкубам определяют, накопилась ли задолженность случайно, либо происходит систематическое увеличение задолженности. Соответствующие маркетинговые акции позволяют управлять объемом просроченной задолженности и поддерживать его на достаточно низком или даже нулевом уровне.

Имея модули многомерного сегментирования клиентской базы для основных бизнес-процессов компании, можно на их основе решать другие разнообразные аналитические задачи, формируя нерегламентированные запросы по результатам сегментирования. Обычно агрегатные данные по сегментам формируют у аналитика определенные гипотезы, которые проверяются с помощью дополнительных запросов к гиперкубам отдельных или всех модулей. Ниже приведен пример решения задачи обеспечения равномерности отгрузок товара клиентам с использованием нескольких модулей.

Похожие диссертации на Методика проектирования интегрированных программных систем многомерного анализа данных