Методы снижения сетевой нагрузки в OLAP системах Дорожкин Антон Константинович

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Дорожкин Антон Константинович. Методы снижения сетевой нагрузки в OLAP системах : Дис. ... канд. техн. наук : 05.13.13 СПб., 2005 208170-176 с. РГБ ОД, 61:06-5/1561

Содержание к диссертации

Введение

Обзор современного состояния систем многомерного анализа данных 12

3.1 Общая архитектура систем поддержки принятия решений 12

3.2 Особенности систем многомерного анализа данных 16

3.3 Передача данных по сети в OLAP системах 20

3.4 Обзор литературы 24

3.5 Структура диссертационной работы 35

3.6 Выводы 36

Общие вопросы систем многомерного анализа . 37

4.1 Размеры реляционного и многомерного хранилищ данных 37

4.2 Модель агрегации данных 41

4.3 Особенности учета передачи данных посети 48

4.4 Производительность систем многомерного анализа данных 51

4.5 Выводы 53

Загрузка данных 55

5.1 Способы извлечения данных 55

5.2 Основные способы загрузки данных 57

5.3 Скорость изменения данных 63

5.4 Определение частоты обновления данных 68

5.5 Эффективная загрузка данных 71

5.6 Выводы 77

Обработка пользовательских запросов 78

6.1 Модель обращения к реляционным данным 78

6.2 Модель расчетов на стороне клиента 88

6.3 Выводы 97

Экспериментальная часть 98

7.1 Условия проведения эксперимента и исходные данные 98

7.2 Проверка адекватности модели предварительного расчета количества ячеек агрегированных данных 104

7.3 Эксперименты по загрузке данных 112

7.3.1 Извлечение данных из источников 112

7.3.2 Определение эффективной частоты обновления данных 120

7.4 Эксперименты по обработке пользовательских запросов 129

7.4.1 Простое извлечение данных из многомерной базы данных 129

7.4.2 Проверка модели гибридного OLAP 138

7.5 Имитационное моделирование 145

7.5.1 Простая модель гибридной OLAP системы 145

7.5.2 Модель многопользовательского режима при децентрализованных вычислениях 158

7.5.3 Полная модель системы многомерного анализа данных 164

7.6 Выводы 166

8 Заключение 167

Общая архитектура систем поддержки принятия решений
Размеры реляционного и многомерного хранилищ данных
Основные способы загрузки данных
Модель обращения к реляционным данным

Введение к работе

В последнее время на рынке систем, позволяющих осуществлять анализ данных, все большую популярность приобретают системы многомерного анализа известные также как On-Line Analytical Processing (OLAP) системы. Популярность этих систем заключается в том, что они позволяют пользователю, являющемуся специалистом в конкретной бизнес области, самостоятельно формировать различные запросы к базе данных, для выполнения анализа имеющихся данных. Эта легкость получения данных и обусловлена так называемой многомерностью, которая заключается в разделении данных на показатели, содержащие данные о различных событиях, анализируемой предметной области, и измерения, формирующие контекст рассматриваемых событий. Вторым и, пожалуй, наиболее важным моментом, делающим этот инструмент анализа данных столь эффективным, является наличие предварительно рассчитанных обобщенных или, как их еще принято называть, агрегированных данных, с которыми, в конечном итоге, в основном работает аналитик. Использование агрегированных показателей позволяет более наглядно отображать информацию о различных процессах, что значительно упрощает процесс принятия решения руководителем.

Передача данных по сети в системах многомерного анализа происходит при загрузке данных из внешних источников в многомерную базу данных и при обработке пользовательских запросов. Эти два процесса характеризуются различными свойствами. Так, загрузка данных осуществляется в определенные моменты времени, обычно по ночам, и характеризуется относительно большими объемами данных, передаваемых по сети, по сравнению с результатами пользовательских запросов. Источники данных по отношению к системе многомерного анализа являются внешними и в большинстве случаев не подлежат, каким либо существенным изменениям. Уменьшить сетевую нагрузку при загрузке данных можно с помощью рациональной организации процесса обновления и в первую очередь изменяя частоту обновления данных. Работа пользователей с системой характеризуется высокой интенсивностью запросов, адресуемых в непредсказуемые моменты времени, но при этом относительно малыми объемами данных, передаваемых по сети. Многомерные базы данных хранят не все значения, необходимые для выполнения анализа, поэтому часть показателей рассчитывается оперативно при обработке пользовательского запроса. Некоторые продукты позволяют частично разгрузить сервер многомерной базы данных, перенеся вычисление некоторых показателей на рабочие станции пользователей. Что при определенных условиях приводит к увеличению трафика между сервером многомерной базы данных и пользователем, так как обычно для вычисления агрегированных показателей, требуется обращение к детальным данным, которые скорей всего не содержались в запросе. Другим аспектом обработки пользовательских запросов, приводящем к значительным нагрузкам на сеть, является обращение к реляционным данным, которое проявляется при использовании гибридной (HOLAP) или реляционной (ROLAP) архитектур системы многомерного анализа.

Подробнее эти, а также некоторые другие вопросы, связанные с уменьшением сетевой нагрузки в системах многомерного анализа, рассматриваются в соответствующих разделах данной работы.

Актуальность темы диссертационного исследования. Активное развитие средств многомерного анализа данных, привело к созданию целого ряда работ, имеющих отношение к описанию принципов организации и построению моделей систем многомерного анализа. Данные работы хоть и упоминают, что OLAP системы обрабатывают, а значит, и пересылают по сети, большие объемы данных, и что сеть является важным компонентом таких систем, но при этом не уделяют должного внимания подробному рассмотрению вопросов, связанных с сетевой нагрузкой, создаваемой в процессе функционирования OLAP систем, не говоря уже о снижении данной нагрузки. Это обусловлено в первую очередь относительной молодостью данной технологии. И действительно, популярность многомерных баз данных насчитывает чуть больше 10 лет, в то время как реляционный подход успешно существует десятки лет. Поэтому основная масса работ, посвященных исследованию многомерного анализа данных, в первую очередь посвящена проектированию подобных систем. Приведенная в данной работе модель функционирования систем многомерного анализа данных с точки зрения сетевой нагрузки и созданные на ее основе методы снижения сетевой нагрузки должны восполнить этот пробел.

Помимо этого, созданные на основе разработанной модели методы снижения сетевой нагрузки, за счет применения рационального выбора параметров функционирования системы, позволяют не только уменьшить сетевую нагрузку, не прибегая к увеличению вычислительных ресурсов, но и обеспечивают повышение эффективности работы пользователей данной системы за счет более рациональной организации таких процессов, как загрузка данных, управление обращением к реляционным данным и распределением оперативных вычислений. Уменьшение сетевой нагрузки, не прибегая к увеличению вычислительных ресурсов, достигается за счет того, что источники данных и пользовательские приложения, в созданной модели рассматриваются, как внешние по отношению к системе многомерного анализа данных, а значит, не подлежат модификациям. При этом уменьшение сетевой нагрузки осуществляется без ущерба для процесса анализа данных. То есть сохраняется требуемая актуальность и полнота хранимых данных. Кроме этого, освобождение общего ресурса снижает задержки в работе пользователей других приложений, функционирующих в данной сети.

Состояние изученности проблемы. Актуальные вопросы, связанные с изучением отдельных сторон исследуемой области, нашли свое отражение в основном в трудах зарубежных авторов, таких как Эдгар Кодд, Билл Инмон, Ральф Кимбалл, Эрик Томенсен и многих других. Однако в последнее время все больше отечественных авторов обращают свое внимание на вопросы, так или иначе связанные с анализом данных. Среди них стоит выделить Куприянова М.С., Архипенкова С.Я., Лисянского К.Б., Хрусталева Е.М. Но подавляющее большинство работ, так или иначе, лишь немного касаются темы сетевой нагрузки в системах анализа данных, концентрируясь, в основном, либо на общих принципах организации подобных систем, либо рассматривая крайне специфические вопросы, не охватывающие различные аспекты функционирования OLAP систем. Однако рассмотрение вопроса функционирования систем многомерного анализа данных с точки зрения сетевой нагрузки необходимо осуществлять комплексно, так как данный процесс неразрывно связан со всеми этапами функционирования системы. На данный момент хорошо изучены вопросы, связанные с извлечением данных из реляционных источником и передачей их по сети, а также различные вопросы агрегации данных. Эти процессы являются важными в рамках загрузки данных и обработки пользовательских запросов, но далеко не единственными.

Цель и задачи исследования. Основной задачей данной работы является создание методов, позволяющих снизить сетевую нагрузку в системах многомерного анализа данных. Для достижения этой цели были решены следующие задачи:

1. Построена аналитическая модель, описывающая функционирование систем многомерного анализа данных с точки зрения создаваемой сетевой нагрузки.

2. С помощью ряда экспериментов доказана адекватность построенной модели. Эксперименты проводились как на реальных OLAP серверах, так и с помощью имитационного моделирования.

3. На основании аналитической модели создан ряд методов, позволяющих снизить сетевую нагрузку, за счет изменения параметров функционирования системы.

Объектом исследования данной работы является система многомерного анализа данных, а также сеть передачи данных, в которой она функционирует. Предметом исследования, соответственно, является сетевая нагрузка, создаваемая системой многомерного анализа данных, и влияние различных параметров системы на нее.

Рабочей гипотезой было принято положение о том, можно разработать, описать и обосновать модель, охватывающую все аспекты функционирования систем многомерного анализа данных с точки зрения создаваемой сетевой нагрузки и с помощью этой модели создать методы, позволяющие снизить сетевую нагрузку без ущерба для процесса анализа данных.

Методология и методы проведенного исследования. Для достижения поставленных в работе целей использовались следующие методы исследования: методы, теоретического исследования (абстрагирование, анализ, моделирование), методы эмпирического исследования (наблюдение, сравнение, измерение, эксперимент), методы, основанные на положениях теории вычислительных систем и технологии имитационного моделирования. Методология исследования заключается в последовательном создании аналитической модели, позволяющей вычислять те или иные характеристики системы многомерного анализа данных, связанные с сетевой нагрузкой, проверка модели путем проведения различных экспериментов как на реальных OLAP серверах, так и с помощью имитационного моделирования, и разработка методов снижения сетевой нагрузки, на основании созданной модели, с последующим подтверждением полученных закономерностей на практике.

Научная новизна исследования. В диссертации получены следующие научные результаты, характеризующиеся научной новизной. Разработана и обоснована аналитическая модель, всесторонне описывающая функционирование систем многомерного анализа данных с точки зрения создаваемой сетевой нагрузки. Создан ряд методов, позволяющих снизить сетевую нагрузку OLAP систем за счет изменения параметров функционирования. В первую очередь это метод определения эффективной частоты обновления данных, обеспечивающей требуемую степень актуальности данных и при этом не приводящей к перегрузке системы. Метод рационального распределения оперативных вычислений, выполняемых при обработке запросов пользователей, между сервером многомерной базы данных и рабочей станцией пользователя. И, наконец, метод оценки и управления избыточной сетевой нагрузкой при обращении к реляционным данным. Новизна данной работы обусловлена именно всесторонним рассмотрением вопросов, связанных с функционированием систем многомерного анализа данных с точки зрения создаваемой сетевой нагрузки, на предмет его уменьшения.

Практическая и экономическая значимость полученных результатов. В ходе работы создана и описана модель функционирования систем многомерного анализа данных с точки зрения создаваемой сетевой нагрузки. Созданные на основании модели методы снижения сетевой нагрузки позволяют эффективно организовать процессы загрузки данных из внешних источников и обработки пользовательских запросов. Повышение эффективности использования вычислительных ресурсов в существующих системах многомерного анализа данных, за счет рационального выбора параметров функционирования, позволят избежать увеличения вычислительных ресурсов, что не может не давать экономического эффекта. Приведенные в рамках описания экспериментов примеры выполнения расчетов с помощью созданной аналитической модели, наглядно демонстрирующие применение результатов работы к реальным условиям, являются ценными с практической точки зрения.

Общая архитектура систем поддержки принятия решений

Технология многомерного анализа данных получила название OLAP (Оп-Line Analytical Processing) в 1993, когда вышла в печать статья известного исследователя в области баз данных Эдгара Кодда «Providing OLAP (On-Line Analytical Processing) to User-Analysts» [44], в которой он определил основные концепции многомерного анализа данных и сформулировал 12 правил, ставших в последствии определением OLAP. В достаточно короткие сроки, после выхода указанной статьи технология многомерного анализа данных стала очень популярной. Сейчас все производители, лидеры на рынке реляционных баз данных, такие как IBM, Microsoft, Oracle и другие имеют в перечне своих продуктов и сервера многомерных баз данных. Некоторые производители реляционных баз данных, такие как Microsoft поставляют средства многомерного анализа данных вместе со своими СУБД, другие (Oracle Corp.) пошли еще дальше совершили объединение реляционного и многомерного ядра в одном продукте. В данной работе приведено исследование вопросов связанных с функционированием систем многомерного анализа, построенных с помощью различных вариантов существующих на данный момент архитектур. Так, «классической» архитектурой системы поддержки принятия решений (далее СППР) является так называемая трехуровневая архитектура, представленная на рисунке 1:

Центральным элементом данной архитектуры является хранилище данных (ХД), в которое поступают данные из различных источников, таких как существующие информационные системы или OLTP системы, данные из различных архивов, а так же другие самые разнообразные источники. Задача центрального ХД заключается в том, что бы собрать в едином месте всю имеющуюся в организации информацию и поддерживать ее согласованность и правильность. Автор концепции хранилищ данных, Билл Инмон, определил хранилища данных, как [49]: "предметно ориентированные, интегрированные, неизменчивые, поддерживающие хронологию наборы данных, организованные для целей поддержки управления", призванные выступать в роли "единого и единственного источника истины" обеспечивающего менеджеров и аналитиков достоверной информацией необходимой для оперативного анализа и принятия решений.

Наиболее сложный для формализации этап организации хранилища данных заключается в создании процедур загрузки данных, так как на этом этапе необходимо собрать информацию из разнородных, а значит несогласованных источников данных, привести к единому формату не только структуры, но и непосредственно сами данные, то есть произвести их очистку. Второй основатель концепции хранилищ данных — Ральф Кимбалл — в своей работе «The Data Warehouse Toolkit: Practical Techniques for Building Dimensional Data Warehouses» [50] исходит из принципа, что структура ХД должна быть максимально простой, чтобы обеспечивать эффективное выполнение анализа данных. Стандартные схемы таблиц хранилищ данных — «звезда» и «снежинка» — имеют структуру наиболее оптимальную для проведения анализа, так как минимизируют число соединений между таблицами.

Так как хранилище данных зачастую бывает достаточно объемным (некоторые хранилища данных достигают объемов в терабайты), то для нужд отдельных подразделений строятся так называемые витрины данных (data mart), содержащие только подмножество данных из центрального ХД. При этом проблем с организацией витрин данных нет, так как они строятся на основе единого источника данных, а значит, уже являются согласованными. Использование витрин данных позволяет уменьшить нагрузку на центральное хранилище данных, при этом для поддержки витрины данных требуется не такое мощное аппаратное обеспечение, как для хранилища данных, в виду значительно меньших объемов хранимых данных. Совсем не обязательно, что витрины данных строятся с помощью механизмов реляционных баз данных, например, Бил Инмон к термину витрины данных относит и многомерные базы данных, так как они по своей сути также содержат подмножество данных из центрального ХД.

На основе существующих хранилища данных или витрин данных строятся аналитические приложения различной природы. Это могут быть и простые средства построения статических отчетов, которые широко распространены в OLTP системах. Однако на основе ХД и витрин данных используют более сложные средства анализа данных, такие как системы создания нерегламентированных отчетов (ad hoc query), средства добычи данных (data mining) и средства многомерного анализа (OLAP). Так как в данной работе делается акцент именно на последних средствах анализа данных, то на рисунке 1 в качестве клиентских приложений изображены именно OLAP сервера.

Размеры реляционного и многомерного хранилищ данных

В [43] дано формальное описание многомерной базы данных в терминах измерений и f-таблицы. По своей сути данной описание находится в рамках «классического» представления многомерной базы данных, представленного еще в [44]. Однако наиболее интересный аспект данной статьи заключается в формализации трансляции реляционной структуры данных (ER-модели) в многомерную схему с помощью графа измерений. Более интересная концепция модели многомерного куба предложена в [68], где построена модели многомерного куба агрегации (MAC). При этом данная модель пытается описать все многообразие реальных OLAP кубов минимальным набором понятий, таких как уровни измерения (dimensional level), отношения переходов (drilling relationships), пути измерения (dimension paths), измерения, кубы и атрибуты. Авторы концепции многомерного куба агрегации утверждают, что их модель в отличие от других моделей многомерных баз данных удовлетворяет 10 основным свойствам многомерного представления данных. Однако модель, представленная в [68] совсем не затрагивает различные операции, применяемы к многомерным кубам. В [53] авторы предлагают помимо формального описания модели многомерного куба, формальное описание части стандартных операций, присущих многомерному представлению данных, а также расширяют данный набор операциями разделения (split) и слияния (merge), на основании значений атрибутов. К стандартным операциям в [53] относятся срез, агрегация, перемещение по иерархии. Так же формальную модель операций с многомерными структурами данных можно найти в [70], в которой помимо формального описания модели МВД и операций многомерного анализа данных предпринята попытка создания формального соответствия между многомерным и реляционным представлением данных, а так же описаны основные операции с многомерными структурами в терминах реляционной алгебры.

Что касается вопросов взаимодействия пользователя с OLAP системой, то работ посвященных данному вопросу значительно меньше, чем моделей многомерных структур данных. Формальное описание поведения пользователя системы многомерного анализа представлено в [60]. В данной работе последовательность запросов пользователя, связанных с получением ответа на один вопрос называется сессией. В рамках сессии пользователь последовательно перемещается по многомерному пространству, начиная с определенной точки входа. Набор схожих шаблонов поведения пользователь называется профиль пользователя. Дня отнесения запроса к тому или иному шаблону в [60] предлагается вычислять расстояние между запросами, соответственно и прототипами, на основании количества операций манипулирования многомерными данными, такими как поворот, переход к деталям и ограничение выборки, необходимыми для того, чтобы перейти от результата одного запроса к результату другого запроса. При этом у различных приложений для каждого типа операций предлагается использовать свои собственные весовые коэффициенты.

Третья область — агрегация — не спроста выделена отдельно от всех аспектов многомерных баз данных, так как агрегация является одним из основных аспектов, сильно влияющих на производительность системы многомерного анализа в целом и итоговый объем МБД, а значит на объем данных передаваемых по сети, в частности. Но при этом вопросы агрегации имеют значительный элемент неопределенности связанный с характеристиками, содержащихся в МБД данных, их распределению по основным группам агрегации, количеством уровней в различных иерархиях и т.д. Именно из-за этой неопределенности существует множество различных методов оценки результирующего объема многомерного куба, а также различные алгоритмы выполнения расчета агрегатов.

При этом агрегация может выполняться как в многомерной базе данных, так и в реляционном ХД. Общее описание процесса агрегации на основании реляционного представления данных дано в [47]. В [48], [55] и [41] приведены алгоритмы определения числа и содержимого материализованных представлений для обеспечения эффективного выполнения запросов в аналитических приложениях. Если проводить аналогию, то материализованное представление в рамках реляционного ХД является аналогом кубоида в МВД, так как содержит значения показателей для определенных уровней агрегации всех измерений многомерного куба.

Основным, помимо многомерного куба агрегации, представленного в [68], для описания процесса агрегации иногда используют так называемый куб диапазонов (range cube) [46], в котором в отличие от «обычного» многомерного куба последовательности ячеек заменены на диапазоны.

В [64] можно найти другие способы оценки объемов многомерных кубов после выполнения агрегации. Среди них, так называемый аналитический алгоритм, построенный на стандартном аппарате теории вероятности и позволяющий определить верхнюю границу объема агрегированного куба. Второй алгоритм, представленный в упомянутой работе, позволяет определить результирующий объем агрегированного куба на основании аппроксимации результата небольшой выборки данных. Однако предпочтение в [64] отдается методу, основанному на подсчете вероятностей нахождения уникальных значений в рамках группы значений.

Достаточно интересный подход расчета объема агрегированных данных предложен в [63], где впервые введено понятие функции плотности данных, а для расчета числа агрегированных показателей используется соответственно интегрирование данной функции по необходимым измерениям. Предложенный метод носит несколько абстрактный характер, так как определение аналитической функции плотности данных, для выполнения интегрирования на основании заполненности ячеек является задачей не тривиальной. Однако сам подход в использовании такого понятия, как плотность данных является важным для данной работы.

Основные способы загрузки данных

Для проведения экспериментов, связанных с моделью обращения к реляционным данным, на основании HOLAP архитектуры, использовался только продукт от Microsoft. Выбор платформы от Microsoft был сделан в виду того, что реализация HOLAP и ROLAP архитектур в Oracle Express сделана очень неудачно и для создания полноценного HOLAP сервера необходимо создать достаточно много программного кода, a Cognos PowerPlay вообще не обладает подобным функционалом. Во-вторых, аспекты функционирования HOLAP архитектуры относящие к вопросу данной работы одинаковы для различных реализаций OLAP серверов, поэтому выбор был остановлен только на Microsoft Analysis Services, позволяющим создать систему многомерного анализа данных на основе HOLAP архитектуры достаточно быстро и наглядно.

Для выполнения экспериментов использовалось небольшое приложение, написанное на Visual Basic, выполняющее подключение к OLAP серверу по ADO MDB и производящее извлечение данных. При этом производились замеры времени выполнения запроса. С исходным кодом тестового приложения можно ознакомиться в приложении 10.2. В качестве клиента использовалась рабочая станция под управление Windows 2000 Professional с процессором с тактовой частотой 1,8 ГГц и 256 Мб памяти, a OLAP сервер работал на рабочей станции, описанной еще в разделе 7.1. Для оценки передаваемых по сети объемов данных использовался, так же как и в предыдущих экспериментах, DU Meter 2.2. Характеристики ХД и МБД для данного эксперимента были такими же, как и в эксперименте по извлечению данных.

В рамках данного эксперимента не использовался оперативный расчет агрегатов по двум причинам: во-первых для наглядности, полученных результатов, во-вторых многомерный сервер от Microsoft имеет довольно странную политику управления агрегированными данными, не позволяющую определить какие уровни иерархии агрегировать предварительно, а какие нет. Вместо этого имеется возможность определить только степень агрегации результирующего куба с помощью определения числа кубоидов, подлежащих агрегации, что вносит некоторый нежелательный элемент неопределенности в разработанную модель. Прежде чем приступать к вычислению степени избыточности HOLAP необходимо определиться со значением коэффициента реляционных данных k . Значение этого коэффициента достаточно сложно определить аналитически, так что в данном случае его значение определено экспериментально. Для определения значения коэффициента реляционных данных с помощью анализатора пакетов был перехвачен запрос, отправляемый сервером МБД к ХД, измерен объем возвращаемых данных и аналогичный результат, передаваемый по сети в случае запроса к МБД. Значение коэффициента реляционных данных определяется как отношение этих двух величин. Также был рассчитан размер возвращаемых данных на основе характеристик ХД для определения степени сжатия данных Oracle при передаче по сети. Объем возвращаемых из ХД реляционных данных в данном случае составлял 1,33 Мб, для извлечения кросс-таблицы составленной на основе измерений Discip и Grups. Размер данных, рассчитанный на основании запроса, адресуемого ХД составил 2,08 Мб данных, то есть данные сжимались на 36%. Результат MDX запроса, адресованного МДБ при этом возвращал 1,18 Мб. Отсюда получает значение коэффициента реляционных данных равное Исходя из указанных выше параметров МБД.

Модель обращения к реляционным данным

Представленная работа посвящена созданию методов снижения сетевой нагрузки в OLAP системах. Для разработки данных методов была создана аналитическая модель, описывающая процесс функционирования систем многомерного анализа данных с точки зрения создаваемой сетевой нагрузки.

В разделе, посвященном вопросам загрузки данных, рассматриваются различные типы загрузок данных, способы извлечения данных из источников, а так же влияние таких характеристик, как частота обновления и скорость изменения данных, на объемы, передаваемых по сети данных. Вопросы обработки пользовательских запросов, влияющие на объем передаваемых по сети данных, охватывают такие аспекты, как обращение к реляционным данным и распределение оперативных расчеты между OLAP сервером и рабочей станцией пользователя. В построенной модели, источники данных и пользовательские приложения, рассматриваются, как внешние по отношению к системе многомерного анализа, и уменьшение сетевой нагрузки достигается за счет изменения внутренних параметров системы.

Помимо основных вопросов, непосредственно относящихся к функционированию системы многомерного анализа данных с точки зрения создаваемой сетевой нагрузки, в разработанной модели описан ряд вопросов, относящихся к общим аспектам организации систем многомерного анализа данных. В первую очередь это вопросы, связанные с агрегацией данных, так как данный процесс является одним из ключевых аспектов многомерного анализа данных. Получены аналитические закономерности, позволяющие достаточно точно определить зависимость числа заполненных ячеек агрегированных данных от числа заполненных ячеек детальных данных.

Что же касается методов снижения сетевой нагрузи OLAP систем, то разработаны методы: определения эффективной частоты обновления данных, распределения оперативных вычислений оценки и управления избыточной сетевой нагрузкой при обращении к реляционным данным Метод определения эффективной частоты обновления данных, относится к процессу загрузки данных в МБД. Под эффективной частотой обновления данных понимается частота, позволяющая поддерживать необходимую степень актуальности данных, не приводить к перегрузке системы и обеспечивать равномерное распределение нагрузки по различным частям системы. Метод учитывает и случай, когда эффективная частота обновления данных отсутствует. При этом достижение эффективной частоты обновления данных возможно только за счет увеличения вычислительных ресурсов системы. Помимо этого, метод определения эффективной частоты обновления позволяет, оценить время простоя системы и, наоборот, определить необходимую частоту обновления для систем, работающих в режимах близких к 24Y7.

Последние два метода, представленные в работе относятся к процессу обработки запросов пользователя. Метод оценки и управления избыточной сетевой нагрузкой при обращении к реляционным данным, базируется на гибридной архитектуре OLAP системы, так как данная архитектура является обобщающей для ROLAP и MOLAP архитектур, с точки зрения обращения к детальным данным. Несмотря на то, что любое обращение к реляционным данным является избыточным, используя полученные закономерности, можно снизить избыточную нагрузку на сеть и повысить общую производительность существующей HOLAP системы за счет изменения структуры данных.

Метод распределения оперативных вычислений, между сервером многомерной базы данных и рабочей станцией пользователя позволяет определить эффективную степень распределения оперативных вычислений и изменить структуру МБД в соответствии с полученным значением, для изменения степени де централ изованности вычислений. Также данный метод позволяет повысить эффективность использования вычислительных ресурсов за счет рационального распределения оперативных вычислений между сервером МБД и рабочей станцией пользователя и уменьшить время ответа на запрос, в результате эффективного использования вычислительных ресурсов. Отдельно следует отметить, что объединение модели распределенных вычислений с моделью обращения к реляционным данным дает полную картину функционирования систем многомерного анализа данных при обработке пользовательских запросов.

Основные полученные аналитические зависимости проверены экспериментально либо с помощью реальных OLAP серверов, либо с помощью системы имитационного моделирования, в тех случаях, когда проведение эксперимента затруднено по тем или иным причинам.

Следует отметить, что область многомерного анализа данных является относительно молодой, по сравнению, например, с реляционными базами данных. Поэтому основная масса исследований в первую очередь касается вопросов связанных с проектированием многомерных баз данных и созданию формальных описаний процесса многомерного анализа данных. Значительно меньше работ посвящено вопросам агрегации данных, производительностью вычисления агрегатов и оценки объема многомерных баз данных. Что же касается вопросов сетевой нагрузки в системах анализа данных, то практически все авторы упоминаю о важности данного аспекта в общей картине анализа данных, но никаких конкретных зависимостей не приводят. Поэтому приведенная в данной работе модель функционирования систем многомерного анализа данных с точки зрения создаваемой сетевой нагрузки и разработанные на ее основе, методы снижения сетевой нагрузки должны восполнить этот пробел.

Методы снижения сетевой нагрузки в OLAP системах Дорожкин Антон Константинович

Общая архитектура систем поддержки принятия решений

Размеры реляционного и многомерного хранилищ данных

Основные способы загрузки данных

Модель обращения к реляционным данным

Похожие диссертации на Методы снижения сетевой нагрузки в OLAP системах