Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Модели многомерного представления и обработки данных на основе алгебры кортежей в информационно-аналитической системе Белов, Вадим Николаевич

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Белов, Вадим Николаевич. Модели многомерного представления и обработки данных на основе алгебры кортежей в информационно-аналитической системе : диссертация ... кандидата технических наук : 05.13.17, 05.13.01 / Белов Вадим Николаевич; [Место защиты: Пенз. гос. ун-т].- Пенза, 2012.- 182 с.: ил. РГБ ОД, 61 12-5/2123

Введение к работе

Актуальность темы. В настоящий момент имеет место тенденция широкого использования информационных технологий для хранения, обработки и анализа данных. Данная тенденция является следствием роста объема информации, используемой для принятия управленческих решений и развития методов интеллектуального анализа данных. Разработка информационно-аналитических систем, обеспечивающих внедрение информационных технологий, является ресурсоемким процессом. Однако построение математических моделей данных и обработки данных для информационно-аналитических систем позволяет сократить количество итераций разработки и уменьшить затраты ресурсов за счет использования процедуры доказательства корректности моделей обработки данных.

Процессы обработки и анализа данных, а также методы доказательства корректности моделей обработки данных исследовались в работах А. А. Барсегяна, С. А. Васильева, Б. А. Кулика, Ф. А. Новикова, K. Ar-row, Э. Кларка (E. Clarke), R. Creeth, E. Emerson, R. Floyd, Ч. Хоара (C. Hoare), M. Lacroix, T. Pedersen, N. Pendse, A. Pirotte, Т. Саати (T. Saaty), J. Ullman и др.

Процессы обработки и анализа данных во многом зависят от модели представления данных. Выбор модели данных определяет применимые операции обработки данных и скорость проведения анализа данных. Исследованию моделей представления данных посвящены работы А. В. Вискова, Н. А. Левина, И. Д. Манделя, В. И. Мунермана, В. П. Сер-гееева, R. Agrawal, Э. Кодда (E. Codd), К. Дейта (C. Date), Б. Инмона (W. Inmon), Р. Кимбала (R. Kimball) и др.

Несмотря на успехи в этих направлениях, остаются нерешенными несколько проблем. Первая проблема связана с недостаточной развитостью подхода к формализованному описанию данных, обеспечивающих решение задач статистического, оперативного и интеллектуального анализа данных, а также анализа данных, определяемого бизнес-процессами организации. Сложность решения проблемы построения математических моделей данных обусловлена:

отсутствием методик построения моделей данных, удовлетворяющих требованиям, выдвигаемым тестом FASMI (Fast Analysis of Shared Multidimensional Information быстрый анализ разделяемой многомерной информации);

использованием, как правило, интуитивного подхода к разработке многомерных моделей данных и моделей вычислительных процессов.

Вторая проблема связана с недостаточной проработанностью методов проектирования с применением проверки корректности моделей обработки данных.

Третья проблема обусловлена малой исследованностью методик предварительной обработки данных, представленных в виде комплектов, при вычислении ключевых показателей эффективности с использованием номинальных и порядковых шкал. В этом случае традиционный подход к предварительной обработке данных, основанный на использовании метода анализа иерархий, не реализуем. Необходимость решения названных выше проблем определяет актуальность данного диссертационного исследования.

Целью диссертационной работы является разработка и исследование моделей представления данных, процессов обработки и анализа данных в информационно-аналитической системе с настраиваемыми метриками на основе ключевых показателей эффективности.

Для достижения поставленной цели решены следующие задачи:

анализ процессов сбора, хранения, предварительной обработки и анализа данных в информационно-аналитических системах, реализуемых с применением настраиваемых метрик на основе ключевых показателей эффективности;

теоретическое обоснование и исследование математических многомерных моделей данных для сбора и хранения, проведения оперативного и интеллектуального анализа средствами информационно-аналитической системы;

теоретическое обоснование и исследование математических моделей обработки данных в процессе наполнения хранилища данных, проведения оперативного и интеллектуального анализа данных;

разработка на основе предложенных модельных представлений данных и процессов транзакционной базы данных, многомерного хранилища данных, клиентских приложений прототипа информационно-аналитической системы и проведение экспериментов.

Предметом исследования являются математические модели и структуры многомерного представления данных, модели процессов извлечения, преобразования и загрузки данных, модели и алгоритмы обработки и анализа данных.

Объектом исследования являются процессы сбора, накопления, предварительной обработки, загрузки и анализа данных при создании информационно-аналитической системы.

Методы исследования основаны на алгебре кортежей, теории нечетких множеств, методах оперативного и интеллектуального анализа данных, теории принятия коллективных решений, теории матроидов, методах концептуального моделирования. При разработке программных средств использованы объектно ориентированный и реляционный подходы.

Научная новизна работы:

  1. Предложена методика построения математической модели данных на основе настраиваемых метрик ключевых показателей эффективности, отличающаяся представлением объектов и связей в виде С-систем алгебры кортежей и обеспечивающая проверку модели данных на соответствие моделям проектируемых процессов предварительной обработки, загрузки и анализа данных аналитическими методами.

  2. Доказано соответствие структуры многомерной модели данных матроидной структуре, в которой максимальные независимые подмножества функциональных взаимосвязей между мерами и измерениями являются базами, что позволяет автоматизировать эквивалентные преобразования структуры реляционных хранилищ данных.

  3. Предложен жадный алгоритм поиска структуры реляционного хранилища данных, отличающейся представлением группы измерений и мер в виде матроида. Алгоритм обеспечивает выполнение требований по ограничению времени выполнения запросов в соответствии с тестом быстрого анализа разделяемой многомерной информации (FASMI).

  4. Предложено формализованное описание процессов сбора, загрузки в хранилище и анализа данных с использованием операций алгебры кортежей, что позволяет осуществить доказательство корректности моделей процессов формальными методами.

  5. Разработана процедура предварительной обработки комплектов данных, отличающаяся применением рациональной и решающей функции для вычисления ключевых показателей эффективности, что позволяет уменьшить объем хранилища данных и сократить время на проведение анализа данных.

Практическая значимость исследований. Разработанные программные средства для реализации информационной технологии хранения, обработки и анализа данных при управлении организацией на основе ключевых показателей эффективности обеспечивают осуществление процессов сбора, предобработки, оперативного и интеллектуального анализа данных. Разработанный алгоритм поиска структуры реляционного хранилища данных системы оперативной аналитической обработки данных со сложностью позволяет строить хранилища данных с учетом требований скорости выполнения запросов. Разработанный подход к проектированию процессов обработки и анализа данных позволяет сократить количество итераций разработки программных средств за счет доказательства корректности моделей обработки и анализа данных на этапе проектирования.

На защиту выносятся:

1. Методика построения математических моделей данных на основе концепции многомерного пространства данных и операций алгебры кортежей.

2. Модельное представление структуры многомерных данных, отражающих совокупность ключевых показателей эффективности и используемых при принятии управленческих решений, в виде группы матроидов.

3. Алгоритм поиска структуры модели данных, удовлетворяющей требованию минимума затрат времени на выполнение запроса к многомерному реляционному хранилищу данных.

4. Модели сбора данных, преобразования и загрузки реляционного хранилища данных, оперативного и интеллектуального анализа данных в информационно-аналитической системе.

5. Процедура предварительной обработки и агрегации данных с применением рациональной и решающей функции ранжирования.

Реализация и внедрение результатов работы.

Теоретические и практические результаты диссертационного исследования внедрены:

в Пензенском государственном университете при разработке информационно-аналитической системы оценки деятельности преподавателей, кафедр и факультетов на основе ключевых показателей эффективности;

в ООО «Мое дело» г. Пензы для оценки деятельности сотрудников отдела «ERP» на основе ключевых показателей эффективности с применением Web-технологий.

Достоверность и обоснованность. Обоснованность и достоверность результатов определяются корректным использованием строгих и апробированных методов исследования и подтверждаются практическим применением полученных результатов при разработке программных средств, что подтверждено актом о внедрении результатов работы, а также апробацией работы на всероссийских и международных конференциях.

Апробация работы. Основные результаты работы докладывались и обсуждались на следующих конференциях: VII Всероссийской научно-практической конференции «Системы автоматизации в образовании, науке и производстве» (Новокузнецк, 2009); Международной конференции «Information Technologies in Education for All» (Киев, 2009); III Международной научно-практической конференции «Информационная среда вуза XXI века» (Петрозаводск, 2009); XII Всероссийской объединенной конференции «Интернет и современное общество» (Санкт-Пе-тербург, 2009); IX Международной научно-технической конференции «Новые информационные технологии и системы» (Пенза, 2010); XV Международной научно-методической конференции «Университетское образование» (Пенза, 2011); Международной научно-практической конференции «Молодежь и наука: модернизация и инновационное развитие страны» (Пенза, 2011); V Международной научно-практической конференции «Информационная среда вуза XXI века» (Петрозаводск, 2011).

Публикации. Основные положения диссертации опубликованы в 12 статьях и тезисах конференций. Среди них 2 статьи в журналах из перечня ВАК.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы из 128 наименований и
6 приложений. Общий объем – 182 страницы. Основное содержание диссертации включает 19 рисунков и 46 таблиц.

Похожие диссертации на Модели многомерного представления и обработки данных на основе алгебры кортежей в информационно-аналитической системе