Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Разработка алгоритмов и процедур повышения точности факторного прогнозирования на основе эволюционной стратегии поиска прогнозирующего описания актуального процесса Горелов Андрей Александрович

Разработка алгоритмов и процедур повышения точности факторного прогнозирования на основе эволюционной стратегии поиска прогнозирующего описания актуального процесса
<
Разработка алгоритмов и процедур повышения точности факторного прогнозирования на основе эволюционной стратегии поиска прогнозирующего описания актуального процесса Разработка алгоритмов и процедур повышения точности факторного прогнозирования на основе эволюционной стратегии поиска прогнозирующего описания актуального процесса Разработка алгоритмов и процедур повышения точности факторного прогнозирования на основе эволюционной стратегии поиска прогнозирующего описания актуального процесса Разработка алгоритмов и процедур повышения точности факторного прогнозирования на основе эволюционной стратегии поиска прогнозирующего описания актуального процесса Разработка алгоритмов и процедур повышения точности факторного прогнозирования на основе эволюционной стратегии поиска прогнозирующего описания актуального процесса Разработка алгоритмов и процедур повышения точности факторного прогнозирования на основе эволюционной стратегии поиска прогнозирующего описания актуального процесса Разработка алгоритмов и процедур повышения точности факторного прогнозирования на основе эволюционной стратегии поиска прогнозирующего описания актуального процесса Разработка алгоритмов и процедур повышения точности факторного прогнозирования на основе эволюционной стратегии поиска прогнозирующего описания актуального процесса Разработка алгоритмов и процедур повышения точности факторного прогнозирования на основе эволюционной стратегии поиска прогнозирующего описания актуального процесса
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Горелов Андрей Александрович. Разработка алгоритмов и процедур повышения точности факторного прогнозирования на основе эволюционной стратегии поиска прогнозирующего описания актуального процесса : Дис. ... канд. техн. наук : 05.13.18 Рязань, 2005 180 с. РГБ ОД, 61:05-5/3905

Содержание к диссертации

Введение

ГЛАВА 1. Анализ существующих методов агагроксимации и прогнозирования процессов с преобладающей детерминированной составляющей 16

1.1. Определение предметной области 16

1.1.1. Необходимость прогнозирования 16

1.1.2. Существующие направления развития информационных технологий . 17

1.1.3. Выбор метода прогнозирования 21

1.1.4. Возможные направления развития методов прогнозирования 24

1.2. Перечень актуальных задач 26

1.2.1. Достигнутые результаты , 26

1.2.2. Разработка внутренней структуры и механизма функционирования прогнозирующей системы 27

1.2.3. Подготовка данных для прогнозирования 29

1.2.4. Обеспечение качества прогнозирования 29

1.3. Построение всех возможных регрессий 30

1.3.1. Предварительные замечания 30

1.3.2. Порядок построения , 31

1.3.3. Метод построения 32

1.3.4. Построение только наилучших регрессий 37

1.3.5. Пошаговая регрессия , 42

1.3.6. Другие методы 46

1.4. Выбор критерия 47

1.4.1. Коэффициент детерминации R 47

1.4.2. Скорректированный коэффициент детерминации 49

1.4.3 .Ср-статистика Мэлоуса 51

1.4.4. MSEP-критерий 55

1.4.5. Другие меры 56

1.5. Основные результаты 57

ГЛАВА 2. Разработка алгоритмов автопостроения алгоритмических описаний процессов на основе метода эвристической самоорганизации 59

2.1. Общая схема построения алгоритмов, реализующих метод группового учета аргументов 59

2.1.1. Описание алгоритма 59

2.1.2. Критерии МГУА 62

2.2. Разработка модифицированного метода группового учета аргументов на основе процедуры оптимизации частных полиномов (МГУАоп) 68

2.2.1. Проблемы восстановления функций классическим МГУА и пути их преодоления 68

2.2.2 Алгоритм автопостроения модели без использования селекции в последовательных рядах приближения 70

2.3. Разработка метода группового учета аргументов на основе дифферальных частных приближений (МГУАдп) 72

2.3.1. Аппроксимация процессов решениями линейных дифференциальных уравнений 73

2.3.2. Результаты аппроксимации процессов решениями линейных дифференциальных уравнений 75

2.4. Разработка метода группового учета аргументов на основе

самоорганизующихся искусственных нейронных сетей (МГУАнс) 78

2.4.1. Математическая постановка задачи 79

2.4.2. Постановка и возможные пути решения задачи обучения нейронных сетей 81

2.4.3. Нейронная сеть с обучением по методу обратного распространения ошибки 83

2.2.1. Автоматическое построения «наилучшей» искусственной нейронной сети 86

2.2.2. Метод группового учета аргументов на основе аппарата нейронных сетей 90

2.5. Основные результаты 93

ГЛАВА 3. Разработка процедур автоматического выбора струкутуры модели, оценки ее параметров и определения оптимального объёма выборки 94

3.1. Предварительные замечания 94

3.2. Автоматизация построения модели для прогнозирования процессов с детерминированной составляющей методом экстраполяции тенденций .95

3.2.1. Классический способ выбора структуры и вычисления параметров прогнозирующей модели в методе экстраполяции тенденций 95

3.2.2. Принципы организации программной системы автоматического синтеза структуры и оценки параметров прогнозирующих функций 98

3.2.3. Выбор адекватной стандартной функции по результатам анализа характеристического отношения 101

3.2.4. Способ автоматического выбора структуры модели, оценки её прогнозирующей силы и определения наилучшей длины обучающей последовательности с помощью тестовой последовательности 105

3.3. Методика построения прогнозирующей регрессионной модели 109

3.3.1. Основные положения методики построения модели 109

3.3.2. Устойчивость модели и способы её оценки 112

3.3.3. Векторный показатель качества прогнозирующей модели 119

3.3.4. Проверка гипотез относительно параметров модели 121

3.3.5. Использование векторного критерия качества модели в процессе поиска лучшей модели 123

3.4. Основные результаты 125

ГЛАВА 4. Модели для прогнозирования показателей производственного травматизма в российской федерации и результаты прогноза 126

4.1. Подготовка данных для окончательного прогноза показателей травматизма до 2005 года 126

4.1.1. Сценарные условия 126

4.1.2. Исходные данные для решения задачи прогноза 127

4.2. Прогноз показателей производственного травматизма на основе выявления и экстраполяции тенденций 130

4.3. Характеристики финальных прогнозирующих моделей показателей травматизма с помощью факторного регрессионного анализа 133

4.4. Характеристики моделей для прогнозирования показателей травматизма с помощью нейросетевых технологий 138

4.6. Сравнительные результаты прогноза показателей травматизма ...141

4.7. Окончательный прогноз показателей производственного травматизма до 2006 года 146

4.8. Графическое представление результатов моделирования и прогноза 149

4.9. Основные результаты 154

Заключение 155

Библиографический список 159

Введение к работе

Актуальность проблемы. Перманентная потребность в повышении эффективности и действенности управленческих решений и организационных планов достаточно очевидна. Конкурентная борьба на рынке товаров и услуг, стремление максимизировать прибыль предприятия и минимизировать издержки производства, желание локализовать и уменьшить последствия аварий и техногенных катастроф стимулируют работы, нацеленные на повышение точности и надежности прогноза процессов различной физической и социальной природы, представленных временными рядами данных. Подавляющее большинство социально-экономических процессов могут быть кате-горированы как процессы с детерминированной составляющей. В настоящее время существует значительное количество методов моделирования и прогнозирования таких процессов, такие как классический и специальный регрессионный анализ, искусственные нейронные сети, эволюционные стратегии, системы одновременных уравнений, метод выявления и экстраполяции тенденций, авторегрессия и так далее.

Одновременно с этим, в настоящее время практически отсутствует математическое и программное обеспечение, нацеленное на автоматическое построение наилучшего формализованного описания проблемного социально-экономического процесса в классе всех возможных описаний. Создание такого обеспечения сопряжено с необходимостью разработки методов поиска наилучшего описания. Эти методы должны включать:

  1. средства квалификации проблемного процесса и определения адекватного класса методов для его моделирования;

  2. векторные показатели качества аппроксимации процесса;

  3. алгоритмы многокритериального поиска решения в различных классах методов моделирования.

Средства квалификации проблемного процесса должны реализовывать эвристические алгоритмы, методы теории групповых решений и механизмы логического вывода с развиваемой базой знаний.

Успешное решение поставленных проблем позволит существенно повысить эффективность создания прогнозирующих моделей, применяемых для анализа и прогноза показателей социально-экономической сферы, в частности, для прогнозирования результатов производственно-хозяйственной деятельности предприятий, а также социальных и политических процессов в стране. Полученные результаты найдут широкое применение при создании информационно-аналитических систем в соответствии с концепциями оперативной аналитической обработки (OLAP) и интеллектуального анализа данных (Intelligent data analysis). Принципиально новыми элементами разрабатываемой концепции моделирования и прогнозирования проблемных процессов является внедрение и интенсификация использования процедур альтернативного моделирования и обобщения альтернативных результатов, механизмов мониторинга состояния информационного обеспечения, процессов решения задач прогноза, актуализации моделей, идентификация параметров которых становится возможной по мере накопления статистического материала.

Актуальной темой современной теории моделирования и прогнозирования процессов остаётся задача оценки коэффициентов множественной регрессии в различных «специальных» условиях, которая неявно основывается на предположении существования жестких причинно-следственных отношений между факторными признаками и результативным признаком. Это предположение и порождает традиционные подходы к семантической интерпретации коэффициентов множественной регрессии. В то же время в реальных условиях для прогнозирования процессов достаточно наличия только косвенных причинно-следственных связей, порожденных наличием общих закономерностей в процессах изменения факторных и результативных признаков, примером вышесказанного может служить метод прогнозирования на основе сценарных условий.

Сценарные моделирование и прогнозирование основаны на делении социально-экономических показателей на две группы (факторные и резуль-

7 тативные показатели, или признаки) и построении модели зависимости вторых показателей от первых. Деление на указанные группы достаточно условно, жестких руководящих принципов осуществления такого деления нет, хотя определенная традиция уже сформировалась.

К факторным показателям относят те, которые считают условно управляемыми, т.е. планируемыми. Прогнозирование этих показателей осуществляется, главным образом, экспертным путем. Конечно же, при этом могут использоваться и методы математического моделирования, включая метод выявления и экстраполяции тенденций, аппроксимирующие дифференциальные уравнения, системы одновременных разностных уравнений, искусственные нейронные сети и т.д.

Группу результативных (проблемных) показателей образуют многочисленные прочие показатели. Моделирование и прогнозирование этих показателей также могут осуществляться различными методами, но при прогнозе на основе сценарных условий обычно используется линейная множественная регрессия, в которой в качестве регрессоров используются факторные экзо-генно задаваемые «управляемые» («входные») показатели.

В практике прогнозирования многих процессов, в том числе и социально-экономических, типична ситуация, когда объем статистических данных невелик. В таких условиях результаты прогноза, полученные по разным методам, как правило, существенно отличаются друг от друга. Кроме того, ни один из существующих методов решения задачи прогноза не обладает явными преимуществами и не может быть использован как предпочтительный. Решением данной проблемы может служить одновременное использование нескольких альтернативных методов, таких как регрессионный анализ, метод выявления и экстраполяции тенденций, метод прогноза поведения процесса и т.д., в сочетании с процедурой согласования (обобщения) альтернативных результатов прогноза.

Существует множество параметров, оценивающих качество прогноза, но практически все они являются показателями качества аппроксимации и,

8 основываясь на предположении, что прогнозируемый процесс не меняет своего поведения в дальнейшем, используются как показатели прогнозирования. Использование показателей аппроксимации в качестве показателей прогнозирования не является очевидным, но из-за отсутствия последних — это наиболее приемлемое решение. Все это подтверждает необходимость введения новых показателей качества прогноза.

В настоящее время в области моделирования процессов с детерминированной составляющей чётко обозначилась актуальность задачи повышения уровня автоматизации процессов построения. Создание средств высокоуровневого моделирования и прогнозирования позволит расширить и интенсифицировать применение современных высокоэффективных методов разработки прогноза, что, в свою очередь, позволит повысить качество и своевременность принимаемых управленческих решений и планов.

При разработке теории и методов моделирования и прогнозирования процессов охватывается широкий круг математических и прикладных проблем, в развитие которых значительный вклад внесли российские и зарубежные ученые: В.М. Глушков, А.А. Амосов, В.А. Трапезников, В.А. Котельников, А.А. Харкевич, Б.Р. Левин, Л.М. Финк, Я.З. Цыпкин, СМ. Самойленко, Р.Л. Стратонович, В.И. Тихонов, Д.А. Поспелов, B.C. Шварцман, Э.Л. Блох, И.А. Мизин, Ю.М. Мартынов, Л.П. Пуртов, А.Н. Тихонов, М.Л. Лидов, Н.Дрейпер, Г.Смит, А.Алберт, Дж.Себер, Ф.Уоссермен, Дж.Форрестер и др. В разработку современных концепций организации хранения, представления и автоматизированного анализа данных наибольший вклад внесли Дж.Тьюки, Э. Кодд, В. Инмон.

Задача повышения уровня автоматизации неотрывно связана с задачей автоматического выбора адекватных прогнозирующих описаний проблемных процессов, для решения которой необходима разработка средств квалификации, многоальтернативного моделирования и обобщения альтернативных результатов, интерпретации и формирования итогового отчёта.

Многоальтернативное моделирование и процедуры обобщения результатов альтернативного прогноза необходимы не только для осуществления возможности автоматического поиска адекватной прогнозирующей модели, но и для решения проблемы углубления степени извлечения информационного содержимого из имеющегося статистического материала, поэтому, несмотря на обилие существующих методов прогнозирования процессов с детерминированной составляющей, в контексте проблемы разработки многоальтернативных прогнозов сохраняется актуальность задач разработки новых и улучшения известных методов построения прогнозирующих описаний. Актуальностью этих задач обусловлен выбор цели и задач диссертационной работы.

Целью работы - является повышение точности и надёжности прогнозирования процессов с преобладающей детерминированной составляющей, в частности, социально-экономических процессов за счет повышения эффективности и уровня автоматизации процедур построения адекватных формализованных описаний и их применения для решения задач прогноза.

Задачи исследования. Дня достижения целей диссертационной работы необходимо решение следующих задач.

  1. Разработка методики автоматического построения «наилучшей» прогнозирующей модели в классе форм линейной множественной регрессии.

  2. Разработка векторного показателя качества — совокупности показателей, по которым осуществляется сравнение вариантов описания зависимости проблемного показателя от факторных признаков, а также способа применения векторного показателя качества для сравнения частных описаний, то есть способ многокритериального сравнения вариантов модели.

  3. Разработка программного комплекса, реализующего предложенную методику поиска лучшей регрессионной модели.

  4. Разработка способа автоматического определения наилучшего описания процесса в методе выявления и экстраполяции тенденций.

  5. Разработка альтернативных алгоритмов автоматического построения математических моделей, основанных на эвристической самоорганиза-

10 ции, отличающихся структурой интегрирующего ядра, оптимизацией частных приближений и способом формирования популяции описаний.

Методы исследования. При выполнении работы использовались теория математического моделирования, методы вычислительной и прикладной математики, статистическое и имитационное моделирование, эвристическое программ ирование.

Научная новизна работы состоит в следующем:

  1. Предложена методика построения модели линейной множественной регрессии, отличающаяся применением эволюционной стратегии поиска и векторного показателя качества для выбора группы предварительных описаний, включаемых в популяцию, что повышает полноту анализа вариантов и объективность получаемых результатов.

  2. Предложена совокупность показателей качества прогнозирующих описаний, включающая показатели структурной и параметрической устойчивости модели, что гарантирует выбор среди возможных альтернатив описания с наибольшей прогностической силой.

  3. Разработан способ автоматического определения наилучшего описания процесса в методе выявления и экстраполяции тенденций оригинален, -; аналогов не имеет, обеспечивает автоматический выбор адекватного описания и автоматическое определение наилучшей по критерию минимума сред-неквадратической ошибки длины обучающей последовательности.

  4. Разработаны алгоритмы автоматического построения математических моделей, основанные на методе эвристической самоорганизации, отличающиеся возможностью изменения структуры интегрирующего ядра (полиномы 2-й степени, дифференциальные уравнения 2-го порядка, искусственные нейронные сети), оптимизацией частных приближений и способом формирования популяции описаний, что обеспечивает повышение показателей качества формируемых алгоритмических описаний моделируемых процессов за счёт синтеза структуры модели, наиболее адекватной составу факторных признаков и специфике изучаемого процесса.

5. Предложена методика разработки прогноза социально-экономических показателей, отличающаяся применением альтернативных прогнозирующих моделей, что обеспечивает наиболее полное использование информационного содержимого имеющихся статистических данных.

Практическая ценность. Полученные результаты являются существенной, но всё же начальной частью реализации концепции создания математических и программных средств для интегрированной высокоуровневой системы моделирования и прогнозирования социально-экономических процессов, обеспечивающий высокий уровень доступности современных методов прогнозирования широкому кругу аналитиков и управленцев. Основные результаты нашли отражение в программах:

a "Mavin" - программа интеллектуальной аппроксимации и

прогнозирования процессов с детерминированной составляющей;

NeuroMap - программа моделирования зависимостей скалярной величины от векторного аргумента и прогнозирования экономических процессов на основе технологии искусственных нейронных сетей;

Fact_pr - программа эвристического поиска решения предназначена для автоматического построения линейной факторной прогнозирующей модели процесса изменения во времени показателей социально-экономической сферы.

Система Fact_pr внедрена в Федеральной службе государственной статистики. Результаты диссертации успешно использованы при разработке прогнозов показателей занятости населения РФ в экономике страны, показателей производственного травматизма («Численность пострадавших с утратой трудоспособности на 1 рабочий день и более и со смертельным исходом, чел.», «Численность пострадавших со смертельным исходом, чел.», «Численность пострадавших с утратой трудоспособности на 1 рабочий день и более и со смертельным исходом в расчете на 1000 работающих», «Численность пострадавших со смертельным исходом в расчете на 1000 работающих», «Чис-

12 ло дней нетрудоспособности у пострадавших с утратой трудоспособности на

1 рабочий день и более и со смертельным исходом в расчете на 1 пострадавшего») в РФ.

Внедрение результатов. Результаты диссертационной работы внедрены: в Федеральной службе государственной статистики и используется для прогнозирования показателей занятости населения Российской Федерации (численность безработных, численность занятых в экономике, численности экономически активных и неактивных); в учебный процесс студентов специальности 220400, 351400 в Рязанской государственной радиотехнической академии.

Внедренный программный продукт имеет свидетельство №5020050719 от 27.05.05 об официальной регистрации программы «Программа эвристического поиска решения» (краткое название "Fact_Pr" vl.l) для ЭВМ в Отраслевом фонде алгоритмов и программ (ОФАП) Государственного координационного центра информационных технологий Минобразования России.

Основные результаты, выносимые на защиту:

  1. Методика автоматического построения «наилучшей» прогнозирующей модели в классе форм линейной множественной регрессии, предназначенная для прогнозирования методами сценарных условий и лагированных переменных.

  2. Понятие и способ применения векторного показателя качества в процессе поиска «наилучших» прогнозирующих описаний.

  3. Программный комплекс, реализующий предложенную методику поиска лучшей регрессионной модели.

  4. Способ автоматического определения «наилучшего» описания процесса в методе выявления и экстраполяции тенденций.

  5. Алгоритмы автоматического построения математических моделей, основанные на эвристической самоорганизации, включающие процедуры оптимизации частных приближений, решения аппроксимирующих дифферен-

13 циальных уравнений и синтеза искусственных нейронных сетей как механизма интеграции частных приближений.

Апробация работы. По теме диссертации сделаны доклады на 10-ой Международной научно-технической конференции «Проблемы передачи и обработки информации в сетях и системах телекоммуникаций», Рязань, 2001 г.; 11-ой Международном научно-техническом семинаре «Проблемы передачи и обработки информации в сетях и системах телекоммуникаций», Рязань, 2002 г.; 12-ой Международной научно-технической конференции «Проблемы передачи и обработки информации в сетях и системах телекоммуникаций», Рязань, 2004 г.; 13-ой Международной научно-технической конференции «Проблемы передачи и обработки информации в сетях и системах телекоммуникаций», Рязань, 2004 г.; VII Международной научно-практической конференции «Фундаментальные и прикладные проблемы приборостроения, информатики, экономики и права», Москва, 2004 г.

Публикации. Основные результаты диссертационной работы опубликованы в 8 печатных работах, получены 3 свидетельства о регистрации программы для ЭВМ.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы и трех приложений. Основной текст содержит 170 страниц, 29 таблиц, 12 рисунков. Список литературы состоит из 136 наименований. Приложения выполнены на 8 страницах.

Во введении дана краткая характеристика решаемой проблемы, обоснована актуальность темы, сформулированы цели исследования, кратко излагается содержание диссертации.

В первой главе определяются и рассматриваются вопросы, связанные с прогнозированием процессов с детерминированной составляющей. Основное внимание уделено проблемам, связанным с прогнозированием. Среди основополагающих необходимо отметить обеспечение необходимого качества прогноза и разработка внутренней структуры и механизма функционирования прогнозирующей системы. Описан принцип, порядок и метод построения

14 всех возможных регрессий, а также метод построения пошаговой регрессии.

Рассмотрены основные критерии прогноза, приведен метод выбора критерия, по которому осуществляется прогноз.

Во второй главе описана общая схема построения алгоритмов, реализующих метод группового учета аргументов, предложен модифицированный метод группового учета аргументов на основе процедуры оптимизации частных полиномов (с использованием механизмов эвристической селекции в последовательных рядах приближения или без использования селекции). Описана аппроксимация процессов решениями линейных дифференциальных уравнений, разработан метода группового учета аргументов на основе дифферальных частных приближений. В заключении данной главы описан метода группового учета аргументов на основе самоорганизующихся искусственных нейронных сетей .

В третьей главе предложена методика построения «наилучшей» прогнозирующей линейной модели, отличающаяся применением эволюционной стратегии поиска и векторного показателя качества для выбора группы предварительных описаний, включаемых в популяцию. Помимо использования векторного показателя качества модели разработанная методика отличается тем, что предполагает двухуровневую оценку устойчивости описания — параметрическую и структурную. Для получения этих оценок осуществляется искусственное изменение объема выборки. При этом параметрическая устойчивость характеризуется тремя показателями разброса параметров модели, а структурная устойчивость - изменением состава её регрессоров.

Четвертая глава посвящена определению структуры и параметров прогнозирующих моделей для окончательного прогноза показателей травматизма, получены результаты окончательного прогноза, оценены характеристики полученных моделей, также выявлены тенденции поведения показателей травматизма РФ в будущем. Построены модели для показателей травматизма на основе выявления и экстраполяции тенденций. В результате эври-

15 стическои самоорганизации получены структуры искусственной неиросети,

наилучшим образом описывающие той или иной, показатель травматизма.

В заключении проводится обобщение основных результатов диссертационной работы.

Существующие направления развития информационных технологий

В области информационных технологий всегда существовали два взаимодополняющих друг друга направления развития: - системы, ориентированные на операционную обработку данных — системы обработки данных (СОД); - системы, ориентированные на анализ данных - системы поддержки и принятия решений (011 IP). Но еще до недавнего прошлого, когда говорилось о стремительном вхождении в жизнь информационных технологий и росте числа реализаций информационных систем, прежде всего, имелись в виду системы, ориентированные исключительно на операционную обработку данных. И такое опережающее развитие одного из направлений вполне объяснимо.

На первых этапах автоматизации требовалось и требуется навести порядок именно в процессах повседневной рутинной обработки (переработки) данных, на что и ориентированны традиционные СОД. Более того, системы СППР являются в определенном смысле вторичными по отношению к ним. Прежде чем заниматься анализом данных, необходимо эти данные иметь. А именно это и является одной из функций СОД.

Однако за последние два-три года ситуация существенно изменилась. И это непосредственно связано с тем, что в практически любой организации сложилась парадоксальная ситуация; информация вроде бы где-то и есть, ее даже слишком много, но она не структурирована, не согласована, разрознена, не всегда достоверна, ее практически невозможно найти и получить.

Именно на разрешение этого противоречия — отсутствие информации при наличии и даже избытке - и нацелена концепция Хранилищ Данных (Data Warehouse). Но концепция Хранилища Данных, хотя и наиболее популярная, далеко не единственная концепция построения аналитических систем. Не менее известны и другие концепции: Information Warehouse, Data Mart, On-Line Analytical Processing (OLAP), Relational On-Line Analytical Processing (ROLAP).

Концепция Хранилищ Данных - это архитектура построения корпоративных информационных систем, получившая развитие вследствие желания конечных пользователей иметь непосредственный единообразный доступ к необходимым им данным, источники, происхождения которых организационно и территориально распределены, а анализ, которых может способствовать принятию решений [14]. Билл Инмон, автор концепции Хранилищ Данных, определил их как "предметно ориентированные, интегрированные, не 19 изменчивые, поддерживающие хронологию набора данных, организованные с целью поддержки управления", призванные выступать в роли "единого и единственного источника истины", обеспечивающего менеджеров и аналитиков достоверной информацией, необходимой для оперативного анализа и принятия решении [14]. Ричард Хакаторн, другой основоположник этой концепции, писал, что цель Хранилища Данных - обеспечить для организации "единый образ существующей реальности" [5].

Интеллектуальный анализ данных (ИАД, data mining) представляет собой новое направление в области информационных систем (ИС), ориентированное на решение задач поддержки принятия решений на основе количественных и качественных исследований сверхбольших массивов разнородных ретроспективных данных.

Принципиальное отличие ИАД от известных методов, используемых в существующих системах поддержки принятия решений (СППР), состоит в переходе от технологии оперативного анализа текущих ситуаций, характерной для традиционных систем обработки данных (СОД), к методам, опирающимся на мощный аппарат современной математики. ИАД имеет самые разнообразные практические применения: в экономике, торговле, системах здравоохранения, страхования и других областях.

Разработка модифицированного метода группового учета аргументов на основе процедуры оптимизации частных полиномов (МГУАоп)

По-прежнему считаем исходными данными ряд наблюдений скалярной функции векторного аргумента (уп ),/= 1,2,...,/и; 3tt =(xnixi2,...txln).

На начальном (нулевом) этапе построения приближения для каждого из аргументов функции строится свой аппроксимирующий полином. Причем степень полинома постепенно увеличивается до тех пор, пока показатель погрешности приближения проверочной последовательности не прекратит уменьшаться. Все полученные таким образом частные приближения включаются в список аргументов. Расширенный набор аргументов используется для реализации следующего шага построения модели.

На этапе алгоритма № 1 формируются полиномиальные приближения для всех возможных пар аргументов. При этом степень полинома постепенно увеличивается по той же схеме, что и на этапе № 0. Все полученные новые частные приближения также включаются в список аргументов последующего этапа.

На этапе алгоритма № г (г=2, 3, ..,) формируются полиномиальные приближения для следующих пар аргументов - первый элемент пары берется из списка аргументов этапа № г -1, а второй - из списка результатов (приближений) этапа № г -1; после исчерпания пар указанного типа формируются все возможные пары из списка результатов этапа № г-1. Степень полинома подбирается по схеме этапа № 0. Все полученные новые частные приближения включаются в список аргументов последующего этапа.

На каждом этапе алгоритма оценивается показатель погрешности приближения ег, - равный наименьшей погрешности среди погрешностей всех частных приближений этапа: єг=тіп (є{гк)) . Последовательные этапы выпол V няются до тех пор, пока наименьший показатель приближения проверочной последовательности не прекратит уменьшаться, т.е. , ,.+[. Конечным результатом алгоритма является лучшее приближение предпоследнего этапа.

Формирование набора аргументов описанного алгоритма схематично можно изобразить в следующем виде: ШагО:х-+Рт; Шаг\;Р Рт Р{1); Шаг 2 : ((0) Р(1)) & (Р(,) Р(,)) - Р{2); Шаг г : (Р( "2) Р{г 1)) & (Р{г-1) Р{г-» ) -+ {г); где символ — означает отображение вектора аргументов в вектор частных приближений функции; vi vi — операция полуумножения векторов, результатом которой является упорядоченное множество упорядоченных пар, первый элемент которых принадлежит вектору Vi, а второй — вектору Vj , v\& V2 — операция объединения векторов (элементы вектора V дополняются элементами v2).

Рассмотренный в предыдущем подпункте алгоритм автопостроения модели обеспечивает достаточно точное восстановление законов и приемлемую для многих приложений аппроксимацию процессов. Однако он имеет следующие существенные недостатки. Во-первых, он требует большого объема памяти для хранения нарастающего объема частных приближений, используемых в качестве аргументов последующих шагов алгоритма. Во-вторых, он не отсевает несущественные факторы. Случайные (за счет шумов в исходных данных) проявления их влияния на изучаемый процесс могут негативно влиять на последующие приближения, понижая точность аппрокси мации. Избавиться от указанных недостатков можно с помощью механизмов отбрасывания плохих промежуточных приближений [36].

На r-м шаге построения модели в качестве аргументов используются результаты (л--2)-го и (r-l)-ro шагов алгоритма. Используя показатель погрешности приближения (r-l)-ro шага Єм можно отбросить "плохие" аргументы. К таковым можно отнести частные приближения, показатель є погрешности которых заметно меньше (например, не менее чем в два раза) єм. Операцию выбора лучших приближений обозначим как Best(P), где Р — є вектор приближений, є — отбраковывающее значение погрешности приближения.

Автоматизация построения модели для прогнозирования процессов с детерминированной составляющей методом экстраполяции тенденций

Прогнозирование процесса y(t) методом экстраполяции тенденций предполагает построение модели процесса ${t) в виде некоторой функции времени y(t) = f(tta), где 5 = (0,),0,,...,0 ) - вектор параметров описания.

При этом алгоритм построения модели состоит из двух основных этапов: 1) определение структуры модели; 2) оценка параметров выбранной функции.

Традиционно первый этап реализуется «вручную» на основе соображений о физике прогнозируемого процесса и/или предварительной обработки статистических данных с последующим изучением диаграмм, графиков и гистограмм. Автоматически осуществляется только оценка параметров модели. Используемые для этого алгоритмы существенно зависят от выбранной структуры модели. Таким образом, во втором этапе явно просматривается ещё одна «ручная» процедура выбора метода оценки параметров.

Типовым и весьма удобным средством оценки параметров модели после «ручного» выбора её структуры y(t) = f(t,et) является функция genfitQ пакета Mathcad, схема применения которой такова:

1) формируется вектор vt значений аргумента-времени (путём ввода из текстового файла или с помощью оператора присваивания);

2) формируется вектор vy значений исследуемого процесса, соответствующих значениям элементов вектора vt (обычно путем ввода из текстового файла);

3) формируется вектор va предварительных значений параметров модели; эту операцию предпочтительней выполнить с помощью оператора присваивания;

4) определяется векторная функция модели и ее производных в виде где F — произвольный идентификатор определяемой функции; / - аргумент-время; а - вектор параметров; стрельчатые скобки о символизируют мета-информацию, т.е. вместо этих скобок с их содержимым следует записать реальные формулы функции, аппроксимирующей процесс, и её частных производных по параметрам;

5) вычисляется вектор а фактических значений параметров модели путём обращения к стандартной функции: a = ge«/?/(v ,yy,vfl,F);

6) определяется функция, аппроксимирующая исследуемый процесс: f(t);= F(t,a)Q; нижний индекс говорит о том, что в качестве аппроксимирующей функции используется начальный элемент векторной функции F(t,a);

7) функция /(;) используется для интерполяции и экстраполяции (прогнозирования) процесса y(t) путём обращения к ней с соответствующими значениями аргумента /.

Заметим следующее: 1) перед использованием функция genfitQ необходимо «вручную» выбрать вид аппроксимирующей функции f(t,a) и так же «вручную» найти её частные производные по всем параметрам; 2) функция genfitQ не находит значения параметров а модели в прямом смысле этого слова, а только уточняет их, базируясь на некотором начальном приближении va; 3) чем больше количество р параметров модели, тем более чувствителен результат их уточнения к начальным значениям, — если начальное приближение слишком далеко от искомых значений, то уточнение часто становится невозможным, и функция genfitQ завершает свой работу с выдачей признака неудачи.

Как правило, при решении практических задач исследователи применяют аппроксимирующие функции, структура которых несложна. Основные причины такого предпочтения таковы: 1) ограниченность объема выборки; для оценки р параметров модели требуется не менее р отсчётов процесса, а при «зашумленных» данных ещё больше; 2) при большом количестве параметров трудно подобрать их начальные значения, при которых любая функция уточнения, подобная genfitQ, находит решение; 3) очень часто характер поведения прогнозируемого процесса таков, что применение сравнительно простых аппроксимирующих функций даёт вполне приемлемые результаты.

Указанные причины в совокупности с тем фактом, что производительность современных компьютеров очень велика, позволяют сделать вывод о том, что уже сейчас можно предложить достаточно эффективные процедуры автоматического выбора структуры описания процесса и уточнения параметров этого описания, т.е. полностью автоматизировать процесс прогнозирования по методу выявления и экстраполяции тенденций. На это нацелена предлагаемая в данной диссертации методика, в которой осуществляется интеграция основных этапов построения модели в единую автоматическую процедуру.

Прогноз показателей производственного травматизма на основе выявления и экстраполяции тенденций

Показатель ТІ «Число пострадавших с утратой трудоспособности на 1 рабочий1 день и более (в гл. со смертельным исходом),.тыс, чел.» Модель процесса имеет вид; T\(t)- щ 4- а1е е в , где «о 137,987; а} 203,737; т :::: 0,1376; щ С.Ш56І5; і- номер года, причем і - 0 соответствует 1993 году, то есть Год 1993,

Графическое представление результатов прогноза приведено на рве. 4Д. Модель обладает етабияизашюшшш свойствами, поскольку ее вариативная часть представляет собой произведение двух ограниченных снизу функций e"iiv и е" у имеющих нулевое предельное значение. Прогноз на дтжтеяьнът период совпадает со значением постоянного члена Ті I t...K :;:: т :::- І 37,987, Прогноз ш 2005 год составляет Ті - ! 37,999. Показатель Т2 «Число пострадавших со смертельным исходом, чел.» Модель процесса имеет вид: T2(f) = а0+ a,e"J e ai , где я0 = 4173; щ = 3276; я2 = 0,00648; о3 = 0,1023; t - номер года, причем t = 0 соответствует 1993 году, то есть t = Год — 1993. Графическое представление результатов прогноза приведено на рис.4.2.

Модель обладает стабилизационными свойствами, хотя ее вариативная часть представляет собой произведение двух функций: неограниченно возрастающей е2 и ограниченной снизу е аъ , имеющей нулевое предельное значение. Предел вариативной части равен нулю 1іт[еаг е 3 )= 0. f-ЮсЛ Прогноз на длительный период совпадает со значением постоянного члена Т211- » = ao = 4173. Прогноз на 2005 год составляет Т2 = 4173,05.

Показатель ТЗ «Число пострадавших с утратой трудоспособности на 1 рабочий день и более (в т.ч. со смертельным исходом), в расчете на 1000 работающих» Модель процесса имеет вид: Ty(t) = а0 + \ах — a2sin(a3t)]e 4 , где до = 3,1263; ах = 2,9531; аг = 0,2762; аг = 1,3968; а4= 0,00884; t — номер года, причем /= 0 соответствует 1993 году, то есть ґ = Год— 1993. Графическое представление результатов прогноза приведено на рис.4.3.

Модель обладает стабилизационными свойствами, поскольку ее вариативная часть представляет собой произведение двух функций: ограниченной .2 с гармонической составляющей ах - a2sin(a3t) и ограниченной снизу е 4 , имеющей нулевое предельное значение. Предел вариативной части равен нулю limfra, - a2sin(a3t)]e att 1= 0. J-мсЛ Прогноз на длительный период совпадает со значением постоянного члена Тз I t-wo = OQ 3,1263, Прогноз на 2005 год составляет Тз = 4,0204. Показатель Т4 «Число пострадавших со смертельным исходом в расчете на 1000 работающих» Модель процесса имеет вид: g{t) = 7;(/) = ай -{а, -а25т(а,ф-а ,г, где а0 = 0,1449; ах = 0,0139; а2 = 0,0226; я3 = 0,5822; щ = 0,1044; /- номер года, причем Г = 0 соответствует 1994 году, то есть t = Год - 1994. Графическое представление результатов прогноза приведено на рис.4.4.

Модель обладает стабилизационными свойствами, поскольку ее вариативная часть представляет собой произведение двух функций: ограниченной с гармонической составляющей ах - a2sin(a3t) и ограниченной сверху -е-"4 , имеющей нулевое предельное значение. Предел вариативной части равен нулю lim(- [а, - a2sin(a3t)]e ai )= 0.

Прогноз на длительный период совпадает со значением постоянного члена T4I t- D = щ 0,1449. Прогноз на 2005 год составляет Т4 = 0,1449.

Показатель Т5 «Число человеко-дней нетрудоспособности на 1 рабочий день и более, временная нетрудоспособность которых закончилась в отчетном году, в расчете на 1000 человек»

Модель процесса имеет вид: ВД = а0 - [а, - a2sm(ait)]e 2 + аье - , где а0 = 28,2917; ах = 1,5860; а2 = 0,8543; аг = 1,5992; щ = 0,1878; as = 0,2700; а6 = 1,0500; а7 = 6,0000; t - номер года, причем t = 0 соответствует 1995 году, то есть t = Год — 1995. Графическое представление результатов прогноза приведено на рис.4.5.

Модель обладает стабилизационными свойствами, поскольку ее вариативная часть представляет собой сумму двух функций, имеющих нулевое предельное значение: - [ах - a2sin(a3t)]e aA и аъе ч{{ щ . Как следствие, предел вариативной части равен нулю lim(- [ах - а2зіп(а3ф-щ,г + о5 Г (м,)2 )= 0.

Похожие диссертации на Разработка алгоритмов и процедур повышения точности факторного прогнозирования на основе эволюционной стратегии поиска прогнозирующего описания актуального процесса