Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Программно-алгоритмическое обеспечение процесса построения статистических моделей по интервальным данным Валеев Евгений Равильевич

Программно-алгоритмическое обеспечение процесса построения статистических моделей по интервальным данным
<
Программно-алгоритмическое обеспечение процесса построения статистических моделей по интервальным данным Программно-алгоритмическое обеспечение процесса построения статистических моделей по интервальным данным Программно-алгоритмическое обеспечение процесса построения статистических моделей по интервальным данным Программно-алгоритмическое обеспечение процесса построения статистических моделей по интервальным данным Программно-алгоритмическое обеспечение процесса построения статистических моделей по интервальным данным Программно-алгоритмическое обеспечение процесса построения статистических моделей по интервальным данным Программно-алгоритмическое обеспечение процесса построения статистических моделей по интервальным данным Программно-алгоритмическое обеспечение процесса построения статистических моделей по интервальным данным Программно-алгоритмическое обеспечение процесса построения статистических моделей по интервальным данным
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Валеев Евгений Равильевич. Программно-алгоритмическое обеспечение процесса построения статистических моделей по интервальным данным : Дис. ... канд. техн. наук : 05.13.18 Иркутск, 2006 133 с. РГБ ОД, 61:06-5/2426

Содержание к диссертации

Введение

Глава 1 Анализ проблем применения методов интервального моделирования для анализа сложных объектов 9

1.1. Современный уровень состояния методологической базы построения интервальных моделей статистического типа 9

1.1. 1 Природа интервальной неопределенности в исходной информации 9

1.1.2. Описание множеств решений интервальной системы линейных алгебраических уравнений 12

1.1.3.. Применение методов интервального анализа для построения моделей с интервальной неопределенностью в информации 20

1.2. Существующее программное обеспечение процесса построения статистических моделей 27

1.3. Особенности функционирования Государственного пожарного надзора 34

Глава 2: Алгоритмическое и программное обеспечение процесса построения интервальных статистических моделей 47

2.L Принципы создания программного комплекса СИД 48

2.2. Системная и функциональная компоненты комплекса СИД 52

2.3. Особенности функционирования программного комплекса СИД ...61

2.4. Алгоритм работы комплекса СИД 64

Глава 3: Моделирование и прогнозирование функционирования системы ГІШ ГПС Иркутской области 84

3.1. Интервальная модель функционирования Государственного пожарного надзора 84

3.2, Краткосрочный прогноз деятельности ГПН ГПС Иркутской области 99

3.3. Анализ результатов моделирования и прогнозирования деятельности ГПН 105

3.4. Рекомендации, направленные на повышение эффективности деятельности органов ГПН 110

Заключение 113

Список литературы

Введение к работе

Актуальность работы. Актуальность выполненной работы обусловлена тремя основными факторами. Во-первых, возрастающей потребностью в изучении разнородных статистических данных, определяющих, в частности, качество функционирования Государственного пожарного надзора (ГПН) с целью проведения эффективной управленческой политики по снижению числа пожаров. Во-вторых, все более широким -использованием современных средств интервального моделирования сложных систем статистическими методами, что позволяет оперировать различного рода неточностями и неопределенностями в исходных данных. В-третьих, настоятельной необходимостью создания специализированного программного обеспечения (ПО), позволяющего иметь качественный инструментарий для моделирования объектов различной природы в условиях интервальной неопределенности в информации.

В настоящий момент органы пожарной охраны переживают этап модернизации и реформирования в рамках Министерства по чрезвычайным ситуациям (МЧС) РФ, изменяется стратегия их деятельности, проходят организационные и иные преобразования, затрагивающие, в том числе, и функционирование службы ГПН. Внедрение указанного специализированного ПО сегодня особенно актуально, учитывая значимость функций контроля за деятельностью ГПН и возможность встроить соответствующие системы контроля в современную структуру контролирующих органов в кратчайшие сроки при минимальных потерях ресурсов (временных, финансовых, управленческих).

Широкий разброс в значениях поступающих для анализа данных, являющийся следствием резкого возрастания информационных потоков в различных отраслях, управленческих структурах, отсутствие "жестких" методик принятия решений, реформирование государственных органов власти и управления, перевод части задач по управлению на региональный и местный уровни, как правило, приводят к появлению неточностей, неопределенностей и пропусков в данных, что обусловливает высокую актуальность применения интервальных методов.

Основной задачей органов МЧС РФ, к числу которых относится и ГПН, наряду с ликвидацией последствий стихийных бедствий и ЧС, тушением пожаров, является предотвращение их появления и прогнозирование развития ситуации при тех или иных управленческих решениях. В связи с этим особо ярко ощущается необходимость разработки соответствующего специализированного ПО, тем более, что необходимая информационно-техническая база уже имеется.

учитывая, что основная деятельность пожарной охраны направлена на защиту территорий от пожаров, р том числе на их предупреждение (профилактику), необходимость анализа и прогнозирования деятельности ГПН выходит на передний план. Это требует систематического сбора, хранения и обработки большого объема статистических данных, их анализа, своевременной выдачи результатов в приемлемом виде- Использование интервальности в данных позволяет расширить границы применения ПО и методов их обработки.

Следует отметить, что представленные в настоящей работе модели, методы и программный комплекс СИД (Система моделирования по Интервальным Данным) применимы и для анализа сложных объектов другой природы,

В своей работе автор опирается на методы интервального анализа, изложенные в известных работах КХ Херцбергера, Ю.И. Шокина, СП, Шарого, А.В. Лакеева, Н.А. Хлебалина и др. При разработке ПО использованы средства, реализующие современные методы интервального анализа в статистическом моделировании, главным образом предложенные в работах А.П. Вощинина, Г.Р. Сотирова и являющиеся основой для обработки интервальных данных при анализе статистических моделей. Особый акцент сделан на применение методологического подхода к решению модельных задач с неопределенностью в данных, предложенный СИ. Носковым.

Цель работы состоит в создании программного и алгоритмического обеспечения процесса построения статистических моделей сложных объектов по интервальным данным, разработке моделей и прогнозов деятельности ГПН, направленных на повышение эффективности его функционирования. Достижение этой цели обеспечивается разработкой:

• технологии моделирования сложных систем с использованием современных методов интервального моделирования;

• методики моделирования и краткосрочного прогнозирования развития ситуации с пожарами на основе информации о деятельности подразделений ГПН, имеющей интервальный характер- Успешное достижение указанной цели возможно посредством решения следующих задач:

1. Анализа современных средств и технологий моделирования с акцентом на те из них, которые допускают обработку интервальных данных.

2. Выработки требований к функциональной и системной компонентам программного комплекса интервального моделирования СИД.

3. Построения архитектуры программного комплекса СИД и разработки методики его практического применения.

4. Наполнения программного комплекса СИД основными и вспомогательными модулями, реализующими алгоритмы построения интервальных статистических моделей, разработки необходимого пользовательского интерфейса и средств манипулирования информацией.

5. Разработки модели функционирования ГПН Иркутской области и построения краткосрочных прогнозов его деятельности с применением программного комплекса СИД.

Теоретическую основу исследования составили методы: линейной алгебры, интервального анализа, анализа данных, исследования проблем функционирования структур пожарной охраны, современные принципы программирования.

Новизну работы составляют следующие положения:

1. Анализ возможности использования аппарата интервального анализа для моделирования и прогнозирования деятельности ГПН в условиях неопределенности в исходной информации.

2. Подход к решению проблемы выявления межфакторных взаимодействий, учитывающий эффекты сезонности и запаздывания, ввод, так называемых, коэффициентов стабилизации по сезонному признаку.

3. Разработка программного комплекса СИД, позволяющего автоматизировать основные этапы построения математических моделей статистического типа с возможной интервальностыо в обрабатываемой информации и обеспечивающего удобный пользовательский интерфейс.

4. Модель деятельности ГПН и краткосрочный прогноз его функционирования, на основе использования комплекса СИД.

5. Ряд предложений из анализа результатов моделирования и прогнозирования, реализация которых может существенно повысить эффективность деятельности ГПН и других служб пожарной охраны.

На защиту выносятся:

1. Методика построения моделей статистического типа по интервальным данным.

2. Программный комплекс СИД, обеспечивающий построение статистических моделей по интервальным данным и применение в его рамках разработанной методики.

3. Архитектура, системная и функциональная компоненты программного комплекса СИД и его модулей.

4. Предложения и рекомендации по повышению эффективности функционирования ГПН, полученные на основе анализа модели деятельности ГПН и его краткосрочного прогноза с использованием комплекса СИД.

Практическая значимость работы заключается в использовании программного комплекса СИД, разработанных на его основе моделей и прогнозов в интересах органов ГПН Главного Управления по делам гражданской обороны и чрезвычайным ситуациям Иркутской области, что позволило повысить эффективность деятельности соответствующих служб и выработать действенные решения по улучшению обстановки с пожарами в области. При этом следует отметить универсальность представленного в работе программного комплекса, заключающуюся в его применимости для анализа объектов другой природы. Комплекс СИД успешно используется для решения подобных задач и в ряде других субъектов Российской Федерации,

Апробация работы. Основные положения диссертационной работы докладывались и обсуждались на Всероссийской конференции "Информационные технологии в энергетике, экономике, экологии" (Иркутск, 2002 г.), на Всероссийской конференции с международным участием "Математические и информационные технологии в энергетике, экономике, экологии" (Иркутск, 2003 г.), на Международной научно-практической конференции "САКС-2002" (Красноярск, 2002 г.), на Международной конференции "Инфотелекоммуника-ционные системы в технике, экономике и образовании" (Ташкент, 2004 г.), на семинарах в Иркутском Государственном университете путей сообщения и в Восточно-Сибирском институте МВД России.

Публикации. По теме диссертации опубликовано шесть печатных работ.

Природа интервальной неопределенности в исходной информации

Основной проблемой, связанной с оцениванием параметров интервальной линейной статистической зависимости, является проблема отыскания решения интервальной системы линейных алгебраических уравнений (ИСЛАУ). G Z = S8, (1.3) где $$ - интервальная вещественная матрица размерности (пхт)9 Ш — п-мерный интервальный вектор, элементами которых являются соответственно интервалы \аша \ и [b 9b ]9 zeRm. Множество решений системы (13) может быть определено различными способами в зависимости от того, какими кванторами связаны коэффициенты матрицы и вектора в правой части уравнения. Наиболее часто в литературе рассматриваются следующие множества решений ИСЛАУ [62]: Ri={zeRm\ ЗСє $ґ ЗсєШ Cz = c} 2 = {zeR "\ V С є &f ЗсєШ Cz c) % {zeRm\ УсеШ ЗСє&ІЇ Cz = c] (1.4) Л,= {z єR " J (VCeQ/ Зеє Cz-c)& (VrfeSB 3 єс Z z = rf)}

Множества решений ,,., / = 1,4 могут принимать различные эквивалентные формы и представления, широко описанные в литературе (см., например, [23, 30, 31,44,62,101]): %t = {aeIT\ ([Х-,Х+]а)П[у-,у ] Щ (2={аєіГ [Х-,Х+]ас[у-,у+]} аи-{аєЛ" [ГД э[у-,/]} (1.5) Здесь X" = Х+ = - матрицы нижних и верхних границ истинных значений независимых переменных размерностью (пхт), а у - (у 9 ,,.? у )г, у ={у%. .9у1)Т - вектора нижних и верхних границ истинных значений зависимой переменной соответственно. Очевидны следующие отношения между множествами решений ., / = 1,4 [62]: (Ьб)

Решение задачи оценивания параметров линейной регрессии (1.1) с учетом присутствия интервальности в исходных данных и в предположении, что между зависимой переменной у и независимыми переменными хп і-\,т существует линейная связь, заключается в построении одного из приведенных в (1.5) множеств решений.

Существует множество постановок этой задачи и различные их решения. Так, в [23] формулируется задача построения множества решений при интервальном задании только значений выходных переменных, что объясняется присутствием ошибок измерения (абсолютных или относительных). Другими словами, рассматривается множество решений, совпадающее с , и 4 2, при следующих условиях: зависимость между выходной и независимыми переменными описывается линейнолараметризовашюй функцией, данные эксперимента описываются совокупностью п опытов, независимые переменные заданы точечными значениями. Тогда в этом случае: т Я]=Я2 = {аеКт\ у; хкі У; для всех к = \,п} (1.7)

В целях облегчения работы с множествами ,,, %2, заданными в виде (1.7), в [23] предлагается способ их приближенного более простого описания прямоугольной гиперпризмой П+т где: ІҐ ={ає/Г a; af a; i = ljn}9 І (1.8) а граничные точки а] и а] могут быть вычислены как решения 2т задач линейного программирования: aj - min as a = max ar (1.9)

Часто исследователю достаточно иметь лишь точечную оценку коэффициентов интервальной линейной регрессии, обладающую некоторыми оптимальными свойствами, В [23] предлагается искать оптимальную оценку, как наиболее точную при всех возможных значениях вектора истинных коэффициентов 6, а ошибку До произвольной точечной оценки а определять как максимально возможное расстояние между а и неизвестным вектором Ь: Дд == max а-й = max JY(a,-)2 (1.10) ь b Ум Используя формулу (ЇЛО), в [23] предлагаются некоторые способы получения точечной оценки на основе множества

Применение методов интервального анализа для построения моделей с интервальной неопределенностью в информации

Построение спецификации модели невозможно без определения критериев отбора наиболее адекватных уравнений, В регрессионном анализе существует целая система критериев адекватности статистических зависимостей (см,, например, [33, 345 58, 62, 83]), при условии оценивания параметров линейной регрессии с помощью МНК, что позволяет оценить адекватность построенной модели, провести многокритериальный отбор, т.е. реализовать конкурс моделей. Для выбора наилучшего варианта из множества построенных уравнений в данном случае целесообразно применять два наиболее часто используемых критерия: множественной детерминации R и F-критерий Фишера, определяющих в совокупности уровень значимости вхрдящих в правые части уравнений переменных. Рассмотрим их подробнее [62]:

1, Критерий множественной детерминации R, выражающий степень согласованности вычисленных и фактических значений зависимой переменной и представляющий собой квадрат коэффициента корреляции между соответствующими векторами. Формула расчета имеет вид: ] « где ук, к = 1,п - вычисленные значения зависимой переменной, у = — .у, п J=x среднее значение у. Легко видеть, что всегда R є [0,1]- В данной работе значение критерия множественной детерминации, при котором уравнение модели признается адекватным реальному объекту, принято равным 0.75.

2. F-критерий Фишера, показывающий отношение дисперсии фактических значений у к остаточной дисперсии.

В зависимости от существующих вариантов интерпретации этого критерия, он указывает на: отсутствие (или наличие) линейной связи зависимой переменной с одной из независимых; значимость критерия R; степень линейности уравнения. F-критерий рассчитывают по формуле:

(1-R)(m-1) F-критерий имеет статистический характер и требует использования соответствующих таблиц F-распределения. При превышении значения F над табличным подтверждается надежность регрессионной модели, значение считается удовлетворительным- В любом случае значение F-критерия тем лучше, чем оно»выше, В данной работе нижняя фаница F-критерия, при которой уравнение модели считается удовлетворительным, принята равной 10,

На этапе построения общей спецификации модели, используя указанные выше критерии отбора, проводится конкурс моделей. В первую очередь рассматривается та зависимая переменная, коэффициент корреляции которой с одной из независимых максимален по модулю. Методом полного перебора формируется набор регрессоров, участвующих в уравнении. Для полученного уравнения вычисляются значения критериев, по результатам которых выбирается наилучший вариант и осуществляется переход к рассмотрению следующей зависимой переменной. При этом уже определенные зависимые переменные могут участвовать в переборе в качестве регрессоров. Следует отметить, что в случае, когда заранее известны направления влияния входных переменных (знаки коэффициентов) на зависимую, нарушение знаков коэффициентов полученных уравнений установленным ранее указывает на нецелесообразность их дальнейшего рассмотрения и позволяет исключить их из участия в конкурсе, В случае если такое влияние заранее неизвестно, все построенные варианты пригодны и могут участвовать в конкурсе-После определения наилучших уравнений для всех зависимых переменных переходим к следующему этапу - непосредственному построению модели. К этому моменту имеем общую спецификацию модели, причем с уже известными знаками коэффициентов, часть из которых была задана экспертным путем, а недостающие знаки были определены на предыдущем этапе.

На этапе построения модели строится ИСЛЛУ вида (1.3), а с учетом того, что знаки коэффициентов ИЛСЗ известны, для построения статистической модели используются множества решений (1-14).

В первую очередь выбирается текущее уравнение для обработки. Выбор текущего уравнения производится в порядке уменьшения модуля коэффициента корреляции зависимой переменной с одной из остальных (используется матрица парных корреляций). Затем для выбранного уравнения определяется множество решений 0 , / = 1 4 вида (1.14). ИСЛАУ строится согласно выбранному множеству решений, после чего полученная система проверяется на совместность. Цальнейшие вычисления развиваются по трем различным направлениям.

В первом случае (случай несовместности) система уравнений дополняется вспомогательными переменными, причем влияние этих переменных необходимо минимизировать, т.е. искать, как предлагается в [23], квазирешение.

Особенности функционирования программного комплекса СИД

В случае указания нескольких параметров, они разделяются пробелом. Значения параметров указываются через символ ":" (например, "/i:Ltxt /х;1 /w").

При возникновении ошибки в указаниях параметров, а также при запуске с параметром "/?", система математической обработки выведет на экран справочную информацию.

Таким образом, управляющая система организует запуск системы математической обработки с необходимыми параметрами и, тем самым, обозначает свое присутствие, передает требуемую первоначальную информацию. Ключевая роль управления, контроля, мониторинга и взаимодействия при этом отводится так называемому процедурному файлу. Посредством чтения-записи служебной информации и данных, необходимых в определенные моменты функционирования комплекса, происходит "общение" управляющей системы и системы математической обработки. К служебной информации относятся управляющие сигналы, отображающие состояние СМО, запросы к приему дополнительной информации, индикация наличия промежуточных и результирующих данных, сведения об ошибках и принудительном прерывании процесса вычислений.

При этом на управляющую систему не накладывается никаких ограничений по внешнему виду, характеру используемых стандартов и протоколов работы, источнику исходных данных, за исключением соблюдения указанных правил запуска и взаимодействия, определенной структуры входных, выходных и промежуточных файлов, используемых для внутреннего взаимодействия.

Программный комплекс СИД оперирует тремя типами исходных данных. Во-первых, это статистические данные интервального характера, содержащие ретроспективную информацию об объекте исследования. Сюда же относятся данные о размерности выборки, зависимых и независимых переменных. Во-вторых, матрица смежности Н, формируемая на основе экспертных данных и представлений о деятельности объекта исследования. Матрица смежности Н представляет собой квадратную матрицу, размерность которой равна числу регрессоров, участвующих в обработке. Элементы матрицы указывают на направление влияния переменных друг на друга. Так, если с ростом значений переменной / значение у-ой переменной из содержательных соображений должно увеличиваться, элементу h.- матрицы присваивается значение "1", в противном случае - "-Г\ Если же это влияние неизвестно или отсутствует, h-} = 0. В третьих, данные о будущих значениях экзогенных переменных (прогнозные данные), которые также могут иметь интервальный характер.

В качестве выходной информации комплекс выдает данные об объекте исследования, общин протокол работы, прогнозную информацию в табличной и графической формах. Поясним, что к числу данных об исследуемом объекте относятся: во-первых, матрица парных корреляций; во-вторых, общая спецификация модели; в-третьих, сама модель, представленная в виде системы линейных уравнений- Общий протокол работы представляет собой текстовую справочную информацию о функционировании комплекса и содержит пояснения к выполняемым действиям. Как следствие, он включает данные обо всех этапах работы и, в частности, обо всех уравнениях, участвующих в конкурсе моделей. Прогнозная информация содержит вычисленные значения эндогенных переменных на глубину прогнозного периода и может быть отображена в табличном или графическом виде.

Этапы проектирования и разработки, относящиеся к непосредственной реализации составных частей комплекса, модулей и блоков, последующей отладке программных компонент комплекса и разработке информационно-справочной системы заключаются в программной реализации алгоритмической и системной составляющих функциональной структуры комплекса СИД.

Функциональные схемы работы комплекса, отображающие структурные и системные особенности, методика запуска, управления и взаимодействия, характер используемых данных, описанные в предыдущих параграфах, дают представление о системной составляющей функциональной структуры комплекса. Таким образом, дальнейшие действия должны быть ориентированы на построение алгоритмической составляющей функционального представления комплекса.

Общий алгоритм работы комплекса СИД приведен на рис, 2.10. Данный алгоритм отражает действия комплекса, в составе которого находятся две системы; управляющая (УС) и математической обработки (СМО).

Краткосрочный прогноз деятельности ГПН ГПС Иркутской области

Однако полученная информация не отражает действительных значений объекта исследования на ближайшую перспективу. Для получения реальных прогнозных данных необходимо провести процедуру, обратную введению коэффициентов сезонности и запаздывания. Таким образом, в результате выполнения всех необходимых преобразований получаем интервальные прогнозные данные на указанный период, отражающие обстановку с пожарами и последствиями от них, зависящую от деятельности органов ГПН, приведенные в таблице 3-І 1.

Для оценки точности полученных прогнозных данных и соответствия их реальным значениям построим графики сравнительных значений для каждого из имеющихся выходных факторов Х9 — XI2, При построении графиков будем руководствоваться следующим соображением практического характера -вследствие незначительной ширины представленных в таблице 3.11 интервалов построение прогнозной кривой будет вестись на срединных значениях полученных интервальных данных- Данное допущение не влияет на точность прогноза и дает возможность отобразить графики в более удобном для анализа виде.

Упомянутые графики представлены на рис, 3.1 - 3,4. Рассматривая детально каждый из них в отдельности, можно сделать следующие выводы:

1- Показатель Х9 - общее число пожаров. Вычисленная кривая в достаточно высокой степени совпадает с реальными значениями. Небольшое отклонение в 1-ом квартале говорит о существенном влиянии сезонного фактора. Более детальный анализ позволяет сделать следующее предположение - объем первичных интервальных данных, на котором строилась модель и получены соответствующие прогнозные значения, недостаточен. Глубина прогнозного периода в 4 квартала сравнима с объемом исходных данных (10 кварталов), вследствие чего в прогнозных данных неизбежно будут присутствовать отклонения. При увеличении объема реальных исходных данных (увеличение глубины экспертной выборки) эти отклонения будут все в большей степени стремиться к минимуму. Это замечание касается также и других выходных показателей (XI0-X12).

2. Показатель Х10 - число пожаров, произошедших по причине неосторожного обращения с огнем. График, как и в предыдущем случае, показывает очень хорошую степень приближения к реальным результатам. Выпадение 4-го квартала при более пристальном рассмотрении объясняется влиянием следующих факторов: наступление зимнего пожароопасного периода (сезонный фактор, зависящий от погодных условий); смена подчиненности органов ГПС (переход службы из подчинения ведомства МВД в ведение МЧС). Немалую роль при этом играет частичная смена кадрового состава работников ГПН (увольнение опытных работников, приход не имеющего практического опыта персонала из выпускников пожарно-технических вузов). Вследствие этого, при достаточно точно спрогнозированном для 4-го квартала показателе "Общее число пожаров", имеется расхождение по отдельным причинам возникновения пожаров,

3. Показатель XII - число пожаров, произошедших по причине нарушения правил пожарной безопасности при эксплуатации оборудования, бытовых приборов и печей. Характер кривой, показывающей вычисленные значения, в достаточной мере совпадает с поведением линии, представляющей реальные значения. Существенное расхождение динамики наблюдается только в отношении 4-го квартала. Здесь играют роль те же факторы, что были отмечены для показателей "Общее число пожаров" и "Число пожаров, произошедших по причине неосторожного обращения с огнем". Кроме этого следует отметить, что построенное уравнение модели, описывающее поведение данного показателя, включает лишь один значимый регрессор ("Общее число пожаров").

Соответственно, можно сделать вывод, что либо не все значимые показатели были учтены при формировании репрессоров, либо существуют значимые факторы, которые не отражены в имеющихся статистических показателях профилактической работы.

Похожие диссертации на Программно-алгоритмическое обеспечение процесса построения статистических моделей по интервальным данным