Исследование и разработка правил выбора методов анализа данных для интеллектуализированных систем прикладной статистики Лери Марина Муксумовна

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Лери Марина Муксумовна. Исследование и разработка правил выбора методов анализа данных для интеллектуализированных систем прикладной статистики : диссертация ... кандидата технических наук : 05.13.18.- Петрозаводск, 2006.- 214 с.: ил. РГБ ОД, 61 06-5/3778

Содержание к диссертации

Введение

1 Построение датчиков псевдослучайных чисел 13

1.1 Имитационное моделирование и датчики псевдослучайных чисел 13

1.2 Алгоритмы датчиков псевдослучайных чисел 17

1.3 Методика проведения экспериментов 24

1.4 Результаты и выводы 27

2 Исследование критериев согласия 30

2.1 Критерии согласия 30

2.2 Алгоритмы критериев согласия 38

2.3 Методика проведения экспериментов 55

2.4 Результаты и выводы 62

3 Исследование методов регрессионного анализа 73

3.1 Методы поиска наиболее информативного множества признаков 73

3.2 Задача А. Н. Колмогорова 91

3.3 Методика исследований 93

3.4 Результаты исследований и выводы 103

Заключение 126

Литература 128

Приложение 1. Копия свидетельства об официальной регистрации программы для ЭВМ 134

Приложение 2. Результаты проверки датчиков псевдослучайных чисел 135

Приложение 3, Модели функций мощности критериев согласия 150 Приложение 4. Результаты экспериментов по регрессионному

анализу 176

Имитационное моделирование и датчики псевдослучайных чисел
Критерии согласия
Методы поиска наиболее информативного множества признаков

Введение к работе

Актуальность темы. Использование методов прикладной статистики за последние десятилетия вышло на качественно новый уровень и приобрело массовый характер. Все более широкое распространение получают программные средства, предназначенные для статистического анализа данных. Однако, до сих пор острой остается проблема некорректного использования статистического программного обеспечения. Это связано с тем, что уровень статистического образования многих пользователей оказывается недостаточным, а наиболее известные зарубежные продукты почти не содержат функций помощи при выборе метода анализа данных и обучения работе с существующими методами. Поэтому, одним из актуальных направлений разработки отечественного статистического программного обеспечения остается работа над его интеллектуализацией, т.е. над созданием программных средств статистического анализа данных, предназначенных не только для решения задач методами прикладной статистики, но и содержащих развитые информационно-справочные и экспертные системы. Такие системы должны включать в себя сведения обо всех используемых в пакете понятиях и методах математической статистики и помогать пользователю при выборе метода решения задачи, режима работы соответствующей программы и при интерпретации полученных результатов. Рекомендации, предлагаемые системой, должны быть обоснованы, однако современная математическая теория на многие возникающие здесь конкретные вопросы ответа не дает, поэтому для разработки экспертных правил необходимо проводить соответствующие исследования.

Автор диссертации является одним из разработчиков системы "Статистик-Консультант" - специализированного методо-ориентиро-ванного статистического комплекса программ, исторически первого отечественного пакета такого типа, созданного в среде Windows, и получившего высокую оценку специалистов. В ходе создания экспертной системы пакета возникли вопросы, связанные с выбором методов анализа данных среди нескольких альтернатив.

В диссертации рассматриваются вопросы разработки рекомендаций по выбору метода анализа данных для двух групп методов. Рассмотрены выбор критерия согласия и выбор метода поиска наибо-

лее информативного множества признаков в линейном регрессионном анализе.

Цель исследования. Целью диссертационной работы является построение математических моделей и разработка рекомендаций, используемых при выборе методов анализа данных в интеллектуализи-рованном программном обеспечении прикладной статистики.

Объекты исследования. Объектами исследования были датчики псевдослучайных чисел и две группы методов статистического анализа данных: три критерия согласия и шесть методов поиска наиболее информативного множества признаков (ПНИМП) в линейном регрессионном анализе.

Методы исследования. Исследование методов анализа данных и сравнение получаемых с их помощью результатов аналитическим путем представляется весьма затруднительным, особенно вследствие того, что необходимо учитывать различные условия возникновения данных. Одним из путей решения этой проблемы предлагается метод статистических испытаний (метод Монте-Карло), который приобретает все большую популярность при сравнении методов анализа данных. Этот метод и был выбран в качестве основного метода исследования в диссертации. Кроме того, использовались методы оценивания параметров, методы проверки статистических гипотез, методы линейного регрессионного анализа. Основную сложность при получении результатов, несмотря на существенную автоматизацию процесса, представлял объем вычислительных экспериментов, так, например, трудозатраты на проведение экспериментов составили не менее 2000 чел .-дней.

Научная новизна. Все основные результаты диссертации являются новыми. В частности, впервые получены модели зависимостей мощностей критериев согласия от уровня значимости, объема выборки и значений параметров проверяемых гипотез, разработаны рекомендации пользователям по выбору критериев согласия в статистическом программном обеспечении и по определению некоторых условий проведения экспериментов при их планировании. Также впервые проведено сравнение шести методов поиска наиболее информативного множества признаков в линейном регрессионном анализе по вероятности возникновения эффекта "вздувания" коэффициента детер-

минации. Получены модели взаимной зависимости числа регрессоров, включаемых в начальный набор, параметров методов и числа случаев ошибочной работы методов и разработаны рекомендации по выбору метода поиска наиболее информативного множества признаков в линейном регрессионном анализе.

Основные результаты диссертации, выносимые на защиту: На защиту выносятся:

Комплекс программ, реализующий систему датчиков псевдослучайных чисел и процедуры критериев согласия. Эти программы включены в статистический пакет "Статистик-Консультант".
Модели зависимостей функций мощностей критериев согласия Пирсона, Колмогорова-Смирнова и пустых ящиков от параметров проверяемых гипотез. На основе этих моделей разработаны рекомендации пользователям по выбору критериев согласия.
Модели взаимной зависимости параметров методов ПНИМП, числа регрессоров и вероятности возникновения эффекта "вздувания" коэффициента детерминации. Установлено, что этот эффект является главным лимитирующим фактором при выборе метода поиска наиболее информативного множества признаков. На основе построенных моделей разработаны рекомендации по выбору методов линейного регрессионного анализа, направленные на снижение вероятности возникновения эффекта "вздувания" коэффициента детерминации.

Связь работы с крупными научными программами, темами. Результаты диссертации были получены в рамках трех тем планов научно-исследовательских работ Института прикладных математических исследований Карельского научного центра РАН: "Исследование и разработка методов математической статистики и теории многокритериальных задач с целью их реализации в интеллектуали-зированных системах" (№ гос. регистрации 01.9.40009930), "Исследование и разработка методов создания интеллектуальных систем статистического анализа данных" (№ гос. регистрации 01.9.80009162) и "Разработка методов исследования случайных структур и их применения при принятии статистических решений" (№ гос. регистрации

01.200.202223). В 199б-1997г. исследования"проводились при поддержке Российского Фонда Фундаментальных Исследований (грант 96-01-00162). В 2000г. работа была поддержана грантом конкурса персональных грантов для студентов, аспирантов и молодых ученых проведенного Администрацией Санкт-Петербурга, Министерством образования РФ и РАН при участии ФЦП "Интеграция". В 2001г. был получен грант Российского Фонда Фундаментальных Исследований (грант 01-01-10850) для участия в VI международной конференции "Computer Data Analysis and Modeling: Robustness and Computer Intensive Methods" (Минск, Белоруссия).

Апробация результатов диссертации. Основные результаты докладывались на международной конференции "Computer Data Analysis and Modeling" (Минск, 1995), Шестой научной конференции стран СНГ "Применение многомерного статистического анализа в экономике и оценке качества продукции" (Москва, 1997), Первом Всероссийском симпозиуме по прикладной и промышленной математике (Петрозаводск, 2000), Всероссийской научной школе "Математические методы в экологии" (Петрозаводск, 2001), Шестой международной конференции "Computer Data Analysis and Modeling: Robustness and Computer Intensive Methods" (Минск, 2001), Российско-Скандинавском симпозиуме "Probability Theory and Applied Probability" (Петрозаводск, 2006).

Публикация результатов. Основные результаты диссертации опубликованы в десяти работах, из них свидетельство об официальной регистрации программы для ЭВМ, три статьи в трудах международных конференций, две статьи в сборниках трудов Петрозаводского государственного университета и Института прикладных математических исследований Карельского научного центра РАН и четверо тезисов докладов на международных и всероссийских конференциях.

Структура и объем диссертации. Диссертация состоит из введения, трех глав, заключения, списка литературы и 4 приложений. Объем диссертации без приложений составляет 133 страницы, объем приложений — 81 страница. Список литературы содержит 61 наименование.

Имитационное моделирование и датчики псевдослучайных чисел

В тех случаях, когда идет речь об изучении реальных явлений, моделирование связанных с ними случайных величин вместо использования фактических данных называется имитационным моделированием (см., например, [15.44]). Имитационные модели, в отличие от аналитических, позволяют достаточно просто учитывать случайные воздействия и другие факторы, которые создают трудности при аналитическом исследовании [16,46]. Имитационное моделирование широко применяют в таких областях, как автоматизация проектирования и научных исследований, системы массового обслуживания, анализ различных сторон деятельности человека, автоматизированное управление производственными и другими процессами. Важно подчеркнуть, что моделирование используется при проектировании, создании, внедрении, эксплуатации систем, а также на различных уровнях их изучения, начиная от анализа работы элементов и кончая исследованием системы в целом при их взаимодействии с окружающей средой. Широкое использование этого метода для решения прикладных задач обусловлено тем, что многие процессы природы и общества требуют теоретико-вероятностного подхода к их описанию.

Использование имитационного моделирования тесно связано с раз витием и внедрением вычислительной техники во все сферы научных исследований. Имитационная модель представляет собой программно реализованный алгоритм, имитирующий поведение и взаимодействие элементов исследуемой системы с учетом случайных входных воздействий и воздействий внешней среды [15,46]. При имитационном моделировании структура реальной системы отображается в модели, а процесс ее функционирования имитируется на построенной модели. Под имитацией понимают проведение на компьютерах различных серий экспериментов с моделями, которые представлены в качестве некоторого набора или комплекса компьютерных программ. Особую роль играет возможность многократного воспроизведения моделируемых процессов с последующей их статистической обработкой, позволяющая учитывать случайные внешние воздействия на изучаемый объект. На основе получаемых в ходе компьютерных экспериментов статистических данных делаются выводы в пользу того или иного варианта функционирования или конструкции реального объекта или сущности явления [16,46].

Для имитационного моделирования характерно, что большое число операций, а соответственно большая доля машинного времени, расходуются на действия со случайными числами. Следовательно, результаты моделирования существенно зависят от качества исходных (базовых) последовательностей случайных чисел, поэтому наличие простых и экономичных способов формирования последовательностей случайных чисел требуемого качества во многом определяет возможность практического использования компьютерного моделирования системы.

Метод моделирования случайных величин с целью вычисления характеристик их распределений известен как метод Монте-Карло [15] (или метод статистических испытаний). Процесс получения на ЭВМ последовательностей выборочных значений случайной величины с заданным распределением принято называть моделированием случайной величины. Конечно, последовательность чисел, порождаемая любым алгоритмом, не может считаться случайной, если под случайной последовательностью понимать результат серии независимых испытаний, в которых все исходы равновероятны. Однако [17], вполне достаточно того, что эта последовательность в приложениях выглядит как случайная. В научно-технической литературе последовательности, вырабатываемые детерминистскими способами, называются псевдослучайными [17], а компьютерные программы, с помощью которых можно получить такие последовательности, называют датчиками (генераторами) псевдослучайных чисел.

Критерии согласия

Критерий х2 Пирсона

Шаг 1. Ввод гипотетического закона распределения Fmod-Для проверки гипотезы о соответствии выборки некоторому заданному пользователем закону распределения вероятностей, предлагается выбрать один из следующих законов:

Дискретные законы распределения: Вернулли, биномиальный, отрицательно-биномиальный, Пуассона, геометрический. Непрерывные законы распределения: равномерный, нормальный, лог-нормальный, хи-квадрат, Стьюдента, Фишера, бета, гамма, экспоненциальный, Колмогорова.

Выбор этих законов распределения объясняется тем, что, как показали исследования [33], именно эти законы чаще всего используются в практических приложениях (на примере Карельского научного центра РАН).

Шаг 2. Ввод исходных данных.

Вводится выборка, которую нужно проверить на соответствие заданному на Шаге 1 закону распределения. Вне зависимости от выбранного закона распределения значения элементов выборки не должны быть меньше самого малого и больше самого большого допустимого для компьютерных вычислений числа. Далее, в зависимости от выбранного закона распределения, значения выборки должны соответствовать следующим условиям:

о для закона распределения Вернулли: выборка должна содержать два значения, каждое из которых должно встречаться в выборке не менее пяти раз;

о для биномиального, отрицательно-биномиального, Пуассона и геометрического законов распределения: выборка должна содержать только целые неотрицательные значения;

о для логпормального закона распределения: выборка должна содержать только положительные значения; о для законов распределения хи-квадрат, Фишера, гамма, экспоненциального и Колмогорова: выборка должна содержать только неотрицательные значения;

о для закона распределения бета: значения выборки должны принадлежать интервалу [0,1];

о для равномерного, нормального и распределения Стъюдентл: ограничений на значения выборки не накладывается.

Если для выбранного закона распределения какое-то из условий оказывается невыполненным, программа сообщает об ошибке и предлагает ввести другие данные. Те же самые действия будут предприняты и в случае, если п s + 1, где п - число элементов выборки, s - число параметров выбранного гипотетического закона распределения. Шаг 3. Сортировка выборки.

В целях упрощения дальнейшего разбиения на интервалы области значений исследуемой случайной величины, выборка сортируется в порядке возрастания значений ее элементов. В статистическом пакете "Статистик-Консультант" в качестве метода сортировки был использован "метод пузырька", алгоритм которого можно найти в литературе [18]. Если выборка проверяется на соответствие одному из дискретных законов распределения, кроме распределения Бернулли, она сортируется независимо от ее объема. В случае проверки выборки на закон Бернулли, еще в ходе осуществления проверки исходных данных на Шаге 2, определяются два значения выборки и количество элементов выборки, соответствующих этим значениям. При проверке на соответствие выборки одному из непрерывных законов распределения сортируется только выборка, число элементов которой не превышает 200, в противном случае для данной выборки находятся минимальное и максимальное значения ее элементов: хт\п и жтах. Разделение алгоритма на эти две ветви было обусловлено двумя причинами: во-первых, длительностью процедуры сортировки выборок с большим числом элементов и, во-вторых, разницей в подходах к разбиению на интервалы (см. Шаг 5), которые были реализованы для упрощения алгоритма разбиения.

Методы поиска наиболее информативного множества признаков

Минимальный набор регрессоров, которые можно включить в модель таким образом, чтобы она адекватно (в каком-то определенном смысле) описывала изучаемое явление, называется наиболее информативным множеством признаков. В регрессионном анализе разработан целый ряд методов поиска такого множества, которые обычно называются (см., например, [4]) методами поиска наиболее информативного множества признаков (далее ПНИМП). В данной главе речь будет идти о следующих методах ПНИМП:

- метод всех возможных регрессий;

- методы ветвей и границ:

- классический (без поиска простейшей модели),

- с поиском простейшей модели;

- пошаговые методы:

- метод включения,

- метод исключения,

- комбинированный метод.

Суть каждого из методов состоит в том, что он осуществляет перебор регрессионных моделей, которые можно построить на основе данного начального набора регрессоров, с целью нахождения среди них "наилучшей". Поясним, что в диссертации понимается под "наилучшей" моделью. Полной моделью назовем уравнение регрессии, содержащее все регрессо-ры из начального набора. Моделью, адекватной полной, назовем такую ее подмодель, которая не отличается статистически значимо (в смысле некоторого критерия) от полной, но содержит меньше регрессоров. Под "наилучшее будем понимать модель, которая среди всех моделей, адекватных полной, содержит наименьшее число регрессоров. Включение модели в множество моделей, адекватных полной, производится с помощью критериев качества уравнения регрессии. Одним из показателей качества модели является коэффициент детерминации І?2, где R - выборочный коэффициент множественной корреляции (см., например, [40]).

Отличие методов ПНИМП друг от друга состоит в алгоритмах перебора возможных моделей.

Для того, чтобы найти "наилучшую" линейную регрессионную модель на основе начального набора, состоящего из к регрессоров, достаточно перебрать все уравнения, содержащие 0,1,..., к предикторов. Такой подход гарантирует решение поставленной задачи, хотя его недостатком является большой объем необходимых вычислений. Если мы хотим построить регрессионную модель на основе к предикторов, то, как нетрудно видеть, использование этого метода поставит нас перед необходимостью просмотра 2k моделей. Даже при современном развитии вычислительной техники исследования показывают, что при к 30 время счета становится довольно большим. Из оценки 2к видно, что при добавлении всего одного регресеора в начальный набор время счета, в одних и тех же условиях, грубо говоря, удваивается. Именно поэтому в свое время [7,14,40] большое внимание было уделено разработке эффективных алгоритмов перебора регрессионных моделей. Такие алгоритмы должны удовлетворять следующим требованиям:

- переход от одного набора регрессоров к другому должен осуществляться путем добавления или отбрасывания только одной переменной;

- любой набор регрессоров должен генерироваться только один раз,

Исследование и разработка правил выбора методов анализа данных для интеллектуализированных систем прикладной статистики Лери Марина Муксумовна

Имитационное моделирование и датчики псевдослучайных чисел

Критерии согласия

Методы поиска наиболее информативного множества признаков

Похожие диссертации на Исследование и разработка правил выбора методов анализа данных для интеллектуализированных систем прикладной статистики