Разработка и исследование методов байесовского оценивания параметров распределений и оптимального группирования данных Тишковская Светлана Владимировна

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Тишковская Светлана Владимировна. Разработка и исследование методов байесовского оценивания параметров распределений и оптимального группирования данных : диссертация ... кандидата технических наук : 05.13.16.- Новосибирск, 2000.- 152 с.: ил. РГБ ОД, 61 00-5/2280-0

Содержание к диссертации

Введение

1. Постановка и обоснование задач исследования . 14

1.1. Используемые структуры данных 14

1.2. Байесовский подход к оцениванию параметров распределений 16

1.2.1. Байесовский вывод в структуре частично группированных данных 17

1.2.2. Выбор априорной функции плотности 19

1.2.3. Выбор функции потерь 20

1.3. Применение байесовского оценивания в структуре группированных данных в теории надежности 21

1.4. Оценивание параметров распределений и группированные структуры данных 22

1.5. Способы группирования данных 27

1.6. Выводы 30

2. Байесовское оценивание параметров распределений в структуре группированных данных 31

2.1. Построение байесовских оценок в структуре группированных данных . 31

2.1.1. Алгоритм построения байесовских оценок в структуре группированных данных 31

2.1.2. Модель экспоненциального распределения с априорным гамма-распределением 33

2.1.3. Модель равномерного распределения с априорным распределением Парето 35

2.1.4. Модель равномерного распределения с неинформативным априорным распределением 36

2.2. Асимптотические свойства байесовских оценок в структуре группированных данных 37

2.2.1. Поведение байесовских оценок в структуре группированных данных при больших выборках 37

2.2.2. Поведение байесовских оценок в структуре группированных данных при увеличении числа интервалов группирования 39

2.3. Выводы 43

3. Оптимальное группирование данных в байесовском оценивании 45

3.1. Оптимальное группирование, соответствующее минимуму байесовского риска 45

3.1.1. Критерий минимума байесовского риска 45

3.1.2. Аппроксимация байесовского риска при больших выборках 47

3.2. Оптимальное группирование, минимизирующее информационные потери 52

3.2.1. Информационный критерий 52

3.2.2. Аппроксимация информационного функционала при больших выборках 54

3.3. Выводы 55

4. Оптимальное группирование данных для модели экспоненциального распределения 56

4.1. Группирование в соответствии с критерием минимума байесовского риска 57

4.1.1. Оптимальное группирование 57

4.1.1.1. Численное исследование поведения байесовского риска в структуре группированных данных 59

4.1.1.2. Оптимальное группирование в случае неравноотстоящих групповых пределов 64

4.1.1.3. Оптимальное группирование в случае равноотстоящих групповых пределов 65

4.1.2. Асимптотически оптимальное группирование 70

4.1.2.1. Аппроксимация байесовского риска для модели экспоненциального распределения 70

4.1.2.2. Решение задачи асимптотически оптимального группирования 81

4.2. Группирование в соответствии с критерием минимума информационных потерь 85

4.2.1. Оптимальное группирование 85

4.2.1.1. Численное исследование поведения информационного функционала в структуре группированных данных 87

4.2.1.2. Оптимальное группирование в случае неравноотстоящих групповых пределов 92

4.2.1.3. Оптимальное группирование в случае равноотстоящих групповых пределов 93

4.2.2. Асимптотически оптимальное группирование 97

4.2.2.1. Аппроксимация информационных потерь для модели экспоненциального распределения 97

4.2.2.2. Решение задачи асимптотически оптимального группирования 106

4.3. Выводы 108

5. Программное обеспечение задачи оптимального группирования данных в байесовском оценивании и решение прикладных задач с использованием байесовского подхода 113

5.1. Программное обеспечение байесовского оценивания параметров распределений в структуре группированных данных и задачи оптимального и асимптотически оптимального группирования данных в байесовском оценивании 113

5.1.1. Описание общей структуры и функционального назначения программной системы 113

5.1.2. Описание отдельных модулей программы и их функционального назначения 114

5.1.3. Программное обеспечение для модели экспоненциального распределения 119

5.2. Применение байесовского подхода и методов и программ оптимального группирования данных в байесовском оценивании при решении прикладных задач 122

5.2.1. Анализ требований страховых выплат 126

5.2.2. Исследование надежности видеомониторов по группированным наблюдениям 129

5.3. Выводы 134

Заключение 137

Литература 139

Приложение. Акты внедрения 146

Оценивание параметров распределений и группированные структуры данных
Поведение байесовских оценок в структуре группированных данных при больших выборках
Численное исследование поведения байесовского риска в структуре группированных данных
Описание отдельных модулей программы и их функционального назначения

Введение к работе

Актуальность темы исследований. В современной прикладной статистике наблюдается растущий интерес к байесовским методам статистического вывода [1-3]. Идеи байесовской статистики нашли широкое применение во многих прикладных областях: в инженерном деле, экономике, страховании, медицине и других [2,4,3]. Основное отличие байесовской парадигмы состоит в том, что неизвестный параметр вероятностной модели рассматривается как случайная величина, в то время как в, так называемом, "классическом" подходе параметр считается фиксированной точкой. Интерпретация параметра модели как случайной величины позволяет исследователю априорно имеющуюся у него информацию о неизвестном параметре выразить в виде его априорного распределения и объединить её при помощи теоремы Байеса с информацией, заключённой в экпериментально полученной выборке.

Формирование байесовской статистики как единой теории связано с работами Джеффриса, Вальда, Сэвиджа, Райффы и Шлейфера, Линд-ли, де Финетти [5-10]. Современный байесовский статистический вывод трактуется в терминах теории статистических решающих функций, предложенной и разработанной Вальдом [6]. В соответствии с этой теорией байесовским решением d* будет решение, минимизирующее ожидаемые потери R(d,y) = Jl(9,d)dP(9\_y), в где Р(9\у) — апостериорное распределение неизвестного параметра 9, полученное по теореме Байеса; у — элемент выборочного пространства 3^; 9 Є О; d : У —> D — решающая функция, отображающая выборочное пространство У в пространство решений D; (в случае решения задачи оценивания параметра 9 пространство решений D совпадает с параметрическим пространством G); 1(9,d) —функция, описывающая потери вследствие принятия решения d.

Идеология байесовского подхода позволяет ему решать такие трудные для "классического" вывода проблемы, как проблема малой выборки. В байесовском выводе апостериорное распределение является точной функцией выборки конечного объёма, поэтому исследователю нет необходимости полагаться на выводы асимптотической теории. Использование же оценок, полученных в рамках "классического" подхода, оправдано, как правило, именно их асимптотическими свойствами. Другим преимуществом байесовского вывода является то, что он предоставляет более удобный и гибкий формальный аппарат для учета априорной информации, чем в "классическом" подходе.

В данной работе байесовский подход к оцениванию неизвестного параметра непрерывного вероятностного распределения рассматривается в структуре группированных данных, когда область определения случайной величины разбита на конечное число непересекающихся интервалов, и известно только количество наблюдений, попавших в каждый интервал. Очевидно, что группированные данные являются более реалистичным описанием состояния природы и статистических наблюдений, чем традиционная выборка, состоящая из индивидуально известных данных. Как отмечается в [11], в фундаментальном смысле все непрерывные переменные в конечном счете округляются или огрубляются, то есть группируются. Большое число работ, посвященных статистическим выводам по группированным выборкам, говорит об интересе к группированным данным среди специалистов (достаточно подробная библиография работ в этой области дана, например, в [11]). " Классическое" оценивание в структуре группированных данных разработано достаточно хорошо. В частности, в рамках "классического" подхода к оцениванию параметров по группированным данным наибольшее распространение получил метод максимального правдоподобия. Основные результаты, полученные в этой области, отражают работы [12-16].

В байесовском выводе в настоящее время группированные данные используются не столь активно, как в "классическом" оценивании. Причина этого заключается, по-видимому, в вычислительных трудностях, с которыми сталкивается исследователь при использовании группированных данных в байесовском оценивании. Так, например, в [11] высказывается мнение,что быстрому развитию байесовского анализа по группированным данным препятствует отсутствие достаточно эффективного и надежного соответствующего программного обеспечения. Действительно, общеизвестно, что байесовские методы в большинстве случаев требуют значительных вычислительных затрат, связанных с численным вычислением интегралов (зачастую высокой размерности). Решение этой проблемы сводится к разработке соответствующего программного обеспечения и в значительной мере облегчается развитием вычислительной техники (современная вычислительная техника позволяет байесовским статистикам решать многие задачи, которые ранее были недоступны).

Использование группированных данных, очевидно, создает дополнительные вычислительные трудности, одной из причин которых является нарушение свойства замкнутости сопряженных семейств распределений. Понятие сопряженного семейства распределений было введено Райффой и Шлейфером [8]. Сопряженные семейства получили большое распространение в байесовском анализе, они характеризуются свойством замкнутости относительно процесса выбора наблюдений в том смысле, что формальное преобразование априорного распределения из сопряженного семейства с помощью теоремы Байеса дает апостериорное распределение, принадлежащее тому же семейству. При использовании группированных данных свойство замкнутости сопряженных семейств, построенных относительно негруппированной выборки, в общем случае нарушается. Для решения этой проблемы в работе предлагается алгоритм построения байесовских оценок по группированным данным, позволяющий в ряде случаев обойти проблему нарушения свойства замкнутости сопряженного семейства распределений путем построения семейства распределений со свойством, аналогичным свойству сопряженных распределений.

Таким образом, группированные структуры данных и байесовский вывод занимают важное место в статистическом анализе данных. Недостаточная разработанность методов байесовского оценивания по группированным данным говорит о необходимости развивать это направление, дающее возможность объединить реалистичность представления данных группированной выборкой, с одной стороны, и преимущества байесовского подхода, с другой. Данная диссертационная работа предназначена для того, чтобы в какой-то мере заполнить существующий пробел в области байесовского параметрического оценивания по группированным данным.

Чтобы методы байесовского оценивания по группированным данным имели логическую завершенность, необходимо рассмотреть вопрос о выборе граничных точек интервалов группирования, то есть задачу оптимального группирования в байесовском оценивании. Так как всякое группирование ведет к потере информации, то с помощью оптимального группирования (то есть выбора граничных точек разбиения в соответствии с некоторым критерием оптимальности) мы могли бы уменьшить информационные потери, и, тем самым, улучшить качество оценивания.

В "классическом" оценивании задача оптимального группирования разработана достаточно хорошо, в частности, применительно к оцениванию методом максимального правдоподобия [12,17,16]. В развитом в этих работах подходе в качестве критерия оптимального группирования при- нимается минимум асимптотической дисперсии (или некоторого функционала от дисперсионной матрицы) оценки максимального правдоподобия. Фактически при этом максимизируется информация Фишера, так как через нее выражается асимптотическая дисперсия. Заметим, что этот подход не лишен недостатков. Во - первых, он позволяет находить лишь асимптотически оптимальные граничные точки, использование которых обосновано лишь при выборках достаточно большого объема. Во - вторых, зависимость информации Фишера от неизвестного параметра приводит к тому, что и асимптотически оптимальные граничные точки также зависят от неизвестного параметра, что затрудняет их практическое использование.

Очевидно, что отсутствие исследований по оптимальному группированию в байесовском оценивании является следствием того, что группированные данные до сих пор используются недостаточно активно в байесовском оценивании. В данной диссертационной работе качество группирования в байесовском выводе предлагается оценивать в соответствии с двумя критериями оптимальности: критерием минимума байесовского риска и критерием минимума информационных потерь. Оптимальное группирование по первому критерию может быть проинтерпретировано с точки зрения теории принятия решений, как минимизирующее общие ожидаемые потери вследствие принятия решения d*. Оптимальное группирование по второму критерию можно интерпретировать с точки зрения информационной статистической теории, как минимизирующее потери информации вследствие группирования.

В соответствии с указанными критериями оптимального группирования в данной работе предлагается метод оптимального и асимптотически оптимального разбиения на интервалы группирования в байесовском оценивании. Решение задачи оптимального группирования позволяет получать разбиение, оптимальное для конечного фиксированного объема выборки N. Решение задачи асимптотически оптимального группирования позволяет находить разбиение, являющееся оптимальным при неограниченном возрастании объема выборки N.

В целом, проведение предварительного оптимального разбиения на интервалы группирования при построении байесовской оценки по группированной выборке делает процедуру байесовского оценивания в структуре группированных данных логически завершенной. Решение задачи оптимального группирования ставит процедуру оценивания по группированным данным на качественно новый уровень, повышает эффектив- ность получаемых статистических выводов. Все это говорит о необходимости разработки методов оптимального группирования в байесовском статистическом анализе по группированным данным.

Цель и задачи исследований. Целью исследования диссертационной работы является разработка алгоритмов байесовского оценивания параметров непрерывных распределений в структуре группированных данных и методов оптимального группирования данных в байесовском оценивании. Для достижения поставленной цели решаются следующие задачи: разработка алгоритмов байесовского оценивания в структуре груп-пированых данных; исследование свойств байесовских оценок по группированым данным; разработка и исследование методов оптимального и асимптотически оптимального группирования данных в байесовском оценивании; разработка методики и алгоритмов оптимального и асимптотически оптимального группирования данных в байесовском оценивании; разработка программного обеспечения задачи оптимального и асимптотически оптимального группирования в байесовском оценивании и байесовского оценивания параметров распределений в структуре группированных данных; применение разработанных алгоритмов и программного обеспечения для решения прикладных задач исследования.

Методы исследования. В диссертации используется аппарат теории вероятностей, математической статистики, вычислительной математики, методов оптимизации, статистического моделирования.

Научная новизна. В диссертационной работе получены следующие результаты: разработан алгоритм построения точечной байесовской оценки параметра по группированным данным; доказана равномерная сходимость апостериорных плотностей по группированным данным к апостериорной плотности по негруппиро-ванным данным при увеличении числа интервалов группирования; доказана сходимость байесовских оценок в структуре группированных данных (при квадратичной функции потерь) к байесовской оценке в структуре негруппированных данных при увеличении числа интервалов группирования; получена аппроксимация для байесовского риска при больших выборках; сформулированы критерии оптимального и асимптотически оптимального группирования в байесовском оценивании параметров распределений; разработана методика оптимального и асимптотически оптимального группирования данных в байесовском оценивании на примере модели экспоненциального распределения.

Основные положения, выносимые на защиту.

Алгоритм построения точечной байесовской оценки параметра по группированным данным, позволяющий получать аналитические выражения для байесовских оценок в структуре группированных данных.

Теоремы об асимптотических свойствах апостериорных плотностей и байесовских оценок в структуре группированных данных при увеличении числа интервалов группирования.

Аппроксимация для байесовского риска при больших объемах выборок, позволяющая значительно упростить трудоемкий процесс вычисления байесовского риска при конечном фиксированном объеме выборки.

Методы оптимального и асимптотически оптимального группирования данных в байесовском оценивании параметров распределений.

Методика оптимального и асимптотически оптимального группирования данных в байесовском оценивании, которая дает возможность за счет проведения оптимального разбиения на интервалы группирования улучшать качество статистических выводов, получаемых по группированным данным.

Программное обеспечение задачи оптимального и асимптотически оптимального группирования данных в байесовском оценивании и байесовского оценивания параметров распределений в структуре группированных данных, которое может быть использовано в любой прикладной области при решении практических задач, связанных с параметрическим байесовским оцениванием по группированным наблюдениям.

Обоснованность и достоверность полученных результатов обеспечивается применением аналитических методов для исследования свойств оценок и критериев, доказанными теоремами, подтверждением аналитических выводов и работоспособности алгоритмов результатами статистического моделирования и вычислительных экспериментов.

Практическая ценность и реализация результатов. Предложенная методика оптимального и асимптотически оптимального группирования данных в байесовском оценивании позволяет повысить точность и информативность байесовских оценок по группированным данным. Разработанные методы, методики, программное обеспечение были апробированы при решении прикладных задач анализа надежности видеомониторов (ОАО " Инфракон", г. Винница, Украина), анализа требований страховых выплат (СК " Инкорстрах", г. Новосибирск).

Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на:

П-ой, IV-ой международных научно-технических конференциях "Актуальные проблемы электронного приборостроения (АПЭП-94, АПЭП-98)" (Новосибирск, 1994, 1998); "The 17th IFIP ТС7 Conference on System Modelling and Optimization" (Прага, Чехия, 1995); " The First Korea - Russia International Symposium on Science and Technology" (Ульсан, Корея, 1997);

3-ем сибирском конгрессе по прикладной и индустриальной математике (ИНПРИМ-98) (Новосибирск, 1998); международной конференции "Prague Stochastics'98" (Прага, Чехия, 1998); научном семинаре кафедры статистики университета г. Падуя, Италия (1999 г.); научных семинарах кафедры прикладной математики Новосибирского государственного технического университета (1998, 2000 гг.).

Публикации. Основные результаты диссертации опубликованы в 8 печатных работах [18-25], в том числе 1 зарегистрированном отчете по НИР [22]. В опубликованных работах автору принадлежат результаты, изложенные в тексте диссертации.

Структура диссертации. Диссертация состоит из введения, пяти глав основного содержания, заключения, списка литературы и приложения.

Краткое содержание работы. В главе 1 описаны структуры данных, используемые в работе, и байесовский метод оценивания параметров распределений в структуре частично группированных данных; сделан обзор литературы по применению байесовского подхода в теории надежности, обзор состояния статистического оценивания параметров по группированным и частично группированным данным и обзор работ, посвященных решению задачи оптимального группирования в "классическом" оценивании.

В главе 2 описан алгоритм построения байесовских оценок параметров непрерывных распределений в структуре группированных данных, исследованы асимптотические свойства апостериорных плотностей в структуре группированных данных при увеличении объема выборки и при увеличении числа интервалов группирования. Доказаны теоремы о равномерной сходимости апостериорных плотностей по группированным данным к апостериорной плотности по негруппированным данным при увеличении числа интервалов группирования и о сходимости байесовских оценок по группированным данным (при квадратичной функции потерь) к байесовской оценке по негруппированным данным при увеличении числа интервалов группирования.

В главе 3 сформулированы и обоснованы критерии оптимального и асимптотически оптимального группирования в байесовском оценивании. В разделе 3.1 сформулирован критерий минимума байесовского риска, получена аппроксимация байесовского риска при стремлении объема выборки к бесконечности. В разделе 3.2 сформулирован критерий минимума информационных потерь.

Оценивание параметров распределений и группированные структуры данных

При построении оценок параметров "классическими" методами группированные данные используются уже давно и довольно активно. Наибольшее распространение при оценивании параметров распределений по группированным данным в рамках "классического" подхода получил метод максимального правдоподобия. С одной стороны, это обусловлено тем, что некоторые методы "классического" оценивания накладывают ограничения на используемые структуры данных. Так, например, метод моментов работает только с негруппированной выборкой. Поэтому, если исследователь располагает данными в группированном виде, то их необходимо преобразовывать в негруппированные. Это можно сделать, присвоив всем наблюдениям, попавшим в г-ый интервал группирования, значение, равное, например, середине этого интервала. Метод минимума X2 и родственные с ним, наоборот, используют только группированные данные. Таким образом, выборку, представленную индивидуальными наблюдениями, придется полностью группировать. Метод максимального правдоподобия не накладывает никаких ограничений на используемые структуры данных. Он позволяет получать оценки максимального правдоподобия по группированным, негруппированным и частично группированным выборкам.

С другой стороны, оценки максимального правдоподобия по группированным данным часто являются состоятельными и асимптотически эффективными. Свойства и условия существования оценок максимального правдоподобия по группированным данным рассматривались в [35,12,15,36,37,16].

В [16] приведены условия существования и единственности оценок максимального правдоподобия по частично группированной выборке для параметров наиболее часто встречающихся в приложениях одномерных непрерывных распределений.

В работе [34] группированные и цензурированные данные рассматриваются как частный случай выборки с недостающими данными (выборкой с недостающими данными (missing data) называют данные, в которых некоторые значения ненаблюдаемы). Поэтому техника, разработанная для построения оценок максимального правдоподобия по выборке с недостающими данными, используется для получения оценок максимального правдоподобия по группированным и цензурированным выборкам.

Байесовский подход, в отличие от "классического", не накладывает никаких ограничений на используемые структуры данных. Байесовские оценки можно строить по негруппированным, группированным и частично группированным выборкам. Тем не менее, байесовское оценивание по группированным данным практически не встречается в литературе. Можно отметить несколько работ, в которых так или иначе рассматривается байесовский вывод в структуре группированных данных. Первая — обзорная статья [11], автор которой отмечает, что байесовский подход не требует разработки какой-то специальной теории для работы с группированными данными, и что для использования группированных данных в байесовском оценивании необходимо лишь наличие соответствующего программного обеспечения и вычислительной техники. В [11] приводятся некоторые численные способы построения апостериорных распределений по группированным данным, в частности, рассматривается алгоритм, основанный на методе Монте-Карло. Вторая — работа [34], посвященная анализу выборок с недостающими данными, частным случаем которых можно считать группированные выборки. В [34] описывается техника байесовского анализа с недостающими данными применительно к данным типа времени жизни. И, наконец, группированные данные для байесовского вывода используются в [38], где рассматривается вопрос потери информации вследствие группирования.

В то же время, цензурированные выборки очень активно используются при построении байесовских оценок параметров. В частности, в большой части работ, посвященных байесовскому анализу данных типа времени жизни, оценки строятся именно по цензурированным выборкам [39-48]. Как уже говорилось, это обусловлено спецификой данных, описывающих надежность или продолжительность жизни объекта.

В большей части работ [39 6,48], посвященных параметрическому байесовскому анализу данных типа времени жизни, решается задача оценивания параметра заданной модели, описывающей продолжительность жизни объекта, и функции надежности. Для оценивания используются выборки, цензурированные по типу I или II (выборка называется цен-зурированной по типу II, если наблюдение над случайной величиной прекращается после достижения заранее определенного числа отказов).

В работах [43,44,46] акцент делается на то, что в качестве функции, описывающей время жизни объекта, выбрана некоторая нестандартная модель. Например, в [43] строится байесовская параметрическая оценка для произвольной вероятностной модели, обладающей линейной функцией интенсивности отказов.

В работах [42,47,48] для баейсовского вывода используются специальные структуры данных. Так в [42] описана общая схема байесовского параметрического вывода по данным, случайным образом цензурированным (когда уровень цензурирования — случайная величина). В работе [47] разрабатываются байесовские методы анализа интервально цензурированных данных с перекрывающимися интервалами цензурирования. В работе [48] предполагается, что выборка "трижды" цензу-рирована, то есть цензурированы первые гі, средние г и последние гз наблюдений.

Часть работ посвящена различным модификациям байесовских оценок. В частности, рассматриваются так называемые оценки байесовского типа [49], сокращенные (shrinkage) байесовские оценки [44], приближенные байесовские оценки [39]. Таким образом, можно отметить, что работы, посвященные байесовскому выводу по цензурированным данным типа времени жизни, имеют одну общую тенденцию: в них рассматриваются некоторые частные задачи, и разрабатываются алгоритмы для решения этих частных задач. Сделанный обзор работ в области байесовского параметрического анализа данных типа времени жизни не претендует на полноту. Он лишь показывает, что цензурированные данные занимают важное место в этой области статистического анализа данных. Активное использование цензурированных данных в баейсовском выводе указывает на необходимость разработки методов баейсовского оценивания по "нетрадиционным" выборкам, в том числе, по группированным, которые являются более реалистичным способом представления наблюдений, чем цензурированные. Причиной того, что в баейсовском оценивании редко используются группированные данные, являются, по-видимому, вычислительные трудности, с которыми сталкивается исследователь при использовании группированных данных в баейсовском выводе. Сформулируем основные причины возникновения вычислительных трудностей при байесовском параметрическом оценивании по группированным данным. 1. Байесовское оценивание сопряжено со значительными вычислительными трудностями при работе с любыми структурами данных, в том числе, с традиционной негруппированной выборкой. Эти трудности возникают в связи с тем, что в ходе байесовского вывода пояляется необходимость вычисления апостериорного математического ожидания некоторой параметрической функции ф, то есть величины Вычисление величины Ев\уф(9) сводится, в общем случае, к численному вычислению соответствующих интегралов, что в случае многомерного параметра в может привести к значительным вычислительным затратам. Поскольку величина Ед\уф(0) может вычисляться в ходе решения соответствующей оптимизационной задачи по отысканию байесовской оценки, то проблемы с вычислением Ед\.уф(в) могут возникнуть и в случае одномерного параметра в. В литературе выделяются три основных направления решения указанной проблемы: 1) так называемая " Ноттингемская" школа предлагает использовать классические эрмитовы полиномы для аппроксимации подинтеграль-ных выражений [50-52];

Поведение байесовских оценок в структуре группированных данных при больших выборках

В третьей главе получены следующие результаты: - сформулированы критерии оптимального группирования данных в байесовском оценивании: критерий минимума байесовского риска, соответствующий минимуму общих ожидаемых потерь вследствие принятия байесовского решения по группированной выборке, и информационный критерий, соответствующий минимуму информационных потерь вследствие группирования; - сформулированы критерии асимптотически оптимального группирования в байесовском оценивании; - получена формула, аппроксимирующая функционал байесовского риска при больших значениях объема выборки JV, сформулированы условия ее существования. Поскольку современная вычислительная техника позволяет находить точные распределения соответствующих статистик лишь при выборках малого объема, то для выборок, имеющих объем N 100 и соответствующих малому числу интервалов группирования (2 к 5), предлагается рассматривать задачу оптимального группирования. При выборках большего объема предлагается решать задачу асимптотически оптимального группирования. Проведенные численные исследования показывают обоснованность такого подхода. 4. Оптимальное группирование данных для модели экспоненциального распределения

Описанные в главе 3 подходы к решению задачи оптимального группирования в байесовском оценивании были реализованы для модели экспоненциального распределения. Экспоненциальное распределение широко применяется в теории надежности [67,68]. Оно имеет постоянную интенсивность отказов и характеризуется так называемым отсутствием последействия (то есть объект не испытывает влияния износа).

Экспоненциальное распределение описывается функцией распределения F(x\ в) = 1 — е вх, х 0. Параметрическое пространство имеет вид в = (0;+оо), Ж(о) = 0, х щ — +оо, в случае равноотстоящего группирования положим хо = 0. В качестве априорного распределения рассмотрим гамма - распределение у (се, (3) с плотностью распределения 7г(0) = аРв е- /ГЦЗ).

Как уже говорилось, одним из преимуществ байесовского подхода является то, что он позволяет получать достоверные статистические выводы при выборках малого объёма, когда применение результатов асимптотической теории является недостаточно обоснованным. Таким образом, является актуальным получение точного решения задачи оптимального группирования при небольших объёмах выборки N. (В данной работе значения оптимальных граничных точек интервалов группирования протабулированы, начиная с N = 10.) С другой стороны, как уже отмечалось, при вычислении значения оптимизационного функционала дг(уі,...,ук-і) по группированным данным возникает необходимость численного вычисления математического ожидания относительно маргинальной функции вероятностей к - мерной дискретной случайной величины п = (пі, ...,71). Эта вычислительная процедура связана с выполнением большого объёма вычислений. С ростом N и к время, затрачиваемое на вычисление значения Sfrgr(yi} ...,2fa_i), растет в геометрической прогрессии. Поэтому реально мы можем получить решение задачи оптимального группирования в байесовском оценивании при N 100, 2 к 5. Для этих значений N и к получено точное решение задачи оптимального группирования для рассматриваемой модели экспоненциального распределения и априорной гамма - плотности. Результаты описаны в разделах 4.1.1 и 4.2.1. При значениях N 100 и к 5 предлагается использовать асимптотический подход, то есть решать задачу асимптотически оптимального группирования (разделы 4.1.2 и 4.2.2).

Решать задачу оптимального группирования в соответствии с критерием минимума байесовского риска можно при выполнении условия (3.1), то есть при условии, что для апостериорного риска байесовской оценки по группированным данным Rgr(n) математическое ожидание относительно маргинального распределения 7г(п) существует и конечно. Покажем, что для рассматриваемой модели экспоненциального распределения и априорной гамма - плотности условие (3.1) выполняется.

При квадратичной функции потерь апостериорный риск оценки 9(у) имеет вид: Решая задачу оптимального группирования, мы рассматриваем байесовский риск как функцию от граничных точек интервалов группирования Ж(і),...,(_!) и минимизируем его по этим переменным. Заметим, однако, что байесовский риск в структуре группированных данных зависит также от параметров N, к, а и (5. Естественно, возникает вопрос, можно ли минимизировать байесовский риск р дг по всем переменным, от которых он зависит? Кроме того, при решении задачи оптимального группирования представляет интерес характер зависимости байесовского риска от каждой из указанных переменных. Поэтому было проведено исследование поведения байесовского риска по переменным Жф, ...,X(k-i) и по каждому из параметров TV, &, а, /3 при условии, что все остальные параметры зафиксированы. Изложим кратко полученные результаты. 1. Зависимость байесовского риска от переменных ж ,...,#( ._!) при фиксированных N, к, а и /3 была исследована для случая равноотстоящего группирования, когда байесовский риск в структуре группированных данных является функцией одной переменной — ширины интервалов группирования Дж, и для случая неравноотстоящего группирования при к = 3, когда байесовский риск в структуре группированных данных является функцией #(i), #(2)- Результаты численного моделирования позволяют сделать вывод, что при любых значениях 7V, &, а и (3 зависимость байесовского риска от ширины интервалов группирования Ах имеет форму графика, приведенного на рис. 4.1. Таким образом,при равноотстоящем группировании байесовский риск имеет минимум по переменной Дж, и этот минимум единственный. Пример поведения байесовского риска при к = 3 приведен на рис. 4.2. В этом случае функция рг(ж(і),Ж(2)) также имеет минимум, и он единственный. 2. Несложно видеть, что при фиксированных 7V, а и /3 байесовский риск, описываемый формулой (4.3), монотонно убывает с увеличением числа интервалов группирования к. Графики, приведенные на рис. 4.3, отражают характер и скорость изменения байесовского риска с ростом к для случая равноотстоящего группирования при фиксированных N, а и (3. 3. Результаты численных исследований позволяют сделать предположение о монотонном убывании байесовского риска в структуре группированных данных с ростом объёма выборки N при фиксированных. На рис. 4.4 приведен пример, показывающий характер изменения байесовского риска с увеличением объёма выборки N для случая равноотстоящего группирования. 4. Хотя параметры а и (3 нельзя рассматривать как переменные (их значения мы задаём, исходя из наших априорных знаний о неизвестном параметре 0, и мы не можем менять их произвольно), тем не менее, чтобы картина была полной, отметим, что байесовский риск монотонно убывает по а и монотонно возрастает по /3.

Численное исследование поведения байесовского риска в структуре группированных данных

Следует сделать следующее замечание о значениях N и к в модулях RU1, IU1, RN1, IN1, решающих задачу оптимального группирования при конечном объеме выборки N. Принципиальных ограничений на значения N и к не существует, то есть любые значения N 1 и к 2 являются корректными входными параметрами в указанных модулях. Однако, поскольку математические ожидания относительно к - мерной дискретной случайной величины п = (щ, ...,п ), присутствующие в выражениях для байесовского риска и информационного функционала, вычисляются численно, то есть для вычисления значения байесовского риска и информационного функционала осуществляется полный перебор наборов ностях современной вычислительной техники получить решение задачи оптимального группирования за обозримый период времени можно лишь для значений 1 N 100 и 2 к 5. Поэтому в модулях RU1, Ш1, RN1, IN1 следует задавать значения N и к, удовлетворяющие указанным ограничениям. При N 100 и к 5, как уже говорилось выше, следует решать задачу асимптотически оптимального группирования, то есть использовать модули RU2, Ш2, RN2, IN2.

Заметим также, что при работе с модулями RU1, Ш1, RN1 и IN1 можно использовать соответствующий программный модуль, решающий задачу асимптотически оптимального группирования, для уточнения начального вектора граничных точек интервалов группирования: найденные асимптотически оптимальные граничные точки (х Л,..., я$5_і)) можно затем использовать в качестве начального приближения в соответствующем модуле, вычисляющем оптимальные граничные точки

В состав модулей RU1, RU2, RN1, RN2, Ю1, Ш2, INI, IN2 входят соответственно модули ExpRUl, ExpRU2, ExpRNl, ExpRN2, ExpIUl, ExpIU2, ExpINl, ExpIN2, в которых осуществляется вычисление соответствующего функционала байесовского риска или информационных потерь для модели экспоненциального распределения с априорной гамма - плотностью j(a,(3). В модуле ExpRUl вычисляется значение байесовского риска для случая равноотстоящего группирования р (Ах) в соответствии с формулой (4.5). В модуле ExpRU2 вычисляется значение асимптотического байесовского риска для случая равноотстоящего группирования pf (Ax). Функ-ционал Рдг(Ах) определен на множестве Ах а и вычисляется по формуле (4.10). Таким образом, в модуле RU2 решается задача В модуле ExpRNl вычисляется значение байесовского риска для случая неравноотстоящего группирования р (х ...,Ж( -і)) в соответствии с формулой (4.3). В модуле ExpRN2 вычисляется значение асимптотического байесовского риска для случая неравноотстоящего группирования pfr(x(i),---,x(k-i))- Функционал рр(х(і) -- х(к-і)) определен на множестве Ж(і) а и вычисляется по формуле (4.8). Таким образом, в модуле RN2 решается задача В модуле ЕхрІШ вычисляется значение функционала информационных потерь Х(Ах) по формуле (4.18), соответствующей случаю равноотстоящего группирования. В модуле ЕхрІШ вычисляется значение функционала асимптотических информационных потерь XAs(Ax) по формуле (4.21). В модуле ExpINl вычисляется значение функционала информационных потерь 2"(ж(і),.-., #(fc-i)) по формуле (4.18). В модуле ЕхрШ2 вычисляется значение функционала асимптотических информационных потерь XAs(x , ...,(fc-i)) по формуле (4.20). Для вычисления байесовской оценки в структуре группированных данных для модели экспоненциального распределения с априорной гамма - плотностью в состав программного обеспечения входит модуль ExpBEst, который осуществляет вычисление байесовской оценки неизвестного параметра по группированной выборке. Следует сделать следующее замечание о свойствах задачи где х = (z j), ...,х ф = г/, x i+2)i ж А;-і)) — вектор размерности к - 2, соответствующий разбиению на fc — 1 интервал группирования. Однако, как следует из утверждений 4.1 и 4.2, функционалы рр и XAs обладают свойством монотонности по к. Относительно функционалов р и X, основываясь на численных исследованиях поведения этих функционалов (пункты 4.1.1.1 и 4.2.1.1), можно также сделать предположение, что они являются монотонно убывающими относительно к. Полученные в главе 4 численные решения, минимизирующие функционалы р г и X, подтверждают это предположение. Монотонность функционалов р г, X, рр и XAs по fc, в свою очередь, означает, что решение задачи (5.1) является внутренней точкой множества Рассмотренный комплекс программ байесовского оценивания параметров распределений в структуре группированных данных и решения задачи оптимального группирования в байесовском оценивании для модели экспоненциального распределения с априорной гамма - плотностью может быть использован при оценивании надежности, если предполагается, что время жизни исследуемых объектов подчиняется экспоненциальному закону распределения. Как уже говорилось, экспоненциальный закон является одним из наиболее распространенных законов распределения времени жизни в теории надежности. С другой стороны, семейство гамма - распределений, принятое в программной системе в качестве априорного, является достаточно широким в том смысле, что, варьируя значения априорных параметров а и /3, мы можем для широкого класса ситуаций найти в нем распределение, адекватно представляющее наши априорные знания о неизвестном оцениваемом параметре. Таким образом, можно сделать вывод, что разработанный комплекс программ может иметь достаточно большую область применения при решении задач оценивания надежности. Кроме того, программная система может быть использована в любой прикладной области при параметрическом байесовском оценивании по группированным наблюдениям из экспоненциального закона распределения.

Программная система имеет модульную структуру, что позволяет настроить ее для работы с другими моделями распределения вероятностей. Для этого нужно подключить к модулям RU1, RU2, RN1, RN2, IU1, IU2, INI, IN2 модули, вычисляющие байесовскую оценку по группированным данным и функционалы байесовского риска и информационных потерь для новой модели (или заменить модули ExpRUl, ExpRU2, ExpRNl, Ех-pRN2, ExpIUl, ЕхрІШ, ExpINl, ExpIN2, ExpBEst на модули, соответствующие новой модели).

Разработанный комплекс программ может использоваться как самостоятельный программный продукт, так и в составе другого программного обеспечения по статистическому анализу данных.

Описание отдельных модулей программы и их функционального назначения

Одним из решений данной проблемы может стать использование группированных наблюдений.

Рассмотрим задачу параметрического оценивания функции надежности видеомониторов. Тогда случайная величина X равна времени жизни исследуемого объекта. Поскольку видеомониторы относятся к высоконадежной технике, то можно считать их интенсивность отказов постоянной величиной, тогда отказы мониторов будут описываться моделью экспоненциального распределения. Задача параметрического оценивания функции надежности, которая равна F${x) = е вх, сводится к оцениванию интенсивности отказов в.

Для получения данных для оценивания интенсивности отказов проводится следующий эксперимент. В камере при определенных условиях (при заданных температуре, коэффициенте влажности, механическом воздействии) проводятся испытания мониторов, и в определенные моменты времени фиксируется число отказавших. Таким образом, данные собираются в группированной форме. Эксперимент, связанный с испытаниями мониторов, может быть оптимизирован с использованием методики оптимального группирования. Граничные точки интервалов группирования интерпретируются в данном случае как моменты времени, в которые нужно фиксировать число отказавших к этому времени мониторов. Выбирая оптимальным образом граничные точки интервалов группирования, мы оптимизируем схему наблюдения за мониторами.

В работе рассматривается задача байесовского оценивания интенсивности отказов видеомониторов "Электроника МС-6106" (ОАО "Инфра-кон", г. Винница, Украина). Рассмотрено две схемы испытаний: с числом испытываемых объектов N = 30 и N = 200 и, соответственно, две выборки с моментами отказов мониторов. За единицу времени принято 100 ч. В качестве функции потерь возьмем квадратичную функцию.

В первой схеме (с N = 30) предварительный анализ данных показал, что в качестве априорного распределения параметра в может быть выбрано распределение 7(0, ) са = 1,/?= 1. Так как N 100, в качестве граничных точек интервалов группирования будем использовать оптимальные для данного объема выборки точки х ,{у і — 1,..., к — 1, соответствующие критерию минимума байесовского риска и критерию минимума информационных потерь, задающие равноотстоящее и неравноотстоящее разбиение. Рассмотрим случаи к — 3,4,5. Для определения оптимальных точек х ,- воспользу 131 емся табл. 4.2, 4.6, 4.12 и 4.16. Полученные из таблиц оптимальные граничные точки, а также соответствующие им группированные выборки, построенные по данным об отказах 30 мониторов рассматриваемой модели, приведены в табл. 5.2 для различных значений к. В таблице даны также значения соответствующих коэффициентов, позволяющих оценить эффективность группирования по данному разбиению (относительная эффективность г для критерия минимума байесовского риска и относительные потери информации И для критерия минимума информационных потерь). Байесовские оценки интенсивности отказов в, построенные по оптимально сгруппированным выборкам из табл. 5.2, приведены в табл. 5.3 (с учетом того, что за единицу времени было принято 100 ч.). Во второй схеме испытаний (с N = 200) имеет смысл использовать асимптотически оптимальное разбиение на интервалы группирования. Для построения байесовской оценки интенсивности отказов мониторов МС-6106 по группированным данным в качестве априорного распределения параметра в было выбрано распределение (а, /3) с параметрами a = 1,/3 = 2. Для определения асимптотически оптимальных моментов времени хії? воспользуемся табл. 4.9 и 4.18. Байесовские оценки параметра 0, построенные по данным об отказах мониторов объемом 200 элементов, сгруппированным в соответствии с асимптотически оптимальными граничными точками разбиения для к = 3,..., 10, приведены в табл. 5.4 (с учетом того, что за единицу времени было принято 100 ч.). В таблице даны также значения соответствующих коэффициентов, позволяющих оценить эффективность группирования по данному разбиению (асимптотическая относительная эффективность rAs для критерия минимума байесовского риска и асимптотическая относительная эффективность \As для критерия минимума информационных потерь) и группированные выборки, полученные для соответствующего разбиения. Значения коэффициентов эффективности позволяют сделать вывод, что эффективность оценивания по (асимптотически) оптимально сгруппированной выборке (относительно процедуры оценивания по негруп-пированным данным) близка к единице. В частности, оценки, построенные с использованием критерия минимума байесовского риска, соответствуют минимальным средним потерям из-за использования оценки вместо истинного значения параметра с коэффициентами эффективности 0.7102 г 0.8871 (N = 30) и 0.7431 rAs 0.9629 (N = 200). В пятой главе описан комплекс программ, позволяющий вычислять байесовские оценки параметров распределений в структуре группированных данных и решать задачу оптимального и асимптотически оптимального разбиения на интервалы группирования. Программное обеспечение может быть использовано при статистическом анализе надежности, в эконометрике, медицине, биологии, страховании, при анализе данных типа времени жизни, в любой прикладной области при параметрическом байесовском оценивании по группированным наблюдениям. Программная система состоит из восьми основных модулей, позволяющих осуществлять оптимальное разбиение на интервалы группирования в соответствии с двумя критериями оптимальности: критерием минимума байесовского риска и критерием минимума информационных потерь, для каждого критерия оптимальности отдельно рассматриваются случаи равноотстоящего и неравноотстоящего группирования. В качестве вероятностной модели в системе используется модель экспоненциального распределения с априорным гамма-распределением. Программное обеспечение имеет модульную структуру, что позволяет настроить программу на другие модели. Для этого нужно подключить к программной системе модули, вычисляющие байесовскую оценку по группированным данным и функционалы байесовского риска и информационных потерь, соответствующие новой модели. Программные модули RU2, IU2, RN2, IN2, решающие задачу асимптотически оптимального группирования, можно использовать в соответствующем модуле, решающем задачу оптимального группирования, для уточнения начального вектора граничных точек интервалов группирования. Комплекс программ может использоваться, как самостоятельный программный продукт, так и в составе другого программного обеспечения по статистическому анализу данных. В главе сделан обзор некоторых прикладных областей, в которых используется байесовский подход. Байесовские методы применяются для решения практических задач в инженерном деле, экономике, страховании, медицине, юриспруденции и других. Традиционной областью приложения байесовского анализа является теория надежности. Разработка методов байесовского вывода по группированным данным способствует дальнейшему расширению области практического применения байесовских методов. С применением методов и программ оптимального группирования данных в байесовском оценивании в работе решены прикладные задачи анализа требований страховых выплат, анализа надежности видеомониторов.

Разработка и исследование методов байесовского оценивания параметров распределений и оптимального группирования данных Тишковская Светлана Владимировна

Оценивание параметров распределений и группированные структуры данных

Поведение байесовских оценок в структуре группированных данных при больших выборках

Численное исследование поведения байесовского риска в структуре группированных данных

Описание отдельных модулей программы и их функционального назначения

Похожие диссертации на Разработка и исследование методов байесовского оценивания параметров распределений и оптимального группирования данных