Обнаружение и использование закономерностей в исходных данных при построении регрессионных моделей и планировании эксперимента Тимофеев, Владимир Семенович

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Тимофеев, Владимир Семенович. Обнаружение и использование закономерностей в исходных данных при построении регрессионных моделей и планировании эксперимента : диссертация ... доктора технических наук : 05.13.17 / Тимофеев Владимир Семенович; [Место защиты: Новосибирский государственный технический университет].- Новосибирск, 2012.- 344 с.: ил. РГБ ОД, 71 13-5/48

Содержание к диссертации

Введение

1. Логика и основные проблемы прикладного статистического анализа многофакторных объектов 15

1.1. Генеральная совокупность, выборка и основные определения 16

1.2. Оценивание основных статистических характеристик случайных величин 22

1.2.1. Оценивание математического ожидания случайных величин 22

1.2.2. Оценивание других характеристик случайных величин 36

1.3. Идентификация регрессионных зависимостей 38

1.3.1. Постановка задачи регрессионного анализа 39

1.3.2. Классические методы идентификации 40

1.3.3. Основные проблемы идентификации 42

1.3.4. Устойчивые методы 45

1.3.4.1. Метод наименьших модулей, Lp- и М - оценки 45

1.3.4.2. Знаковый метод 48

1.3.4.3. Ранговый метод 51

1.3.4.4. LTS-метод (метод наименьших уравновешенных квадратов) 52

1.3.4.5. LMS-метод 55

1.3.4.6. Квантильная регрессия 58

1.3.5. Непараметрическая регрессия 58

1.3.6. Повышение эффективности оценивания посредством использования теории планирования эксперимента 60

1.3.5.1. Основные понятия и определения

1.3.5.2. Критерии оптимальности 64

1.4. Обоснование целей и задач исследования 66

1.5. Выводы 68

2. Устойчивые методы идентификации регрессионных моделей 69

2.1. Анализ инструментов для исследования информативности наблюдений и влияния выбросов 69

2.2. Модификация вычислительной схемы LTS-оценивания 77

2.3. Некоторые обобщения метода квантильной регрессии 79

2.4. Алгоритм обнаружения гетероскедастичности, основанный на идеях дисперсионного анализа 81

2.5. Адаптация знакового метода для оценивания моделей компонент дисперсии 83

2.5.1. Постановка задачи идентификации модели компонент дисперсии 84

2.5.2. Идентификация модели компонент дисперсии знаковым методом 85

2.5.3. Проблема вычисление функции от матрицы 87

2.6. Результаты вычислительных экспериментов 89

2.6.1. Исследование семейства алгоритмов LTS-оценивания 91

2.6.2. Исследование алгоритмов квантильного оценивания 99

2.6.3. Сравнение критериев выявления гетероскедастичности 103

2.7. Выводы 112

3. Построение адаптивных методов и алгоритмов оценивания регрессионных зависимостей 114

3.1. Постановка задачи 114

3.2. Использование ортогональных разложений плотностей 115

3.2.1. Разложение Грама-Шарлье 116

3.2.2. Построение.алгоритма адаптивной идентификации 119

3.2.3 Оценка плотности случайной величины, распределенной на отрезке 121

3.3. Использование универсальных семейств распределений 131

3.3.1. Распределения Пирсона 131

3.3.2. Лямбда-распределение 143

3.3.3. Устойчивые распределения 146

3.3.3.1. Способы идентификации устойчивых распределений 148

3.3.3.2. Улучшение подхода S.J.Press 149

3.3.3.3. Построение алгоритма 151

3.4. Непараметрические оценки плотности 153

3.4.1. Использование характеристической функции 154

3.4.2. Использование ядерных оценок функции плотности 156

3.5. Результаты вычислительных экспериментов 158

3.5.1. Исследование алгоритма, основанного на разложении Грама-Шарлье 159

3.5.2. Исследование МЕС-алгоритма 163

3.5.3. Исследование алгоритма, основанного на кривых Пирсона 168

3.5.4. Встречаемость различных типов кривых Пирсона 172

3.5.5. Исследование алгоритма, основанного на Лямбда-распределении 174

3.5.6. Исследование алгоритмов, основанных на устойчивых распределениях 181

3.5.7. Исследование алгоритмов, основанных на непарамерических оценках плотности 186

3.5.7.1. Исследование алгоритма, основанного на эмпирической характеристической функции 186

3.5.7.2. Исследование алгоритмов, основанных на ядерных оценках плотности 193

3.6. Выводы 199

4. Повышение качества устойчивого и адаптивного оценивания посредством использование идей теории планирования эксперимента 202

4.1. Постановка задачи 202

4.2. Влияние выбросов на информационную матрицу метода наименьших квадратов 204

4.3. Алгоритм формирования оценочного подмножества 206

4.4. Планирование уточняющих наблюдений для адаптивного алгоритма, основанного на лямбда-распределении 213

4.5. Результаты исследований 218

4.5.1. Исследование алгоритма формирования оценочных подмножеств .218

4.5.2. Построение и исследование планов при обобщенном лямбда-распределении ошибки 223

4.6. Выводы 230

5. Программная система устойчивого и адаптивного оценивания параметров регрессионных моделей и планирования эксперимента 232

5.1. Предпосылки для создания программной системы 232

5.2. Назначение, технические характеристики и особенности построения 234

5.3. Решаемые задачи и структура программной системы 235

5.4. Интерфейс программной системы 239

5.4.1. Режим моделирования 240

5.4.2. Режим оценивания параметров уравнения регрессии 244

5.4.3. Режим идентификации распределения остатков 250

5.4.4. Режим планирования эксперимента 252

5.5. Выводы 258

6. Применение предложенных методов и алгоритмов для решения реальных задач 259

6.1. Оценивание кривой провисания троса 259

6.1.1. Постановка задачи 260

6.1.2. Результаты оценивания 264

6.2. Планирование уточняющих наблюдений для контроллинга воздушных линий 276

6.3. Идентификация зависимостей спроса от дохода 286

6.3.1. Описание проблемы, характеристика и подготовка

исходных данных 287

6.3.2. Результаты идентификации простейших моделей 301

6.4. Выводы 312

Заключение 314

Список использованных источников 316

Приложения 330

Повышение эффективности оценивания посредством использования теории планирования эксперимента
Алгоритм обнаружения гетероскедастичности, основанный на идеях дисперсионного анализа
Исследование алгоритма, основанного на эмпирической характеристической функции
Режим оценивания параметров уравнения регрессии

Введение к работе

Актуальность темы исследований. Проведение прикладных исследований, связанных с контролем качества продукции, оптимизацией технологических процессов, сертификацией сложных технических изделий, решением социологических и экономических задач, медико-биологических и сельскохозяйственных исследований, исследований в демографии и др. часто приводит к необходимости анализа данных. При этом естественным является желание экспериментатора располагать наиболее достоверными и качественными результатами, которые максимально согласуются с природой имеющихся исходных данных. Для получения таких результатов требуется комплексное применение широкого спектра методов теоретической и прикладной статистики, обеспечивающих извлечение и последующее использование присущих исходным данным закономерностей.

В этой связи стоит обратить внимание на метод максимального правдоподобия (ММП) и связанное с ним количество информации по Фишеру, роль которого в математической и прикладной статистике трудно переоценить. Он часто ставится в основу не только теоретических, но и прикладных статистических исследований включая задачи анализа многофакторных объектов. В частности, можно говорить о том, что на нем основана теория планирования эксперимента, поскольку одно из ее базовых понятий -информационная матрица определяется именно через вторую производную логарифмической функции правдоподобия. Хорошо известна связь классического метода наименьших квадратов (МНК) с методом максимального правдоподобия для нормально распределенных ошибок. Обеспечивая при данном предположении наличие целого ряда оптимальных свойств получаемых оценок, метод максимального правдоподобия становится объектом предпочтения специалистов.

На сегодняшний день существует достаточно большое число теоретических и прикладных работ, посвященных применению метода максимального правдоподобия. В области планирования оптимальных экспериментов следует отметить результаты, полученные Налимовым В.В.,

Федоровым В.В., Горским В.Г., Лецким Э.К., Ермаковым СМ., Седуновым Е.В., Козловым В.П., Денисовым В.И., Григорьевым Ю.Д., Поповым А.А., Хабаровым В.И., Лисициным Д.В. В области классического регрессионного анализа следует отметить работы Айвазяна С.А., Рао СР., Кендалла М.Дж., Стьюарта А., Сирла С, Дрейпера Н., Смита Н.

Однако предположение нормальности распределения случайной компоненты уравнения регрессии, лежащее в основе классических методов, является достаточно сильным и серьезно ограничивает спектр корректно решаемых задач. В частности, при наличии тех или иных неоднородностей в условиях проведения наблюдений (экспериментов) может иметь место появление некоторого числа наблюдений, резко выделяющихся из основной массы. Это обстоятельство может привести к той или иной потере точности в силу искажения априорного распределения случайной компоненты, т.е. к нарушению предположения нормальности. Для решения данной проблемы разработан целый ряд специальных устойчивых методов, в том числе непараметрических. Исследованиями в этой области занимались такие признанные специалисты как Хьюбер П., Хампель Ф, Davies P., Rousseeuw Р. Смоляк С.А., Болдин М.В., Тюрин Ю.Н., Лисицин Д.В. и др. Вместе с тем, отказ от метода максимального правдоподобия часто означает и потерю оптимальных свойств оценок, присущих данному методу. Это одна из причин, из-за которой автор остается в рамках классического подхода максимально-правдоподобного оценивания, присущего Новосибирской школе анализа многофакторных объектов и планирования эксперимента.

С другой стороны, фактически реализуемые на практике распределения случайных ошибок далеко не всегда удается представить в рамках тех или иных хорошо известных теоретических законов. Исследователь может лишь иметь общие представления о его форме, плюс, возможно, сформулировать отдельные гипотезы о наличии тех или иных особенностей (например, сделать корректное предположение о значении математического ожидания). Очевидно, что в этом случае метод максимального правдоподобия в классической постановке

применить не получится. Методы и алгоритмы планирования эксперимента также могут приводить далеко не к самым оптимальным вариантам решения, поскольку они разрабатывались в предположении нормальности распределения случайной ошибки. Следовательно, алгоритмы идентификации должны сами извлекать информацию о характере распределения из исходных данных и обладать определенной гибкостью для осуществления подстройки под многообразие фактически реализуемых распределений. На данный момент известны такие алгоритмы для обобщенного распределения Лапласа (Денисов В.И., Лисицин Д.В. Методы построения многофакторных моделей по неоднородным, негауссовским, зависимым наблюдениям), но они сильно ограничены предположением симметрии изучаемого распределения.

Один из вариантов решения заключается в переходе к универсальным распределениям. Их основное преимущество состоит в возможности описания большого круга практических ситуаций. В частности, использование кривых Пирсона позволит говорить об анализе ситуаций с такими распределениями как бета-, гамма-, Стьюдента, экспоненциальное и др. Еще более широким является обобщенное лямбда-распределение, включающее не только хорошо известные в теории вероятности распределения, но и целое множество других. Перспективным также представляется переход в частотную область посредством построения характеристической функции, что обеспечит привлечение более полной информации и позволит идентифицировать так называемые устойчивые распределения. Они также являются весьма широким классом распределений, включающим распределения с большой или даже бесконечной дисперсией (например, распределение Коши). Это обстоятельство делает его предпочтительным при исследовании закономерностей на основе сильно засоренных данных.

Цель и задачи. Таким образом, актуальным является построение универсальных алгоритмов оценивания параметров регрессионных моделей, основанных на методе максимального правдоподобия, которые обеспечивают корректную идентификацию для широкого круга практически реализуемых

распределений. Решение этой проблемы откроет новые возможности и для развития теории планирования эксперимента, а таюке, в ряде случаев, будет обеспечивать устойчивость оценивания и сохранение хорошо известных оптимальных свойств. Именно такая формулировка и рассматривается автором в качестве цели данной работы. Для достижения данной цели были поставлены и решены следующие задачи:

обеспечить возможность адаптации алгоритмов оценивания параметров регрессионных уравнений к широкому спектру практически реализуемых распределений случайной компоненты;

разработать новые алгоритмы устойчивого оценивания, позволяющие использовать информацию об индивидуальной информативности наблюдений, а также реагировать на разный характер имеющихся в исходных данных выбросов;

провести расширение возможностей теории планирования эксперимента за счет более слабого предположения о принадлежности распределения случайной ошибки обобщенному лямбда-распределению;

разработать алгоритмы, обобщающие идею квантильной регрессии на другие функции потерь, а также алгоритм идентификации моделей компонент дисперсии знаковым методом;

осуществить построение программной системы, интегрирующей все предложенные алгоритмы устойчивого и адаптивного оценивания параметров линейно-параметризованных регрессионных уравнений, а также алгоритмы планирования эксперимента и с ее помощью провести решение задач технического и экономического содержания.

Область исследования. Содержание диссертации соответствует области исследования п.5 «Разработка и исследование моделей и алгоритмов анализа данных, обнаружения закономерностей в данных и их извлечениях, разработка и исследование методов и алгоритмов анализа текста, устной речи и изображений» паспорта специальности 05.13.17 - «Теоретические основы информатики» (в области технических наук).

Методы исследования. Исследование основано на корректном использовании положений теории вероятностей, математической статистики, математического анализа и линейной алгебры, теории планирования эксперимента, регрессионного анализа, численных методов, методов оптимизации и методов статистического моделирования.

Достоверность и обоснованность научных положений, рекомендаций и выводов обеспечивается корректным использованием методов исследования, согласованностью выводов с известными теоретическими законами и положениями, а также подтверждением полученных аналитических выводов результатами вычислительных экспериментов, проведенными на основе технологии статистического моделирования.

Научная новизна работы заключается в следующем:

впервые предложено проводить адаптивное оценивание параметров линейно-параметризованных регрессионных уравнений на основе восстановленной по моментам функции плотности случайной компоненты, а также показана возможность использования для этой цели универсальных распределений;

сформулировано и доказано утверждение, на основе которого впервые разработан уникальный алгоритм синтеза оптимальных планов эксперимента для распределений ошибки, представимых в классе лямбда-распределения;

показана возможность перехода в частотную область при построении характеристической функции для обнаружения закономерностей распределения случайной компоненты и более качественного восстановления регрессионной зависимости. Разработаны и исследованы параметрические и непараметрические алгоритмы;

предложен ряд новых алгоритмов построения оценочных подмножеств для метода наименьших уравновешенных квадратов, использующих показатели концентрации наблюдений, а также идеи планирования эксперимента. Посредством статистического моделирования проведено исследование разработанных алгоритмов, по результатам которого сформулирован ряд рекомендаций по их использованию;

предложены и исследованы алгоритмы, обобщающие идею квантильной регрессии на другие функции потерь, а также алгоритм идентификации моделей компонент дисперсии знаковым методом;

создана программная система, предназначенная для устойчивого и адаптивного оценивания параметров линейно-параметризованных регрессионных моделей и планирования эксперимента, с использованием которой решен ряд реальных задач технического и экономического содержания.

Практическая значимость. Полученные результаты позволяют проводить восстановление регрессионных зависимостей и планирование эксперимента на основе информации, непосредственно извлекаемой из исходных данных. Используемая адаптация к структуре исходных данных позволяет говорить о представленных алгоритмах как о гибком инструменте построения регрессионных моделей, существенно расширяющем и улучшающем возможности существующего алгоритмического обеспечения устойчивого и адаптивного оценивания, а также планирования эксперимента. Разработанная программная система позволяет автоматизировать процесс построения регрессионных зависимостей в условиях засоренных данных, с отличным от нормального распределением. Система зарегистрирована в виде объекта интеллектуальной собственности как программа ЭВМ (№ гос. per. 2011613035) [28].

Реализация результатов работы. Разработанные методы и алгоритмы используются в аналитической работе мэрии города Новосибирска, ООО «ЗапСибГеоПроект», торговым холдингом «Сибирский Гигант», а также в учебном процессе НГТУ, что подтверждено актами о внедрении.

На защиту выносятся:

семейство алгоритмов построения оценочных подмножеств, позволяющих вычислительной схеме метода наименьших уравновешенных квадратов реагировать на характер появления выбросов, а также учитывать индивидуальную информативность наблюдений;

алгоритмы адаптивного оценивания, существенно расширяющие сферу корректного применения метода максимального правдоподобия и

основанные на таких универсальных семействах распределений как устойчивые распределения, кривые Пирсона, обобщенное лямбда-распределение;

результаты исследований разработанных алгоритмов идентификации регрессионных уравнений, основанных на переходе в частотную область (использовании характеристической функции);

способ вычисления информационной матрицы Фишера для линейно-параметризованных регрессионных моделей с распределением ошибки, представимом в классе универсального лямбда-распределения;

алгоритмы, обобщающие идею квантильной регрессии на другие функции потерь и результаты их исследования;

программная система устойчивого и адаптивного оценивания, а также планирования экспериментов для линейно-параметризованных регрессионных моделей и результаты решения задачи технического содержания, связанной с оцениванием провиса проводов воздушных линий.

Апробация работы. Результаты научных исследований, проведенных автором, докладывались и обсуждались на: пятой международной научно-практической конференции «Актуальные проблемы электронного приборостроения» АПЭП-2000 (Новосибирск, 2000); десятой международной научно-практической конференции «Актуальные проблемы электронного приборостроения» АПЭП-2010 (Новосибирск, 2010); пятой международной научно-практической конференции «Высокие технологии, фундаментальные и прикладные исследования, образование» (Санкт-Петербург, 2008).

Работа выполнена при поддержке ФЦП «Научные и научно-педагогические кадры инновационной России 2009-201 Згг.» (проект №П263), аналитической ведомственной целевой программы «Развитие научного потенциала высшей школы (2009-2011 гг.)», проводимой по заданию Министерства образования и науки РФ (проект №1.5.11), аналитической ведомственной целевой программы «Развитие научного потенциала высшей школы (2006-2008гг.)» (проект № РНП.2.1.2.43).

Публикации. Результаты, полученные в диссертации, опубликованы-в 29 научных работах общим объемом 49 п.л. (авторских 18,9 п.л.), включая: рекомендованные ВАК издания - 22, материалы трудов научно-технических конференций - 3, свидетельство о регистрации программы ЭВМ - 1, депонированные рукописи - 2, учебник, содержащий научные разделы, - 1.

Структура и объем работы. По структуре диссертация состоит из введения, шести разделов основного содержания, заключения, списка использованных источников и приложений. Основное содержание представлено на 329 страницах, включая 59 таблиц, 90 рисунков и список использованных источников из 164 наименований.

Повышение эффективности оценивания посредством использования теории планирования эксперимента

Одним из базовых понятий теории является понятие эксперимента, под которым понимается комплекс математических, технических, технологических и социально-экономических мероприятий, направленных на получение дополнительной информации об изучаемом объекте (явлении).

Прежде чем пояснить это определение, сделаем небольшое замечание относительно понятия «дополнительная информация». Дело в том, что при изучении того или иного объекта исследователь естественным образом может определить для себя целый ряд его параметров, не проводя каких-либо направленных действий. Например, часто можно определить размер объекта, цвет, его местоположение в пространстве и т.д. Всё это относится к первичной информации об изучаемом объекте. Понятие же «дополнительной» информации включает в себя то, как изучаемый объект будет реагировать па разнообразные внешние воздействия и что в результате этих воздействий можно будет зафиксировать. Следовательно, задачей экспериментатора может являться задание (определение) этих внешних воздействий таким образом, чтобы по их результатам с заданной долей вероятности определить интересующие его свойства объекта.

Что же касается самого определения эксперимента, то упомянутые в нем математические мероприятия могут включать в себя, в первую очередь, постулирование математической модели изучаемого объекта (с последующей ее верификацией), а также определение ряда специальных условий, при которых эта модель может реально отображать интересующие исследователя свойства и качества моделируемого объекта. Технические мероприятия связаны с определением набора технических средств, требующихся для проведения исследований. При этом следует исходить как из требований решаемой задачи, так и из реальных (практических) возможностей но обеспечению качества проводимых экспериментов. Наконец, технологические мероприятия определяются тем необходимым набором способов, которыми может быть осуществлен тот или иной эксперимент, включающий в себя взаимодействие постулированной математической модели и технических средств, выделяемых для его проведения.

Перейдем к конкретным постановкам задач планирования оптимальных экспериментов для рассмотренного регрессионного уравнения (1.29). Целью планирования экспериментов для регрессионных моделей является такой выбор точек в области планирования X и выбор такого их числа, который по результатам экспериментов позволит наилучшим образом (в соответствии с некоторым критерием оптимальности) оценить неизвестные параметры. Таким образом приходим к еще одному базовому понятию теории, понятию плана эксперимента.

Нормированным (непрерывным) планом эксперимента называется совокупность где ./V - общее число экспериментов, хх,...,хп - опорные точки плана (обязательно различные), образующие его спектр, часто для удобства, приведенные линейным преобразованием к отрезку [-1,1], р{,...,рп - веса (меры) точек спектра. При этом если через rt обозначить число экспериментов, ПРОВОДИМЫХ В ТОЧКе Х1 , ТО Р[ = Г[/ N. При невозможности проведения числа экспериментов, кратного /V, на практике часто применяется специальная процедура округления плана. Она предполагает, как правило, незначительное видоизменение оптимального плана до плана с требуемым числом экспериментов [112]. При наличии нескольких планов для заданной ситуации (модели), исследователь должен уметь их сравнивать, для этого ему необходимо иметь некоторый критерий сравнения. Большинство статистических критериев оптимальности планов экспериментов основывается на понятии информационной матрицы плана [37,112]. Следуя [37], введем информационную матрицу М=Му], элементы которой определяются следующим образом: где 1(у\,...,Ун) -логарифмическая функция правдоподобия. Если исследователь примет предположение о нормальном распределении случайной компоненты уравнения (1.29), то, воспользовавшись выражением (1.32), может легко получить, что информационная матрица плана 1 т эксперимента может быть вычислена как М - — X X . В соответствии с [42] заметим, что эта информационная матрица связана с ковариационной матрицей оценок параметров соотношением Для дальнейшего изложения материала полезно знать несколько важных свойств, которыми обладает информационная матрица. 1. МатрицаМ- симметричная и положительно определенная матрица. 2. Если ранг матрицы М есть rgМ =к, то по имеющимся данным можно оценить ровно к линейно независимых линейных комбинаций параметров регрессионной модели (1.29). 3. Если рассматривать информационную матрицу как содержащую информацию о каждом из отдельных наблюдений xt, то можно записать ее в виде где величина i(-x(-) есть прирост (вклад) информационной матрицы за счет наблюдения, проведенного в точке спектра xt, а именно т где f(x)-(fl(x),f2(x),...,fq(x)) - вектор регрессионных функций модели (1.29). 4. Рассмотрим множество всех планов Е, допустимых для модели (1.29). Поскольку множество информационных матриц М(Е) = {М( ) : є Е) является выпуклым вследствие того, что любой его элемент есть выпуклая комбинация значений i(Xj), то в силу теоремы Каратеодори любая информационная ш(ш + 1) матрица может быть представлена в виде (1.50), где п п0 + [, п0 = , т.е. всегда найдется план, содержащий не более п0 +1 точек, информационная матрица которого совпадает с любой матрицей из множества М(Е) [56]. Отметим также, что матрица, обратная (1.50), называется дисперсионной матрицей плана , и обозначается Dfc). При решении задач оптимального планирования перед экспериментатором всегда стоит задача адекватной математической формулировки имеющихся у него критериев. Эти критерии могут включать в себя материальные, финансовые, временные, технические, технологические, экономические ограничения, условия эффективности, непротиворечивости, различные специфические условия. Очевидно, что чаще всего невозможно получить однозначного выражения всех требований в общей форме вследствие разнородности и частой противоречивости имеющихся условий. Поэтому на практике принято чаще всего обращаться к критериям, имеющим определенный статистический смысл. При этом оказывается, что именно такие критерии позволяют удовлетворить большинству требований и ограничений, причем получаемые на их основе результаты могут иметь вполне определенную интерпретацию как в статистических терминах, так и в терминах решаемой задачи. В данной работе будут в основном рассматриваться критерии, направленные на точность оценивания неизвестных параметров. По поводу других критериев можно порекомендовать [20,56,112]. Поскольку однозначной характеристикой любого плана эксперимента является соответствующая ему информационная матрица, то многие статистические критерии логичным образом представляются как функционалы от информационной (или ковариационной) матрицы [112].

План , называется )-оптимальным, если соответствующая ему дисперсионная матрица обладает наименьшим возможным значением определителя (соответствующая информационная матрица обладает наибольшим возможным значением определителя), т.е.

Алгоритм обнаружения гетероскедастичности, основанный на идеях дисперсионного анализа

Очевидно, что любая имеющаяся у исследователя информация о природе изучаемых признаков должна приниматься во внимание на любом этапе анализа, в том числе и на этапе выбора метода оценивания. Так, при наличии информации, свидетельствующей об одностороннем характере выбросов, следует переходить к методам, способным качественно работать в таких условиях. Одним из них является квантильная регрессия [142]. К этому же методу можно обращаться в ситуациях, когда выбросы (как случайные величины) имеют несимметричное или финитное распределение, что приведет к асимметрии общего распределения случайных ошибок. В этих условиях как классические методы оценивания, так и ряд устойчивых (например, знаковый) могут приводить к получению некорректных результатов.

Несмотря на очевидные преимущества, аппарат квантильной регрессии сегодня используется на практике крайне редко. Видимо, это связано с психологической привязанностью исследователей к традиционным методам, а также недостаточным распространением соответствующих алгоритмов и программного обеспечения. Так, существующие алгоритмы вычисления квантильных оценок [130,142] базируются в основном на методе наименьших модулей [17]. В данной работе предлагается общий алгоритм построения квантильных оценок, в том числе с использованием традиционного метода наименьших квадратов.

Для построения этого алгоритма воспользуемся идеей квантильной регрессии, введенной R. Koenker [130] на базе метода наименьших модулей. Данная идея может быть обобщена на случай произвольной функции потерь. Будем искать оценку неизвестных параметров исходного линейно- параметризованного регрессионного уравнения (1.29) как решение оптимизационной задачи однако при решении задачи оптимизации с использованием алгоритмов из [24] удобнее использовать именно представление (2.13).

Для определения уровня квантиля можно порекомендовать использование процедуры LTS-оценивания. Поскольку этот метод является устойчивым к наличию аномальных наблюдений, то можно предположить, что оптимальная величина мощности концентрированных подмножеств [154] даст возможность оценить уровень квантиля х.

Как было отмечено ранее, в отдельных случаях выбросы могут быть причиной неоднородности условий проведения наблюдений. Если исследователь не смог отождествить данную неоднородность с действием какого-либо фактора, то он вынужден рассматривать выделяющиеся из основной массы наблюдений именно как выбросы, которые будут появляться в выборке достаточно часто. Следствием может стать гетероскедастичность или нарушение условия постоянства дисперсии ошибки.

При произвольном (неоптимальном) выборе значений независимых переменных (точек спектра) факт нарушения предположения гомоскедастичности случайных ошибок обнаруживается с помощью специальных критериев. В литературе (см., например, [2]) можно найти достаточно большой набор таких критериев. Наиболее популярными из них являются критерии: Голдфельда-Кванта, Бартлетта, Уайта, Глейзера. Однако неясно насколько эффективным является применение данных критериев на практике. В связи с этим далее будут представлены результаты сравнения некоторых из только что отмеченных критериев по мощности, но прежде предложен еще один критерий обнаружения гетероскедастичности, основанный на идеях дисперсионного анализа.

Прежде всего отметим, что существующие критерии обнаружения гетероскедастичности следует разделить на критерии, определяющие наличие данного явления, и критерии, определяющие форму гетероскедастичности. В большинстве своем эти критерии основаны на идее анализа вектора остатков уравнения (1.29), поскольку очевидно, что наличие гетероскедастичности должно проявляться на величине остатков. Будем исследовать только критерии обнаружения. Проверяемая гипотеза об отсутствии гетероскедастичности имеет вид:

Исследование алгоритма, основанного на эмпирической характеристической функции

Рассмотренные способы, безусловно, расширяют множество практически реализуемых ситуаций, в которых теперь удается получить вид функции плотности и использовать максимально правдоподобное оценивание. В частности, схемы с засорением нормально распределенной ошибки могут быть описаны рядом Грама-Шарлье. Однако по-прежнему, исследователю нужно априори идентифицировать вид базовой плотности, что не всегда удается корректно сделать.

Идентификация распределений является весьма сложной задачей. При этом даже наличие высоких степеней согласия по тем или иным критериям не подтверждает факт обнаружения истинного закона распределения. Ведь очевидно, что далеко не все многообразие реально существующих распределений может быть представлено в виде известных теоретических распределений или их параметрических семейств. В связи с этим целесообразным представляется использование так называемых универсальных распределений, которые, очевидно, охватывают больше практически реализуемых ситуаций. Одним из таких довольно широких классов являются кривые Пирсона, введенные им еще на рубеже XX века. Также далее будут рассмотрено семейство лямбда-распределения и семейство устойчивых распределений.

Первой фундаментальной работой по исследованию распределений Пирсона, видимо, является статья Ельдертона [135], датированная еще J906 годом. Далее, как отмечено в [61], Колмогоровым А.Н. и Марковым А.Л. показано, что практически все реально существующие распределения могут быть представлены в виде кривых Пирсона. Несмотря на это очевидное преимущество, сегодня кривые Пирсона довольно редко встречаются на практике. Между тем известно [61, 135], что частными случаями этих кривых являются отдельные, хорошо известные распределения, в том числе бега- и гамма-распределение, экспоненциальное, равномерное, а также нормальное распределение.

Автором сделана попытка комплексного использования кривых Пирсона и техники метода максимального правдоподобия для решения задачи оценивания параметров регрессионных уравнений, обеспечивая тем самым наличие оптимальных свойств получаемых оценок [31] на достаточно широком диапазоне практически реализуемых ситуаций (распределений). Формальная постановка задача соответствует приведенной в начале данного раздела.

Анализ соответствующей специальной литературы показал, во-первых, наличие очень ограниченного числа публикаций, посвященных этой тематике, а во-вторых, отсутствие в них как устоявшихся обозначений, так и описания особенностей практической работы с кривыми Пирсона. Все это свидетельствует лишь о чисто теоретическом интересе авторов к этому вопросу. Поэтому представляется целесообразным подробное рассмотрение техники построения кривых Пирсона с указанием выявленных особенностей и закономерностей. Хорошо известно, что распределение с плотностью у(х) является распределением Пирсона, если оно удовлетворяет дифференциальному уравнению вида [43,53,61,135] где a, b0, b\, Ь2 - некоторые коэффициенты, значения которых определяются на основе первых четырех начальных моментов (m[,m2,in3,m4) изучаемой случайной величины. Выбрав в качестве начала отсчета среднее значение, можно начальные моменты заменить центральными (i, -0,[і2,\і3,\і4). Отметим также, что коэффициент а соответствует моде распределения. Опираясь на [17], запишем соответствующие соотношения Таким образом, данное семейство распределений полностью определяется первыми четырьмя моментами. Это серьезное преимущество перед представленными в предыдущем пункте ортогональными разложениями, поскольку, ограничиваясь при программной реализации разложением до четвертого момента, можно только предполагать, что этого будет достаточно для качественной аппроксимации. Определив по выборке значения моментов, а, следовательно, и коэффициентов a,b0,b[,b2, можно получить конкретный вид решения дифференциального уравнения (3.21). Существует двенадцать типов кривых Пирсона1, которые определяются значениями корней квадратного уравнения, полученного на основе знаменателя (3.21) На самом деле типов тринадцать, но последний, тринадцатый тип - это нормальное распределение, которому Пирсон не придавал особого практического значения. (3.27) соответствуют определенные значения корней г{,г2, которым, в свою очередь, соответствует определенный вид кривой Пирсона. Эта связь послужила идей построения универсального алгоритма оценивания параметров уравнений регрессии, в котором на каждой итерации метода максимального правдоподобия определяется тип распределения остатков, и полученная информация используется на следующих итерациях.

Однако прежде чем перейти к подробному описанию данного алгоритма, рассмотрим особенности идентификации трех основных и ряда переходных типов кривых Пирсона. Известны [61,135] следующие соответствия значений статистики к-Пирсона и вида кривой (табл. 3.1).

Режим оценивания параметров уравнения регрессии

Перед тем как перейти к рассмотрению результатов исследования данного алгоритма, заметим, что случаи его расходимости наблюдались достаточно редко (5-7%). Причина могла состоять в потере унимодальности засоренного распределения ошибок. При использовании для моделирования соотношения (3.47), это может происходить, как только параметр смеси ц. приближается к 0.5. Тем не менее, такой процент расходимости не является, на взгляд автора, существенным, и свидетельствует о приемлемой степени аппроксимации плотности \/( ) отрезком рядом Грама-Шарлье (3.6).

Для различных комбинаций LL И р проводилось по 500 вычислительных экспериментов. Каждый такой эксперимент заключался в моделировании выборки исходных данных в соответствии с моделью (2.23) с последующим оцениванием параметров этой модели разработанным алгоритмом, а также методом наименьших квадратов и знаковым методом. Показатели точносіи оценивания \\г{ и \/2 были усреднены по 500 вычислительным экспериментам.

В табл. 3.2 представлены результаты, полученные для нормально распределенной ошибки наблюдения (р, = 0) при разных объемах выборки. Дисперсия соответствовала уровню шума 5%. Анализ результатов показывает, что на малых выборках наилучшие результаты показывает метод наименьших квадратов. Однако с увеличением объема выборки его преимущество перед разработанным алгоритмом становится незначительным. Это объясняется тем, что при увеличении объема выборки разложение Грама-Шарлье позволяет более точно аппроксимировать реальное распределение, а также асимптотической эффективностью метода максимального правдоподобия.

Далее рассмотрим изменение точности оценивания в зависимости от дисперсии (уровня шума) нормально распределенной ошибки (і = 0). Для этого будем последовательно изменять уровень шума, соответствующий дисперсии о1? от 2.5% до 50% с шагом 2.5. Результаты проведенных экспериментов приведены на рис.3.2.

Из рис. 3.2 видно, что при малом уровне шума все три метода показывают примерно одинаковую точность. С увеличением уровня шума точность оценивания метода наименьших квадратов и метода, основанного на аппроксимации (3.6), по-прежнему, практически одинакова, в то время как точность оценивания знаковым метод стала несколько хуже, что отмечалось ранее в [24].

Также проведено исследование точности оценивания вектора неизвестных параметров 0 при разной степени отклонения распределения случайной ошибки от нормального распределения. Для этого изменению подвергался параметр смеси \±. При малых значениях ц в выборке будет появляться небольшое число выбросов, а при значениях \±, близких к 0.5, можно говорить об изменении формы распределения. Было зафиксировано р } = 5% , р 2 = 50%, а доля выбросов \х, изменялась от 0 до 0.5 с шагом 0.02. Результаты вычислительных экспериментов представлены на рис. 3.3 и 3.4.

По рисункам можно увидеть, что оценивание параметров на основе разложения (3.6) дает хорошие результаты в том случае, когда распределение ошибки существенно отлично от нормального (при больших значениях [і). Наличие небольшого числа выбросов, как правило, не меняет форму распределения, поэтому попытка оценивать распределение с помощью разложения (3.6) при малых \х не приводит к желаемому результату. В этом случае лучше использовать устойчивые к наличию выбросов методы, например, знаковый метод или наименьших уравновешенных квадратов (LTS). Наилучшие результаты знакового метода в данном случае можно объяснить сохранением при Результаты оценивания параметров уравнения (2.23) тремя методами приведены в табл. 3.3. Очевидно, что при таком выборе распределения случайных ошибок их медиана равна нулю, что не нарушает предпосылки знакового метода [43].

Из табл. 3.3 видно, что наилучшие результаты показывает метод, основанный на разложении (3.6). Знаковый метод уступает даже методу наименьших квадратов, что, видимо, связано с потерей симметрии распределения. На рис. .3.5. пунктирной линией показан график восстановленной функции плотности с помощью разложения (3.6) при объеме выборки 100 элементов. Это свидетельствует о хорошем качестве оценивания плотности и еще подтверждает преимущества данного подхода при оценивании параметров регрессионных зависимостей.

Исследование качества аппроксимации (3.19) проводилось посредством вычислительных экспериментов, в которых оценивались плотности распределения, соответствующие различным случайным величинам, распределенным на отрезке [0,1]. Оценка этих плотностей осуществлялась при помощи МЕС алгоритма, причем в качестве базовой плотности выбрана плотность бета-распределения. Качество аппроксимации искомой функции плотности определялось по критерию хи-квадрат Пирсона [43], при этом сравнение проводилось с точки зрения представления (3.17) при п = 2, п = 3 и и-4, что соответствовало двум, трем и четырем слагаемым в разложении (3.19). Модель 1. В качестве искомой плотности (3.10) выберем треугольное распределение с положительной асимметрией. Пусть на отрезке 0,1] соответствующая плотность имеет вид fi(x) — І—Їх. Смоделируем выборку из этого распределения объемом N = 1000 и воспользуемся МЕС-алгоритмом для оценивания f?(x). Графики полученных оценок функции плотности Д ( ) // \х) и fiA\x) представлены нарис. 3.6. Из рис. 3.6 видно, что уже самая простая аппроксимация f?2\x) достаточно хорошо описывает распределение исходных данных В большинстве случаев увеличение количества слагаемых в разложении (3.19) приводило к более точному описанию структуры выборки.

Обнаружение и использование закономерностей в исходных данных при построении регрессионных моделей и планировании эксперимента Тимофеев, Владимир Семенович

Повышение эффективности оценивания посредством использования теории планирования эксперимента

Алгоритм обнаружения гетероскедастичности, основанный на идеях дисперсионного анализа

Исследование алгоритма, основанного на эмпирической характеристической функции

Режим оценивания параметров уравнения регрессии

Похожие диссертации на Обнаружение и использование закономерностей в исходных данных при построении регрессионных моделей и планировании эксперимента