Робастные GM-тесты и оценки в авторегрессионных схемах с выбросами Есаулов Даниил Михайлович

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Есаулов Даниил Михайлович. Робастные GM-тесты и оценки в авторегрессионных схемах с выбросами: диссертация ... кандидата физико-математических наук: 01.01.05 / Есаулов Даниил Михайлович;[Место защиты: Федеральное государственное бюджетное образовательное учреждение высшего образования "Московский государственный университет имени М.В.Ломоносова"], 2015.- 116 с.

Содержание к диссертации

Введение

2 Эмпирические процессы и GM-тесты в AR(1 )

2.1 Асимптотическое равномерное разложение остаточных эмпирических процессов 31

2.2 Построение качественно робастных GM-тестов без использования оценок параметров 37

2.3 Робастные GM-тесты, основанные на GM-оценках 42

2.4 GM-процедуры для случая гладкой целевой функции 48

2.5 Доказательства теорем 51

3 Робастные GM-процедуры в AR(p) модели 67

3.1 Проверка гипотезы размерности в AR(p) модели в схеме без засорений 68

3.2 Построение качественно робастного GM-теста в AR(p) модели в схеме с засорениями 77

3.3 Асимптотическая нормальность GM-оценок в схеме с засорениями. Робастность GM-тестов, основанных на GM-оценках 85

4 Оптимальность GM-тестов 88

4.1 Асимптотически оптимальные тесты в AR(1) 88

4.2 Алгоритм построения асимптотически оптимального взвешенного теста наименьших модулей в AR(1). Результаты численного эксперимента 91

4.3 Доказательства 103

Список обозначений 107

Список литературы

Построение качественно робастных GM-тестов без использования оценок параметров
GM-процедуры для случая гладкой целевой функции
Построение качественно робастного GM-теста в AR(p) модели в схеме с засорениями
Алгоритм построения асимптотически оптимального взвешенного теста наименьших модулей в AR(1). Результаты численного эксперимента

Построение качественно робастных GM-тестов без использования оценок параметров

Питменовская асимптотическая относительная эффективность (АОЭ) теста со статистикой Т (/Зо) относительно теста наименьших квадратов Г) равна es:is = (2 ?(0)Ei) . Для G(x) с тяжелыми хвостами es,LS может быть сколь угодно большой. Отметим, что в схемах без засорений знаковые тесты исследовались в монографии Болдина и др. ([9]) для линейных регрессии и авторегрессии, в работе Болдина и Штутте ([10]) для ARMA моделей. В [24] рассматривается ситуация, когда наблюдения авторегрессии (1.17) содержат грубые выбросы и имеют вид (1.14) с р = 1. В схеме засорений (1.14) статистика T Y( o) знакового теста строится по {yt} так же, как Т (/Зо) строилась по {щ}. Мощность соответствующего Т у(Ро) теста при альтернативе Н\п(т) обозначим И (т,7,м).

В [24] было установлено линейное по г и 7 стохастическое разложение Т уіРо) ПРИ п - 5 равномерное поО т Т оо, 0 7 — Г оои произвольным /І. ЭТО разложение влечет существование равномерного слабого предела Т у(/Зо), а значит, равномерного предела Ws(r, f,fi) для мощности W f(r, 7,м)- Отсюда следует соотношение типа (1.15), означающее LQ-робастность. Отметим, что общеупотребительные тесты наименьших квадратов и М-тесты из [53] LQ-робастными не являются.

Предложенное Болдиным определение качественной робастности тестов родственно определению Ридера (Rieder, [67]) качественной робастности тестов для случая независимых данных. В [67] исследовалась робастность ранговых тестов. Отметим, что определение Ридера дано в нелокальной схеме и основано на равностепенной непрерывности распределения ошибок относительно метрик Прохорова или Колмогорова. Напомним его точную формулировку. Пусть (Г2, ) — измеримое пространство, Л4 — множество вероятностных мер на В. Для под множества V С М. обозначим V := { g)=1Gj, Gi Є V, і = 1,. .. , п} — прямое произведение вероятностных мер G{. Последовательность тестов {фп} есть последовательность измеримых отображений фп: Qn — [0,1],п щ. В метрике Прохорова шар радиуса 5 Є [0,1] и центром в FeA обозначим VP(F,S).

Последовательность тестов {фп} является качественно робастной в F, если для любого є 0 существует 5 0 такое, что для Wn Є Vp{F) 6)(п\п По, выполнено соотношение \J фпд.\п — J 0ndFn є.

Данное определение родственно определению качественной робастности оценок в Хампелевском смысле (Hampel, [39]). Пусть Тп = Тп(жі,... , Хп) — последовательность оценок, построенных по независимым наблюдениям {ХІ} С одинаковым распределением F. Обозначим распределение статистики Тп в этом случае как Ср{Т„). По Хампелю последовательность Тп называется качественно робастной в F, если для любого є 0 существует 5 0 такое, что при всех п и распределениях G Є Vp(F,6) распределения Сс(Тп) Є Vp(Cp(Tn)}e). Это определение было обобщено на временные ряды в работе Боенте и др. (Boenteet al., [20]).

Стоит отметить, что Хампелевская характеризация качественной робастности оценок получила гораздо меньшее распространение, чем его инфинитезимальный подход к робастности, основанный на понятии функции влияния (Influence Function). Этот подход был подробно описан в монографии Хампеля и др. (Hampel et al., [41]) для оценок в случае независимых данных и оказал большое влияние на развитие теории робастных статистик в целом. Функция влияния IFH(X,T,F) оценки Тп(жі,... , хп), построенной по и.о.р. данным с распределением F, описывает тот асимптотический эффект, который оказывает на статистику Тп дополнительное наблюдение в точке х. Отметим, что для определения IFjj предполагается, что оценка Тп имеет вид Тп = T(Fn), где

В [40] Хампелем были построены В-робастные (т.е. с чувствительностью supx \IFH(X, a, М-оценки, оптимальные в смысле минимизации асимптотической дисперсии. Обобщения такого подхода в многопараметрическом случае приведены в [41]. Хьюбер (Huber, [45]), Краскер и Уэлш (Krasker and Welsh, [52]) распространили хампелевский подход на модель линейной регрессии. Отметим, что поиск оптимальных В-робастных М-оценок в случае нормальной модели с неизвестным параметром сдвига приводит к тому же классу оценок, что и известный минимаксный подход Хьюбера (Huber, [43], [44]).

Предложенный Хампелем подход к робастности был распространен также и на статистические тесты. В [41], к примеру, даны функции влияния для ранговых тестов, построенных по н.о.р. данным. Мар-кату и Хеттманспергер (Markatou, Hettmansperger, [58]) построили В-робастные обобщенные М-тесты для поверки линейных гипотез в модели линейной регрессии. Их результат был обобщен Херитьером и Рон-четти (Heritier, Ronchetti, [42]), а также Силвапулле (Silvapulle, [70]) для нелинейных регрессионных моделей.

Кунш (Kunsch, [55]) обобщил понятие Хампелевской функции влияния на модель авторегрессии. В его работе были построены В-робастные GM-оценки параметров модели, оптимальные в смысле минимизации следа асимптотической ковариационной матрицы. Отметим, однако, что в отличие от случая н.о.р. данных, функционал, определяющий оценку, во временных рядах зависит не только от одномерного распределения, но от всех конечномерных распределений сразу. Поэтому в этом случае более приемлемым является использование вместо функций влияния т.н. функционалов влияния (Influence Functional). Такую характеризацию робастности для временных рядов предложили Мартин и Иохай (Martin, Yohai, [62]).

GM-процедуры для случая гладкой целевой функции

Замечание 2.1. В силу Следствия 2.4 и Теоремы 2.3 мы получили, что GM-тесты, основанные на ТП;у из (2.47) и ЛП;у, из (2.18) асимптотически эквивалентны. Это, в частности, означает, что для предельных мощностей теста, основанного на ТП;у, выполняется соотношение (2.31). Таким образом, данный GM-тест является предельно качественно робастным.

Стоит также отметить, что уравнение (2.32), вообще говоря, может иметь несколько решений. В этом случае необходимо правильно выбрать какое-то одно них. Один из способов — взять п1 2 -состоятельное решение уравнения, ближайшее к какой-либо предварительной п -состоятельной оценке параметра (3. В качестве такой оценки можно взять, например, оценку наименьших квадратов /3 LS. Второй способ — построить оценку, которая не является решением уравнения (2.32), но при этом имеет то же предельное распределение, что и искомая р см-Таким образом, тест, основанный на новой оценке, будем асимптотически эквивалентен тесту, основанному на р см- Опишем, как можно построить такую оценку.

В случае, если целевая функция гр статистики (2.17) является гладкой, доказательство AUL данной статистки можно провести с помощью обычной формулы Тейлора для самой функции гр(х) без использования свойства AUL остаточных процессов v (a, х). При этом замечательно то, что функция гр не обязана быть ограниченной, как это требовалось в Условии 2.3. Такая ситуация очень важна. В случае без засорений она включает в себя случай (р(х) = гр(х) = ж, при котором уравнение (2.32) определяет оценку наименьших квадратов, и случай (р(х) = х,гр(х) = — (Ч, при котором (2.32) становится уравнением максимального правдоподобия.

Доказательство. Так же, как и при доказательстве Теоремы 2.7, достаточно показать справедливость соотношений (2.37)-(2.38). Соотношение (2.39) верно в силу (2.22). Докажем сначала соотношение (2.37). По формуле Тейлора

Рассмотрим выражение (2.56). По формуле полной вероятности, а также в силу выбора точек {ХІ} И ограниченности (р его математическое ожидание равно n QognrVE \фі + i) - ip(Ul)\ с1(Г)(п3/71оёп)-1. (2.57) Соотношение (2.57) верно для любых (т, 7,м) Є Дг,г- В силу (2.57) и неравенства Чебышева выражение (2.56) есть ор{1) равномерно по (т,7,м) Є ВТр.

Доказательство того, что выражение (2.61) является ор{1) равномерно по (г, 7,м) Є Вт Гі следует из Леммы 3.4 в [49] и также использует неравенство Розенталя. Выражение (2.62) есть, очевидно, ор{1) равномерно по (г, 7?м) Є т,г в силу выбора точек {ХІ} И условия 2.2. Для доказательства Теоремы 2.1 осталось доказать следующую Лемму.

Лемма 2.4. Пусть выполнены условия 2.1-2.2. Пусть верна Н\п{г). Тогда при любых 0 Г оо, 0 Т оо равномерно по (т, 7,м) Є Втр выражение (2.63) есть ор(1), п — оо.

Доказательство. По формуле Тейлора модуль выражения под знаком максимума в (2.63) не превышает

Чтобы доказать теорему, достаточно показать, что каждое из выражений (2.81)-(2.84) стремится к 0 по вероятности при п — сю.

В 3.1 предлагается новый способ построения GM-теста для проверки гипотезы о размерности модели в схеме без засорений. В частном случае предложенная тестовая статистика совпадает со статистикой (1.13) из [53]. В конце параграфа построенный тест сравнивается с другими известными непараметрическими тестами.

В 3.2 определяются остаточные эмпирические процессы в схеме с засорениями и формулируется утверждение о их равномерной асимптотической линейности. Это утверждение и его следствия являются обобщениями соответствующих утверждений для AR(1) модели. Используя полученные результаты, способом, предложенным в 3.1, по засоренным данным строится GM-тест и исследуются его асимптотические свойства. Доказывается его предельная качественная робастность.

Построение качественно робастного GM-теста в AR(p) модели в схеме с засорениями

Для завершения доказательства Теоремы 3.4 заметим, что соотно шение (3.36) выполнено в силу (3.13). Простым следствием Теоремы 3.5 является Следствие 3.2. Пусть (3nY — произвольная последовательность, для которой nl 2((3nY — /Зп) = Ор(1) при Н\п(т). Тогда в условиях Теоремы 3.5 LI(X,Y) = п(А ) - Сп1/2фпх - Рп) + 7А(м) + ор(1). (3.42) Следствие 3.2 доказывается аналогично Следствию 3.1. GM-тест для проверки линейной гипотезы Но в схеме (1.14) строится по {yt} так же, как соответствующий тест в схеме (3.1) строился по {щ}. А именно, в качестве тестовой статистики возьмем Здесь (3n0Y (/3noy?0 ), где f3n0Y — п1 -состоятельная оценка параметра (3 \ построенная по {yt}- СП;У и Зщу — состоятельные при Н\п(т) оценки матриц С из (3.5) и J из (3.19). Они могут быть построены по {yt} тем же способом, которым Сп и Jn строились по {щ} в 3.1. Используя состоятельность оценки СП;у и соотношение (3.42) с Зп,У = ЗпО,у5 получаем:

Таким образом, семейство предельных мощностей {И/Г(т,7,м)} є9Л2 равностепенно непрерывно по 7 в точке 7 = 0. Свойство (3.46) и характеризует робастность теста (3.43) против выбросов, а точнее качественную робастность его предельной мощности. Доказательство Теоремы 3.7. Соотношение (3.46), очевидно, эквивалентно соотношению supFp_m(x?: A2)-Fp_m( : AS) 0, 7 0. (3.47) Доказательство. Обозначим D := С_1, D оо в силу Условия 3.4. Зафиксируем произвольное 5 0. Ln((30) — асимптотически нормальна, а значит, Ln((30) + 7 А = Ор(1). Т.е. для некоторых 0 N\ 00 и 1 А оо при n Ni P[Rin(A)) 5/2, где

Теперь перейдем к тестам, построенным на основе GM-оценок. Пусть Jn,Y — произвольная состоятельная оценка ковариационной матрицы J из (3.19). В качестве последовательности тестовых статистик возьмем

Во вспомогательном 4.1 излагаются известные результаты об асимптотической оптимальности тестов, построенных в Главе 2 для AR(1) модели в схеме засорений (2.2). Приведенные результаты принадлежат М.В. Болдину и представлены в совместной краткой заметке [8] (раздел 3). Их доказательства до настоящей работы нигде не публиковались. Они получены автором диссертации самостоятельно и вынесены в 4.3.

На основании результатов 4.1 в 4.2 предлагается численный алгоритм построения асимптотически оптимальных GM-тестов в семипара-метрическом случае, когда неизвестно распределение инноваций. Приводятся результаты численных экспериментов с построенными тестами на моделированных данных.

Цель параграфа — показать, для каких функций (р и ф тест со статистикой Ащу = ЛП;у((/?(ж), (ж)) из (2-18) является асимптотически оптимальным. В силу асимптотической эквивалентности соответствующих тестов (Замечание 2.1) все приведенные ниже результаты верны также для теста со статистикой Тпу из (2.47).

Алгоритм построения асимптотически оптимального взвешенного теста наименьших модулей в AR(1). Результаты численного эксперимента

Предложим способ выбора подходящих значений параметров Ь и с для полученной в 4.1 статистики Кпу{}Ръ{х) фс{х)) асимптотически опти Глава 4. ОПТИМАЛЬНОСТЬ GMECTOB мального теста.

Будем рассматривать случай с = 0. Приемлемость такого выбора обусловлена тем, что в этом случае целевая функция фс{х) = фо(х) = sign(:r) не зависит от, вообще говоря, неизвестной функции д(х). соответствующее ЛП;у((/?ь(ж), о(ж)), определяет взвешенную оценку наименьших модулей (LDW-оценку). Здесь символ -Ь означает переход через ноль. LDW-оценки были введены в [9] (5.5.3). В схеме с засорениями такая оценка определяется как решение уравнения одним из решений которого является медианная оценка (Зщм- Она является медианой массива {yt/yt-i,t = 1,...,п}. В случае, если п нечетно, /3П;м является единственным решением (4.8), а при четном п она является серединой отрезка решений.

Для перечисленных оценок в [9] были вычислены функционалы влияния в схеме засорений (2.2) с постоянной (не зависящей от п) интенсивностью 7 Далее для краткости вместо Ащу((Рь(х)} фо(х)) будем писать ЛПіу(6). Тест со статистикой Лпу(&) по аналогии с соответствующей

Зафиксировав с = О, перейдем к поиску оптимального значения параметра Ь. Сначала мы рассмотрим вспомогательную задачу, когда распределение (} известно, а после опишем численный метод, позволяющий действовать в случае неизвестного распределения инноваций.

Итак, рассмотрим случай известной д{х). Параметр Ь для тестовой статистики ЛП;у(6) будем подбирать таким образом, чтобы верхняя граница для наибольшего асимптотического объема теста из п.1 Теоремы 4.1 при всех 7 7о (То считаем заданным) не превосходила априори выбранного числа «о, ао а: Ф(а + е (ЬУі) «о- Тогда последнее условие эквивалентно неравенству ev(b) (t a)ho- (4-9)

В силу Леммы 4.1 для существования решения (4.9) относительно Ь необходимо и достаточно, чтобы (ао—а)/7о 1. Для фиксированных а и 7о последнее условие, очевидно, эквивалентно

Алгоритм построения асимптотически оптимального взвешенного теста наименьших модулей в AR(1). Результаты численного эксперимента

В силу состоятельности Ьп логично предположить, что статистики ЛПіу(6п) и ЛП;у(6 ) имеют одинаковое предельное распределение. То есть, при достаточно больших п в качестве тестовой статистики можно брать оценку Апу{Ьп). Доказательство приведенного предположения кропотливо и в диссертации не представлено. Ниже мы покажем его справедливость на эвристическом уровне.

Рассматривается случай А/"(10, 5). При этом истинные значения Ъ соответствуют 7 = 0.1, «о = 0.0615 (Таблицы 4.3, 4.5) и 7 = 1, «о = 0.26 (Таблицы 4.4, 4.6). Значения мощностей получены методом Монте-Карло, а именно, было смоделировано 10000 выборок объемом п = 100, 500, 1000, и 10000.

Исходя из результатов, представленных в этих таблицах, можно еде лать несколько важных выводов. Во-первых, при больших значениях п подтверждается близость значений мощностей Wn(bn) и Wn(b ). В частности, видно, что при п = 10000 соответствующие уровни значимости отличаются только в третьем знаке после запятой. К тому же, представленные тесты являются состоятельными, т.к. при росте п их мощности приближаются к 1.

В случае /Зо = 0 присутствие засорений не оказывает влияние на предельное распределение рассматриваемых статистик. Это объясняется тем, что в этом случае в соотношении (4.5) величина Д2(/ЗО,/І) = 0.

Далее, в случаях /Зо = 0 и /Зо = —0.5 тест, основанный на ЛП;у(Ъ ), является менее мощным, чем LAD-тест. Однако при /Зо = —0.5 уровень значимости построенного теста значительно меньше уровня значимости LAD-теста. В случае большой доли выбросов (7 = 1) LAD-тест оказывается вообще не применим, т.к. ошибка первого рода для него равна 1 против 0.249 у теста со статистикой ЛП;у(6 ) (п = 10000). Дело в том, что сдвиг о" Д2 из (4.5) для рассматриваемых и отрицательных /Зо положителен и при (fi(x) = (ръ {х) значительно меньше, чем при (р(х) = X.

В случае положительных /Зо ситуация меняется на противоположную. А именно, при /Зо = 0.5 и /Зо = 0.9 значения мощности GM-теста со статистикой ЛП;у(& ) больше соответствующих значений для LAD-теста. При этом несмотря на то, что уровень построенного GM-теста больше уровня значимости LAD-теста, его значение не превышает 0.05.

Замечание 4.3. В двух последних столбцах таблиц 4.5 и 4.6 представлены значения мощностей тестов, основанных на тех же статистиках, но используемых для проверки гипотезы Но: /3 = /Зо против левосторонних альтернатив Н± : /3 /Зо- Рассмотрены случаи /3 = 0.8 и /3 = 0.7. Отметим, что теперь гипотеза отвергается в случае ЛП;у ta. В схеме без засорений такой тест имеет асимптотический уровень зна Глава 4. ОПТИМАЛЬНОСТЬ GMECTOB чимости а. В силу Теоремы 2.3 соответствующая ему предельная мощность на Ніп(т), г 0, есть W(r,7 м) = Ф( « — тсг_1Аі -7 2) Таблица 4.3: Мощности тестов для Но: /3 = /Зо, 7о = 0. 70 = 0.1, а0 = 0.0615, 6 ЛГ(10,5) /Зо = -0.5, ЕЄ2 = 1 Ь =0.107 /Зо = 0.5, Еє? = 1, Ь =0.107

Замечание 4.5. В схеме засорений (2.2) с постоянной (не зависящей от л) интенсивностью 7 функционал влияния /F(/37,/i) GM-оценки finGM в точности равен Aj А2. Таким образом, условия р Є Л4р(Ь) и гр Є Л4ф(с) гарантируют ограниченность чувствительности

В силу дифференцируемости д(х) функция Fu{x) непрерывно дифференцируема, F u = fu. Из представления (4.15) и формулы Лейбница ev{b) дифференцируема при Ь 0. Прямым вычислением проверяем, что производная по Ь знаменателя в (4.15) есть при Ь 0. Непосредственным вычислением получаем, что , ь=о= /м(0). Значит, е (Ь) строго возрастает при Ь 0. При этом по правилу Лопиталя limle ib)}2 = lim 7 ., п, — = 1. Таким образом, mir±5e (&) = е (0) = 1. Доказательство Леммы 4-2. 1) Докажем сначала первое утверждение. Заметим, что для любого к 0 при фиксированной функции ф функция kip определяет ту же оценку, что и if. Поэтому без ограничения общности мы можем положить получаем, что задача (4.4) эквивалентна нахождению минимума левой части тождества (4.3). Тем же способом, что применялся для решения (4.3), несложно показать что этот минимум достигается при ф = фс п.в. Доказательство Леммы 4-3- Аналогично доказательству Леммы 4.1 в силу непрерывной дифференцируемости Fu имеем