Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Исследование поведения остатков линейной по параметрам полиномиальной регрессионной модели Пономарчук Юлия Викторовна

Исследование поведения остатков линейной по параметрам полиномиальной регрессионной модели
<
Исследование поведения остатков линейной по параметрам полиномиальной регрессионной модели Исследование поведения остатков линейной по параметрам полиномиальной регрессионной модели Исследование поведения остатков линейной по параметрам полиномиальной регрессионной модели Исследование поведения остатков линейной по параметрам полиномиальной регрессионной модели Исследование поведения остатков линейной по параметрам полиномиальной регрессионной модели Исследование поведения остатков линейной по параметрам полиномиальной регрессионной модели Исследование поведения остатков линейной по параметрам полиномиальной регрессионной модели Исследование поведения остатков линейной по параметрам полиномиальной регрессионной модели Исследование поведения остатков линейной по параметрам полиномиальной регрессионной модели
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Пономарчук Юлия Викторовна. Исследование поведения остатков линейной по параметрам полиномиальной регрессионной модели : диссертация ... кандидата физико-математических наук : 05.13.18.- Комсомольск-на-Амуре, 2005.- 102 с.: ил. РГБ ОД, 61 06-1/142

Содержание к диссертации

Введение

1 Анализ литературных данных 15

1.1 Задачи, в решении которых используются графики остатков 17

1.1.1 Проверка адекватности модели данным 19

1.1.2 Проверка предположений об ошибках 23

1.1.3 Выявление промахов 27

1.2 Виды графиков остатков 28

2 Коэффициент корреляции между остатками несмещенной, линейной по параметрам регрессионной модели 31

2.1 Общие сведения о коэффициенте корреляции 31

2.2 Вычисление коэффициента корреляции между остатками 32

2.3 Влияние корреляции на поведение остатков 40

3 Исследование интервала для серии остатков, полученных по одной серии измерений 44

3.1 Формула интервала для серии остатков 45

3.2 Сравнение точного интервала с t-интервалом для остатков 47

4 Проблема обнаружения промахов 55

5 Плотность распределения стьюдентизированных остатков регрессионной модели, полученных по одной серии измерений 63

5.1 Вывод общей формулы функции плотности распределения стьюдентизированных остатков регрессионной модели, полученных по одной серии измерений 63

5.2 Частные случаи функции плотности распределения стьюдентизированных остатков 65

6 Описание алгоритмов программ 73

6.1 Сравнение возможностей предлагаемых программ и существующих пакетов обработки данных 77

Заключение 79

Список использованных источников 84

Приложение А. Листинг и результаты выполнения программы расчета коэффициента корреляции между остатками несмещенной линейной по параметрам полиномиальной

регрессионной модели 90

Приложение Б. Листинг и результаты выполнения программы обработки данных методом регрессионного анализа

Введение к работе

Актуальность темы. Задача обработки данных технического или есте ственнонаучного эксперимента очень часто заключается в подборе функ циональной зависимости между двумя группами переменных, принимаю щих числовые значения х-,, х2 хп и у.,, у2, ..., ут, которые можно объ единить в векторы х, у. Одна из переменных, х - независима и неслу чайна, известна точно и влияет на значения второй, у. В литературе, на пример, в [1], значения X,, i = 1,n независимой переменной (аргумента), в которых проводятся измерения, называют узлами, а значения зависимой (отклика) значения ук, к = 1,т - опытными значениями, зависящими от xh

Таким образом, исходными данными являются пары значений (xj, Уі), і = 1,п, которые являются результатами измерений. В общем случае число узлов может отличаться от числа откликов, так как измерения могут проводиться несколько раз в одном и том же узле, т.е. п < гл.

Будем предполагать, что наблюдаемые (опытные) значения отклика являются суммой значения какой-либо функции в узле и значения некоторой случайной величины s:

Уї = f(x[) + ei, i = 1,n. (1)

При этом, согласно [1], случайное слагаемое є, отражает либо присущую отклику изменчивость, либо влияние на него одного или нескольких неучтенных факторов, либо то и другое вместе. Случайную величину є называют ошибкой эксперимента, подразумевая несовершенство метода измерения у, что может включать в себя недостаточную точность измерительных устройств, сбой аппаратуры, ошибки оператора и подобные этим причины.

В классическом регрессионном анализе предполагается, что: а) все опыты проводятся независимо друг от друга, т.е. случайное сла гаемое в одном опыте не влияет на результат другого опыта; б) случайные составляющие принадлежат к одному распределению с конечной дисперсией.

Далее мы должны определить семейство моделей f(x,0j, предполагая, что оно является параметрическим, где 0 є 0 - вектор-параметр семейства, и функция f(x,9j линейно зависит от параметра 0. Тогда соотношение (1) можно представить в следующем виде:

У; =f(xh ё)+|, І = 1,П.

Отсюда типичная задача линейного регрессионного анализа - восстановление зависимости у от х при сделанных выше предположениях, эквивалентна поиску оценки параметра 0 (9) по исходным данным (xj, у;), i = 1,n. Знание 0 позволяет предсказывать значение отклика по заданному значению фактора.

Решение такой задачи не будет полным без использования методов математической и прикладной статистики, которые широко применяются в современной инженерной практике. При этом инженерам нужны по возможности простые и наглядные, но достаточно строгие и правильные решения и рекомендации. Можно сказать, что наибольшей популярностью в анализе данных пользуется графический метод.

Во многих случаях построение различного рода графиков и диаграмм оказывается весьма эффективным средством исследования [2-5]. Известный статистик Дж.Тьюки посвятил построению различных графиков и диаграмм книгу объемом около 700 страниц [2]! Уместно также привести высказывание другого крупного статистика Дж.Себера: «Представляется..., что графики являются более информативными, чем соответствующие им критерии, так что построение критериев после построения графиков может оказаться и не нужным. С другой стороны, требуется достаточное мастерство в интерпретации графиков» [3, с. 168].

Графические методы важны как в предварительном анализе данных, так и в представлении окончательных выводов. Графический анализ помогает также и при интерпретации [4, 6].

Когда графические методы используются на стадии предварительного анализа, точная форма выбираемого расположения решающего значения не имеет. Например, в качестве минимального предварительного анализа данных можно рассматривать график точек (х,, у;) [6]. Как правило, такой анализ указывает, например, целесообразно ли какое-нибудь преобразование переменных до анализа в терминах модели или существуют ли изолированные резко выделяющиеся наблюдения, для включения или исключения которых необходимы специальные исследования. После анализа данных в предположении справедливости модели необходимо вычислить остаточные разности, то есть разности между наблюденными значениями и значениями, оцененными на основе модели. Далее, численный или графический анализ этих остатков может дать возможность предложить другое семейство моделей. Исходное семейство может оказаться слишком сложным, и, возможно, есть надежда перейти к более простому семейству, содержащему, например, значительно меньше неизвестных параметров.

С другой стороны, при заключительном представлении выводов желательно тщательное соблюдение формата графиков. При этом в [4] предлагается придерживаться следующих рекомендаций: — на осях должны быть четко обозначены названия переменных и единиц измерения; — должны использоваться разрывы осей для обозначения «искусственного» начала координат; сравнение сходных программ нужно облегчить, используя, например, идентичные шкапы для их представления и располагая сходные диаграммы на одной и той же странице или развороте страниц; шкалы нужно выбирать так, чтобы точные и приближенно линейные зависимости рисовались бы приблизительно под углом 45 к координатным осям; надписи должны, насколько это возможно, превращать диаграммы в почти не требующий дополнительных разъяснений материал анализа, то есть, независимый от текста; на интерпретацию не должна влиять техника представления результатов; на один график не следует помещать слишком много информации: нанесением ли слишком большого числа точек или сопровождением чрезмерно обширной дополнительной информацией.

В задачах обработки экспериментальных данных наряду с графическими методами широко используются и методы, основанные на количественных характеристиках величин. Поэтому работа посвящена не только анализу графиков и диаграмм, но и исследованию существующих и разработке новых критериев, которые можно применить в исследовании поведения остатков.

Регрессионный анализ считается неполным без анализа остатков е; построенной регрессионной модели (эмпирической зависимости), т.е. разностей значений отклика у-у и значений эмпирической зависимости у(х,) (здесь и далее у(х) ~ fix, 01) в каждом узле х,: еЕ' = Уї - y(Xj). (2)

В литературе (например, в [7], [8] (ссылка по [7])) также рассматриваются так называемые «стьюдентизированные» (с!,) и «шкалированные» (cs) остатки: df ~—r~—, Cj = '—г = ~j~~' — где ^(ei) " 0LleHKa диспер- л/0(е;) л/ср(е) Un^P

Гр n сии обычного остатка e,, a Dcp(e) - средняя по всем узлам оценка дисперсии остатков, Sp - оценка дисперсии опытных данных (остаточная дисперсия), р - число параметров модели.

С помощью анализа остатков решаются следующие задачи: —- адекватна ли модель опытным данным; — верны ли предположения об ошибках (например, независимы ли они, распределены ли нормально и т.д.); — есть ли среди обрабатываемых данных промахи (измерения, содержащие грубую ошибку).

Здесь же необходимо отметить, что остатки представляют своего рода «оценку» случайных ошибок.

Хотя классический регрессионный анализ считается завершенной конструкцией и исследованию остатков посвящено множество работ известных статистиков Дж. Тьюки, Дж. Анскомба, Н. Дрейпера, Г. Смита, Дж. Се-бера, Дж. Элленберга и других, в базовых положениях о поведении остатков нет четкости и математической строгости, встречаются такие слова, как «вероятно», «с большой долей вероятности», «по-видимому».

Так, известно, что остатки распределены нормально в каждом узле, но в совокупности не являются выборкой (совокупностью независимых, одинаково распределенных случайных величин), т.к. они коррелированны между собой, и дисперсии в каждом отдельном узле неодинаковы. Однако поскольку считается, что при большом числе узлов корреляция между остатками слаба, и дисперсии остатков «практически» равны, то к ним можно относиться, как к выборке, и, следовательно, к совокупности остатков можно применять выборочные методы исследования. Таким образом, учи- тывать ли особенности поведения остатков должен решать сам исследователь, что при отсутствии соответствующего опыта, скорее всего, приведет к ошибочным выводам.

Автором проанализировано влияние корреляции между остатками на их поведение, с целью дать практически реализуемые рекомендации для решения вышеупомянутых задач.

Постановка задачи. Оставаясь в рамках классического регрессионного анализа, уточним статистическую задачу, которая будет рассматриваться в работе. Пусть задан массив пар значений (Х;,У;), і = 1, 2,..., п. Значения аргумента х, известны точно, а значения отклика у, содержат только случайные ошибки: si =Уі-Уо(хг). (3)

Т.Є. У[ - y0(X|)+Sj, ГДЄ у 0 (х j) - ИСТИННОе Значение В УЗЛЄ Xj.

Относительно ошибок Sj предположим, что они подчиняются схеме Гаусса-Маркова: а) центрированы, т.е. их математическое ожидание равно нулю, М(єг) = 0; б) гомоскедастичны, т.е. данные у; равноточны, их дисперсии в разных узлах одинаковы, D(y, ) = D(Sj) = о~ ; в) ошибки в разных узлах некоррелированы, т.е. cov(e],ek) = 0, i^k и распределены нормально.

Относительно неизвестной истинной зависимости у0(х) сделаем общепринятые предположения: а)истинная зависимость существует в виде непрерывной дифференцируемой функции во всем диапазоне изменения аргумента, т.е. у0(х)єС11, xj; б)она представима в виде PoУоОО = ІаД(х), (4) где aj - неизвестные истинные параметры, число которых р0 полагается известным, a fj(x) - известные функции (базисные функции).

Иными словами, истинная зависимость представима в виде линейной комбинации базисных функций. В случае метода наименьших квадратов чаще всего применяют модель полиномиального вида у0(х) = Р(х) = а0 +а.|Х+ ... +amxm, где коэффициенты а0, а^ ... ат подлежат оценке методом наименьших квадратов [9]. Обычно говорится, что если на самом деле верна другая модель Уо(х) = д(х), где непрерывная на отрезке функция д(х) отлична от многочлена, то можно воспользоваться теоремой Вейерштрасса (например, [10]), в силу которой функцию д(х) можно приблизить многочленом Р(х) с любой точностью. Но ссылка на теорему Вейерштрасса здесь не совсем уместна, потому что любая непрерывная функция согласно этой теореме может быть приближена многочленом достаточно высокой степени. На практике, однако, степень m многочлена Р(х) стараются выбирать не высокой, а низкой. Действительно, если п - число экспериментальных точек, то многочлен степени (п-1) пройдет через все точки (х1; у.,), (х2, у2)> ,(ХП' Уп)> включив тем самым случайные ошибки є1? є2, ---, єп. Авторы [11] отмечают, что «при ограниченных объемах выборки ... с увеличением сложности модели ... точность оценивания падает». Таким образом, многочлен более высокой степени оказывается дальше от истины, чем многочлен более низкой степени.

В рамках сделанных выше предположений регрессионную модель истинной зависимости (4) естественно записать в виде у(х) = Іа^(х), (5) где неизвестные коэффициенты a-j находят по массиву данных (х^у,) , i = 1, 2,..., п методом наименьших квадратов, а число р определяют с помощью статистических критериев.

В работе в качестве базисных функций fj (х) использовались ортонор- мированные на системе узлов базисные функции \[/ = (х), такие, что [О при j ф I

В качестве \|/j(x) в работе были использованы ортонормированные полиномы Чебышева дискретного переменного. Этот выбор был сделан по рекомендации авторов [10 - 14]. Был реализован следующий метод: сначала были построены ортогональные полиномы Чебышева ф1(х) = 1, ф2 =х-х. Далее полиномы строились по следующей рекуррентной формуле: НЬіНФк(Хі) + (X) = XH_S!=L фк(х), k=1 ЕФ?(х,)

1=11 п — где х--Ух, - среднее значение по узлам, j = 3, р. Затем проводилась их нормировка:

, \ 4>jM т-\|/j(x) = --===, j = 1,p. ІІФі(хг)

Таким образом, мы вместо модели (5) будем рассматривать модель руМ=іиі\|/і(х), (7) где 6)j =ЕУіЧ/і(хї) " МНК-оценки некоторых преобразованных к ортонор-мированному базису истинных параметров -

Использование ортонормированных полиномов дает существенные преимущества: резко упрощаются вычисления; результаты приобретают наглядность; МНК-оценки параметров ю; в (7) оказываются статистически независимыми и распределенными (при сделанных выше предположениях об ошибках) по закону Ы(со;,а2) и т.д. [15-17].

Такое преобразование модели всегда возможно, если выполняется первое предположение об истинной зависимости у о (к)- Если исходная модель является полиномом (а это наиболее распространенный на практике случай), то и число р в моделях (5) и (7) совпадает. Более подробно проблема выбора числа параметров модели будет затронута ниже.

Итак, задача будет состоять в анализе поведения остатков при разном числе параметров р, построении и исследовании интервала для остатков, полученных по одной серии измерений, выводе формулы коэффициента корреляции между остатками в произвольных узлах, выводе выражений для плотности распределения остатков при разных числах степеней свободы, написании программ для вычисления коэффициента корреляции, остатков и интервалов для них.

Таким образом, работа посвящена стохастическому моделированию [18], где неизвестные факторы - ошибки є,, являются случайными величинами, для которых известны вид функции распределения и математическое ожидание.

Цель работы. Целью диссертационной работы является исследование существующих и разработка новых методов анализа остатков, изучение интервала для остатков, полученных по одной серии измерений, вывод формулы коэффициента корреляции между остатками в произвольных узлах, вывод выражений для плотности распределения стьюдентизирован-ных остатков при разных числах степеней свободы, написание программ для вычисления коэффициента корреляции между остатками, остатков и интервалов для них, а также исследование возможности применения полученных результатов в процессе обработки данных методом регрессионного анализа.

Объектом исследования являются проблемы, распространенные в практике регрессионного анализа, а именно в анализе остатков, связанные с тем, что совокупность остатков - это система коррелированных случайных величин.

Предмет исследования - поведение остатков полиномиальной регрессионной модели, полученных по одной серии измерений, с изменением числа степеней свободы остаточной дисперсии регрессионной модели (число степеней свободы равно n-р, где г) - число узлов, р - число параметров).

Методика исследования. При решении поставленных задач были использованы методы математической статистики, а также математический эксперимент. Теоретические выкладки были проиллюстрированы методом математического эксперимента: сгенерированные непосредственно компьютером данные для обработки затем были исследованы согласно положениям регрессионного анализа и анализа остатков. В процессе реализации метода регрессионного анализа данных был применен метод наименьших квадратов (МНК) с использованием ортогональных и ортонорми-рованных полиномов Чебышева. Графический метод был использован непосредственно в анализе остатков.

Автор выносит на защиту следующие положения и результаты: — выведенная формула для вычисления коэффициента корреляции остатков несмещенной линейной по параметрам полиномиальной регрессионной модели, использующая ортонормированные полиномы Чебышева; исследование интервалов для остатков регрессионной модели, полученных по одной серии измерений, сравнение их с широко известными t-интервалами; рекомендации для решения проблемы выявления промахов по графикам остатков с учетом их коррелированное; выведенная общая формула для функции плотности распределения стьюдентизированных остатков, полученных по одной серии измерений, зависящая от числа степеней свободы остаточной дисперсии, а также иллюстрация ее частных случаев для малых чисел степеней свободы; варианты программной реализации теоретических результатов в задаче регрессионного анализа экспериментальных данных, зарегистрированные во Всероссийском научно-техническом информационном центре [19-20], а также их сравнение с уже существующими алгоритмами, реализованными в программных пакетах обработки данных SPSS и StatSoft Statistica.

Структура и объем диссертации. Диссертации состоит из введения, шести глав, заключения и двух приложений, иллюстрированных рисунками, таблицами и графиками. Библиографический список включает 56 наименований.

Автор выражает благодарность своему научному руководителю, профессору кафедры «Прикладная математика» ДВГУПС Чашкину Юрию Романовичу и соавтору Иванову Геннадию Анатольевичу, старшему научному сотруднику ВЦ ДВО РАН за постоянное внимание и помощь в работе.

Проверка адекватности модели данным

Итак, первой задачей, решению которой служат графики остатков, является вопрос об адекватности модели опытным данным. Если отойти от привычного графика остатков в виде точечного графика, представив их в виде полосы, внутри которой и расположены остатки, то такая полоса расположения будет выглядеть следующим образом (рисунок 2). В литературе указывается также и приблизительная ширина этой полосы -[-2а, +2а]. При этом считается, что остатки «должны вести себя как независимые (в действительности, почти независимые) одинаково распределенные случайные величины» [1]. В [22] приводится следующая формулировка: «Ожидается, что остатки (примерно) нормально и (приблизительно) независимо распределены с математическим ожиданием, равным 0, и некоторой постоянной дисперсией».

Выводы, которые делаются на основе анализа, опирающегося на вероятностные соображения, выражаются обычно через параметры одной или большего числа моделей, которые предварительно приняты как правильные. В [4] указано, что проверка адекватности моделей и данных важна не только на заключительной стадии анализа, но еще более на предварительном этапе, когда только возникает цель построения соответствующей модели, о чем говорилось выше. Укажем основные требования к математической модели, описывающей данные согласно [23]. Поскольку одна и та же истинная зависимость на заданном интервале может быть описана различными аналитическими выражениями, нельзя сказать, что задача выбора вида функциональной зависимости формализуема. Например, U-образная кривая может быть описана участком параболы, гиперболы, эллипса или синусоиды. Отсюда вытекает главное требование к виду математической модели - удобство ее последующего использования. Первое условие, обеспечивающее такое удобство, - это компактность аналитического выражения, которая достигается удачным выбором элементарных функций, при минимальном числе которых достигается наибольшая точность приближения. Другое весьма желательное, но иногда труднодостижимое условие - интерпретируемость или содержательность выбранного типа модели. Его выполнение достигается путем придания определенного смысла в терминах рассматриваемой задачи константам и функциям, входящим в модель.

Можно насчитать пять общих подходов, изложенных в [5], к проверке адекватности модели данным, хотя некоторые из них тесно связаны между собой: а) вычисление разностей между наблюдаемыми значениями ключевых откликов и значениями, подогнанными на основе модели. Эти остат ки можно вычислить так, что если модель адекватна, то они должны быть почти полностью случайными; б) можно действовать как в (а), но рассматривать при этом таблицы наблюденных и подогнанных значений и остатков для того, чтобы выявить, нельзя ли, исходя из характера разностей, установить, в каком отношении модель не адекватна данным; в) общую статистику критерия можно вычислить, измеряя разность ме жду наблюденными и подогнанными значениями. Предполагая, что распределение этой статистики при нулевой гипотезе об истинности модели можно вычислить, получим в результате критерий значимо сти; г) модель можно расширить, вводя один или несколько дополнитель ных параметров, представляющих отклонения, которые мы считаем потенциально важными. Эти лишние параметры оцениваются, и по величине этих оценок делается вывод о статистической значимости отклонений. По существу этот подход эквивалентен проверке кон кретных особенностей в структуре остатков; д) можно подобрать совершенно другой тип модели, а затем сравнить каким-либо образом степень согласия этих двух моделей. Способ (г) следует предпочесть в том случае, когда мы четко представляем, что вполне возможны важные отклонения от модели. В то же время способы (а)-(в) чаще используются для выявления наличия непредусмотренных заранее особенностей.

Вторая задача, для решения которой используются остатки, это проверка предположений об ошибках es. Напомним, что в рамках задачи классического регрессионного анализа предполагается, что математическое ожидание равно нулю, их дисперсия конечна и одинакова, ошибки некор-релированы и распределены нормально (исходя из последнего предположения об ошибках). У многих авторов (например, в [25]) встречаем, что вектор остатков можно рассматривать как «оценку» вектора ошибок, что не всегда справедливо (как будет показано ниже), поскольку в практике часты случаи, когда получено десять измерений, а используется модель, состоящая из шести параметров п-р = 4 [26]. Приведем цитату из [27], заменив лишь обозначения на наши: «Предположения... (об ошибках — авт.) можно суммировать так: s-,S2,.--,sn - случайная выборка из N(0,a ). Остатки e e2, ..,Gx\i как наилучшие оценки для этих величин, должны, следовательно, быть похожи на случайную выборку из N(0,а ), и мы можем нанести е, на нормальную вероятностную бумагу..., чтобы увидеть, тот ли это случай...» (т.1, с.507). Аналогичное утверждение приведено в [3, с.с.160,161].

Вычисление коэффициента корреляции между остатками

Для вычислений, однако, надо знать смещение в каждом узле. Поскольку это невозможно, такое выражение не имело бы никакой практической ценности. Ответ заключается в следующем: когда говорим о распределении остатков в любом узле, то имеем в виду неограниченное повторение опытов в каждом узле, и это распределение действительно N(0,D(ej)). Когда же исследователя интересует поведение остатков в одной, фиксированной серии измерений, то речь должна идти о системе коррелированных случайных величин. Строго говоря, множество остатков, полученное по одной серии измерений, не есть выборка, это п выборок объемом 1. Ясно, что если коэффициент корреляции (21) невелик, и им можно пренебречь, остатки в данной серии измерений после их стандартизации или «стьюдентизации» (т.е. деления на их среднее квадратиче-ское отклонение в первом случае или его оценку во втором) можно считать выборкой. И можно даже указать некую меру малости коэффициента корреляции, хотя и не очень строгую, например, pjk 0.3. Обычно считается, что такое значение коэффициента корреляции свидетельствует о слабой связи. Попутно отметим, что речь идет не об оценке коэффициента корреляции, а о его истинном значении, поскольку в (21) известно все величины и какие-либо оценки отсутствуют.

Второе утверждение, которое следует из формулы (21): коэффициент корреляции остатков (далее будем опускать слова «в разных узлах в фиксированной серии измерений», подразумевая это) зависит только от узлов Xj и не зависит от опытных данных. Этот факт был отмечен в [7] на основе анализа общего выражения (9), но для большинства исследователей это не было очевидно. Если узлы, в которых экспериментатор намерен провести измерения, известны до опыта, значит коэффициент корреляции (21) можно вычислить заранее. Более того, можно до опыта определить число узлов п и управлять их расположением, чтобы обеспечить требуемый малый уровень корреляции, если это необходимо, т.е. планировать эксперимент по этому критерию.

Этот результат ставит под сомнение принятое в метрологической практике правило считать многократные измерения при п 4, т.к. р(еі,ек)= -0.33(3). 2.3 Влияние корреляции на поведение остатков

На рисунке 4 приведены результаты вычислений коэффициента корреляции (листинг программы и графики коэффициента корреляции при разном числе степеней свободы v = п -р см. Приложение А) между соседними узлами Xj и Х;+1, і- 1,2,...,п-1 для п = 20 и р -4, 6 и 8. Обратим внимание на то, что более сильная корреляция имеет место для начальных и конечных узлов. Совпадение коэффициентов корреляции для узлов, симметричных относительно середины интервала, объясняется тем, что использованы равноотстоящие узлы. Графики свидетельствуют о том, что при п = 20 и р = 4 коэффициент корреляции довольно мал по модулю и множество остатков можно, вероятно, считать выборкой. Однако, уже при р = б (п = 20) такое заключение может быть ошибочным, по крайней мере - для нескольких крайних левых и крайних правых узлов. На графике остатков следует ожидать, что первый и последний остатки окажутся заметно ближе к нулю, чем это должно было бы быть без учета их коррелированное.

На следующем рисунке в качестве иллюстрации представлены графики коэффициента корреляции между остатками в разных узлах при различном числе параметров модели. По этим графикам видно, что модуль коэффициента корреляции увеличивается с уменьшением числа степеней свободы v = n —р, а это означает, что если в обрабатываемой выборке есть промах, то он будет влиять на большее число остатков, следовательно, его сложнее идентифицировать. С увеличением числа узлов при фиксированном р модуль коэффициента корреляции уменьшается, в чем легко убедиться, воспользовавшись прилагаемой программой.

Узлы были заданы равноотстоящими х, =1,п, поэтому графики являются сим метричными. Графики показывают, что модуль козффициентаїюрріл яций увеличивается с уменьшением числа степеней свободы остаточной дисперсии, причем корреляция становится все более значительной между далеко отстоящими остатками. Коэффициент корреляции достигает своих наибольших значений по модулю между остатками, расположенными на краях диапазона распределения узлов, т.е. промах вблизи х1 или хп будет значительно влиять на поведение эмпирической зависимости и, скорее всего, будет трудно обнаружим. С увеличением числа параметров значения коэффициента корреляции стремятся к +1 и -1. В конце концов, как показывает рисунок 5е, коэффициент корреляции начинает принимать только эти два значения при числе степеней свободы v = 1.

Общий вывод по рассмотренному вопросу очевиден: не следует делать предположений о коррелированности или некоррелированности остатков, надо просто вычислять коэффициент корреляции и принимать решение о том, следует ли его учитывать при последующем анализе.

Сравнение точного интервала с t-интервалом для остатков

В качестве примера предлагаются результаты вычислений для n = 20, р 2, 4, 10, 16, 19, полученные с помощью программы Приложения Б. Вычисления выполнялись с точностью до 200 знаков после запятой, чтобы минимизировать погрешность вычислений и предотвратить такое явление как «развал аппроксимации». Истинная зависимость была задана в виде: Уо(х) 1 + х-0.055х2+0.001х3 (пример [43]). Для иллюстрации был выбран массив ошибок: є = [-1.10, -0.52, 0.75, 0.64, 0,42, -0.92, -0.37, 1.10, 0.11, -0.95, 0.41, -2.10, -2.30, 2.21, -1.82, 0.42, 0.16, -0.62, 0.39, 0.04], Xj -2-ї, і = 1,20. Этот массив нельзя назвать «вполне удачным». Проверка его на нормальность приводит к уровню значимости гипотезы о нормальности не более 0.05. Кроме того, видно (чего не могут видеть критерии), что в выборке сразу 3 ошибки по модулю больше 2а. При объеме выборки n = 20 это маловероятное событие. Интересно отметить, что обычная процедура проверки на промахи таковых не обнаружила, что вполне понятно, т.к. несколько выбросов «маскируют» друг друга. Подозрительным в этом отношении оказывается узел х14 (е14 =+2.21), а не узел х13, где ошибка по модулю больше (s13 =-2.30), что тоже вполне объяснимо, т.к. средняя ошибка оказалась отрицательной. В реальной выборке такой анализ был бы невозможен, поэтому «не вполне удачная» выборка была нами оставлена. К тому же этот массив позволяет наглядно проиллюстрировать, как сильно положение остатка зависит от положения других остатков. Для остатков строились интервалы (22) и (24). Результаты вычислений приведены на рисунке 6. Штриховой линией на рисунке изображен интервал (24), сплошной - интервал (22), оба интервала соответствуют вероятности 0.95. Действительно, интервал (22) заметно (особенно при -—— 0.5) уже, чем интервал (24). С дальнейшим увеличением числа параметров эта разница становится еще больше. К сожалению, на практике встречаются случаи, когда число параметров модели приближается к числу узлов. В таких случаях использование t-интервалов недопустимо. Возникает вопрос: можно ли по графикам остатков принять ре шение о том, является ли использованная модель с р параметрами несмещенной? С одной стороны, из графика опытных данных (рисунок 1), напрашивается положительный ответ. Но приведенный здесь рисунок 6а свидетельствует об обратном: истинная зависимость имеет 4 параметра, но остатки явно смещенной модели с двумя параметрами практически все (за исключением последнего) лежат внутри приближенного (24) и точного (22) интервалов, и вывод о несмещенности этой модели очевидно неверен. Дело здесь в том, что в статистике (23), на основе которой получена QP формула (22), использована остаточная дисперсия S0CTP=—-, которая для смещенной модели является смещенной («разбухшей») оценкой дисперсии опытных данных, что и сделало оба интервала излишне широкими. В данном случае нанесение на график интервалов (22) принесло не пользу, а вред, создав иллюзию благополучия.

Но ситуация изменится, если воспользоваться известной рекомендацией [26] останавливаться на том числе параметров модели, при котором остаточная дисперсия перестает заметно убывать и стабилизируется около некоторого значения, т. е. прежде всего тем или иным способом решить вопрос о минимальном достаточном числе параметров модели и в дальнейшем при построении интервалов будем использовать соответствующую этому числу остаточную дисперсию. Воспользовавшись этой рекомендацией, можно, как правило (но не с вероятностью 1!), определить, что р = 4, и заменить в (22) S0CT)P=2 на S0CTp=4, что даст новый, более узкий коридор. Неадекватность проявится очевидным образом (рисунок 7). Однако, при этом был сделан переход от статистики (23) и интервала (22) к статистике, не учитывающей корреляцию между остатками. Этот прием допустим лишь при малых —, когда коэффициентом корреляции можно пренебречь.

Вернемся к обсуждению результатов, представленных на рисунке 6. Модель с числом параметров 4 соответствует истинной зависимости по виду, она является полной моделью (это известно). Интересно отметить, что расположение остатков для полной модели (рисунок 66) очень напоминает (почти совпадает) с расположением ошибок. Лишь остаток в узле х14 = 28 явно выходит за границы обоих интервалов, соответствующих вероятности 1-а = 0.95. Поскольку это происходит с одним остатком из 20, можно либо «позволить» это, либо считать его промахом. Но известно, что он соответствует не самой большой ошибке, она больше в соседнем левом узле. Можно сказать, этот остаток «вытолкнут» за границы интервала его соседями.

Полученные результаты во многом противоречат целому ряду устоявшихся положений современного анализа остатков, либо заставляют в них усомниться. В первую очередь это относится к распределению остатков, полученных по одной серии измерений, а также к проверке нормальности остатков с помощью метода линеаризации интегральной функции (метода вероятностной бумаги). Большие сомнения вызывают утверждения о возможности положительной корреляции между остатками в целом и, в частности, о «сериальной» корреляции. Слово «сериальной» взято в кавычки поскольку этот термин использован в [7] не в том смысле, в каком используем в данной работе. Здесь рассматривается серия измерений, а в [7] имеется в виду последовательность остатков одного знака в общем массиве остатков, полученных по одному массиву данных. Назовем такую последовательность группой. На наш взгляд, наличие групповой корреляции говорит либо о нарушении исходных предположений (о независимости погрешностей, в частности), либо о неадекватности модели, либо об ошиб ках в вычислениях, либо, наконец, о случайном характере остатков, в этом нетрудно убедиться по таблицам случайных чисел.

Частные случаи функции плотности распределения стьюдентизированных остатков

В работе был поставлен и такой вопрос: какое число степеней свободы следует считать малым. Ответ на него зависит от решаемой задачи. Если эта задача состоит в том, чтобы плотность распределения вероятности стьюдентизированного остатка считать равной плотности стандартного нормального распределения, то число степеней свободы окажется достаточно большим (оно зависит от требуемой точности). Для метрологии и вообще для измерительной практики особый интерес представляют ин тервалы для остатков е, . Напомним, что общая формула для вычисления таких интервалов приведена выше (формула (22)). Для частных значений v эти интервалы можно вычислить и по формуле (25). Попытаемся ответить на вопрос, при каком числе степеней свободы можно вместо точного интервала использовать интервал стандартного нормального распределения, чтобы избежать вычислений по приведенным выше формулам (хотя эти вычисления элементарны). В таблице 1 для v = 3;5;9;co приведены границы интервалов для вероятности 1 (100 %), 0.95 (95 %) и 0.9 (90 %), а также значения плотности распределения вероятности при х - 0. Видно, что при v = 9 интервал, соответствующий вероятности 0.95, всего на 3 % меньше нормального, т.е. для сформулированной выше задачи число степеней свободы 9 допускает использование нормального интервала вместо точного с ошибкой 3%. Обратим внимание на 90%-ный интервал: даже при числе степеней свободы 5 он лишь на 1% меньше нормального.

Относительно интервалов для остатков важно отметить то, что точные интервалы, полученные в [49] и подтвержденные выше непосредственным вычислением по функции плотности распределения вероятности (см. таблицу 1) всегда уже, чем стандартные нормальные и тем более они уже f-интервалов. С ростом числа степеней свободы и точные интервалы и f-интервалы асимптотически сходятся к стандартным нормальным, но с разных сторон - первые снизу, а вторые сверху. Этот вывод важен при проверке адекватности модели опытным данным, при анализе данных на наличие промахов, а также при построении совместных доверительных интервалов для неизвестной истинной зависимости. Однако последние два вопроса выходят за рамки настоящей работы и требуют специального рассмотрения.

В этом разделе приведем описание предлагаемых в работе алгоритмов и их реализаций, созданных в математическом пакете прикладных программ Maple 8 и снабженные комментариями. Листинги программ (с результатами выполнения) приведены в Приложении А и Приложении Б. Пакет Maple удобен в использовании, а подробная справка, множество встроенных функций, а также практически неограниченная точность делают его еще более предпочтительным при проведении расчетов.

Итак, сначала мы должны ввести результаты измерения (списки опытных значений Y и узлов X), и число обрабатываемых пар значений п. Выводится график опытных значений. Далее мы строим нашу модель в соответствии со стандартной процедурой МНК, используя ортонормиро-ванные полиномы Чебышева. Вычисляются значения остаточной дисперсии SoCTp, р-1,п-1, строится их график в зависимости от числа параметров р. Программа позволяет выбирать вид модели в процессе выполнения процедуры метода наименьших квадратов. По графику остаточной дисперсии исследователь может сделать вывод о числе параметров модели. Пользуясь известной рекомендацией, мы должны выбирать значе ние остаточной дисперсии, соответствующей некоторому р такому, что при р р остаточная дисперсия перестает убывать и стабилизируется вокруг некоторого значения [51]. Достаточно распространена ситуация, ко-гда график значений S0CT р имеет минимум при каком-то р , а далее возрастает. В этом случае возможно два объяснения такого поведения. Во-первых, возможно данное рг и является искомым р0, а во-вторых, вероятно, произошел «развал аппроксимации», когда накопившиеся ошибки вычислений и округлений привели к увеличению значений остаточной дисперсии, тогда рекомендуется еще раз выполнить вычисления, увеличив точность. Также возможна и ситуация, когда S0CT р монотонно убывает с ростом аргумента - числа р, тогда, по-видимому, р0 не существует и необходимо либо поменять семейство моделей (например, перейти от рассмотрения моделей в виде полинома к моделям экспоненциального вида), либо все же остановиться на каком-то разумном р.

Данные «измерений» были введены в программу Приложения Бив пакет статистической обработки данных SPSS и StatSoft Statistica. Следует сразу отметить, что в пакете Maple вычисления велись в «простых дробях» и лишь результаты выводились с точностью до трех знаков после запятой. Таким образом, можно минимизировать погрешность вычислений с точностью до 400 знаков после запятой. Другие пакеты обработки данных такой возможности не предоставляют. В отличие от предлагаемых реализаций, при обработке данных в статистических пакетах необходимо сразу задавать вид модели и ее число параметров. Это создает определенные трудности, если исследователь не обладает достаточными знаниями о виде модели, описывающей данные эксперимента. Одним из недостатков пакета Statistica является то, что полученная эмпирическая зависимость не выводится на экран в аналитическом виде, в отчет вносятся лишь ее значения в узлах. Пакет SPSS по сравнению с пакетом Statistica предоставляет больше возможностей для проверки адекватности модели данным (построение опытных данных и разных видов моделей на одном графике, вывод графика остатков с нанесенными интервалами для них и т.д.) Подход к остаткам как к выборке в SPSS не позволяет определить промахи в исходных данных, если корреляция между остатками велика, тогда как реализованный подход в программе Приложения Б решает эту задачу.

Похожие диссертации на Исследование поведения остатков линейной по параметрам полиномиальной регрессионной модели