Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Выбор мультимоделей в задачах классификации Адуенко Александр Александрович

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Адуенко Александр Александрович. Выбор мультимоделей в задачах классификации: диссертация ... кандидата Физико-математических наук: 01.01.09 / Адуенко Александр Александрович;[Место защиты: ФГУ «Федеральный исследовательский центр «Информатика и управление» Российской академии наук»], 2017.- 175 с.

Содержание к диссертации

Введение

Глава 1. Постановка задачи 14

1.1. Понятие мультимодели. Смеси моделей и многоуровневые модели 16

Глава 2. Построение оптимальной мультимодели. Отбор и комбинирование признаков 20

2.1. Отбор признаков с помощью максимизации обоснованности для случая одиночной модели 20

2.2. Отбор признаков с помощью максимизации обоснованности для многоуровневой модели 41

2.3. Отбор признаков с помощью максимизации обоснованности для смеси моделей 42

2.4. Комбинирование признаков для учета взаимосвязей между ними 46

Глава 3. Обучение мультимоделей 53

3.1. Обучение одиночной модели 53

3.2. Обучение многоуровневой модели 54

3.3. Обучение смеси моделей 55

3.4. Алгоритм совместного обучения и оптимизации смеси моделей 57

Глава 4. Выбор (s, а) - адекватных мультимоделей 61

4.1. Обоснование вида функции сходства 61

4.2. Предлагаемая функция сходства моделей 71

4.3. Анализ KL-информативности моделей 75

4.4. Свойство монотонности для предлагаемой функции сходства 84

4.5. Свойства распределения значений предлагаемой функции сходства 89

4.6. Алгоритмы выбора (s, а) - адекватных мультимоделей 113

Глава 5. Анализ прикладных задач 120

5.1. Применение s-score при сравнении моделей 120

5.2. Построение (s, а)-адекватных многоуровневых моделей 126

5.3. Построение (s, а)-адекватных смесей моделей 136

5.4. Применение комбинирования признаков 139

5.5. Иллюстрация вырожденности недиагональной оценки максимума обоснованности ковариационной матрицы параметров логистической модели 152

5.6. Результаты работы предлагаемых методов на реальных данных 154

Заключение 161

Список основных обозначений

Введение к работе

Актуальность темы.

Исследуется проблема построения мультимоделей в задаче классификации (Verlinde: 1999, Gelman: 2006, Grim: 2007, Ge: 2006, Van: 2003, Moerbeek: 2001, Muthen: 1999, Yuksel: 2012). Задача классификации является базовой в машинном обучении, при этом задачи многоклассовой классификации могут быть эффективно сведены к решению одной или нескольких задач двухклассовой классификации (Motrenko: 2014, Joshi: 2015, Tax: 2002, Liu: 2005, Rifkin: 2004). Задачами двухклассовой классификации является задача определения наличия заболевания у пациента по набору его анализов (Tolles: 2016, Bagley: 2001), задача анализа текстов для получения настроения сообщений (Supriya: 2016) и задача кредитного скоринга (Siddiqi: 2006, Paleologo: 2010, Hosmer: 2000). Эти задачи являются актуальными в связи с распространением дистанционной диагностики, автоматических систем принятия решений.

Логистическая регрессия, являющаяся стандартом в кредитном скорин-ге (Paleologo: 2010, Лужбин: 2013, Siddiqi: 2006), и другие обобщенно-линейные модели не позволяют учесть неоднородности в данных, в частности зависимость важности признака от объекта, а потому неоптимальны при ее наличии. Для учета неоднородностей в данных используют композиции классификаторов (Bishop: 2006, Van: 2003, Zakrzewska: 2015). Методы построения композиции моделей позволяют учесть неоднородность в данных путем построения мульти-модели, содержащей несколько одиночных моделей. Модели в мультимодели могут быть близки или совпадать, что ведет к неинтерпретируемости и снижению качества прогноза. В работе (Margineantu: 1997) предлагают эвристики для прореживания ансамбля моделей в бэггинге. В работах (Zhou: 2003, Zhou: 2002) для выбора подмножества моделей в бэггинге используют генетические алгоритмы. В работах (Bakker: 2003, Giacinto: 2001) используют кластеризацию моделей и выбор единственного представителя для каждого кластера. В работах (Martmez-Munoz: 2006, Martinez-Muoz: 2009) предлагают жадную стратегию постепенного наращивания числа классификаторов в бэггинге. Для контроля числа моделей используют априорное поощряющее разреженность распределение весов моделей в смеси (Bishop: 2006). Структуру смеси отыскивают путем максимизации обоснованности (МасКау: 1992, МасКау: 1992, Yuksel: 2012). Однако эти методы прореживания смесей не учитывают близости между моделями, а потому мультимодель по-прежнему может содержать близкие модели. Для получения статистически различимых моделей в мультимодели используют внешнюю процедуру прореживания, основанную на статистическом сравнении моделей путем подсчета расстояний между апостериорными распределениями параметров для разных моделей, например, с помощью дивергенций Брег-мана или f-дивергенций (Basseville: 2013, Veyrat-Charvillon: 2009, Frigyik: 2008, Petz: 2007). В данной работе показано, что существующие меры сходства разли-

чают неинформативную модель и совпадающую информативную, а потому не позволяют построить адекватную мультимодель. Для решения этой проблемы предложена функция сходства, позволяющая решать задачу статистического различения моделей. Предлагаемый подход позволяет учесть неоднородности в данных, получить адекватную мультимодель, содержащую меньшее число моделей и имеющую лучшее качество классификации.

Наличие избыточных или мультикоррелированных признаков влияет не только на качество классификации построенной модели, но и на ее устойчивость (Стрижов: 2013, Katrutsa: 2015). Для решения задачи отбора признаков в данной работе в рамках байесовского подхода используется принцип максимума обоснованности для определения структуры моделей (МасКау: 1992, МасКау: 1992, Yuksel: 2012, Bishop: 2006). Для решения проблемы мультиколли-неарности признаков строят набор немультиколлинеарных признаков путем оптимизации критерия качества, предложенного в (Katrutsa: 2015, Gheyas: 2010). В данной работе показано, что подход, связанный с отбором признаков, является неоптимальным. Доказано, что метод максимума обоснованности не позволяет учесть зависимости между признаками, поскольку оценка максимума обоснованности для ковариационной матрицы весов признаков является асимптотически вырожденной. Для оптимального учета информации от мультикол-линеарных признаков предлагается их комбинировать.

Цели работы.

  1. Разработка статистического подхода к задаче сравнения моделей в муль-тимоделях.

  2. Построение и теоретическое обоснование функции сходства плотностей апостериорных распределений, позволяющей решать задачу сравнения моделей.

  3. Разработка методов прореживания мультимоделей для построения адекватных мультимоделей.

  4. Построение метода учета мультиколлинеарности между признаками.

Задачи работы.

  1. Разработать статистический подход к задаче сравнения моделей в муль-тимоделях с помощью функций сходства апостериорных распределений.

  2. Получить оценки на максимальное число моделей в адекватной мульти-модели.

  3. Предложить метод совместного обучения и отбора признаков для смеси моделей.

  4. Разработать алгоритмы построения адекватных оптимальных обученных мультимоделей и провести вычислительный эксперимент для проверки улучшения качества и интерпретируемости построенных мультимоделей, а также для установления границ применимости предлагаемых методов.

Основные положения, выносимые на защиту.

  1. Разработаны методы выбора адекватных оптимальных обученных муль-тимоделей в задачах распознавания и классификации, содержащих попарно статистически различимые модели.

  2. Предложена функция сходства плотностей апостериорных распределений параметров моделей, удовлетворяющая требованиям к функции сходства для решения задачи сравнения моделей.

  3. Получены верхняя и нижняя оценки на максимальное число моделей в адекватной мультимодели.

  4. Предложен метод комбинирования мультиколлинеарных признаков. Доказана асимптотическая вырожденность недиагональной оценки ковариационной матрицы параметров логистической модели, полученной из принципа максимума обоснованности.

Методы исследования. Для достижения поставленных целей используются методы построения мультимоделей для двухклассовой классификации (Grim: 2007, Ge: 2006,Van: 2003, Moerbeek: 2001, Yuksel: 2012). Для оценки параметров многоуровневых моделей используются методы выпуклой оптимизации (Boyd: 2004, Bishop: 2006). Для обучения смесей моделей используется вариационный ЕМ-алгоритм (Palmer: 2005, Hoffman: 2013, Wang: 2013), а для учета многоэкстремальности используется процедура мультистарта (Morales-Enciso: 2015). Для построения оптимальных многоуровневых моделей используются методы аппроксимации обоснованности (МасКау: 1992, МасКау: 1992) с помощью аппроксимации Лапласа (Bishop: 2006) и вариационных нижних оценок (Gibbs: 2000, Blei: 2016). Построение оптимальных смесей моделей производится с помощью методов вариационного байесовского вывода (Hoffman: 2013. Palmer: 2005), а для аппроксимации обоснованности используются аппроксимация Лапласа (Bishop: 2006) и построение вариационных нижних оценок (Gibbs: 2000, Blei: 2016).

Научная новизна. Разработана теория построения адекватных мультимоделей, все модели в которых являются попарно статистически различимыми. Предложен метод статистического сравнения моделей в мультимодели на основании предложенной функции сходства апостериорных распределений параметров моделей. Показано, что предлагаемая функция сходства является корректной. Исследованы статистические свойства распределения предлагаемой функции сходства в условиях истинности гипотезы о совпадении моделей. Предложен метод совместной оптимизации параметров и отбора признаков для смесей моделей. Показана асимптотическая вырожденность недиагональной оценки максимума обоснованности для ковариационной матрицы весов признаков. Предложен метод комбинирования мультиколлинеарных признаков на основании оценки ковариационной матрицы для повышения качества классификации.

Получены верхняя и нижняя оценки на максимальное число попарно различимых моделей в мультимодели.

Теоретическая значимость. Построена функция сходства, позволяющая решить задачу статистического сравнения моделей. Исследованы асимптотические свойства распределения предложенной функции сходства в условиях истинности гипотезы о совпадении моделей. На основании этих статистических свойств построена теория выбора (s, а) -- адекватных мультимоделей. Получены верхняя и нижняя оценка на максимальное число моделей в адекватной мультимодели. Предложен алгоритм совместной оптимизации параметров смеси моделей и отбора признаков. Показано, что недиагональная оценка максимума обоснованности для ковариационной матрицы весов признаков является асимптотически вырожденной, а потому для учета зависимостей между признаками предложен метод их комбинирования.

Практическая значимость. Предложенные в работе вычислительные методы предназначены для построения адекватных оптимальных обученных мультимоделей значимо повышают качество распознавания и классификации и снижают число моделей в мультимоделях в прикладных задачах скоринга.

Степень достоверности и апробация работы. Достоверность результатов подтверждена математическими доказательствами, экспериментальной проверкой полученных методов на реальных задачах; публикациями результатов исследования в рецензируемых научных изданиях, в том числе рекомендованных ВАК. Результаты работы докладывались и обсуждались на следующих научных конференциях.

  1. Международная конференция «20th Conference of the International Federation of Operational Research Societies», 2014. Multimodelling and Object Selection for Banking Credit Scoring.

  2. Всероссийская конференция «57я научная конференция МФТИ», 2014. Топологический анализ пространства параметров в задаче выбора мультимоделей.

  3. Международная конференция «27th European Conference for Operational Research», 2015. Multimodelling and Model Selection in Bank Credit Scoring.

  4. Всероссийская конференция «Математические методы распознавания образов» ММРО-17, 2015. Анализ пространства параметров в задачах выбора мультимоделей.

  5. Международная конференция «Интеллектуализация обработки информации», 2016. Анализ пространства параметров в задачах выбора мультимоделей.

Публикации по теме диссертации. Основные результаты по теме диссертации изложены в 14 печатных изданиях, девять из которых изданы в журналах, рекомендованных ВАК.

Личный вклад. Все приведенные результаты, кроме отдельно оговоренных случаев, получены диссертантом лично при научном руководстве д.ф.-м.н. В. В. Стрижова.

Структура и объем работы. Диссертация состоит из оглавления, введения, пяти разделов, заключения, списка иллюстраций, списка таблиц, перечня основных обозначений и списка литературы из 110 наименований. Основной текст занимает 157 страниц.

Понятие мультимодели. Смеси моделей и многоуровневые модели

Отметим, что свойства 2-4 и свойство 6 в списке требований к функции сходства являются техническими. Так свойство 3 задает диапазон принимаемых значений функции сходства s, а свойства 2 и 4 указывают, что для пары совпадающих распределений значение функции сходства должно быть максимально возможным, причем сходство распределения с самим собой не ниже, чем с любым другим распределение. Свойство 1 определяет возможность сравнения моделей, определенных на разных признаковых пространствах. Свойство 5 является основным в решаемой задаче, поскольку обеспечивает неотличимость модели, про параметры которой ничего, неизвестно от любой другой модели. Поясним это свойство и соответствующее ему отличие задачи сравнения моделей от задачи различения пары распределений. Иллюстрация различий между отличием апостериорных распределений параметров пары моделей и различимостью моделей. На рис. 4.1а приведена пара распределений д\, д2, g\(w) = Л/"(0, 0.12), 9z(w) = U[—3, —2.7]. Эти два распределения существенно отличаются, что можно выразить, например, через большое значение расстояния Дженсона-Шеннона между ними. AJS(#I, 92) 0.

Рассматривая это апостериорные распределения вероятностей на параметры моделей, заметим, что модели, им соответствующие также являются существенно разными, поскольку про параметр w первой модели известно, что его значение близко к нулю, а для второй модели w Є [—3, —2.7].

На рис. 4.16 приведена пара распределений д\} д2} gi(w) = Л/"(0, 1), g2{w) = Л/"(5, 202). Эти два распределения существенно отличаются, что можно выразить, например, через большое значение расстояния Дженсона-Шеннона между ними.

AJS(#I, 92) 0. Рассматривая это апостериорные распределения вероятностей на параметры моделей, заметим, что из-за неинформативности второго распределения про значения параметра w для второй модели почти ничего неизвестно, а потому отличить вторую модель от первой нельзя.

Дадим формальное определение информативности распределения. Определение информативности Определение 23. Назовем распределение 02(0 : — + неинформативным относительно распределения gi(-) Q — К+ с конечным носителем supp(gi) = А, если З В : ACS, что VVGB: /2(W) \В\ то есть 02 (О есть равномерное распределение на множестве В.

Обобщим теперь понятие неинформативности на случай двух распределений 01 (0 02(0? которые определены на несовпадающих пространствах, то есть д\ : П х Пг - R+, д2 : П х П2 К+Определение 24. Назовем распределение 02(О : & х 2 — 1 + неинформативным относительно распределения 0i(O : Г2 х Г2і — - Ш+ с конечным носителем supp(gi) = Д если Г і = 0, то есть д\ определено на подпространстве области определения д2 и Зт 0} В : Ах [—т, r]dim( 2) Q Q ЧТ0 Vv Є В : р2(w) IBI то есть 02( ) есть равномерное распределение на множестве В. Замечание 1. Отметим, что по приведенному определению неинформативность распределения д2 относительно д\ имеет место, когда д\ не имеет дополнительных по сравнению с д2 признаков, то есть Q\ = 0 и д2 неинформативно относительно некоторого расширения g i : Q х Q2 — Ш+ распределения д\7 где 01 (w, w2) = 0i(w)0T(w2), где supp(0T) С [-г, r]dim .

Отметим, что для последовательности непрерывных плотностей распределения fM{) равномерную сходимость можно заменить на поточечную в силу эквивалентности этих понятий для непрерывных функций на ограниченном множестве.

Замечание 1. Отметим, что определение неинформативности дано относительно некоторого конкретного распределения с конечным носителем, в то время как определение малоинформагпивности последовательности распределений абсолютно, а не относительно. Отметим, однако, что малоинформатив-ностъ последовательности распределений имеет вид лишь для соответствующего пространства Q. Свойство исчезает при рассмотрении более широкого пространства вида Q = Q х Q\.

Замечание 2. Свойство (4.1) из определения малоинформагпивности означает сходимость к равномерному распределению рассматриваемой последовательности распределений для любого конечного множества и является характеристическим для вводимого понятия. Свойство же (4.2) является техническим, но также существенным, что будет в дальнейшем показано путем сравнения введенного понятия малоинформативности со стандартным, порожденным KL -дивергенцией.

Таким образом, пользуясь введенным определением неинформативности распределения относительно другого распределения и малоинформативной последовательности распределений, уточним требования к функции s(#i, д2) сходства распределений.

Отбор признаков с помощью максимизации обоснованности для многоуровневой модели

Вернемся к доказательству теоремы. Опишем вокруг каждого вектора mi, тлг конус с осью в этом векторе и углом раствора 9/2. Каждый конус высечен на сфере Qn радиуса Лі некоторый участок. Условие попарной различимости всех моделей тогда в силу леммы 1 можно сформулировать так:

Следствие 5. Рассматриваемые модели попарно различимы тогда и только тогда, когда высекаемые конусами Сі(0/2), ..., Ск(0/2) на сфере Qn радиуса Лі участки Pi, .. ., Рк не пересекаются. Кроме того, из условия различимости в виде гп, (/ СІ{9) получаем следующее утверждение. Лемма 6. Модель с номером і отличима от всех остальных моделей тогда и только тогда, когда m,

Пользуясь следствием 5, получим верхнюю оценку на число моделей. Пользуясь леммой 6, выполним построение, доказывающее нижнюю оценку на число моделей. Из следствия 5 заключаем, что к S{Pl U ... U Рк) = J2 S(Pi) = KS(Pi) S(Qn), где (4.14) І=\ S(Qn) - площадь сферы радиуса Лі в Mn, a S(P{) - площадь участка, высекаемого на Qn конусом Сі(в/2). Лемма 7. S(ttn П d(a)) = АГ п-і / sir/ "2 ipdip, Jo где S n-\ - площадь единичной сферы в пространстве Mn_1. Доказательство. Рассматривая в качестве выделенной оси ось конуса С І (а) и обозначив х - координату вдоль этой оси для искомой площади имеем / 1 п-2 Лгу _ Га S{annCt{a)) = АГЧ-і / {1-х2) — -7== Х = Xr Sn-i / sin-2 pd p. J cos а V -L X JO Из (4.14) получаем К Kn п "п—1 ТЇП 2 Г(п/2 + 1) 1 л/7Г71Г( V + (n-D/2 fJ2 -2 (П-1)Г( + 1) f/2 s[nn-2 Ji jT((n-l)/2 + l) (4.15) При малом 9 (что соответствует С, близкому к 1), производя приближение sin ср « ср и в sin 6 = \/l — р2 « \/2(1 — р) в (4.15) получаем 72— 1 пГ( ±±) 2— Л тл.т. Л/ -1)Г( + 1) (1_р)п=1 Перейдем к построению примера для получения нижней оценки К Kmin. В силу леммы 6, если то есть 3 m Є Qn : m U O ), то можно добавить еще одну модель с средним вектором, равным т, и она по построению будет отлична от всех уже имеющихся моделей. Тогда получаем следующую процедуру: Шаг 1. Выбираем произвольный вектор ті Є Qn Шаг к. Выбираем произвольный вектор т Є Qn\Ui l СІ(6), если таковой существует. По построению получаем, что к S(U„) s(c,(6)nan) Пользуясь леммой 7 аналогично получению верхней оценки получаем п—1 К к — Ь(ъ1п) _ Ьпл1 J\ J\ rn.ir). S(d(e) П Щ S Xr1 Jo sinn"2 ipdip n/2 7Т г(п/2 + і) і V nT{ +1; ( ) п{П 1)/2 Jo smn 2 ipdip (п-1)Г( + 1) ft w?-2 ipdip Г((п-1)/2 + 1) (4.16) При малом 9 (что соответствует С, близкому к 1), производя приближение sincp и и и sin 6 = \/l — р2 « \/2(1 — р) в (4.16) получаем пГ( ) гот Л/71"-/ л\Т(п \Л\ п-1 п-1 [п - iji + ij 2 (і _ руг П Пример 1. При п = 2 полученные результаты есть Кт;т = тг/9} Ктах = 2тг/9. При п = 3, 9 = тт/6 Я"тіп = 14, Kmax = 58. При п = 3, в = тг/3 i пып А К =14 4.5. Свойства распределения значений предлагаемой функции сходства

Ранее была предложена функция сходства распределений, которая является корректной, то есть удовлетворяет требованиям к функции сходства, в том числе характеристическому требованию об неотличимости малоинформативного распределения от любого другого в задаче сравнения моделей. Однако для того, чтобы решать задачу различения моделей требуется установить границу для сходства, выше которой модели считаются совпадающими. Эту границу можно рассматривать, например, как гиперпараметр алгоритма классификации, и определять, например, с помощью кросс-валидации. Однако такой подход не позволяет контролировать вероятности ошибок первого и второго рода, то есть вероятности признать разными совпадающие модели и одинаковыми разные. Для решения задачи выбора границы для сходства с контролем вероятности ошибки первого рода получим вид распределения функции сходства s-score s(gi, #2) в условиях истинности гипотезы Но о совпадении моделей.

Распределение значений функции сходства s-score в условиях истинности гипотезы Но о совпадении моделей для пары логистических моделей

Прежде, чем перейти к получению вида распределения значений предлагаемой функции сходства s-score для пары логистических моделей с совпадающим истинным параметром w, приведем результаты о существовании оценки максимума правдоподобия и об асимптотической нормальности оценки максимума правдоподобия для логистической модели в соответствии с [2,3]. При этом результаты получим в классе обобщенно-линейных моделей с натуральной функцией связи, частным случаем которых является модель логистической регрессии.

Определение 40. Назовем обобщенно-линейной моделью с натуральной функцией связи и априорным распределением на вектор параметров p(w\A) вероятностную модель, совместное правдоподобие которой имеет вид Р(У wlx, А) =Р(УХ, w)p(wA), гдер(уХ, w) = Y[p(Vi Xi, w i=\ р(Уг\ гі W) = С{уі) ЄХр(вгуг Ь(вг)), ГДЄ вг = WTX,. Замечание 1. Отметим, что логистическая модель является обобщенно-линейной моделью с натуральной функцией связи для бинарной целевой переменной у І Є { — 1, 1}, так как PU/ixi, w) = (J{y w) exp(wTXi) + exp(—WTXi Тогда, взяв {уІ) = 1, b{6{) = exp( ) + exp(—ві), получим требуемое. Для любой симметричной положительно определенной матрицы Н существует единственный квадратный корень Холецкого Н1/2 [107], то есть нижнетреугольная матрица, удовлетворяющая равенству Н = Н Н . Далее используем это обозначения для квадратного корня Холецкого. Рассматриваем обобщенно-линейную модель с натуральной функцией связи с правдоподобием р(уХ, v). В качестве априорного распределения на вектор параметров w используем нормальное распределение w A/"(w0, А-1), рассматривая равномерное псевдораспределение как предел при А = aoIn, 2о - 0. Введем следующие обозначения /TO(v) = logp(yX, v), sTO(v) = V/m(v), HTO(v) = 9v2 Обозначим также /TO(v) = logp(yX, v) + logp(wA). Докажем следующую лемму. Лемма 8. Для обобщенно-линейной модели с натуральной функцией связи выполнено EsTO(w) = 0, EsTO(w)s (w) = HTO(w).

Обучение смеси моделей

Определение 41. Мультимодель (смесь моделей или многоуровневая модель называется (s, а) - адекватной, если все модели /і, . .. , //, входящие в нее, являются попарно статистически различимыми с помощью функции сходства s на уровне значимости а. Под статистической различимостью моделей предполагается статистическая различимость апостериорных распределений параметров моделей p(w/;y, X, /І, Аі, ..., AK)I к = 1, К для мультимодели и p(wk\yi X, Ai, ..., AK)I к = 1, К для многоуровневой модели. Замечание 1. Отметим, что определение (s, а) - адекватной мультимодели существенно зависит от используемой функции сходства s. Так, если s = Str, которая считает любые две модели неразличимыми, то только одиночная модель может являться (s, а) - адекватной. Напротив, если s = s$, то есть любые два сколь угодно близких, но несовпадающих распределений считаются различимыми, то даже мультимодель, состоящая из миллиона похожих моделей будет считаться адекватной.

Алгоритмы выбора (s, а) — адекватных многоуровневых моделей Пусть имеется оптимальная обученная многоуровневая модель, заданная совместным правдоподобием exp(-iw Wfc) Y[ few Xi (2тг)"/2 к Р(У, wb ..., wK\X, А{,..., А к) = Y[ «ЄІь k=i где {1, . .. , т} = X = Х\ U .. . U Тк есть разбиение множества индексов объектов по их принадлежности области действия каждой из моделей. Пусть также wjj5, .. ., w есть оценки максимума апостериорной вероятности на векторы параметров моделей, входящих в многоуровневую модель, полученные в результате обучения (1.6).

В силу того, что многоуровневая модель представляет собой совокупность К моделей, каждая из которых действует в своей части признакового пространства Х&, где Жа = Xi U .. . Х#, для апостериорных распределений на векторы параметров моделей имеем p(wAy, X, AJ, ... А\) = p{wk\yIk) XIfc, AJ), k = T K, vj\e p{wk\yzk-, Xifc, Ak) есть апостериорное распределение для вектора параметров одиночной логистической модели на выборке (Xifc, yifc). Пользуясь нормальной аппроксимацией, получаем P(wjfeyifc, XJfc, А к) « gk(wk) =J\f(wk\wl, Ejfe), где fc = (XTIkRkXxk + A k) , гдеЩ = diag(a(w"x,)a(-w"x,), і Є Tk).

Так как модели, входящие в многоуровневую модель, оптимизируются независимо и никаких ограничений на их похожесть не накладывается, а разбиение признакового пространства на области действия моделей может не отражать реальной неоднородности в данных, построенная многоуровневая модель может быть не (s, а) - адекватной. Опишем далее способы построения адекватной многоуровневой модели по данной оптимальной и обученной.

Пусть задана некоторая функция сходства s. Обозначим S = \\ski{gk{wk)., 7/(w/)), к, I = 1, К матрицу значений попарных сходств моделей, входящих в многоуровневую модель, а Т = \\tki(gk(wk), ?/(w/)), к, I = 1, К матрицу соответствующих достигаемых уровней значимости в условиях истинности гипотезы о совпадении моделей, то есть tki = (s(gk(wk), ?/(w/)) Ski\v?k = W/).

Отметим, что случайность здесь происходит из того, что дк и д\ есть апостериорные распределения на wkl w/ соответственно, полученные по выборке. Так как у есть случайные вектор, то и дк, д\ случайны. Так gk(wk) = Af(wk\w k} Xifc), gi(wi) =A/"(w/w , XI/), при этом w k и wjf случайные векторы, имеющие некоторое распределение, а Х1&, Л/ есть случайный матрицы, также имеющие некоторое распределение. Конкретный вид распределения значений функции сходства в условиях истинности гипотезы о совпадении моделей, то есть Fs(x) = (s(gk} fji) x\wk = w/), по которому рассчитываются уровни значимости tki: зависит от функции сходства s и считается вычисленным отдельно. Для предлагаемой функции сходства s-score это распределение дается теоремой 16.

Далее рассматриваем матрицу достигаемых уровней значимости Т и предложим несколько методов построения (s, а) - адекватной многоуровневой модели. Отметим, что если все достигаемые уровни значимости в матрице Т = \\tki\\, к} I = 1, К не превосходят а, то есть V к, /, к Ф I tki а, то исходная обученная оптимальная многоуровневая модель уже является (s, а) -адекватной. Пусть далее это не так, то есть 3 к, /, к ф I tk\ о/.. Рассмотрим несколько методов объединения моделей для построения (s, а) - адекватной мультимодели.

Метод последовательного парного объединения по наибольшему сходству. Этот метод основан на поиске двух наиболее близких друг к другу моделей, объединении их в одну оптимальную и вновь обученную. Затем производится пересчет элементов матрицы Т, соответствующих сходству объединенной модели с остальными. Итерации продолжаются до тех пор, пока Зк, /, к ф Itki а. Такая идея приводит к следующему алгоритму.

1. Находим [к , / ] = &rgmaxk itki

2. Если tk i OL-, останавливаемся. Построенная на данном шаге мультимо-дель является (s, а) - адекватной. Иначе переходим на шаг 3.

3. Объединяем модели с номерами к , I и производим оптимизацию и обучение полученной модели, а также пересчет апостериорного распределения на вектор параметров объединенной модели. Хк U Ті — Ik , А = argmaxp(yifc,Xifc,, Ак ), Afc w k = argmaxp(yifc,, w Xjfc,, А ), Wfc E = (Xjfc,Rjfe Xifc, + A k ) ,гдеЩ = diag(a(w Ix,)a(-w Ix,),i Є lk ), gk (wk ) =JV(wjfe w , t )

4. Удаляем / -й столбец матриц S и Т, так как моделей стало на одну меньше, и пересчитываем сходства s k i и соответствующие им достигаемые уровни значимости tk i для / ф к . sk i = s{gk {wk ), gi{wi)), tk i = №(s{gk {wk ), gi{wi)) skH\wk = wt). 116

5. Переходим на шаг 1. Метод последовательного объединения максимальных клик по наибольшему сходству. Этот метод основан на последовательном поиске наибольшего по числу моделей набора моделей такого, что все модели внутри набора являются статистически неразличимыми на уровне значимости а. Если имеется несколько наборов одинакового размера, выбирается тот, у которого сумма элементов подматрицы матрицы Т, соответствующей этому набору, минимальна. Если таких наборов несколько, выбирается произвольный. Затем модели внутри найденного набора объединяются в одну, для нее производится оптимизация и обучение.

Свойства распределения значений предлагаемой функции сходства

Проиллюстрируем результат теоремы об асимптотической вырожденности недиагональной оценки максимума обоснованности для ковариационной матрицы. Рассматриваем случай одной модели К = 1, признакового пространства размерности п = 2. В качестве истинного вектора параметров рассматриваем два случая wi = [1, 1]т и W2 = [1, — 1]т. Варьируем число объектов в выборке, сгенерированных в соответствии с моделью логистической регрессии от 50 до 1000000 и оцениваем недиагональную ковариационную матрицу методом максимума обоснованности в соответствии с (2.5) с помощью аппроксимации Лапласа. Сэмплируем признаки fi, {2 независимо поэлементно из Л/"(0, 1). Пусть X = [fi, {2] Результаты эксперимента для случая некоррелированных признаков fi, {2 приведены в табл. Сохраняя обозначения теоремы, имеем А" случаях, и когда истинные веса признаков имеют одинаковый знак, и когда истинные веса признаков имеют разный знак, при росте числа объектов наблюдается увеличение min(o"1, а ) в согласии с теоремой. Более того, уже при m = 10000 в обоих случаях оцененная корреляция между веса признаков по модуля равна 1 с машинной точностью, а знак определяется как — sign(it iit 2), что также находится в согласии с теоремой.

Иллюстрация вырожденности недиагональной оценки максимума обоснованности для ковариационной матрицы параметров логистической модели для случая параметров одного знака, w = wi = [1, 1]т в случае коррелированных признаков. Данные / т 50 100 1000 104 105 106 min(a1, (ТІ) 3.00 3.98 19.48 61.52 213.74 679.63 к -0.9683 -0.98 -0.9986 -0.9999 -1 -1

Иллюстрация вырожденности недиагональной оценки максимума обоснованности для ковариационной матрицы параметров логистической модели для случая параметров разных знаков, w = wi = [1, — 1]т в случае коррелированных признаков. Данные / т 50 100 1000 104 105 106 min(a1, (ТІ) 11.23 16.76 57.50 191.97 611.21 1.93-103 к 0.9990 0.9991 0.9999 1 1 1 Для случая коррелированных признаков также наблюдаем, что при увеличении числа объектов растет min(o"1, о ), а уже, начиная с т = 100000 для весов одного знака, и, начиная с т = 10000 для весов разных знаков, оценка максимума обоснованности для корреляции весов признаков с машинной точностью равна — sign(it iit 2). Разная же скорость сходимости в двух рассматриваемых случаях объясняется коррелированностью признаков. Так было показано, что теорема применима, если признаки не являются коллинеарными или вырожденными (см. границы применимости теоремы). Таким образом, в предельном случае, когда признаки идеально коррелированы, утверждаемых сходимостей не наблюдается, потому, видимо, имеет место разная скорость сходимости в промежуточных случаях.

Сравним далее результаты работы предлагаемых методов построения (s, а) - адекватных мультимоделей с результатами классификации с помощью исходных мультимоделей. Так как результаты применения предлагаемого подхода для многоуровневых моделей в случае разбиения на модели по значению признака рассмотрены в предыдущем разделе, в данном разделе для разбиения объектов по моделям используем кластеризацию с помощью алгоритма к средних [109].

В качестве данных используем следующие пять наборов данных из репози-тория UCI. 1. Данные по немецким потребительским кредитам [43] содержат 1000 объектов, 24 признака, 2 класса. 2. Данные по сердечным заболеваниям в Южной Африке [45] содержат 462 объекта, 13 признаков, 2 класса. 3. Данные по качеству белого вина [46] содержат 4898 объектов, 11 признаков, 2 класса. Для этих данных целевая переменная меняется от 0 до 10, показывая качество вина. Классу у = - 1 соответствует вино низкого качества (0-5), а классу у = 1 соответствует вино высокого качества (6-10). 4. Данные по локализации белков в клетке [47] содержат 892 объекта, 8 признаков и 2 класса. В работе использовались два самых больших по числу объектов класса из набора данных. 5. Данные по ценам домов в Бостоне [48] Дома с ценой не менее 25,000$ были отнесены к классу у = 1, а с ценой менее 25,000$ были отнесены к классу у = - 1. Данные содержат 506 объектов, 13 признаков и 2 класса.

Для построения адекватных мультимоделей используется уровень значимости а = 0.01. Результаты с другими значениями уровня значимости схожи и приводят к тем же выводам. Разбиение объектов на модели производим, как уже указывалось, с помощью алгоритма к средних [109]. Построение смесей моделей производим и с фиксированным числом моделей К без прореживания (/і = 1), и с автоматическим выбором числа моделей из заведомо избыточного набора (К = 200, /і = 10-6). Результаты при других значениях параметра /і распределения Дирихле качественно схожи и приводят к тем же выводам. Приведем сначала результаты для многоуровневых моделей и смесей моделей для фиксированного исходного числа моделей К без прореживания для мультимоделей (/і = 1). Результаты приведены в табл. 5.8 для данных по немецким потребительским кредитам, в табл. 5.9 для данных по локализации белков в клетке, в табл. 5.10 для данных по качеству белого вина, в табл. 5.11 для данных по сердечным заболеваниям в Южной Африке и в табл. 5.12 для данных по ценам домов в Бостоне. Для оценки качества использовалась кросс-валидация по 50 независимым разбиениям выборки на обучение и контроль. Полужирным шрифтом выделены значения качества для исходной или построенной (s, а) — адекватной мультимодели, для которых превышение качества соответствует значению t-статистики, большему двух. Если различие качества незначимо, то выделены оба значения.