Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Методы и алгоритмы случайно-множественного анализа медицинских данных Белов Константин Андреевич

Методы и алгоритмы случайно-множественного анализа медицинских данных
<
Методы и алгоритмы случайно-множественного анализа медицинских данных Методы и алгоритмы случайно-множественного анализа медицинских данных Методы и алгоритмы случайно-множественного анализа медицинских данных Методы и алгоритмы случайно-множественного анализа медицинских данных Методы и алгоритмы случайно-множественного анализа медицинских данных
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Белов Константин Андреевич. Методы и алгоритмы случайно-множественного анализа медицинских данных : Дис. ... канд. техн. наук : 05.13.01 : Воронеж, 2005 121 c. РГБ ОД, 61:05-5/1693

Содержание к диссертации

Введение

1 Вопросы применения теории случайных множеств для анализа медицинских данных 13

1.1 Место случайных множеств в структуре статистики объектов нечисловой природы 14

1.2 Формулировка и обоснование актуальности решаемых в диссертации задач с позиции случайно-множественного подхода 20

1.3 Цель и задачи исследования 32

2 Алгоритмизация задачи классификации помножеств случайного множества 33

2.1 Модификация алгоритма решения задачи классификации подмножеств случайного множества 33

2.2 Применение результатов классификации в медицинских исследованиях 53

Выводы второй главы 58

3 Алгоритмизация задач прогнозирования на основе теории случайных множеств 59

3.1 Разработка алгоритмов построения сет-регрессии 59

3.2 Разработка алгоритма дискриминантного анализа на основе непараметрической оценки распределения случайного множества 82

Выводы третьей главы 90

4 Оценка эффективности разработанных алгоритмов анализа дихотомических данных 91

4.1 Структура программного обеспечения анализа дихотомических данных

4.2 Пример решения задачи классификации подмножеств случайного множества 96

4.3 Пример решения задачи построения сет-регрессии и дискрими нантного анализа 101

Выводы четвертой главы 107

Заключение 108

Список литературы

Введение к работе

Актуальность темы. В настоящее время практически любое серьезное медицинское исследование подразумевает при обработке результатов наблюдений, экспериментов, измерений использование технологий анализа данных. Их применение позволяет получить новое знание об объекте исследования, выявить скрытые закономерности. Существующее программное и алгоритмическое обеспечение, используемое в этой области, разнообразно по своему назначению и позволяет решать множество задач, как статистического анализа данных, так и анализа данных, в понимании этого термина как совокупности статистических методов, не предполагающих вероятностной модели изучаемого явления. Оба этих подхода можно отнести к прикладной статистике, одним из важньж разделов которой является статистика объектов нечисловой природы. Данные нечисловой природы встречаются в медицинских исследованиях крайне часто, и для их обработки следует привлекать корректные методы, основанные на соответствующих вероятностньж моделях, что зачастую в реальных исследованиях, как в России, так и за рубежом игнорируется.

Нередко при обработке медицинских данных возникает ситуация, когда исходная информация об объекте исследования представлена дихотомическими признаками. В этом случае, адекватной математической моделью данных являются случайные множества, относящиеся к одному из объектов статистики нечисловой природы.

Для выборочных данных, описываемых дихотомическими признаками, приходится решать те же самые задачи, что и в классических разделах математической статистики: классификация объектов без указания учителя, распознавание образов объектов, оценивание регрессионной зависимости и другие. В связи с тем, что в настоящее время не существует программного обеспечения в этой области, алгоритмы и методы решения указанных задач носят весьма разрозненный характер, а по многим актуальным вопросам отсутствуют, в диссертации разрабатывается алгоритмическое и программное обеспечение анализа дихотомических данньж с позиции теории случайных множеств, ориентированное на задачи, свойственные медицинским приложениям. В медицинских исследованиях, чаще других, решают две задачи: классификации и прогнозирования. Указанное алгоритмическое и программное обеспечение способствует их решению для некоторьж важньж в практическом смысле постановок. Оно также может быть использовано и в других областях, таких как экономика, страхование, социология и т.д.

Таким образом, актуальность темы определяется необходимостью использования для анализа дихотомических данньж методов, основанньж на случайно-множественной модели данньж.

Диссертационная работа выполнена в соответствии с межвузовской комплексной научно-технической программой 12.11 «Перспективные информационные технологии в высшей школе» в рамках одного из основных направлений Воронежского государственного технического университета «Биомедкиберне-тика, компьютеризация в медицине».

Цель и задачи исследования. Целью исследования является разработка методов, алгоритмов и программного обеспечения, основанных на теории случайных конечных множеств и общих подходах статистики объектов нечисловой природы, и предназначенных для решения задач анализа дихотомических данных, имеющих широкое приложение в медицинских исследованиях.

Для достижения поставленной цели необходимо решить следующие задачи:

проанализировать современное состояние проблемы анализа дихотомических данных с позиции случайно-множественного подхода и теории статистики объектов нечисловой природы, и в этой связи определить перечень наиболее значимых для медицинских приложений задач, с указанием путей их решения;

разработать алгоритм классификации подмножеств случайного множества без указания учителя, основанный на предлагаемом модифицированном методе поиска системы максимальных подмножеств и указать возможные приложения результатов классификации в медицинских исследованиях;

разработать алгоритмы построения различных видов регрессии, когда предиктором является случайное множество;

предложить алгоритм дискриминантного анализа на основе непараметрической оценки распределения случайного множества;

оценить на практических примерах эффективность предлагаемых моделей, в сравнении с существующими подходами;

разработать на основе полученных алгоритмов и внедрить программное обеспечение анализа дихотомических данных.

Методы исследования. В работе использованы методы теории случайных конечных множеств, теории вероятностей, математической статистики, в частности статистики объектов нечисловой природы.

Научная новизна. В диссертации получены следующие основные результаты, характеризующиеся научной новизной:

метод «СИМАП» поиска системы максимальных подмножеств, гарантирующий нахождение всех максимальньж подмножеств и позволяющий решать задачу классификации подмножеств случайного множества без указания учителя;

алгоритмы построения регрессии одного случайного множества на другое через случайные соответствия и на основе оценки близости между подмножествами предиктора, отличающиеся от существующих подходов более высокой

точностью получаемых с их помощью оценок;

алгоритмы построения регрессии случайной величины на случайное множество через случайные соответствия и на основе оценки близости между подмножествами предиктора, отличающиеся от существующих подходов более высокой точностью получаемых с их помощью оценок;

алгоритм восстановления пропущенных значений в дихотомических данньж на основе регрессии одного случайного множества на другое, обеспечивающий высокую точность заполнения пропусков;

алгоритм дискриминантного анализа, основанный на непараметрической оценке распределения случайного множества, отличающийся от существующих подходов более высокой точностью распознавания.

Практическая значимость и результаты внедрения. Результаты работы могут быть использованы при решении следующих задач анализа дихотомических данньж: классификация без указания учителя; классификация с указанием учителя; построение регрессии, когда предикторами являются дихотомические признаки; восстановление пропущенных значений. В медицинских исследованиях с их помощью могут быть решены следующие задачи. Классификация: выделение наиболее вероятных сценариев развития некоторого заболевания с точки зрения последовательного возникновения его симптомов; классификация совокупности пациентов по перенесенным ранее заболеваниям; упрощение принятия решения при многомерном поисковом прогнозе осложнений некоторого заболевания; мониторинг состояния пациента, описываемого дихотомическими признаками; задача диагностики при дихотомических диагностических признаках и другие задачи.

Прогнозирование: прогноз степени тяжести заболевания по множеству наблюдаемых у пациента симптомов; прогноз множества осложнений, возможных у пациента по множеству диагностических симптомов; прогнозирование процесса течения некоторой болезни, когда состояние пациента характеризуется набором дихотомических признаков; прогноз некоторого количественного показателя по множеству симптомов болезни и другие задачи.

Теоретические и практические результаты работы, реализованные автором в программе «СКМ Анализ», внедрены в учебный процесс кафедры «Системный анализ и управление в медицинских системах» для студентов специальности 200401 «Биотехнические и медицинские аппараты и системы» Воронежского государственного технического университета, в учебный процесс кафедры «Информационные системы» для студентов специальности 230201 «Информационные системы и технологии» Воронежского института высоких технологий, в научно-исследовательскую работу кафедры «Общественного здоровья и здравоохранения» Воронежской государственной медицинской академии им. Н. Н. Бурденко.

Апробация работы. Результаты диссертационной работы докладывались и обсуждались на следующих конференциях и семинарах: Всероссийской конференции «Интеллектуализация управления в социальных и экономических системах» (Воронеж, 2004), Всероссийской научно-технической конференции «Теория конфликта и ее приложения» (Воронеж, 2004).

Публикации. Основное содержание диссертационной работы изложено в 10 печатных работах. Личный вклад автора заключается в разработке методов [6-10], алгоритмов [3-5], программного обеспечения анализа дихотомических данных [6-9], построении математических моделей [1, 2], организации эксперимента с ними [9] и последующей интерпретации результатов моделирования [1,2, 10].

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, библиографического списка из 104 наименований. Основная часть работы изложена на 118 страницах, содержит 9 рисунков, 5 таблиц.

Формулировка и обоснование актуальности решаемых в диссертации задач с позиции случайно-множественного подхода

В настоящее время эффективное решение ряда медицинских задач не Л возможно без применения методов анализа данных. Результаты медицинско го эксперимента, ретроспективный анализ историй болезни, информация о состоянии пациентов в отделении интенсивной терапии и т.д., представля ются в виде наборов данных, обработка и анализ которых позволяют полу ч# чить новую информацию, новое знание об изучаемом объекте. Сегодня прак тически ни одно серьезное исследование в области медицины, как в России, так и за рубежом, не обходится без применения пусть даже самых простых технологий анализа медицинских данных. Более того, они позволяют доста чі» точно просто в огромных информационных массивах искать нужные для ис следователя закономерности. Мощным толчком к развитию применения ме тодов анализа медицинских данных стало развитие средств вычислительной техники и специализированного программного обеспечения по их обработке. Создание больших медицинских баз данных, в первую очередь за рубежом, сделало доступным их использование для последующей обработки большо му кругу заинтересованных специалистов. Анализ данных - это одно из направлений прикладной математики, ф получившее такое название с подачи французских математиков. Реальные данные обладают такими особенностями, которые затрудняют применение строгих математических методов. Достаточно отметить, что таблицы данных часто представлены малыми выборками в пространствах большой размерно А сти при отсутствии информации о характере и степени зависимости одних характеристик от других, разнотипности измерительных шкал, наличии шумов и пробелов. В этих условиях методы решения задач анализа данных вынужденно основываются как на корректных математических процедурах, так и на чисто эвристических приемах. Не удивительно, что многие решения воспринимаются настороженно, а многие методы решения выглядят недостаточно строго обоснованными [43].

В этой связи, анализ данных чаще всего понимают как процесс изучения статистических данных с помощью математических методов, не предполагающих вероятностной модели изучаемого явления. Он противостоит вероятностно-статистическому подходу к обработке данных, опирающемуся на их вероятностную интерпретацию (как случайной выборки из генеральной совокупности) и использование вероятностных моделей для построения и выбора наилучших методов обработки.

Достаточно часто анализ данных понимают несколько в другом, более широком смысле. Он отождествляется с понятием прикладной статистики, понимаемой как научная дисциплина, разрабатывающая и систематизирующая понятия, приемы, математические методы и модели, предназначенные для организации сбора, стандартной записи, систематизации и обработки статистических данных с целью их удобного представления, интерпретации и получения научных и практических выводов [2, 3, 4]. В диссертации термин «анализ данных» будет пониматься именно в таком смысле.

Прикладную статистику по виду статистических данных принято делить [75] на следующие направления: 1. статистика случайных величин (одномерная статистика); 2. многомерный статистический анализ; 3. статистика временных рядов и случайных процессов; 4. статистика объектов нечисловой природы. Все эти направления находят широкое применение для анализа медицинских данных, но более подробно остановимся на последнем пункте. Статистика объектов нечисловой природы - это направление в математической статистике, в котором в качестве статистических данных (результатов на 16 блюдений) рассматриваются объекты нечисловой природы. Так называют объекты, которые нецелесообразно описывать числами, в частности элементы пространств, не являющихся линейными. Примерами могут служить бинарные отношения (ранжировки, разбиения, толерантности и др.), результаты парных и множественных сравнений, множества, нечеткие множества, последовательности символов (тексты), измерения в шкалах, отличных от абсолютных. Этот перечень примеров не претендует на законченность. Он складывается постепенно в соответствии с исследованиями в области статистики объектов нечисловой природы [73]. Статистика объектов нечисловой природы имеет множество приложений в медицине, а также играет большую роль в теоретических и прикладных исследованиях по проблемам управления, в частности управлением качеством продукции, в технических науках, социологии, экономике, психологии и т.д.

Например, в медицинских исследованиях часто приходится иметь дело с разнотипными данными, также носящими нечисловую природу. Речь идет о том, что результат наблюдения состояния объекта представляет собой вектор, у которого часть координат измерена по шкале наименований, часть -по порядковой шкале, часть - по шкале интервалов и т.д. Статистические методы ориентированы обычно либо на абсолютную шкалу, либо на шкалу наименований (анализ таблиц сопряженности), а потому зачастую непригодны для обработки разнотипных данных. Есть и более сложные модели разнотипных данных, например, когда некоторые координаты вектора наблюдений описываются нечеткими множествами.

Применение результатов классификации в медицинских исследованиях

Шаг 1. Найти Е - глобальное максимальное подмножество. Шаг 2. Взять произвольное множество (кандидат) Е2 Е,, Е2 є А, причем d(E2,Ej) 0. Очевидно, что все подмножества А делятся на два класса AlSS{EeAd(E;,E) d(E2,E)} А2 = {Е є А d(E;,E) d(E2,E)} Шаг 3. Если в семействе А2 вероятность значения множества Е2 максимальна, то Е2 - максимальное подмножество. В противном случае необходимо вернуться к шагу 2, и выбрать другое множество (кандидат) Е2.

Алгоритм (1) позволяет получить решение задачи КПСМ на два класса - Аь А2 с представителями классов Е и Е2 соответственно. Очевидно, что количество локальных максимумов, которые могут быть найдены для СКМ с распределением р, может быть более одного, причем на практике чем больше мощность базового множества, тем большее количество локальных максимумов отыскивается. Соответственно и решений на два класса также может быть несколько.

Пример 2.2. Рассмотрим пример решения задачи классификации на два класса по алгоритму (1) для случайного множества из примера 2.1 с помощью программы «СКМ Анализ». Глобальным максимальным подмножеством в этом случае является множество {y,z}, P(E = {y,z}) = 0,32. Задача

КПСМ имеет два решения с представителями классов: ({y,z},{y}) и ({y,z},{x,y}). Например, для второго решения решетка подмножеств выглядит следующим образом (рис 2.2). Здесь черными кругами показаны подмножества, соответствующие классу с представителем {у, z}, белыми - с представителем {х, у}. {X, У z}

Существуют распределения и псевдометрики, в которых второго максимального множества не существует. Например, пусть К - СКМ под X распределением р. Также пусть на X определена псевдометрика (2.6). Тогда максимальное подмножество будет единственным в том и только том случае, когда распределение р имеет следующий вид Р(К = Х) = 1,Р(К = Е) = 0,Еє2х.

Введем ряд обозначений. Пусть ЦЕ )- множество всех максимальных подмножеств, полученных алгоритмом (1) от глобального Е . Если распределение р содержит q мод EpEjv.Ej, то построим ЦЕ ),ЦЕ ),...,ЦЕ ). Множество H = (jL(E ) В объединении с множеством глобальных макси І=І мальных подмножеств G = {E ,E ,...,E }, т.е. множество W = HuG и есть система максимальных подмножеств. - . Аналогичным к (2.7) образом, можно искать сразу систему п макси мальных подмножеств Пусть Ej - единственное глобальное максимальное подмножество. Алгоритм (2) поиска системы п максимальных подмножеств Шаг 1. Найти Е,- глобальное максимальное подмножество. Шаг 2. Необходимо выбрать (п-1) произвольных неравных друг другу множеств Е2,..., ЕпєА такие, что d(E ,E) 0, d(Ej,Ej) 0 (2 i n,2 j n, і Ф j). Для каждого множества Е\ формируется класс множеств А, = {Е є A d(E;,E) КЕ„Е),с1(Е,,Е) d(E„E) d(Ek,E) d(Ei,E),i k n,2 j i} Соответственно формируется класс A1 = {EeAd(E,E;) d(E,Ei),2 i n}. Шаг 3. Если в семействах Aj соответствующие множества Ej будут иметь максимальную вероятность значения, то множества Е ,Е2,..., Еп - система п максимальных подмножеств, являющаяся решением задачи КПСМ на п классов Aj,A2,...,An. Каждое из подмножеств Ej назовем представителем і-го класса А\. Понятно, что таких решений может быть несколько, но может и не быть, если распределение р имеет менее п максимумов. Построение множества W аналогично алгоритму (1). Рассмотрим некоторые важные свойства указанных решений задачи КПСМ. Свойство 2.5. Пусть К - СКМ под X распределением р, глобальная область поиска А = 2Х. Пусть Ej,...,E - это система п максимальных множеств, а А,,...,АП- соответствующие им классы. Пусть G - это граф, соответствующий решетке системы подмножеств 2х, a Gp...Gn- подграфы соответствующие классам А1}..., Ап. Тогда каждый подграф Gj (1 і п) является связным.

Это свойство свидетельствует о том, что множества внутри одного класса связаны друг с другом. Поэтому каждый класс Aj по праву называется «классом». На рис 2.2 это хорошо видно.

Понятно, что если в ходе решения задачи КПСМ было получено разбиение на п классов, то хотелось бы получить решение и для m (m п) классов, не запуская заново весь сложный механизм поиска решения задачи КПСМ на m классов. Следующее свойство показывает, как это можно сделать.

Свойство 2.6. Пусть задано некоторое СКМ К под X распределением p. {Di,...,D,} - это множество решений задачи КПСМ на п классов, причем каждое решение Dj взаимно однозначно определяется своими классами Aj ,...,Aj или множеством представителей этих классов єх ={Е ,...,Е }. Тогда объединение множеств представителей некоторых решений = и ,1 к 1 (2.9) j=i даст решение задачи классификации множеств на m классов, где m =-. В работе [51] задача КПСМ была решена для случайного множества акций - лидеров по объемом продаж. Вначале было получено множество решений на два класса, а затем использовалась формула (2.9) для получения более пригодного решения на 9 классов. Этот алгоритм в указанной работе в явном виде не был представлен и, исходя из вышеизложенных соображений, предлагается собственный, соответствующий таковому.

Разработка алгоритма дискриминантного анализа на основе непараметрической оценки распределения случайного множества

Для того чтобы построить регрессию через случайные соответствия, необходимо рассмотреть суть декартового произведения случайных множеств. Пусть X и Y - конечные множества, Ki и Кг принимают значения из 2х и 2Y соответственно, то есть являются измеримыми отображениями: K1:(Q1,A1,P1) (2X,22X) K2:(Q2,A2,P2)- (2Y,22Y) Случайное множество Кг х К2 есть измеримое отображение K1xK2:(Q1xQ2,A3,P3)- (2x+Y,22Y), такое что, (К,хК2)(й 1,й)2) = К1(бУ1)хК2(й?2), а его вероятностная мера определяется выражением Р(К! х К2 = А х В), если W представимо как W = А х В, Р(К, х К2 = W) = [О, иначе. С одной стороны произвольное совместное распределение случайных множеств Ki и К2 легко выразить через распределение их декартового произведения по формуле: P(K,=A,K2=B) = P(K,xK2=AxB). (3.3) Однако это утверждение является не правильным, так как VAcX, Ах0 = 0 VBcY, 0хВ = 0. Поэтому, следующие равенства VA с X, Р(К, = А,К2 = 0) = Р(К! х К2 = 0), VB с Y, Р(К, = 0,К2 = В) = Р(К, х К2 = 0), показывают, что 2х + 2Y -1 вероятностей имеют одинаковые значения. Это означает невозможность задания произвольного совместного распределения на базе формулы (3.3). Расширим базовые множества X и Y на один элемент и обозначим полученные множества X и Y: X = Xu{x}, Y = Yu{y}. Элементы х и у назовем «холостыми». Будем считать что, для случайных множества Ki и К2, заданных на базе множеств X и Y вероятности покрытия добавленных элементов нулевые: Р(хєК,) = 0, Р(уєК2) = 0. Таким образом, расширились области значений случайных множеств, сами же случайные множества остались без изменений. Для произвольных множеств АсХиВс Y введем обозначения ГА, если А Ф 0 - f В, если В Ф 0 АН » в = 1 [{х}, если А = 0 [{у}, если В = 0. В этом случае можно задать случайные множества Кх и К2 вероятностная мера, на которых задается выражениями: Р(К1=А) = Р(К1=А), Р(К2=В) = Р(К2 = В).

Случайные множества К, и К2 являются как бы непустыми аналогами случайных множеств Kj и К2. Они принимают те же значения, с теми же вероятностями за исключением того, что пустое множество заменяется на множество из одного дополнительного элемента. Такой переход позволяет избавиться от пустых множеств и, следовательно, избавиться от декартового умножения на ноль. В этой связи справедливо следующее. Известно, что для произвольного совместного распределения Kj и К2 верно равенство Р(К1=А,К2=В) = Р(К1хК2 = АхВ). (3.4) Так как значения Kj х К2 являются подмножествами X х Y, то Kj х К2 - случайное соответствие между множествами X и Y, а множество Kj х К2 случайное соответствие между множествами X и Y. Для построения регрессии одного случайного множества на другое через случайные соответствия потребуется следующее свойство. Пусть Kj и К2 - случайные множества, заданные под X и Y соответственно. Тогда справедливо следующее P((K1xK2)h[A] = B) = P(K1nA h,K2=B). (3.5)

Регрессия случайного множества Кг на К! - это некоторое отображение, областью определения которого является пространство 2х, а областью значений пространство 2Y. Так как образ множества уровня h при соответствии ме-жду X и Y - это тоже отображение 2 в 2 , то регрессию Кг на Kj можно искать в виде образа множества уровня h при некотором соответствии W: B = Wh[A], при этом W и h будут параметрами регрессии. Образ множества уровня h при случайном соответствии - это случайное множество, элементы которого содержатся в Y. Сет-среднее этого случайного множества будет элементом Iі. Пусть уровень h - функция от мощности множества, значение которой ищется по следующей формуле h = [l + aA-a], (3.6) где а є (0,1). Уравнение регрессии Кг на Ki будем искать в одном из трех видов B = (Fh[A]), B = Mod(Fh[A]), B = Med(Fh[A]), где F - некоторое случайное соответствие между X и Y. Параметрами регрессии будут случайное соответствие и число а. Таким образом, окончательно, уравнение регрессии Кг на К\ будет представлено в виде одного из отображений KA) = Mod((K1xK2)h[A]) KA MedO xKAtA]) (3.7) A) = ((K1xK2)h[A]), где а є (0,1), h = [l + arA- z]. Установлено, что данные отображения обладают экстремальным свойством минимизировать определенные характеристики близости случайного множества и его регрессии на другое случайное множество.

Назовем параметр а «параметром размытости». Если выборочная совокупность на субъективный взгляд исследователя достаточна для устойчивой статистической оценки совместного распределения, то лучше взять его значение ближе к единице, иначе ближе к нулю. С позиции формулы (3.2) параметр размытости показывает приближение случайного соответствия Fh к случайным соответствиям Fu (ос -» 0) и Fn (а —»1).

Рассмотренная теория сет-регрессии показывает возможные применения этого метода при анализе медицинских данных. Одним из них является задача диагностики, когда пациент описывается множеством диагностических симптомов, а в процессе развития у него некоторой болезни возникает множество симптомов заболевания или, например, множество осложнений. Требуется для вновь поступившего пациента определить по его диагнозу наиболее вероятное развитие заболевания. Частный случай сет-регрессии, когда Y = 1, может быть, например, использован для прогнозирования выживаемости, что крайне часто делается в медицине с помощью «балльных систем», которых существует великое множество [см., например, 33, 102, 104].

От рассмотрения теоретических моментов, перейдем к алгоритмизации задачи построения сет-регрессии через случайные соответствия. Пусть имеется прямоугольная таблица данных вида «объект-свойство» объемом m объектов. Все признаки в таблице - дихотомические, разделенные на две части: зависимую (правая часть) и независимую (левая часть). Левая часть представляет собой m реализаций СКМ Ki (предиктора), а правая часть соответственно m реализаций СКМ К2 (отклика). Пусть Ki задано под X, а К2 задано под Y, и пусть Aj с: Х- множество из і-ой строки левой части, a Bt cz Y - множество из і-ой строки правой части, 1 і m. Статистическая зависимость К2 от Ki определяется их совместным распределением, выборочная оценка которого может быть получена из указанной таблицы. Алгоритм построения сет-регрессии К2 на Ki следующий.

Пример решения задачи классификации подмножеств случайного множества

Остальные подмножества в исходных данных представлены не были, поэтому им присваивается нулевая вероятность. Анализируя структуру распределения в табл. 4.1, нетрудно заметить, что по большим значениям вероятности сразу выделяются кандидаты на максимальные подмножества.

Следующим этапом явилось построение матрицы псевдорасстояний на основе вероятностной псевдометрики между объектами из табл. 4.1. Эта матрица из программы «СКМ Анализ» экспортировалась в систему STA 99 TISTCA 6.0 для последующей обработки иерархическими агломеративными алгоритмами. Примеры работы алгоритмов одиночной связи и полной связи приведены на рис. 4.1 и рис 4.2 соответственно.

Дендрограмма по методу одиночной связи. На рис. 4.1 и рис 4.2 видно, что структура классов в выборочной совокупности является весьма устойчивой, и вероятнее всего там присутствует два класса. Это предположение было подтверждено при построении классификации по методу «СИМАП». Проводился поиск общего наиболее предпочтительного решения, считая, что априорная информация о количестве классов отсутствует. Система максимальных подмножеств искалась с априорным порогом чувствительности в два элемента. Как вид по табл. 4.1 глобальное максимальное подмножество в исходных данных только одно - объект №19. Система локальных максимальных подмножеств состоит в этом случае из следующих объектов (упорядочены по убыванию вероятности значения):

На рис.4.1 и рис.4.2 можно видеть, что каждое из подмножеств формирует собственный небольшой класс, соответствующий локальному максимуму распределения случайного множества в этой точке.

В результат поиска наиболее предпочтительного решения в условиях априорной неопределенности о количестве классов действительно оказалось, что по критерию качества классификации (2.12) наилучшим является разбиение на два класса с представителем первого класса - объектом №19 и второго - объектом №11. В этом случае сформировались следующие классы: Для того чтобы получить представление о самой выборке были вычислены в модуле описательных статистик сет-средние: сет-мода и сет # ожидание - объект №19, сет-медиана - объект №9. Как указывалось ранее, глобальное максимальное подмножество и сет-мода это одно и то же. Таким образом, по результатам рассмотренного примера, можно сделать вывод об эффективности метода «СИМАП», поскольку он позволяет получать действительно то решение, которое отвечает всем представлениям исследователя о классе, как совокупности достаточно похожих объектов.

Для оценки точности модели сет-регрессии проводилось ее сравнение с хорошо известными методами линейного дискриминантного анализа, логистической регрессии и искусственных нейронных сетей. Для построения мо щ делей использовались одна и та же выборка, взятая из библиотеки RUSDASL. Это также были данные о больных с инфарктом миокарда, но уже из другой выборки и с другими показателями. Объем выборочной совокупности составил 561 наблюдение без пропущенных значений. Рассматри-вались следующие дихотомические показатели:

В качестве входных переменных модели использовались Varl-Var5, выходная переменная была только одна - Var6. Хотя метод сет-регрессии позволяет использовать несколько выходных переменных сразу, и это явля ется его отличительной способностью, но указанный случай имеет большое прикладное значение в медицине и поэтому, было принято решение об его рассмотрении. Решение подобного рода задач используется при построении систем прогнозирования исхода заболевания [104]. л Построение модели сет-регрессии осуществлялось в программе «СКМ Анализ», при этом рассматривалась только сет-регрессия через оценку близости. Параметр к и вид отображения выбирались оптимально в зависимости от наименьшей ошибки, критерием которой служило отношение числа правильных ответов к общему числу ответов. Оценка точности модели проводи-it лась на всей выборке.

Для методов дискриминантного анализа и логистической регрессии (STATISTICA 6.0) обучение и проверка также проводились на всей выборке, а для метода нейронных сетей она разбивалась (автоматически, случайным образом) в пропорции 2:1:1, соответственно для обучения, верификации и проверки.

Искусственная нейронная сеть строилась в пакете STATISTICA Neural Networks. Тип нейронной сети, количество слоев и другие параметры подби-ралось с помощью специального алгоритма автоматического поиска Automatic Network Designer, который позволяет проводить эксперименты с различным числом скрытых элементов, для каждой пробной архитектуры сети выполняет несколько прогонов обучения, отбирая при этом наилучшую сеть по показателю контрольной ошибки с поправкой на размер сети. В результате для каждого из методов получились следующие результаты (табл. 4.2).

Результаты классификации по методу логистической регрессии полностью совпали с результатами линейного дискриминантного анализа. Для сет-регрессии оказалось, что оптимальное отображение - сет-мода или сет-медиана. Наилучшей нейронной сетью оказался многослойный персептрон, с количеством нейронов в скрытом слое равном семи.

Таким образом, на достаточно большом для качественного обучения и проверки массиве данных видно, что сет-регрессия выигрывает по точности у всех других методов, примерно на 5%. Наилучшим же среди традиционных методов, как и ожидалось, является нейронная сеть.

Для повышения точности всех моделей используется хорошо известный путь - отбор наиболее информативных входных показателей, а также комплекс мероприятий по предварительной обработке информации - устранение выбросов, подбор объектов с наименьшим числом пропусков, если таковые имеются и т.д.

Для оценки эффективности предложенного в диссертации метода дис-криминантного анализа с непараметрической оценкой плотности, использовалось аналогичный подход. Изучалась зависимость хронической сердечной недостаточности от трех дихотомических показателей. Объем выборки составил 349 наблюдений без пропущенных значений. Рассматривались следующие показатели:

Похожие диссертации на Методы и алгоритмы случайно-множественного анализа медицинских данных