Математическое моделирование структур многомерных данных в классификационных задачах Буховец Алексей Георгиевич

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Буховец Алексей Георгиевич. Математическое моделирование структур многомерных данных в классификационных задачах : дис. ... д-ра техн. наук : 05.13.18 Воронеж, 2006 260 с. РГБ ОД, 71:07-5/343

Содержание к диссертации

Введение

1. Методологические аспекты классификационной задачи. общие принципы построения классифиации

1.1 .Методологические аспекты классификационной задачи 20

1.2.Математическая формализация основных предположений классификационной задачи 34

1.3 Описания алгоритмов кластерного анализа 46

1.3.1. Итеративный алгоритм классификации «Форэль» 49

1.3.2. Иерархические агломеративные алгоритмы 52

1.3.3. Алгоритм выделения локальных максимумов функции принадлежности 54

1.3.4. Градиентная процедура модального алгоритма кластерного анализа 58

2. Оценка классификационных результатов и их интерпретация

2.1 Сравнительный анализ алгоритмов классификации 63

2.1.1. Теоретическое сравнение классификационных алгоритмов 65

2.1.2. Тестирование работы классификационных алгоритмов 73

2.1.3 Комплексное использование алгоритмов классификации в задачах типологии 85

2.2 Определение числа классов путём имитационного

моделирования 94

3. Системный анализ в задачах классификации

3.1. Основные принципы системного подхода в задачах классификации 102

3.2. Механизмы формирования ципфового распределения 108

3.3 Проверка выполнения ципфового распределения на разбиении

совокупности объектов 117

4. Проблема неоднородности признакового пространства

4.1. Логическое обоснование формальной постановки классификационной задачи в условиях неоднородности признакового пространства 125

4.2 Задача классификации как задача о собственных значениях 129

4.3 О выборе формы потенциала в задаче классификации 134

4.4 Представление оценки плотности в задачах классификации... 142

5. Фрактальный подход и моделирование структур многомерных данных в классификационных задачах

5.1 Сопоставление структурных особенностей исследуемых данных 149

5.2 Понятие фрактальной размерности 154

5.3. Моделирование фрактальных структур многомерных

данных 160

5.4. Нахождение фрактальной размерности многомерных

данных 171

6. Применения классификационных моделей при решении практических задач

6.1 Кластерный анализ и регрессионные модели с фиктивными переменными в задачах моделирования урожайности 179

6.2 Применение системного подхода в задачах классификации 185

6.3 Математическая модель механизма функционирования теневой экономической деятельности 203

6.4. Классификационная модель сортообразцов озимой пшеницы 227

Заключение 240

Список использованной литературы

Описания алгоритмов кластерного анализа
Тестирование работы классификационных алгоритмов
Механизмы формирования ципфового распределения
О выборе формы потенциала в задаче

Введение к работе

Актуальность темы. Задача построения различного рода классификаций привлекает внимание специалистов многих отраслей на протяжении ряда последних десятилетий. В нашей стране и за рубежом был опубликован ряд фундаментальных работ и монографий, посвященных исследованию и решению конкретных предметных проблем с использованием методов многомерной классификации, методологии решения задач типологии и классификации, методике применения кластерного анализа как такового.

К настоящему моменту развития этого направления дескриптивный подход к построению классификационных моделей стал в некотором роде уже каноническим и в основном себя исчерпал. Об этом можно судить хотя бы по тому факту, что практически все современные профессиональные системы статистической обработки данных, например, такие как STATISTICA, STATGRAPHICS, SPSS и др., включают в себя примерно один и тот же набор алгоритмов кластерного анализа, созданных в предыдущие десятилетия.

^: Дальнейшее развитие этого направления, на наш взгляд, должно заключаться в разработке и'исследовании математических моделей механизмов формирования структуры многомерных данных, их эволюции и функционирования. Эта идея в том или ином виде уже была представлена в литературе, но обычно под этим понималась возможность оценить стохастическую природу данных. В отличие от этого подхода в работе предлагается рассматривать математические модели, представленные дифференциальными уравнениями или итерационными схемами. Предлагаемый подход позволяет проводить исследование построенной модели, устанавливать новые свойства решений задачи. В рамках такого подхода появляются определённые возможности в интерпретации результатов проведенной классификации. Наличие модели механизма порождения данных делает возможным использование классификационных результатов в качестве основы для дальнейшего прогноза и верификации различного рода гипотез.

Указанные преимущества предложенного подхода делают задачу разработки математических моделей классификации, учитывающих механизмы формирования структур многомерных данных, весьма перспективной и актуальной.

Тематика работы соответствует научным направлениям ФГОУ ВПО ВГАУ: «Построение и численная реализация новых математических моделей технологических и производственных процессов в АПК» № г.р. 01.200.1003987 и «Методы получения исходного материала и новых сортов озимой пшеницы и тритикале» № г.р. 01.200.1003984.

Цель работы. Разработка методологии построения и анализа математических моделей механизмов формирования кластерных структур многомерных данных, обеспечивающей решение классификационных задач в социальных, экономических, биологических и других предметных областях знаний.

Достижение сформулированной цели осуществляется посредством решения следующих задач:

Разработка и исследование математических моделей механизмов формирования структур многомерных данных с учетом неоднородности признакового пространства.

Разработка и исследование способов оценки структуры многомерных данных па базе анализа фрактальных размерностей данных.

Создание моделей структур многомерных данных посредством итеративных функциональных систем и исследование их математических свойств.

Разработка методики анализа и интерпретации результатов работы классификационных алгоритмов в рамках системного подхода, базирующейся на исследовании ранговых распределений.

Разработка статистических процедур для оценки числа классов разбиений на основе результатов имитационного моделирования.

Апробация выдвинутых предложений при изучении социальных, экономических, биологических и других объектов исследования.

Методы исследования. В работе используется общая методология математического моделирования сложных систем, последовательно проводится подход построения классификации на основе исследования структуры многомерных данных. Для этого используются методы математической статистики, теории дифференциальных уравнений, методы численного эксперимента и имитационного моделирования, теории фракталов.

Поскольку в области кластерного анализа не существует подходов, позволяющих получить аналитическое решение задачи, все предложенные процедуры и алгоритмы являются численными и имеют соответствующую машинную реализацию и программное обеспечение.

На защиту выносятся:

Методология моделирования классификационных задач, основывающаяся на исследовании механизмов формирования структурных особенностей многомерных данных.

Методика сравнения структур данных на основе вычисления фрактальных размерностей многомерных данных, полученных в результате работы алгоритмов кластерного анализа.

Методика моделирования структур многомерных данных с использованием результатов работы итеративных функциональных систем.

Методика оценки числа классов в классификационном разбиении, основанная на результатах имитационного моделирования.

Методика анализа и интерпретации результатов работы классификационных алгоритмов в рамках системного подхода, базирующаяся на исследовании ранговых распределений.

Результаты применения предложенных методик в решении практических задач.

Научная новизна. В работе представлены следующие новые научные результаты:

Представлен новый методологический подход к задаче классификации, основанный на моделировании механизмов формирования структур многомерных данных.

Разработана и исследована модель классификационной задачи, основывающаяся на предположении о неоднородности признакового

6 пространства: продемонстрированы возможности описания задачи классификации как задачи о нахождении собственных функций, соответствующих плотностям распределения отдельных классов.

Разработан новый подход к анализу структуры многомерных данных как фрактальной структуры, продемонстрированы возможности формирования структуры данных в результате.выполнения итеративной процедуры.

Возможности оценки результатов классификации и их интерпретации рассмотрены с точки зрения системного подхода, предложена методика оценки параметра рангового распределения методом имитационного моделирования.

Предложен новый подход к оценке числа классов разбиения, основанный на методе имитационного моделирования, работоспособность которого продемонстрирована в ходе решения практических задач.

Приведены результаты решения конкретных практических задач, основывающихся на предложенных методических разработках, в социологии, экономике, селекции и генетике.

Практическая ценность. Практическую ценность работы составля
ют результаты, полученные в таких предметных областях, как социология,
моделирование экономических систем, а также моделирование в селекции
и семеноводстве. . - -

В социологии - предложен новый подход к анализу эмпирической информации, позволяющий установить целостность и системность социально-экономических объектов.

В моделировании экономических процессов предложена модель оценки уровня сокрытия доходов физических лиц, модель формирования и функционирования теневой экономической деятельности.

. В селекции и семеноводстве предложена классификационная модель сортообразцов озимой пшеницы, представляющая практический интерес с точки зрения получения гетерогенных популяций с лучшими сочетаниями признаков.

Апробация работы. Основные результаты работы были представлены на Всесоюзной научной конференции «Проблемы применения математических методов и ЭВМ в социологических исследованиях» (Звенигород, 1978), на Всесоюзной школе «Программно-алгоритмическое обеспечение прикладного многомерного статистического анализа» (Цахкадзор, 1979), на Всесоюзных конференции и школах-семинарах «Системное моделирование социально-экономических процессов» (Воронеж, 1980; Таллин, 1983; Старый Оскол, 1999; Н. Новгород, 2005; Воронеж, 2006), на Всесоюзном симпозиуме «Проблемы сравнительных социологических исследований» (Черноголовка, 1982), на Всесоюзной конференции «Теория, методология и практика системных исследований» (Москва, 1984), на 3-й Всесоюзной конференции «Методы социологических исследований» (Звенигород, 1989), на «The Third International Congress on Industrial and Applied Mathematics.» (Hamburg, 1995), на Международных конференциях «Математика. Компьютер. Образование» (Дубна, 1996; Дубна, 1998; Дубна, 2000; Пущино, 2001; Дубна, 2002; Пущино, 2003 Дубна, 2004; Пущино, 2005), на Международной конференции «Экология. Экологическое образование. Нелинейное мышление» (Воронеж, 1997), на Всероссийской конференции «Математическое моделирование. Методы, приложения и средства» (Воронеж, 1998), на VII Международной конференции «Математика. Экономика. Экология. Образование.» (Ростов - на - Дону, 1999), на Второй Международной конференции «Средства математического моделирования» (С.

- Петербург, 1999), на Международных конференциях «Математика. Обра
зование. Экология. Тендерные проблемы» (Воронеж, 2000; Воронеж,
2003), на II Всероссийском симпозиуме по прикладной и промышленной
математике (Самара, 2001; Петрозаводск, 2003), на Всероссийской научно

— практической конференции «Экономическое прогнозирование: модели и
методы - 2004» (Воронеж, 2004), на Международной научно — практиче
ской конференции «Экономическое прогнозирование: модели и методы»
(Воронеж, 2005), на Международной научно-практической конференции
«Современные проблемы прикладной математики и математического мо
делирования» (Воронеж, 2005), на международной научно - практической
конференции «Экономическое прогнозирование: модели и методы» (Воро
неж, 2006).

Публикации. По теме диссертации опубликовано 78 работ. Основные положения диссертации представлены в монографии «Типология и классификация в социологических исследованиях». - М.: Наука, 1982, в журналах РАН и центральной печати, материалах международных конференций. Личный вклад автора представляют постановка задачи моделирования структур многомерных данных, подходы к её решению, анализ полученных результатов работы вычислительных алгоритмов.

Объем и структура диссертации. Диссертация изложена на 259 страницах машинописного текста, состоит из введения, шести глав, 37 рисунков, 16 таблиц, заключения, списка литературы, включающего 162 наименования.

Описания алгоритмов кластерного анализа

В настоящее время список известных алгоритмов классификации составляет по оценкам разных авторов от 150 до 200 штук [Мандель, 1988]. В пору ставить вопрос о классификации самих методов классификации - в терминологии автора [Гуд, 1980, с.66] -ботриологии ботриологии ( от греч. - ботриос - гроздь винограда; аналогично англ. - кластер). Однако для практической работы, как правило, - и это хорошо видно из публикаций результатов исследований, используется сравнительно небольшое число классификационных процедур.

Попытки навести порядок в этом многообразии предпринимались неоднократно. Варианты сравнения алгоритмов кластерного анализа в той или иной степени обсуждались С.А. Айвазяном [1974], Н.Г. Загоруйко [1972], А.А. Дорофеюком [1971], Б.Г. Миркиным [1980], И.Д. Манделем [1982], Кормаком P. [Cormak, 1971], Хартиганом Д. [Hartigan, 1975], Андербергом М.Р. [Anderberg, 1973] и многими другими авторами. При этом были различны не только схемы сравнений, но и прагматические установки (цели) исследователей. Классификация алгоритмов проводилась по нескольким качественным признакам, поэтому ожидать стройной и логической упорядоченности результатов не приходится.

Как показала практика последующих лет все эти систематизации не привели ни к чему новому ни в теоретическом, ни в практическом плане. Наверное, это как раз тот случай, о котором Гельвеций сказал примерно так: знание некоторых принципов должно возмещать незнание некоторых фактов. Поэтому мы считаем, что в основу сравнения и сопоставления следует положить основную цель решения классификационной задачи, и именно в том виде, как она была сформулирована нами выше: изучение структуры многомерных данных. В этом случае особенности (или частности), связанные с реализацией конкретных алгоритмов не будут играть столь существенной роли.

Обычно в практической деятельности выбор метода классификации обусловлен его доступностью - в последнее время это связано большей частью с наличием того или иного алгоритма в составе стандартного программного обеспечения. Однако использование алгоритмов часто осложняется тем, что входные параметры различных процедур не совпадают: например, метод к-средних предполагает задание числа классов, в то время как другие алгоритмы часто требуют задание некоторых пороговых характеристик. В самом "хорошем" для пользователя случае агломеративные иерархические алгоритмы не требуют для своей работы ни каких входных параметров, - их выход представляет сразу списки всех возможных классов, которые могут быть получены при заданной метрике и расстоянии между классами, т.н. дендрограмму. Однако это не решение проблемы входных параметров, а лишь перенесение её с одного этап классификационной задачи на другой. Сопоставление же разбиений, полученных различными алгоритмами при различных входных параметрах, не говоря уж о различных значениях этих параметров, - создает определенные трудности. Поэтому в своей работе мы будем использовать алгоритмы, имеющие одинаковые входные параметры, точнее - параметр. Интерпретация этого параметра связана, как будет показано дальше, со структурными особенностями данных, на выделение (обнаружение) которых и направлена работа алгоритмов. Для большего удобства и возможности сопоставления этих процедур мы приведём описание этих алгоритмов, обращая особое внимание на те свойства, которые будут в дальнейшем нами использованы, например, для определения фрактальной размерности данных или установления унимодальности распределений выделенных классов.

Тестирование работы классификационных алгоритмов

Механически полученный классификационный результат какого-либо алгоритма, рассматриваемый вне контекста всей содержательной задачи, вне связи с теоретическими посылками, обладает сравнительно малой содержательной ценностью. Для последующего анализа полученных разбиений необходимо применять другие методы статистической обработки данных.

Следует отметить, что процесс достижения хорошей интерпретации результатов классификации касается не только анализа полученных разбиений. Иногда в ходе этого процесса приходится уточнять первоначальную формулировку задачи, вводить весовые коэффициенты признаков для вычисления расстояния и т.п. Но все это в большей степени определяется конкретно решаемой задачей и гораздо меньше связано с применением непосредственно самих алгоритмов многомерной классификации.

В заключение хотелось бы отметить, что подход, при котором окончательное решение о выборе классификационного разбиения принимается на содержательном уровне, отнюдь не страдает излишним субъективизмом, как это может показаться на первый взгляд. «Произвол» в выборе результирующего разбиения в нашем случае примерно такой же, как и в случае выбора вида зависимости в регрессионном анализе или, скажем, в случае выбора уровня значимости при статистическом оценивании.

Проблема выбора числа классов является одной из ключевых в классификационной задаче. Эта проблема возникает как на начальной стадии работы классификационных алгоритмов, особенно в случае выбора управляющего параметра для некоторых типов алгоритмов, так и на конечной при оценке результирующего разбиения. Существуют различные подходы к решению этой проблемы. Наиболее распространённым является подход, связанный с привлечением содержательных дополнительных соображений. В этом случае число классов определяется в зависимости от того, насколько хорошо интерпретируются полученные классы с точки зрения теории прикладной области.

Другой подход связан с исследованием поведения некоторых числовых характеристик классификационных разбиений при изменении значений управляющих параметров. Так, в иерархических алгоритмах кластерного анализа выделение стабильных групп объектов (ядер классов), может служить показателем получения результирующего разбиения [Айвазян и др., 1989, с. ].

Подходы, связанные со статистическим оцениванием классификационного разбиения не получили пока широкого распространения и отсутствуют в системах статистической обработки данных [Ростовцев, 1982].

Предлагаемый нами подход основывается на традиционных методах проверки статистических гипотез. В качестве нулевой гипотезы берётся утверждение о том, что имеющиеся данные не обладают какими-либо структурными особенностями, т.е. предполагается некоторая однородность выборочной совокупности.

Альтернативной гипотезой в данном случае является утверждение о наличии структуры многомерных данных. Другими словами, предполагается, что классификационная структура данных, выделенная в результате применения методов кластерного анализа, не может быть получена за счёт случайного отбора единиц наблюдения из однородной совокупности.

Для проверки основной гипотезы использовались данные, в отсутствии структуры которых можно быть уверенным. Такими данными, на наш взгляд, могут служить выборки из нормально распределённой совокупности, в общем случае - многомерной. Поскольку обычно перед непосредственным применением классификационных алгоритмов для обеспечения равного веса различных признаков принято стандартизировать данные, то в данной работе генерировались нормально распределённые выборки с нулевым математическим ожиданием и единичной матрицей ковариации, т.е. Я0:X N(0,1), где /-единичная матрица соответствующего размера.

К полученным в результате имитационного моделирования данным может быть применён любой алгоритм, например, алгоритм к-средних, получивший широкое распространение в системах статистической обработки данных. Входным параметром этого алгоритма, как известно, является число классов производимого разбиения. В качестве меры близости объектов было выбрано евклидово расстояние. В качестве статистического критерия для полученного разбиения вычислялась статистика

Механизмы формирования ципфового распределения

В классификационных задачах в ходе выполнения алгоритмов модального анализа (см. п.1.3.3., п. 1.3.4.) существенно используется оценка плотности вероятности распределения объектов в многомерном признаковом пространстве. Оценка плотности вероятности также существенно используется и в методе, основанном на квантово -механической аналогии. Для получения таких оценок могут применяться самые различные методы: от простого подсчета числа точек, попавших в сферу выбранного радиуса с центром в оцениваемой точке пространства или, - нахождения величины, обратно пропорциональной расстоянию до к-го ближайшего соседа точки [Типология и классификация..., 1982], до ядерных оценок плотности, называемые оценками Розенблатта - Парзена (см [Крянев, 2003, с. 63]). Одним из таких способов построения оценок плотности, являются методы проекционных оценок, основанные на разложении неизвестной плотности распределения по ортонормированному набору функций с последующей оценкой коэффициентов разложения на основе выборочных данных. Преимущество последнего метода перед другими заключается в том, что в ходе его реализации появляется возможность получить аналитическую аппроксимацию плотности распределения.

Обобщением метода проекционных оценок является так называемый корневой метод оценки плотности распределения (см. [Богданов, 2002]). Суть этого метода заключается в том, что вместо разложения искомой плотности р(х) по ортонормированной системе функций предлагается проводить разложение F - функции, связанной с плотностью равенством которое, попутно заметим, и дает название этому методу. Переход от разложения самой плотности р(х) распределения к разложению (х)-функции где # -(х)} " ортонормированная система функций, содержащая s элементов, {с,} - неизвестные коэффициенты разложения, удовлетворяющие условию 1 \сі\ =1, имеет преимущество перед другими методами, которое заключается в том, что позволяет, как показано в [Богданов, 2002, с. 29], получать информационную матрицу Фишера /, а, следовательно, и матрицу коэффициентов ковариации оценок, не зависящими от вида выбранных базисных функций {# ( )}

Действительно, если предположить, что оцениваемая плотность р может быть представлена в виде функции от некоторой другой функции p = p(g(x)), которая раскладывается по системе ортонормированных функций, то будет выполнено следующее равенство т /=1 В условиях случайной выборки оценки коэффициентов {с;.} в дальнейшем могут быть получены методом максимального 144 правдоподобия. Использование этого метода для нахождения оценок {г,.}, приводит к матрице I, определяемой равенством

Как легко заметить элементы матрицы S(c) не зависят от вида функций [ (х)]. Это свойство корневой оценки плотности и объясняет до некоторой степени эффективность использования Ч?(х)- функции в задачах квантовой механики и классификации.

Такой подход, основанный на методе максимального правдоподобия, позволяет получить эффективную вычислительную процедуру для определения коэффициентов разложения {cj. В этом случае логарифмическая функция максимального правдоподобия будет иметь вид

Развитие теории фракталов привлекло внимание к понятию структуры данных. Проблема исследования структурных особенностей многомерных данных возникала и раньше в задачах классификации или кластерного анализа (см. глава 1). Однако отсутствие формальных критериев вызывало значительные трудности в сравнении различного рода структур.

В рамках фрактального подхода впервые была чётко сформулирована задача определения числовых характеристик структурных особенностей данных, делающих возможным, в частности, их сравнение и сопоставление. Кроме этого, в рамках теории фракталов был поставлен вопрос о генезисе (генерировании) самой структуры данных. Именно эти два аспекта и будут рассмотрены в нашей работе.

Было показано, что классификационная задача, заключающаяся в исследовании структуры многомерных данных, может быть представлена моделью, в основе которой лежит некоторое дифференциальное уравнение типа уравнения Шрёдингера. Следует отметить, что в ходе составления этого уравнения была произведена линеаризация функции, характеризующей состояние системы. Другими словами, полученное уравнение следует рассматривать как линейное приближение некоторого, в общем случае, нелинейного уравнения.

Поскольку распределение всех объектов в признаковом пространстве описывается одним и тем же уравнением, то можно предположить, что классы, которые при этом обнаруживаются алгоритмами кластерного анализа, соответствуют областям устойчивости решения дифференциального уравнения. В качестве таковых в простейших случаях могут выступать устойчивый фокус, предельный цикл, странный аттрактор и др. Если полагать, как это традиционно делается в работах классификационной тематики, что классы соответствуют областям признакового пространства с высокой концентрацией объектов (точек), то в таком случае под классом следует понимать бассейн (область притяжения) особой точки устойчивого равновесия. И, наоборот, области признакового пространства, не занятые объектами, будут представлять собой репеллеры, т.е. такие области, находясь в которых объект будет стремиться их покинуть в силу неустойчивости такого состояния.

О выборе формы потенциала в задаче

При перспективном планировании уровня сельскохозяйственного производства важное место отводится прогнозированию урожайности зерновых культур. Для прогноза используются, как правило, эконометрические модели. И хотя методы кластерного анализа в настоящее время не относятся непосредственно к эконометрическим методам, их совместное использование может быть весьма эффективным.

Нами была рассмотрена задача прогнозирования урожайности риса в Кзыл - Ординской области, на долю которой в восьмидесятые годы приходилось до 20% общего производства риса в СССР [Курносое и др., 1984]. В то время эта задача была весьма важной и имела большое значение для развития рисоводческих хозяйств региона. На первом этапе задача сводилась к установлению (выяснения) основных факторов урожайности, а также оценка степени их влияния на урожайность.

Урожайность риса анализировалась по данным 44 хозяйствах Кзыл - Ординской области. На основании предварительного экономико - технологического анализа были отобраны следующие признаки: Y - урожайность риса, ц / га; X, - площадь посева риса, га; Х2 - производственные затраты на 1 га посевов риса, руб.; X3 - затраты труда на 1 га посевов риса, чел. - ч.; Х4 - количество удобрений, вносимых на 1 га посевов риса, ц действующего вещества; Х5 - основные фонды, руб.; Х6 - удельный вес риса от общей выручки, %. Для построения линейной регрессионной модели были первоначально использованы данные наиболее благоприятного 1980 года. В результате была получена следующая модель

Расчётное значение Fpac4 - статистики, равное 0,1834, меньше Крит = 2,3562, взятого на стандартном 5% уровне. Такое соотношение (Fpacn Ркрит) указывает, что построенная модель не является значимой и её использование для оценки степени влияния объясняющих переменных на уровень урожайности не будет правомерным.

Модели, построенные по годовым данным пятилетнего периода 1976 - 1980 гг., также оказались незначимыми на стандартном уровне. Учитывая, что такое качество модели является стабильным, несмотря на включение в модель факторов, оказывающих наиболее существенное с точки зрения технологии влияние на урожайность риса, можно прийти к выводу о наличии неучтённых факторов качественного характера, которые и являются причиной нарушения однородности исходных данных.

Исследование влияния на результирующий показатель других факторов, например, таких как почвенно-климатические условия, не

дали положительных результатов. Поэтому для достижения однородности исходных данных было решено применить методы кластерного анализа.

Признаковое пространство для классификационной задачи было сформировано из указанных выше основных объясняющих переменных. Для того чтобы сделать все признаки равнозначными, исходные данные были предварительно стандартизированы. В качестве меры близости использовалось евклидово невзвешанное расстояние.

Как показал анализ, исходные данные имели довольно хорошо выраженную структуру. Для её обнаружения на первом этапе применялся алгоритм итеративного метода классификации «Форэль». Значение управляющего параметра, - радиуса гиперсферы, выбиралось исходя из содержательных оценок полученных разбиений. Исследования показали, что в исходных данных чётко можно выделить три устойчивых ядра объектов. Содержательный анализ хозяйств, проведённый на этой стадии, показал, что эти ядра классов различаются по уровню интенсивности полива. Вьщеленный в результате применения алгоритмов признак по сути дела являлся качественным, или классификационным. Учёт такого важного для урожайности рассматриваемой культуры показателя как интенсивность и качество полива на уровне интервальной шкалы не представлялся возможным в виду отсутствия методики, позволяющая измерить на количественном уровне эту переменную.

На следующем этапе уточнения структуры данных был использован иерархический агломеративный алгоритм 1.3.2, работающий по принципу «ближайшего соседа». Практически результаты работы этого алгоритма и были приняты за результирующее разбиение.

Математическое моделирование структур многомерных данных в классификационных задачах Буховец Алексей Георгиевич

Описания алгоритмов кластерного анализа

Тестирование работы классификационных алгоритмов

Механизмы формирования ципфового распределения

О выборе формы потенциала в задаче

Похожие диссертации на Математическое моделирование структур многомерных данных в классификационных задачах