Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Методы двухэтапной и многокритериальной кластеризации данных выборок больших объемов Киреев Василий Сергеевич

Методы двухэтапной и многокритериальной кластеризации данных выборок больших объемов
<
Методы двухэтапной и многокритериальной кластеризации данных выборок больших объемов Методы двухэтапной и многокритериальной кластеризации данных выборок больших объемов Методы двухэтапной и многокритериальной кластеризации данных выборок больших объемов Методы двухэтапной и многокритериальной кластеризации данных выборок больших объемов Методы двухэтапной и многокритериальной кластеризации данных выборок больших объемов Методы двухэтапной и многокритериальной кластеризации данных выборок больших объемов Методы двухэтапной и многокритериальной кластеризации данных выборок больших объемов Методы двухэтапной и многокритериальной кластеризации данных выборок больших объемов Методы двухэтапной и многокритериальной кластеризации данных выборок больших объемов Методы двухэтапной и многокритериальной кластеризации данных выборок больших объемов Методы двухэтапной и многокритериальной кластеризации данных выборок больших объемов Методы двухэтапной и многокритериальной кластеризации данных выборок больших объемов
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Киреев Василий Сергеевич. Методы двухэтапной и многокритериальной кластеризации данных выборок больших объемов : диссертация ... кандидата технических наук : 05.13.01 / Киреев Василий Сергеевич; [Место защиты: Моск. гос. инженерно-физ. ин-т]. - Москва, 2008. - 153 с. : ил. РГБ ОД, 61:08-5/590

Содержание к диссертации

Введение

Глава 1 Сравнительный анализ подходов к решению задачи кластерного анализа 11

1.1. Проблема кластеризации данных 11

1.1.1. Постановка задачи кластерного анализа 11

1.1.2. Измерение расстояния между объектами 12

1.1.3. Функционалы качества разбиения 14

1.1.4. Подходы к решению задачи кластеризации 16

1.2. Методы кластерного анализа 18

1.2.1. Методы, основанные на представлении выборки в виде графа 18

1.2.1.1. Метод КНП (кратчайшего наименьшего пути) 18

1.2.2. Иерархические методы 20

1.2.2.1. Агломеративные методы 20

1.2.2.2. Агломеративные методы на основе свойства редуктивности 24

1.2.2.3. Дивизимные методы 27

1.2.3. Параллельные итеративные методы 29

1.2.3.1. Метод FOREL 29

1.2.4. Последовательные итеративные методы 31

1.2.4.1. Кластеризация Expectation Maximization 31

1.2.4.2. Метод k-средних МакКуина 33

1.2.5. Нейросетевые методы 35

1.2.5.1. Сети Кохонена 35

1.2.5.2. Рекуррентные сети Хопфилда 39

1.3. Сравнительный анализ методов кластеризации 41

1. 4. Постановка задачи диссертации 44

Выводы 46

Глава 2. Новые математические методы решения задачи кластеризации 47

2.1. Решение задачи таксономии 47

2.1.1. Постановка задачи 47

2.1.2. Теоретические основы метода «карманной» кластеризации 47

2.1.3. Зависимость кластерного решения от значений параметров метода 51

2.2. Кластеризация методом многоэкстремальной оптимизации 62

2.2.1. Постановка задачи 62

2.2.2. Теоретические основы метода Q-кластеризации 63

2.1.5. Зависимость кластерного решения от значений параметров метода 66

2.1.6. Применимость метода Q-кластеризации 66

Выводы 67

Глава 3. Кластеризация потребителей рынка банковских услуг в РФ 69

3.1. Задача кластеризации потребителей банковских услуг 69

3.2 Сокращение пространства признаков выборки 73

3.2.1. Поиск оптимального числа факторов 73

3.2.2. Интерпретация полученных факторов 76

3.3. Сегментация методом «карманной» кластеризации 78

3.3.1. Реализация метода «карманной» кластеризации 78

3.3.2. Построение кластерного решения 79

3.3.3. Построение профилей и интерпретация сегментов 82

3.3.4. Управленческие рекомендации по результатам сегментирования 85

Выводы 86

Глава 4. Исследование профессиональных компетенций ИКТ в рамках Федеральной целевой программы 87

4.1. Задача выделения пула учителей-инноваторов 87

4.2. Сокращение пространства признаков выборки 91

4.2.1. Поиск оптимального числа факторов 91

4.2.2. Интерпретация полученных факторов 94

4.3. Сегментация методом Q- кластеризации 95

4.3.1. Реализация метода Q-кластеризации 95

4. 3. 2. Построение оптимального разбиения 96

4.3.3. Исследование качества полученного кластерного решения 102

4.3.4. Интерпретация сегментов 105

4.4. Результаты многофакторного анализа 109

4.5. Методы кластерного анализа для определения рейтинга студентов 112

Выводы 119

Заключение 121

Литература

Введение к работе

Решение задачи кластеризации, то есть разбиения исходной совокупности объектов на группы со схожими в смысле какого-либо критерия свойствами, является актуальным для многих приложений, где возникает проблема анализа большого объёма информации - в экологических, медицинских, социологических, экономических и маркетинговых исследованиях.

Задача кластеризации или таксономии впервые была рассмотрена в 1930-х годах. Эту проблему в её различных аспектах изучали как зарубежные, так и отечественные исследователи, в том числе: МакКуин Д., Ланс У., Уильяме Д., Хартиган Д., Вонг М., Кохонен Т., Фрицке Б., и Колмогоров А.Н., Загоруйко Н.Г., Ёлкина В.Н., Айвазян С.А., Мхитарян B.C., Щумский С.А., и другие.

Кластеризация позволяет среди всей совокупности объектов и их свойств уловить определённые закономерности и тенденции. Разработка простых и быстрых методов кластеризации, не зависящих от параметров, значения которых редко можно знать априорно, имеет особую актуальность при решении практических задач в области социальных и экономических приложений, когда точность полученных кластерных решений имеет решающее значение.

Виды задачи разбиения отличаются от приложения к приложению, однако можно выделить несколько общих типов:

• задачи таксономии, в которых требуется построить не просто разбиение данных на кластеры, а иерархию вложенности кластеров друг в друга - таксономическое дерево или, иначе, дендрограмму;

• задачи выделения естественного расслоения исследуемой совокупности на кластеры, причём в такой трактовке задача кластеризации может и не иметь решения; например, может оказаться,

что все объекты образуют единственный кластер задачи разбиения; выборочной совокупности на несколько: групп, так что объекты, внутри одной группы обладают сравнительно большим сходствомщруг с другом, чем с объектами из других групп.

Кластеризация данных, как видно из изложенного выше, относится к задачам, содержащим высокую степень неопределённости, как в отношении требуемого результата, так. и в отношении- априорных данных. Эта неопределённость сосредоточена в основном в двух ключевых моментах -способе измерения однородности объектов и качества полученного" кластерного»решения, Указанные проблемы более подробно; освещаются в следующих разделах.

Проблема кластеризации данных обычно рассматривается в двух различных вариантах постановки - нахождения естественного расслоения кластеров и нахождения; кластеров в виде групп близких объектов; Первый вариант может и не: иметь решения; например, в і случае, если: исходные данные представляют собой? одиш большой кластер, однако второш вариант. имеет решение всегда, и представляет .наибольший интерес для; исследователей. Кластерные процедуры для нахождения; схожих объектов; можно разделить нЖ два общих типа "—агломеративные" (дивизимные) и итеративные. Агломеративные процедуры, такие как древесная кластеризация; применяются; для сравнительно-небольших выборок данных — от десятков до сотни объектов, так: как при увеличении числам объектов наглядность и вычислительная эффективность этих процедур резко снижается; На; практике же изучаемые выборки обладают объёмом от сотен до нескольких тысяч;, и здесь применяются, уже итеративные и кластер-процедурьі; В итеративных процедурах на каждом шаге работы рассматривается только один объект и производится его отнесение к одному из кластеров; работа процедуры заканчивается, когда получается устойчивое разбиение на кластеры или достигнуто заданное число итераций. Основной итеративный метод, реализованный в многочисленных программах обработки данных (Statistica, Statgraphics, SPSS, и т.д.), и описанный в различных публикациях и изданиях, метод k-средних, является достаточно простым и в тоже время позволяет получить разбиение оптимальное в смысле заданного Q - критерия качества. К таким критериям относят в том числе межкластерное расстояние, внутрикластерное рассеяние и многие другие. Тем не менее, этот метод обладает существенными недостатками:

а) необходимость применения процедуры несколько раз для различного числа кластеров К, для выбора разбиения с лучшим значением критерия (или критериев) качества Q;

б) стремление метода к выделению сферических кластеров, что не всегда соответствует оптимальному разбиению;

в) отсутствие гарантии получения устойчивого разбиения за один цикл просмотра.

Если второй недостаток частично исправлен вариантом с мягкой кластеризацией, то первый присутствует даже в модификации метода для неизвестного априори числа кластеров. В этом случае роль ограничивающих параметров играют пороговые значения, используемые для начального «грубого» разбиения и последующего уточнения решения.

Таким образом, при решении практических задач возникает острая необходимость в разработке метода (методов), который был бы более простым и менее субъективным (зависящим от параметров, значения которых редко можно предполагать заранее), чем наиболее используемые методы. В этом новом методе должна производиться оптимизация сразу в процессе работы, по возможности учитываться сразу несколько критериев, и окончание работы метода должно достигаться за один цикл просмотра исходной выборки объектов.

Областью исследования являются методы и алгоритмы обработки информации, критерии оценки качества решения задач, а также их программная реализация (паспорт специальности 05.13.01 - п.п. 2.3, 2.4, 2. 12).

Научная новизна работы заключается в следующем.

1. Создана модель унифицированного формального описания наиболее известных методов кластеризации для проведения, их сравнительного анализа . С целью определения областей эффективного использования различных методов определена их вычислительная сложность. Полученные результаты анализа позволили сделать вывод, что эффективность традиционных иерархических методов решения задачи таксономии резко , снижается при увеличении объёма исходных данных, а итеративные методы, решающие задачу кластеризации для выборок большого объёма, не в состоянии обеспечить качество решения, соответствующее одновременно нескольким различным! критериям, характеризующим пространственную кластерную структуру.

2. Впервые предложен метод Q-кластеризацииіДля решения задачи построения) оптимального разбиения с учетом нескольких критериев качества. Исследование свойств кластерных решений, получаемых с помощью метода Q-кластеризации, проведенное на сгенерированных тестовых примерах показало, что примерно в 70% случаев найденные решения соответствуют истинной структуре кластеров объектов в пространстве признаков. В частности, метод адекватно определяет истинное число кластеров.

3. Впервые предложен метод «карманной» кластеризации для решения задачи таксономии на выборках большого объёма и построения разбиения с возможностью выбора оптимального числа кластеров. Оценка предложенного метода на предмет вычислительной сложности показала, что метод «карманной» кластеризации решает задачу таксономии на выборках большого объема за субквадратичное время v v , в отличие от O(N3) иерархических методов, характеризующихся сложностью Использование в методе двухэтапной процедуры позволяет получать стабильные кластерные решения независимо от условий проведения первого этапа.

4. Разработано математическое и алгоритмическое обеспечение для реализации предложенных методов, что позволило исследовать их свойства и границы применимости, а также провести анализ точности на искусственных тестовых и практических примерах. Результаты проведённого исследования показали, что предложенные методы могут успешно применяться для решения практических задач, связанных с исследованием особенностей пространственного распределения объектов, заданного массивами большой размерности, в условиях отсутствия априорной информации.

Практическая значимость. На основе предлагаемых методов кластеризации осуществлено:

• разработка программной реализации метода «карманной» кластеризации;

• решение задачи сегментации потребителей банковских услуг на данных исследования, проведённого в 2003 году Международным Агентством Социальных и Маркетинговых Исследований (МАСМИ -Москва);

• разработка программного приложения на основе метода Q-кластеризации;

• решена задача многофакторного анализа и выделения сегмента учителей-новаторов по использованию информационных и коммуникационных технологий (ИКТ) в профессиональной деятельности среди 8500 участников из семи федеральных округов, прошедших в 2006 г повышения квалификации в рамках совершенствования системы повышения квалификации и профессиональной переподготовки педагогических, инженерно-технических кадров в области информационных и коммуникационных технологий (ИКТ) и смежных областей. Эксплуатация, указанных программных приложений подтверждена соответствующими актами о внедрении.

I Достоверность, математических методов - кластеризации, алгоритмов и программных средств. подтверждается, соответствующими, актами о внедрении, почетным дипломом выставки-конференции «Телекоммуникации и новые информационные технологии в образовании»,

І публикациями научных и практических, результатов: в ведущих журналах, в;

том числе рекомендуемых ВАК для публикации в них результатов;

диссертационных исследований.

На защиту выносятся: следующие положения;

Г. Новый метод Q-кластеризациш для- решения задачи: построения оптимального разбиения с учетом нескольких критериев качества, обеспечивающий соответствие кластерных решений: истинной структуре:

распределения объектов в пространстве признаков:

Новый метод «карманной» кластеризации; для: решения задачи таксономии на выборках большого объёма;; в; котором успешно: комбинируются, характеристики точности иерархических схем. и простота реализации итерационных процедур кластеризации:

Математическое алгоритмическою и программное обеспечение нового .

метода: Q-кластеризации, примененное в ряде образовательных проектов в

Математическое, алгоритмическое и программное обеспечение нового

метода- «карманной» кластеризации, примененное: для аналитического исследования социально-демографического; и; психологического статуса,

І потребителей банковских услуг с целью, более эффективной работы, банков на финансовом рынке. 

5. Содержательные результаты кластеризации данных, полученные в ходе использования программного обеспечения метода Q-кластеризации при реализации программы «Совершенствование системы повышения 

Проблема кластеризации данных

Кластеризация, или разбиение данных на непересекающиеся группы, часто требуется при решении прикладных задач; так как позволяет среди всей совокупности объектов И их свойств,- уловить определённые закономерности и тенденции. Часто встаёт задача выделения из исходных данных группы с заданными свойствами и подходящей по некоторым критериям, что также позволяет разрешить применение кластерного анализа.

Задачи кластеризации, в том или ином виде, возникают во многих приложениях, где возникает проблема анализа большого объёма информации — в экологических, медицинских, социологических, экономических, наконец,, в маркетинговых исследованиях. Слово «кластер» образовано от английского "cluster", что в буквальном переводе означает гроздь, пучок или скопление объектов с каким-либо общим свойством. Впервые задача кластеризации была поставлена и решена в 1930-х годах [1- 14].

В своей общей (нестрогой) постановке проблема кластеризации или автоматической классификации заключается в том, чтобы всю исследуемую совокупность объектов" 0 = (ovo2,.:.,oN), статистически- представленную—- -матрицей признаков X размерности NxM, разбить на сравнительно небольшое (известное заранее или нет) однородных, в определенном смысле, групп или кластеров [1-14].

Виды задачи разбиения отличаются1 от приложения к приложению, однако можно выделить несколько общих типов: задачи таксономии; в которых требуется построить не просто разбиение данных на кластеры, а иерархию вложенности кластеров друг в друга - таксономическое дерево или, иначе, дендрограмму; задачи выделения естественного расслоения исследуемой совокупности на кластеры, причём в такой трактовке задача кластеризации квалификации и профессиональной переподготовки педагогических, инженерно-технических кадров общеобразовательных школ в области информационных и коммуникационных технологий (ИКТ) и смежных областей» в рамках Национального проекта «Образование» в 2006г.

6. Содержательные результаты, полученные в ходе использования программного обеспечения метода «карманной» кластеризации для решения задачи сегментации потребителей банковских услуг на данных исследования, проведённого Международным Агентством Социальных и Маркетинговых Исследований в 2003г.

Апробация работы. Основные научные результаты, полученные в ходе диссертационного исследования, докладывались и обсуждались на XI- XII международных научно-технического семинарах «Современные технологии в задачах управления, автоматики и обработки информации» (Алушта, 2002-2007) и Научных сессиях МИФИ 2002-2007 годов.

По материалам диссертации опубликованы 12 печатных работ общим объемом 1,5 печатных листа, в том числе статья в реферируемом журнале, рекомендованном ВАК для опубликования основных результатов диссертационных работ.

Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения, трёх приложений, списка использованной литературы и содержит 66 рисунков, 16 таблиц. Общий объём без приложений: 128 с. (с приложениями — 148 с). Список литературы содержит 62 наименования. может и не иметь решения, например, может оказаться, что все объекты образуют единственный кластер; задачи разбиения выборочной совокупности на несколько- групп так, что объекты внутри одной группы обладают сравнительно большим сходством друг с другом, чем с объектами из других групп.

Кластеризация данных относится к задачами содержащим высокую степень неопределённости, как в отношении требуемого результата, так и в отношении априорных данных. Эта неопределённость сосредоточена в основном в двух ключевых моментах — способе измерения однородности объектов и« оценке качества полученного кластерного решения. Указанные проблемы более подробно освещаются в следующих разделах. 1.1.2. Измерение расстояния между объектами

Узловым моментом решения задачи кластеризации является определение понятия однородности исследуемых объектов. В общем случае однородность определяется через задание величины расстояния между объектами либо мерой близости или сходства, таким образом близость объектов трактуется как близость в смысле выбранной метрики расстояния. Сами объекты о, eO,i=\,N задаются как вектора вида о( ={о], о;,..., о,Л/) , в пространстве признаков размерности М, определяющих различия между объектами.

Решение задачи таксономии

Произвольное число кластеров К легко получить из иерархической агломеративной схемы, которая не применима для выборки большой размерности, поэтому первым шагом решения должно быть сокращение размерности задачи. Сократить число наблюдений N за приемлемое время можно с помощью итерационных методов, например метода k-средних. Но так как этот метод сильно зависит от начального решения и числа кластеров К, то возможно получение нестабильного решения в результате.

Чтобы снизить влияние этих параметров на результат, предлагается производить кластеризацию не на исходной выборке данных, а на её L выборках меньшего объёма — «карманах», способ подобный бутстрэпингу [12]. Выборки должны содержать равное число наблюдений [N/], отобранных без возвращения из исходных данных. Таким образом, на выходе первого этапа решения - этапа сокращения размерности задачи по числу наблюдений — имеются центры кластеров ju(c ) и их объём Nj, где j = \,LxK.

Вторым этапом решения задачи является иерархическая агломеративная процедура, причём для учёта объёма кластеров имеет смысл использовать метод Варда в качестве метода измерения расстояния между кластерами: г{с,,с .рМс)Лсі)), (2.1) где //(с,) - центр тяжести кластера с;

Метод Варда лучше подходит в данном случае, так как позволяет получить монотонную кластеризацию. Благодаря свойству монотонности можно построить дендрограмму — плоское отображение всей кластерной структуры, дендрограмма не будет иметь при этом самопересечений.

После выбора подходящего решения (например, по графику агломерации) исходные объекты должны быть отнесены к построенным центрам К кластеров. Отнесение осуществляется жёстко - каждое наблюдение Ot относится к ближайшему центру су.

Алгоритм 2.1. «Карманная» кластеризация 1. Провести кластеризацию в L выборках методом k-средних. Получить объёмы и центры кластеров. 1.1.Цикл по всем выборкам 0(1), l-\,L 1.2.Инициализация начального множества эталонов є є (/) 1.3. Цикл по всем объектам Vo є 0(l) 1.3.1. Отнесение объекта о к ближайшему эталону: 2. Кластеризовать полученные центры в иерархической агломеративнои процедуре по методу Варда. Выбрать кластерное решение по скачку расстояния агломерации. 2.1 .Инициализация начального множества кластеров: 2.2.C,_, = Uc(uO(L+,) 1=\,L 2.3.Цикл по / = 2,...,С,=1 2.4. Поиск пары ближайших кластеров: 2.4.1. (cpt,cq ):d(cpt,cq,) = min d{cptcq) 2.5. добавление объединённого кластера в текущее множество кластеров: 2.6. С,. = С,., и{ср ис,»}\{ср.,cqt} 2.7. Цикл по Vc є С, 2.7.7. Расчёт расстояния по формуле Ланса-Уилъямса R(c,cptvjccl,) 3. Разбить исходные наблюдения по полученным К центрам, отнеся каждое наблюдение к ближайшему центру.

Так как оценка вычислительной эффективности метода является аддитивной величиной, то будем рассматривать её отдельно для каждого из двух этапов работы алгоритма, это позволит исследовать эффективность каждого этапа относительно только своих параметров, и затем сложить для вычисления общей, итоговой оценки.

Если исходить из полученной ранее оценки то окажется, что вычислительная сложность первого этапа зависит от трёх заранее заданных величин - числа выборок L, числа кластеров - к и объёма выборки N. і Неизвестным фактором является суммарное число итераций /,, которые /-і требуютсядля стабилизации множества эталонов. Чтобы определить, зависит ли это число от указанных выше параметров, были проведены расчёты по первому этапу для модельных выборок различного объёма — от 1000 до 2000 наблюдений, с шагом в 50 наблюдений, для фиксированных значений L и к. В силу того, что вычислительная сложность второго этапа метода «карманной» кластеризации определяется величиной P = L-k + О и+щ причем в нашем случае о(Л+1) = гел:( Л] = 0, то были выбраны такие Р, чтобы Р3 было сравнимо с N по порядку.

Для подтверждения гипотезы о наличии связи между изменением объёма выборки и числа итераций был использован дисперсионный анализ. В качестве уровней фактора были выбраны объёмы выборки (и т.д.), в качестве отклика — число итераций. Был использован специально разработанный генератор выборок, содержащих сферические кластеры для получения 200 случайных выборок с последовательно увеличивающимся объёмом (от 90 до 1800 наблюдений, по 10 выборок на каждый объём). По этим выборкам был проведён первый этап «карманной» кластеризации, и рассчитаны суммарные количества итераций и оценено их изменение от фактора - объёма выборок. Таблица 2.1 Результаты однофакторного дисперсионного анализа

Задача кластеризации потребителей банковских услуг

В рамках Национального проекта «Образование» в 2006 г. по программе «Совершенствование системы повышения квалификации и профессиональной переподготовки педагогических, инженерно-технических кадров общеобразовательных школ в области информационных и коммуникационных технологий (ИКТ) и смежных областей» на базе выбранных пилотных регионов из 8-ми федеральных округов было проведено повышение квалификации 5500 работников системы школьного образования (см. состав выборки в таблице 4.1).

Была поставлена задача выявить по результатам обработки анкет участников программы данные для формирования пула тлі. учителей-инноваторов, готовых и способных применять ИКТ в учебном процессе с целью улучшения качества образовательного процесса. Учителям-инноваторам гарантировалась материальная поддержка в виде целевых грантов. Так как объём исследуемой выборки составлял более 4000 респондентов, а число переменных - вопросов анкеты составило почти 90, то для нахождения наиболее точного решения задачи требовалось провести специальный многофакторный статистический анализ.

Описательный (дескриптивный) анализ первичной информации выборки показал неоднородность респондентов, как в оснащённости преподавателей необходимыми техническими средствами, так и в применении ими ИКТ в учебном процессе, при наличии этих средств (см. рис. 4.1-4.5). Отсутствие необходимой квалификации, сказывается и на результатах использования ИКТ даже при общении с коллегами и учениками. Полученные результаты [51, 53, 55, 59] также позволяют сделать вывод и о распространённости наиболее мобильного ресурса - Интернет в преподавательской среде. Полученные данные рассматриваются и обсуждаются более подробно далее.

В выборке не участвовали учителя из Центрального федерального округа, такая ситуация связана со сроками обучения участников программы. Состав респондентов в выборке специалистов в области ИКТ - инженерно-технических работников выглядит неоднородным, что очевидно объясняется отсутствием за последние 7 лет программ повышения квалификации для такой категории работников учреждений образования (Рис. 4.1). (6%) присутствует только в штате школ городов федерального значения. По социальному составу - это студенты старших курсов технических вузов (18-24 года), аспиранты и отставные военные (50 лет и старше). В ряду директоров школ и заместителей директоров среди участников программы (30%) учителя информатики составляют 42%. Социальный состав этой группы респондентов составляют женщины (92%) в возрасте 45-55 лет (80%) с 25 летним опытом педагогической работы.

Специальные знания в области вычислительных сетей, операционных систем и информационной безопасности оказались востребованы только у 3% респондентов. Доступ в Интернет имеют 72% респондентов. Доступ к электронным образовательным ресурсам (электронной периодике, наборам тестов, электронным учебникам, электронным библиотекам) имеют 85% участников образовательной программы. Доступ в Интернет у специалистов ИКТ Из респондентов, имеющих доступ к ЭОР, почти 75% используют их в своей ежедневной профессиональной деятельности (Рис. 4.5). Способность к эффективному управлению результатами деятельности у специалистов ИКТ выражена хорошо, так как 58% респондентов используют Интернет для общения или доступа к ресурсам (Рис. 4.4.).

Подводя итог вышесказанному, можно отметить, что несмотря на наличие технических возможностей, большинство респондентов не задействуют их максимально в процессе обучения, однако, очевидно существует группа респондентов, отвечающая в «инноваторском» ключе одновременно на рассматриваемые вопросы.

Для выделения различных сегментов использованы психографические переменные анкеты, связанные с оценкой респондентами по 4-хбалльной шкале различных высказываний. Эти высказывания определяют поведение респондентов, поэтому при дальнейшей сегментации возможно выделить учителей (инженеров) - инноваторов, т.е. учителей, согласных с высказываниями о пользе нововведений (конкретно использовании ИКТ) и о готовности к ним. Исходные 26 высказываний были сгруппированы с помощью метода главных факторов.

Пригодность исходных данных для проведения факторного анализа была проверена с помощью классических тестов - Бартлетта и теста Кайзера-Мейера-Олкина. Значимость теста Бартлетта составила менее 0,1% при пороге в 5%, а значение меры КМО оказалось близким к максимальному значению - единице (см. Таб. 4.2), что означает потенциальное наличие

Задача выделения пула учителей-инноваторов

В рамках Национального проекта «Образование» в 2006 г. по программе «Совершенствование системы повышения квалификации и профессиональной переподготовки педагогических, инженерно-технических кадров общеобразовательных школ в области информационных и коммуникационных технологий (ИКТ) и смежных областей» на базе выбранных пилотных регионов из 8-ми федеральных округов было проведено повышение квалификации 5500 работников системы школьного образования (см. состав выборки в таблице 4.1).

Была поставлена задача выявить по результатам обработки анкет участников программы данные для формирования пула тлі. учителей-инноваторов, готовых и способных применять ИКТ в учебном процессе с целью улучшения качества образовательного процесса. Учителям-инноваторам гарантировалась материальная поддержка в виде целевых грантов. Так как объём исследуемой выборки составлял более 4000 респондентов, а число переменных - вопросов анкеты составило почти 90, то для нахождения наиболее точного решения задачи требовалось провести специальный многофакторный статистический анализ.

Описательный (дескриптивный) анализ первичной информации выборки показал неоднородность респондентов, как в оснащённости преподавателей необходимыми техническими средствами, так и в применении ими ИКТ в учебном процессе, при наличии этих средств (см. рис. 4.1-4.5). Отсутствие необходимой квалификации, сказывается и на результатах использования ИКТ даже при общении с коллегами и учениками. Полученные результаты [51, 53, 55, 59] также позволяют сделать вывод и о распространённости наиболее мобильного ресурса - Интернет в преподавательской среде. Полученные данные рассматриваются и обсуждаются более подробно далее.

В выборке не участвовали учителя из Центрального федерального округа, такая ситуация связана со сроками обучения участников программы. Состав респондентов в выборке специалистов в области ИКТ - инженерно-технических работников выглядит неоднородным, что очевидно объясняется отсутствием за последние 7 лет программ повышения квалификации для такой категории работников учреждений образования (Рис. 4.1). (6%) присутствует только в штате школ городов федерального значения. По социальному составу - это студенты старших курсов технических вузов (18-24 года), аспиранты и отставные военные (50 лет и старше). В ряду директоров школ и заместителей директоров среди участников программы (30%) учителя информатики составляют 42%. Социальный состав этой группы респондентов составляют женщины (92%) в возрасте 45-55 лет (80%) с 25 летним опытом педагогической работы.

Специальные знания в области вычислительных сетей, операционных систем и информационной безопасности оказались востребованы только у 3% респондентов. Доступ в Интернет имеют 72% респондентов. Доступ к электронным образовательным ресурсам (электронной периодике, наборам тестов, электронным учебникам, электронным библиотекам) имеют 85% участников образовательной программы.

Рис. 4.3. Доступ в Интернет у специалистов ИКТ Из респондентов, имеющих доступ к ЭОР, почти 75% используют их в своей ежедневной профессиональной деятельности (Рис. 4.5). Способность к эффективному управлению результатами деятельности у специалистов ИКТ выражена хорошо, так как 58% респондентов используют Интернет для общения или доступа к ресурсам (Рис. 4.4.).

Подводя итог вышесказанному, можно отметить, что несмотря на наличие технических возможностей, большинство респондентов не задействуют их максимально в процессе обучения, однако, очевидно существует группа респондентов, отвечающая в «инноваторском» ключе одновременно на рассматриваемые вопросы.

Для выделения различных сегментов использованы психографические переменные анкеты, связанные с оценкой респондентами по 4-хбалльной шкале различных высказываний. Эти высказывания определяют поведение респондентов, поэтому при дальнейшей сегментации возможно выделить учителей (инженеров) - инноваторов, т.е. учителей, согласных с высказываниями о пользе нововведений (конкретно использовании ИКТ) и о готовности к ним. Исходные 26 высказываний были сгруппированы с помощью метода главных факторов.

Пригодность исходных данных для проведения факторного анализа была проверена с помощью классических тестов - Бартлетта и теста Кайзера-Мейера-Олкина. Значимость теста Бартлетта составила менее 0,1% при пороге в 5%, а значение меры КМО оказалось близким к максимальному значению - единице (см. Таб. 4.2), что означает потенциальное наличие

Похожие диссертации на Методы двухэтапной и многокритериальной кластеризации данных выборок больших объемов