Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Модели и алгоритмы интеллектуального анализа образовательных данных для поддержки принятия решений Хлопотов Максим Валерьевич

Модели и алгоритмы интеллектуального анализа образовательных данных для поддержки принятия решений
<
Модели и алгоритмы интеллектуального анализа образовательных данных для поддержки принятия решений Модели и алгоритмы интеллектуального анализа образовательных данных для поддержки принятия решений Модели и алгоритмы интеллектуального анализа образовательных данных для поддержки принятия решений Модели и алгоритмы интеллектуального анализа образовательных данных для поддержки принятия решений Модели и алгоритмы интеллектуального анализа образовательных данных для поддержки принятия решений Модели и алгоритмы интеллектуального анализа образовательных данных для поддержки принятия решений Модели и алгоритмы интеллектуального анализа образовательных данных для поддержки принятия решений Модели и алгоритмы интеллектуального анализа образовательных данных для поддержки принятия решений Модели и алгоритмы интеллектуального анализа образовательных данных для поддержки принятия решений Модели и алгоритмы интеллектуального анализа образовательных данных для поддержки принятия решений Модели и алгоритмы интеллектуального анализа образовательных данных для поддержки принятия решений Модели и алгоритмы интеллектуального анализа образовательных данных для поддержки принятия решений
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Хлопотов Максим Валерьевич. Модели и алгоритмы интеллектуального анализа образовательных данных для поддержки принятия решений: диссертация ... кандидата технических наук: 05.13.06 / Хлопотов Максим Валерьевич;[Место защиты: Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики»].- Санкт-Петербург, 2014.- 127 с.

Содержание к диссертации

Введение

1 Теоретические основы интеллектуального анализа образовательных данных 9

1.1 Определение интеллектуального анализа образовательных данных 10

1.2 Цели, задачи и методы интеллектуального анализа образовательных данных 12

1.3 Процесс применения интеллектуального анализа образовательных данных 19

1.4 Образовательные данные 21

1.5 Предобработка образовательных данных 23

1.6 Формально-структурная модель процесса обучения 26

1.7 Выводы 34

2 Модели и алгоритмы интеллектуального анализа образовательных данных 36

2.1 Построение моделей обучающихся 37

2.2 Байесовская сеть для построения моделей обучающихся 40

2.3 Оценка уровня сформированности компетенции 52

2.4 Прогнозирование академической успеваемости студентов 82

2.5 Выводы 87

3 Экспериментальное опробование 89

3.1 Построение компетентностной модели направления подготовки 89

3.2 Диагностика уровня сформированности компетенций 103

3.3 Выводы 112

Заключение 114

Список литературы 117

Цели, задачи и методы интеллектуального анализа образовательных данных

Интеллектуальный анализ образовательных данных (далее – ИАОД) это развивающаяся дисциплина, в рамках которой применяются вычислительные и педагогические методы и подходы для понимания того, как обучающиеся учатся и в каких условиях они это делают [37]. При этом к образовательным данным относятся не только различные виды взаимодействий обучающихся с педагогическими программными системами, но также и административные данные, демографические данные, данные о личностных качествах и данные о взаимодействии обучающихся между собой [87].

Интеллектуальный анализ образовательных данных – сравнительно новое направление исследований. В 2008 году группа ученых впервые провела конференцию по EDM в канадском Монреале. С тех пор конференция стала ежегодной. Конференции проводились в США, Испании, Греции. В 2014 году состоялась уже седьмая конференция, на этот раз в Institute of Education (Лондон, Великобритания)1. С 2010 года издается журнал «Educational data mining»2. С октября по декабрь 2013 года на сайте Coursera Райан Бейкер (Ryan Baker), профессор Колумбийского университета, являющийся одним из ведущих ученых в области EDM, провел курс под названием «Big Data in Eduation»3. Основное содержание этого курса посвящено вопросам использования методов математической статистики, машинного обучения и интеллектуального анализа данных в образовании.

Актуальным становится вопрос активизации изучения EDM и применения результатов научных исследований в этом направлении для решения проблем принятия решений в сфере образования России.

ИАОД может быть применен для оценки успеваемости, для индивидуализации образовательного маршрута студентов, для обеспечения обратной связи и формирования рекомендаций, для оценки учебных материалов и учебных курсов, для обнаружения проблем и отклонений в поведении обучающихся, для более глубокого понимания сути образовательного процесса [60].

Приведем несколько типичных примеров применения ИАОД. В статье [36] описано применение алгоритма кластеризации k-means для предсказания учебной деятельности обучающихся. Автор статьи [83] применяет алгоритмы машинного обучения для поиска студентов, которые с наибольшей вероятностью будут отчислены в течение первого года обучения. Авторы статьи [84] используют алгоритмы интеллектуального анализа данных для профилирования и группировки студентов, основываясь на их академической успеваемости.

Первая глава посвящена теоретическим основам интеллектуального анализа образовательных данных. В параграфе 1.1 дано определение ИАОД и описаны области, относящиеся к ИАОД. В параграфе 1.2 описаны задачи, которые могут быть решены с помощью ИАОД и методы, с помощью которых эти задачи решаются. В параграфе 1.3 описываются процесс применения ИАОД (а также сами данные). Параграф 1.4 посвящен образовательным данным, их типам и источникам. Параграф 1.5 важнейшему этапу в процессе ИАОД: предобработке образовательных данных. В параграфе 1.6 описывается модель учебного процесса, как основа интеллектуального анализа образовательных данных. В выводах по главе формулируются задачи, которые будут решаться при помощи ИАОД в настоящем исследовании.

Термин educational data mining на русский язык может быть переведен как интеллектуальный анализ образовательных данных. В англоязычной литературе известны несколько определений EDM. В частности, один из ведущих исследователей в этой области дал следующее определение EDM – это научная дисциплина, связанная с разработкой методов для исследования уникальных видов данных, которые поступают из образовательного окружения, и использование этих методов для улучшения понимания студентов и окружения, в котором они обучаются [37]. Однако, в этом определении не находит отражение собственно data mining, т.е. интеллектуальный анализ данных. Авторы статьи [44] уточняют определение: «EDM – это и педагогическая наука, и обширная сфера применения для интеллектуального анализа данных, за счет растущей доступности образовательных данных. EDM дает возможность осуществлять основанное на данных принятие решений для улучшения текущей образовательной практики и обучающих материалов».

Подобным же образом определяют EDM авторы статей [92, 93]. По их мнению, EDM – это применение методик интеллектуального анализа данных для специфических наборов данных, которые получают из образовательных сред и применяют для решения важных образовательных вопросов.

Различаясь в некоторых деталях, все эти определения сходятся в одном: EDM – это извлечение знаний из данных образовательного процесса с целью его улучшения.

Вообще термин data mining (интеллектуальный анализ данных) подразумевает выявление новых, нетривиальных и практически полезных знаний, необходимых для принятия решений в различных областях деятельности [10]. EDM – это направление в рамках интеллектуального анализа данных.

Учитывая сказанное выше, дадим определение. Интеллектуальный анализ образовательных данных – это совокупность методов обнаружения в данных ранее неизвестных, практически полезных и интерпретируемых знаний об образовательном процессе и его участниках с целью поддержки принятия решений.

В основе ИАОД лежат компьютерные технологии, дидактика и математическая статистика. Как междисциплинарная область, ИАОД использует методики из статистики, машинного обучения, анализа данных, информационного поиска, рекомендательных систем, когнитивной психологии. Выбор того, какой метод применить, зависит от решаемого вопроса [93].

Формально-структурная модель процесса обучения

На основе первичной информации происходит анализ данных. В частности по результатам тестирования, анкетирования, выполнения компетентностно-ориентированных заданий (далее - КОЗ) и другим образовательным данным может быть дана оценка сформированности профессиональной компетенции.

Система обучения осуществляет информационное взаимодействие с окружающим внешним миром при получении данных, необходимых для реализации целей обучения, а также в процессе передачи во внешнюю среду сведений о текущем состоянии и результатах ее функционирования [21].

Для организации обмена информацией с внешней средой используются два входных канала Z (целеполагание) и / (предмет изучения), а также два выходных канала Q (контроль внешних экспертов) и Y (отчетность).

По выходным каналам поступают данные, необходимые для оценки качества процесса обучения. По входным каналам поступают данные необходимые для создания учебных планов и для установления начального уровня сформированности компетенций Cs(t0) у объекта .

Отметим, что цели обучения достигаются путем периодического повторения действий (цикл функционирования системы обучения). Фазы в цикле функционирования связаны причинно-следственными отношениями. Результирующая информация предыдущей фазы используется в качестве входной на последующих фазах. Выделяют следующие фазы функционирования: нормирование, планирование, прогнозирование, научение, диагностика, контроль, регулирование [21].

Начальный этап - нормирование. Входная информация на этом этапе - это целевые установки, поступающие извне, прежде всего федеральный государственный образовательный стандарт высшего профессионального образования (ФГОС ВПО). На этом этапе строится компетентностная модель и происходит установление объема учебного материала, подлежащего усвоению.

Выходные данные того этапа – компетентностная модель, основная образовательная программа и учебный план. Следующим этапом является планирование. В качестве входной информации на этом этапе выступает основная образовательная программа. Также может быть использована дополнительная информация: результаты анализа предыдущих реализаций цикла функционирования и результаты прогнозирования. На этом этапе происходит выбор ресурсного, методического, организационного обеспечения учебного процесса; а также оценка имеющихся трудовых ресурсов, составление графика учебного процесса, планирование бюджета и т.п. На выходе в этой фазе получают: рабочие учебные программы дисциплин, списки источников информации и учебно-методические материалы.

По итогам фазы планирования проводится фаза прогнозирования. Прогнозирование предполагает разработку вероятных суждений о состоянии объектов обучения в будущем. В частности, в рамках этой фазы происходит предсказание того, какими наборами компетенций будут обладать выпускники при успешном освоении основных образовательных программ, будут ли они успешны на рынке труда, будут ли они востребованы. Фактически на фазе прогнозирования строится эталонная компетентностная модель выпускника, которая в каждой точке может быть сопоставлена с его текущей моделью.

На фазе организации происходит фактическое выделение ресурсов для осуществления учебного процесса.

На фазе научения осуществляются информационные процессы передачи и закрепления знаний, умений, навыков от преподавателей (или иных источников) к обучающимся. На этой фазе происходит формирование и пополнение модели знаний обучающегося на основании имеющейся модели знаний о предметной области.

После фазы научения идет фаза учета (диагностики). На этой фазе происходит выявление фактического уровня сформированности компетенций студентов. Диагностирование чаще всего принимает следующую форму: выявление и фиксация различий между двумя моделями (эталонной и текущей). В качестве входной информации используются эталонная компетентностная модель и проверочные задания (в форме КОЗ), которые стимулируют демонстрацию компетенций. Выходные данные этой фазы – ответы обучающегося на задания.

Затем осуществляется переход на фазу контроля, на которой выявляется степень различия текущей и эталонной моделей и дается оценка. На вход подаются результаты диагностирования и оценочная шкала (критерии оценки). Выходом является сама оценка (количественная и качественная). Оценки носят субъективный и вероятностный (из-за ограниченного набора проверочных заданий) характер. Истинная оценка сформированности компетенций с определенной доверительной вероятностью будет лежать в некотором интервале.

Наконец, на фазе регулирования вырабатываются мероприятия по устранению выявленных пробелов в знаниях. Входными данными для этой фазы являются результаты анализа характера выявленных пробелов в знаниях обучающихся. Выходом – рекомендации по организации мероприятий, направленных на скорейшее достижение обучающимися требуемого уровня сформированности компетенций.

В связи с этим определим процесс обучения как осуществляемый с целью формирования определенного заранее уровня компетенций объектов обучения процесс функционирования системы обучения .

Байесовская сеть для построения моделей обучающихся

Самый простой алгоритм вероятностного вывода в байесовских сетях – вывод методом «грубой силы» (полный перебор). Метод заключается в маргинализации полного совместного распределения. Для сети, состоящей из небольшого количества узлов, которые могут принимать небольшое количество значений, метод грубой силы сработает. Но, для построения компетентностных моделей, потребуется построить сеть, состоящую из сотен переменных. Например, необходимо сделать вероятностный вывод в байесовской сети, состоящей из 100 переменных, каждая из которых может принимать 2 значения. Для этого потребуется просуммировать 299 возможных значений. Естественно, необходим более эффективный с вычислительной точки зрения алгоритм.

Для вероятностного вывода в байесовской сети в настоящей работе применяется алгоритм передачи сообщений, предложенный в [86]. Другое название – алгоритм распространения доверия. Суть алгоритма заключается в следующем. Для байесовской сети в виде дерева работа алгоритма начинается с листьев. Совершается обход всех вершин, и вычисляются сообщения. Работа алгоритма заканчивается за количество шагов, равное диаметру графа

Рассмотрим несколько ситуаций, связанных с получением разных свидетельств. Свидетельство может быть по каким-то причинам вообще не получено, т.е. не имеется данных относительно результатов выполнения задания. Такая ситуация возникает, например, в случаях, если задание еще не было выдано или студент по уважительной причине пропустил срок сдачи задания. Остановимся на наиболее показательных случаях.

Эта особенность позволяет делать прогнозы относительно того, сможет ли студент выполнить задание. Например, сделав следующий запрос можно получить оценку для вероятности выполнения студентом задания a3, при условии, что задание a1 и a2 им уже выполнены на оценки 5 и 4 соответственно.

Про такого студента с вероятностью более 99% можно сказать, что у него не сформирована компетенция.

В Примере 2 была рассмотрена структура, в которой переменная в вершине A может принимать одно из четырех значений в соответствии с возможными уровнями сформированности компетенции. Переменные в каждой из вершин a1, a2, a3 могут принимать одно из 5 значений в соответствии с оценкой, полученной за выполнение задания. Так как вершины a1, a2, a3 имеют одного родителя, то приходится задавать 4 5=20 значений для априорных условных вероятностей, как это было сделано в таблицах 2.1-2.3. Для одного направления подготовки возможны тысячи вершин с результатами выполнения КОЗ. Задавать для каждой из тысяч вершин CPT из 20 значений представляется не эффективным.

Здесь между разными уровнями одной и той же простой компетенции установлена условная связь. Вершины AL3, AL2, AL1 – соответствуют 3, 2 и 1 уровням сформированности компетенции. При этом корневой узел AL3 задает требуемый уровень сформированности компетенции. Байесовская сеть с такой структурой предназначена для ответа на вопрос: «с какой вероятностью компетенция сформирована на требуемом уровне?». В то время как, сеть на рисунке 2.10 отвечает на вопрос: «с какой вероятностью компетенция сформирована на всех возможных уровнях?». Для оценки результатов выполнения КОЗ достаточно использование бинарной шкалы со значениями «выполнено» или «не выполнено».

Таким образом, несмотря на то, что количество узлов в сети увеличивается, при этом вероятностный вывод в такой сети более эффективен и в большей степени отвечает задаче оценки уровня сформированности компетенции. При таком подходе CPT для вершин с одним родителем содержит всего 4 значения.

Экспертные оценки в такой структуре формулируются гораздо яснее. К тому же такая структура лучше подходит для процедуры автоматического обучения параметров байесовской сети.

В таблице 2.4 представлены экспертные оценки с учетом вероятности промаха и отгадки для КОЗ, проверяющих компетенции трех уровнях.

В Примере 2 для обучения сети параметры подбирались экспертно. Однако значения этих параметров можно получить, используя принципиально иной подход – использование одного из методов автоматического обучения по имеющимся статистическим данным. В настоящем исследовании такими данными являются результаты выполненных заданий, а также экспертные оценки обладания компетенциями для конкретных студентов.

Для автоматического обучения параметров байесовской сети применяется следующий подход. Подготавливается набор данных, который содержит следующие характеристики студентов: идентификационный номер, результаты выполненных заданий, оценка сформированности компетенций. Подготовленный набор данных не должен содержать пропусков.

Группа экспертов из числа преподавателей осуществляет экспертную оценку уровня сформированности простых и составных компетенций для каждого студента из экспериментальной группы. Выполнение заданий контролирует и оценивает преподаватель по соответствующей дисциплине.

В дальнейшем случайным образом происходит разбиение подготовленного набора данных на две части, которые называют обучающая и тестовая. По обучающей выборке проводится обучение параметров байесовской сети.

Структуру сети при этом обучать не требуется, так как эта структура задается рабочими программами дисциплин. Затем по тестовой выборке проверяется точность оценки уровня сформированности компетенций.

Если в результате работы сети на обучающей выборке студентов достигнута высокая точность, то эти параметры могут быть использовать в качестве априорных оценок для апостериорного оценивания условных вероятностей переменных сети.

По указанной процедуре было проведено тестирование 79 студентов из 5 студенческих групп. Им были выданы 11 заданий, проверяющих 4 сформированность компетенций.

В 39 из 40 (97,5%) случаях оценки уровня сформированности компетенций совпали с выставленными независимо оценками группы экспертов. Таким образом, проверка показала хорошую диагностическую точность модели.

Обучить параметры байесовской сети можно только в том случае, когда есть необходимые данные. При этом в данных имеется достаточное количество наблюдений. Малая обучающая выборка с большим количеством параметров с большой вероятностью приведёт к переобучению модели.

Однако такие данные не всегда имеются. Поэтому в некоторых случаях мы вынуждены применять экспертные оценки для обучения параметров сети.

В настоящем исследовании было проведено имитационное тестирование, в котором сравнивалась работа байесовской сети с параметрами, полученными в результате процедуры обучения, и байесовской сети с параметрами, заданными экспертами. Сети при этом имели одинаковую структуру.

Были сгенерированы свидетельства для 1000 наблюдений, имитирующих результаты выполнения заданий студентами. В 983 случаях из 1000 байесовские сети показали одинаковые результаты.

Диагностика уровня сформированности компетенций

Работы выполнялись средствами языка программирования R, предназначенного для статистической обработки данных. При этом студентам ставилось обязательное условие, при котором они могут совместно обсуждать выполнение задания, но не могут делиться фрагментами кода.

Обратная связь со студентами была организована в виде проведения ряда консультаций и электронного класса на базе веб-сервиса Piazza5. На этом же ресурсе размещались все необходимые для выполнения задания учебные материалы. Частью электронного класса является форум (Q & A), на котором студенты могут общаться друг с другом и задавать вопросы преподавателю. Веб-сервис Piazza ведет статистику пользователей. В частности, учитываются такие показатели активности, как просмотренные темы, дни на форуме, количество сообщений и т.п.

Итоговый контроль осуществлялся в форме защиты студентами отчета, подготовленного по результатам выполнения заданий. Отчеты и код сдавались предварительно через веб-сервис Piazza. Задания оценивались по шкале «выполнено» или «не выполнено». Критерии выполнения заданий определяются преподавателями и фиксируются в приложении к рабочей программе дисциплины.

По окончанию выполнения работы студент загружал отчет и программный код в электронный класс с пометкой «Private», которая означает, что работу студента могут видеть только инструкторы класса. Все файлы с программным кодом были проверены на детекторе плагиата. Это позволило снизить вероятность отгадки (ситуация, когда у студента компетенция не сформирована, но при этом задание он выполняет правильно) почти до нуля.

В основе детектора плагиата лежит подход токенизации, то есть каждый файл с программным кодом транслируется в последовательность токенов (лексем), по которым в дальнейшем ищутся совпадения [71, 95]. Результатами работы детектора является процент совпадения двух работ, рассчитываемый по коэффициентам Жаккара [82] и Баруа-Маханты [40]. Интерпретация результатов

Для оценки сформированности компетенции использовались апостериорные вероятности в соответствии с алгоритмом 3. В сеть поступали свидетельства с результатами выполнения заданий. Также в качестве свидетельства в протокол оценки сформированности компетенции поступает значение вершины S.

По итогам осуществлялась экспертная оценка сформированности простых компетенций. При оценке не считались вероятности для составных компетенций ФГОС ВПО. Для более строгого вывода об оценке их сформированности необходимо использовать основную компетентностную модель, которая содержит полные декомпозиции составных компетенций. В то время как в компетентностной модели дисциплины представлено лишь подмножество составляющих элементов компетенций.

Полученные результаты были использованы для обучения параметров байесовской сети. В связи с малым объемом выборки применялась процедура эмпирического оценивания обобщающей способности алгоритмов методом скользящего контроля (кросс-валидация) [42].

На втором этапе обученная сеть применялась для оценки сформированности компетенций у 79 студентов.

Для оценки успеваемости студента по дисциплине используется балльно-рейтинговая система (БаРС). Представленная на рисунке 3.3 байесовская сеть может быть использована для вероятностного вывода в вершине D. Результат этого запроса – апостериорная вероятность успеваемости студента по дисциплине с учетом полученных свидетельств, т.е. результатов выполнения задания.

Обозначим ZD – множество всех заданий по дисциплине D. Тогда вероятность успеваемости обозначим p(DZD).

Таким образом, проблема верификации результатов применения байесовской сети решена за счет применения процедуры обучения сети, которая обеспечивает высокую точность на тестовом множестве. Дополнительное сравнение с принятым инструментом оценивания противоречий не выявило, тем самым подтверждена применимость байесовской сети для оценки сформированности компетенций.

В главе описан модифицированный алгоритм прогноза академической успеваемости студентов на основе сравнения эталонных и текущих моделей в контрольных точках.

Предложена методика построения и применения компетентностной модели направления подготовки. Разработанная методика позволяет создавать рабочие программы дисциплин, с учетом деления содержания образовательной программы по результатам обучения в форме компетенций.

Методика устраняет разрыв между строго предметным структурированием оценочных средств, которое не в полной мере соответствует компетентностной модели построения основной образовательной программы, и деятельностным структурированием.

В главе описаны два эксперимента, проведённых с целью проверки алгоритмов, предложенных в параграфах 2.3 и 2.4. Экспериментальное опробование показало, что разработанные алгоритмы, метод и методика пригодны для построения компетентностной модели дисциплины и направления подготовки.

Построенные по методике модели позволяют делать обоснованные суждения относительно уровня сфомированности компетенций у студентов, а также прогнозировать успеваемость студентов. Тем самым с помощью методов интеллектуального анализа образовательных данных решаются задачи поддержки принятия решений.

Похожие диссертации на Модели и алгоритмы интеллектуального анализа образовательных данных для поддержки принятия решений