Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Система интеллектуального анализа данных для прогнозирования успешности учебной деятельности Павлюк Александр Александрович

Система интеллектуального анализа данных для прогнозирования успешности учебной деятельности
<
Система интеллектуального анализа данных для прогнозирования успешности учебной деятельности Система интеллектуального анализа данных для прогнозирования успешности учебной деятельности Система интеллектуального анализа данных для прогнозирования успешности учебной деятельности Система интеллектуального анализа данных для прогнозирования успешности учебной деятельности Система интеллектуального анализа данных для прогнозирования успешности учебной деятельности Система интеллектуального анализа данных для прогнозирования успешности учебной деятельности Система интеллектуального анализа данных для прогнозирования успешности учебной деятельности Система интеллектуального анализа данных для прогнозирования успешности учебной деятельности Система интеллектуального анализа данных для прогнозирования успешности учебной деятельности
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Павлюк Александр Александрович. Система интеллектуального анализа данных для прогнозирования успешности учебной деятельности : Дис. ... канд. техн. наук : 05.13.01 : Красноярск, 2004 113 c. РГБ ОД, 61:05-5/1354

Содержание к диссертации

Введение

ГЛАВА I. Теоретические и методологические основы создания нейросетевых систем интеллектуального анализа данных

1.1. Методы интеллектуального анализа данных 9

1.2. Модели нейронных сетей 16

1.3. Структура нейронной сети 20

1.4. Функционирование нейрона 22

1.5. Функционирование нейронной сети 26

1.6. Алгоритм обратного распространения 29

1.7. Алгоритм генетического программирования 35

Выводы 47

ГЛАВА II. Прогнозирование значения среднего балла обучения в произвольном семестре

2.1. Постановка задачи 49

2.2. Инициализация и обучение нейросети 53

Выводы 64

ГЛАВА III. Прогнозирование дисциплинарных нарушений в процессе учебной деятельности

3.1. Решение задачи с помощью нейронной сети 66

3.2. Решение задачи с помощью генетического программирования 71

Выводы 75

ГЛАВА IV. Восстановление потерянной информации в исходных данных обучаемых

4.1. Постановка задачи 77

4.2. Алгоритм восстановления потерянных данных 78

Выводы 85

ГЛАВА V. Программный комплекс "Прогноз успешности обучения"

5.1. Методика прогнозирования успешности учебной деятельности 86

5.2. Программный комплекс 87

5.3. Формат файлов vib и dan 96

Выводы 100

Заключение 101

Литература 102

Введение к работе

В условиях возросших требований к уровню профессиональной компетентности особую значимость приобретает повышение эффективности обучения и подготовки учащихся. Профессионализм зависит не только от качества подготовки, но и от индивидуальных возможностей учащихся и специалистов, наличия у них необходимых профессионально важных характеристик личности.

Успешность учебной деятельности обучаемых в высших учебных заведениях важна, так как она предопределяет успешность последующей профессиональной деятельности. На сегодняшний день отсутствуют единые тестовые методики отбора и сопровождения обучаемых, не разработаны соответствующие унифицированные компьютерные программы.

Требуется новая методика системного анализа, позволяющая выносить решение об эффективности будущей учебной деятельности, удовлетворяющая следующим требованиям:

должна быть основана на современном математическом аппарате, позволяющем эффективно обрабатывать накопленную в процессе учебной деятельности информацию;

должна обеспечивать совместимость с существующими системами накопления и обработки информации, принятыми в высших учебных заведениях;

может быть использована как часть более сложной системы поддержки принятия решений, используемой в управлении учебно-образовательным процессом.

Получение прогноза успешности учебной деятельности обучаемых в высших учебных заведениях позволит оптимизировать систему этапного формирования кадров, более целенаправленно проводить профессионально-психологический отбор и сопровождение обучаемых.

Отсутствие современной унифицированной методики прогнозирования успешности обучения свидетельствует об актуальности и научно-практической значимости работы.

Целью диссертационной работы является разработка методики системного анализа психодиагностических данных, эффективно решающей задачу прогнозирования успешности учебной деятельности.

Для достижения указанной цели необходимо решить следующие задачи:

провести анализ моделей систем обработки информации;

выбрать модель, обеспечивающую эффективное решение задачи прогнозирования успешности учебной деятельности по результатам психодиагностического тестирования;

провести исследование выбранной модели;

программно реализовать и проверить на реальных данных модель прогнозирования;

разработать и реализовать методику прогнозирования успешности обучения.

Научная новизна диссертационной работы состоит в следующем:

  1. Разработана новая методика прогнозирования успешности учебной деятельности, основанная на методах интеллектуального анализа данных.

  2. Предложен модифицированный алгоритм генетического программирования, отличающийся от известных методом выбора точки скрещивания.

  3. Впервые предложен алгоритм, позволяющий заполнять пробелы в данных профессионально-психологического обследования и верифицировать имеющиеся данные.

Практическая ценность работы состоит в разработке методики прогнозирования успешности учебной деятельности по результатам психодиагностического тестирования, обеспечивающей возможность использования её широким кругом учебных заведений в целях повышения эффективности обучения и подготовки обучаемых.

Реализация результатов работы. Созданная в рамках диссертационной работы программная реализация методики прогнозирования успешности учебной деятельности успешно внедрена в учебный процесс Сибирского юридического института МВД России (г. Красноярск) и рекомендована к внедрению во все образовательные учреждения МВД России.

Разработанный программный продукт зарегистрирован Российским агентством по патентам и товарным знакам (№ гос. per. 2004610685).

Основные защищаемые положения:

  1. Построенная модель прогнозирования позволяет предсказать основные аспекты успешности учебной деятельности.

  2. Модифицированный метод генетического программирования позволяет прогнозировать дисциплинарные нарушения, возникающие в процессе учебной деятельности.

  3. Разработанный в работе алгоритм заполнения попусков позволяет эффективно решать задачи восстановления данных профессионально-психологического обследования.

Основное содержание работы:

В первой главе проведен обзор существующих систем интеллектуального анализа данных, приведена классификация на основании используемых ими методов и алгоритмов, указаны преимущества и недостатки каждого подхода. Определены основные требования к искомой системе интеллектуального анализа данных.

Произведен обоснованный выбор системы анализа данных в пользу нейросетей и алгоритмов генетического программирования, как максимально удовлетворяющих предъявленным к аналитическим системам требованиям.

Проведен обзор существующих моделей нейронных сетей. Для решения задачи прогнозирования успешности учебной деятельности выбрана сеть с обратным распространением ошибки. Рассмотрены структура и функционирование отдельного нейрона и нейронной сети в целом, общая схема обу-

чения сети. Рассмотрены основные составляющие алгоритма генетического программирования, указаны достоинства и недостатки каждой из них.

Во второй главе решается задача прогнозирования значения среднего балла за период обучения.

В третьей главе рассматривалась задача прогнозирования дисциплинарных нарушений в процессе учебной деятельности, которая особо актуальна в специализированных учебных заведениях МВД РФ, Минобороны и т.п.

В четвертой главе рассматривается задача восстановления потерянной информации в исходных данных.

В пятой главе предлагается методика прогнозирования успешности учебной деятельности учащихся и описывается программный комплекс, реализующий эту методику.

В заключении диссертации приведены основные результаты, полученные в ходе выполнения работы, и сформулированы выводы.

Рассмотрим используемую в работе литературу:

Рассвет эры компьютеров повлек за собой стремительное развитие интеллектуальных методов анализа информации. Теоретические основы были заложены в начале 40-х годов в работе Маккалоха и Питтса [38, 116].

Дальнейшее развитие нейрокибернетика получила в работах Розенбла-та [69, 124, 125], предложившего модель персептрона [41].

Параллельно с этим развитие получили другие методы обработки информации, в основе которых также лежала биологическая модель. В 1966 году Л. Фогель, А. Оуэне, М. Уолш предложили схему эволюции логических автоматов, решающих задачи прогноза [81]. В 1975 г. вышла основополагающая книга Дж. Холланда [103], в которой был предложен генетический алгоритм [9, 72,117].

Примерно в это же время группа немецких ученых (И. Рехенберг, Г.-П. Швефель и др.) начала разработку так называемой эволюционной стратегии

[123, 127]. Эти работы заложили основы прикладного эволюционного моделирования или эволюционных алгоритмов.

В нашей стране исследования по прикладному эволюционному моделированию, близкие к работам Л. Фогеля, были развиты в работах И.Л. Бу-катовой [7].

Очередной виток в развитии нейронных сетей связан с работами работами Амари [91], Андерсона [92], Карпентера [96], Кохена [97] и, в особенности, Хопфилда [79, 93, 104, 105, 106], а также под влиянием успехов оптических технологий [1, 39, 94].

Модель Хопфилда получила свое развитие в работах Д. Хинтона и Р. Земела и была названа машиной Больцмана [74, 87 - 90].

В 1974 Поль Дж. Вербос [23] предложил алгоритм сети с обратным распространением [31, 52, 78,95, 98, 107, 111 - 113, 121, 126, 129, 130].

В начале 80-х годов сформировалась отдельная наука - нейроинформа-тика [13, 100, 102, 128]. Регулярно проводятся конференции по данной тематике [44 - 51, 53].

В 1992 году Джон Р. Коза предложил алгоритм генетического программирования [109, ПО].

В начале 90-х множество методов обработки и анализа данных сформировали новое направление - Data Mining [25, 26, 33, 85, 108, 120, 122].

Основные алгоритмы обучения нейронных сетей изложены в [2, 3, 9, 10, 11, 16, 30, 34, 76, 78, 80, 99, 114, 118, 119].

Методика и результаты программной реализации нейронных сетей описаны в [12, 15, 32, 75, 77, 80, 101].

Широкое применение нейронные сети нашли в задачах распознавания изображений [6, 27, 36, 40, 55, 84, 86] и речи [115].

Нейронные сети позволяют получать новые знания из баз данных [5, 13,54,56,57,60,67,82,83].

Широкое применение нейронные сети получили в медицине [24, 42, 70].

Имеют место попытки использования нейросетей в сфере образования [19,22,59,61,62].

Методика психологического тестирования представлена в [8, 17, 18, 43, 64, 65, 68, 73, 77].

На основании проведенного анализа литературы можно сделать следующие выводы:

  1. Несмотря относительную новизну нейросетевых технологий, широко описаны структура и алгоритмы функционирования. Регулярно проводятся различные конференции по данной тематике.

  2. Программные продукты на основе нейросетевых технологий получают все более широкое распространение. В основном это программы распознавания изображений и анализа финансовой информации.

  3. У отечественных авторов не нашла отражения тема генетического программирования. В подавляющем большинстве этот метод описан зарубежными авторами.

  4. В сфере образования нейросетевые технологии не нашли широкого применения.

Автор выражает глубочайшую признательность доктору медицинских наук Горбач Наталье Андреевне за предоставленные статистические данные и ценные консультации.

Методы интеллектуального анализа данных

Современный уровень развития аппаратных и программных средств с недавних пор сделал возможным повсеместное внедрение баз данных оперативной информации на разных уровнях управления. В процессе своей деятельности ведомственные структуры, органы государственной власти и управления накопили большие объемы данных, требующие продуктивной переработки [108].

Специфика современных требований к такой переработке следующая: Данные имеют неограниченный объем Данные являются разнородными (количественными, качественными, текстовыми) Результаты должны быть конкретны и понятны Инструменты для обработки сырых данных должны быть просты в использовании Традиционная математическая статистика, долгое время считавшаяся основным инструментом анализа данных, не справилась с обработкой накопившихся данных. Главная причина - концепция усреднения по выборке, приводящая к операциям над фиктивными величинами. Методы математической статистики оказались полезными, главным образом, для проверки заранее сформулированных гипотез и для "грубого" разведочного анализа, составляющего основу оперативной аналитической обработки данных. Требовалась новая технология анализа данных, которой и стала технология Data Mining [67, 120, 122]. Data Mining можно перевести как "добыча данных". В целом технологию интеллектуального анализа данных (ИАД) достаточно точно определяет Григорий Пиатецкий-Шапиро — один из основателей этого направления: "ИАД — это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности" [26]. Принципиальное отличие ИАД от известных методов, используемых в существующих системах поддержки принятия решений, состоит в переходе от технологии оперативного анализа текущих ситуаций, характерной для традиционных систем обработки данных, к методам, опирающимся на аппарат современной математики. В основу современной технологии ИАД положена концепция паттернов, отражающих фрагменты многоаспектных взаимоотношений в данных. Эти шаблоны представляют собой закономерности, свойственные подвыбор-кам данных, которые могут быть выражены в понятной человеку форме. Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборки и виде распределений значений анализируемых показателей [22]. Основными задачами ИАД являются краткосрочный и долгосрочный прогноз развития ситуаций и комплексный системный анализ, включающий в себя обнаружение и идентификацию скрытых закономерностей, ранее неизвестных взаимосвязей, значимых факторов развития самого объекта анализа и среды, в которую он погружен, визуализацию полученных результатов, подготовку предварительных отчетов и проектов допустимых решений с оценками их достоверности и эффективности возможных реализаций. ИАД может иметь множество самых разнообразных практических приложений: в экономике, торговле, системах здравоохранения, страхования, в различных областях, связанных с контролем и прогнозированием состояния сложных динамических систем [26]. Однако наряду с очевидным прогрессом в области ИАД, практическая реализация данной технологии выявила и ряд новых проблем, связанных с особенностями реализации сложных алгоритмических комплексов. Математические методы, применяемые в задачах интеллектуального анализа данных: 1. Статистические методы Предварительный анализ природы статистических данных; Выявление связей и закономерностей; Многомерный статистический анализ; Динамические модели и прогноз. 2. Кибернетические методы Анализ и прогноз на основе нейронных сетей; Эволюционное программирование; Метод группового учета аргументов; Анализ и прогноз на основе генетических алгоритмов. 3. Оптимизационные методы Вариационные методы оптимизации; Математическое программирование; Динамическое программирование и принцип максимума; Методы систем массового обслуживания. 4. Экспертные методы Ассоциативные средства: метод "ближайшего соседа"; Метод последовательного логического вывода; Предметно-ориентированные системы; Методы представления и визуализации решений. Рассмотрим подробнее каждый из методов. 1. Статистические методы В качестве первого направления развития средств ИАД следует выделить мощный арсенал статистических методов обработки данных. Значимость этих методов для арсенала ИАД крайне велика - ведь именно в них наиболее последовательно отрабатывается мысль о принципиальной важности больших массивов ретроспективных данных для решения задачи обучения автоматизированных СППР [85]. Особое направление в спектре аналитических средств ИАД составляют методы, основанные на нечетких множествах. Применение теории нечетких множеств в системе ИАД позволяет ранжировать данные по степени близости к желаемым результатам, осуществлять, так называемый, нечеткий поиск в базах данных. Однако плата за повышенную универсальность всегда была достаточно велика и проявлялась в снижении уровня достоверности и точности получаемых результатов. Поэтому число специализированных приложений данной методологии, несмотря на повышенный интерес к ней со стороны математиков-прикладников по-прежнему весьма ограничено [26]. 2. Кибернетические методы Второе крупное направление развития связано с кибернетическими методами, основанными на идеях и принципах саморазвивающихся систем [1,76,78]. К этому направлению следует отнести методы нейронных сетей, эволюционного и генетического программирования.

Инициализация и обучение нейросети

В случае прогнозирования по реальным данным неизвестно, сколько эпох должно пройти до получения максимально возможной точности прогноза, поэтому было решено использовать нейронную сеть обратного распространения для поиска ответа на этот вопрос.

В качестве обучающей выборки для сети использовались результаты описанных экспериментов. В обучающую выборку не вошли результаты экспериментов, полученные при разбиении 600-73. Эти результаты использовались для тестирования обученной сети.

Необходимо было предсказать динамику изменения тестовой точности в зависимости от размера обучающей выборки и количества эпох, т.е. сеть должна иметь 2 входа и 1 выход. Общая выборка состояла из 726 записей по 3 параметра в каждой записи: размер выборки, количество эпох, тестовая точность.

Для получения данных об эффективности обучения сети, обучающая выборка разбивалась на 2 части. На одной части выборки проходило сети, на другой части обученная сеть тестировалась. Разбиение проходило в соотношении 650-76. Обучающая и тестовая выборки формировались из выбранных случайным образом записей, принадлежащих к общей выборке. Было проведено 50 экспериментов по обучению сети. Максимальное значение тестовой точности в процессе обучения составило 95,6%.

Проверка работоспособности сети проводилась на реальных данных: было предложено предсказание пика тестовой точности при обучении сети на выборке из 600 записей. Реальные данные в этом случае были следующие: пик тестовой точности в 90.62% достигался после прохождения 1400 эпох. Прогноз показал, что тестовая точность достигается после прохождения 1500 эпох и равна 89.45% . Реальная тестовая точность после прохождения 1500 эпох равна 90.47%. Таким образом точность прогноза составила 98,8%, что свидетельствует об эффективности обучения сети, предсказывающей тестовую точность (см. рис. 2.11.).

В результате проведенных экспериментов были получены данные, на основании которых можно сделать следующие выводы: 1. Проведенные эксперименты показали эффективность использования нейронной сети обратного распространения в задаче прогнозирования успешности учебной деятельности. 2. Для получения более точного прогноза необходимо использовать обучающую выборку с большим количеством записей. Можно предполо жить, что тестовая точность сети, обученной на выборке в 3000 записей по сле прохождения 8000 эпох, будет достигать 96%-97% или 0,17-0,2 балла по грешности. 3. Для получения предварительного прогноза достаточно обучить сеть на выборке, состоящей из 200 записей, в течение 400 эпох, что в зависи мости от вычислительной мощности компьютера занимает от 15 секунд до 2 минут. Точность в данном случае составит 88.54% или 0,5 балла. Кроме вынесения прогноза значения среднего балла за период обучения другой важной задачей является прогнозирование дисциплинарных нарушений, возникающих в процессе учебной деятельности. Данная задача особо актуальна для специализированных учебных заведений МВД РФ, Минобороны и т.п. Глава III. Прогнозирование дисциплинарных нарушений в процессе учебной деятельности 3.1 Решение задачи с помощью нейронной сети Для прогноза необходимо инициализировать и обучить нейронную сеть обратного распространения. В качестве обучающей выборки было предложено использовать результаты психодиагностического тестирования. Таким образом, каждая запись в обучающей выборке состояла из 22 параметров: 21 входной (результаты тестирования) и 1 выходной параметр (показатель дисциплинарных нарушений).

Возможные значения выходного параметра (виды взысканий за дисциплинарные нарушения): 1. отчисление 2. лишение нагрудного знака 3. снижение в специальном звании 4. понижение в должности 5. предупреждение о неполном служебном соответствии 6. строгий выговор 7. выговор 8. замечание 9. отсутствие дисциплинарных нарушений Трудность заключается в том, что, в отличие от среднего балла, дисциплинарные нарушения имеют около 15% обучаемых. В случае включения в выборку всех записей с отсутствием дисциплинарных взысканий, получим сеть, обученную находить значение, указывающее на отсутствие дисциплинарных взысканий. Для подтверждения этого проведем ряд экспериментов. Общая выборка состояла из 673 записей: 118 записей с различными дисциплинарными нарушениями и 32 записи без таковых. Для получения данных об эффективности обучения сети, обучающая выборка разбивалась на 2 части. На одной части выборки проходило обучение сети, на другой части обученная сеть тестировалась. Разбиение проходило в разных соотношениях с целью получения данных, показывающих отношение собственной и тестовой точности обучения сети в зависимости от размера обучающей выборки. Обучающая и тестовая выборки формировались из выбранных случайным образом записей, принадлежащих к общей выборке. Варианты разбиения: 400-273, 500-173, 600-73.

Обучение сети проводилось 30 раз. Критерием остановки служило количество эпох равное 4000. Значения собственной и тестовой точности рассчитывались по прошествии количества эпох кратного 500. Таким образом, в результате одного случая обучения сети было получено по 8 значений собственной и тестовой точности. Итоговым результатом на каждом этапе считался усредненный результат по всем обучениям. Тестовая точность рассчитывалась отдельно для записей, указывающих на наличие дисциплинарных нарушений (тестовая точность_СДН), и для записей, указывающих на отсутствие таковых (тестовая точность_БДН).

Решение задачи с помощью нейронной сети

Необходимо восстановить пропуски в исходных данных обучаемых. Для прогноза необходимо инициализировать и обучить нейронную сеть обратного распространения.

В качестве входных данных использовались те же данные, что и в задаче прогнозирования значения среднего балла обучения в произвольном семестре. Перечислим их: - «Анкета», с помощью которой определялась ориентация на профессиональную деятельность, состояние общего и нервно-психического здоровья на основе самооценок, а также выявлялись первичные большие факторы риска здоровью; - «Методика исследования особенностей мышления (МИОМ)», используется для выявления особенностей мышления с выделением значимости структурного элемента интеллекта для конкретной профессии с настройкой на региональные параметры; - «Индивидуально типологический опросник (ИТО)», применяется для выявления ведущих тенденций и сопряженного с ними когнитивного стиля, стиля межличностного поведения, реакции на стресс, с определением гармонической нормы, акцентуаций и дезадаптации; - «Многоуровневый личностный опросник (МЛО-адаптивность)», используется для определения адаптационного потенциала личности и его компонентов (поведенческой регуляции, коммуникативного потенциала, моральной нормативности). Обучающаяся выборка представлена в виде списка из 673 записей по 22 параметра в каждой записи (21 параметр является результатом психодиаг 78 ностического тестирования и один параметр - оценка за произвольный период обучения). В качестве выходных параметров использовались те данные, которые необходимо восстановить. В каждой записи могут быть потеряны данные в различных позициях и в разных количествах, т.е. входные и выходные параметры для этих записей будут отличаться (см. рис. 4.1), поэтому для вынесения прогноза нейронную сеть необходимо обучать каждый раз заново для каждой записи с потерянными данными (кроме случаев совпадения положения потерянных данных в записях). Предложен следующий алгоритм восстановления потерянных данных: 1. Записи, количество потерянных данных в которых в каждом тесте не превышает 25%, переносятся в список восстановления. Каждой записи присваивается порядковый номер. 2. Проводится проверка, обучалась ли сеть находить потерянные данные в требуемых позициях, с целью исключения повторного обучения. 3. Проводится обучение нейронной сети на обучающей выборке, состоящей из данных без пропусков. 4. Обученная нейронная сеть генерирует пропущенные данные, которые затем заносятся на соответствующие позиции. На шаге 3 реализована циклическая процедура, в каждом цикле которой сеть обучается находить данные, пропущенные в записи, номер которой соответствует номеру цикла, на соответствующих позициях. Т.о. сеть находит данные, являющиеся результатами психодиагностического тестирования. Данные по прогнозированию сетью одного параметра уже приводились в главе 1, поэтому данный эксперимент заново проводиться не будет. Для получения данных об эффективности нахождения сетью потерянных данных, проведем следующие эксперименты. 1. Проверим работу сети по нахождению двух «условно потерянных» параметров. 2. Проверим работу сети по нахождению трех «условно потерянных» параметров. Для определения количества эпох, по прохождению которых достигается пик тестовой точности, необходимо иметь преставление о динамике изменения обучающей и тестовой точности, поэтому остановимся на следующих вариантах разбиения: 100 и 573, 150 и 523, 200 и 473, 250 и 423, 300 и 373, 350 и 323, 400 и 273, 450 и 223, 500 и 173, 550 и 123, 600 и 73. Обучающая и тестовая выборки формировались из выбранных случайным образом записей, принадлежащих к общей выборке. В каждом варианте разбиения обучение сети проводилось 30 раз. Критерием остановки служило количество эпох равное 7000. Значения собственной и тестовой точности рассчитывались по прошествии количества эпох кратным 100. Таким образом, в результате одного случая обучения сети было получено по 70 значений собственной и тестовой точности. Итоговым результатом на каждом этапе считался усредненный результат по всем обучениям. Обучающая и тестовая выборки формировались из выбранных случайным образом записей, принадлежащих к общей выборке.

Алгоритм восстановления потерянных данных

Максимальное значение тестовой точности в процессе обучения составило: 1. Для задачи нахождения двух условно потерянных параметров 96.3% . 2. Для задачи нахождения трех условно потерянных параметров 95.5%. Была проведена проверка сети на реальных данных. Было предложено предсказать пик тестовой точности в случае нахождения трех условно потерянных параметров на выборке из 600 записей. Реальные данные в этом случае были следующие: пик тестовой точности в 80.59% достигался после прохождения 1900 эпох. Прогноз показал, что тестовая точность достигается после прохождения 2000 эпох и равна 81.68%о . Реальная тестовая точность -после прохождения 2000 эпох равна 80.41%). Таким образом, точность прогноза составила 98,4% , что свидетельствует об эффективности обучения сети, предсказывающей тестовую точность. Выводы Основываясь на полученных данных, можно сделать вывод, что для восстановления 2-х параметров нужна выборка примерно из 7000 записей, точность в точке пересечения будет примерно 93% после прохождения 11000 эпох. Для восстановления 3-х записей необходима выборка примерно из 11000 записей, точность в точке пересечения будет примерно 93%) после прохождения 17000 эпох. Восстановление большего количества данных возможно только при выборке минимум в 20000 записей. Для внедрения разработанных алгоритмов необходима их программная реализация, поэтому необходимость следующей главы очевидна. Глава V. Программный комплекс "Прогноз успешности обучения" Предлагается методика прогнозирования успешности учебной деятельности учащихся и описывается программный комплекс, реализующий эту методику Методика прогнозирования успешности учебной деятельности Разработанные в гл.2-4 алгоритмы необходимо объединить в единую методику прогнозирования. Методика прогнозирования успешности учебной деятельности имеет следующий вид: 1. Полученные с помощью психодиагностического комплекса данные проверяются на целостность. В случае, когда истинность имеющейся информации вызывает сомнения, используется алгоритм восстановления потерянных данных, позволяющий с достаточной точностью обеспечить проверку имеющихся данных. 2. В записях, количество пропущенных параметров в которых не препятствует восстановлению, проводится восстановление данных с помощью нейронной сети, обученной ранее по данным за предыдущие периоды. В этом случае используется алгоритм восстановления потерянных данных. 3. Восстановленные записи добавляются в выборку для последующего использования. В случае множественного внедрения методики прогнозирование успешности учебной деятельности, возможен обмен накопленной информацией между ВУЗами с целью повышения эффективности прогноза успешности учебной деятельности.. 4. С помощью ранее обученной нейронной сети прогнозируются значения средних баллов за требуемый период обучения. В случае наличия соответствующей выборки, возможно вынесение прогноза по всем семестрам. 5. С помощью ранее настроенного алгоритма генетического программирования прогнозируются возможные дисциплинарные нарушения. В слу 87 чае, когда имеется обучающая выборка большого объема, более целесообразно использовать нейронную сеть. 6. Полученные прогнозы передаются в приемную комиссию для принятия решения, либо в другой, контролирующий учебный процесс, орган. 5.2 Программный комплекс Далее в главе описывается программный комплекс, включающий разработанные в диссертации алгоритмы и реализующий предложенную методику прогнозирования успешности обучения. Программный комплекс состоит из 3-х программ: 1. Программа «Прогноз успешности учебной деятельности» 2. Программа «Prognoz_util» 3. Программа «Prognoz_ispr» Рассмотрим каждую из них. Программа «Прогноз успешности учебной деятельности» Программный продукт «Прогноз успешности учебной деятельности» предназначен для вынесения прогноза средней оценки за произвольный период обучения и дисциплинарных нарушений. Также, с помощью данной программы возможно произвести восстановления потерянной информации с достаточной точностью. В данном программном продукте реализована нейронная сеть, обучающуюся по алгоритму обратного распространения.

Похожие диссертации на Система интеллектуального анализа данных для прогнозирования успешности учебной деятельности