Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Методы агрегирования и анализа данных в системах электронного обучения с использованием семантических технологий Козлов Федор Алексеевич

Методы агрегирования и анализа данных в системах электронного обучения с использованием семантических технологий
<
Методы агрегирования и анализа данных в системах электронного обучения с использованием семантических технологий Методы агрегирования и анализа данных в системах электронного обучения с использованием семантических технологий Методы агрегирования и анализа данных в системах электронного обучения с использованием семантических технологий Методы агрегирования и анализа данных в системах электронного обучения с использованием семантических технологий Методы агрегирования и анализа данных в системах электронного обучения с использованием семантических технологий Методы агрегирования и анализа данных в системах электронного обучения с использованием семантических технологий Методы агрегирования и анализа данных в системах электронного обучения с использованием семантических технологий Методы агрегирования и анализа данных в системах электронного обучения с использованием семантических технологий Методы агрегирования и анализа данных в системах электронного обучения с использованием семантических технологий Методы агрегирования и анализа данных в системах электронного обучения с использованием семантических технологий Методы агрегирования и анализа данных в системах электронного обучения с использованием семантических технологий Методы агрегирования и анализа данных в системах электронного обучения с использованием семантических технологий Методы агрегирования и анализа данных в системах электронного обучения с использованием семантических технологий Методы агрегирования и анализа данных в системах электронного обучения с использованием семантических технологий Методы агрегирования и анализа данных в системах электронного обучения с использованием семантических технологий
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Козлов Федор Алексеевич. Методы агрегирования и анализа данных в системах электронного обучения с использованием семантических технологий : диссертация ... кандидата технических наук: 05.13.06 / Козлов Федор Алексеевич;[Место защиты: Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики»].- Санкт-Петербург, 2015.- 121 с.

Содержание к диссертации

Введение

1 Использование семантических технологий и распределенных систем в образовательном процессе 9

1.1 Характеристики и задачи распределенных систем 9

1.2 Классификация систем электронного обучения и их развитие в России и за рубежом 11

1.3 Онтологии, экспертные системы, базы знаний и семантические сети 19

1.4 Основные стандарты, протоколы и форматы хранения данных в семантических технологиях 23

1.5 Принципы публикации данных в формате Linked Data 28

1.6 Мировые тренды применения онтологий и семантических технологий в образовательном процессе 33

2 Разработка комплексной онтологической модели 41

2.1 Модель взаимодействия объектов системы электронного обучения 41

2.2 Онтология учебных материалов 45

2.3 Онтология тестов 49

2.4 Онтология действий студента в системе электронного обучения 50

2.5 Онтология оценки знаний студента 52

3 Разработка методов автоматизированного агрегирования и анализа образовательных ресурсов в системах электронного обучения 54

3.1 Методика автоматизированного агрегирования образовательных ресурсов в системах электронного обучения 54

3.2 Метод преобразования структурированных учебных материалов в семантический формат 56

3.3 Использование алгоритмов обработки естественного языка для создания связей в онтологиях 58

3.4 Метод анализа и оценки полноты и сбалансированности курсов в системах электронного обучения 62

3.5 Метод индивидуального оперативного мониторинга процесса изучения студентом предметной области в системах электронного обучения 65

4 Разработка программных модулей системы электронного обучения и результаты экспериментов 68

4.1 Архитектура системы электронного обучения на основе онтологий 68

4.2 Описание пользовательских интерфейсов разработанной системы электронного обучения 71

4.3 Метод преобразования онтологий системы электронного обучения в формат SCORM 72

4.4 Результаты применения методики агрегации данных в системе электронного обучения 76

4.5 Результаты применения методов анализа на учебных курсах и группах студентов 78

Заключение 87

Список литературы

Введение к работе

Актуальность темы исследования.

Современное электронное обучение (ЭО), включая системы на основе технологии МООС (Massive Open Online Courses), характеризуется высокими темпами появления новых образовательных ресурсов и большим объемом образовательных данных. При этом каждый новый электронный курс, как правило, существует изолированно, а его авторы создают все необходимые для его изучения ресурсы. Повторное использование уже существующих материалов ЭО на практике происходит крайне редко. Это неизбежно приводит к значительному дублированию информации и затрудняет анализ как самих курсов, так и результатов ЭО. Одной из причин этих трудностей является отсутствие формализованных связей между электронными курсами и описаниями предметных областей. Существующие системы ЭО предоставляют данные о просмотре определенных образовательных ресурсов и о фактах выполнения виртуальных лабораторных и практических работ, а не о комплексном изучении той или иной предметной области. Также в части оценки результатов обучения, как правило, системы ЭО позволяют получить информацию только об изучении определенного электронного курса в целом, без детализации на уровне понятий предметной области.

Автоматизация процессов поддержания актуальности контента, также является нерешенной проблемой в системах ЭО. Учебные материалы неизбежно устаревают и требуют периодического обновления. В условиях отсутствия метаданных образовательных ресурсов и моделей предметных областей такое обновление возможно только в ручном режиме, что требует значительных усилий от авторов курсов. Автоматизация решения данной проблемы может быть достигнута за счет семантического связывания электронных библиотек, баз знаний и образовательных ресурсов сети Интернет при создании и обновлении курсов, что позволит использовать актуальные данные из внешних источников. Вместе с тем в настоящее время активно развиваются и уже доказали свою эффективность интернет-технологии на основе онтологии и связанных данных в рамках веба третьего поколения (WEB 3.0). Их основным назначением является публикация семантических данных для интернет ресурсов, позволяющая осуществлять агрегацию, поиск и логический анализ интернет контента. Вместе с тем, эти технологии в настоящий момент не используются в задачах ЭО, так как отсутствует комплексная онтология образовательных процессов. Таким образом, разработка такой онтологии и новых методов агрегации образовательных данных на основе семантических технологий позволит решить задачу автоматизации процессов создания и поддержания в актуальном состоянии учебных материалов для систем ЭО нового поколения, допускающих повторное использование открытых образовательных ресурсов университетов, массовых открытых онлайн-курсов, электронных библиотек и баз знаний, а также создать средства детальной аналитики образовательных процессов в ЭО.

Целью диссертационной работы является исследование и разработка методов агрегирования и анализа образовательных данных в системе электронного обучения с использованием семантических технологий.

Для достижения поставленной цели необходимо было решить следующие задачи:

  1. Разработать комплексную онтологическую модель для описания электронных образовательных ресурсов, предметных областей учебных дисциплин, процесса обучения студентов и его результатов, показателей оценки знаний студентов;

  2. Разработать методику автоматизированного агрегирования образовательных ресурсов в системах ЭО на основе комплексной онтологии с использованием методов обработки естественного языка, технологий Semantic Web и Linked Data;

  3. Разработать метод анализа и оценки полноты и сбалансированности курсов в системах ЭО, основанный на обработке косвенных семантических связей в комплексной онтологии;

  4. Разработать метод индивидуального оперативного мониторинга процесса изучения студентом предметной области в системах ЭО на основе комплексной онтологии;

  5. Создать программные модули для системы ЭО, использующие комплексную онтологию, разработанные методы и методику;

  6. Провести экспериментальные исследования разработанных методов с использованием созданных программных модулей и с участием студентов.

Методы исследования включают в себя методы онтологического инжиниринга, интеллектуального анализа данных, математической статистики, обработки естественного языка и инженерии знаний.

Объектом исследования является онтологическая модель образовательного процесса, её структура и логические взаимосвязи предметных областей, учебных дисциплин и электронных образовательных ресурсов.

Предметом исследования являются методы автоматизации процессов агрегирования данных системы ЭО, анализа полноты и сбалансированности электронных учебных курсов и оценки знаний студентов в ходе ЭО.

Научная новизна. На защиту выносятся следующие результаты, обладающие научной новизной:

  1. Комплексная онтология, моделирующая в системах ЭО разнородные элементы и события образовательного процесса во взаимосвязи с описаниями предметных областей обучения. Разработанная онтология позволяет осуществить интеграцию и логическое связывание учебных материалов.

  2. Методика автоматизированного агрегирования образовательных ресурсов в системах ЭО на основе комплексной онтологии с применением методов обработки естественного языка, технологий Semantic Web и Linked Data. Разработанная методика позволяет автоматизировать процесс создания учебных материалов системы ЭО и их поддержания в актуальном состоянии.

  3. Метод обработки семантических связей в комплексной онтологической модели, позволяющий проводить анализ и оценку полноты и сбалансированности курсов в системах ЭО. Разработанный метод позволяет контролировать согласованность содержания учебных материалов на уровне концептов моделей предметных областей обучения.

4. Метод индивидуального оперативного мониторинга процесса изучения студентом предметной области в системах ЭО на основе комплексной онтологии. Разработанный метод позволяет получить интегральную оценку знания студентом предметной области на основе совокупности изученных электронных курсов, выполненных практических заданий и тестов.

Практическую ценность работы составляют:

  1. Библиотека моделей на языке OWL, опубликованная в сети с зарегистрированными идентификаторами PURLs (Persistent Uniform Resource Locators), разработанная в соответствии с требованиями и рекомендациями консорциума W3C и предназначенная для построения систем ЭО на основе семантических технологий.

  2. Программная реализация системы, использующая разработанную онтологическую модель, методику и методы, внедренная на открытой экспериментальной площадке ЭО () на кафедрах информатики и прикладной математики, проектирования и безопасности компьютерных систем Университета ИТМО.

  3. Практическое использование разработанной системы позволило сформировать рекомендации по улучшению показателей полноты и сбалансированности электронного курса на основе выведенных семантических связей и рассчитанных оценок на примере дисциплины «Интеллектуальные системы», читаемой в рамках пяти различных направлений подготовки бакалавров и магистров.

Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на следующих конференциях: International Conference on Knowledge Engineering and Semantic Web (Россия, Санкт-Петербург, 2013), 11th Extended Semantic Web Conference (Греция, Аниссарас, 2014), International Conference on Knowledge Engineering and Semantic Web (Россия, Казань, 2014), The 13th International Semantic Web Conference (Италия, Рива-дель-Гарда, 2014), 16th Conference of Open Innovations Association FRUCT (Финляндия, Оулу, 2014), 24th World Wide Web Conference (Италия, Флоренция, 2015).

Публикации. Основные результаты по теме диссертации изложены в 9 печатных изданиях, из которых все изданы в журналах, рекомендованных ВАК.

Объем и структура работы. Диссертация состоит из введения, четырех глав, заключения и приложения. Полный объем диссертации 121 страниц текста с 38 рисунками и 5 таблицами. Список литературы содержит 125 наименований.

Онтологии, экспертные системы, базы знаний и семантические сети

Система электронного обучения — это система управления учебной деятельностью. Система электронного обучения позволяет разрабатывать, управлять и распространять учебные онлайн-материалы с обеспечением совместного доступа. Данный вид систем предназначен для проведения удаленного дистанционного образовательного процесса, включающего в себя процесс получения знаний и процесс проверки знаний пользователя [11].

Существует несколько вариантов использования технологий электронного обучения: – в качестве дополнительной поддержки основного курса обучения (здесь технологиям электронного обучения отводится вспомогательная роль), – в качестве основы для самообразования (в этом случае учащиеся самостоятельно приобретают и осваивают готовые электронные образовательные продукты, например — мультимедиа курсы), – в качестве основной образовательной технологии [12]. В этом случае создается постоянная группа учащихся в периферийном центре, которая работает под руководством и под контролем педагога или координатора. Он контроли 12 рует ход учебного процесса, своевременное выполнение заданий учащимися, консультирует, помогает учащимся в процессе освоения курса.

На данный момент существует два вида электронного обучения: – асинхронное электронное обучение, которое предусматривает, что ученик сам определяет темп своего обучения. При этом обучающийся имеет выбор между различными носителями информации, ученик может выполнять задания в соответствии с аудиторной программой или планом, а затем передавать готовую работу преподавателю для оценки. – синхронное электронное обучение [13]. Данный вид предусматривает общение учеников и преподавателей в реальном времени через виртуальные аудитории.

Историю развития электронного обучения можно разделить на несколько поколений: – 1-ое поколение. Технические средства, характеризующиеся отсутствием интерактивности (радио или аудио кассеты, учебники, посланные студентам с минимальным общением по телефону). – 2-ое поколение. Асинхронно интерактивные курсы, характеризующиеся трансляциями (телевидение или радио) с призывом к интерактивности (в течение или после) либо по телефону, либо по электронной почте. – 3-е поколение. Характеризуется использованием Web-страниц с программой обучения, другими статическими материалами и чат-сессиями, обеспечивающими интерактивное общение. – 4-ое поколение. Интерактивность в реальном времени с программным обеспечением, видеокамерами, объединенной системой управления [14].

Сегодня появляется необходимость и возможность говорить о медиа-обучении, то есть о массовом медиа-образовании [15]. Его предпосылкой является развитие новых технологий, прежде всего — компьютерных. Одним из плацдармов, на котором можно эффективно и целенаправленно развернуть формирование информационной и медиа-культуры, являются дистанционные технологии образования средствами Интернет. Они могут послужить противовесом деструктивному воздействию идеологии социального конструкционизма в практике медиа [16].

Задачи и принципы медиа-образования пока не входят непосредственно в содержание образовательных программ. Иными словами, можно констатировать, что дистанционное образование является до сих пор неиспользованным ресурсом формирования информационной культуры.

Системы электронного обучения в зарубежных странах имеют развитую инфраструктуру и широкую пользовательскую аудиторию. Так, например, Открытый университет Великобритании (The Open University) имеет 305 региональных центров в Великобритании и 42 в других странах. Испанский национальный университет дистанционного образования имеет 53 региональных центра в Испании и Латинской Америке. Канадский открытый университет имеет 4 региональных центра. Ферн Университет Германии имеет 60 региональных центров в Германии, Австрии, Голландии, Венгрии, Польше. Открытый университет Израиля располагает более чем 100 региональными центрами. Национальный технологический университет США использует для обучения более 300 площадок на базе 46 ВУЗов США [17].

В США интенсивно развивается предоставление интерактивных онлайн-курсов. К 2009 году более 5,6 миллионов студентов приняло участие в прохождении хотя бы одного онлайн-курса. Около 30% процентов студентов получающих высшее образование участвуют в электронном обучении. Использование систем электронного обучения привело к росту количества студентов, получающих высшее образование на два процента [18].

В зарубежных странах интенсивно развивается предоставление учебных материалов в формате массовых открытых онлайн-курсов MOOC (Massive open online courses) [19]. MOOC система предоставляет пользователям набор обучающих курсов с массовым интерактивным участием с применением технологий электронного обучения и открытым доступом через Интернет [20]. MOOC системы дают возможность использовать интерактивные форумы пользователей, которые помогают создавать и поддерживать сообщества студентов, преподавателей и ассистентов.

Крупнейшей MOOC системой является портал Coursera. Портал сотрудничает с университетами, которые публикуют и ведут в системе курсы по различным отраслям знаний. Слушатели проходят курсы, общаются с сокурсниками, сдают тесты и экзамены непосредственно в системе. Портал использует более 13 миллионов студентов. Coursera предоставляет более тысячи бесплатных онлайн-курсов от более чем 100 ведущих мировых ВУЗов. На портале представлены курсы по физике, инженерным дисциплинам, гуманитарным наукам и искусству, медицине, биологии, математике, информатике, экономике и бизнесу. Продолжительность курсов от шести до десяти недель, с 1—2 часами видеолекций в неделю. Электронные курсы содержат задания, еженедельные упражнения, заключительный проект и экзамен [21].

Другой крупной MOOC системой является платформа edX. edX разработана Гарвардским университетом и Массачусетским технологическим институтом и распространяется в формате открытого программного кода. Платформа позволяет любой организации на базе своих курсов развернуть систему MOOC [22]. На платформе развернуто более 500 онлайн-курсов. Платформой edX пользуется более 2,5 миллионов студентов.

Также бесплатные массовые открытые курсы предоставляет проект Udacity [23]. Udacity проект, возникший на базе программы по информатике Стэнфордского университета. Проект предоставляет видеолекции на английском языке с субтитрами в сочетании со встроенными тестами и последующими домашними работами. Каждая лекция включает в себя встроенный тест, чтобы помочь студентам понять предлагаемые концепции и идеи. Проект предоставляет более 80 курсов для более 1,5 миллионов студентов.

Системы MOOC получили развитие в различных зарубежных странах. Проект Iversity разработан в Германии и используется более чем 300 тысячами студентов. Проект Open Univercity основан на базе открытого университета Великобритании. Портал Crypt4you предоставляет MOOC курсы в Испании. OpenupEd — проект MOOC системы образовательных структур Евросоюза. Проект EduKart предоставляет MOOC курсы в Индии.

Онтология действий студента в системе электронного обучения

Для детального описания содержания тестов был разработана онтология тестов. Онтология тестов является модулем онтологии системы электронного обучения, интегрированным в основную онтологию с целью детализации области тестов электронного курса. Разработка онтологии производилась методом раскрытия и конкретизации существующих онтологий верхнего уровня. Именно поэтому при разработке онтологии использовался нисходящий подход. Разработка онтологии велась на основе анализа существующих аналогов онтологий тестов и на основе разбора структуры наборов тестов предоставленных Университетом ИТМО.

Основной целью онтологии тестов является представление структуры тестов и предоставление возможности автоматического семантического связывания заданий тестов с концептами предметной области. Онтология описывает тест как набор из вариантов групп заданий. В каждой группе содержится набор заданий. Задания теста состоят из вопроса и набора ответов. В зависимости от типа вопроса у задания может быть различный набор правильных и неправильных ответов.

Онтология тестов является модулем онтологии учебных материалов. Онтология тестов интегрированная в онтологию учебных материалов и детализирует структуру объектов онтологии учебных материалов, обладающих классом «Тест». Аналогично в онтологии учебных материалов могут быть детализированы другие объекты, такие как «Практика», «Экзамен» или «Лекция». Основные объекты онтологии учебных материалов с интегрированным модулем онтологии тестов представлены на рисунке 2.6. Рисунок 2.6 – Основные объекты онтологии учебных материалов с интегрированным модулем онтологии тестов Связывание концептов предметной области с заданиями позволяет описать содержание вопроса и ответов задания. На основе данного описания может быть построен анализ ответов студентов на тесты электронного курса.

Онтология действий студента в системе электронного обучения была разработана для хранения информации о действиях, прогрессе и результатах обучения студентов в системе электронного обучения. При разработке были использованы онтологии верхнего уровня: – онтология учебных материалов, – онтология тестов, онтология Friend Of A Friend (FOAF). Онтология FOAF определяет некоторые выражения, используемые в высказываниях о ком-либо, например: имя, пол и другие характеристики. Онтология FOAF используется для описания людей и отношений между ними. В электронной системе обучения FOAF может быть использована для описания персоналий студентов, преподавателей и других пользователей системы.

Основной задачей онтологии действий студента в системе электронного обучения является хранение действий студентов в системе. В онтологию может быть записана информация о просмотре студентом видео-лекции, о прохождении теста или завершении курса. Онтология действий студента в системе электронного обучения хранит в себе персональные данные студентов. В онтологию включены классы, описывающие результаты студентов при прохождении тестов и изучении теоретического материала.

Онтология действий студента в системе электронного обучения состоит из 10 классов, 15 объектных свойств и 5 свойств-значений. Модель действий студента в системе электронного обучения представлена в приложении A.4.

Для хранения в онтологии действий студента в системе электронного обучения данных о прохождении студентом теоретического материала и лекций электронного курса используется связывание объектов онтологии с объектами онтологии учебных материалов. Для хранения в онтологии ответов на тесты конкретного студента используется связывание с онтологией тестов. Связи между студентами, их ответами на задания тестов и концептами предметной области позволяют создавать косвенные связи между студентом и объектами курса. На основе полученных косвенных связей возможна реализация персонализированной рекомендательной системы для корректировки процесса обучения студентов.

На основе данных из онтологии действий студента в системе электронного обучения возможна реализация модулей анализа действий пользователя в системе электронного обучения. После прохождения теста студент может получить не только оценку, но и список концептов предметной области и материалов для повторения, составленный на основе его ответов на тест электронного курса.

Для реализации методов автоматизированной оценки рейтингов и знаний студентом концептов и предметных областей был разработан и интегрирован в онтологическую модель системы электронного обучения модуль оценки знаний студента. Модуль оценки знаний студента — это онтология, которая позволяет хранить вычисленные автоматически рейтинги и оценки знаний студентов по определенным концептам и предметным областям.

Каждый из классов оценки обладает свойством для хранения цифрового значения оценки «value» (Значение). Также онтология содержит объектные свойства для связывания объектов оценок с объектами студентов из модуля действий и результатов студента в системе обучения. В онтологии содержатся объектные свойства для связывания объектов тестов из модуля тестов с объектами концептов из модуля учебных материалов. Разработанная онтология позволяет добавлять новые классы оценок для хранения новых показателей при изменении алгоритмов расчета оценок.

Модуль онтологии оценки знаний студента интегрирован в онтологию действий студентов в системе электронного обучения. Данная интеграция позволяет связывать действия студентов по прохождению теоретического материала с показателями оценки знаний студентов. На основе связей между данными модулями онто-логий производится оценка и хранение результатов обучения студентов системы электронного обучения. Основные объекты онтологии действий студентов в системе электронного обучения с интегрированным модулем онтологии оценки знаний

Использование алгоритмов обработки естественного языка для создания связей в онтологиях

Множество источников в Интернете хранят структурированные данные не в формате RDF. Тесты и учебные материалы университета могут храниться в формате XML, а электронная библиотека предоставлять информацию о публикациях через REST API. Разработанный метод агрегации данных в структурированных форматах предлагает использовать алгоритмы конвертации данных в провайдерах для интеграции структурированных данных в онтологии системы. Портал учебных изданий Университета ИТМО предоставляет доступ к информации о публикациях, используя точку доступа REST API. Разработанный метод использует предопределенные разработчиком системы электронного обучения Groovy-скрипты при обработке данных в провайдере. Groovy-скрипты используются провайдером для преобразования данных из REST API в RDF триплеты. В ходе преобразования могут быть использованы внешние и внутренние словари и онтологии для аннотирования полученных данных. В примере с учебными изданиями может быть использовано аннотирование данных с помощью онтологии BIBO для сохранения информации о публикациях и книгах.

Другим распространенным методом хранения и передачи учебных материалов в электронных курсах является передача данных в формате XML. Для преобразования учебных материалов из XML формата в формат RDF необходимо описать отображение данных. Отображение описывается в формате XML в виде специальных правил, задающих соотношение между данными в элементах и атрибутах XML и онтологическими индивидами и свойствами. Описанное отображение передается в провайдер, разработанный для обработки XML данных. Далее провайдер на основе описанного отображения и указанных внешних источников производит сбор и конвертацию в семантических формат учебных материалов в формате XML.

Провайдер использует функции XPath [114] для извлечения информации об объектах и их свойствах из XML данных. Извлеченная информация преобразовывается в RDF/XML формат и аннотируется с помощью установленных онтологий на основе описанного отображения. Агрегация данных производится в автоматическом режиме с заданной периодичностью, что позволяет автоматически актуализировать учебные материалы.

Одним из примеров применения данного метода является агрегация тестов электронных курсов из открытого хранилища учебных материалов Университета ИТ-МО. Скрипт производит сбор и формирование XML файлов с тестами из открытого хранилища. Далее провайдер на основе описанного отображения преобразовывает и сохраняет данные в семантическое хранилище. В приложении B описан пример отображения и результаты работы провайдера при преобразовании тестов в формате XML в семантических формат.

Другим методом агрегации структурированных данных стал метод извлечения информации из HTML-страниц. Существует множество сайтов, не предоставляющих данные в распространенных форматах. Информация данных порталов храниться в статических HTML-страницах. HTML-страница является XML файлом, что позволяет применить к ней метод отображения данных. Существуют порталы, на которых синтаксис HTML-страниц может отличаться даже для одинаковых сущностей. В таких случаях необходимо применять наборы шаблонов для извлечения информации из HTML-страницы.

Одним из примеров порталов с информацией в статических HTML-страницах с различным синтаксисом является портал CEUR Workshop Proceedings (CEUR-WS.org). На портале расположено более 1000 статических страниц с информацией о научных семинарах и публикациях [115]. Для извлечения информации был разработан метод на основе программных шаблонов. Данный метод заключается в применении различных программных шаблонов при обработке HTML-страницы с целью получения полной и достоверной информации. Если структура страницы не подходит под первый шаблон, модулем используется следующий шаблон в наборе. Если структура страницы не подошла ни к одному шаблону, необходимо реализовать дополнительный шаблон. При полном совпадении структуры страницы с шаблоном шаблон производит извлечение и аннотирование информации из элементов HTML-страницы. На выходе работы метода создается набор RDF триплетов.

Данный подход позволяет извлекать и аннотировать данные из порталов, предоставляющих доступ к информации с помощью статических HTML-страниц с различным синтаксисом и структурой.

Таким образом, система электронного обучения с использованием семантических технологий может агрегировать и интегрировать книги, публикации, тесты и прочие учебные материалы, опубликованные в структурированном формате на внешних источниках. Интеграция учебных материалов в систему электронного обучения, основанную на семантических технологиях, позволяет преподавателям и авторам использовать в своих электронных курсах готовые учебные материалы из сторонних источников.

Для наполнения онтологий системы можно использовать не только данные внешних источников, но и данные самой системы. Данные, хранящиеся в онтологии системы и связанные семантическими связями, позволяют создавать новые связи на основе предопределенных правил. Особым типом провайдера является провайдер гармонизации данных с использованием методов обработки естественного языка (NLP-алгоритмов, Natural Language Processing). Данный тип провайдера гармонизирует онтологическую модель путем создания связей между существующими объектами. Используя данный подход можно извлекать семантические связи из текстовой информации объекта онтологии. Разработанный метод позволяет системам электронного обучения на основе семантических технологий использовать NLP-алгоритмы для поиска концептов предметных областей в текстах заданий тестов.

Учитывая небольшой размер образца и предустановленный набор концептов, шаблоны POSag в совместном использовании с синтаксическими шаблонами являются наиболее предпочтительным методом извлечения концептов предметных областей из заданий тестов [116] [117] [118]. Около десяти типичных составных шаблонов концептов было использовано для извлечения концептов-кандидатов. После извлечения концепты-кандидаты приводились к канонической форме с использованием предустановленных словарей.

Для извлечения концептов предметных областей была использована лингвистическая платформа NooJ [119]. NooJ обладает мощным механизмом регулярных выражений поиска, позволяющим комбинировать различные POSag шаблоны в единую грамматику для запроса к тексту. Для обработки русскоязычного текста был разработан набор грамматик и словарей. Данные словари и грамматики полностью покрывают словарь заданий теста. Для генерации словарей и грамматик для англоязычных ресурсов были использованы стандартные средства NooJ. Несколько деривационных парадигм было описано с помощью преобразователей NooJ и связано с лексическими сущностями. Применение деривационных парадигм позволяет генерировать основные леммы для лексических сущностей. Алгоритм извлечения концептов предметных областей из текста с использованием платформы NooJ состоит из следующих шагов:

Описание пользовательских интерфейсов разработанной системы электронного обучения

Для ответов на описанные вопросы студентам предоставлялись варианты ответов. Варианты ответов покрывали полный набор возможных объектов курса, соответствующих заданному вопросу.

Для сравнения мнения системы и авторов электронных курсов был произведен дополнительный опрос авторов. Авторами курса являются эксперты в предметной области, задействованные при составлении электронного курса. В опросе для авторов содержалось 4 вопроса о мнении авторов по содержанию электронного курса. В опросе приняло участие 4 соавтора электронного курса. В опросе были заданы следующие вопросы: – Укажите 10 самых сложных концептов электронного курса и расположите их в порядке от 1 до 10 по возрастанию сложности. – Укажите 10 самых важных концептов электронного курса и расположите их в порядке от 1 до 10 по возрастанию сложности. – Пронумеруйте лекции в порядке возрастания их объема. – На сколько процентов курс покрыт тестами? Для ответов на описанные вопросы авторам были предложены варианты ответов. Для оценки покрытия курса тестами вариантов ответов не предоставлялось.

На основе полученных данных системы и данных опросов был произведен комплексный анализ электронного курса. Анализ производился с целью выявления недостатков в содержании, структуре электронного курса и подаче учебных материалов.

Вначале была произведена оценка объема лекций и покрытия лекций тестами в электронном курсе. Система оценивала объем лекций на основе количества связанных концептов предметной области. Данный подход позволяет оценивать учебные материалы не на основе их структуры или объема, а на основе их содержания. Покрытие лекций тестами рассчитывалось системой на основе анализа количества концептов лекции, использованных в тестах. Полученные результаты представлены в диаграммах в приложении E.1.

В диаграммах демонстрируется отношение показаний системы к средней оценке по опросам авторов и студентов. Совпадения оценок студентов и системы в результатах покрытия лекций показывает, что система может оценивать и выявлять те лекции курса, которые будут самыми полезными при прохождении тестов. Средняя оценка покрытия электронного курса тестами рассчитанная системой равна 77%. Средняя оценка покрытия курса тестами у авторов составляет 75%. Минимальная разница между оценками свидетельствует о правильной методике расчета покрытия лекций тестами. С другой стороны оценки в результатах объемов лекций различаются. Это объясняется тем, что авторы и студенты оценивают объем лекций по их структуре, а не по смысловому содержанию. В данном эксперименте система выявила недостатки электронного курса в виде низкой сбалансированности изложения учебных материалов.

Всего в опросе студентов в качестве проблемных концептов было упомянуто 75% всех концептов системы. Полученные результаты показывают полное несовпадение оценок системы, авторов и студентов. Данный факт указывает на то, что авторам электронного курса необходимо пересмотреть и улучшить изложение учебного материала по выявленным системой проблемным концептам. Разница между оценкой студентов и показаниями системы обуславливается тем, что студенты часто не могут выявить наиболее проблемные для себя концепты предметной области.

Для оценки значимости концептов предметной области в электронном курсе использовался анализ зависимостей между концептами и их потомками. Система производила расчет значимости для каждого концепта на основе разработанного метода. На основе аналитических данных системы и данных опросов студентов и авторов был произведен сравнительный анализ. Полученные результаты представлены в диаграммах в приложении E.2. Результаты показывают 30% совпадений концептов в оценке системы с оценкой опросов.

Всего в опросе студентов в качестве значимых концептов было упомянуто 50% всех концептов системы. На основе полученных результатов было установлено, что базовые концепты предметной области не всегда являются самыми значимыми в предметной области. На основе произведенного анализа система позволила выявить концепты, на которые авторы электронного курса должны обратить особое внимание так, как точность оценки знаний полученных по учебным материалам для данных концептов может быть не высокой в силу сильно отличающихся показателей значимости у студентов, преподавателей и системы. Другими словами предложенный алгоритм позволяет отличить значимость с точки зрения структуры курса от значимости с точки зрения содержания предметной области.

В завершении эксперимента была произведена оценка знания студентами концептов и предметных областей электронного курса. Система рассчитывала оценку знаний студентами концептов предметной области на основе их действий в системе электронного обучения. Расчет производился по экспериментальным показателям оценки знаний студентов, экспериментальной формуле расчета значимости концепта в предметной области и экспериментальным формулам расчета рейтингов знания студентом концепта и предметной области. Для полученных оценок знаний студентами концептов был произведен сравнительный анализ с данными опросов студентов.

Среднее совпадение показаний по результатам системы и опроса составило 30%. На основе полученных оценок система произвела расчет оценки знаний студентами предметной области «Экспертные системы». Далее был произведен сравнительный анализ полученных показаний с баллами, выставленными в электронный журнал по электронному курсу «Интеллектуальные системы» для каждого студента, участвующего в опросе. Полученные результаты представлены в гистограмме в приложении E.3.

Из полученных результатов следует, что при 100% оценке студента в электронном журнале значение оценки знания предметной области, полученное системой, не превышает 40%. Это можно объяснить тем, что при прохождении электронного курса студент отвечает на вопросы связанные только с частью концептов предметной области. Существует доля концептов предметной области, знания по которым могут быть не проверены напрямую в тестах электронного курса в процессе обучения. Оценка таких концептов может быть произведена на основе анализа косвенных связей между концептами предметных областей.

Для анализа взаимозависимости оценки знаний студентами предметной области «Экспертные системы» и баллов, полученных соответствующими студентами в электронный журнал курса «Интеллектуальные системы», был произведен расчет коэффициента корреляции рассматриваемых величин. Коэффициент корреляции характеризует величину отражающую степень взаимосвязи двух переменных между собой. Он может варьировать в пределах от -1 (отрицательная корреляция) до +1 (положительная корреляция). Если коэффициент корреляции равен 0 то, это говорит об отсутствии корреляционных связей между переменными.

Предполагается, что рассматриваемые величины обладают линейной связью. Исходя из этого, в качестве величины корреляции в эксперименте был выбран коэффициент корреляции Пирсона. Коэффициент корреляции Пирсона применяется для исследования взаимосвязи двух переменных, измеренных в метрических шкалах на одной и той же выборке. Он позволяет определить, насколько пропорциональная изменчивость двух переменных. Коэффициент корреляции Пирсона для полученных показаний рассчитывается по формуле: