Семантическая модель контента образовательных электронных изданий Семикин Виктор Алексеевич

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Семикин Виктор Алексеевич. Семантическая модель контента образовательных электронных изданий : Дис. ... канд. техн. наук : 05.13.18 : Тюмень, 2004 122 c. РГБ ОД, 61:04-5/3380

Содержание к диссертации

Введение

1 Принципы и технологии создания ОЭИ 9

1.1 Классификация ОЭИ 9

1.2 Основные функции ОЭИ 16

1.2.1 Представление контента 16

1.2.2 Контроль знаний 18

1.2.3 Информационно-справочное обслуживание 25

1.3 Требования, предъявляемые к ОЭИ 27

1.3.1 Оценка качества ОЭИ 27

1.3.2 Содержательно-методические требования 29

1.3.3 Технические требования 30

1.3.4 Эргономические требования 31

1.4 Технологии создания ОЭИ 33

1.5 Модели данных, используемые для представления контента ОЭИ 37

1.5.1 Обзор основных моделей данных 37

1.5.2 Гипертекстовая модель 41

1.5.3 Семантические сети 44

1.5.4 Сравнение и анализ моделей 46

1.6 Инструментальные средства создания ОЭИ 48

Выводы по главе 1 52

2 Модель организации контента 54

2.1 Описание модели 54

2.2 Интерпретация модели 59

2.3 Спецификация структуры контента 64

2.4 Характеристики структуры контента 69

24.1 Оценка характеристик структуры контента 69

2.4.2 Структурная алгебра 69

2.4.3 Характеристики типизации структурных элементов 71

2.4.4 Характеристики иерархической структуры 72

2.4.5 Характеристики семантических связей 84

Выводы по главе 2 88

3 Технология создания ОЭИ 92

3.1 Структура инструментального программного комплекса . 92

3.2 Хранение и редактирование контента 95

3.3 Технология создания локальных версий ОЭИ 97

3.4 Технология создания сетевых версий ОЭИ 101

3.5 Технология создания печатных версий ОЭИ 105

3.6 Оценка структурных характеристик контента 106

3.7 Выводы по главе 3 107

Заключение 109

Библиографический список используемой литературы 112

Информационно-справочное обслуживание
Модели данных, используемые для представления контента ОЭИ
Характеристики типизации структурных элементов
Технология создания локальных версий ОЭИ

Введение к работе

Актуальность работы. Широкое распространение образовательных электронных изданий (ОЭИ) и, в частности, наполнение образовательных интернет порталов, существенно повышает требования к функциональным возможностям и, следовательно, к технологиям разработки ОЭИ. Для создания ОЭИ, как правило, применяется технология «кон-тент+браузер», предполагающая явное отделение содержания (контента) от программ его визуализации (браузера) и редактирования. Таким образом, решающее влияние на функциональные возможности создаваемых ОЭИ оказывает модель данных, используемая для представления контента, и функциональные возможности браузера.

В практике создания ОЭИ наибольшее распространение получила гипертекстовая модель (В. Буш [95], Д. Энгельбарт [99], Т. Нельсон [101], Дж. Конклин [98], Н.В. Агеев [4], Л.Г. Ованесбеков [62]). Данная модель позволяет успешно решать задачи навигации и визуализации контента. Однако, слабая структурированность данных, представленных в гипертекстовой модели (в частности, отсутствие типизации данных), существенно ограничивает возможности их программной обработки, что в свою очередь отрицательно сказывается на функциональных возможностях ОЭИ. Для преодоления указанного недостатка необходима более сложная модель.

Данная проблема частично решена в семантических моделях, к которым относятся семантические сети, фреймовая модель, модель сущность-связь и др. Несмотря на то, что некоторые из этих моделей и, в первую очередь, семантические сети были использованы в ряде успешных проектов (Дж. Карбонелло [96], П.Л. Брусиловский [7], М.И. Зырянов [36]), они не получили широкого распространения в практике со-

здания ОЭИ, так как не поддерживают визуализацию информации.

Кроме того, иногда применяется реляционная модель, предложенная Е.Ф. Кодом [97]. Однако, контент, как правило, имеет сетевую структуру, плохо соответствующую данной модели. Обычно реляционная модель используется как базовая для хранения гипертекстовых документов.

Таким образом, в настоящее время не существует модели данных, позволяющей адекватно представлять семантическую структуру контента и поддерживающей его визуализацию. Разработка такой модели имеет важное значение для совершенствования технологий создания ОЭИ.

Цель работы состоит в совершенствовании технологий создания образовательных электронных изданий путем разработки модели данных для представления контента, позволяющей адекватно отражать семантическую структуру дидактической информации и поддерживающей визуализацию контента в форме, ориентированной на его изучение.

Для достижения поставленной цели в работе решаются следующие задачи:

исследование принципов и технологий создания ОЭИ;

построение модели представления контента ОЭИ, позволяющей отражать семантическую структуру учебной информации;

разработка методов и алгоритмов количественной оценки структурных характеристик контента;

создание технологии разработки образовательных электронных изданий, позволяющей учитывать семантику контента при реализации основных функций ОЭИ;

разработка инструментального программного комплекса для создания ОЭИ с широким спектром функциональных возможностей;

апробация предложенных моделей и технологий в процессе создания ОЭИ.

Методы исследования. При построении и исследовании модели контента использовались методы теории графов, общей алгебры, теории алгоритмов, теории множеств, теории формальных грамматик. Для разработки технологии и инструментального средства для создания ОЭИ применялись методы объектно-ориентированного анализа и программирования.

Научная новизна исследования заключается в разработке семан
тической модели представления контента ОЭИ. Для данной модели впер
вые предложены методы и алгоритмы количественной оценки структур
ных характеристик контента. Предлагаемые характеристики позволяют
исследовать соответствие структуры контента семантике дидактических
материалов и оценить возможности его программной обработки.
р. Научно-практическая значимость работы состоит в разработке

I на основе предложенной модели технологии создания ОЭИ, позволяющей

учитывать семантику контента при реализации основных функций ОЭИ. На базе данной технологии разработан инструментальный программный комплекс, поддерживающий создание сетевых, локальных и печатных версий ОЭИ.

Апробация работы:

Основное содержание диссертации опубликовано в 11 печатных ра
ботах.

Материалы диссертации докладывались на следующих конферен-
, циях и семинарах: Всероссийский семинар «Электронные учеб-
(И ники и учебно-методические разработки в открытом образова
нии» (Москва, 2000); Всероссийская школа-семинар «Информаци
онные технологии в управлении качеством образования и разви
тии образовательного пространства» (Москва, 2000); Всероссий
ская научно-методическая конференция «Телематика'2002» (Санкт-
Петербург, 2002); Всероссийская научно-методическая конферен-

ция «Качество высшего профессионального образования в начале XXI века» (Туапсе, 2002); Всероссийская научно-методическая конференция «Телематика'2003» (Санкт-Петербург, 2003).

Работа выполнена при поддержке гранта №2.7.5.(43.1).228.059 программы Минобразования РФ «Научное, научно-методическое, материально-техническое и информационное обеспечение системы образования», 2001 - 2002 гг.

С использованием инструментального программного комплекса созданы ОЭИ для федерального комплекта электронных средств поддержки обучения по общим гуманитарным и социально-экономическим дисциплинам.

Разработанные ОЭИ изданы на компакт-дисках промышленным тиражом 16500 экземпляров.

ОЭИ зарегистрированы в Отраслевом фонде алгоритмов и программ Минобразования РФ, часть из них имеет гриф «Рекомендовано Минобразования РФ в качестве учебного пособия для использования в учебном процессе высших учебных заведений».

Разработанные ОЭИ внедрены в учебный процесс ряда высших учебных заведений Российской Федерации.

На защиту выносятся:

Модель представления контента ОЭИ, позволяющая отражать семантическую структуру учебной информации и поддерживающая визуализацию контента в форме, ориентированной на его изучение.

Методы и алгоритмы количественной оценки структурных характеристик контента. Предлагаемые характеристики позволяют исследовать соответствие структуры контента семантике дидактических материалов и оценить возможности его программной обработки.

Технология разработки образовательных электронных изданий, позволяющая учитывать семантику контента при реализации ос-

новных функций ОЭИ. Инструментальный программный комплекс, поддерживающий создание сетевых, локальных и печатных версий ОЭИ. Структура и объем работы. Диссертация состоит из введения, трех глав, заключения и списка литературы, включающего 103 наименования. Общий объем работы составляет 122 страницы.

Информационно-справочное обслуживание

В связи с резким увеличением объема информации, публикуемой в образовательных электронных изданиях, одной из важнейших задач, встающих при их создании, является разработка систем информационно-справочной поддержки обучаемого, к таким системам в первую очередь относится система поиска.

На сегодня в ОЭИ существуют два принципиально различных типа поиска: полнотекстовый и индексный. Индексный поиск реализуется с помощью набора указателей (именной указатель, категориальный указатель, указатель схем, указатель видеофрагментов и др.), каждый из которых содержит собственный набор ключевых слов. Так как набор указателей и ключевых слов определяется при создании учебника, это позволяет автору выделить наиболее важные единицы поиска и соответствующие им разделы издания. Основным недостатком индексного поиска является трудоемкость создания и поддержка индексов в процессе подготовки контента ОЭИ. Кроме того, поиск можно производить только по ранее выделенным ключевым словам, что снижает универсальность индексного поиска.

Полнотекстовый поиск является более универсальным и позволяет находить любой раздел издания, содержащий фрагмент информации, удовлетворяющий заданному шаблону. Как правило, шаблон может содержать текст, логические операторы AND, OR, NOT, оператор NEAR и специальные символы (например, — любой символ, —последовательность любых символов). Многие современные поисковые системы позволяют автоматически находить различные лексические формы слов, заданных в шаблоне. Наиболее развитые системы полнотекстового поиска реализованы в поисковых серверах сети Интернет (www.google.com, www.yandex.ru и др.).

Основным недостатком современных поисковых машин на сегодня является полное игнорирование семантики информации. Например, требуется найти «определения терминов, введенных немецкими математиками 19 века». Для реализации такого запроса необходимо: выделить определения терминов и биографии ученых; для терминов знать имена их авторов; для биографий ученых знать научную дисциплину, страну и годы жизни.

Существует два принципиально разных пути решения указанной проблемы. Первый — создание систем семантического анализа текстов на естественном языке. К сожалению, несмотря на продолжительные и небезуспешные усилия в данном направлении, сложность создания универсальных систем семантического анализа текстов не позволяет наде яться на широкое практическое применение таких систем в ближайшем будущем. Второй путь решения проблемы — внесение элементов семантической информации в контент при его подготовке к публикации. Необходимо отметить, что такое решение имеет ряд недостатков. Во-первых, требуются дополнительные усилия при подготовке информации к публикации. Во-вторых, такое решение не универсально, так как при поиске можно использовать только ту семантическую информацию, которая была ранее заложена. В-третьих, необходима определенная совместимость поисковой системы со структурой и форматом хранения контента. Несмотря на перечисленные недостатки, данное решение в настоящее время представляется наиболее приемлемым для реализации поисковых систем, учитывающих семантику информации.

При оценке качества электронных изданий, в первую очередь, необходимо рассматривать те принципиально новые свойства, которые отличают его от традиционного учебника. Несмотря на неоспоримые достоинства, применение электронных обучающих изданий не лишено определенных недостатков. В их числе недостатки, вызванные специфическими особенностями работы с информацией на электронных носителях (чтение с экрана менее удобно, чем с листа бумаги, вызывает повышенную утомляемость органов зрения, требует наличия соответствующих технических средств и т.д.). Стоит также отметить сложившуюся на практике большую небрежность при разработке ОЭИ. Это выражается в отсутствии унификации в использовании терминологии и обозначений, единого подхода к подбору иллюстративного материала, учета психолого педагогических требований. Такая ситуация возникла вследствие того, что процесс интенсивного создания ОЭИ начался сравнительно недавно, и во многом он протекает стихийно, поэтому в коллектив разработчиков программных продуктов учебного назначения не всегда входят специалисты в области педагогики и психологии, эргономики и т.д.

Модели данных, используемые для представления контента ОЭИ

Правила организации данных накладывают ограничения на элементы данных, их типизацию и структуру. Можно выделить две группы ограничений: ограничения, накладываемые моделью, дополнительные ограничения, накладываемые пользовательскими спецификациями.

Типизация. С точки зрения типизации модели делятся на сильно типизированные и слабо типизированные. Сильно типизированные модели — это модели, в которых предполагается, что все элементы данных должны быть отнесены к какому-либо типу (категории). Слабо типизированные модели не предполагают обязательной типизации элементов. В настоящее время наибольшее распространение получили сильно типи зированные модели. Основным преимуществом таких моделей является возможность использования информации о типах при обработке данных (например, для контроля целостности данных). Кроме того, некоторые модели поддерживают иерархическую структуру типов, однако, большинство используют линейную типизацию.

Структура данных определяет ограничения, накладываемые на характер связей между элементами данных. Именно структура данных является основным критерием классификации моделей. Несмотря на многообразие описанных в литературе моделей, базовыми принято считать следующие: реляционную, иерархическую и сетевую.

Реляционная модель. Данная модель предложена Коддом [97]. В реляционной модели данные представлены в виде набора таблиц. Каждая строка таблицы имеет имя, называемое именем атрибута, и содержит данные, принадлежащие заданному множеству возможных значений, которое называется доменом. Причем порядок строк и столбцов в таблице является произвольным и не несет дополнительной информации.

Дадим более точное определение [55]. Пусть R = {Лі, Лг,..., Лп] — множество имен атрибутов. Каждому имени атрибута Л ставится в соответствие множество возможных значений Д, называемое доменом атрибута АІУ 1 і п. Пусть D = D\ U Д U U Dn. Отношением г называется конечное множество отображений {t\,t2,... ,tp} из R в D; причем каждое отображение t Є г должно удовлетворять следующему ограничению: t(Ai) принадлежит Д, 1 і п. Эти отображения называются кортежами. Нетрудно видеть, что кортежи соответствуют строкам таблиц из предыдущего неформального определения.

В качестве языка манипуляции данными, представленными в реляционной модели, наибольшее распространение получил язык SQL (Structured Query Language). Первой системой управления базами данных (СУБД), основанной на реляционной модели, является System R [94]. Среди реляционных СУБД, наиболее часто используемых в настоящее время, можно отметить следующие: Oracle Database, Microsoft SQL Server, Borland InterBase.

Иерархическая модель. В иерархической модели данные организованы в виде упорядоченного дерева (рисунок 1.3). К сожалению, для иерархической модели не существует развитой теоретической базы, подобной теории реляционных баз данных. В следствии этого, СУБД, построенные на иерархической модели, имеют различную архитектуру, используют различные языки манипуляции данными, методы задания ограничений целостности и т.д.

Первой из зарегистрированных промышленных систем управления базами данных явилась СУБД IMS фирмы IBM [100], основанная на данной модели. Спецификация структуры данных в ней задается деревом, состоящим из типов записей. Каждый тип записи содержит одну или более единицу данных. Все данные в СУБД IMS хранятся в записях соответствующих типов. Причем, иерархия записей определяется иерар хией типов записей, заданной спецификацией. Запросы к базе данных осуществляются с помощью языка DL/1 (Data Language/1).

В настоящее время активно развиваются иерархические СУБД на основе языка XML (Extensible Markup Language) [19]. Для спецификации структуры данных в них используются языки XML Schema и DTD (Document Type Definition). В качестве языка запросов к таким базам, как правило, используется языки XSLT [12] и XQuery [103]. Следует отметить, что все перечисленные выше языки поддерживаются и стандартизируются консорциумом World Wide Web Consortium (W3C). Однако XML-базы данных появились сравнительно недавно и, несмотря на активные работы в данной области, пока не получили широкого распространения.

Сетевая модель. В сетевой модели структура данных соответствует ориентированному графу (рисунок 1.4). Существует достаточно большое количество различных моделей, относящихся к данному типу. Классическим примером является модель, предложенная Рабочей группой по базам данных (РГБД) Ассоциации по языкам систем обработки данных (КОДАСИЛ) [92]. На ее основе были созданы многие коммерческие СУБД, в том числе IDMS, DMS-1100, SIBAS. В модели РГБД КОДАСИЛ спецификация структуры данных определяется набором типов записей, кроме того, для каждой пары типов записей можно задать типы возможных связей между экземплярами записей. Из практических соображений допускаются только связи вида 1 : N, а для представления связей вида М : N используются вспомогательные записи.

Характеристики типизации структурных элементов

Основной характеристикой структуры контента является п— количество структурных элементов. Как правило, чем больше количе ство структурных элементов, используемых для представления данного контента, тем шире возможности по его обработке. Для оценки типизации контента важное значение имеет количество используемых при этом типов структурных элементов: пі — количество типов семантических элементов , П2 — количество типов мультимедиа информации; щ — количество типов семантической связи;. п\ — общее количество типов. Следующая группа параметров характеризует количество элементов данного типа или группы типов: \TPti{E)\ — количество элементов типа U; (J TPti(E)\ — количество семантических элементов; UeS U TPti(E)\ — количество мультимедиа элементов; иес (J TPti(E)\ — количество элементов семантической связи. Для оценки иерархической структуры контента необходимо оценить ее влияние на реализацию функций поиска и обработки информации. Так как иерархическая структура оказывает непосредственное влияние на выполнение операций СН(А), PR(A) и TPti(A) рассмотрим алгебру Л с данным ограниченным набором операций. Точнее, Л = / , О , где О — множество операций TPti, СН, PR, U, Г), \, a U — семейство всех подмножеств Е, которые можно получить из множеств Е и 0 применением конечного числа операций из О . Ниже под алгеброй будем понимать именно Л . Таким образом, задача сводится к оценке выразительности данной алгебры, то есть количество различных множеств, в ней выразимых. Для получения такой оценки введем понятие отделимых элементов. Определение 17. Структурные элементы є, є Є Е назовем отделимыми, если существует такое, выразимое в алгебре, множество В, что є Є В и є Є В (В = Е\В). Будем говорить, что е,е отделяются множеством В.

Если такого множества В не существует, е, е назовем неотделимыми. Очевидно, отношение неотделимости является транзитивным и образует классы эквивалентности. Множества, состоящие из всех попарно неотделимых элементов, будем называть неделимыми. Кроме того, для краткости, будем говорить, что выражение алгебры W отделяет элементы е, е , подразумевая, что их отделяет множество, являющееся результатом вычисления выражения W. Теорема 2. Всякое неделимое множество выразимо в алгебре. Доказательство. Пусть А — неделимое множество, покажем, что оно выразимо.

Возьмем некоторый элемент є Є А. Из определения неделимых множеств следует, что для каждого х Є А существует выразимое множество Вх, такое, что х Є Вх и є Є Вх. Тогда для каждого є Є А можно определить множество Се = U Вх, причем будут выполнены условия А С Се и е . Се. Тогда A = f] Се является выразимым в силу вырази е А Доказательство. Докажем, что M HMj = 0. Предположим обратное, пусть є Є МІ П Mj, так как М Mj, существует є Є Mj \ Mj (без ограничения общности можно считать МІ Mj). Тогда є, є Є МІ отделимы множеством Mj, что противоречит неделимости множества МІ. Равенство Е = [j МІ следует из того, что каждый элемент є Є Е принадлежит некоторому неделимому множеству, а именно, множеству неотделимых от него элементов.

Технология создания локальных версий ОЭИ

Технология создания локальных версий ОЭИ базируется на использовании пакета Microsoft MediaView. Данная библиотека используется, в частности, компанией Microsoft при создании энциклопедии Encarta, а также фирмой «Кирилл и Мефодий» при разработке российской энциклопедии «Большая энциклопедия Кирилла и Мефодия». Пакет Microsoft MediaView состоит их двух основных частей: компилятора, позволяющего объединять различные элементы контента в единую мультимедиа базу данных, и программной библиотеки, содержащей функции по работе с мультимедиа базой данных. Основным типом информации в MediaView является гипертекст в формате Rich Text Format (RTF). Для создания гиперссылок, внедрения мультимедиа данных, внесения информации для поиска используются коды и сноски специального вида, формат которых является развитием формата, используемого в Windows Help. Работа с базой данных, созданной компилятором, осуществляется через специализированную библиотеку, реализующую следующие основные функции: отображение форматированного текста; отображение мультимедиа данных, внедренных в текст; переход по гиперссылкам; индексный и полнотекстовый поиск.

Программа для просмотра информации из базы данных может создаваться с использованием любого языка программирования, позволяющего обращаться к функциям динамических библиотек, в виде которых поставляется библиотека по работе с базой данных MediaView. Библиотека MediaView содержит функции нижнего уровня. Программирование на низком уровне, как правило, чревато большими трудозатратами, объемным программным кодом, сложностью отладки. Например, программный код браузера, поставляемого в качестве стандартного примера с библиотекой MediaView, насчитывает более 8000 строк. Функции библиотеки MediaView ориентированы на работу с гипертекстом и мультимедиа данными, но не с элементами контента, вследствие чего процедуры поиска и навигации не учитывают семантическую структуру контента.

Кроме того, библиотека MediaView не поддерживает некоторые типы мультимедиа данных, например, анимацию. Для решения вышеперечисленных проблем на языке C++ была разработана специализированная библиотека объектов верхнего уровня EduLib, учитывающая специфику контента ОЭИ. Объекты, составляю щие библиотеку, можно разделить на следующие группы: объекты адресации; объекты отображения мультимедиа информации; объекты отображения гипертекста; объекты поиска и навигации; объекты интерфейса; объекты контроля знаний. Использование описанной выше библиотеки объектов позволяет эффективно создавать широкий круг электронных учебных изданий. Для создания локальных версий ОЭИ контент из XML преобразуется в формат RTF со специфической разметкой (рис. 3.3). При этом преобразование происходит в два этапа. На первом контент с помощью XSLT-преобразования конвертируется в XML-документ, структура которого соответствует структуре создаваемого RTF-документа. На втором этапе промежуточный XML-документ преобразуется в RTF-документ. Далее с помощью компилятора Media View происходит преобразование контента в базу собственного формата. Локальные версии ОЭИ создаются на базе библиотеки EduLib с использованием языка C++. Представление контента.

Основной особенностью локальных версий ОЭИ является высокая мультимедийность и интерактивность. Интерактивность достигается за счет использования специализированных объектов интерфейса. Мультимедийность — использованием большого количества разнообразных мультимедиа элементов и их интеграцией. В частности, локальные версии ОЭИ поддерживают два режима обучения: текстовый и звуковой. Текстовый режим в некоторой степени является усовершенствованным аналогом книги, а звуковой — аналогом хорошо проиллюстрированной лекции или учебного видеофильма. Оба режима являются различными способами представления одного и того же учебного материала. В текстовом режиме учебника материал представлен в виде гипертекста, иллюстрированного различного рода графической информацией: схемами, графиками, диаграммами, картами, фотографиями, анимацией и видео. Звуковой режим представляет собой озвученный диктором текст, сопровождаемый слайд-шоу из синхронизированных со звуком иллюстраций. Сочетание визуальной и аудио информации существенно увеличивает эффективность обучения. Важно отметить, что режимы согласованы между собой, это позволяет оперативно осуществлять переход между ними без потери контекста.