Разработка модели и реализация тезаурусов в Интегрированной системе информационных ресурсов Нгуен Мань Хунг

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Нгуен Мань Хунг. Разработка модели и реализация тезаурусов в Интегрированной системе информационных ресурсов : Дис. ... канд. физ.-мат. наук : 05.13.11 : Москва, 2004 97 c. РГБ ОД, 61:04-1/708

Содержание к диссертации

Введение

1. Обзор 6

1.1. Тезаурусы в описании информации 6

1.2. Стандарты представления тезауруса 7

1.2.1. Стандарт ISO 2788-1986 и Стандартно 5964-1985 7

1.2.2. Стандарт ANSI/NISOZ39.19-1993 9

1.2.3. Стандарт ГОСТ 7.25-2001 и Стандарт ГОСТ 7.24-90 10

1.3. Некоторые приложения тезаурусов в информационных системах.. 13

1.3.1. RCO Thesaurus Search - библиотека работы с поисковым тезаурусом [5] 13

1.3.2. Расширение запросов с помощью тезауруса [6] 15

1.3.3. Некоторые приложения на основе Общественно-политического тезауруса [7] 16

1.4. Подходы к описаниям тезауруса 19

1.4.1. Модель тезауруса наХМЬ Schema 20

1.4.2. Формат представления многоязычного тезауруса в RDFS [19], разработанный в рамках проекта LIMBER 22

1.4.3. Схема данных тезауруса ILRT (Institute for Learning and Research Technology) [11] 24

1.4.4. Модель тезауруса DRC (Dynamics Research Corporation)[l2]... 25

2. Модель тезауруса 26

2.1. Особенности применения тезаурусов в информационных системах26

2.2. Требования к реализации тезауруса в информационной системе... 28

2.3. Платформа реализации тезауруса, требования Semantic Web 29

2.4. Resource Description Framework (RDF) и RDF Schema как основной формат метаданных в Semantic Web 30

2.5. RDF схема тезауруса 38

3. Реализация тезауруса в ИСИР РАН 45

3.1. Требования к интерфейсам работы с тезаурусом: 45

3.2. Модель вариантов использования 48

3.3. Диаграмма перемещения по страницам системы 49

3.4. Общая схема работы системы 50

3.5. Импорт, Экспорта данных тезаурусов 59

3.6. Описание схемы данных подсистемы — реализация тезаурусов 62

3.7. Краткое описание пользовательских интерфейсов 64

4. Интегрированная система информационных ресурсов Министерства Образования и Подготовки (ВМОиП) 70

4.1. Описание системы ВМОиП 70

4.2. Требования к системе ВМОиП 73

4.3. Схема данных системы ВМОиП 74

4.4. Реализация интегрированной системы информационных ресурсов ВМОиП с использованием технологий ИСИР 83

5. Выводы 94

RCO Thesaurus Search - библиотека работы с поисковым тезаурусом [5]
Формат представления многоязычного тезауруса в RDFS [19], разработанный в рамках проекта LIMBER
Resource Description Framework (RDF) и RDF Schema как основной формат метаданных в Semantic Web
Описание схемы данных подсистемы — реализация тезаурусов

Введение к работе

В настоящее время глобальная сеть Internet является важнейшим 9 источником информации для всех областей знаний, однако поиск информации при помощи Internet зачастую оказывается малоэффективным. Это происходит потому, что изначально World Wide Web (Web) технологии исключительно ориентировались на поддержку человеческой деятельности по поиску и навигации в информационном пространстве Web-ресурсов. Благодаря принципам, легшим в основу Web, он развивается высокими темпами, развивается как экстенсивно, так и интенсивно. Информация, находящаяся в Web слабо упорядочена, постоянно изменяется, причем как сама информация, так и ее положение. Использование всего богатства имеющихся источников информации в информационных системах сопряжено с проблемами эффективного обнаружения требуемой информации. Имеющиеся системы не позволяют осуществить эффективный поиск требуемой информации.

Это связано и с возрастанием объема информации, и со способами выбора того, что следует индексировать, как обеспечить равноправное индексирование всего пространства информации, с проблемами определения, • в контексте каких поисковых запросов следует выдавать ту или иную информацию. Имеется много всевозможных способов поиска информации, ее извлечения и доставки, тем не менее, отыскать нужную информацию в информационных системах и Интернет становится все труднее и труднее.

Для решения этих проблем необходимо создавать и использовать всевозможные средства, классифицирующие, индексирующие информацию, облегчающие поиск необходимых ресурсов, делающие поиск значительно более управляемым, предметным и содержательным. В настоящее время следующие направления исследования очень актуальны:

-Применение тезаурусов в информационных системах для классификации, индексирования, поиска информационных ресурсов, аннотирования текстов, и пр.

-Применение метаданных для описания объектных моделей ресурсов информационных систем и атрибутного поиска. Использование метаданных позволяет представлять данные в семантически обусловленном формате. Актуальность работы

Из вышесказанного следует, что значительный интерес представляет разработка и реализация информационной системы, реализация которой предусматривает: » -Использование метаданных для описания ресурсов.

-Использование тезаурусов для классификации, индексирования ресурсов, а также для их эффективного поиска.

-Применение открытых стандартов взаимодействия систем, поиска, обмена и представления данных.

Целью диссертационной работы является исследование подходов к применению тезаурусов в информационных системах (ИС). Эта цель достигается посредством решения следующих задач:

1) Изучение структуры тезауруса и основных стандартов его описания и представления (ISO, ГОСТ, ANSI).

2) Разработка общей универсальной схемы представления тезаурусов в информационно-поисковых системах, позволяющей осуществлять эффективное использование тезауруса при поиске, классификации и навигации в пространстве ресурсов информационной системы.

3) Реализовать прикладную логику и пользовательские интерфейсы работы с тезаурусами для информационного портала ИСИР на основе универсальной схемы представления тезаурусов.

4) Реализация портала - Интегрированная Система Информационных Ресурсов Вьетнамского Министерства Образования и Подготовки (ВМОиП) с использованием технологий ИСИР портала. Система должна строиться на основе объектной схемы данных, отображаемой в конкретные базы данных разных типов. Такой подход позволяет легко расширять систему и интегрировать свои данные с данными других систем. Система должна представлять разные права доступа к ресурсам для разных пользователей. Система должна поддерживать много языков (как для интерфейсов и так для хранимых ресурсов), предоставлять удобные интерфейсы для поиска, просмотра, редактирования, пакетной выгрузки и загрузки ресурсов.

Краткое содержание работы

Работа состоит из четырех глав. Первая глава содержит обзор некоторых стандартов для представления тезаурусов, возможных применений тезаурусов в ИС и различных подходов к описанию схемы данных тезаурусов на основе объектной модели, а также анализ этих подходов. Вторая глава посвящена описанию общей универсальной схемы представления тезаурусов. На основе анализа, проведенного в первой главе, создана схема, пригодная для представления любого тезауруса (в том числе и многоязычного). В третьей главе описывается реализация тезаурусов в информационном портале ИСИР, осуществленная в соответствии с вышеописанной схемой. Реализация позволяет через Web-интерфейсы просматривать, создавать, редактировать, загружать, выгружать тезаурусы и их понятия, искать понятия по значениям их атрибутов. Можно осуществлять навигацию в пространстве тезаурусов по связям, просматривая сведения о них, загружая их содержани. В четвертой главе описана реализация системы » ВМОиП, использующая, в частности, описанную выше реализацию тезаурусов. Система позволяет через Web-интерфейс создавать новые ресурсы, редактировать их свойства, искать ресурсы по значениям их атрибутов. Можно осуществлять навигацию в пространстве ресурсов, просматривая сведения о них, а также выгружать, загружать данные в систему из открытых форматов. Тезаурусы в системе ВМОиП используются для классификации ресурсов, для построения запросов и расширения запросов. Система реализована на платформе Java, использует RDBMS MS SQL Server и Tomcat Web-сервер.

RCO Thesaurus Search - библиотека работы с поисковым тезаурусом [5]

В стандарте указаны следующие ограничения на структуру тезауруса: Из термина, не являющегося наиболее предпочтительным для какого-либо понятия, могут исходить только связи USE и USE+, а входить только связи UF и UF+. Никаких других связей этот термин иметь не может. Термин не может иметь связи с самим собою. Одна пара терминов не может иметь 2 или более связи (за исключением случаев, когда одна связь следует из другой по правилам стандарта). Стандарт ANSI/NISO Z39.19-1993 помимо структуры регламентирует также и другие аспекты создания, представления и поддержки тезаурусов. Однако это выходит за рамки рассмотрения данной статьи. ГОСТ 7.25-2001 -Тезаурус информационно-поисковый одноязычный. Этот стандарт устанавливает правила разработки, структуру, состав и форму представления информационных тезаурусов ориентированных на использование лексики русского языка и разрабатываемых в рамках автоматизированных информационных систем и сетей научно-технической информации. Гост 7.25-2001 также как и ANI/NISO Z39.19-1993, он расширяет и уточняет стандарт ISO 2788-1986 для одноязычных тезаурусов. В этом стандарте определены два типа терминов: Дескриптор (как preferred term в ISO) и Аскриптор (как поп preferred term в ISO). Этот стандарт распространяется на многоязычные информационно-поисковые тезаурусы (МИПТ) и устанавливает состав, структуру и основные требования к построению МИПТ, применяемых в информационно-поисковых системах. МИПТ - согласованная совокупность одноязычных информационно-поисковых тезаурусов, содержащая эквивалентные дескрипторы на языках -компонентах МИПТ, необходимые и достаточные для межъязыкового обмена, и включающая средства для указания их эквивалентности. Одноязычной версией МИПТ называют каждый из одноязычных тезаурусов, входящих в состав МИПТ. Дескриптором МИПТ называют совокупность эквивалентных дескрипторов одноязычных версий, связанных связями эквивалентности. Существуют следующие виды эквивалентности терминов: 1) полная; 2) неполная (понятия, выражаемые терминами, пересекаются); 3) частичная (понятие, выражаемое одним термином, является часть понятия, выражаемого другим); Допускается также использование вышеперечисленных связей для выражения эквивалентности вида "один ко многим". В этом случае дескриптор на одном языке может быть связан с несколькими дескрипторами на другом языке. При наличии в языках-компонентах полностью эквивалентных терминов они считаются представителями одного дескриптора МИПТ. При отсутствии в языках-компонентах полных эквивалентов для выражения одного и того же понятия в качестве дескриптора МИПТ в одноязычных версиях используют неполные и частичные эквивалентные дескрипторы. При этом к связям эквивалентности приписывают реляторы или комментарии, описывающие степень эквивалентности. Рекомендуются также и некоторые другие способы решения этой проблемы, малопригодные для машинной реализации. 1.3. Некоторые приложения тезаурусов в информационных системах. 1.3.1. RCO Thesaurus Search - библиотека работы с поисковым тезаурусом [5] Этот поисковый тезаурус предназначен для расширения запросов к тексту близкими по смыслу словами, что обеспечивает высокую полноту и точность поиска в информационно-поисковых системах. Используемый в библиотеке тезаурус русского языка позволяет описать два типа семантических отношений между словами и словосочетаниями: синонимические и гипонимические (общее-частное). Тезаурус представляет одноуровневую иерархию, в которой лексические единицы (или целые синонимические ряды) объединяются в обобщающие понятия - гиперонимы. Все синонимичные слова, объединенные под одним обобщающим понятием, носят название гипонимы. Например: глаголы "красть", "украсть", "воровать", ... являются синонимами и образуют один синонимический ряд, существительные "вор", "воришка", "воровка", "жулик", ... образуют другой синонимический ряд, а существительные "воровство", "кража", "татьба" - третий. При этом все три синонимических ряда объединяются под одним обобщающим гиперонимом -"воровство", и все входящие в эти ряды слова являются гипонимами. Для любой строки (слова, словосочетания, фрагмента текста) средства библиотеки позволяют получить следующие семантически близкие варианты: Множество строк, в которых все слова и словосочетания заменены всеми возможными синонимами, во всех возможных комбинациях. (Например, по строке "кражи в Российской Федерации" можно получить следующее множество синонимичных строк для расширения запроса к поисковой системе: КРАЖА РФ, КРАЖА РОССИЙСКАЯ ФЕДЕРАЦИЯ, КРАЖА РОССИЯ, ВОРОВСТВО РФ, ВОРОВСТВО РОССИЙСКАЯ ФЕДЕРАЦИЯ, ВОРОВСТВО РОССИЯ, ТАТЬБА РФ, ТАТЬБА РОССИЙСКАЯ ФЕДЕРАЦИЯ, ТАТЬБА РОССИЯ;) Множество строк, в которых все слова и словосочетания заменены всеми возможными гипонимами, во всех возможных комбинациях. (Например, по строке "российская наука" можно получить 36 близких по смыслу строк, образованных в результате комбинирования всех гипонимов слова "российский" (РОССИЯ, РФ, РОССИЙСКАЯ ФЕДЕРАЦИЯ, РОССИЯНИН, РОССИЯНКА, РОССИЙСКИЙ, ВСЕРОССИЙСКИЙ, ОБЩЕРОССИЙСКИЙ, ВЕЛИКОРОССИЙСКИЙ) и всех гипонимов слова "наука" (НАУЧНЫЙ, НАУЧНОСТЬ, НАУКОЕМКИЙ, НАУКА);) Главный синоним, общий для всех членов синонимического ряда, либо гипероним - обобщающее понятие для всех синонимов и гипонимов. Например, для слов "украсть", "красть", "стырить", "слямзить" можно получить их главный общий синоним "воровать" и общий гипероним "воровство". В состав библиотеки входит морфологический анализатор русского языка со словарем более 110 тысяч слов, поэтому слова запроса могут быть заданы в любых грамматических формах. Дополнительно в состав тезауруса входят словари стоп-слов, которые позволяют исключать из обрабатываемого текста семантически малозначимые слова, например: "некоторый", "будто", "по", "пять" и т.п. Основу библиотеки составляет тезаурус общей лексики русского языка, в который вошло около 75 тысяч слов и словосочетаний, объединенных в 22 тысячи гипонимических рядов (22 тысячи гиперонимов), в том числе 17 тысяч синонимических рядов, охватывающих 45 тысяч слов. Стоп-словари содержат около 3-х тысяч слов.

Формат представления многоязычного тезауруса в RDFS [19], разработанный в рамках проекта LIMBER

Эта схема данных строилась в расчете на работу не только с тезаурусами в обычном, «лингвистическом» смысле, но и с классификаторами. Потому язык термина привязан не к понятию, а к самому термину, а термины на разных языках, точно эквивалентные друг другу, привязаны к одному и тому же понятию. Термины на разных языках, не имеющие строгой эквивалентности, должны быть отнесены к разным понятиям. Модель предполагает 2 уровня детализации описания тезауруса. Первый уровень реализует связи, предусмотренные стандартом ISO 2788-1986 для одноязычных тезаурусов, а также атрибут «язык» для терминов. Второй уровень детализации пока не оформлен в виде RDFS, и предполагает детализацию ряда связей 1 уровня детализации. Например, связь «более общее понятие» распадается на 3 RDF-связи, реализующие 3 описанных выше вида этой связи. Аналогично происходит детализация других связей.

По сути, эта схема предназначена для одноязычных тезаурусов и для тезаурусов-классификаторов, поскольку механизм полной поддержки многоязычных тезаурусов никак не прописан, а обозначено только направление, как это можно сделать в рамках данной модели.

Особенностью данной модели, в сравнении с предыдущей, является отсутствие избыточных связей оптимизирующих скорость исполнения запросов. Например, нет связи «более широкое понятие», поскольку оно является обращением связи «более узкое понятие». Отсутствует также связь понятий с самыми верхними понятиями включающих их иерархий, поскольку она тоже вычисляется из иерархических связей. Это накладывает дополнительные ограничения на техническую реализацию такой модели. В частности, традиционные способы реализации графов не позволят за один шаг вычислить корневую вершину иерархии для произвольного понятия.

Эта модель наиболее точно соответствует модели одноязычного тезауруса ISO 2788-1986. В частности, в нем отсутствует класс понятий, и все связи существуют только между терминами. Некоторые связи детализированы, в частности выделены разные виды связей менее предпочтительными терминами. Модель реализована на языке DAML [20].

Стоит выделить одну явную ошибку этой модели. Связь Related Term является транзитивной, что не соответствует действительности. Например, связанными терминами являются транспортировка нефти и трубы для нефтепроводов, а также трубы для нефтепроводов и стальной прокат. Однако прямой связи между понятиями транспортировка нефти и стальной прокат, очевидно, нет [10].

Поскольку в модели нет понятий, как отдельных объектов, она не удобна для реализации классификаторов, а также для реализации многоязычных тезаурусов.

Описанные выше стандарты были разработаны для представления тезаурусов в виде, удобном для ручной индексации информационных ресурсов. Такая модель может быть также использована для машинной индексации с целью осуществления последующего поиска по ключевым словам.

Однако существует ряд тезаурусов, основная задача которых не индексация ресурсов, а их классификация. В этом случае основными объектами таких тезаурусов (классификаторов) выступают не термины, а понятия (рубрики), и часто, идентифицирующие их уникальные идентификаторы (коды классификации). Отношения в таком тезаурусе — не семантические связи между терминами, а характеризующие логику описываемой предметной области отношения между понятиями (рубриками). Примерами таких тезаурусов могут служить тематические классификаторы в разных отраслях науки, например, MSC [13], PACS [14], DDC [15].

Структура классификатора соответствует структуре обычного тезауруса, поскольку связи между его рубриками по смыслу те же, что и между терминами тезауруса, и классификатор является его частным случаем. Однако при классификации в соответствие ресурсам ставятся не термины, а обозначаемые ими понятия. Потому в схеме данных информационной системы понятия тезауруса должны быть выделены в самостоятельные объекты. Это означает, что такая схема должна иметь структуру, отличную от вышеописанных стандартов, в которых понятия не выступают отдельными объектами, а есть лишь термины и связи между ними. В то же время, схема должна позволять работать с тезаурусами, описанными в соответствии с этими стандартами, т.е. быть совместима с ними.

Среди связей между терминами в вышеописанных стандартах следует различать связи, которые по смыслу характеризуют фактически соотношения не между терминами, а между термином и обозначаемым им понятием. К таковым относятся связи Use, Used For в ISO 2788-1986 и связи Смотри (Use), Синоним (UF), Используй альтернативно, Используй комбинацию (Use+), Сравни альтернативный выбор, Сравни KOM6uHau,uio(UF+) в ГОСТ 7.25-2001. В схеме данных для информационной системы стоит ставить такие связи между понятиями и терминами, которые их обозначают. Аналогично, иерархические и ассоциативные связи по смыслу являются связями между понятиями. Признак Top Term также является признаком понятия, находящегося на вершине иерархии понятий.

Таким образом, получается следующее отображение связей между терминами в стандартах ISO и ANSI для одноязычных тезаурусов на отношения в схеме данных информационной системы: те связи, которые допустимы между наиболее предпочтительными терминами (дескрипторами) для каких-либо понятий, в схеме данных информационной системы становятся отношениями между понятиями. Те связи, которые были допустимы между наиболее предпочтительным термином (дескриптором) и другими терминами (аскрипторами) данного понятия, становятся отношениями между понятием и термином.

Как указывалось выше, в многоязычных тезаурусах термины имеют атрибут язык, на котором данный термин обозначает данное понятие. Кроме того, стандартами ISO 5964-1985 и ГОСТ 7.24-90 предусматривается ряд отношений эквивалентности между терминами на разных языках, допускающие, помимо строгой эквивалентности, несколько видов неполной эквивалентности терминов. По смыслу атрибут язык — свойство термина, а не понятия. В то же время термины на разных языках, между которыми есть только частичная эквивалентность, строго говоря, соответствуют разным, пусть и близким, понятиям.

Resource Description Framework (RDF) и RDF Schema как основной формат метаданных в Semantic Web

С введением механизмов определения словарей, деятельность Semantic Web выходит на новый уровень. На данный момент различные организации по стандартизации предлагают стандартные словари для описания ряда предметных областей. Использование таких публичных словарей (или сопоставление с ними) позволяет «незнакомым» приложениям обмениваться информацией друг с другом, точно так же, как человек, попавший в чужую страну без знания языка, всё равно сможет в ней общаться - с помощью «стандартного» языка жестов, или, например, угадывая латинские, греческие, славянские корни в словах. В качестве примера таких инициатив стандартизации можно упомянуть инициативу Dublin Core [25], предоставляющую минимальный набор свойств для идентификации ресурсов Web, Publishing Requirements for Industry Standard Metadata (PRISM), определяющую словарь метаданных для издательских организаций, Electric Power Research Institute Common Information Model, указывающую общую семантику для энергетических систем, RDF Site Summary для описания каналов новостей Web-порталов и многие другие инициативы.

Язык RDFS может быть расширен дополнительными примитивами моделирования, более детально и специализировано описывающими нужные аспекты классов и свойств. Механизм расширения внутренне присущ RDFS, поскольку для описания схем используется модель данных RDF, которая позволяет расширить описание любых ресурсов дополнительной информацией. Предопределённый словарь «мета-типов» RDFS также может быть расширен под нужды приложения, благодаря чему появляется возможность добавлять в язык новые примитивы.

Расширяемость позволяет RDFS стать фундаментом для более богатых языков концептуального моделирования - языков описания web-онтологий предметных областей. Цель таких языков — указать дополнительную машинно-интерпретируемую семантику ресурсов, то есть сделать машинное представление данных более похожим на положение вещей в реальном мире. Использование богатых языков концептуального моделирования позволит адаптировать к Web большое количество наработок в области систем инженерии знаний и баз знаний. Привлечение к Web систем логики и искусственного интеллекта составляет вершину «пирамиды Semantic Web», обеспечивая адекватный поиск информации и её машинную интерпретацию.

Первыми предложениями по описанию онтологии на базе RDFS были DAML-ONT (DARPA Agent Markup Language) [20] и European Commission OIL (Ontology Inference Layer) [26]. На базе этих двух предложений возникло совместное решение - DAML+OIL [21], которое привело к созданию в рамках инициативы Semantic Web отдельной группы, ответственной за пересмотр этого решения и стандартизацию языка описания Web-онтологий (OWL - Web Ontology Language) [27].

Однако ориентированность языков описания онтологии на системы математической логики делает их слишком тяжеловесными для огромного количества приложений, которым достаточно простого языка описания словарей - RDFS.

Система типов RDFS похожа на многие общепринятые системы типов, как в ER-моделировании, объектно-ориентированном программировании и UML, и т.п. Инициатива Semantic Web не ставит перед собой цели создать новую модель данных, напротив, она ориентируется на интеграцию различных моделей данных с целью получения информации из соответствующих источников. RDFS отличается от этих стандартных систем типов в нескольких существенных аспектах, которые являются следствием глобализации и децентрализации информационной системы, к которой мы приходим, «выходя» в Web из установленных моделью данных рамок. В каком-то смысле RDF(S) есть адаптация этих моделей к Web. Рассмотрим сопоставление примитивов RDFS и модели данных объектно-ориентированного программирования.

Один из архитектурных принципов Semantic Web состоит в том, что кто угодно может расширить описание существующих ресурсов [28], то есть «кто угодно может сказать, что угодно, о чём угодно». Это означает, что отношение между двумя объектами может храниться отдельно от любой другой информации об этих объектах. Это сильно отличается от того, к чему мы привыкли в обычных объектно-ориентированных системах, в которых считается, что информация об объекте хранится внутри объекта: определение класса объекта подразумевает указание места хранения его свойств. Такое отличие является следствием децентрализации и адаптации к положению вещей в реальном мире. Например, один человек может определить автомобиль, как нечто, имеющее колёса, вес и размер, но не предвидеть цвет. Это не остановит другого человека от утверждения, что его машина — красная, используя некоторый словарь цветов.

Из этого архитектурного принципа Web следует основное отличие парадигмы RDFS от объектной парадигмы - это ее свойство-центричность. Свойства (отношения, предикаты) в RDFS являются объектами первого уровня, как и классы: они идентифицируются URI и определяются независимо от классов, тогда как в объектной и ER парадигмах свойства (атрибуты) указываются в «теле» класса, смысл свойств с одинаковыми названиями в разных классах может быть различен. Впрочем, такой подход уже использовался, например, в Х.500, LDAP, где свойства и их характеристики описываются отдельно от класса, а потом «привязываются» к нужным классам. Он оправдывает себя в системах, ориентированных именно на хранение разнообразной слабоструктурированной информации.

Вместо того, чтобы описывать классы в терминах свойств (структуры), имеющихся у него, как это делается в объектно-ориентированных системах, RDFS описывает свойства в терминах классов, к которым они применимы, указывая rdfsidomain (область применения свойства) и rdfs:range (область значений свойства). Различие между этими подходами может показаться только синтаксическим, но на самом деле есть существенная разница, которая связана как раз с глобализацией информационной системы при адаптации её к Web, где «кто угодно может сказать, что угодно, о чём угодно». Например, если кем-то определен класс exiBook со свойством ex:author, принимающим значения типа exiPerson, то это не запрещает другим разработчикам придать классу ех:Воок дополнительное свойство my:publisher, достаточно лишь указать этот класс в rdfsidomain нового свойства myipublisher. Это не требует переопределения класса, причем создатели класса могут быть в неведении данного факта. В то же время в ООП потребовалось бы переопределить и перекомпилировать класс.

Кроме того, RDFS вообще не требует, чтобы у свойства была задана область применения - свойство без domain может быть использовано для описания любого ресурса, независимо от его класса. Определение свойства без указания области применения позволяет использовать его в будущем в ситуациях, которые не могли быть предвидены в момент разработки схемы. Именно так поступает Dublin Core, предоставляя словарь стандартных свойств, пригодных для описания любого Web-pecypca, для которого они окажутся полезными.

Описание схемы данных подсистемы — реализация тезаурусов

Вьетнамское Министерство Образования и Подготовки, его организации обладают огромным количеством разнообразной информации, распределенные источники которой отличаются качеством и полнотой представления информации, включают данные справочного характера и данные о научной деятельности. К данным справочного характера относятся сведения об организационной структуре ВМОиП, контактно-адресные данные, телефоны и т.п.

В организационную структуру ВМОиП входят: президиум ВМОиП, городские государственные институты, научные центры, институты и много других типов организационных единиц. Эти организации объединены между собой связями двух типов: административное подчинение, научное руководство.

Каждая организация состоит из образующих иерархическую структуру организаций, например, факультетов, кафедр, отделов, лабораторий, секторов. Персонал организации включает научных сотрудников, административный и обслуживающий персонал. Один и тот же человек может занимать разные должности, как в одной, так и в разных организациях. Данные о научной деятельности включают научные публикации, технические отчеты, экспериментальные данные, материалы проводимых и выполненных проектов и т.п. Существует потребность в объединении этих имеющих распределенный характер данных в концептуально одну информационную систему, в обеспечении централизованного доступа к ним, в создании на основе Интернет технологий единого информационного пространства ученых. Интегрированная система информационных ресурсов ВМОиП ориентирована на решение этой задачи. Первым этапом проекта являлось создание типовой информационно-поисковой системы организации ВМОиП, предоставляющей Интернет доступом к ее данным. Система должна обеспечивать разнообразные формы поиска системных ресурсов, предоставлять возможность навигации по структурно представленной информации (например: по структуре организаций). Система должна иметь возможность связывать с другими информационными системами ресурсов ВМОиП. Таким образом, в этой системе есть такие типы ресурсов, как Организация, Подразделение, Персона, Публикация, Проект и Тезаурусы: MSC [13], DDC [15], ГРНТИ. Ресурс Организация включает президиум ВМОиП, институты, городские государственные институты, научные центры и другие организации ВМОиП. С ресурсом Организация связана информация о подчиненных Организациях ВМОиП, информация о подчиненных подразделениях ВМОиП и данные об их сотрудниках (данные ресурса Персона). Ресурс Персона описывает сотрудников ВМОиП. Ресурс Проект поддерживает сведения о проектах, выполненных или ведущихся в ВМОиП. Ресурс Публикация представляет данные о публикациях и научной деятельности сотрудников ВМОиП. 1) Ресурсы Организация, Подразделение имеют много одинаковых атрибутов: Полное и сокращенное названия Тип и вид организационной единицы (научная, административная, хозяйственная) Почтовый адрес, адрес для телеграмм, телефоны, факсы, телексы, телетайпы, e-mail, URL ссылки Схема проезда Историческая справка Направления деятельности, ключевые слова и понятия, соответствующие этим направлениям Фото Многозначный атрибут Должность ресурса Подразделение состоит из следующих элементов. Название, тип и вид должности. Способ занятия должности. Телефоны, факсы, e-mail, URL ссылки. Связи с другими ресурсами: Персона. Занимает определенную должность. Яублигаг/шг. (данная организация является автором) Организация. Организация административно подчинена или входит в состав другой организации. Проект. Организация участвует в данном проекте. 2) Атрибутами ресурса Персона являются Фамилия, имя, отчество Академическое звание, ученое звание Ученая степень Направления деятельности, ключевые слова и понятия, соответствующие этим направлениям Биография. Фото День рождения Домашний телефон Личный персональный email Связи с другими ресурсами Публикации. Персона является автором, редактором. Проекты. Персона является руководителем или участником. Организации. Персона занимает определенную должность. 3) Ресурс Публикация имеет следующие атрибуты Название и аннотация Дата издания Язык публикации Вид и место издания, том, номер, страницы Полный код УДК. Полный кодДДК. Полный код MSC Полный код ГРНТИ Научная тема, ключевые слова и понятия, соответствующие ей. URL- ссылки на полный текст Связи с тезаурусами: Коды MSC. Коды ДДК. Коды УДК. Коды ГРНТИ. Связи с другими ресурсами: Публикация. {Составная часть. Например, статья является составной частью выпуска журнала или трудов конференции) Персона. Является автором или редактором данной публикации. Организация, (данная организация является автором) Проект. Публикация выполнена в рамках данного проекта.

Разработка модели и реализация тезаурусов в Интегрированной системе информационных ресурсов Нгуен Мань Хунг

RCO Thesaurus Search - библиотека работы с поисковым тезаурусом [5]

Формат представления многоязычного тезауруса в RDFS [19], разработанный в рамках проекта LIMBER

Resource Description Framework (RDF) и RDF Schema как основной формат метаданных в Semantic Web

Описание схемы данных подсистемы — реализация тезаурусов

Похожие диссертации на Разработка модели и реализация тезаурусов в Интегрированной системе информационных ресурсов