Методы и алгоритмы автоматизированной интеграции информационных ресурсов на основе онтологического подхода Семерханов Илья Александрович

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Семерханов Илья Александрович. Методы и алгоритмы автоматизированной интеграции информационных ресурсов на основе онтологического подхода: диссертация ... кандидата технических наук: 05.13.12 / Семерханов Илья Александрович;[Место защиты: Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики»].- Санкт-Петербург, 2014.- 140 с.

Содержание к диссертации

Введение

ГЛАВА 1. Постановка задачи и обзор современных тенденций в области интеграции 16

1.1 Задача интеграции информационных ресурсов 16

1.2 Основные проблемы интеграции ИС 17

1.3 Обеспечение интероперабельности 18

1.4 Способы интеграции ИС 23

1.4.1 Классификация современных подходов 23

1.4.2 Технологии для интеграции ИС 26

1.5 Обеспечение семантической интероперабельности 30

1.5.1 Метаданные 31

1.5.2 Связанные данные 32

1.6 Выводы по первой главе 35

ГЛАВА 2. Применение онтологии для интеграции данных 36

2.1 Интеграция на основе онтологии 36

2.1.1 Понятие предметной области 36

2.1.2 Понятие онтологии 38

2.1.3 Семантические метаописания 41

2.1.4 Способы использования онтологических моделей 42

2.1.5 Применение онтологии предметной области при интеграции ИС с использованием связанных данных 44

2.2 Методологии онтологического моделирования 45

2.2.1 Методология TOVE 46

2.2.2 Методология EMA 47

2.2.3 Методология METHONTOLOGY 47

2.2.4 Стандарт IDEF5 48

2.3 Выбор языка моделирования онтологии 50

2.3.1 Языки, основанные на синтаксисе 50

2.3.2 Языки разметки 51

2.4 RDF, RDFs и OWL для описания связанных данных 54

2.5 SPARQL для доступа к метаданным 60

2.6 Выводы по второй главе 62

ГЛАВА 3. Разработка методов и алгоритмов 63

3.1 Метод извлечения семантических метаописаний 63

3.2 Алгоритмы излечения связанных данных 71

3.2.1 Алгоритм отображения информации о структуре БД 71

3.2.2 Алгоритм извлечения информационных ресурсов 79

3.3 Метод автоматизированного анализа сходных элементов 86

3.4 Оценка вычислительной сложности разработанных алгоритмов 92

3.5 Выводы по третьей главе 95

ГЛАВА 4. Применение разработанных методов и алгоритмов 96

4.1 Разработка автоматизированной системы интеграции 96

4.2 Требования к системе 97

4.2.1 Функциональные требования 97

4.2.2 Требования стандартов 99

4.2.3 Требования безопасности 100

4.2.4 Требования производительности 100

4.3 Разработка функциональной модели 101

4.4 Проектирование архитектуры автоматизированной системы 105

4.4.1 Модуль R2RMapperCore 107

4.4.2 Модуль R2RMapperWi 112

4.4.3 Модуль R2RMapperBatch 114

4.4.4 Модуль MatchingDB 115

4.4.5 Матрица соответствия требованиям 115

4.5 Структура работы автоматизированной системы 116

4.5.1 Общий алгоритм работы 116

4.5.2 Интеграция данных при помощи системы R2RMapper 117

4.6 Анализ полученных результатов 125

4.6.1 Тестирование производительности 126

4.6.2 Сравнение с другими системами интеграции 128

4.7 Выводы по четвертой главе 131

Заключение 132

Литература

Обеспечение интероперабельности
Способы использования онтологических моделей
Алгоритм отображения информации о структуре БД
Разработка функциональной модели

Введение к работе

Актуальность темы. Развитие информационных технологий привело к
созданию большого количества разнообразных гетерогенных автоматизированных
информационных систем (ИС) и, в частности, систем автоматизации проектирования
(САПР), предназначенных для автоматизации бизнес процессов, хранения
персональных, справочных и других типов данных, ведения отчетности и статистики.
Такой отрасли как приборостроение также свойственно наличие различных ИС и
всевозможных источников информации, например: систем хранения нормативно-
справочных данных, классификаторов оборудования, материалов и так далее. В
данной диссертационной работе термин ИС трактуется как понятие, описанное в
федеральном законе №149-ФЗ от 27 июля 2006 года «Об информации,
информационных технологиях и о защите информации»: информационная система —
совокупность содержащейся в базах данных информации и обеспечивающих её
обработку информационных технологий и технических средств. Таким образом, под
информационной системой понимаются и всевозможные САПР, и различные СУБД, и
другие системы автоматизации. Такие системы отличаются архитектурой, способами
доступа, организации хранения и обработки информации, моделями данных и
многим другим, однако, на практике, часто оказывается, что в какой-то степени они
дублируют друг друга. Наиболее актуальными задачами развития ИС сейчас
становятся обеспечение интероперабельности и интеграция между ними. Объем
обрабатываемой информации постоянно растет и специалистам в области
информационных технологий необходимо обеспечить эффективный обмен

информацией между системами, но при этом избежать дублирования и потерю информации.

Под интеграцией данных в информационных системах понимается обеспечение единого унифицированного интерфейса для доступа к некоторой совокупности неоднородных независимых источников. Иными словами информационные ресурсы из всех распределенных источников, могут быть доступны для пользователя из любой интегрируемой системы или из единого интерфейса для доступа к данным. Системы, реализующие такие возможности, называются системами интеграции, и они избавляют пользователя или другую интегрируемую систему от сведений о том, из какого источника они получают информацию, каким образом осуществляется доступ и какими свойствами обладают эти источники.

Источниками распределенных данных могут быть как обычные системы управления базами данных, работающие на основе различных подходов: реляционные, объектно-ориентированные, объектно-реляционные, так и разнообразные системы, работающие на других технологиях. Таким образом, обеспечение доступа к данным из многих гетерогенных источников через единый интерфейс означает, по сути, создание единого

представления совокупности всех данных из множества независимых источников в рамках единой предметной области.

Проблематика решения этой задачи обусловлена тем, что информационные системы в большинстве случаев являются распределенными, т.е. физически удаленными друг от друга, сложными программными комплексами, с большим количеством информационных единиц. Помимо этого они строятся на различных технологиях с применением разных протоколов обмена. Эти факторы препятствуют построению единого унифицированного хранилища данных.

Традиционные методы решения этой задачи, чаще всего, работают на основе связей между элементами систем, построенных вручную, и реализуются в виде программного продукта, направленного на решение задачи интеграции для каждого конкретного случая. Этот подход занимает длительное время, в связи с тем, что необходимо провести детальный анализ каждой системы для выявления связей и зависимостей. Также, изменения структуры одной из системы, как правило, приводит к нарушению работы программного комплекса и требует повторного длительного анализа структуры. Таким образом, традиционные методы не предоставляют достаточно унифицированного и гибкого решения для создания системы интеграции данных, однако на практике чаще всего используются именно такие методы.

Другой важной задачей является обеспечение интероперабельности.

Интероперабельность это способность информационной системы взаимодействовать с другими системами. Такое взаимодействие может выражаться в виде обмена данными или федеративного выполнения поисковых запросов. Актуальность проблемы обеспечения интероперабельности определяется тем, что она необходима как в новых, разрабатываемых системах, так и в уже существующих ИС, для реализации обмена данными и ресурсами. Эта задача тесно связана с задачей интеграции данных и играет в ней важную роль.

Можно разделить подходы к обеспечению интероперабельности на два вида: структурный и семантический. Структурный вид подразумевает структурное согласование различных элементов в ИС. Семантический - возможность установления связей между смыслами элементов в информационных системах. На данный момент большинство существующих методов и средств решения проблемы интеграции направлены на обеспечение структурной интероперабельности, без анализа семантических, или иными словами смысловых, свойств систем.

Таким образом, существует потребность в разработке новых способов обеспечения семантической интероперабельности информационных систем, а также в создании новых систем интеграции информационных ресурсов, что подтверждает актуальность диссертационной работы. Использование семантической интеграции в САПР в приборостроении, позволит повысить общий уровень автоматизации принятия решения, а также упростит процесс нахождения оптимальных решений. Необходимо разработать новые алгоритмы и программные продукты, которые смогли

бы обеспечить интеллектуальную интеграцию систем в единое информационное поле. Такие программные продукты должны быть унифицированными, надежными и достаточно простыми в использовании.

Одним из наиболее перспективных на данный момент методов интеграции является метод, основанный на использовании метаданных для описания информационных ресурсов. Этот метод тесно связан с технологией семантических сетей и одним из ее самых перспективных и развивающихся направлений – технологией связанных данных. Этот метод и технология и были положены в основу разработанного в рамках настоящей диссертационной работы программного решения для обеспечения семантический интероперабельности систем и интеграции, хранящихся в них данных.

Все вышесказанное определило цели и задачи диссертационного

исследования.

Цели и задачи. Целью диссертационной работы является разработка новых
методов и алгоритмов интеграции разнородных источников информационных
ресурсов для увеличения эффективности их взаимодействия. Требуется разработать и
научно обосновать новые алгоритмы обеспечения интероперабельности и

семантической интеграции информационных систем, а также реализовать на их основе программный комплекс. Алгоритмы должны быть реализованы на основе исследований в области методологий и языков описания метаданных, а также современных семантических технологий, таких как связанные данные. Программный комплекс должен быть реализован с учетом различий современных платформ, а также неоднородности источников данных.

Для достижения поставленной цели в диссертационном исследовании были сформулированы следующие задачи:

Разработать метод автоматизированной интеграции информационных ресурсов, хранящихся в распределенных информационных системах, на основе онтологий;
Разработать алгоритм автоматизированного извлечения информации о структуре ИС в виде отологии из баз данных;
Разработать алгоритм для извлечения и представления в виде связанных данных семантических метаописаний информационных ресурсов;
Разработать метод автоматизированного нахождения сходных элементов в структуре интегрируемых систем, а также нахождения дублированных метаданных;
Разработать автоматизированную систему интеграции информационных ресурсов, реализующую разработанные алгоритмы, протестировать и сравнить с существующими системами.

Объект исследования. Гетерогенные источники информационных ресурсов.

Предмет исследования. Интеграция данных в гетерогенных информационных системах и обеспечение их семантической интероперабельности.

Методы исследования. Решение вышеперечисленных задач производится с применением основ теории информационных систем, теории искусственного интеллекта, методов машинного обучения, инженерии знаний и парадигмы представления знаний “семантическая сеть”. Для реализации автоматизированной системы использован объектно-ориентированный подход.

Научная новизна диссертационного исследования заключается в новом подходе к интеграции информационных ресурсов в распределённых информационных системах, основанном на определении структурных моделей источников данных и формировании на их основе, с применением общей онтологии предметной области, единой метамодели интегрируемых систем. В работе получены следующие результаты, характеризующиеся научной новизной:

Метод автоматизированного извлечения семантических метаданных информационных ресурсов из распределенных источников данных, использующий общую структурную онтологию, для определения семантических связей;

Алгоритмы автоматизированного извлечения онтологии из распределенных информационных источников, с учетом схожести извлекаемых элементов и их семантических взаимосвязей;

Архитектура программного решения, выполняющего интеграцию информационных ресурсов на основе технологии связанных данных и реализующего разработанные алгоритмы.

Положения, выносимые на защиту:

Разработан метод автоматизированной интеграции информационных ресурсов, хранящихся в распределенных информационных системах, заключающийся в последовательном извлечении структуры каждой ИС в виде онтологий, формировании на их основе, а также на основе онтологий предметной области и онтологий верхнего уровня, общей метамодели, и дальнейшем извлечении семантических метаданных информационных ресурсов из ИС, при помощи общей метамодели и механизмов логического рассуждения;
Разработан алгоритм извлечения онтологии из структуры реляционных БД в информационных системах, заключающийся в отображении таблиц и полей на онтологическую структуру и добавлении семантических взаимосвязей, на основе анализа схожести элементов БД по различным признакам;
Разработан алгоритм извлечения семантических метаданных информационных ресурсов, заключающийся в использовании общей структурной метамодели интегрируемых систем и механизмов логического

рассуждения, для определения смысловых взаимосвязей между ресурсами, и представления их в виде связанных данных; 4. Спроектирована программная автоматизированная система интеграции, реализующая разработанные алгоритмы и позволяющая объединить распределенные гетерогенные информационные ресурсы в единую сеть связанных данных.

Достоверность научных результатов. Обоснованность и достоверность научных положений подтверждается полнотой анализа теоретических и практических исследований, положительной оценкой на научных конгрессах, конференциях и семинарах, практической проверкой и внедрением полученных результатов исследований.

Практическая значимость. Реализованные в диссертационной работе методы, алгоритмы и программный комплекс позволяют интегрировать распределенные и разнородные информационные ресурсы в единое информационное поле. Использование интеллектуальной семантической интеграции нормативно-справочной информации, данных об оборудовании, существующих изделиях и другой полезной информации в приборостроении, позволит осуществлять семантический поиск по всему объему данных. В результате применения такого подхода повысится общий уровень автоматизации и уменьшится время проектирования за счет передачи некоторых задач по анализу исходных данных механизмам логического рассуждения. Также, в связи с созданием единого интерфейса для доступа к данным упростится процесс подключения новых информационных систем к общей инфраструктуре предприятия.

Апробация работы. Основные положения диссертационного исследования докладывались и обсуждались на международных и всероссийских конгрессах и конференциях различного уровня:

Российская конференция аспирантов, студентов и молодых ученых «Информатика и вычислительная техника», 25 - 26 мая 2010 г., г. Ульяновск, Россия.
XII международная научно-практическая конференция «Фундаментальные и прикладные исследования, разработка и применение высоких технологий в промышленности», 8-10 декабря 2011 г., г. Санкт-Петербург, Россия.
Международная конференция «Современные проблемы и пути их решения в науке, транспорте, производстве и образовании ‘2011», 20-27 декабря 2011 г.
I Всероссийский конгресс молодых ученых, 10–13 апреля 2012 г., г. Санкт-Петербург, Россия.
Международная научно-практическая конференция «Перспективные инновации в науке, образовании, производстве и транспорте ‘2012», 21 июня - 3 июля 2012 г.

XII Conference of Open Innovations Association FRUCT, 5 – 9 ноября 2012 г., г. Оулу, Финляндия.
II Всероссийский конгресс молодых ученых, 9 - 12 апреля 2013 г., г. Санкт-Петербург, Россия.
XLIII научная и учебно-методическая конференция НИУ ИТМО, 8—31 января 2014 г., г. Санкт-Петербург, Россия.

Внедрение результатов исследования. Основные результаты работы внедрены
и используются в ООО «Т-Системс СиАйЭс» и в ОАО «Всероссийский научно-
исследовательский институт гидротехники имени Б.Е. Веденеева», что
подтверждается актами о внедрении. Результаты работы также используются на
кафедре проектирования и безопасности компьютерных систем в НИУ ИТМО, что
подтверждается актом внедрения в учебный процесс.

Публикации. По тематике диссертации опубликовано двенадцать работ, в том числе три работы входят в список, рекомендованный ВАК для защиты кандидатских диссертаций. Было получено два свидетельства о регистрации программы для ЭВМ №2011612823 и №2013661205.

Личный вклад автора. Содержание диссертации и основные положения, выносимые на защиту, отражают персональный вклад автора в опубликованные работы.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, изложенных на 140 листах машинописного текста, содержит 36 рисунков и 18 таблиц. Список литературы включает 79 наименований.

Обеспечение интероперабельности

В большинстве крупных производств, организаций и компаний существуют различные информационные системы, разработанные в разное время, для разных целей. Системы эти могут быть использованы в разных департаментах, подразделениях и различными пользователями, часто информация в таких ИС дублируется. В такой ситуации невозможно произвести анализ всей имеющейся информационной базы организации и использовать все ресурсы по назначению. В связи с этим обычно возникает задача интеграции таких систем в единую информационную систему. По оценке компании Gartner Group на каждый доллар, который организации тратят на разработку и внедрение прикладных информационных систем, приходится еще от пяти до двадцати долларов затрат, связанных с интеграцией с другими системами [4].

Иными словами задача заключается, по сути, в создании новых методов и алгоритмов автоматизации интеграции данных, лежащих в основе системы, способной предоставить доступ к распределенным данным, хранящимся в других системах или агрегировать эту информацию внутри себя. Создание такой интегрирующей системы осложняется различными факторами, как техническими, так и организационными. К организационным факторам относятся:

Отсутствие сотрудников, ответственных за интеграционные процессы; Недостаточный административный ресурс или несвоевременное его применение; Отсутствие ответственных за качество данных; Закрытость служб сопровождения и разработчиков информационных систем компании заказчика; Отсутствие предметных экспертов, отвечающих за анализ данных и разработку бизнес-правил преобразования.

Однако в диссертационной работе интеграция рассматривается в основном с технической точки зрения. Технически задача интеграции может решаться на нескольких уровнях: физическом, синтаксическом, семантическом. Интеграция на физическом уровне теоретически является наиболее простой и с развитием современных технологий, в частности, сетевых технологий, не представляет особого интереса для исследования. Синтаксическая интеграция подразумевает создание единого глобального интерфейса для доступа к ресурсам гетерогенных систем, без учета их семантических свойств. Семантический же уровень интеграции добавляет к синтаксическому уровню поддержку семантических свойств в рамках единой онтологии предметной области. В работе будут рассматриваться два последних уровня интеграции: синтаксический и семантический.

Существуют следующие проблемы осложняющие решение задачи интеграции ресурсов в автоматизированных ИС: Технологическая гетерогенность - информационные системы часто используют для работы с данными разные технологии и протоколы взаимодействия; Различия в понятиях - многие ИС, работающие даже в одной области, могут описывать одни и те же объекты разными терминами и понятиями; Автономность - ИС часто разрабатываются и эксплуатируются независимо друг от друга, а, следовательно, не имеют средств для обмена информацией; Повторяющаяся информация - даже в ИС работающих внутри одного подразделения часто информация дублируется, что осложняет ее поиск и фильтрацию. Эта проблема тесно связана с проблемой различий в понятиях.

Современные автоматизированные информационные системы в большинстве случаев являются распределенными, т.е. физически удаленными друг от друга, сложными программными комплексами, с большим количеством информационных единиц. Системы изначально имеют различную функциональность, построены на разных технологиях с применением специфичных протоколов обмена данных, имеют различную производительность. Они могут быть построены на отличающихся программных платформах, использовать разные модели данных и интерфейсы и иметь еще много отличий. Это связано с тем, что обычно на производстве или в организации информационные системы представляют собой автономные независимые приложения, автоматизирующие ту или иную деятельность. Неоднородность все больше проявляется с ростом таких ИС, с добавлением нового функционала, усложнением архитектуры.

Все эти проблемы препятствуют построению единого унифицированного интерфейса доступа к данным. Одним из подходов, направленных на решение этих проблем является создание открытых, интероперабельных информационных систем [43, 49, 50]. Интероперабельность - способность информационной системы взаимодействовать с другими системами. Интероперабельность можно рассматривать, как свойство интегрируемых ИС, которое необходимо для объединения их в общую унифицируемую систему. Согласно федеральному закону №149-ФЗ, ИС это совокупность множества всех данных, технологий и технических средств, ее обрабатывающих.

Способы использования онтологических моделей

Для обеспечения семантической интероперабельности следует использовать не только знания о структуре интегрируемых автоматизированных информационных систем, но и знания об отдельных элементах системы и их назначении. Иными словами, необходимо также оперировать метаданными, извлеченными из систем. Кроме этого, следует также обращаться к общим знаниям из предметной области, в которой работают эти системы [10, 24]. Такие дополнительные знания необходимы, т.к. они позволят:

Наиболее удобным механизмом для описания общих знаний о предметной области является онтология.

Понятие предметной области впервые зародилось еще в начале 80х годов, когда появилось первое понимание того, что в автоматизированных информационных системах кроме структурной модели представления данных следует еще использовать и семантическую модель, описывающую отношения между хранимой информацией. Тем ни менее, на данный момент отсутствует общепризнанное формальное определение предметной области, трактуют его по-разному [7]. В данной диссертационной работе предметная область рассматривается, как целенаправленная первичная трансформация картины внешнего мира в некоторую умозрительную картину, определенная часть которой фиксируется в ИС в качестве алгоритмической модели фрагмента действительности.

Предметную область информационной системы образуют наборы, используемых в системе объектов, субъектов и отношений между ними в реальном мире, вне ИС. Информация об этих объектах внешнего мира представляется в ИС в виде данных. Совокупность же этих данных и семантических, смысловых связей между ними создают информационную модель предметной области. Информационную модель предметной области можно разделить, в свою очередь, на две части: содержательную и понятийную [34]. На рисунке 2.1 схематически изображена структура информационной модели предметной области.

Понятийная часть модели предметной области - совокупность понятий, терминов и отношений между ними, которым соответствуют объекты из реального мира. В формальном виде понятийную модель можно представить в виде ориентированного графа, где вершинами являются понятия реального мира, а ребрами – отношения между ними. Содержательная часть модели предметной области образуется реальными объектами в предметной области и также представляет собой ориентированный граф, в котором вершинами уже являются объекты.

Первоначально в области информационных технологий термин «онтология» был использован некоторыми исследовательскими сообществами, занимающимися вопросами искусственного интеллекта, относительно таких дисциплин как инженерия знаний, обработка естественных языков, представление знаний. В конце 90х годов понятие онтологии также стало широко использоваться в таких областях, как интеллектуальная интеграция информации, поиск информации и управление знаниями [18].

В информационных технологиях под онтологией понимают модель данных, используемую для представления знаний о предметной области и для определения связей между объектами, находящимися в ней. Иными словами онтология это теория, которая определяет словарь сущностей, классов, свойств, функций и связей, а также утверждений, построенных из этих классов, их свойств и связей между ними, в рамках одной предметной области. Онтологию определяют также как формальную, явную, спецификацию концептуализации, т.е. формальное описание предметной области [34]. Под концептуализацией подразумевается абстрактное представление мира, сформированное для некоторых целей. Спецификация концептуализации, в свою очередь, означает, что онтология точно определяет концептуализацию в конечной форме. Используемые в онтологии ограничения явно определены, поэтому онтология это явная спецификация.

Кроме того, она должна однозначно пониматься машинами, поэтому онтология носит формальный характер. В общем случае онтология должна в себя включать:

Множество Т должно быть не пустым, тогда как множества R и F могут быть пустыми, в таком случае онтология превращается в словарь или таксономию. Для использования онтологии в процессе интеграции ИС, каждый концепт должен содержать в себе идентификатор, атрибуты и связь с другими концептами:

Важной особенностью онтологий является то, что они могут быть многоуровневыми. Для использования онтологий как основы для интеграции ИС и обеспечения их семантической интероперабельности удобно использовать трехуровневую модель онтологии [17]. Такая модель включает в себя следующие слои:

Каждый слой находится поверх другого, образуя тем самым единую онтологическую модель. Общая онтология верхнего уровня описывает все понятия, не относящиеся к какой-либо конкретной предметной области. Это может быть общая терминология, общие стандарты, общие широко известные атрибуты объектов. Примерами таких онтологий являются: описание отношений между людьми FOAF, описание публикаций DC, онтология английского языка WordNet.

Онтология предметной области, в свою очередь, включает в себя все понятия и связи между ними в конкретной предметной области, в которой работают ИС. Одни и те же понятия в разных предметных областях могут иметь абсолютно разные значения, поэтому такие онтологии составляются только экспертами в области и имеют чрезвычайно важную роль в общей онтологической модели.

Онтология автоматизированной ИС носит наиболее узкий характер и используется для описания некоторых понятий в рамках отдельно взятой информационной системы. Структуры ИС даже в пределах одной предметной области могут сильно различаться, для этого и следует выносить формальное описание объектов в отдельный слой онтологической модели.

Применение многослойной структуры онтологической модели в автоматизированной системе интеграции ИС, делает такую систему более гибкой и расширяемой. При необходимости любую новую ИС можно добавить в интегрирующую систему, используя понятия из общей онтологии и онтологии предметной области. При необходимости общая модель может быть расширена на локальном уровне, путем добавления новой онтологии подключаемой ИС.

Алгоритм отображения информации о структуре БД

Для онтологического моделирования используются расширения стандартных языков разметки. В частности, для описания онтологии средствами HTML, применяют расширение SHOE [17, 37]. Онтология на основе SHOE представляет собой иерархию понятий, связанных между собой отношением «is-a». В заголовке HTML страницы, использующей это расширение, необходимо прописать мета информацию о SHOE. Сама онтология заключается в теги ONTOLOGY и использует другие теги, прописанные в спецификации расширения.

В онтологиях могут задаваться правила вывода, на основе которых из источников данных извлекаются относящиеся к запросу аннотированные метаданными SHOE ресурсы. Правила состоят из тела, описывающего утверждение, и заголовка, описывающего условие истинности. В каждой части может содержаться неограниченное количество утверждений, но не менее одного.

Таким образом, при помощи HTML и SHOE, можно представить мета информацию об интегрируемых ИС в виде связанной иерархии объектов. Однако существует ряд ограничений языка HTML, которые делают SHOE неподходящим средством моделирования онтологии для автоматизации интеграции данных. К таким недостаткам относится строго ограниченный набор тегов, используемых в языке. Отсутствие возможности создавать произвольные теги, делают проблематичной дальнейшее масштабирование интегрирующей системы и добавление новых ИС. Другой проблемой SHOE является строго определенная последовательность представления элементов в иерархической модели. Такая особенность может сильно осложнить сравнение элементов в различающихся структурно ИС.

Другой язык разметки XML позволяет создавать произвольные теги, однако все также не подходит для описания онтологической модели интегрируемых ИС. Основной недостаток заключается в том, что XML описывает грамматику и структуру информации в формате удобном для машин, но выделить какой-либо семантический смысл для разных информационных областей представляется практически невозможным. Другой проблемой является возможность структурировать данные при помощи XML различными способами, что увеличивает неоднородность и мешает сравнению элементов в ИС. Более того, язык XML в чистом виде, предназначен исключительно для представления данных, и не обладает никакими средствами онтологического моделирования. В нем отсутствуют возможности формирования правил вывода, создания ограничений онтологий, создания связей между понятиями. XML документ имеет древовидную структуру, узлы которой состоят из метки, ее атрибута и содержимого. Тем ни менее у этого языка, как и у HTML, есть значительное преимущество, он используется практически повсеместно в сети интернет. Более того, он позволяет произвольно создавать всевозможные теги, что делает его основой для большого количества расширений для работы с онтологиями, например RDF и DAML+OIL.

RDF оперирует уже не структурой, как XML, а моделью данных. После прочтения RDF документа специальной программой, компьютерная система строит по нему внутреннее представление, и дальнейшая работа уже ведется с этой моделью и не зависит от изначального RDF документа. Таким образом, решается проблема описывания данных различными способами, как бы они не были описаны, модель останется неизменной.

Модель данных представляет собой RDF утверждение, которое в свою очередь состоит из трех элементов и именуется триплет. Этими элементами являются – ресурс, свойство и значение, или другими словами – субъект, предикат, объект. Ресурсом может быть все, что описывает RDF, а так же все чему можно приписать некий уникальный идентификатор URI. Свойством же или предикатом, является описание ресурса, его характеристика или отношение с другим ресурсом. Согласно спецификации значение свойства RDF может быть выражено двумя способами: при помощи ресурса, задаваемого URI или простым текстом, литералом. Следовательно, модель данных в RDF является, по сути, графом, где вершины это объекты и субъекты, а ребра – предикаты.

Для решения поставленной в диссертационном исследовании задачи разработки метода и алгоритмов автоматизированной интеграции информационных ресурсов, достаточно использовать для моделирования онтологии средства RDF и его семантическое расширение RDF Schema, реализующее дополнительные отношения между понятиями, но не поддерживающий логический вывод. Для логического вывода удобно использовать язык OWL, включающий в себя все преимущества DAML+OIL. Эти технологии являются рекомендациями консорциума W3C и входят в стек технологий семантик веб (рис. 2.5). Иными словами, они являются стандартами в области моделирования онтологий, и связывания, на ее основе, данных в единое облако связанных данных.

Существуют также и другие, менее популярные форматы описания RDF документов, как например RDFa. Однако сама концепция связанных данных не требует использования определенного формата описания, достаточно чтобы ресурс обладал уникальным идентификатором. Важной особенностью RDF, является возможность, как и в XML, использовать механизм пространства имен. Этот механизм расширяет базовый функционал RDF и позволяет ввести в RDF документ различные дополнительные термины и понятия. На основе этого механизма функционируют все расширения языка и различные верхнеуровневые онтологии, добавляющие новые понятия.

Язык RDF дает формализм для аннотации ресурсов, однако не предоставляет средств для полноценного описания отношений между ними. Для этого используется семантическое расширение RDF Schema, являющиеся словарем терминов. RDFs добавляет в структуру RDF классы, описанные в таблице 2.3.

Разработка функциональной модели

Одним из разработанных в ходе исследования алгоритмом является алгоритм автоматизированного извлечения информации о структуре интегрируемых баз данных или иными словами отображения структуры БД в онтологической модели.

Пусть существуют некоторые информационные системы ИС-1 и ИС-2, работающие в рамках единой предметной области. Задачей разработанного алгоритма является превращение структуры базы данных ИС-1 и ИС-2 в онтологическую модель. В реляционных базах данных информация о структуре и связях между структурными элементами хранится в схемах данных, именно эти схемы необходимо извлечь в ходе работы алгоритма. Однако, анализа самой схемы достаточно только для обеспечения структурной интероперабельности. Для достижения семантической интероперабельности при извлечении схемы данных нужно также учитывать смысловое назначение этих элементов, поэтому необходимо использовать онтологию предметной области. Такая онтология добавит связи между понятиями в предметной области в извлекаемую модель. Таким образом, каждая извлекаемая из базы данных ИС онтологическая модель, будет подмножеством онтологии предметной области. Общая модель структуры интегрируемых систем состоит из совокупности понятий и отношений из извлеченных онтологий, онтологии предметной области:

Онтология предметной области обычно разрабатывается предварительно, с участием эксперта из предметной области и специалиста по онтологическому представлению знаний. Процесс создания такой модели занимает длительно время, однако это требуется только на первоначальном этапе интеграции ИС. При дальнейшем добавление новых систем, работающих в данной области, сама онтология не требует дополнительных изменений.

Выходными данными является общая онтологическая модель, которая описывает структуру интегрируемых ИС в рамках их предметной области и связи между элементами различных систем. Такая модель будет смоделирована средствами языка RDF, его расширения RDFs и языка OWL.

Алгоритм извлечения общей онтологии из структуры БД ИС-1 и ИС-2, будет состоять из пяти шагов: Шаг 1. «Структурное отображение»: Последовательное отображение схем S1 и S2 в RDF формат. TBn Tm, TBk Tm, ATi Ai, где Tm - концепты онтологии, описанные при помощи RDF, Ai - свойства концептов в онтологии.

Рассмотрим эти шаги алгоритма более подробно. На первом шаге происходит прямое отображение структурных элементов в модель данных RDF. Основными элементами баз данных реляционного типа, которые необходимо отобразить, являются таблицы и их атрибуты. Сами атрибуты, или поля таблиц, также обладают важной структурной информацией, такой как тип атрибута и его имя. Вся эта информация и их связи извлекаются при помощи стандартного языка запросов SQL и механизма внешних ключей.

При анализе схемы данных, автоматически названия таблиц становятся названием новых классов в целевой модели, а названия полей таблиц свойствами, связанными с их классом. Предлагается отдельно записывать информацию о соответствии класса RDF таблицы базы в отдельный документ в формате XML или в иное хранилище типа ключ – значение. Поскольку, согласно предложенному методу, каждая извлеченная прото-сущность должна иметь идентификатор, в обрабатываемой таблице нужен первичный ключ. Если его нет, то его необходимо создавать во время обработки таблицы. Таким образом уникальный идентификатор прото-сущности будет состоять из таблицы и первичного ключа в формате «название_PKпервичный_ключ».

Важной задачей при анализе схемы базы данных является обработка типов хранимой информации. Различные системы могут использовать абсолютно разные реляционные СУБД, которые в свою очередь могут использовать множество типов данных для хранимых ресурсов. При извлечении структуры базы, необходимо также извлекать информацию о типах данных хранящихся в ее элементах, и описывать их средствами RDF. В связи с тем, что используемая для моделирования структура RDF основана изначально на языке разметки XML, онтологические свойства, описанные таким образом, могут иметь различные XSD типы данных. Язык XSD является стандартным языком для описания XML документов, при помощи которого можно сформировать набор правил, которым должен соответствовать XML документ. В этот язык встроено несколько примитивных типов данных, при помощи которых можно описать элемент как в XML, так и в RDF документе. В связи с этим при автоматизированном выполнении первого шага алгоритма, необходимо предварительно составить таблицу соответствий типов данных поддерживаемых СУБД в интегрируемых ИС и типов данных XSD. В таблице 3.2 представлен пример соответствий типов данных в СУБД MS SQL Server и XSD типов данных.

Методы и алгоритмы автоматизированной интеграции информационных ресурсов на основе онтологического подхода Семерханов Илья Александрович

Обеспечение интероперабельности

Способы использования онтологических моделей

Алгоритм отображения информации о структуре БД

Разработка функциональной модели

Похожие диссертации на Методы и алгоритмы автоматизированной интеграции информационных ресурсов на основе онтологического подхода