Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Разработка и исследование методики проектирования базы метаданных хранилища геоданных Зайцев Владислав Вячеславович

Разработка и исследование методики проектирования базы метаданных хранилища геоданных
<
Разработка и исследование методики проектирования базы метаданных хранилища геоданных Разработка и исследование методики проектирования базы метаданных хранилища геоданных Разработка и исследование методики проектирования базы метаданных хранилища геоданных Разработка и исследование методики проектирования базы метаданных хранилища геоданных Разработка и исследование методики проектирования базы метаданных хранилища геоданных Разработка и исследование методики проектирования базы метаданных хранилища геоданных Разработка и исследование методики проектирования базы метаданных хранилища геоданных Разработка и исследование методики проектирования базы метаданных хранилища геоданных Разработка и исследование методики проектирования базы метаданных хранилища геоданных Разработка и исследование методики проектирования базы метаданных хранилища геоданных Разработка и исследование методики проектирования базы метаданных хранилища геоданных Разработка и исследование методики проектирования базы метаданных хранилища геоданных
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Зайцев Владислав Вячеславович. Разработка и исследование методики проектирования базы метаданных хранилища геоданных: диссертация ... кандидата технических наук: 25.00.35 / Зайцев Владислав Вячеславович;[Место защиты: Московский государственный университет геодезии и картографии].- Москва, 2014.- 155 с.

Содержание к диссертации

Введение

1. Обзор исследований проводимых в области хранилищ геоданных и стандартизации метаданных в геоинформатике 10

1.1. Обзор исследований проводимых в области хранилищ геоданных 10

1.2. Стандартизация метаданных в геоинформатике 32

2. Состав базы метаданных хранилища геоданных 39

3. Разработка и исследование методики проектирования базы метаданных хранилища геоданных 81

Заключение 107

Список сокращений и условных обозначений 111

Список литературы 114

Список иллюстрированного материала 1

Обзор исследований проводимых в области хранилищ геоданных

В целях сбора, хранения, обработки, отображения и распространения географических данных, а также получения на их основе новой информации и знаний, в настоящее время применяются геоинформационные системы1. Географические данные – это пространственные данные, для которых базовой системой координат является земная поверхность. В ГИС кроме пространственных данных используется связанная с ними информация о необходимых объектах, так называемые (непространственные) атрибутивные данные.

Как правило, функции сбора и хранения данных в ГИС переданы базе данных. Иногда этап сбора данных сводится к технологии их ввода в базу данных ГИС. База данных (далее – БД) – совокупность данных организованных по определенным правилам, устанавливающим общие принципы описания, хранения и манипулирования данными, независимая от прикладных программ2. Создание БД и обращение к ней осуществляется с помощью системы управления базами данных.

Исторически сложилось два направления взаимодействия ГИС и СУБД: гибридные и интегрированные СУБД. Согласно Майклу Н. ДеМерсу3 это разделение связано в основном со способом хранения (совместно или раздельно) пространственных и атрибутивных данных. В современных ГИС в основном применяется подход, когда и атрибутивные и пространственные данные хранятся и управляются в единой среде СУБД, а также объектный и объектно-реляционный подходы.

Целесообразно также отметить основные свойства, поддерживать которые присуще любой СУБД – это постоянство и транзакции. В СУБД состояние постоянного объекта подвергается частым изменениям, а в ряде случаев желательно иметь доступ к предшествующим состояниям данных. Транзакции переводят базу данных из одного непротиворечивого состояния в другое.1 Поэтому по своему функциональному назначению применяемые в ГИС базы данных являются системами оперативной обработки транзакций (On-Line Transaction Processing – OLTP-системами).

В OLTP-системах за короткое время происходит максимальное количество транзакций, используется фиксированный набор методов ввода, модификации и удаления данных, а также подготовки отчётности. Как правило, OLTP-системы не требуют большой гибкости и их аналитические возможности ограничены.

В этой связи возникла необходимость в разработке систем управления пространственными базами данных (далее – СУПБД). В то время как традиционные БД могут хранить и обрабатывать числовую и символьную информацию, пространственные базы данных (далее – ПБД) обладают расширенной функциональностью, позволяющей хранить целостный пространственный объект, объединяющий атрибутивные и пространственные данные.2

ПБД позволяют выполнять аналитические запросы, содержащие пространственные операторы для анализа пространственно-логических отношений объектов (пересекается, касается, содержится в, содержит, находится на расстоянии X от, совпадает и пр.).3 Например, ГИС поддерживает большой набор операций над несколькими объектами и слоями, в то время как СУПБД обеспечивает более простые операции над совокупностями объектов и множествами слоев1. Для этих целей Open Geospatial Consortium Inc. (далее – консорциум OpenGIS), установил стандарты на дополнительную функциональность СУПБД.

Со временем стало понятно, что сбор данных это не главная цель. Появилась необходимость в создании информационных системах, позволяющих проводить глубокую аналитическую обработку данных. Например, поиск скрытых структур и закономерностей в массивах данных, вывод из них правил, которым подчиняется данная предметная область, стратегическое и оперативное планирование, формирование нерегламентированных запросов, принятие решений и прогнозирование их последствий2.

Появился новый класс информационных систем (далее – ИС) – систем поддержки принятия решений (далее – СППР), ориентированных на аналитическую обработку данных с целью получения знаний, необходимых для разработки решений в области управления3. Требования к СППР и OLTP-системам существенно разняться, в основном по следующим причинам: уровень детализации данных, формат хранения данных, требования к качеству хранящихся данных, возможность редактирования существующих данных, временной период хранения собранных данных, периодичность обновления данных, а также характер выполняемых к данным запросов. Поэтому в СППР применяются специализированные базы данных – хранилища данных (далее – ХД).

Концепция ХД, так или иначе, обсуждалась специалистами в области информационных систем достаточно давно. Первые статьи, посвященные именно ХД, появились в 1988 году, их авторами были Б. Девлин и П. Мерфи. В 1992 году

Согласно определению Б. Инмона, «хранилище данных - это предметно ориентированный, интегрированный, неизменчивый, поддерживающий хронологию набор данных, организованный для целей поддержки принятия решений»2.

Все существующие архитектуры ХД (реляционные, многомерные, гибридные или виртуальные) основаны на технологии оперативной аналитической обработки (On-Line Analytical Processing, OLAP). Эта технология представляет собой методику оперативного извлечения нужной информации из больших массивов данных и формирования соответствующих отчетов3.

Стандартизация метаданных в геоинформатике

Управление данными. Управление данными это комплекс задач, связанных с эффективным хранением, обработкой, а также организацией доступа к структурированным данным. Для решения этих задач в основном используют технологии БД. В тоже время метаданные этого типа, обеспечивают механизмы СУБД необходимой информацией об организации БД, ограничениях целостности данных и управлении доступом.

Поддержка версионности. Эта функция касается данных с большим временным горизонтом. Метаданные, поддерживающие версии данных в различное время, отражают изменения структуры данных в источниках и изменяются сами для обеспечения непрерывной истории изменений структуры данных.

Верификация данных. Метаданные структурированных данных позволяют контролировать их форматы и типы данных, проверять соблюдение ограничений целостности, все эти задачи в основном решают механизмы СУБД1.

Предоставление пользователям сведений об описываемых ресурсах. Метаданные применяются не только для описания системных функций, но также для информирования пользователей об имеющихся информационных ресурсах или сервисах. Пользовательские метаданные могут быть и структурированными, и неструктурированными. Последние представляются в виде текста, схемы, плана, фрагмента карты и др. Дополнительно эти метаданные могут описывать условия использования, терминологию, а также иные сведения об информационных ресурсах или сервисах.

Организация доступа к данным. Метаданные этого типа позволяют описывать функции доступа к данным, а также полномочия пользователей на доступ к ним или на выполнение иных операций в ХГД.

Описание пользовательских профилей. Совокупность метаданных, содержащих сведения о пользователях, их характеристиках, а также информационных потребностях, необходимых для сбора и учета в работе статистических данных об использовании системных ресурсов.

Обеспечение обнаружения и поиска информационных ресурсов. Это одна из основных функций метаданных, позволяющая применять метаданные в процессе поиска. При этом могут использоваться не только идентифицирующие, а также семантические метаданные.

Обеспечение возможности анализа данных. Эта функция характерна для баз данных и хранилищ данных с многомерным представлением данных и связана с использованием OLAP-методов.

Обеспечение открытости системы. Обеспечение доступности другим информационным системам. Техническая и/или семантическая интероперабельность и на этой основе повторное использование информационных ресурсов может обеспечиваться путем унификации представления метаданных средствами открытых стандартов1. Опрос метаданных другой аналитической системой позволяет последней выяснить структуру данных ХД и поддерживать обмен данными между системами.

Представление соответствия данных источников и данных ХГД. Как правило, это описание представляет собой фиксацию взаимосвязи атрибутов источника данных и ХД, правила преобразования первых во вторые, изменение в наименовании данных, в их физических характеристиках и т.п. Эти метаданные, описывают: локальные схемы интегрируемых источников и глобальную схему, а также отображения между локальными схемами и глобальной схемой2.

Приведенный перечень функций метаданных не является исчерпывающим. Дополнительно для формирования базового состава метаданных полнофункционального ХД целесообразно использовать концепцию Захмана (John A. Zachman). Согласно этой концепции метаданные должны отвечать на следующие вопросы:

Что это за объект? Эти метаданные описывают объекты предметной области хранилища данных. Описание может содержать: атрибуты объектов, их возможные значения, идентифицирующие поля в структурах данных, а также источники сведений об объектах и т.п.

Кто это (пользователь)? Метаданные отвечающие на этот вопрос содержат профили пользователей использующих данные: права доступа пользователей к данным, а также сведения о пользователях, выполнивших операции над данными.

Где он (объект, пользователь и т.п.) находиться? Метаданные описывают местонахождение и взаимодействие серверов, рабочих станций, источников данных, а также размещенное на них программное обеспечение и распределение между ними данных.

Как он (объект, пользователь и т.п.) действует? Эти метаданные описывают операции, выполняемые над данными. Описываемые действия могли выполняться на разных этапах работы с данными (перенос из источника данных, загрузка в хранилище, выборка из хранилища данных и т.п.).

Когда это (объект, пользователь и т.п.) происходило? Метаданные отвечающие на этот вопрос описывают момент или промежуток времени выполнения разных операций над данными.

Почему это (объект, пользователь и т.п.) произошло? Метаданные этого типа описывают причины выполнение над данными операций. Этими причинами может быть запрос к данным, изменение количества обращений к данным или достижение определенного значения контролируемого показателя и т.п.

Одновременно состав метаданных зависит от информационной архитектуры проектируемой ИС. Упрощенное представление ХГД представлено на рисунке 2.1, в виде шестиуровневой архитектурной концепции информационного хранилища данных.

Первый уровень приведенной архитектурной концепции представлен источниками данных (далее – ИД). Это любые источники структурированных данных, так как большинство методов анализа данных работает только с хорошо структурированными данными, поэтому в среде ХГД речь идет только о структурированных или слабоструктурированных геоданных.

Состав базы метаданных хранилища геоданных

По существу, концепция ВД предполагает создание распределенной ИС с отсутствием контроля избыточности, целостности и непротиворечивости, хранящихся в ней данных.

Дальнейшая эволюция этой концепции заключалась в ее объединении с ХД, и его использования для наполнения ВД.

Идея создания отдельных ВД заключается в проектировании ИС в целом, с дальнейшим разделением по отдельным функциям. Это привело к появлению двух подходов к проектированию ХД. Первый подход начинает проектирование с построения ЕХД, второй с построения ВД.

На сегодняшний момент существует следующее решение: Первый уровень содержит детализированные данные. На этом уровне находиться общая БД с нормализованной или слабо нормализованной схемой, реализуемая на основе реляционной СУБД. Второй уровень содержит агрегированные данные. Несколько БД, реализуемые на основе многомерной СУБД. Третий уровень содержит аналитические приложения, в виде автоматизированных рабочих мест, причем эти аналитические инструменты работают с данными на двух нижних уровнях. Это решение вписывается в шестиуровневую концепцию и позволяет использовать достоинства каждого из подходов: Реляционные СУБД обеспечивают хранение детализированных данных и поддержку больших объемов данных. Многомерные СУБД обеспечивают простоту настройки и быстродействие при работе с агрегированными данными.

Описанное решение не может обеспечить оперативной аналитической обработки запросов (из-за отсутствия кубов данных в ЕХД), но при использовании новых способов хранения и индексации данных, либо денормализации реляционных таблиц фактов и измерений, время обработки запросов может оказаться вполне приемлемым. В случае если в многомерной СУБД можно хранить данные, на постоянной основе, а также динамически загружать их из реляционных БД, то можно на постоянной основе хранить только часто запрашиваемые данные. А для всех остальных данных хранить только описания структуры и программы их выгрузки из единой реляционной БД или ЕХД.

Главной задачей проектирования ВД является создание структуры данных, наиболее эффективной для целей анализа. Проектирование ВД заключается в создании таблиц измерений и фактов, определении связей между ними, а также связи готовой БД с ЕХД.

Поэтому метаданные этого пакета должны описывать в первую очередь структуру каждой ВД (имеющиеся таблицы фактов и измерений), а также имеющиеся таблицы общих измерений.

Метаданные этого пакета должны описывать используемые для целей анализа прикладные задачи. Спектр прикладных задач анализа очень широк, а способы применения ХД для решения различных прикладных задач весьма разнообразны. Не смотря на это, выделяют следующие основные подходы использования ХД для целей анализа: - Регулярные отчеты. Многократная подготовка периодических отчетов стандартных форм.

Нерегламентированные запросы. Нестандартные запросы, не учтенные в ходе разработки ИС. - Интеллектуальный анализ данных. Анализ больших массивов данных с целью выявления скрытых закономерностей, структур и объектов, а также построения моделей, прогнозов и т.д.1

Для решения различных прикладных задач анализа в среде ХД используются аналитические приложения, расположенные на уровне прикладных задач (далее -ПЗ). Приложения статистического и многомерного анализа, а так же средства планирования и подготовки отчетности. В среде ХГД также должны быть представлены инструменты пространственного анализа.

Все перечисленные приложения работают только с данными структурированными определенным образом, например, многомерному анализу необходимы кубы данных; статистический анализ работает с рядами данных, а моделирование использует реляционные таблицы.

Следует отметить, что помимо очистки данных перед их загрузкой в ХД, пользователь может выполнить дополнительную очистку средствами аналитического приложения уже после выполнения запроса к ВД, направленную на подготовку данных к решению конкретной аналитической задачи2.

Метаданные этого пакета описывают применяемые способы визуализации данных в ХГД и позволяют пользователю выбрать способ визуализации с учетом его потребностей.

Визуализация - представление данных в виде, обеспечивающем наиболее эффективную работу пользователя. Способ визуализации должен максимально полно отражать поведение исследуемых данных, а также содержащуюся в них информацию, тенденции и закономерности3. Выбор способа визуализации зависит от характера данных и задач анализа.

Разработка и исследование методики проектирования базы метаданных хранилища геоданных

Для этих целей используется пакет «MD_DataIdentification» содержащий информацию, позволяющую идентифицировать данные в наборе данных. Например, с помощью сущности «spatialRepresentationType» описывается способ представления данных, множество значений этой сущности составляют: вектор, растр, текст/таблица, TIN-модель, 3D-модель и видео.

Для описания представления данных используемых в ХГД список значений сущности «SpatialRepresentationType» можно дополнить следующими значениями: пространственный факт, пространственное измерение и таблица фактов, таблица измерений. Обобщением этого пакета является сущность «EX_Extent», содержащая информацию о географической «EX_GeographicExtent», временной «EX_TemporalExtent» и высотной «EX_VerticalExtent» протяженности данных.

В свою очередь описание географической протяженности набора данных подразделяется на следующие составляющие: «EX_BoundingPolygon», «EX_GeographicBoundingBox» и «EX_GeographicDescription». Например, сущность «EX_BoundingPolygon» описывающую контур, ограничивающий данные и выраженный в координатах (x, y) как замкнутое множество координат (x, y) полигона (последняя точка совпадает с первой), можно использовать как MBR, дополнительно описав включенные в его состав объекты.

Сущность «EX_GeographicBoundingBox», описывающую географические координаты данных, можно применять в случае описания векторного представления данных. Например, начальную и конечную координаты вектора.

Сущность «EX_GeographicDescription», описывающую географическую протяженность с использованием идентификаторов, можно использовать в случае описания растрового или табличного (код по классификатору топографической информации) представления данных.

Также обязательно использовать сущности «EX_TemporalExtent.extent», «MD_Metadata.dateStamp» и «MD_Usage.usageDateTime» описывающие дату (время) создания, применения или обновления данных (метаданных) – это связано с необходимостью поддержки хронологии в ХД.

Еще одним обобщением пакета «MD_DataIdentification» является сущность «LI_Source», описывающая ИД. В случае применения в качестве ИД обменного файла, целесообразно ввести дополнительные сущности, например, описывающие структуру этого файла в виде последовательности массивов цифровой информации. А в случае применения разных типов обменных файлов можно использовать пакет «MD_Format» (форма представления данных).

Идентифицировать данные можно также по их принадлежности к предметной области. Для этих целей в рассматриваемом стандарте предусмотрен список значений пакета «MD_TopicCategoryCode». Использование в ХГД собственного классификатора пространственных объектов в рамках НСИ не позволяет исключить этот пакет из состава метаданных. Наоборот его можно использовать, например, в целях создания непространственных иерархий.

К способам идентификации набора данных, также относятся сведения о его статусе (состоянии) представленные в пакете «MD_ProgressCode». При описании состояний данных в ходе различных процессов, проходящих в ХГД, придется использовать большее количество описаний, так как состояний данных намного больше. Поэтому целесообразно расширить список значений этого пакета, например: данные прошедшие очистку, агрегированные данных, детализированные данные и т.п.

Ограничения на использование данных и метаданных предусмотренные пакетом «MD_ Constraints» могут получить новое видения в среде ХГД. Если ранее существовали ограничения только по законодательству и секретности, то в среде ХГД существуют ограничения связанные с наличием или отсутствием прав доступа пользователей к данным (метаданным).

Пакет «MD_MaintenanceFrequencyCode» описывает частоту обновления данных (метаданных) после их создания. Так как от частоты обновления ИД зависит частота обновления ХД и ВД, сведения из этого пакет можно применять для формирования метаданных содержащих аналогичные сведения для ХД и ВД.

Элементы метаданных, предусмотренные пакетом «Информация о профилях пользователей» схожи с элементами метаданных в пакетах «CI_RoleCode» (функции ответственных субъектов), «CI_Contact» (контактная информация для связи с ответственным субъектом), «CI_Address» (местонахождение), «CI_Telephone» (контактный телефон) и «CI_ResponsibleParty» (информация о субъекте, ответственном за набор данных). Это сходство позволяет их использовать для формирования указанного пакета БМД ХГД.

Учитывая, что метаданные в среде ХГД дополнительно описывают действия всех субъектов ответственных за создание, использование, изменение и распространение данных (метаданных), а так же способы связи с ним, потребуется расширение существующих или ввод новых элементов метаданных.

В случае описания процессов извлечении, преобразования и загрузки данных с помощью метаданных пакета «Информация о системе ИПЗ» можно применить сущности следующих пакетов «MD_DigitalTransferOptions» (технические характеристики набора данных и носителей информации), «LI_ProcessStep» (создание/обновление набора данных) и «MD_MaintenanceInformation» (обновление данных и метаданных). Одновременно можно исключить необязательный пакет «MD_StandardOrderProcess» описывающий способы получения набора данных, соответствующие инструкции и информацию об оплате, так как в среде ХГД доступ данных зависит исключительно от пользовательских прав доступа. Пакет «MD_Distribution», являющийся агрегатом предыдущего пакета, также исключается, так как в нем остаются только дублируемые сведения о контактной информации.

Основываясь на проведенном выше анализе возможности применения для создания БМД ХГД пакетов метаданных, приведенных в ГОСТ Р 52573-2006 построим на рисунке 3.5 схему БМД ХГД. Далее на рисунке 3.6 построена общая концептуальная схема БМД, основываясь на сформированном во втором разделе наборе метаданных.

Похожие диссертации на Разработка и исследование методики проектирования базы метаданных хранилища геоданных