Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Повышение эффективности применения ссылочных массивов данных в интегрированных системах обработки информации Бодров Алексей Анатольевич

Повышение эффективности применения ссылочных массивов данных в интегрированных системах обработки информации
<
Повышение эффективности применения ссылочных массивов данных в интегрированных системах обработки информации Повышение эффективности применения ссылочных массивов данных в интегрированных системах обработки информации Повышение эффективности применения ссылочных массивов данных в интегрированных системах обработки информации Повышение эффективности применения ссылочных массивов данных в интегрированных системах обработки информации Повышение эффективности применения ссылочных массивов данных в интегрированных системах обработки информации Повышение эффективности применения ссылочных массивов данных в интегрированных системах обработки информации Повышение эффективности применения ссылочных массивов данных в интегрированных системах обработки информации Повышение эффективности применения ссылочных массивов данных в интегрированных системах обработки информации Повышение эффективности применения ссылочных массивов данных в интегрированных системах обработки информации Повышение эффективности применения ссылочных массивов данных в интегрированных системах обработки информации Повышение эффективности применения ссылочных массивов данных в интегрированных системах обработки информации Повышение эффективности применения ссылочных массивов данных в интегрированных системах обработки информации
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Бодров Алексей Анатольевич. Повышение эффективности применения ссылочных массивов данных в интегрированных системах обработки информации : диссертация ... кандидата технических наук : 05.13.01 / Бодров Алексей Анатольевич; [Место защиты: Моск. гос. технол. ун-т "Станкин"].- Москва, 2009.- 127 с.: ил. РГБ ОД, 61 09-5/1259

Содержание к диссертации

Введение

1. Анализ процессов и задач интеграции данных 8

1.1. Методы интеграции данных в информационно-поисковых системах .8

1.2. Интеграция на основе ссылочных массивов 21

Выводы 29

2. Алгоритмы формирования и актуализации ссылочных массивов 30

2.1. Формирование структуры витрины 30

2.2. Алгоритм формирования витрины 38

2.3. Обновление (актуализация) витрины 45

Выводы 49

3. Математические модели для анализа и оценки эффективности работы ссылочных массивов 50

3.1 Анализ процесса обновления витрины 50

3.1.1. Алгоритмы актуализации витрины 50

3.1.2. Расчет величины периода актуализации витрины 52

3.2. Анализ методов организации обработки запросов к ссылочному массиву

61

3.2.1. Анализ работы сервера обработки запросов 61

3.2.2. Анализ процесса обработки запросов группой однородных серверов69

3.2.3. Анализ процесса обработки запросов группой разнородных серверов 73

Выводы 81

4. Применение результатов работы в реальных интегрированных информационно-поисковых системах 82

4.1. Специализированная интегрированная информационно-поисковая система 83

4.1.1. Цели, назначение и область использования подсистемы 83

4.1.2. Описание процесса деятельности подсистемы «Центр-МВД-ГИАЦ»85

4.1.3. Описание организационной структуры подсистемы 90

4.1.4. Основные технические решения 96

4.1.5. Описание программного обеспечения 106

Общие выводы 112

Литература 114

Введение к работе

Проблема интеграции данных, содержащихся в локальных независимых автономных и неоднородных источниках, стала весьма актуальной в последние годы при разработке и развитии систем обработки информации различного уровня и назначения.

Интеграция позволяет пользователям и программным средствам корпоративной системы осуществлять доступ к локальным информационным системам как к одной общей системе и производить поиск и обработку требуемой информации без учета специфики представления, хранения и обеспечения безопасности в локальных системах. Поэтому интеграция информационных ресурсов является, в настоящее время, одним из наиболее важных направлений при создании корпоративных систем обработки информации и управления. Важной темой сегодняшнего дня становятся технологии и программные продукты, способные обеспечить безболезненную интеграцию локальных систем обработки информации, возможность концентрации информации с целью оперативного и более эффективного принятия решений (анализа и управления).

Существует множество методов интеграции информационных ресурсов. От выбора метода зависит эффективность работы программного обеспечения, скорость выполнения запросов и актуальность предоставляемых данных. Одним из наиболее распространенных является метод, основанный на создании и применении ссылочных массивов. Однако его эффективное практическое применение требует разработки соответствующих методов управления процессами обработки информации, анализа взаимодействия с локальными системами, знания специфики решаемых прикладных задач, требований к качеству данных и алгоритмам управления.

В связи с этим тематика диссертационной работы, связанная с разработкой математических моделей для анализа и повышения эффективности применения

ссылочных массивов в интегрированных системах обработки информации, является актуальной, а результаты диссертации имеют важное практическое значение.

Целью работы является повышение эффективности применения ссылочных массивов в интегрированных системах обработки информации за счет разработки и теоретического обоснования методов создания, ведения и актуализации ссылочных массивов и обработки запросов к ним.

Для достижения указанной цели были поставлены следующие задачи:

  1. исследование и анализ методов построения интегрированных систем обработки информации;

  2. разработка алгоритмов формирования и актуализации ссылочного массива, позволяющих обеспечить доступ к информации, обработку запросов к локальным системам;

  3. разработка математических моделей для управления процессами актуализации ссылочного массива и обработки запросов пользователей к ссылочному массиву;

  4. разработка методики адаптации математических моделей и алгоритмов для создания специализированных интегрированных систем обработки информации.

Научная новизна полученных результатов заключается в выборе объекта
исследования - ссылочного массива, проведении анализа и обобщения
известных теоретических и практических данных по созданию
интегрированных систем обработки информации с использованием ссылочных
массивов, установлении связей между характеристиками интегрированной
системы и параметрами ссылочных массивов, что позволило построить
комплекс математических моделей для системного анализа, оценки и
повышения эффективности применения ссылочных массивов в

интегрированной системе.

Разработаны:

- алгоритмы создания и ведения ссылочных массивов;

- комплекс математических моделей процессов актуализации и
обработки запросов в ссылочных массивах;

- алгоритмы актуализации ссылочных массивов и обработки запросов
в ссылочных массивах.

Практическая значимость результатов диссертации состоит в создании алгоритмов для анализа и управления процессами организации и управления работой ссылочных массивов данных при актуализации и организации обработки запросов, ориентированных на специфику конкретной корпоративной системы управления. Полученные результаты можно применять при создании, анализе и администрировании корпоративных информационных систем, использующих интегрированные данные различного назначения.

Достоверность и обоснованность основных результатов и выводов диссертации базируются на обобщении и развитии существующего опыта создания и применения ссылочных массивов в интегрированных системах обработки информации, разработке математических моделей с учетом специфики применения ссылочных массивов и обработки запросов пользователей, на соответствии полученных результатов сведениям, опубликованным в отечественной и зарубежной печати, на результатах практического применения разработанных моделей и алгоритмов при создании конкретных интегрированных систем управления и обработки информации специального назначения.

При решении поставленных в диссертации задач применялись методы теории систем, теории очередей, теории вероятностей, теории множеств, математического программирования.

Результаты диссертационной работы докладывались и обсуждались на научных семинарах ИКТИ РАН, ИСА РАН, ИЛИ РАН.

Результаты проведенных исследований использованы при создании специализированных интегрированных систем обработки информации в ФСБ

России и МВД России, что подтверждено соответствующими актами.

Основные результаты диссертации опубликованы

в 6 печатных работах, в том числе 2 из них в журналах рекомендованных ВАК.

Методы интеграции данных в информационно-поисковых системах

Интеграция информационных ресурсов является одним из наиболее важных направлений развития технологий баз данных и смежных областей информационных технологий, особенно в последние годы.

Проблема интеграции данных весьма актуальна при создании корпоративных информационно-поисковых систем, когда необходимо объединить различные информационные системы, каждая из которых использует собственные информационные ресурсы. Можно выделить два наиболее значимых класса задач интеграции: Класс А: организация взаимодействия прикладных программных систем, работающих в рамках организации: государственной структуры или бизнес-корпорации; Класс В: обеспечение взаимодействия информационных систем различных (двух или более) ведомств или корпораций, федеральных или муниципальных структур.

При этом, если интеграция бизнесов на российском рынке происходит далеко не такими высокими темпами, как в США или Европе, то задача взаимодействия информационных систем приобрела в последнее время наивысший приоритет. При выборе методологии, технологии и платформы электронного взаимодействия в каждом конкретном случае необходимо обязательно иметь в виду, к какому классу относится решаемая задача. Кстати, в одной и той же организации могут решаться параллельно задачи обоих классов.

Интеграция в рамках одной организации (задачи класса А) вызвана традиционным подходом к автоматизации, когда для каждого департамента, исходя из его важности, влияния и финансовых возможностей, приобретались готовые или разрабатывались собственными силами программные системы. Нужно учитывать, что каждая программная система опирается на собственную модель данных, модель процессов и построена на технологическом стеке (набор средств базового ПО). Неоднородность технологического стека как раз и порождает проблемы интеграции. Также обособленность прикладных систем часто получалась вследствие укрупнения и слияния организаций.

Интеграция, в нашем случае, это прежде всего возможность работать с несколькими базами данных как с одной базой данных. При этом не нужно иметь доступ к каждой локальной базе отдельно, что удобно для пользователей, и очень хорошо для обеспечения безопасности данных. Поскольку чем меньше пользователей имеют доступ к базам данных, тем меньше возможность случайного или умышленного причинения вреда, и тем меньше возможность кражи пароля и несанкционированного доступа к данным. Также при доступе к данным через систему интегрированных баз данных нет необходимости знать - структуру каждой" отдельной базы, ненужно-помнить, где что хранителей как называется, что также обеспечивает удобство пользователям.

Основной задачей, возникающей при решении проблемы интеграции, является выбор метода интеграции, а затем разработка моделей и алгоритмов, необходимых для анализа и реализации конкретного метода. Поскольку в большинстве информационных систем данные хранятся в базах данных, то будем исследовать проблемы интеграции баз данных

Существует множество способов интеграции локальных баз данных, среди которых выделим несколько, наиболее часто применяемых на практике.

Первый способ интеграции на основе единого профиля стандартов подразумевает создание интегрированной системы как совокупности баз данных, реализованных по единым стандартам. В этом случае все локальные базы данных планируются и создаются в рамках единой модели данных, с единой структурой и форматом данных, о чем договариваются заранее. Оговариваются также способы доступа к данным (рисунок 1.1).

В этом случае легко создается единый унифицированный интерфейс, через который можно получить доступ ко всем локальным базам данных. При создании интегрированной системы по такому способу возможны два подхода. Первый подход подразумевает создание всех локальных подсистем (локальных баз данных) заново, с ориентацией на требования интеграции. Недостатком такого подхода является высокая стоимость реализации.

Второй подход, это привести все имеющиеся к моменту создания интегрированной системы, базы данных к единому формату данных, и к единой модели организации данных. Тогда доступ к ним будет единообразным, и не будет вызывать трудностей, легко можно написать интерфейс, через который можно получить доступ ко всем локальным базам

Недостатком этого подхода являются значительные финансовые и временные затраты, что сопряжено с необходимостью внесения серьезных изменений в имеющиеся базы данных, применения новых СУБД, решению сложных организационных задач по согласованию и синхронизации проведения работ.

Формирование структуры витрины

При разработке структуры данных, содержащихся в витрине, необходимо определить, какие данные витрина будет содержать, и в каком виде эти данные будут в ней представлены и связаны между собой.

Основной особенностью ссылочного массива или витрины данных является то, что витрина не содержит полной копии информации из всех локальных систем и баз данных, в ней хранятся лишь ключевые слова, атрибуты, необходимые для поиска информации в локальных системах и идентификации ее с данными в локальных базах. Следовательно, на первом этапе разработки необходимо определить поисковые атрибуты витрины.

Поисковые атрибуты витрины выбираются из атрибутов локальных баз данных таким образом, чтобы они присутствовали во всех локальных базах данных. То есть эти атрибуты являются общими для всех объединяемых баз. Может быть так, что одинаковые по семантике атрибуты представлены в разных форматах (например, дата) или имеют различную структуру (например, фамилия, имя и отчество рассматриваются в некоторых базах как один атрибут или разбиты на три различных атрибута). В таких случаях необходимо либо приводить атрибуты, если они будут выбраны в качестве ключевых (поисковых), к единому представлению, либо в ссылочном массиве использовать все атрибуты из локальных баз данных.

Выбранные поисковые атрибуты должны как можно более точно определять строку (запись) в конкретной базе данных. Идеальным случаем будет, когда поисковые атрибуты однозначно определяют одну запись в каждой локальной базе.

Однако, часто, в силу неоднозначного (или неполного) описания конкретного объекта в локальных базах данных, поиск по витрине производится не по конкретному объекту (например, по физическому лицу), а по некоему абстрактному объекту, который определяется совокупностью поисковых атрибутов VI, ... , Vn, соответствующих множеству конкретных объектов в локальных базах. Это может быть тогда, когда невозможно однозначно определить объект в каждой локальной базе, например, из-за отсутствия в базах полного набора поисковых атрибутов, однозначно определяющих объект поиска. Так, при поиске физического лица в одних локальных базах могут иметься только фамилии и имена, в других только годы рождения, что приводит к определению по запросу целых групп лиц в каждой базе. Это и будут данные об абстрактном объекте, которому соответствуют неполные наборы поисковых атрибутов. Таким образом, на запрос может выдаваться множественный ответ.

Для того, чтобы не обращаться к локальным базам в которых нет сведений по заданным поисковым атрибутам, в витрине создается отдельная таблица, так называемое лицо витрины, в которой отражается информация о наличии или отсутствии сведений об объектах в каждой локальной базе. В этой таблице перечислены все возможные комбинации поисковых атрибутов. Для каждой комбинации, то есть для каждого объекта, проставлены признаки наличия данных об этом объекте в каждой из локальных баз данных. Отметим, что эти признаки могут меняться по мере изменения данных в локальных базах.

Здесь знак «+» означает, что сведения об объекте с данными поисковыми атрибутами присутствует в локальной базе, а знак «-» означает, что сведений об искомом объекте в локальной базе нет.

Если информация по заданному объекту имеется, то тогда можно направлять запрос на получение полной информации в конкретную локальную базу данных.

Здесь возможны два варианта получения необходимой информации, а соответственно и структуры витрины.

В первом случае локальные базы данных защищены для доступа извне, и нет возможности напрямую послать к ней SQL-запрос на получение информации. Например, когда информация засекречена или конфиденциальна. В этом случае витрина должна содержать идентификатор строки в локальной базе данных, по которому в этой базе данных можно найти сведения (записи) о требуемом объекте. Таким идентификатором может служить, например, rowid. Он является уникальным для каждой строки в таблице.

Анализ процесса обновления витрины

Обновление витрины данных необходимо для поддержания ее в актуальном состоянии, то есть в таком состоянии, когда информация в ней соответствует данным в локальных базах данных на текущий момент.

Поиск изменений в локальных базах данных, то есть сравнение текущей версии витрины с состоянием каждой базы данных на данный момент времени, процесс очень длительный и трудоемкий, требующий больших ресурсов вычислительной техники. Поэтому целесообразно в каждой локальной базе данных вести постоянную регистрацию всех изменений (обновлений), будь то добавление новых записей, их удаление или модификация.

Имея список изменений во всех базах данных, входящих в состав интегрированной системы, можно вносить изменения в витрину данных. Возможны два варианта алгоритма внесения изменений.

Первый вариант заключается в том, что последовательно вносятся изменения из каждой базы данных. Но тогда при добавлении новой строки в витрину нужно посмотреть все базы на предмет наличия в них информации о таком же объекте. Это необходимо для корректного внесения данных в витрину и избежания дублирования строк в витрине. Однако, тогда процесс обновления витрины увеличивается по длительности в несколько раз, что неприемлемо. Например, если в какой-то локальной базе появилась информация о новом объекте, то в витрине должна появиться запись об этом объекте, но в лицевой части витрины будет пометка о наличии сведений об этом объекте только в данной локальной базе. Требуется осуществить поиск данных об этом объекте во всех локальных базах и проставить соответствующие отметки в лицевой части витрины. Это достаточно сложная задача, поскольку нужно предварительно осуществить согласование значений поисковых атрибутов об объекте во всех ЛБД.

Второй вариант предполагает предварительное создание общего сводного массива (файла) изменений по всем локальным базам данных, перед внесением изменения в витрину. Этот массив создается на основе данных о произошедших изменениях в каждой ЛБД. При этом если информация об объекте появилась сразу в нескольких локальных базах данных, то эти изменения вносятся в витрину не отдельно, а одной строкой. Необходимо, однако, правильно расставить в витрине признаки наличия информации об этом объекте в локальных базах данных.

Перед внесением данных в витрину необходимо также проверить, существует ли уже такая строка в витрине. Если нет - то просто добавляется новая строка, если да, то эту строку необходимо изменить, а не добавлять новую.

Для определения оптимального интервала обновлений витрины рассмотрим процесс изменений в локальной базе данных. Пусть поток изменений в локальной базе данных номер і является пуассоновским с интенсивностью Л( О (шт./ед.вр.). Пусть поток запросов к витрине от пользователей интегрированной информационной системы также пуассоновский с параметром // О (шт./ед.вр.) [63, 64]. Будем считать, что актуализации витрины проводится периодически и период обновления является постоянной величиной. Схема процесса актуализации ссылочного массива данных (витрины данных) приводится на рисунке 3.1. Пусть Т — величина интервала между двумя последовательными обновлениями витрины (интервал обновлений витрины).

Тогда Л;Т - среднее количество изменений в локальной базе данных номер і за период Т.

Будем считать, что администрирование витрины сопряжено с определенными затратами, которые складываются из затрат на проведение обновлений и затрат, связанных с обработкой запросов с использованием неактуальных записей в витрине. Качество и эффективность администрирования будем определять средней величиной указанных затрат.

Специализированная интегрированная информационно-поисковая система

Подсистема информационного взаимодействия «Центр-МВД-ГИАЦ» (ПИВ 2.1) предназначена для решения следующих задач: - формирования информационных ресурсов ЕБД в части тематики ГИАЦ Министерства внутренних дел Российской федерации (МВД России — Участник №2 ЕБД); - автоматизированного обмена информационными ресурсами МВД России и других федеральных органов власти в составе Единого банка данных.

Целями создания подсистемы «Центр-МВД-ГИАЦ» являются: - создание в Едином банке данных информационного ресурса МВД России (в части, касающейся ГИАЦ МВД России), называемого далее банком данных Участника №2; - обеспечение обмена информацией, имеющей оперативную значимость в рамках применения ЕБД, между Участником №2 и другими Участниками ЕБД (другими федеральными органами исполнительной власти); - обеспечение участия МВД России в разработке концептуальной структуры и информационно-функционального состава Единого банка данных, банка данных Участника №2 как его составной части; - унификация, систематизация, накопление разнородной информации.

Подсистема «Центр-МВД-ГИАЦ» обеспечивает Участникам ЕБД, в соответствии с регламентом полномочий, автоматизированный доступ к информационным ресурсам федеральных банков данных (как ведомственных, так и межведомственных), которыми располагает ГИАЦ МВД России. Тематическая характеристика указанных информационных ресурсов соответствует целевому назначению подсистемы «Центр-МВД-ГИАЦ» - совершенствованию информационной поддержки оперативной и аналитической деятельности правоохранительных органов.

Нормативные основы информационного взаимодействия (в виде Регламента взаимодействия Участника №2 и Единого банка данных по порядку предоставления, обмена и выдачи информации) основываются на правовых актах Российской Федерации и определяются двусторонними соглашениями МВД России с Государственным заказчиком и, при необходимости, с другими Участниками ЕБД.

Структурно-функциональная схема подсистемы, в соответствии с которой строится технология взаимодействия, представлена на рисунке 4.1.

Подсистема ПИВ №2.1 реализует информационный узел в составе ЕБД, территориально размещенный в служебных помещениях ГИАЦ МВД России (Участник №2). Исходя из функционального назначения ГИАЦ в системе МВД России, ПИВ №2.1 предназначена только для одностороннего предоставления информации из ресурсов ГИАЦ МВД России пользователям ЕБД.

В составе подсистемы на схеме выделяются следующие ключевые функциональные компоненты: - узел доступа, который обеспечивает средства связи и телекоммуникации и является типовым элементом в ЕБД для варианта конфиденциального информационного контура; - аппаратно-программный комплекс информационного взаимодействия (КИВ №2.1), обеспечивающий формирование, хранение и выдачу информации по тематике Участника №2, передачу данных в Центральный банк данных (далее - ЦБД), информационную безопасность подсистемы; - программные средства действующего комплекса интегрированных информационных учетов ГИАЦ МВД России.

В составе КИВ №2.1 основными функциональными компонентами являются: - база данных взаимодействия (далее - БДВ), предназначенная для формирования эталонной базы данных (СУБД SQL Server) Участника №2 в форматах, соответствующих форматам данных ЦБД. Основным средством, обеспечивающим хранение и доступ к информации (документооборот), является система ЕВФРАТ; - база приложений Участника №2, предназначенная для организации временного хранения информации, полученной в результате обработки запросов к информационным ресурсам Участника №2. База приложений функционирует в программно-информационной среде автоматизированных учетов Участника №2. Информация базы приложений конвертируется средствами КИВ №2.1 в форматы базы данных взаимодействия; - шлюз взаимодействия, обеспечивающий одностороннюю направленность потока информации к базе данных взаимодействия. Шлюз является средством обеспечения информационной безопасности, ограничивающим взаимозависимость двух в техническом отношении различных информационных контуров: контура ЕБД и контура Участника №2 (контур ГИАЦ). Базы данных обслуживаются и управляются комплексами автоматизированных рабочих мест (АРМ), объединенных в независимые локальные вычислительные сети.

Похожие диссертации на Повышение эффективности применения ссылочных массивов данных в интегрированных системах обработки информации