Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Модели и алгоритмы организации долговременного хранения электронных деловых документов Соловьев Александр Владимирович

Модели и алгоритмы организации долговременного хранения электронных деловых документов
<
Модели и алгоритмы организации долговременного хранения электронных деловых документов Модели и алгоритмы организации долговременного хранения электронных деловых документов Модели и алгоритмы организации долговременного хранения электронных деловых документов Модели и алгоритмы организации долговременного хранения электронных деловых документов Модели и алгоритмы организации долговременного хранения электронных деловых документов Модели и алгоритмы организации долговременного хранения электронных деловых документов Модели и алгоритмы организации долговременного хранения электронных деловых документов Модели и алгоритмы организации долговременного хранения электронных деловых документов Модели и алгоритмы организации долговременного хранения электронных деловых документов Модели и алгоритмы организации долговременного хранения электронных деловых документов Модели и алгоритмы организации долговременного хранения электронных деловых документов Модели и алгоритмы организации долговременного хранения электронных деловых документов Модели и алгоритмы организации долговременного хранения электронных деловых документов Модели и алгоритмы организации долговременного хранения электронных деловых документов Модели и алгоритмы организации долговременного хранения электронных деловых документов
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Соловьев Александр Владимирович. Модели и алгоритмы организации долговременного хранения электронных деловых документов: диссертация ... доктора технических наук: 05.13.01 / Соловьев Александр Владимирович;[Место защиты: Институт системного анализа РАН].- Москва, 2015.- 296 с.

Содержание к диссертации

Введение

1 Анализ проблем долгосрочного хранения электронных документов 14

1.1 Основные определения 16

1.2 Определение объекта долговременного хранения 19

1.2.1 Проблема определения понятия электронный документ и необходимого состава информации для долговременного хранения 19

1.2.2 Характеристика объекта долговременного хранения 28

1.3 Обзор существующих средств долговременного хранения электронных документов и нормативных документов 30

1.3.1 Национальный архив США (NARA - National Archives and Records Administration) 31

1.3.2 Национальные архивы Австралии 34

1.3.3 Национальные архивы Великобритании 36

1.3.4 Архивы и Национальная библиотека Новой Зеландии 39

1.3.5 Государственный архив кантона Цюрих (Швейцария) 40

1.3.6 Федеральное архивное агентство (Росархив) 40

1.3.7 Национальные архивы Дании 42

1.3.8 Центральный государственный электронный архив Украины 43

1.3.9 Федеральное управление по безопасности информационных технологий Германии (Bundesamt fur Sicherheit in der Informationstechnik, BSI) 44

1.3.10 Национальные Архивы Республики Корея 46

1.3.11 Другие примеры 47

1.4 Проблемы обеспечения сохранности электронного документа при длительном хранении 1.4.1 Проблема обеспечения аутентичности документа 47

1.4.2 Проблема «старения» носителей информации 52

1.4.3 Проблема обновления программно-аппаратной среды хранения 55

1.4.4 Проблема интерпретируемости и отображения документов 57

1.4.5 Другие проблемы долгосрочного хранения 65

1.5 Выводы по главе 66

2 Разработка моделей и алгоритмов обеспечения долговременной сохранности электронных документов 68

2.1 Постановка задачи обеспечения долговременной сохранности, основные ограничения и допущения 68

2.2. Решение проблемы обеспечения аутентичности 74

2.2.1 Математическая модель оценки сохранения аутентичности 74

2.2.2 Алгоритмическое решение проблемы сохранения аутентичности 76

2.3 Решение проблем «старения» носителей информации и обновления программно аппаратной среды 84

2.3.1 Необходимость хранения избыточных данных 84

2.3.2 Алгоритм инвентаризации носителей 85

2.3.3 Необходимость миграции электронных документов при долговременном хранении..87

2.4 Решение проблемы интерпретируемости и отображения электронных документов 89

2.4.1 Необходимость разработки и область применения формата долговременного хранения 91

2.4.2 Требования к формату долговременного хранения 98

2.4.3 Описание разработанного формата долговременного хранения 102

2.5 Решение прочих проблем долговременной сохранности 109

2.5.1 Синхронизация электронного и «бумажного» архивов 109

2.5.2 Обеспечение надежности функционирования ЭА 109

2.5.3 Оценка устойчивости ЭА к внешним воздействиям 110

2.6 Выводы по главе 110

3 Модель электронного документа при долговременном хранении 112

3.1 Основные понятия и определения 112

3.2 Разработка модели документа 114

3.3 Разработка моделей макроблоков документа 119

3.3.1 Модель архивной карточки 119

3.3.2 Модель оригинала документа 121

3.3.3 Модель нормализованной копии документа 123

3.3.4 Модель полнотекстового индекса документа 125

3.3.5 Модель классификаторов ЭлД 126

3.3.6 Модель связок документа с другими документами 129

3.3.7 Модель выписки из журнала инвентаризации ЭП 130

3.4 Оценка отчуждаемости и интерпретируемости электронных документов 132

3.4.1 Оценка отчуждаемости ЭлД от программно-аппаратной среды хранения 132

3.4.2 Оценка интерпретируемости ЭлД 135

3.5 Выводы по главе 138

4 Разработка принципов создания программно-аппаратного регулятора 140

4.1 Общие положения 140

4.2 Разработка принципов создания программно-аппаратного регулятора объекта управления 140

4.2.1 Выбор основного принципа реализации 140

4.2.2 Назначение программно-аппаратного регулятора 142

4.2.3 Цели программно-аппаратного регулятора 143

4.2.4 Выбор средств обеспечения аутентичности документов 144

4.2.5 Технологическая схема программно-аппаратного регулятора 145

4.3 Функциональные возможности программно-аппаратного регулятора 147

4.3.1 Ввод документов 147

4.3.2 Хранение документов 148

4.3.3 Поиск, извлечение и печать документов 149

4.3.4 Безопасность и администрирование 149

4.3.5 Отчеты и анализ 150

4.4 Описание примера программно-аппаратного регулятора - ЭА долговременного хранения 151

4.5 Сравнение авторского решения и существующих ЭА долговременного хранения 162

4.6 Выводы по главе 168

5 Методика опенки надежности программно-аппаратного регулятора (электронного архива) и среды хранения 170

5.1 Математические модели оценки показателей качества программно-аппаратного регулятора 171

5.1.1 Модель полноты выполнения функций 171

5.1.2 Модель своевременности выполнения функций 173

5.1.3 Показатели достоверности функционирования 174

5.1.4 Показатели надежности функционирования 176

5.1.5 Понятие отказа и сбоя в модели надежности 178

5.1.6 Схема надежности 181

5.2 Методика оценки надежности программно-аппаратного регулятора 184

5.2.1 Математический аппарат оценки надежности технического обеспечения

программно-аппаратного регулятора 185 5.2.2 Математический аппарат оценки надежности программного обеспечения программно-аппаратного регулятора 186

5.2.3 Общая модель надежности 190

5.2.4 Оценка показателей надежности в условиях неполных статистических данных 196

5.2.5 Оценка границ показателей надежности 197

5.3 Порядок работы по методике 199

5.3.1 Порядок проведения экспресс - оценки надежности 199

5.3.2 Порядок получения уточненной оценки надежности 201

5.4 Методика автоматизированного сбора статистических данных 203

5.4.1 Общие принципы организации сбора статистических данных по отказам и сбоям .204

5.4.2 Порядок сбора статистических данных по отказам и сбоям в период эксплуатации в рабочем режиме 205

5.4.3 Порядок сбора статистических данных по отказам и сбоям во время наладки, технического обслуживания или тестирования 206

5.5 Выводы по главе 209

6 Алгоритм оценки устойчивости программно-аппаратного регулятора (электронного архива) к внешним воздействиям 211

6.1 Основные понятия и определения 211

6.2 Проблемы обеспечение устойчивости к внешним воздействиям и пути их решения 212

6.2.1 Общая характеристика проблем обеспечения устойчивости к внешним воздействиям 212

6.2.2 Основные положения алгоритмического аппарата оценки устойчивости к внешним воздействиям 214

6.2.3 Ограничения и допущения модели оценки устойчивости 217

6.3 Алгоритм оценки устойчивости к внешним воздействиям 217

6.4 Методология оценки влияния человеческого фактора на функционирование программно-аппаратного регулятора 227

6.4.1 Основные понятия и определения 228

6.4.2 Математическая модель оценки влияния человеческого фактора на безошибочность функционирование 230

6.4.3 Алгоритм оценки влияния человеческого фактора на устойчивость функционирования 234

6.4.4 Методологический подход к оценке влияния человеческого фактора на устойчивость функционирования при отсутствии точных статистических данных 237

6.5 Выводы по главе 243

Заключение 245

Сокращения и условные обозначения 248

Список терминов 253

Литература

Национальный архив США (NARA - National Archives and Records Administration)

Первой проблемой для хранения электронного документа вообще, и долгосрочного хранения в частности, является сложность определения: что же собственно нужно хранить? Каков необходимый состав информации?

Если для бумажного документа такого вопроса не возникает, т.к. бумага это некоторый материальный носитель, его можно рассмотреть, взвесить, измерить и т.д., то электронный документ это интуитивно нечто виртуальное, непонятное и плохо «осязаемое».

Тем самым состав информации, которая включается в понятие электронный документ остается неопределенным. В то же время, особенно при долговременном хранении, необходимо определить состав информации, которую необходимо хранить, чтобы ничего не потерять и не обесценить документ.

Данную проблему подтверждает множество определений электронного документа, которые возникли последнее время, некоторые из них, в частности, отображены в федеральных законах РФ.

Приведем некоторые определения электронного документа, в том числе зафиксированные законодательно.

«Электронный документ - документированная информация, представленная в электронной форме, то есть в виде, пригодном для восприятия человеком с использованием электронных вычислительных машин, а также для передачи по информационно-телекоммуникационным сетям или обработки в информационных системах» ([154], Статья 2. п. 11.1). Где «документированная информация - зафиксированная на материальном носителе путем документирования информация с реквизитами, позволяющими определить такую информацию или в установленных законодательством Российской Федерации случаях ее материальный носитель» ([154], Статья 2. п. 11). А «информация — сведения (сообщения, данные) независимо от формы их представления» ([154], Статья 2. п. 1).

Это определение можно считать основным определением электронного документа в РФ на сегодняшний момент. Однако, оно не конкретизирует (кроме «восприятия человеком») документ и не накладывает по сути на него никаких ограничений, кроме, может быть, привязки к материальному носителю.

«Электронный документ - документ, в котором информация представлена в электронно-цифровой форме» ([152], Глава 1, Статья 3).

Данное определение наиболее размытое, т.к. по сути, документом может быть все что угодно, записанное в виде наименьших единиц информации (битов, байтов и т.д.).

Впрочем, в принятом Федеральном законе [155], который фактически отменяет действие [152], понятие электронный документ встречается в тексте несколько раз, но определения не дано вообще.

«Электронный документ - форма подготовки, отправления, получения или хранения информации с помощью электронных технических средств, зафиксированная на магнитном диске, магнитной ленте, лазерном диске и ином электронном материальном носителе» ([151], Глава 1. Статья 2).

В данном определении документ выступает как некоторая единица в первую очередь передачи информации, причем еще и привязанная обязательно к материальному носителю. Т.е. видимо, тот же документ при передаче по компьютерной сети собственно уже документом не является.

«Конструкторский документ в электронной форме (электронный документ) - документ, выполненный как структурированный набор данных, создаваемых программно-техническим средством» ([54], статья А.З). Причем в [54] дано еще определение мультимедийного электронного документа «аудиовизуальный документ (мультимедийный документ) - электронный документ, содержащий видео- и (или) звуковую информацию» ([54], статья А.6). В этом определении интересно то, что документ соотносится с понятием структуры информации, а также, что он может содержать не только тексты и графику, но и звуковые и видеофрагменты.

«Электронный документ - форма представления документа в виде множества взаимосвязанных реализаций в электронной среде и соответствующих им взаимосвязанных реализаций в цифровой среде» ([60], статья 4, п.4.2.12). Причем там же определены: «документ - объект информационного взаимодействия в социальной среде, предназначенный для формального выражения социальных отношений между другими объектами этой среды» ([60], статья 4, п.4.1.1), «электронная среда - среда технических устройств (аппаратных средств), функционирующих на основе физических законов и используемых в информационной технологии при обработке, хранении и передаче данных» ([60], статья 4, п.4.2.10), «цифровая среда - среда логических объектов, используемая для описания (моделирования) других сред (в частности, электронной и социальной) на основе математических законов» ([60], статья 4, п.4.2.11).

Что немаловажно, в [60] введено понятие «реализация электронного документа», что отделяет общее понятие от конкретной единицы (реализации) электронного документа (ЭлД). «Реализация ЭлД - отдельный элемент множества, представляющего ЭлД, определенная (т.е. существующая или могущая существовать) в части электронной или цифровой среды» ([60], статья 4, п.4.3.1).

Кроме того, в [60] еще введено понятие визуализации ЭлД или «воспроизведение ЭлД», что отделяет собственно единицу электронного документа от представления его пользователю. «Воспроизведение ЭлД -реализация ЭлД, доступная непосредственному восприятию человеком» ([60], статья 4, п.4.3.4).

Алгоритмическое решение проблемы сохранения аутентичности

По сравнению с ведущими странами (США, Австралия, Великобритания), состояние дел с долговременным хранением в Дании находится на начальной стадии. Решения по долговременной сохранности не претендуют на универсальность и общность и заключаются, по сути, в нормализации электронных документов, не более.

Центральный государственный электронный архив Украины ЦГЭА Украины создан в 2007 году с целью выполнения государственных задач по управлению архивным делом и делопроизводством в отношении электронных документов [ПО]. ЦГЭА принимает на хранение электронные документы Национального архивного фонда, созданные в органах государственной власти.

Электронным документом в Украине считается только данные в электронной форме с обязательным реквизитом - электронная подпись (ЭП).

Несмотря на утвержденный в 2012 году порядок взаимодействия органов исполнительной власти с использованием электронной подписи, единой системы электронного взаимодействия органов власти по обмену электронными документами не существует.

Тем не менее, ЦГЭА принимает на хранение ЭлД, заверенные ЭП. А также архивирует веб-сайты государственных структур, принимает на хранение базы данных и реестры.

Для документов длительного срока хранения (в Украине - свыше 10 лет) создается печатный экземпляр электронного документа. Предельный срок хранения ЭлД в архивах организаций (до уничтожения или передачи на долговременное хранение в ЦГЭА) сокращен в 2012 году до 3 лет [108]. Тем самым речь собственно о долговременной сохранности ЭлД не ведется, существующие решения рассчитаны на срок хранения ЭлД не более 10 лет. Не прослеживается также сколько-нибудь системного подхода к решению проблемы сохранности.

Нормализация документов при длительном хранении в настоящее время не проводится, однако, ЦГЭА вместе с Украинским научно-исследовательским институтом архивного дела и документоведения работают над созданием единого перечня форматов электронных документов для различных групп электронных форматов: текст, графика, аудио, видео [ПО]. Перечень необходим чтобы либо принимать документы в данных форматах, либо производить нормализацию в данные форматы при приеме на долгосрочное хранение.

Т.е. как видно из краткого обзора, в Украине также не существует сколько-нибудь универсального подхода к долговременной сохранности электронных документов, однако поиски решения ведутся.

Федеральное управление по безопасности информационных технологий Германии (Bundesamt fur Sicherheit in der Informationstechnik, BSI)

В последние годы BSI подготовило документ: Техническое руководство BSI TR-03125 «Доверенное долговременное хранение» [24].

В документе приводятся рекомендации по долговременному хранению электронных документов, заверенных электронной подписью, с целью обеспечения их аутентичности, целостности, конфиденциальности с ориентацией на германские законы об электронной подписи.

В частности, в документе содержатся следующие рекомендации: необходимость установки на документе новой электронной подписью (ЭП), в случае если выяснится, что криптографический алгоритм более ранней ЭП не обеспечивает техническую защиту данных (см. [24], п.4.2).

Допускается подписание части архива в автоматическом режиме, т.к. законодательно допускается использовать одну метку времени на нескольких документах (см. [24], п.4.2.1.2).

Из анализа документа видно, что при долговременной сохранности в Германии предпочтение отдается технологиям защиты документа, связанным с электронной подписью и электронным нотариатом (дополнительное заверение меткой времени) в противовес архивам, существующим в англо-саксонской правовой системе. В последних защита полностью возлагается на сам электронный архив и его персонал, что может сделать данные уязвимыми. В Германии же предпочтение отдается технологиям электронной подписи, тем самым привязка к программному обеспечению собственно электронного архива отходит на второй план. Однако, и здесь есть некоторая уязвимость системы в связи с меняющимися технологиями криптозащиты. К тому же, согласно [24] при долговременном хранении должен быть защищенным еще и канал связи и передачи данных.

Что касается форматов данных долговременного хранения, в [24] п. 6.2 не приведены конкретные рекомендации, сказано только, что использоваться должны «стандартизованные форматы». Для хранения метаданных рекомендуется применять форматы, основанные наХМЬ (см. [24], п.6.3).

В [24], глава 7 даже приводится рекомендуемая архитектура архивного решения (см. рисунок 1).

Собственно здесь также нет ничего революционного, архитектура стандартная трехуровневая. В среднем уровне (сервер приложений) выделены основные функциональные блоки: Модуль архивного хранения, непосредственно связанный с пользователями. Все взаимодействие с архивом электронных документов осуществляется через API (Application program interface) данного модуля. Модуль установки/проверки ЭП. Криптомодуль (расположен ниже модуля проверки ЭП, возможно его непосредственное администрирование с клиентского автоматизированного рабочего места (АРМ), имеющего специальный доступ к криптомодулю). Хранилище документов (ЕСМ - Enterprise content manager) расположено на нижнем уровне. Имеется возможность его администрирования с клиентского автоматизированного рабочего места (АРМ). Впрочем, пока в открытой печати нет сведений о технических системах, реализующих указанные в документе принципы.

Модель выписки из журнала инвентаризации ЭП

При взаимодействии между ЭА по обмену документов в формате долговременного хранения можно выделить несколько видов информационного взаимодействия: - первичный запрос информации в ЭА; - уточняющий запрос по полученной первичной информации; - ответ на запрос в виде передачи документов (или их отдельных частей) в формате долговременного хранения; - пополнение информации БД других ЭА без запроса (передача на дополнительное, длительное хранение, в вышестоящий ЭА и т.д.).

Запросы могут быть формализованными, т.е. содержать запросную форму (XML-схему) или неформализованными - содержать отдельные реквизиты документа ЭА.

В зависимости от этого ответы на запрос представляют собой ответы на формализованный запрос, с заполнением запросных полей формы или неформализованный, содержащий требуемую информацию по запрашиваемому документу из ЭА.

Задача формата долговременного хранения при информационном обмене между ЭА состоит в том, чтобы донести до другого ЭА всю информацию (запрос, ответ) без потерь.

Регламентное пополнение БД может содержать документ целиком, или его часть (например, без контроля исполнения), подлежащую передачи, например, на продленный срок хранения как представляющую большую ценность.

Виды информационного взаимодействия и схемы их работы могут уточняться на этапе разработки конкретного ЭА.

Описание разработанного формата долговременного хранения Приведем описание разработанного автором формата долговременного хранения электронных документов на примере создание такого формата для отчетной системы, которая используется в СЭД «Евфрат-документооборот», ИАС (информационно-аналитическая система) «Астарта», АПК ЭАПУ и десятках других программных продуктов.

В предыдущих пунктах мы установили, что физически в формате долговременного хранения электронный документ представляет собой информационный пакет, состоящий в общем случае из нескольких файлов.

Опишем сначала общие принципы организации информационного пакета. Сама структура информационного пакета и формат главного файла разработаны не автором, а взяты из стандартов описания [6, 26, 32, 31, 38].

Разработанный формат долговременного хранения использует стандарты: XML 1.0 [38]; XML Schema 1.0 [40]; SOAP 1.1 [32, 31]; vCard 3.0 [6, 26]; XML Encryption 1.0 [39]; XML Signature 1.0 [41]; ZIP (кроссплатформенный с открытым кодом [9]).

Главный файл пакета, согласно стандарту SOAP 1.1, имеет фиксированное имя message.xml. Формат имени остальных файлов: NNNNNNNN.ext, где NNNNNNNN - восьмиразрядное целое число с лидирующими нулями, ext -содержательное расширение файла (XML, TIF, DOC, ODF, PDF и т.д.). Допустимо наличие в одном пакете файлов с одинаковыми именами, но разными расширениями. На каждый присоединенный файл должна быть прямая или косвенная ссылка из главного файла. Главный файл (пример см. Приложение Б) пакета необходимо создавать по определенной XSD-схеме. При размещении в пакете частей документа согласно модели п.3.3 действуют следующие правила: - на каждое описание части документа в формате долговременного хранения (XML) должна быть прямая ссылка из главного файла пакета; 102 - ссылки на приложенные файлы задаются косвенно внутри xml-файлов формата долговременного хранения частей документа; - ссылки на части документа xml-файлы частей документа задаются в виде тэгов, вложенных в тэг Body/ . При этом имя элемента и пространство имен тэга должно соответствовать имени и пространству имен корневого элемента схемы xml-файла части документа (например, rptgen:XMLReport xmlns="ReportSch_001", где rptgen:XMLReport - имя корневого элемента XSD-схемы части документа, в данном случае схемы отчетной формы); - значение атрибута href должно содержать имя xml-файла части документа в пакете (например, href="00000001.xml", т.к. файлы внутри пакета указывают путь к файлу относительно корня пакета); - может присутствовать атрибут id, содержащий уникальный идентификатор части документа (GUID, например, id="{12 345 67 8-12 34-5 67 8-12 34-5 67 8 9012 34 5 6}"). Информационные пакеты, согласно приведенным выше требованиям к формату долговременного хранения могут делиться на запросы (первичные и уточняющие), ответы на запросы, пакеты обновлений (регламентное пополнение БД).

В каждом XML-файле части документа метаданные помещаются внутри специального элемента RegData - см. пример Приложение Б.

При формировании метаданных должны заполняться все поля структуры RegData.

Каждая часть документа, включая метаданные (см. п.3.3) имеет уникальный код. Код (атрибут «кодчасти») является обязательным выделенным целочисленным атрибутом части документа. Код используется для идентификации части, а также для задания связей между частями документа и документами (пример см. Приложение Б).

Формат поддерживает именованные направленные связи между частями документа или документами. Связи реализуются путем размещения в схеме исходного документа атрибута-ссылки на другой документ (часть). Для задания связи между конкретными документами используется код (атрибут «кодчасти»). При этом если объект А ссылается на объект В, то у объекта А в атрибуте-ссылке на объект В должен стоять код объекта В. Пример связанных документов см. Приложение Б.

Функциональные возможности программно-аппаратного регулятора

Как было показано выше, важной задачей при организации долговременного хранения является необходимость определить, что должно храниться. Разнообразие определений понятия электронный документ, отсутствие единого понимания, что именно нужно хранить, порождает необходимость решения данной задачи путем создания модели ЭлД.

Деловые документы, составляющие основу электронного архива, как правило, связаны с делопроизводственными процессами в организации. Структурирование документов производится на основе размещения документов в более крупной единице хранения, названной делом. Разбивка по делам в РФ ведется в соответствии с правилами, оговоренными нормативными документами [58, 105, 107, 148].

Кроме ЭА есть еще ряд систем, которые не подчиняются строгим правилам ведения архива, однако могут хранить документы в течение длительного срока. При этом документы также могут быть связаны друг с другом некоторой системой классификации, информацией о владельце и др.

Приведем определения систем хранения электронных документов, распространенных в настоящее время в информационных технологиях.

Корпоративное хранилище данных - структурированное хранилище разнородных электронных документов, позволяющее управлять этими документами на основе единых правил, разработанных для нужд конкретного предприятия (организации).

В архивное хранилище обычно помещают разнородные и разноформатные документы, которые могут быть определенным образом классифицированы или упорядочены. Как правило, такие хранилища позволяют включать и удалять документы (а также прочие информационные ресурсы и файлы), находящиеся в доступе в конкретной организации, в том числе в различных ее информационных системах.

Единая классификация документов в таких системах может осуществляться как путем автоматического индексирования по заранее определенным ключевым реквизитам, позволяющим осуществлять поиск в архивном хранилище, так и путем автоматической классификации документов на основе обучаемого классификатора и полнотекстового индексирования документов.

Система управления данными предприятия {Enterprise Content management system, ECMS) — информационная система, используемая для обеспечения и организации совместного процесса создания, редактирования и управления документами.

ECMS подразделяется на несколько классов информационных систем, таких как системы электронного документооборота (СЭД), кадровые системы, системы взаимодействия с клиентами (CRM - Customer relationship manager) и др.

Главной задачей такой системы является возможность собирать в единое целое и объединять на основе ролей и задач все разнотипные электронные документы, доступные как внутри организации, так и за ее пределами, а также возможность обеспечения взаимодействия сотрудников, рабочих групп и проектов с созданными ими базами знаний, информацией и данными так, чтобы их легко можно было найти, извлечь и повторно использовать привычным для пользователя образом.

Информационно-поисковая система (электронная библиотека) — упорядоченная коллекция разнородных электронных документов (в том числе книг), снабженных средствами навигации и поиска.

Система автоматизации документооборота, система электронного документооборота (СЭД) — автоматизированная многопользовательская система, сопровождающая процесс управления работой организации с целью обеспечения выполнения ею своих функций. При этом предполагается, что процесс управления опирается на человеко-читаемые документы, содержащие инструкции, обязательные к исполнению сотрудниками организации.

Информационно-аналитическая система (ИАС) - информационная система, которая помимо задач хранения и поиска информации способна решать аналитические задачи, например, помощь в принятии решения и построение прогнозов.

Для создания эффективного ЭА подобная система должна обладать возможностями хранилища данных, классификации документов на основе правил архивного хранения, а также автоматической тематической классификацией. Одной из необходимых функций ЭА является полнотекстовая индексация документов архивного хранилища, которая является «базовой» для многих поисковых и аналитических функций.

Электронные архивы должны быть связаны с оперативными информационными системами в единую промышленную цепочку, позволяющую быстро загружать документы в архив и, наоборот, осуществлять поиск архивных документов из оперативной системы.

Опираясь на разработанную в ИСА РАН теорию документного интерфейса [71, 69, 73], разработанную д.т.н., проф. Емельяновым Н.Е. и ее развитие [72, 135] под документом будем понимать структурированную информацию, как совокупность взаимосвязанных семантических блоков. Документ (деловой документ), безусловно, имеет четкую структуру, форму и содержание. Электронный документ - документ, семантические блоки которого и взаимосвязи между ними представлены в электронно-цифровой форме.

Семантические блоки — некоторые фрагменты документа, выделенные по смысловому содержанию. Всякий реальный документ разбивается на взаимосвязанные части (разделы, подразделы, пункты и т.д.), которые мы будем называть семантическими блоками.

Графически модель документа в электронном архиве можно представить в виде графа (или дерева, если до корня из любой листовой вершины имеется единственный путь), состоящего из взаимосвязанных семантических блоков ВІ.

Блоки в свою очередь представляют собой подграфы (поддеревья), также состоящие из семантических блоков следующего уровня: в любом документе всегда можно выделить заголовок, подзаголовки, повторяющиеся части, агрегаты (массивы, структуры данных), атомарные данные (листы дерева).

Между документами могут существовать различные отношения (связи) [131], т.е. лес документов может быть связан в единый граф. При этом в вершинах деревьев можно указывать неявные связи с другими документами. Если эти связи сделать явными, то лес превратится в сеть, разработка модели документа станет более сложной.

Учитывая рекомендации, необходимые для решения проблем, приведенных в главе 1, необходимо отметить, что документ в ЭА должен содержать дополнительную информацию: метаданные документа, связь с классификаторами, индексы, ЭП, сертификаты ЭП и СОС. Кроме этого должны быть также заверенные выписки из журналов аудита ЭП.

При длительном хранении документа кроме классификаторов и индексов, являющихся неотъемлемой частью электронного документа и проходящих вместе с ним возможных миграций данных, документ дополняется нормализованной копией документа.

Нормализованная копия представляет собой преобразование документа в один из форматов долгосрочного хранения (открытых, документированных форматов) XML, ODF, PDF/A. Она может быть также представлена сочетанием форматов, например XML для хранения содержимого (текста) документа, метаданных, индексов, информацией о связи с другими документами. И TIFF (для черно-белых документов) или PNG (для цветных), если необходимо сохранить внешний вид документа, как можно точно повторяющий внешний вид оригинала.

Похожие диссертации на Модели и алгоритмы организации долговременного хранения электронных деловых документов