Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Технология доступа к документам в научно-исследовательской организации Ковязина Елена Васильевна

Технология доступа к документам в научно-исследовательской организации
<
Технология доступа к документам в научно-исследовательской организации Технология доступа к документам в научно-исследовательской организации Технология доступа к документам в научно-исследовательской организации Технология доступа к документам в научно-исследовательской организации Технология доступа к документам в научно-исследовательской организации Технология доступа к документам в научно-исследовательской организации Технология доступа к документам в научно-исследовательской организации Технология доступа к документам в научно-исследовательской организации Технология доступа к документам в научно-исследовательской организации Технология доступа к документам в научно-исследовательской организации Технология доступа к документам в научно-исследовательской организации Технология доступа к документам в научно-исследовательской организации
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Ковязина Елена Васильевна. Технология доступа к документам в научно-исследовательской организации : диссертация ... кандидата технических наук : 05.25.05 Новосибирск, 2007 231 с., Библиогр.: с. 149-175 РГБ ОД, 61:07-5/4749

Содержание к диссертации

Введение

Глава 1. Анализ технологий доступа к документам 19

1.2. Этапы развития технологий доступа за рубежом 19

1.2. Доступ к документам в России 64

1.3. Анализ технологий доступа и выделение общих требований 77

Выводы 85

Глава 2. Модель доступа к документам в научно- исследовательской организации 88

2.1. Определение доступа и формулировка базовых требований 88

2.2. Разработка технологической модели доступа к документам 96

2.3. Основные функциональные модули технологии 99

Выводы 113

Глава 3. Метаданные и их связь с документами в хранилище 116

1.1. Описание информационных ресурсов 116

3.1. Модель документов в хранилище 121

3.2. Метаданные документов в спецификации RDF 127

Выводы 129

Глава 4. Реализация технологии доступа к документам в Институте вычислительного моделирования СО РАН 130

4.1. Шлюз Z39.50-HTTP как единая точка доступа к документам 130

4.2. Аннотированный каталог книг и продолжающихся изданий 135

4.3. Архив научных публикаций организации 137

4.4. Электронные документы 138

Выводы 140

Заключение 142

Список сокращений 146

Список литературы 149

Введение к работе

Актуальность темы. Тенденции мирового развития общества на

современном этапе характеризуются как путь продвижения к

информационному обществу. В соответствие с декларацией Всемирного

Саммита, проходившего в Женеве в 2003 г., «одним из основополагающих

принципов информационного общества для всех является концепция доступа к

информации и знаниям» [1]. Позиция ЮНЕСКО состоит в том, что простое

увеличение информационных потоков не обязательно приводит к появлению

новых возможностей для развития, поэтому необходимо продвижение от

информационного общества к обществам знания, одной из основных

стратегических целей на пути к которому является улучшение возможности для

научных исследований, информационной кооперации, творчества,

интенсивности труда и обменов. Производство и распространение

образовательных, научных и культурных материалов и сохранение цифрового

наследия должны рассматриваться как основополагающие элементы общества

знания [2]. Как следствие, информация является одним из «наиболее значимых

ресурсов человеческого сообщества и в государственном плане

рассматривается как стратегический ресурс. Сохранение, рациональное

использование и развитие этого ресурса является задачей огромного значения

для любого сообщества, государства и организации» [3].

В то же время гигантские объемы уже существующей информации, непрерывно продолжающийся рост её количества, разнородный и разобщенный

5
по многим признакам характер хранения и распространения,

отсутствие унифицированного доступа к ней создают существенные и все возрастающие проблемы её эффективного использования. Осознание указанных проблем, а также качественные изменения в области развития современных информационных технологий и средств передачи данных привели к необходимости поиска новых подходов и решений проблем создания хранилищ информационных ресурсов, их организации, средств и способов доступа к ней пользователей. В обобщенном виде такие подходы сегодня стали трактовать как создание «цифровых» или «электронных» библиотек [4].

Особое мнение международной ассоциации библиотек IFLA состоит в том, что сегодня «миссия библиотек - предоставить пользователям хорошо проверенную и точную информацию в отличие от открытой цифровой среды Интернета, которая наполнена разнообразной, в том числе и сомнительной информацией» [4]. Все это определяет основную цель развития библиотеки как центра, предоставляющего пользователям качественную, хорошо организованную информацию и доступ к ней, способный обеспечить её быстрый поиск и эффективную доставку.

Основной функцией библиотеки научной организации является информационное обеспечение научных исследований этой организации. По сложившейся традиции научные исследования обеспечивались, прежде всего, фондами библиотеки, комплектуемой в соответствии с тематикой исследований организации, и лишь в отдельных случаях фондами других научных библиотек

региона и крупных библиотек страны и мира по системе

межбиблиотечного абонемента. Однако с развитием компьютерных сетей и технологий электронных публикаций фонды библиотек перестали являться основным источником информации. По данным исследований в потоке информации необходимой ученым, печатные фонды библиотеки организации составляют только около 30% [145]. Как следствие, в целях информационного обеспечения научных исследований для библиотеки актуальной задачей является поиск новых путей и источников предоставления информации. Такими источниками могут являться фонды других научных и образовательных библиотек региона доступные с помощью электронных каталогов, а также ресурсы других регионов страны и мира доступные по компьютерным сетям, прежде всего ресурсы Интернет. Как следствие, для информационного обеспечения пользователей научно-исследовательской организации требуется электронная библиотека, определяющей смысловой частью которой является доступ к широкому спектру электронных информационных ресурсов специально отобранных и тщательно организованных в целях удовлетворения информационных потребностей ученых. Все вышесказанное определяет актуальность и практическую значимость представленной работы, одной из целей которой является повышение качества доступной пользователям информации путем её рациональной организации, структурирования и компоновки.

Степень изученности проблемы. Технологии доступа к

ресурсам имеют давнюю историю. Первые шаги в этом направлении были

сделаны в Библиотеке Конгресса США в 60-е годы прошлого века, когда был

разработан машиночитаемый формат MARC, используемый для корпоративной

каталогизации и обмена информацией между библиотеками [6-9, 104]. В конце

70-х годов в рамках проекта Linked System Project были разработаны сетевые

протоколы Z39.50, предназначенные для связи между компьютерами и обмена

информацией между ними. Два этих факта явились определяющими в

дальнейшем развитии технологий доступа к информации, и к документам, как

ее материальным носителям. Развитие технологий доступа к документам в

библиотеках определило выделение функциональных компонент этих

технологий как отдельных подзадач. Например, выделился доступ к

документам, определивший развитие Web, и электронная доставка документов.

Доступ к документам и доставка документов - два противоположно

направленных процесса, в которых доставка предполагает пассивную роль

пользователя, что является весьма характерным в традиционной среде

обслуживания крупных библиотек. Электронная доставка документов (ЭДД)

стала определяющей частыо развития многих библиотечно-информационных

систем и корпораций библиотек [5, 6, 10-15]. Стремление доставить документ

пользователю в привычном для него виде определило использование для этих

целей преимущественно факсов, а впоследствии и электронной почты. И лишь

для поиска документов в сети библиотеки использовалась технологии «клиент-

8
сервер» сетевого протокола Z39.50. Отчасти в этом же направлении

развивались и появившиеся позже технологии электронных издательств, предоставлявших свои ресурсы посредством телекоммуникационных сетей. Однако появление протокола HTTP и связанное с ним бурное развитие технологий и увеличение количества информационных ресурсов Интернет определили активную роль пользователей. В Web-среде технологии доступа преобладают, но это доступ к неорганизованным хаотичным ресурсам, которые лишь с определенными допущениями обладают свойствами информации. Все это предопределяет стремление к организации ресурсов, развитию поисковых сервисов и информационных услуг разработчиков Web [16-23, 146, 148]. Значительный прогресс в развитии в этом направлении поисковых машин, таких как Google, в частности [24, 25], подтверждают этот факт. Следует, однако, отметить, что, несмотря на поддержку многоязычного поиска и сервисных услуг, большинство развитых технологий Интернет, нацелены на англоязычную аудиторию, и, как следствие, на англоязычные ресурсы.

В научной организации пользователи нуждаются в совместном использовании как ресурсов Интернет, так и традиционных ресурсов библиотек. К тому же, высокий уровень их квалификации предполагает большую самостоятельность в процессе доступа к ресурсам и, как следствие, большую требовательность к их упорядоченности и систематизации. Это накладывает дополнительные условия на обеспечение доступа к документам и требует большей технологической проработанности систем, разрабатываемых в

этой области, для повышения эффективности использования

информационных ресурсов. Системы доступа к ресурсам российских разработчиков, таких как АБИС «РУСЛАН» («Открытые библиотечные системы», СПбГТУ) [26], Библиотечный Интернет-комплекс (ГПНТБ России) [27], рассчитаны на технологии работы крупных библиотек, обладают значительной функциональной избыточностью и требуют дополнительных усилий для обеспечения интеграции ресурсов различных производителей.

Цель диссертационной работы состоит в выработке специфичных для научно-исследовательской организации технологических решений обеспечения доступа к документам, которые допускают как унификацию доступа к разнородным информационным ресурсам, так и интеграцию с другими информационными системами.

Для достижения этой цели решены следующие задачи:

На основе анализа информационных потоков в библиотеке научно-исследовательской организации (НИО) разработать модель информационных процессов технологии доступа к документам

Определить модель хранения данных и схемы описательных метаданных документов библиотеки

Обосновать необходимость выбора определенных программных средств и реализовать дополнительные программные инструменты, обеспечивающие выполнение технологических требований к доступу к документам.

На основе разработанной технологии реализовать доступ

к документам в сети библиотек Красноярского научного центра (КНЦ) СО

РАН.

Научная новизна связана с моделированием информационных процессов в технологии доступа к документам, основанной на специфике научно-исследовательской организации, а также разработке модели распределенного хранилища электронных документов.

Объектом исследования в данной работе являются системы доступа к информационным ресурсам в распределенных хранилищах.

Предмет исследования: компонентный состав систем доступа к информационным ресурсам и информационные потоки внутри каждого компонента, модели информационных ресурсов в системах доступа.

Методологической основой диссертации явились положения, изложенные в трудах в области информатики, в частности, в области разработки информационных систем и баз данных Дж.Солтона [28], Дж.Мартина [29], А.М.Федотова [31-49, 69], А. Б. Антопольского [50], Н. Е. Каленова [51]. Ф. С. Воройского [52-54]; компонентному и функциональному составу электронных библиотек, Я. Л. Шрайберга, А. И. Земскова [4, 24, 55], В. Армса [8, 56], Р. Мэррея [30], проектированию распределенных систем О. Л. Жижимова, Н. А. Мазова [57-59], А.И.Вислого [149], перспективным технологиям Интернет М. Р. Когаловского [60], И. Некрестьянова [16, 17, 61], системам электронной доставки документов

В. А. Глухова [10], теории систем и методологии системных знаний

М. Месаровича [116], Н.Н.Моисеева [62], В.И Новосельцева [147] и лингвистического обеспечения информационных систем Э. Р. Сукиасяна [63, 112].

Практическая ценность. Предложенная технология доступа к
документам реализована в библиотечно-информационной системе сети
библиотек Красноярского научного центра Сибирского отделения РАН.
Технологические требования к доступу позволяют адаптировать
разработанную технологию в систему библиотек иной
ведомственной или организационной принадлежности, что показал
опыт успешного внедрения технологии в библиотеке
Политехнического института Сибирского федерального

университета. Разработка и реализация технологии и модели
хранения данных проводилась как составная часть работы по
проектам РФФИ № 98-07-90128-в «Красноярская информационная
сеть научных институтов и вузов» в 1998-1999 гг., № 00-07-90340-в
«Создание интегрированной сети информационного сетевого центра
в г.Красноярске» в 2000-2001 гг., № 02-07-90135-в «Создание
Красноярской сети параллельных вычислений» в 2002-2004 гг.,
№ 05-07-90201-в «Разработка Красноярской городской

информационно-вычислительной сети науки и высшей школы» в

12
2005-2007 гг„ а также была поддержана грантом Института

«Открытое общество» «Интернет в библиотеке».

Достоверность и обоснованность результатов

диссертационной работы подтверждаются успешным практическим использованием технологии в сети библиотек Красноярского научного центра СО РАН и библиотеках г. Красноярска, а также:

результатами анализа существующих технологий, протоколов и стандартов в области построения систем доступа к документам из Интернет;

применением в функциональных модулях технологии программных средств, основанных на международных стандартах. Основные положения, выносимые на защиту:

  1. Технология доступа к документам, основанная на специфике работы научно-исследовательской организации, должна отвечать следующим основным требованиям: интероперабельность, базирующаяся на стандартах открытых систем, интегрируемость в единую информационную среду РАН, распределенность документов по местам хранения и децентрализация администрирования коллекций документов, использование готовых программных решений,, обеспечение отложенного доступа системой доставки документов.

  2. Для обеспечения эффективной работы системы, построенной на программных решениях различных разработчиков, технологию доступа к

13
документам целесообразно строить как систему

взаимосвязанных функциональных модулей и информационных хранилищ.

  1. Модель документов в хранилище данных строится на раздельном распределенном хранении текста документа и его описательных метаданных, основанных на международных стандартах и рекомендациях. Такой тип хранения позволяет вести распределенный поиск и хранить электронные документы по месту их производства.

  2. Разработанная технология позволяет организовать доступ к различным документам, от печатных до электронных, с различными правами доступа к ним, что иллюстрирует реализация следующих баз данных:

Аннотированный каталог книг и продолжающихся изданий библиотеки ИВМ СО РАН;

Архив научных публикаций ИВМ СО РАН;

Электронные документы по информационным технологиям, математике и механике ИВМ СО РАН.

Личный вклад автора. Основные результаты, представленные в работе, получены непосредственно автором. А именно: технологические требования, предъявляемые к доступу, модель информационных процессов в системе доступа, структура информационного хранилища, базы данных «Архив научных публикаций сотрудников ИВМ СО РАН», «Электронных документы по информационным технологиям, математике и механике ИВМ СО РАН» и

14
«Аннотированный каталог книг и продолжающихся изданий

библиотеки ИВМ СО РАН».

Структура и объем работы

Диссертация состоит из введения, 4 глав, заключения, списка использованной литературы, включающего 149 названий, 5 приложений. Основное содержание работы изложено на 145 страницах текста, общее количество страниц-231. Работа проиллюстрирована 10 рисунками.

Во введении обосновывается актуальность темы диссертационной работы, рассматривается изученность проблемы, представляются цель и задачи исследования. Определяются научная новизна и практическая значимость, приводятся основные результаты работы. Сформулированы основные положения, выдвигаемые на защиту.

Первая глава посвящена обзору истории и современного состояния систем доступа к документам и их анализу.

В разделе 1.1 приведен обзор и предварительный анализ зарубежных проектов доступа и доставки документов. Выделены основные этапы и направления развития технологий доступа к документам.

В разделе 1.2 приведен обзор и предварительный анализ отечественных разработок технологий доступа к документам, определены их особенности и характерные черты.

В разделе 1.3 приведен анализ технологий, используемых для обеспечения доступа к документам. Выделены необходимые составляющие

15
технологий доступа, требования к отдельным компонентам

технологии и определены предварительные требования к доступу.

Вторая глава посвящена определению требований к процессу доступа, выделению и описанию функциональных модулей технологии доступа к документам в научно-исследовательской организации.

В разделе 2.1 приведены определения доступа и показана его неразрывная связь с понятием электронной библиотеки. Технология доступа определена как трехуровневая система. Описано влияние особенностей научно-исследовательской организации на выбор технологический решений. Сформулирован перечень требований к доступу к документам в научно-исследовательской организации.

В разделе 2.2 приведена логическая схема технологии доступа, выделены функциональные модули и обоснованы причины такого деления.

В разделе 2.3 описаны отдельные модули технологии, определены информационные потоки каждого модуля и функциональные блоки, определяемые этими потоками. Описаны требования к функциональности каждого модуля и его отдельных блоков.

Третья глава посвящена описанию информационных ресурсов технологии доступа - документов и метаданных.

В разделе 3.1 описаны информационные ресурсы технологии, определен класс принадлежности документов и приведены необходимые определения. Перечислены основные стандарты метаданных, используемые в технологии.

В разделе 3.2 описано сходство и различие в определениях

документа и метаданных. Обоснована возможность применения объектной модели документа к его метаданным в технологии доступа к документам. Определены связи между метаданными и документами. Описана модель хранилища документов и метаданных.

В разделе 3.3 описываются особенности представления метаданных документов в Интернет и стандартные схемы представления структуры документов.

Доступ к документам в России

Развитие технологий доступа к информационным ресурсам в России слегка запоздало, так как следовало за развитием сетевой инфраструктуры, как и в Европе. Такой временной разрыв позволил строить системы доступа уже с учетом накопленного в других странах опыта и избежать многих ошибок в их проектировании. Этот фактор способствовал также появлению в

России большого количества печатных публикаций содержащих обзоры зарубежных технологий доступа и теоретические разработки, основанные на их обобщении.

Первые работы в направлении развития компьютерных сетей проводились в 1997-1998 гг. под эгидой Российского фонда фундаментальных исследований. Затем в 1999-2000 гг. многие организации и практически все ведущие специалисты страны были вовлечены в разработку Межведомственной программы «Электронные библиотеки России». С 2001 г. ряд министерств, ведомств, институты Российской академии наук, библиотеки и университеты страны открыли собственные программы и проекты по электронным библиотекам, а с 2003 г. стартовала Федеральная целевая научно-техническая программа «Электронная Россия» [82].

Первые исследования и разработки в области форматов обмена библиографическими записями в ГПНТБ России датируются 1970 г. На первом этапе изучались возможности создания единого формата библиографической записи как технологической основы автоматизированных библиотечно-информационных систем. Были созданы проекты государственных стандартов «Коммуникативный формат библиографической записи на магнитной ленте» и «Предмашинный формат библиографической записи». При разработке наполнения коммуникативного формата проводился тщательный анализ зарубежных форматов семейства MARC. Предмашинный формат был использован при разработке международных систем СЭВ - Автоматизированной системы регистрации периодических изданий (АСРПИ), международной специализированной информационной системы по промышленным каталогам (МСИСПК) и ряда других. В результате проведенной работы в 1976-1985 гг. были созданы и опробованы два стандарта: ГОСТ 7.14-78 и ГОСТ 7.19-79. Первый определял структуру записи и полностью соответствовал международному стандарту ISO 2709, второй устанавливал наполнение формата и основывался на стандартах, принятых в СЭВ (СТ СЭВ 4283-84). Оба стандарта предназначались для обмена библиографической информацией и являлись первыми отечественными стандартами, регламентирующими процесс обмена данными на магнитной ленте. Однако, следует отметить, что разработанные стандарты имели узконаправленный характер, связанный исключительно с российскими правилами каталогизации. В 1992-1994 гг. были переведены и изданы на русском языке основные материалы по UNIMARC [83]. UNIMARC был первым внедренным в России обменным форматом семейства MARC. В проектах библиотечно-информационных систем государственного статуса, таких как Российский сводный каталог научно-технической литературы, компьютерная сеть ЛИБНЕТ, система Национальной библиографии, UNIMARC определен как обменный формат приема/передачи библиографической информации [84]. В 1995 г. началось создание единой системы форматов представления библиографических данных в машиночитаемой форме. Разрабатываемые форматы должны были удовлетворять международным стандартам и отечественным стандартам и правилам. За основу были приняты два формата семейства MARC - UNIMARC и USMARC. За три последующих года были разработаны: Российский коммуникативный формат представления библиографических записей книг и сериальных изданий; Российский коммуникативный формат представления авторитетных/нормативных записей.

Форматы были признаны Постоянным комитетом IFLA в качестве национальной адаптации формата UNIMARC и получили международный код RUSMARC. С этим кодом формат зарегистрирован и в комитете по протоколу Z39.50. Подготовлен и издан «Российский формат машиночитаемой каталогизации» - документ, цель которого показать, как проводить каталогизацию в формате RUSMARC. Сейчас RUSMARC является официальным национальным форматом машиночитаемой каталогизации для российских библиотек [4].

Разработка технологической модели доступа к документам

С учетом сформулированных требований к доступу в трехкомпонентной схеме технологии доступа к документам как системы можно выделить модули и определить технологические информационные потоки. Информация, с которой работает технология, делится на информацию постоянного хранения, такая как документы и их метаданные, сгруппированные в массивы, и информация временного хранения или динамически формируемая - запросы пользователей, заказы и сообщения о недоступности документа или альтернативных способах его получения. Рассмотрим общую логическую схему технологии доступа к документам (рис.2.2). Входная информация представлена следующими её видами: информация о требуемом пользователю наборе баз данных для поиска, запросы пользователей, полные тексты документов, подлежащих хранению.

Логическая схема технологии доступа к документам Выходная информация - полные тексты электронных документов или информация об их отсутствии, а также альтернативных способах получения, если документ печатный. Существует также дополнительный информационный поток пополнения хранилища документов через промежуточное экспертное хранилище, минуя блок доступа к документам. Документы, содержащиеся в хранилище, представлены в блоке доступа к документам описательными метаданными, содержащимися в хранилище метаданных. Пользователь формирует набор баз данных и запрос на поиск через единое окно доступа к ресурсам, запрос поступает в поисковую систему, которая производит поиск в хранилище метаданных, возвращая его результаты в точку доступа. Если документ обнаружен, то пользователь обращается за ним в хранилище, используя модуль доставки, и получает электронный документ в точку доступа. Пополнение хранилища метаданных происходит путем описания документа в модуле формирования метаданных. Затем описание документа приписывается к какому-либо массиву метаданных (или дублируется в несколько массивов), и поступает в хранилище метаданных. Технология также обеспечивает лингвистическую поддержку поиска, формируя поисковые словари на основе элементов метаданных документа.

В логической схеме технологии выделяются функциональные модули, реализующие определенные информационные процессы, и модули информационных ресурсов технологии - хранилища данных. Функциональный модуль - это технологический блок целевого назначения с собственными информационными потоками.

Выделение функциональных модулей обусловлено следующими признаками их внутреннего единства: 1. Однородностью используемых внутри модуля информационных технологий и средств их реализации. 2. Необходимостью привлечения профильных специалистов для модернизации и обслуживания каждого отдельного блока. Информационные ресурсы постоянного хранения разбиты на два типа: 1. Документы. 2. Описательные метаданные документов. Каждому типу ресурсов выделено собственное хранилище в соответствии с трехуровневой моделью технологии, как сложной системы [116].

Рассмотрим более подробно функциональные модули технологии, определим информационные потоки и требования к функциональности.

Единая точка доступа. Точка доступа к ресурсам реализует технологию «единого окна» и предназначена служить пользовательским интерфейсом доступа к документам. Из определения требований следует, что точка доступа будет использоваться для работы с ресурсами Интернет, опубликованными под управлением Z39.50.

Доступ к информации под управлением Z39.50 осуществляется двумя способами: с помощью z-клиента и с помощью шлюза Z39.50-HTTP. Использование клиента, несомненно, обладает многими достоинствами, прежде всего, позволяя организовать доступ к метаданным без лишних посреднических пересылок данными [109] между средами двух протоколов. Кроме того, имеющиеся реализации шлюзов не обеспечивают полнофункционального использования Z39.50. Однако использование z-клиента требует установки клиентских приложений на каждый из компьютеров пользователя. С учетом быстро растущего количества компьютеров, используемых сотрудниками научно-исследовательской организации, является весьма затратным. Кроме того, требует отдельных усилий переход от метаданных к URL-ссылке документов, хранящихся в Web-среде в оригинальных форматах создания. Шлюз позволяет организовать доступ к данным в привычной пользователям Web-среде с помощью стандартных броузеров, которыми укомплектованы операционные системы. Использование шлюза с последующей доработкой его функциональности в этой ситуации является более предпочтительным.

Модель документов в хранилище

Под документом, используемым в технологии доступа, понимается первичный документ в печатном или электронном виде. Документ в электронном виде существует как файл в определенном формате, который для просмотра его на компьютере требует специальных программных средств. Будем считать документом di- pl,ml , гдер{ - содержательная часть (или файл) документа, ті -метаданные документа. Эквивалентные множества P {pi,P2,-,Pn} и М={т],т2,...,тп}, определяющие массив документов D={dj,d2,...,dn}, образуют два связанных хранилища данных: хранилище документов (или их полных текстов) и хранилище метаданных. Хранилище документов представляет собой распределенное хранилище полных текстов документов, не обязательно электронных. Полный текст документа может представлять собой печатный документ, находящийся в помещении фонда библиотеки организации. Электронные документы могут храниться как вместе со своими метаданными, так и отдельно от них, в том числе и на удаленном сервере.

Невозможность интеграции определенных таким образом разнородных документов в электронной среде определяет использование вторичных документов - библиографических записей (или описательных метаданных) для поиска документа и первичного информирования пользователей о его смысловом содержании. Таким образом, метаданные документа, с точки зрения Web-среды, являются документами и к ним в полной мере применима объектная модель документа. Воспользуемся системой определений, данных в публикациях Ю.В.Леоновой, В.Б.Барахнина и А.М.Федотова [36-37, 121-122]. Указанные определения относятся к общему случаю моделирования документов и связей между ними в случае работы с информационными ресурсами, принадлежащими к разным классам документов. Определим те же понятия в отношении к единственному классу.

Из определения следует, что метаданные подразделяются на описательные и структурные. Структурные метаданные (структура) определяют структуру и свойства документов, в соответствии с которыми осуществляется их обработка (типы, связи, форматы представления, ограничения на управление доступом и т.п.). Описательные метаданные (содержание) описывают смысловое содержание документа (его название, краткое содержание и т.п.). В зависимости от выбранной схемы данных описательные метаданные могут содержать сведения о структуре и свойствах документа (как в формате MARC). Описательные метаданные могут являться частью электронного документа или храниться отдельно от него.

Элемент схемы данных будем называть её структурным элементом. Метаданные, сформированные в различных схемах данных, будут иметь разный набор структурных элементов. Любой структурный элемент схемы данных, определяющей издание, как правило, состоит из идентификатора и названия элемента. Например, в схеме MARC используется цифровой идентификатор и название поля и подполя. А в схеме Dublin Core присутствуют 15 базовых элементов, определяемых только своими названиями. Для определения идентичности двух документов по их библиографической записи используется сравнение содержимого выделенного из

схемы набора структурных элементов, различного для разных видов документов. Часто для этого используются различные методы сравнения, например, сравнение по сигнатуре или метод нечеткого сравнения строк [84]. Определим минимальный набор элементов схемы данных однозначно идентифицирующих документ, как индекс сравнения документа. Будем считать метаданные, совпадающие по информационному наполнению индекса сравнения, идентичными.

Из определения документа понятно, что для множества документов D в хранилище документов понятие коллекции размыто, так как в определение документа не входит в явном виде описание его структуры. Понятие коллекции определено на множестве метаданных. В силу связанности и эквивалентности множеств D и М каждому входящему в коллекцию элементу ті множества М соответствует элемент di множества D. В формате MARC, например, связь описания с документом определяется полем ссылки на документ.

Таким образом, все множество метаданных в хранилище метаданных разделено на коллекции. Иными словами коллекция Kj есть подмножество множества М: KJOM. В общем случае, все множество М является коллекцией изданий доступных сотрудникам научно-технической организации. Все множество коллекций распределено по местам их формирования в сети. Коллекции могут логически объединяться по какому-либо признаку, например, по виду или характеру документов, организации формирования или географического расположения коллекции. В общем случае, любая из коллекций Щ может представлять собой распределенный информационный ресурс. Семейство множеств Kj является разбиением множества М, так как M-UjejKj где J - множество индексов и Kj попарно не пересекаются. Из утверждения следует, что в хранилище не существует метаданных, не принадлежащих ни одной коллекции.

Внутри одной коллекции каждый документ существует в единственном экземпляре. Однако в хранилище метаданных могут существовать описания экземпляров одного документа, принадлежащие разным коллекциям. Экземпляры документа могут существовать в силу множественности как печатных документов в фондах библиотек, так и множественности копий электронных документов в разных местах хранения. Метаданные экземпляров документов однозначно определяются только различными местами их хранения, содержание всех остальных структурных элементов может совпадать.

Аннотированный каталог книг и продолжающихся изданий

Аннотированный каталог книг и продолжающихся изданий библиотеки ИВМ СО РАН был одним из первых ресурсов, опубликованных с помощью шлюза Z39.50-HTTP. В каталоге представлены печатные документы библиотеки Института, конверсия которых в электронный вид не планировалась из-за трудоемкости процесса, а также проблем с лицензированием конверсии. В таких случаях для отражения содержательной части документов в каталоге желательно использовалась аннотирование и реферирование документов. Аннотации можно набирать вручную или использовать для этих целей сканирование с дальнейшим распознаванием текста аннотации, приведенного в документе. Для аннотирования и реферирования документов существуют формализованные методики, некоторые из которых описаны в [28, 63, 113, 118, 139]. Для создания рефератов и аннотаций электронных документов используются программы автоматизации реферирования и аннотирования [89, 90, 99, 100, 105]. В настоящее время в библиотеке ИВМ СО РАН сформирован полный электронный каталог и работает система книговыдачи. Этот факт позволил донести до пользователей еще одну часть информации о документе -наличие или отсутствие документа по месту его хранения. Определение наличия документа производится проверкой содержимого поля v910Aa. А отсутствие документа маркируется надписью «Свободных экземпляров нет» в формате вывода описания документа на экран. Аннотированный электронный каталог является ресурсом открытого доступа и не предполагает никакой дифференциации доступа. Заказ электронной версии документа в этом ресурсе не предусмотрен. Описание проблем решаемых при создании ресурса в [141, 142].

Распространение технологии формирования и публикации ресурса на библиотеки других институтов Красноярского научного центра СО РАН позволило сформировать новый информационный ресурс особого рода -аннотированный сводный каталог сети библиотек Красноярского научного центра СО РАН. Для слияния каталогов использовались средства АБИС ИРБИС, а результаты работы освещены в [137, 138]. Формирование сводного ресурса было желательным, так как в электронных каталогах библиотек Институтов, существовало значительное пересечение записей. Связано это с тем, что все Институты КНЦ СО РАН специализируются в области естественных и технических наук. Это приводит к почти полному совпадению фондов гуманитарных разделов, а также фондов компьютерных дисциплин. Слияние каталогов Институтов леса, физики, вычислительного моделирования привело к сокращению объема базы данных сводного каталога на 26% по сравнению с суммарным объемом каталогов. В объединенных записях содержатся сведения о библиотеках держателях экземпляра документа в поле v902, и сведений о месте хранения и инвентарных номерах экземпляров в поле v910 формата UNIMARC.

Любая научно-исследовательская организация производит собственные печатные и электронные продукты, которые можно отнести к классу изданий: монографии, статьи, отчеты, доклады, диссертации и авторефераты диссертаций. В архив научных публикаций организации заложены концептуальные принципы архивов открытого доступа. Информационный ресурс предназначен для как можно более широкого информирования ученых о научных исследованиях, проводимых организацией. Ресурс содержит электронные и печатные документы. Все печатные документы, описания которых занесены в архив, планируется конвертировать в электронный вид по согласованию с авторами. Для хранения электронных документов, занесенных в архив, используется централизованное хранилище с регулярным архивированием всех занесенных туда данных. Если документ хранится на сервере удаленного доступа, он копируется в архив.

Все электронные документы, предназначенные для занесения в архив, снабжаются XML-описанием в схеме Dublin Core. Описание может храниться как внутри документа, так и в отдельном файле. Образцы описания документа в тэгах МЕТА и RDF-структуре представлены в приложениях 3, 4. Для того чтобы избежать дублирования работы при описании документов был написан конвертор, преобразующие данные тэгов МЕТА в схеме DC в текстовый формат АБИС ИРБИС. Текст программы-конвертора приведен в приложении 5.

Доступ к электронным текстам документов осуществляется с помощью URL-ссылки на документ или на имя файла, в котором он хранится. Ссылка определена в поле 951 формата UNIMARC. Наличие электронных текстов в централизованном хранилище позволяет провести смысловой анализ текстов и сформировать на основе анализа поисковые словари по направлениям исследований [106].

В любой научно-исследовательской организации за время её существования накапливается значительное количество электронных документов различного вида и форматов. Эти документы привезены сотрудниками из командировок, подарены коллегами, получены от благотворительных организаций. Доступ к документам ограничен различным образом для разных документов. Как правило, такая база данных представляет собой совокупность небольших частных коллекций, размещенных на серверах их владельцев. Отбор документов из таких коллекций для занесения их в базу данных электронных документов осуществляет редакционно-издательский отдел организации по признаку актуальности и полезности для сотрудников Института. Документы либо продолжают храниться на серверах владельцев, либо сдаются в общее хранилище на сервер библиотеки. На начальном этапе эксплуатации доступ к такой базе данных открыт только пользователям локальной сети организации по внутренним IP-адресам.

Похожие диссертации на Технология доступа к документам в научно-исследовательской организации