Оптимизация моделей интегративного поиска вузовских библиотечных порталов Соколинский Кирилл Евгеньевич

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Соколинский Кирилл Евгеньевич. Оптимизация моделей интегративного поиска вузовских библиотечных порталов: диссертация ... кандидата Технических наук: 05.25.05 / Соколинский Кирилл Евгеньевич;[Место защиты: ФГБОУ ВО «Московский государственный институт культуры»], 2018

Содержание к диссертации

Введение

Глава 1. Подходы к интегративному поиску на вузовских библиотечных порталах 14

1.1. Анализ поисковых технологий библиотечных вузовских порталов 14

1.2. Обзор библиотечных порталов ведущих российских и зарубежных вузов 36

1.3. Выводы 42

Глава 2. Анализ моделей интегративного поиска 43

2.1. Концепция распределённого поиска и её реализация 43

2.2. Проблемы распределённого поиска и критерии его эффективности 46

2.3. Оптимизация модели распределённого поиска 51

2.4. Концепция поиска по консолидированному индексу метаданных и её реализации 59

2.5. Проблемы формирования консолидированных поисковых индексов и критерии эффективности процесса 62

2.6. Оптимизация формирования консолидированного поискового индекса 65

2.7. Выводы 70

Глава 3. Исследование интегративного поиска в типовой системе для построения вузовских библиотечных порталов 72

3.1. Назначение и принципы реализации 72

3.2. Функциональные возможности 73

3.3. Компоненты и архитектура 76

3.4. Режим распределённого поиска 80

3.5. Экспериментальная оценка эффективности алгоритма распределённого поиска 85

3.6. Режим формирования консолидированного поискового индекса 91

3.7. Экспериментальная оценка эффективности алгоритма формирования консолидированного индекса 95

3.8. Выводы 99

Заключение 101

Список использованных сокращений 103

Список литературы 108

Приложение №1. Сравнительные характеристики сайтов библиотек ведущих вузов 126

Приложение №2. Организации и корпоративные проекты, использующие J-ИРБИС 2.0 129

Приложение №3. Свидетельства о государственной регистрации программ для ЭВМ и баз данных 147

Приложение №4. Акты внедрения и практического использования результатов диссертационного исследования 148

Приложение №5. Пример программного кода, реализующего трансляцию запросов стандарта САБ ИРБИС для Z39.50 сервера 150

Обзор библиотечных порталов ведущих российских и зарубежных вузов
Оптимизация модели распределённого поиска
Оптимизация формирования консолидированного поискового индекса
Экспериментальная оценка эффективности алгоритма формирования консолидированного индекса

Введение к работе

Актуальность исследования. Актуальность темы диссертационной работы обусловлена существенным изменением в последние десятилетия принципов информационной поддержки образовательного процесса. Под влиянием экономических факторов, ряда нормативных актов и развития интернет-технологий, вузовские библиотеки начали выполнять целый ряд новых функций, связанных с созданием и управлением электронными ресурсами. Эти ресурсы, как правило, включают вузовские электронные коллекции учебно-методической литературы, электронную подписку и, в отдельных случаях, учебно-методические материалы вузов-партнёров.

Разнообразие подписных и собственных, электронных и традиционных ресурсов значительно усложняет работу читателей. Наличие множества поисковых интерфейсов и необходимость использования различных учётных записей приводит к малой востребованности предлагаемых библиотекой сервисов. Читатели часто отдают предпочтение легко доступным через Google и Yandex, но не всегда качественным материалам интернета. Результатом является снижение роли вузовских библиотек, неэффективное использование средств на дорогостоящую электронную подписку, низкая отдача от межвузовской кооперации.

В связи с этим становится исключительно значимым вопрос о предоставлении читателям универсальной точки доступа к разрозненным документам. Единый интерфейс поиска и единая система авторизации, реализованные на вузовском библиотечном портале, могут стать не только средством навигации в распределённых ресурсах, но и платформой для реализации целого ряда полезных сервисов. Например, рекомендательного поиска, базирующегося на подсистеме книгообеспеченности, электронной доставки документов, межвузовских (корпоративных) электронных библиотек, сервиса подачи заявок на комплектование и многих других.

Тем не менее, в настоящее время большинство вузовских библиотечных сайтов не предлагают своим читателям такие возможности, вынуждая их методом проб и ошибок, ориентироваться в многообразии поисковых систем. Это создаёт целый ряд предпосылок для разработки универсальной концепции вузовского библиотечного портала, использующего возможности интегративного поиска и предоставляющего связанные с интегративным поиском сервисы.

Сегодня широко используются различные подходы к поиску в распределённых источниках, но при этом отсутствует термин, обобщающий эти подходы. Поэтому целесообразно введение понятия интегративного поиска, которое отражает не принцип действия, а практическую роль поиска. Под интегративным поиском в настоящей работе подразумевается любой вид поиска, использующий ресурсы, распределённые физически или логически, и позволяющий получить результат в сгруппированном виде. К интегративному может быть отнесён как распределённый поиск, так и поиск по консолидированному индексу.

Интегративный поиск является универсальным подходом. Он применяется как для интеграции ресурсов в рамках одной организации (например, филиалов ЦБС), так и для создания крупных национальных проектов (например, НЭБ). Тем не менее, в вузовских библиотеках его использование не только имеет особое значение, в силу необходимости работы с широким спектром источников, но и свою специфику.

Как правило, библиотеки вузов не могут оказывать существенного влияния на технологии,
используемые партнёрами по информационному обмену. Отсюда возникает потребность в
использовании гибких и легко адаптируемых программных средств. В ряде случаев это
определяет целесообразность применения сразу нескольких моделей интегративного поиска, что
крайне редко встречается в крупных государственных проектах. Вузовские библиотеки

ориентированы на работу с разными категориями пользователей, что приводит к необходимости применения адаптируемых пользовательских интерфейсов. Большая часть вузов ограничена в аппаратных и кадровых ресурсах, они не могут позволить себе дорогостоящую разработку или эксплуатацию решений, требующих расширения штатов. Поэтому, несмотря на относительную универсальность принципов интегративного поиска, программные решения для вузовских библиотек допустимо рассматривать автономно.

Разработанность проблемы. Потребность в интеграции метаданных информационных ресурсов осознана библиотечным сообществом ещё в 1960-е годы. Впервые каталоги библиотек учебных заведений были объединены в проекте Онлайнового компьютерного библиотечного центра (Online Computer Library Center, OCLC). Этот проект быстро приобрёл национальный, а затем и международный масштаб.

В СССР, в конце 1970-х годов, одним из первых электронных сводных каталогов стал Российский сводный каталог по научно-технической литературе (РСК НТЛ), разработанный ГПНТБ СССР (России). В 1990-х годах крупнейшим национальным ресурсом стал Сводный каталог библиотек России (СКБР), объединивший каталоги многих библиотек, как правило, относящихся к сфере компетенции Министерства культуры России.

Эти проекты были ориентированы на национальную и отраслевую библиографию, поэтому мало затронули работу вузовских библиотек. Первым проектом, целенаправленно интегрировавшим вузовские ресурсы в России, стала ИС «Единое окно доступа к образовательным ресурсам», разработанная в 2008 году по заказу Министерства образования и науки РФ Государственным научно-исследовательским институтом информационных технологий и коммуникаций «Информика». В рамках проекта удалось интегрировать 30 тыс. полнотекстовых материалов, но в него оказалась включена лишь небольшая часть ресурсов вузовских библиотек, и в нём не использовались автоматизированные технологии обмена данными. Более полного охвата библиотечных ресурсов удалось достигнуть в проекте «Информационная система доступа к каталогам библиотек сферы образования и науки в рамках единого интернет-ресурса» (ИС ЭКБСОН), разработанным ГПНТБ России.

Создание крупных сводных каталогов значительно расширило возможности научного поиска, однако в целом мало отразилось на концепции вузовских библиотечных сайтов. Большее влияние на их работу оказали коммерческие агрегаторы метаданных, использующие близкую к сводным каталогам структуру, но предлагающие поиск в качестве платной услуги. Особое распространение получили системы EBSCO Discovery Service (компания EBSCO, США), Summon (компания ProQuest, США) и Primo Discovery Service, SaaS версия (Ex Libris Group, США). Эти системы представляют собой не часть библиотечного программного комплекса, а независимые сервисы, которые реализуются на серверах компаний-владельцев, и могут интегрироваться в сайты библиотек-пользователей.

Другая, принципиально отличная схема интеграции метаданных, была реализована в проектах Karlsruher Virtueller Katalog (Виртуальный каталог Карлсруэ, Технологический университет Карлсруэ, Германия), АРБИКОН (Ассоциация региональных библиотечных консорциумов, Россия) и Библиопоиск (ООО «Радуга-Лик», г. Рязань). Электронные ресурсы в них объединяются лишь в момент поиска и физически могут храниться в разных источниках.

Анализ существующих проектов позволяет выделить два вида интегративного поиска: распределённый поиск, осуществляемый с использованием физически независимых баз данных (БД), и поиск по консолидированному поисковому индексу, когда данные сгруппированы в одной БД, а идентичные записи из разных источников объединены (выполнена дедубликация). Как концепция распределённого поиска, так и концепция поиска по консолидированному массиву библиографических записей, нашли отражение в технологиях российских библиотечных порталов.

Большинство крупных российских университетских библиотек (например, Научная библиотека им. Н.И. Лобачевского Казанского федерального университета, Научная библиотека Санкт-Петербургского государственного университета, Библиотечно-издательский комплекс Сибирского федерального университета, Фундаментальная библиотека Санкт-Петербургского государственного университета) различными способами пытаются решить задачу реализации поиска, интегрирующего разрозненные массивы метаданных и метаданные полных текстов. В то же время отсутствуют модели реализации единой точки доступа ко всем ресурсам в масштабе университета, обеспечивающие комплекс универсальных (например, просмотр читательского формуляра) и специальных библиотечных сервисов (например, рекомендательный поиск).

В специальной литературе многократно освещались вопросы интеграции метаданных и электронных ресурсов. Широкий круг вопросов, связанных с организацией поисковых систем, был затронут в работах ЯЛ. Шрайберга, М.В. Гончарова, Ф.С. Воройского, А.Б. Антопольского, Н.Е. Каленова, Б.Р. Логинова. Общие вопросы архитектуры вузовских библиотечных порталов затрагивались в работах Н.В. Соколовой, С.С. Достовалова, Е.Н. Струкова, М. Breeding, J. Gross.

Технические вопросы реализации распределённого поиска были детально проанализированы в работах К.А. Колосова, О.С. Колобова, Р.Т. Усманова, О.С. Жижимова. Проблемы теории и практики консолидации/связывания метаданных затрагивались в работах А.С. Карауша, О.Н. Шорина, АА. Князевой, Д.Н. Совы, А.В. Фронкина, Д.Н. Рубцова, W.E. Winkler, T.N. Nerzog, Е.Н. Porter, LP. Fellegi, J. A. Hylton.

В то же время недостаточно разработаны вопросы, связанные с повышением потребительских характеристик сложных видов поиска и концепцией вузовских библиотечных порталов, учитывающей российские образовательные стандарты.

Цель диссертации - обоснование универсальной модели вузовского библиотечного портала с использованием новых подходов к реализации интерфейса поисковой системы, интегративного и рекомендательного поиска.

Достижение этой цели потребовало решения следующих задач:

обоснование понятия интегративного поиска;

анализ существующих моделей построения вузовских библиотечных порталов;

определение общих требований к функциональным возможностям вузовских корпоративных поисковых систем;

исследование и описание моделей интегративного поиска и корпоративных электронных библиотек;

обоснование новой модели распределённого поиска и новой модели формирования консолидированных поисковых индексов.

Объект исследования - порталы вузовских библиотек и система специализированных онлайновых сервисов для учебных заведений.

Предмет исследования - интегративный поиск, его усовершенствованная реализация с помощью автоматически формируемого консолидированного поискового индекса и распределённого поиска.

Научная новизна настоящей работы заключается в том, что в ней впервые сформулированы требования к поисковым системам вузовских библиотечных порталов, введены и обоснованы альтернативные модели интегративного поиска. В диссертации предложена модель распределённого поиска, основанная на оптимизированном методе кэширования. Предложена математическая модель обработки сетевых сбоев в реальном времени, предназначенная для минимизации потерь в скорости поиска при работе с большим количеством удалённых источников. Обоснованы принципы дедубликации (связывания) записей при формировании консолидированного поискового индекса, позволяющие наряду с высокой скоростью процесса обеспечить возможность его параметрирования (в зависимости от требований к поисковому индексу и характера консолидируемых записей).

Теоретическая значимость работы заключается в:

разработке математической модели обработки сетевых сбоев в реальном времени;

введении в научный оборот понятий «интегративного поиска» и «ассимиляции кэша»;

разработке концепции типового вузовского библиотечного сайта на основе интегративного поиска;

обосновании модели распределённого поиска с унификацией результатов и ассимиляцией кэша;

обосновании модели формирования консолидированного поискового индекса с применением внешнего метабиблиографического индекса, учётом семантической значимости элементов и пороговой оценкой соответствия.

Практическая значимость заключается в разработке рекомендаций по созданию универсальной модели программного обеспечения вузовского библиотечного сайта с функциями распределённого поиска и возможностью построения поисковых индексов на основе распределённых источников метаданных. На основе этих рекомендаций был реализован модуль J-ИРБИС 2.0, который используют больше чем девяносто вузов России и стран СНГ. Создано третье в России, по числу участников, корпоративное объединение -- ИРБИС-корпорация, используемое более чем пятнадцатью тысячами библиотечных сотрудников.

Практическая ценность результатов исследования подтверждается актами внедрения научных результатов диссертационного исследования в Санкт-Петербургском государственном университете телекоммуникаций и Государственной публичной научно-технической библиотеке России.

В процессе работы над диссертацией были разработаны программы для ЭВМ и базы данных, прошедшие государственную регистрацию в Федеральной службе по интеллектуальной собственности Российской Федерации.

Методы исследования – математическое и процедурное моделирование, статистический анализ, классификация, сравнительный анализ, метод нечёткого сопоставления строк, а также анализ и синтез информационных систем.

На защиту выносятся следующие основные положения:

интегративный поиск является основой для эффективной реализации целого ряда сервисов, актуальных для вузовских библиотек (например, рекомендательного поиска, системы электронной доставки документов и др.);
оптимизация интегративного поиска на сайте вузовской библиотеки требует применения как распределённого поиска, так и поиска по консолидированному поисковому индексу;
распределённый поиск с отображением результатов по мере их получения от внешних источников позволяет значительно уменьшить время ожидания пользователя;
использование узкоспециализированного внешнего метабиблиографического индекса для дедубликации (связывания) библиографических записей позволяет существенно сократить время процесса и снизить непроизводительные затраты вычислительных ресурсов;
модель дедубликации (связывания) записей по алгоритмическим кодам с оценкой семантической значимости элементов и возможностью установки порога соответствия обеспечивает оптимальное для вузовских библиотек соотношение скорости и качества поисковых индексов.

Достоверность результатов проведенных исследований обеспечена их верификацией путём экспериментов над действующими программными моделями и сравнением с результатами воспроизводимых экспериментов над другими моделями. Результаты исследования основываются на сопоставлении показателей, полученных диссертантом и разработках других авторов.

Апробация результатов работы заключалась в публикации материалов исследования в периодических изданиях, докладах на конференциях и семинарах.

Результаты работы представлены на конференциях и семинарах:

«Крым 2010», «Крым 2011», «Крым 2012», «Крым 2013», «Крым 2014», «Крым 2015», «Крым 2016», «Крым 2017» -- «Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества» (г. Судак, Автономная республика Крым).
«ЛИБКОМ 2010», «ЛИБКОМ 2011», «ЛИБКОМ 2012», «ЛИБКОМ 2013», «ЛИБКОМ 2014», «ЛИБКОМ 2015», «ЛИБКОМ 2016», «ЛИБКОМ 2017» -- "Информационные технологии, компьютерные системы и издательская продукция для библиотек" (пос. Ершово (Московская область), г. Химки, (Московская область), г. Суздаль (Владимирская область)).
Выездное заседание Школы ИРБИС: Первая осенняя сессия (г. Санкт-Петербург, Россия, 2016).
Семинар «Настройка WEB ИРБИС и J-ИРБИС» (г. Баку, Азербайджан, 2010).

5. Семинар «АБИС ИРБИС: расширение возможностей системы для развития информационно-образовательной и телекоммуникационной среды региона» (г. Омск, Россия, 2008).

Обзор библиотечных порталов ведущих российских и зарубежных вузов

Сайт Научной библиотеки Московского государственного университета (МГУ) им. М.В. Ломоносова (№1 в рейтинге российских вузов) предлагает читателю в лаконичном интерфейсе выполнение поиска по собственным каталогам и каталогам ряда отечественных ЭБС (Лань, Физматлит, БИНОМ, ЮРАЙТ). Зарубежные ресурсы (издательство Springer и реферативные базы данных) в поиске не участвуют. Для их использования требуется переход на сайт подписного ресурса. Сквозной поиск по каталогам книг, журналов и электронных документов не реализован, все поисковые инструменты функционируют независимо друг от друга.

Расширенный режим предлагает пользователю комбинировать до трёх элементов запроса. Тип комбинируемых элементов определяется пользователем с помощью выпадающих списков (поскольку такая реализация поисковой формы получила очень широкое распространение, далее она будет называться типовой формой поиска).

В форме реализуется возможность использования для заполнения полей терминов словаря. Автодополнение отсутствует. В качестве нестандартного дополнения в расширенной поисковой форме присутствует возможность поиска по иерархическому рубрикатору.

Функция сквозной авторизации на сайте библиотеки и сайтах ЭБС не декларируется.

К нетрадиционным возможностям, отражающим современные тенденции агрегации мультимедийных ресурсов, можно отнести проект «Устная история», в рамках которого публикуются аудио-видеозаписи. Но данный проект никак не интегрирован с поисковым инструментарием основного сайта.

Электронный каталог отражает фонд с 1990 года. Остальная часть каталога представлена в графической форме (в виде имидж-каталога) без возможностей текстового поиска.

Сайт Библиотеки Московского физико-технического института (МФТИ) (№2 в рейтинге российских вузов), несмотря на наличие российских и зарубежных подписных ресурсов, не предоставляет никаких инструментов интегративного поиска. Электронные ресурсы института на сайте не представлены. Единственная функция сайта -- поиск в электронном каталоге.

Портал Библиотеки Московского государственного технического университета (МГТУ) им. Н.Э. Баумана (№3 в рейтинге российских вузов) предусматривает типовую форму поиска в каталоге. Каталог включает записи на печатные, электронные публикации, реферативные журналы ВИНИТИ.

Интеграция российских (частично) и зарубежных подписных ресурсов реализуется с помощью EDS (EBSCO Discovery Service). EDS также может использоваться для выполнения поиска в каталоге.

Система сквозной авторизации в библиотеке и подписных ресурсах отсутствует, но при этом предусмотрено использование подписных ресурсов через VPN, с идентификацией по IP адресу. Для применения этой технологии студентам требуется осуществить выгрузку и настройку специализированного ПО [47]. Базы с электронными документами на сайте представлены, но возможность полнотекстового поиска на сайте отсутствует.

Специфической особенностью сайта библиотеки является функция доступа к лицензионному ПО Microsoft [52].

Портал Научной библиотеки Национального исследовательского университета «МИФИ» (НИЯУ МИФИ) (№4 в рейтинге российских вузов) предоставляет возможность поиска в разнообразных ресурсах на одной странице сайта. Интерфейсно поисковые формы представлены в виде набора закладок, каждая из которых позволяет произвести поиск в одном из ресурсов. Одновременно поиск может выполняться только в отдельных информационных массивах: электронном каталоге, EDS или EBSCO A-Z. В форме поиска по ресурсам EDS присутствует фильтр, позволяющий отображать в EDS только полнотекстовые документы.

При использовании поиска в электронном каталоге (реализован средствами Web-ИРБИС) пользователь может видеть результаты, выведенные из одной базы каталога – «Учебные и научные издания». Одновременное получение данных из всех 18 баз каталога невозможен.

Интегративный поиск реализован только средствами EDS. Через неё доступны электронный каталог и метаданные полнотекстовых подписных ресурсов.

Портал Научной библиотеки им. М. Горького Санкт-Петербургского государственного университета (СПбГУ) (№5 в рейтинге российских вузов) предоставляет возможность поиска в разнообразных ресурсах на одной странице сайта. В то же время поиск может выполняться только в одном разделе: e-Книги, Книги, e-Журналы, Базы данных. В разделе e-Книги и e-Журналы c помощью VuFind представлены российские и зарубежные подписные ресурсы. В разделе Книги с помощью Web-ИРБИС представлен каталог печатных документов.

На сайте реализована сквозная авторизация по протоколу SAML. Авторизация с единым паролем и логином позволяет избежать необходимости повторной идентификации на сайтах ЭБС и зарубежных агрегаторов.

Сайт Научной библиотеки Национального исследовательского университета Высшая школа экономики (НИУ ВШЭ) (№6 в рейтинге российских вузов) предлагает пользователям оригинальный интерфейс поиска в электронном каталоге собственной разработки. Для поиска предоставляется единственная типовая форма. В сравнении с другими сайтами, рассмотренными здесь, OPAC НИУ ВШЭ реализует минимальное количество функций. Общее количество подписных ресурсов достаточно велико. Большинство зарубежных и российских подписных ресурсов интегрированы с помощью функционально ограниченного сервиса EBSCO A-Z. Отсутствуют возможности поиска по ключевым словам, диапазону дат.

Портал Научной библиотека Казанского (Приволжского) федерального университета (КФУ) им Н.И. Лобачевского (№18 в рейтинге российских вузов) использует сразу 4 интеграционных технологии. При помощи OPAC САБ «Руслан» реализован стандартный поиск в электронном каталоге, средствами VuFind интегративный поиск по каталогу и российским подписным ресурсам, с помощью Summon интегративный поиск в российских и зарубежных ресурсах. Наконец, действует комбинированный поиск с применением Summon и VuFind, при котором первые результаты поиска из двух систем выводятся параллельно. Поиск в каждом блоке информационных ресурсов также, как в НБ СПбГУ и Библиотеке НИЯУ МИФИ представлен на закладках. Но, что значительно повышает эргономичность поиска, при переходе с одной закладки на другую, запрос пользователя сохраняется, его не требуется вводить повторно.

Особенностью портала является также возможность ориентационного поиска не только по подписным ресурсам и каталогу библиотеки, но и по каталогам 15 городских библиотек Казани.

Электронный каталог доступен для поиска лишь частично. Значительная часть электронного каталога представлена в виде имидж-каталога, в графической форме, без возможности текстового поиска (текстовый поиск в имидж-каталоге возможен лишь с применением текста разделителей). Часть коллекций ЭБС, на которые подписана библиотека, не задействована в поиске.

Портал Научной библиотеки Уральского федерального университета (УрФУ) предлагает пользователю для поиска типовой интерфейс OPAC САБ «Руслан». Две из трёх подписных ЭБС доступны в рамках интегративного поиска по каталогу. Кроме того, каталог и ЭБС доступны через EDS.

Портал Библиотечно-издательского комплекса Сибирского федерального университета (СФУ) средствами Web-ИРБИС реализует ряд типовых видов поиска в электронном каталоге. В то же время интерфейс поисковой системы по сравнению с дистрибутивным вариантом интерфейса существенно переработан. Добавлена возможность отбора электронных версий и учебно-методических комплексов.

Интегративный поиск реализуется средствами EDS и доступен лишь для части подписанных библиотекой ЭБС. Особенностью данного портала является наличие большого количества нестандартных сервисов. Сервис «Книгообеспеченность» ориентирован на преподавателя, заведующего кафедрой, студента и сотрудника библиотеки. Он позволяет получить списки литературы и статистику с коэффициентами книгообеспеченности. Отбор реализуется путём указания кафедры, группы, института и других данных учебного плана. Материал может быть сохранён в MS Word.

Оптимизация модели распределённого поиска

Предлагаемая автором настоящей диссертации оригинальная модель основывается на постулате, что поиск в локальных ресурсах является лишь одной из функций используемой библиотекой САБ. Соответственно, при поиске через OPAC существует потребность объединения результатов в локальных базах и внешних источниках. Допускается, что у пользователя есть возможность выполнять одновременный поиск не более чем в 100 источниках, и эти источники доступны через различные коммуникативные протоколы. Предполагается, что в качестве базовой системы автоматизации применяется одна из распространённых российских САБ (ИРБИС, MARC-SQL, Руслан), которые используют для формирования библиографических описаний по ГОСТ 7.1-2003 интерпретируемый язык.

Оптимизированная модель предполагает наличие следующих процессов:

1. Оценка оптимального размера группы запросов. Часть операций, связанных с поиском и обработкой результатов поиска, должна выполняться в параллельных потоках. Это позволяет более эффективно использовать ресурсы современных многопроцессорных серверов и одновременно обращаться к целому ряду источников. Но в то же время важно, чтобы суммарное количество поисковых процессов согласовывалось с вычислительными возможностями сервера.

Наиболее ресурсоёмкой составляющей процесса обработки является процесс конвертирования записей и формирования библиографических описаний: расформатирование. В большинстве САБ расформатирование реализуется средствами интерпретируемых (скриптовых языков), поэтому требует значительного количества процессорного времени. В каждом конкретном случае сложность библиографического описания определяет длительность расформатирования. Например, полное библиографическое описание17 в соответствии с ГОСТ 7.1-2003 формируется дольше, чем библиографическая ссылка в соответствии с ГОСТ 7.0.5-2008. Кроме того, если библиографическое описание формируется из нескольких составных элементов (например, предметные рубрики, полочный шифр и т.п.), ресурсоёмкость его создания будет определяться совокупностью ресурсоёмкости создания всех составных элементов.

2. Сортировка источников. Определяет порядок выполнения запросов к ним. При условии, что скорость отклика источников одинакова и ранжирование не применяется, сортировка целиком определяет порядок отображения записей из разных источников. Сортировку допустимо выполнять исходя из полезности источника. Тогда чем более высокий рейтинг у источника, тем больше вероятность, что пользователь получит результат от него первым. Учитывая, что обычно источники неравнозначны (например, РГБ для российского читателя более доступна, чем Библиотека конгресса США с точки зрения получения литературы), это позволяет отображать результаты самых предпочтительных источников первыми. Сортировка по скорости отклика ориентирует поиск на максимизацию скорости вывода. В случае приоритетного опроса самых быстрых источников, появляется возможность предоставить первые результаты как можно более оперативно.

3. Группировка источников. Запросы должны выполняться асинхронно, так как это обеспечивает максимизацию скорости. Чтобы избежать перегрузок сервера, требуется разделение запросов на последовательно (синхронно) выполняемые группы.

Запросы должны группироваться исходя из порядка сортировки. Размер группы определяется ресурсоёмкостью запроса. В рамках группы порядок запросов, за счёт асинхронного выполнения, не отражается на итоговом результате. Но номер группы, в которой находится запрос, полностью определяет положение результатов его выполнения в общем результате поиска.

Практика ИРБИС-Корпорации показала, что группировка 50 запросов позволяет избежать перегрузок системы и, при этом поиск выполняется достаточно быстро.

4.Трансляция запроса. Синтаксис запросов к удаленным источникам, как правило, отличается от базового синтаксиса запросов САБ. Поэтому требуется трансляция (конвертация) сформированного OPAC запроса.

Трансляция всегда должна выполняться индивидуально для каждого удалённого сервера-источника, так как, даже при использовании одного и того же протокола для всех источников, набор поддерживаемых атрибутов может существенно отличаться. Кроме ограничения по атрибутам поиска, требуется учитывать архитектурные ограничения серверов-источников. К таким неявным ограничениям относится, например, количество терминов в запросе, объединённых оператором «OR». К ним же можно отнести и недопустимость определённых сочетаний атрибутов. Таким образом, трансляция не всегда позволяет обеспечить полное семантическое соответствие конвертированного запроса исходному, но должна к этому стремиться.

Ограничением выступает также конкретная реализация протокола или синтаксис протокола в целом. Например, несмотря на развитый синтаксис, протокол Z39.50 в принципе не предполагает возможность поиска по ключевым словам. Поэтому данный вид поиска приходится заменять на поиск по всем элементам записи.

5.Выполнение группы запросов на поиск и извлечение записей. Из группы запросов, определённой в рамках предыдущих этапов, должны формироваться независимые процессы поиска и обработки полученных данных. Количество этих процессов будет соответствовать количеству запросов в группе. Каждый запрос должен независимо от других обращаться к серверу, преобразовывать и кэшировать полученные в результате поиска данные.

6. Блокировка неактивных серверов-источников. Эпизодическая недоступность отдельных серверов в результате их неработоспособности, перегрузки или проблемами с каналами связи – неизбежное явление при распределённом поиске. Типовое решение этих проблем с помощью периодического запуска сканеров-роботов увеличивает время, в течение которого пользователи будут предпринимать попытки обращения поисковой системы к проблемным серверам. В то же время, как показывают многие исследования [28,30,76], именно недоступность серверов является главным фактором, провоцирующим задержки при распределённом поиске.

Как правило, поисковая система ожидает отклика от сервера-источника максимально возможное время, отведённое на запрос (timeout). В результате один сбойный сервер обычно является причиной существенного замедления выполнения группы запросов. Поэтому блокировка сервера-источника оправдана немедленно после обнаружения первой проблемы. Многие проблемы доступности сервера носят эпизодический характер, поэтому блокировка должна быть временной. После истечения определённого срока диагностика сервера-источника должна повторяться и при повторном неудовлетворительном результате блокировка должна устанавливаться уже на больший промежуток времени. Оправданным является экспоненциальное или близкое к нему увеличение времени блокировки при каждом новом обращении к серверу. Если сбой обусловлен перегрузкой сервера, то последующие обращения через короткий промежуток времени могут дать результат. Если сбой связан с изменением адреса сервера или прекращением его работы, то после определённого тестового периода промежутки, через которые выполняются новые обращения, должны существенно возрастать. Аппроксимация результатов статистического анализа ошибок, возникающих при обращении к серверам в ИРБИС-Корпорации, позволила автору построить математическую модель задержек, выраженную формулой t = (i4) Здесь:

Применение формулы иллюстрирует график на рисунке 2.

Снятие блокировки может также осуществляться средствами программы-робота. В этом случае тестирование источника не отражается на выполнении скорости запросов пользователей.

7. Конверсия записей. Конверсия обеспечивает унификацию формата и представления записей. Это позволяет выполнить расформатирование с помощью единого для всех записей алгоритма. Распределённые поисковые системы, как правило, работают с одним из двух представлений записи – ISO 2709 и XML. Наиболее распространёнными в России форматами являются RUSMARC, UNIMARC, MARC21 и Дублинское ядро. Но в ряде случаев сервера-источники возвращают записи в собственных, оригинальных форматах (например, специальные упрощенные форматы, используемые в САБ ИРБИС). Преобразование записей в системе, применяющей для этого скриптовые языки, является продолжительным и ресурсозатратным процессом, выполнение которого целесообразно осуществлять в режиме распараллеливания.

Оптимизация формирования консолидированного поискового индекса

Автором настоящей диссертации предлагается оптимизировать модель формирования консолидированного поискового индекса, которая позволяет реализовать, как повышение эффективности выгрузки записей, так и процесса дедубликации записей.

Эффективность процесса создания сводных каталогов неотъемлемо связана с процессом автоматизированного получения данных из внешних источников и их обработки. Опыт создания ИС ЭКБСОН подтверждает, что ключевую роль в формировании консолидированного индекса играет не стандартизация записей в библиотеках-источниках, а их унификация на уровне системы сбора данных. Последняя должна быть как можно более универсальна и толерантна к возможным отклонениям от стандарта или проблемам временной неработоспособности серверов-источников. Поэтому предлагаемая здесь модель извлечения данных должна осуществлять процессы 1-10, описанные ранее в параграфе 2.3 -- «2.3. Оптимизация модели распределённого поиска».

В то же время, ключевым процессом, определяющим качество создания консолидированного индекса, является дедубликация записей. Основной составляющей этого процесса является проверка идентичности вновь добавляемых в поисковый индекс записей и записей уже имеющихся в поисковом индексе. По мере увеличения размеров индекса количество операций сопоставления записей также увеличивается в геометрической прогрессии. Поэтому сопоставление всех записей с вновь добавляемой представляется невозможным, а использование библиографической свёртки, как было показано выше, не обеспечивает достаточной надёжности технологии. Кроме того, как правило, поисковый индекс с библиографическими свёртками формируется в БД параллельно с другими поисковыми индексами, которые не применяются для дедубликации и ориентированы на читателей. Формирование этих индексов существенно замедляет добавление записей и поиск по БД.

Решением данной проблемы, предлагаемым автором, является создание полностью автономного поискового индекса, включающего лишь данные необходимые для задачи дедубликации. Индекса, специально ориентированного для поиска по всей совокупности элементов, а также для поиска по отдельным элементам. Такой индекс с упрощёнными поисковыми образами библиографических записей можно назвать метабиблиографическим. Анализ проблем дедубликации (например, [80]) при использовании библиографических сверток позволяет предложить новый алгоритм дедубликации. Ключевую роль в этом алгоритме играет работа с метабиблиографическими образами, а не с библиографическими записями. В нём предусмотрена следующая последовательность операций.

1.Формально-логический контроль записи. Выполняется, чтобы определить соответствие записи минимальным требованиям. В случае, если запись по каким-то причинам не содержит базового набора элементов, она вообще не анализируется и рассматривается как бракованная. Например, не может быть записи без поля «Заглавие».

2.Формально-логический контроль полей. До того, как проверять запись на дублетность, каждое существенное для дедубликации поле должно проходить формальный контроль на корректность содержимого.

3.Создание метабиблиографического цифрового образа документа. Точно так же, как документ служит основой для создания библиографической записи, библиографическая запись может использоваться для создания метабиблиографического образа. Так же, как каталог имеет своей целью ускорение поиска документов, БД метабиблиогарфических образов ориентирована на то, чтобы сократить количество операций, связанных с поиском дублетов. Все поля, признанные годными для сравнения, должны подвергаться нормализации, т.е. приведению к состоянию при котором в них присутствуют только значимые для идентификации данные (например, удаляются запятые и другие знаки препинания).

Вторым этапом может быть хэширование. Все текстовые поля преобразуются к хэшам. Особенностью этих хэшей является то, что сравнение двух хэшей (цифр), полученных из полей разных записей, позволяет не только определить идентичность закодированных в них строк, но и выявить незначительные отличия этих строк путём использования простых математических операторов (равно, больше или меньше). Если стандартное (например, по алгоритму Левенштейна) определение подобия двух строк, отличающихся одной опечаткой, обычно требует больших вычислительных ресурсов (необходимо посимвольно сравнивать эти строки), то при такой технологии для сравнения достаточно лишь одной математической операции. Каталогизатор может добавить лишнюю букву, пропустить одну букву, или заменить одну букву другой – все эти типичные ошибки обрабатываются. Кроме того, алгоритм позволяет различить полную идентичность и подобие строк, за счёт чего появляется возможность более точно диагностировать дублетность на следующих этапах.

Наряду со свёртками полей метабиблиографический образ содержит служебные данные, которые не имеют прямой связи с библиографией – адрес записи в БД и её «индекс качества». За счёт них реализуется возможность извлечения записи и выбора наилучшей записи. 4. Запись метабиблиографического образа. Как следует из описания алгоритма, создание метабиблиографического образа – достаточно ресурсоёмкая процедура. Поэтому её результат сохраняется и используется многократно. Когда в каталог добавляется новая запись, её вновь созданный метабиблиографический образ сравнивается с образом, уже подготовленным и сохранённым ранее.

Сохранение образа, в зависимости от размеров каталога, может выполняться либо в реляционной базе, либо в оперативной памяти. Применение внешнего хранилища снимает с процесса дедубликации целый ряд ограничений, заложенных в САБ, структуре поисковых индексов и алгоритмах их формирования. Во-первых, это избавляет от необходимости формирования ненужных с точки зрения дедубликации индексов и, следовательно, ускоряет процесс. Во-вторых, даёт возможность использования для формирования метабиблиографического образа алгоритмы, которые значительно сложнее стандартных алгоритмов создания индексов. В-третьих, позволяет избежать продолжительных и неоправданных операций записи новых данных обычно в относительно медленно работающую библиографическую СУБД.

5. Поиск дублетов по свертке метабиблиографической записи. Поскольку технология поиска по свертке остаётся самой быстрой, этот метод в описываемом алгоритме также должен применяться в первую очередь. Он даёт исключительно высокий эффект, так как позволяет определить соответствие более чем в 95% случаев. В то же время его недостатки легко нивелируются на следующем этапе.

6. Определение рейтинга соответствия. В том случае, если запись не была найдена по метабиблиографической свертке, начинает выполняться основной алгоритм. Его первым шагом является отбор минимально похожих записей, по небольшому набору полей, ошибки в которых маловероятны. Среди этих полей могут быть, например: «Вид записи», «Номер тома» и ISBN. Чем больше этих полей, тем выше будет скорость и тем ниже качество дедубликации.

После выполнения первичного поиска, каждый метабиблиографический образ из подмножества, полученного в результате первичного отбора, должен сопоставляться с образом базовой записи. При этом выделяется две степени соответствия: полная идентичность и подобие. Для буквенных полей подобными могут считаться поля с одной ошибкой. Для цифровых полей допустимая погрешность определяется индивидуально, также в цифровой форме. Например, погрешность в количестве страниц может достигать +-5 страниц. А для поля «Год издания» погрешность в принципе не предусмотрена. В алгоритме должно учитываться значение каждого поля для диагностики дублетности. Значение совпадения полей «Год издания» и «ISBN», с этой точки зрения, совершенно различно.

Если же «Год издания» не совпадает, можно предположить, что записи представляют разные издания одной книги.

Такие характеристики, как «соответствие», «неполное соответствие», «несоответствие» сопоставлены с определённым (отрицательным или положительным) количеством баллов, в сумме которых (индексе соответствия) оценивается степень идентичности записей. Индекс соответствия в цифровой форме выражает степень идентичности записей. Записи признаются дублетными в том случае если индекс превышает определённую пользователем пороговую величину (например, 100).

Максимальная чувствительность алгоритма требуется при формировании корпоративных электронных библиотек. В этом случае может использоваться применяемый некоторыми агрегаторами электронных ресурсов (Summon, например) принцип «контент важнее публикации». Он постулирует: что поскольку для пользователя важен текст, а не печатная публикация, то «Евгений Онегин» 2010 года имеет такое же значение, что и «Евгений Онегин» 2011 года20. Поэтому для студента технического вуза, например, нет смысла формировать отдельные библиографические записи на эти публикации. Достаточно одной схематичной записи и одного текста. Такой подход сегодня мог бы быть продуктивным в университетах. Распространённые учебники насчитывают по 20 переизданий, часто стереотипных, каждое из которых обладает с точки зрения студента практически одинаковой ценностью, поэтому оцифровывать все издания не имеет смысла. В таких случаях единственной функцией системы формирования поискового индекса является корректная дедубликации исходя из «Автора» и «Заглавия».

Экспериментальная оценка эффективности алгоритма формирования консолидированного индекса

Эффективность алгоритма формирования консолидированного поискового индекса определяется его возможностями дедубликации записей и скоростью работы. Поэтому было проведено тестирование как качества, так и скорости алгоритма.

В результате анализа каталогов были выделены 13 типов наиболее часто встречающихся ошибок, которые потенциально могут диагностироваться и устраняться с помощью алгоритма пороговой дедубликации (см. Таблица 6). Для тестирования описанные ошибки были искусственно внесены в 39 записей.

Каждый тип ошибки повторяется в различных вариациях в 3 записях. Была выполнена попытка слияния записей, содержащих ошибки и оригинальных версий записей.

Для тестирования дедубликации с использованием библиографической свертки использовался АРМ «Каталогизатор» САБ ИРБИС64 и таблицей выбора полей impsvk. Для объединения с использованием порогового алгоритма использовался J-ИРБИС 2.0. В качестве порога соответствия был установлен порог в 63 балла. Настройки для оценки каждого элемента отражены в Таблица 7.

Диаграмма (см. Рисунок 15) показывает, что алгоритм дедубликации с использованием порогового алгоритма позволяет исключить на 59% больше ошибок. Это позволяет сделать заключение о высоком потенциале нового алгоритма с точки зрения обработки ошибок дедубликации.

С другой стороны, оптимизированный базовый алгоритм дедубликации, используемый в качестве базового в САБ ИРБИС, позволяет обработать значительно больше ошибок, нежели гипотетический типовой алгоритм дедубликации по библиографической свертке.

Полученный результат демонстрирует, что используемые методы алгоритмической обработки позволяют избежать при дедубликации по свертке ряда наиболее часто встречающиеся ошибки. В то же время базовый алгоритм дедубликации САБ ИРБИС не использует некоторые важные поля. К таким полям относится поле «инициалы» и поле ISBN. Отказ от использования ISBN делает алгоритм менее надёжным, но является вынужденным, поскольку при отсутствии ISBN в базовой записи и наличии в новой, проверка на дублетность будет функционировать некорректно. Алгоритм демонстрирует исключительно высокую зависимость от наличия в сравниваемых записях полей, используемых для дедубликации. Предлагаемый алгоритм дедубликации по метабиблиографическим образам свободен от этих ограничений. Таким образом, хотя оптимизированный алгоритм дедубликации по свёртке позволяет преодолеть отдельные ошибки дедубликации, он обеспечивает меньшую надёжность. Аналогичные проблемы обнаруживают алгоритмы дедубликации по свертке, используемые при создании ведущих СК (см. Рисунок 16).

Для тестирования скоростных характеристик порогового алгоритма была создана БД объёмом 111 тыс. консолидированных записей. Этот объём меньше типичного каталога электронных ресурсов объединения вузов близкого профиля. Замер скорости выполнялся при добавлении последних 33 тыс. записей каталога Северо-Западного заочного технического университета. Это позволило оценить скорость дедубликации с уже имеющимся массивом записей при условии, что словари созданы (при отсутствующих словарях дедубликация происходила бы мгновенно). Для тестирования скорости дедубликации применялся сервер следующей конфигурации: CPU Intel Xeon E31230 3.2 GHz, RAM 4 Gb, HDD 1 Tb.

Скоростные характеристики порогового алгоритма проверки на дублетность для 1000 записей демонстрирует диаграмма на Рисунок 17. Она показывает, что алгоритм дедубликации по индексу метабиблиографических образов, несмотря на более высокую сложность, превосходит по скорости алгоритм дедубликации по свертке. Это объясняется тем, что при создании метабиблиографического индекса обрабатывается и добавляется лишь минимум данных, которые необходимы для дедубликации. Определённую роль играет использование относительно быстрых методов оптимизации поиска, которые поддерживает MySQL (тип таблицы MyISAM). В то же время алгоритм дедубликации по свертке создаёт не только словари, необходимые для дедубликации, но и словари, используемые при поиске читателями. Это приводит к дополнительным затратам ресурсов.

Влияние размеров базы на скорость дедубликации при пороговом алгоритме меняется нелинейно и зависит от количества записей, настроек алгоритма и типов объединяемых записей (статьи, книги). В то же время, при анализе алгоритма с точки зрения интеграции ресурсов вузовских корпораций, незначительным изменением скорости дедубликации можно пренебречь.