Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Разработка технологии, математических моделей и программных средств организации смешанного поиска в базах полнотекстовых документов Дружинин Александр Вячеславович

Разработка технологии, математических моделей и программных средств организации смешанного поиска в базах полнотекстовых документов
<
Разработка технологии, математических моделей и программных средств организации смешанного поиска в базах полнотекстовых документов Разработка технологии, математических моделей и программных средств организации смешанного поиска в базах полнотекстовых документов Разработка технологии, математических моделей и программных средств организации смешанного поиска в базах полнотекстовых документов Разработка технологии, математических моделей и программных средств организации смешанного поиска в базах полнотекстовых документов Разработка технологии, математических моделей и программных средств организации смешанного поиска в базах полнотекстовых документов Разработка технологии, математических моделей и программных средств организации смешанного поиска в базах полнотекстовых документов Разработка технологии, математических моделей и программных средств организации смешанного поиска в базах полнотекстовых документов Разработка технологии, математических моделей и программных средств организации смешанного поиска в базах полнотекстовых документов Разработка технологии, математических моделей и программных средств организации смешанного поиска в базах полнотекстовых документов
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Дружинин Александр Вячеславович. Разработка технологии, математических моделей и программных средств организации смешанного поиска в базах полнотекстовых документов : Дис. ... канд. техн. наук : 05.13.01 : Ханты-Мансийск, 2005 157 c. РГБ ОД, 61:05-5/3697

Содержание к диссертации

Введение

ГЛАВА 1. Проблемы создания баз полнотекстовых документов и организации поиска по ним 8

1.1 Общие вопросы создания электронных каталогов 8

1.2 Модели хранения библиографической информации 19

1.3 Модели поиска в электронном каталоге 35

ГЛАВА 2. Модели технологической схемы создания базы полнотекстовых документов и смешанного поиска по базе полнотекстовых документов 61

2.1 Форматы представления библиографической информации 61

2.2 Представление индексной информации при полнотекстовом поиске 69

2.3 Модель создания баз полнотекстовых документов 74

2.4 Технология смешанного поиска 80

ГЛАВА 3. Разработка программного комплекса смешанного поиска в базе полнотекстовых документов 86

3.1 Описание модулей ПО «YAMS» 89

3.2 Описание поддержки технологического процесса создания баз ПД 97

Заключение 101

Литература 103

Приложения

Введение к работе

Актуальность темы исследования. Достижения в представлении информационных массивов, в том числе электронных каталогов библиотек, позволили получать более полную информацию о составе, наполнении и доступности фондов конкретной библиотеки. Для этих задач в настоящее время активно используются сервисы сети Интернет, позволяющие сократить временные затраты на поиск источников, находящихся в библиотеках, а также определить библиотеку, в которую можно обратиться для получения необходимого источника, в том числе на электронном носителе.

Растущие потребности общества требуют наличия качественных и быстрых способов создания электронных источников информации. На данном этапе развития современных информационных технологий и получения дополнительных возможностей копирования и воспроизводства цифровой и иной информации у библиотек появилась возможность самостоятельно создавать базы полнотекстовых документов.

Обеспечение эффективного поиска в больших массивах полнотекстовых документов (ПД) - новая задача, которую требуется решить для обеспечения доступа к базам полнотекстовых документов. В то же время задача информационного поиска постоянно усложняется с ростом числа и объема доступных документов. Для базы полнотекстовых документов можно говорить о двух видах поиска:

  1. Поиск по метаданным - по полям библиографической записи в БД автоматизированной библиотечной информационной системы.

  2. Полнотекстовый поиск - поиск по любому фрагменту текста документа.

Полнотекстовый поиск предназначен для организации поиска только по электронным полнотекстовым документам. Поиск по метаданным более универсален, так как может быть использован для поиска любых типов документов - графических, аудио-видео документов, компьютерных программ.

4 Эффективность поиска зависит от точности поискового запроса. Сложность формирования полнотекстовых запросов может быть обусловлена:

незнанием набора поисковых терминов, определяющих искомый документ;

отсутствием достаточного опыта и квалификации формирования таких запросов;

отсутствием принятой и устоявшейся терминологии в интересующей области. Нередко пользователь, осуществляющий поиск, имеет самое приблизительное представление о специфике интересующей его тематики.

Результатом выполнения неточного запроса является значительное число документов, релевантных запросу, но не отражающих намерения пользователя — информационный шум. Введение формализованных параметров в процесс поиска - указание автора, предметной рубрики, ключевых слов или других метаданных значительно уменьшает число релевантных документов и повышает качество результатов поиска. Использование метаданных из полей библиографического описания БД автоматизированной библиотечной информационной системы (АБИС) позволяет обеспечить соответствие метаданных стандартам на создание библиографических описаний.

Все это обуславливает актуальность и значимость исследований, направленных на решение одной из ключевых проблем информационного поиска — проблемы правильного отображения информационных потребностей пользователей при организации уточненных запросов. Решение этой проблемы позволит уменьшить информационный шум, возникающий при поиске в базе полнотекстовых документов.

Цель исследования. Разработать новую технологию смешанного поиска в базе полнотекстовых документов, позволяющую повысить эффективность поиска за счет использования метаданных о документах в БД АБИС, и математическую модель оптимизации процесса создания баз полнотекстовых документов, позволяющую рационально использовать доступные ресурсы.

5 Достижение цели потребовало решения следующих задач:

  1. Провести анализ литературы по проблемам создания баз полнотекстовых документов и организации информационного поиска.

  2. Обобщить практический опыт создания баз полнотекстовых документов в библиотеках России и предложить модель оптимизации процесса создания баз ПД.

  1. Разработать технологию смешанного поиска по базе полнотекстовых документов с минимизацией информационного шума при поиске и провести ее апробацию на реальных данных.

  2. Разработать программное обеспечение (ПО) для организации технологического процесса создания баз ПД с использованием разработанной модели.

  3. Разработать ПО для реализации технологии и модели смешанного поиска.

Объект исследования. Процессы создания баз полнотекстовых документов и система организации информационного поиска.

Предметом исследования настоящей работы является совершенствование технологического процесса создания базы полнотекстовых документов и технологии информационного поиска с учетом особенностей доступной метаинформации ПД.

Методы исследования. При выполнении работы использовались методы системного анализа, методы теории управления, методы моделирования технологических и информационных процессов.

Научная новизна.

  1. Показано, что совершенствование процесса создания базы ПД может быть основано на декомпозиции технологического процесса на этапы и их распределение между автономными исполнительскими группами.

  2. Предложены новые математические модели оптимизации процесса создания баз ПД и технологии смешанного поиска по этим базам.

3. Разработан программный комплекс организации смешанного поиска

в базах полнотекстовых документов. Практическая значимость результатов диссертационной работы

состоит в разработке рекомендаций по созданию баз ПД; в создании программного комплекса для смешанного поиска в базе ПД; в разработке программного обеспечения для поддержки технологического процесса создания базПД.

Основные положения, выносимые на защиту.

  1. Способы организации технологических процессов создания баз полнотекстовых документов, основанные на выделении этапов обработки полнотекстового документа и их распределение между автономными группами,

  2. Методы и программные средства, используемые при проектировании и реализации системы смешанного поиска в базах полнотекстовых документов.

  3. Результаты апробации системы смешанного поиска в базах полнотекстовых документов и технологии создания полнотекстовых документов на примере Государственной библиотеки Югры и научной библиотеки Югорского НИИ информационных технологий.

Апробация работы. Основные положения и отдельные результаты исследования докладывались и обсуждались на научных семинарах Югорского НИИ информационных технологий; X Международной конференции «Крым-2003» (Судак, 2003); VII Международной конференции «UBCOM-2003» (Звенигород, Московская область 2003); III научно-практической конференции «Электронная Россия» (Ханты-Мансийск, 2004); XI Всероссийской научно-методической конференции «Телематика'2004» (Санкт-Петербург, 2004); XI Международной конференции «Крым-2004» (Судак, 2004); VIII Международной конференции «LIBCOM-2004» (Звенигород, Московская об-ласть, 2004); Международной конференции «Информационные технологии и обратные задачи рационального природопользования» (Ханты-Мансийск,

7 2005); IV научно-практической конференции «Электронная Россия» (Ханты-Мансийск, 2005).

Результаты диссертационной работы используются в Государственной библиотеке Югры и в ряде библиотек Ханты-Мансийского автономного округа.

Публикации. По теме диссертации опубликовано 7 научных работ, в том числе тезисов докладов на научных конференциях - 3, препринтов - 2, статей — 2.

Структура и объем работы. Работа состоит из введения, трех глав, заключения и приложений. Основное содержание диссертации изложено на 134 страницах, включающих 5 таблиц, 26 рисунков, список литературы (184 названия).

В первой главе рассмотрены теоретические проблемы создания баз ПД, хранения библиографических данных, организации поиска по базам полнотекстовых документов.

Во второй главе рассмотрен коммуникативный формат RUSMARC, форматы хранения индексной информации при организации полнотекстового поиска и разработаны модели технологического процесса создания базы ПД и системы смешанного поиска.

В третьей главе рассмотрены проблемы создания программного обеспечения для реализации разработанной модели создания баз полнотекстовых документов и технологии поиска в базах ПД.

. В приложение вынесены описание программного обеспечения, структура базы данных поисковых индексов и описание настройки шаблонов представления результатов поиска.

Автор выражает благодарность доктору технических наук А.И. Камышникову за постановку задачи диссертации и помощь в разработке основных положений диссертации и коллективу вычислительного центра ЮНИИ ИТ за технические консультации.

Общие вопросы создания электронных каталогов

Анализ литературных источников по данной проблеме позволил выделить следующие аспекты проблем работы с базами полнотекстовых документов: вопросы создания корпоративных электронных каталогов (Воройский Ф.С. [18, 20], Шрайберг Я.Л. [21], Мазов Н.А. [22] и другие); принципы формирования полнотекстового электронного ресурса (Терехова М.В. [9], Логинов Б.Р. [56], Негуляев Е.А. [16], Киселев И.Н. [124] и другие); вопросы организации доступа к ПД (Мешечак Н.А. [8], Карауш А.С, [176], Терехова М- В. [157] и другие); проблемы создание полнотекстовых поисковых систем (Головинский О.Б. [3], Лимонова Т.И. [4], Долгополое К.Г. [7], Байгарова H.G. [63], Андреев Ю.В. [12], Гасанов Э.Э. [14, 54, 55] и другие); проблемы создания поисковых систем с использованием метаданных (Захаров В.П. [11], Васина Е.Н. [62], Племнек А,И. [158, 159], Половикова О.Н. [152]); использование Интернет для эффективного доступа к электронным и традиционным источникам информации (Гаврилин А.А. [10], Гитер Д.М. [17], Жижимов О.Л. [132] и другие). В зарубежных источниках данные проблемы рассматривается в работах [37-51, 141] международных центров полнотекстовой каталогизации (OSSREA, The Mistica Project, Fedora Project, Cornell, CNRI, OPAC), где дается описание технологии создания и организации поиска по базам ПД, участвующими в технологии корпоративной каталогизации с использованием Интернет. Тем не менее, вопросы построения эффективной системы создания баз полнотекстовых документов и реализации смешанного поиска для баз ПД, использующих автоматизированную библиотечную информационную систему (АБИС) в литературных источниках практически не затрагиваются, скорее большинство авторов на данный момент уделяют внимание лишь отдельным аспектам данных проблем, не решая их целиком. В частности, в работах посвященных созданию поисковых систем с одной стороны рассматривается поиск по метаданных (Племнек А.И., Половикова О.Н.) без предоставления возможности поиска по полному тексту документа, а с другой — поиск по полному тексту документа (Гасанов Э.Э., Долгополов К.Г.) без возможности использования метаданных из базы данных АБИС.

В библиотеках Росси поддержка грантами РФФИ и финансирование в рамках ЭЦП «Электронная Россия» явились активизирующим фактором для создания и развития информационных систем. За последние годы было выделено несколько грантов РФФИ: Сетевая интеграция электронных информационных ресурсов ведущих библиотек и информационных центров России (98-07-90394) [5]; Глушановский А. В. Разработка автоматизированной системы «Библиотека научного института» как части Единой информационной системы РАН (03-07-90056); Головков С. Л. Разработка системы удаленного доступа к библиотечным ресурсам на базе сотовой связи (03-07-90170); Козлова Е. И. Разработка системы оптимизации информационного обеспечения научных исследований для академических библиотек (03-07-90144); Лавренова О,А. Интегрированная библиотека электронных диссертаций (04-07-90154). [6] Увеличение скорости обработки и представления полнотекстовых документов для конечного пользователя позволило за последние несколько лет поднять престиж библиотеки, как информационного учреждения [18, 122,128, 135-138].

Информация в обществе становится одним из основных продуктов деятельности человека, и библиотеки со своим огромным потенциалом входят в процесс развития информационной индустрии, расширяя ассортимент производимого ими информационного продукта. При этом в поле деятельности наряду с библиографической информацией включается текстовая и графическая, а также создание новой продукции (электронные фонды, каталоги в машиночитаемом виде, банки данных) [139,140]. Традиционно пользователи привыкли к мысли, что в библиотеке можно получить любую информацию [5]. Однако, в условиях информационного перенасыщения, библиотеке сложнее выполнять основные функции: фондообразование, информационно-библиографическое и абонементное обслуживание.

Улучшение основных показателей работы библиотеки достигается комплексным внедрением технических средств и заменой традиционных библиотечных процессов информационными технологиями на основе технического переоснащения с соблюдением всех особенностей, свойственных предметной области - библиотечному делу.

Применение современного аппаратного и программного обеспечения позволяет повысить скорость создания, обработки и поиска информации. Однако, более существенны следующие технологические возможности [19, 141-144]: одноразовый ввод данных и многоцелевое их использование для поиска документов, печати подобранной информации, передачи массивов данных другим организациям, подготовки изданий и т.д.; многоаспектный поиск данных по различным признакам и их сочетаниям без формирования дополнительных картотек (записей) и указателей; поиск в электронном каталоге (ЭК) и получение доступа к полнотекстовым документам других библиотек и сводных каталогов, которые осуществляются со своего компьютера в режиме теледоступа по каналам связи или в базах данных на оптических дисках большой емкости, устанавливаемых на компьютерах в библиотеке; организация комплектования фонда с использованием полнотекстовых баз данных издающих организаций, с автоматическим формированием заказов и учетом их выполнения; автоматизированный учет и ведение статистики во всех процессах, включая обслуживание читателей; надежное хранение полнотекстовых баз данных и каталогов в нескольких копиях; сокращение затрат на комплектование фондов; расширение сферы услуг за счет привлечения новых информационных источников. На практике это означает доступность всех документов в неограниченном количестве экземпляров; освобождение сотрудников от ряда рутинных работ по подготовке картотек, списков, заказов, писем, отчетной документации; осуществление операций по созданию и копированию тематических архивов литературы. В процессе автоматизации библиотек можно выделить ряд технологических этапов [145, 146]: 1. Определение фондов для создания ЭК. 2. Организация хранилища для созданных документов. 3. Сканирование отобранных документов. 4. Распознавание графических документов. 5. Редактирование распознанных документов. 6. Создание единого поискового интерфейса для электронного каталога и полнотекстовой БД. 7. Наполнение полнотекстовой БД системы путем заимствования полнотекстовых документов. 8. Создание мест свободного доступа к полнотекстовой БД системы. 9. Создание единой базы данных читателей системы.

Форматы представления библиографической информации

История возникновения коммуникативных форматов для библиографических записей связана с Библиотекой Конгресса США, которая в 1960 гг. уже имела в своем арсенале компьютеры, с помощью которых можно было создавать машиночитаемые записи. Согласно формату библиографическая информация непосредственно с каталожной карточки после преобразования могла быть перенесена в компьютер. Для интерпретации информационных блоков нужны были ориентиры для распознавания элементов данных [176].

Для решения этой задачи Библиотекой Конгресса в 1965-1966 гг. был разработан проект, получивший название MARC-I, целью которого было исследование возможности получения библиографического описания в машиночитаемой форме. Аналогичная работа проводилась в Великобритании. Совет по Британской Национальной Библиографии подготовил проект BNB MARC, в котором была поставлена задача использования машиночитаемых данных при подготовке и выпуске печатного издания Британской Национальной Библиографии. Эти параллельные исследования двух стран послужили началом англоамериканского сотрудничества по созданию проекта MARC-H, который был ориентирован на использования формата MARC в качестве коммуникативного. Принципы, заложенные в MARC-II, оставались неизменными на протяжении многих лет - это ориентация формата на все виды документов, решение разнообразных информационно-библиотечных задач, включая каталогизацию, возможность применения его в различных автоматизированных системах. Для преодоления несовместимости MARC форматов было принято решение на уровне Международной федерации библиотечных ассоциаций и учреждений (известна под акронимом ИФЛА) о разработке формата-посредника, который получил название универсальный MARC, т.е. UNIMARC. Первая публикация по формату UNIMARC вышла в 1977 г. и только через 10 лет появилось Руководство по UNIMARC (UNIMARC MANUAL), которое используется и в настоящее время. Такой длительный срок понадобился для развития и совершенствования формата UNIMARC, т.к. это весьма трудоемкая и кропотливая работа.

Формат UNIMARC, разработанный Рабочей группой ИФЛА под руководством Г.Д. Авраам, был опубликован впервые в 1977 г. Вторая редакция появилась в 1980 г. с изменениями, внесенными С.Х. МакКаллум. Использование и проверка UNIMARC, проведенные несколькими национальными библиотеками, показали, что существуют различные интерпретации формата. В связи с этим появилась необходимость в подготовке «Руководства по UNIMARC», которое было опубликовано в 1983 г. под редакцией С.Х. МакКаллум и СП. Дэвис. Международный консультативный комитет MARC явился автором пересмотренного в 1985 г. «Руководства по UNIMARC» . Первое издание руководства, подготовленное совместно Британской библиотекой и Библиотекой Конгресса США, вышло в 1987 г. в рамках ИФЛА, последнее издание - в 1994 г.

Формат UNIMARC получил распространение в странах Западной и Восточной Европы: в Италии, Франции, Бельгии, Словакии, Чехии, Хорватии, Литве и др. странах. В России формат UNIMARC имеет статус официального обменного формата в сфере массовых библиотек и информационных учреждений Министерства культуры, участников Сводного каталога ГПНТБ России, а также многочисленных пользователей Российской книжной палаты. Выбор для работы формата UNIMARC дает библиотекам возможность приобретать надежные каталогизационные данные, представленные в унифицированной форме. Если библиотеке пришлось создавать «доморощенную» АБИС, которая не использовала записи MARC, она не сможет воспользоваться преимуществами международного формата, целью которого, в первую очередь, является содействие обмену информацией.

Поскольку каждая запись UNIMARC является самостоятельной единицей, ЭК, содержащий множество таких записей, представляет собой базу данных, обладающую возможностью соответствовать всесторонним специфическим поисковым стратегиям.

Элементы данных могут быть кодированными или текстовыми. Кодированные данные используются для представления таких элементов, как контрольные номера, тип публикации, страна, язык текста. Кодированные данные применяются также для представления множественных физических характеристик специальных видов документов в полях фиксированной длины для географических, нотных, графических, видео и др. записей.

Библиографические данные определяются правилами Международного стандартного библиографического описания для конкретных видов документов. Кроме того, каждая запись должна содержать тематические определители: классификационные индексы и предметные рубрики.

Библиографические записи в формате UNIMARC предназначены для использования в автоматизированных библиографирующих системах. В зависимости от уровня универсальности системы ряд взаимосвязанных функций может быть реализован с помощью манипулирования данными. Двумя такими функциями является информационный поиск и вывод данных на экран.

Применение формата UNIMARC при управлении библиотечными операциями позволяет библиотекам использовать также имеющиеся коммерческие автоматизированные библиотечные системы и международные системы корпоративной каталогизации (OCLC, RLIN, PICA и др.). Многие системы, доступные библиотекам разного уровня, спроектированы для работы с форматом MARC. Они технически обслуживаются и совершенствуются поставщиком, так что библиотеки могут пользоваться преимуществами последних достижений в технологии АБИС. Формат UNIMARC позволяет также библиотекам заменить одну систему на другую с уверенностью, что их данные будут совместимы и при конвертации данных не произойдет их потеря.

Модель создания баз полнотекстовых документов

В каждой библиотеке, создающей коллекцию полнотекстовых документов на основе АБИС, создаются или модифицируются записи о документах, имеющихся в коллекции. Электронное библиографическое описание создается в соответствии с ГОСТ 7.1-84, определяющим правила составления библиографического описания документов [137, 139, 140, 147]. В течение существования записи в ЭК и полнотекстового документа в хранилище возможен его просмотр и копирование.

Для предоставления доступа пользователям к подготовленным документам могут использоваться стандартные технологии доступа через сеть - в локальной сети через сетевую файловую систему, в глобальной сети по протоколам HTTP и FTP [94, 119, 121]. При выборе средств предоставления документов предпочтительным представляется HTTP-сервер, так как у удаленных пользователей появляется возможность просмотра гипертекстовых документов с сервера библиотеки, без необходимости полностью закачивать документ на локальный компьютер [174, 175].

Все документы хранятся в удобной для просмотра файловой структуре с любым уровнем вложенности. Для одного документа используется один каталог- Такая структура наиболее удобна для навигации по файловому дереву и поиска документов без использования специальных механизмов. Каждый файл должен иметь уникальное имя. Представляется целесообразным использовать для именования файлов дату и время их создания в формате ГГГГММДДЧЧММ1 и дополнительный идентификатор, например идентификатор БД, идентификатор исполнителя или случайное число. Каждый документ должен быть представлен в одной из двух форм: одним файлом - распознанный текст (например 200409211115.pdf); индексным файлом и относящимся к нему набором файлов в отдельном. каталоге — гипертекстовый документ (например, файл index200409011527.html и каталог 200409011527). Для удобства доступа к документам внешних пользователей все файлы должны располагаться в одном каталоге, и ссылки на эти файлы должны храниться в ЭК [33, 34]. 2.4 Технология смешанного поиска Технология создается для обеспечения поиска по базе полнотекстовых документов, имеющих библиографическое описание в текстовом формате RUSMARC и хранящихся с возможностью локального доступа к файлу ПД, либо по протоколам HTTP, FTP. Доступ к библиографическим описаниям осуществляется локально. При индексации и поиске производятся следующие действия: 1 ГГГҐ - год, ММ - месяц, ДД- число, ЧЧ- час, ММ - минуты сохранения файла. индексация полнотекстового документа; индексация метаданных о нем; проведение поиска по полному тексту; проведение поиска по полному тексту и метаданным. Для удобства работы здесь и далее считается, что внесение метаданных о документе в БД происходит после внесения данных о полном тексте. При определении соответствующего уровня доступа возможно определение следующих контролируемых системой действий для пользователя: проведение поиска; получение полнотекстового документа. На основе вышеперечисленных действий с полнотекстовыми документами и библиографическими описаниями нами создана новая технология смешанного поиска и раздельного индексирования данных документа. Начальные данные и условные обозначения, применяемые далее при описании технологии: D - множество документов; Ij - набор индексных терминов для документа dj; Mj - набор индексных терминов для метаданных документа dj; qf- запрос для полнотекстового поиска; qm — запрос для поиска по метаданным; Rf- множество документов для запроса q R,,, - множество документов для запроса qm; R - результирующее множество документов. Здесь dj — отдельный экземпляр документа. При индексировании в первую очередь создается запись об обрабатываемом документе dj, затем этому документу сопоставляются Ij, Mj — наборы слов, найденных при обработке полного текста документа и его метаданных соответственно. Ij, Mj содержат все слова документа, в том числе повторяющиеся, за исключением стоп-слов. На рисунке 2.10 схематически представлена работа двух модулей индексации - индексация полного текста и индексация метаданных. Создание данных о документе производиться на первом этапе. После этого, индексная информация о полном тексте и метаинформации добавляется в БД и обеспечивается связь с существующей записью о документе.

Описание поддержки технологического процесса создания баз ПД

Разработан программный комплекс для организации смешанного поиска. Комплекс включает модули администрирования, полнотекстового индексирования, индексирования метаданных, поиска. Комплекс реализован на языке С для ОС семейства UNIX и тестировался на платформах Linux х86, SunOS spare для СУБД Oracle. 2. Программный комплекс предназначен для построения систем смешанного поиска по распределенным коллекциям полнотекстовых документов с использованием метаданных в коммуникационных форматах семейства MARC. 3. Использование новой технологии смешанного поиска позволяет значительно улучшить качества поиска за счет использовании метаданных о ПД, хранящихся в АБИС. Автоматизация основных технологических процессов в библиотеках России связана с внедрением новых достижений в области информационных и компьютерных технологий. При этом не все технологии, разработанные для информационных систем применимы в библиотеках без дополнительной доработки и настройки. Автоматизация в библиотеках не завершается на этапе создания полнотекстового документа, как это принято во многих информационных системах. Работа с полнотекстовым документом и его библиографическим описанием происходит постоянно в течение всего срока его использования. Стандартные решения полнотекстового поиска для коллекций полнотекстовых документов, создаваемых библиотеками, неприменимы, поскольку не позволяют использовать особенности предметной области -библиотечного дела и доступные библиографические описания в электронных каталогах на базе автоматизированных библиотечных информационных систем. Автоматизация технологических процессов создания коллекций полнотекстовых документов систем библиотек и вопросы, связанные с полнотекстовым поиском по таким коллекциям, с каждым годом приобретают все большую актуальность. Основные результаты представленной работы: 1. Предложена технология смешанного поиска по базе полнотекстовых документов. Проведен анализ развития данного вида поиска и обоснована возможность его применения для организации поиска по базе документов, имеющих описание в БД автоматизированной библиотечной информационной системы. 2. Предложена математическая модель оптимизации процесса распределенного создания баз ПД. Модель учитывает распределение нагрузки между автономными группами, использование обратной связи о востребованности ПД, гибкое изменение соотношения между распознанными и отредакти- рованными документами. Разработана схема предоставления доступа к созданным ПД из локальной сети и из сети Интернет. 3. Разработан программный комплекс для организации смешанного поиска. Комплекс включает модули администрирования, полнотекстового индексирования, индексирования метаданных, поиска. Комплекс реализован на языке С для ОС семейства UNIX и тестировался на платформах Linux х86, SunOS spare с использованием для хранения индексов СУБД Oracle. 4. Разработано программное обеспечение для реализации доступа к полнотекстовым документам в соответствии с разработанной схемой предоставления доступа к созданным ПД из локальной сети и из сети Интернет. Разработанные модели смешанного поиска и технология распределенного создания баз ПД внедрены в Государственной библиотеке Югры и библиотеке Югорского НИИ информационных технологий. Планируется их внедрение в корпорации библиотек Ханты-Мансийского автономного округа.

Похожие диссертации на Разработка технологии, математических моделей и программных средств организации смешанного поиска в базах полнотекстовых документов