Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Исследование и разработка моделей и алгоритмов структурно-логической обработки информации в документальных информационно-аналитических системах Васина Елена Николаевна

Исследование и разработка моделей и алгоритмов структурно-логической обработки информации в документальных информационно-аналитических системах
<
Исследование и разработка моделей и алгоритмов структурно-логической обработки информации в документальных информационно-аналитических системах Исследование и разработка моделей и алгоритмов структурно-логической обработки информации в документальных информационно-аналитических системах Исследование и разработка моделей и алгоритмов структурно-логической обработки информации в документальных информационно-аналитических системах Исследование и разработка моделей и алгоритмов структурно-логической обработки информации в документальных информационно-аналитических системах Исследование и разработка моделей и алгоритмов структурно-логической обработки информации в документальных информационно-аналитических системах
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Васина Елена Николаевна. Исследование и разработка моделей и алгоритмов структурно-логической обработки информации в документальных информационно-аналитических системах : диссертация ... кандидата технических наук : 05.25.05 / Васина Елена Николаевна; [Место защиты: Рос. гос. гуманитар. ун-т (РГГУ)].- Москва, 2009.- 142 с.: ил. РГБ ОД, 61 10-5/484

Содержание к диссертации

Введение

Глава 1. Методологические основы проблемно-ориентированного документального поиска 11

1. Основная и информационная деятельность 11

2. Объекты и процессы информационного поиска 14

3. Обобщенная схема информационного поиска 19

4. Процедурная модель итеративного поиска 23

5. Интерфейсная модель информационного поиска 27

6. Лингвистические средства представления предметной области 31

7. Информация и информационные ресурсы в процессах генерации знания 33

8. Когнитивный рубрикатор как интегральное средство формирования рабочего пространства 36

8.1. Назначение и основные функции рубрикатора НТИ 37

8.2. Назначение и структура когнитивного рубрикатора 38

8.3. Формализованное представление когнитивного рубрикатора 40

9. Архитектура рабочего пространство пользователя 40

Глава 2. Модели и методы систематизации документальной информации 43

2.1. Модели описания и анализа документальных информационных массивов и потоков 43

2.2. Методы описания и оценки качества АИПС 48

2.2.1. Структурная схема АИПС 48

2.2.2. Критерии оценки АИПС 50

2.3. Линейная модель индексирования и поиска и ее модификации 51

2.4. Применение линейной модели к описанию поисковых протоколов 54

2.5. Линейная модель рубрикатора 56

2.6. Метод классификации документов с использованием когнитивного рубрикатора 58

2.7. Линейная модель рабочего пространства пользователя 67

Глава 3 Экспериментальные исследования методов классификации и применения когнитивного рубрикатора рабочего пространства пользователя 70

3.1. Исследование статистических коэффициентов близости 70

3.2 Экспериментальное исследование метода классификации 79

3.3. Обобщенная технологическая схема исследования предметной области с использованием когнитивного рубрикатора 83

Глава 4. Средства управления лингвистическими и документальными ресурсами в интегральной информационно-аналитической системе 89

4.1 Основные функции и компоненты интегральной информационной системы 89

4.2. Алгоритмы работы с протоколом запроса 93

4.3. Идентификация объектов в справочнике ресурсов 99

4.4. Логическая модель когнитивного рубрикатора 102

4.5. Физическая модель когнитивного рубрикатора 105

4.6. Алгоритм автоматической классификации 106

4.6.1. Процедура построения матрицы близости 108

4.6.2. Процедура классификации документа 109

4.7. Программные средства ведения КР и классификации 112

Заключение 117

Литература 118

Список сокращений 124

Приложение

Введение к работе

Актуальность избранной темы. Современный уровень развития информационных технологий делает доступными в реальном масштабе времени информационные ресурсы самого разного объема и содержания. Для облегчения работы с большими объемами информации разрабатываются разнообразные формы и способы ее представления, а также методы поиска, что выражается, например, в создании систем, индивидуально настраиваемых самим пользователем.

Принципиально важным фактором, определяющим направление развития современных информационных систем, является то, что взаимодействие пользователей с информационными ресурсами происходит в режиме «информационного самообслуживания», когда пользователь, по существу, уже не разделяет свою деятельность на информационную и основную.

Соответственно, тенденции развития документальных АИС заключаются в постепенном расширении традиционных функций и активном подключении к поисковым механизмам аналитических возможностей, т.е. в переходе к документальным информационным системам следующего поколения - интегральным информационно-аналитическим системам, которые сочетают функции создания базы данных, анализа ее лексического и документального содержания, синтеза и оптимизации лингвистических структур (словарей, рубрикаторов, тезаурусов), совместно с БД образующих информационную модель предметной области. Это означает, что пользователь создает по существу новый, проблемно-ориентированный, самостоятельно обновляемый и пополняемый информационный ресурс, включающий помимо подборок документов также и метаин-формацию.

В связи с этим проблема исследования и моделирования как процессов информационного поиска в документальных информационно-аналитических системах, так и методов и алгоритмов построения средств, формирующих информационное пространство пользователя согласно его потребностям, является актуальной.

Степень разработанности проблемы. Проблемам моделирования поисковых процессов в информационных системах посвящены труды зарубежных ученых Chen Hsinchun, Salton G., Rijsbergen C.J.. Среди отечественных ученых, труды которых могут рассматриваться в качестве теоретической базы диссертации, выделяются: Белоногов Г.Г., Гиляревский Р.С, Романенко А.Г., Попов И.И., Максимов Н.В.

Современные достижения информационных технологий ставят новые задачи в области развития возможностей информационных систем, поэтому дальнейшие исследования данного научного направления представляются целесообразными.

Объектом исследования являются процессы автоматизированного поиска и анализа документальных баз данных, определяемых как машиночитаемые массивы информации, представленной в различной форме и на различном уровне (в том числе в виде комплекса баз данных первичной, вторичной и справочной информации), и рассматриваемых совместно со средствами доступа к ним.

Предметом исследования являются:

комплекс лингвистических и технологических средств автоматизированных информационно-поисковых систем, обеспечивающих эффективность процессов поиска информации в документальных БД;

технологии и алгоритмы управления информационными ресурсами, организующие информационное пространство пользователя.

Целью исследования является разработка комплекса моделей, алгоритмов, методов и средств систематизации документальной информации, ориентированных на совершенствование технологий и механизмов поиска информации в документальных информационных ресурсах, а также анализа структуры и динамики предметных областей.

Данная цель конкретизируется следующими задачами:

- определение основных принципов функционирования АИПС, ориен
тированных на задачи анализа информационных потоков;

системный анализ взаимосвязи информационных объектов в процессах генерации и поиска информации;

определение понятия и построение модели интегрального рабочего пространства пользователя;

разработка модели когнитивного рубрикатора предметной области, как основного компонента рабочего пространства;

разработка программных средств поддержки когнитивного рубрикатора пользователя;

разработка метода автоматической классификации документов, основанного на применении когнитивного рубрикатора.

Методы исследования. Основные результаты получены и обоснованы с использованием методов теории вероятностей, теории множеств, линейной алгебры, системного анализа и компьютерного моделирования.

Экспериментально-статистической базой исследования послужили базы данных реферативно-библиографической информации ВИНИТИ РАН «Информатика», ВНТИЦентра «Информационные карты НИР и ОКР» и «Информационные карты диссертаций».

Нормативную базу исследования составили такие стандарты, как ГОСТ 7.0-99 Система стандартов по информации, библиотечному и издательскому делу; ГОСТ 7.74-96 Информационно-поисковые языки, термины и определения; ГОСТ 7.77-98 СИБИД Межгосударственный рубрикатор научно-технической информации. Структура, правила использования и ведения.

Научная новизна работы.

Разработаны модели и алгоритмы структурно-логической обработки информации, основанные на введенных понятиях рабочего пространства пользователя и когнитивного рубрикатора, обеспечивающих управляемую навигацию в локальных и распределенных информационных ресурсах.

Обоснована структура когнитивного рубрикатора как операционного средства рабочего пространства пользователя, интегрально отражающего видение предметной области на знаковом, понятийном и предметном уровнях.

На защиту выносятся следующие положения:

понятие рабочего пространства пользователя, включающего информационные и процедурные компоненты, управляющие навигацией в локальных и распределенных документальных информационных ресурсах;

понятие когнитивного рубрикатора, включающего систематическую и объектную составляющие и динамически отражающего когнитивное состояние пользователя по отношению к состоявшемуся знанию;

модель когнитивного рубрикатора как операционного средства рабочего пространства пользователя, интегрально связывающего представления пользователя с информационными ресурсами предметной области на знаковом, понятийном и предметных уровнях;

математическая модель классификации текстовых документов, динамически соотносящая найденные документы с разделами когнитивного рубрикатора пользователя.

Теоретическая и практическая значимость работы. Отдельные положения работы представляют собой вклад в теорию и практику информационного поиска, использованы при разработке конкретных прикладных программных комплексов управления документальными информационными ресурсами на примере реализации подсистем документальной информационно-аналитической системы xIRBIS1 и могут быть рекомендованы к дальнейшему применению при разработке и развитии документальных информационных систем.

Отдельные положения могут быть использованы в теоретических курсах и лабораторных практикумах в учебном процессе вузов при подготовке бака-

' Документальная информационно-аналитическая система xIRBIS - программа для ЭВМ. Свидетельство №2008611511 от 25.03.2008г. Государственный реестр программ для ЭВМ, 2008г.

лавров, дипломированных специалистов и магистров по специальностям «Информационные системы (по областям)» и «Прикладная информатика (по областям)».

Внедрение результатов. При непосредственном участии автора разработана и применяется для создания промышленных информационных ресурсов документальная ИАС xIRBIS.

Результаты диссертационной работы внедрены в ВИНИТИ РАН, ИНИОН РАН,ВНТИЦентреРФ.

Публикации и апробация работы. По материалам исследований опубликовано 11 печатных работ, в том числе три работы в издании, входящем в Перечень ведущих рецензируемых научных журналов и изданий, в которых должны быть опубликованы основные научные результаты диссертации на соискание ученой степени доктора и кандидата наук, утвержденный Высшей аттестационной комиссией Министерства образования и науки Российской Федерации.

Результаты работы докладывались на следующих научных конференциях:

Международная конференция под эгидой международной федерации по информации и документации (МФД) - НТИ 96. Информационные продукты, процессы и технологии, Москва, 20-21 ноября 1996;

5-я международная конференция НТИ-2000. Информационное общество, информационные ресурсы и технологии телекоммуникации, Москва, 22-24 ноября 2000 г.";

Научно-практическая конференция «Информационные технологии в экономике XXI века», посвященная 100-летию РЭА им. Г.В. Плеханова, Москва, февраль 2006 г.;

7-я Международная конференция. НТИ-2007;

Научная сессия МИФИ-2008.25-27 янв. 2008;

Научная сессия МИФИ-2009. XXIII выставка-конференция «Телекоммуникации и новые информационные технологии в образовании».

Диссертационное исследование соответствует паспорту специальности 05.25.05 - Информационные системы и процессы, правовые аспекты информатики, пункту 1: Методы и модели описания, оценки, оптимизации информационных процессов и информационных ресурсов, а также средства анализа и выявления закономерностей в информационных потоках.

Объем и структура диссертации. Диссертация состоит из введения, четырех глав, заключения, библиографического списка и приложений. Диссертация содержит 10 таблиц и 47 рисунков. Общий объем работы составляет 139 страниц машинописного текста.

Объекты и процессы информационного поиска

Человек в своей целенаправленной деятельности, используя те или иные предметы окружающей среды, осознанно или нет, выполняет поиск, уже потому, что нужный объект необходимо выделить из множества других. Причем процесс поиска всегда, так или иначе, сводится к процессу простого перебора - упорядоченному или случайному, полному или частичному. При этом в большинстве случаев степень соответствия («нужность») устанавливается не путем эмпирического подбора - помещения очередного выбранного объекта непосредственно в конструкцию создаваемой конкретной системы, а путем определения степени соответствия образов соотносимых объектов — описаний структуры и выполняемых функций, параметров, свойств и т.д.

Соответственно, для обеспечения эффективности «узнавания» - основной фазы поиска, сообщения должны иметь «сигнальные» признаки. Такими признаками могут быть упомянутые описания или атрибуты, или они могут быть сформированы, например, по схеме «род-видовое отличие», т. е. путем введения явной систематизации, что является достаточно естественным — знания всегда системны, так как. создаются в рамках некоторой системы понятий соответствующей отрасли знаний.

Очевидно, что формальный (количественный) критерий соответствия предполагает, что соотносимые объекты имеют одинаковую природу (или приводятся к таковым), и, соответственно, сравниваемые атрибуты принадлежат одному пространству. То есть, поскольку нельзя непосредственно сравнивать информационный образ с реальным объектом, то для корректного соотнесения необходимо либо создать описание реального объекта, либо по образу (описанию) построить объект или его «действующий» макет - эквивалент объекта в контексте решаемой задачи.

В рамках рассматриваемой модели совокупной системы «основной — информационной деятельности» информационные объекты (операционные объекты сферы информационной деятельности) являются вторичными, поскольку их основное назначение - коммуникационное (сигнальное): информирование участников основной деятельности или общественности о состоянии решаемой субъектом проблемы, её окончательном решении, используемых методах, побочных эффектах и т.п.

С точки зрения назначения и характера использования можно выделить два типа информационных объектов: аналитические описания и поисковые образы [41]. Аналитические описания выступают в качестве операционного эквивалента объекта основной деятельности в рамках определенного класса задач - его создания, исследования и т. д. Поисковые образы - это идентификационный эквивалент объекта в задачах выделения/отождествления объекта в контексте его соотношения с другими объектами.

Аналитическое описание - это информационный образ, представленный средствами языка, возможности которого соответствуют классу решаемой задачи, например, язык математики, инженерная графика, структурные формулы химических соединений, технологические схемы и т.д. Оно является «действующей» операционной моделью, позволяющей на основе анализа атрибутов, представляющих свойства объекта, оценивать и прогнозировать состояние или поведение самого объекта.

В отличие от аналитического описания поисковые образы (ПО), как самостоятельные информационные объекты, изначально создаются не для задач анализа или синтеза нового результата в сфере основной деятельности. Поисковый образ только идентифицирует содержание, причем ровно с той степенью полноты и точности, которые необходимы для выделения объекта среди других в сфере информационной деятельности.

Безусловно, в качестве поискового образа может выступать и полное, «аналитическое» описание. Однако такое решение также имеет недостатки: 1) технические возможности для создания полнотекстовых1 баз данных появились сравнительно недавно, причем содержание, по которому возможен поиск, представлено, в основном, в форме текстов; 2) свободная лексика, авторская точка зрения и стиль изложения, свойственные первичным документам, затрудняют для пользователя нахождение общего с автором лексического пространства.

Поэтому в классе поисковых задач «общность» представления предметной области достигается другим путем - построением поискового образа на основе свойства концентрации информации, в частности, снижением детальности понятий и их связей, а также нормализацией лексики. Представление информационного содержимого конкретных документов в виде поисковых образов обеспечивает, с одной стороны, очень эффективную вычислительную процедуру (когда отбор производится по условию простого сопоставления отдельных терминов запроса с терминами документов), а с другой стороны - дает пользователю возможность получать достаточно хорошие, семантически полные и точные ответы на запросы, выражаемые упрощенным "телеграфным" стилем, где семантические отношения редуцированы до уровня отношения «совместной встречаемости».

Методы описания и оценки качества АИПС

Во многих АИПС включается сервис, предназначенный для анализа отобранных документов. В простейшем случае это может быть сортировка по какому-либо признаку, который пользователь выбирает сам из предоставляемого ему перечня или установленного по-умолчанию. В более сложных случаях система может рубрицировать выданные документы в соответствии с классификационной схемой, или кластеризовать их по степени взаимной близости. Математическая модель задачи классификации документов может быть представлена следующим образом [10]. Имеется множество документов L, а так же множество N классов K={Kj} где /=1 .. N. Каждый документ соответствует одному или нескольким классам. Каждый класс Kt представлен некоторым формализованным описанием S1,-. Процедура классификации/документа / є L заключается в выполнении преобразований над ними, на основании которых делается вывод о соответствии d одному или нескольким описаниям Si, что означает отнесение d к классу Kt. Тогда процесс классификации может быть представлен алгебраической системой следующего вида: где L - множество документов, подлежащих рубрицированию, К— множество классов-рубрик, S- множество описаний классов,/- операция рубрицирования вида/, — К, Rk — отношение на К S имеет свойство: V Kt єК 3Si є S: (К/, Si) є Rk. то есть классу соответствует единственное описание. Обратное требование необязательно. Отображение/не имеет никаких ограничений, так что возможны ситуации, когда 3 / є L:J[l)= Ki с К л \Ki I 1, то есть некоторый текст может быть отнесен к нескольким классам одновременно. Кроме сформулированной задачи классификации определяется задача обучения рубрикатора, под которой подразумевается частичное или полное формирование К, S, Rk и /на основе некоторых априорных данных. Согласно выражению (2.42) методы классификации могут быть разделены в зависимости от способа представления описаний классов (внутренняя структура элементов множества S), а так же от организации процедуры классификации / В настоящее время практическое применение получили следующие группы. статистические классификаторы, на основе вероятностных методов; классификаторы, использующие методы на основе искусственных нейронных сетей; классификаторы, основанные на функциях подобия. Статистические классификаторы. Наиболее известным в данной группе является метод Байеса, который основан на формуле Байеса для условной вероятности. Анализируемый документ / представляется в виде последовательности терминов {Ь }. Каждая рубрика К, характеризуется безусловной вероятностью ее выбора Р(КІ) в процессе классификации некоторого документа (совокупность таких событий для всех рубрик образуют систему гипотез, так что2Р(іС,)=1), а так же условной вероятностью P(bk\Ki) встретить термин bk в документе / при условии выбора рубрики К,. Эти величины образуют элементы St множества S описаний рубрик и используются при расчете вероятностей Рфь \К,) того, что текст будет классифицирован при условии выбора рубрики Kt. При расчете Р(1 \К,) учитывается представление / в виде последовательности терминов {Ъ }. Подстановка этих величин в формулу Байеса дает вероятность того, что будет выбрана рубрика Кіь при условии, что документ / пройдет успешную классификацию: Процедура/сводится к подсчету P(Kj\l) для всех рубрик К( и выбора той, для которой эта величина максимальна. Обучение рубрикатора сводится к составлению словаря {bK}i и определению для каждой рубрики величин Р(К,) и Рфи \Кг), где bk є {bK} Метод Байеса дает вполне приемлемые результаты в задачах классификации текстов. [90, 117, 118], при этом обладает высокой скоростью работы и простотой математической модели. Нейронные сети. Искусственные нейронные сети (ИНС) - это большой класс систем, архитектура которых имеет аналогию с построением нервной ткани из нейронов [7, 86]. ИНС состоит из набора «нейронов», соединенных между собой. Каждый нейрон представляет собой элементарный преобразователь входных сигналов в выходные. Выходные сигналы вычисляются как функция от входных сигналов. Как правило, передаточные функции всех нейронов в сети фиксированы, а веса являются параметрами сети и могут изменяться. Некоторые входы нейронов помечены как внешние входы сети, а некоторые выходы - как внешние выходы сети. Подавая любые числа на входы сети, мы получаем какой-то набор чисел на выходах сети. Таким образом, работа нейросети состоит в преобразовании входного вектора в выходной вектор, причем это преобразование задается весами сети. Для того чтобы сеть решала заданную функцию, ее надо «натренировать» на данных, для которых известны и значения входных параметров, и правильные ответы на них. Тренировка состоит в подборе весов межнейронных связей, обеспечивающих наибольшую близость ответов сети к известным правильным ответам. В применении к задаче классификации описания классов S, как правило, представляют собой многомерные вектора действительных чисел, заложенные в синаптических весах искусственных нейронов, а процедура классификации / характеризуется способом преобразования анализируемого текста / к аналогичному вектору, видом функции активации нейронов, а так же топологией сети. Процесс обучение классификатора в данном случае совпадает с процедурой обучения сети и зависит от выбранной топологии. Имеется ряд экспериментов по использованию нейронных сетей для классификации текстов. В статье [118] отмечается очень долгое время обучения ИНС. Это связано с тем, что для задач высокой размерности требуется ИНС с большим количеством узлов. Классификаторы подобия. Характерной чертой данного метода является универсальность описаний S, которые с одной стороны используются для представления содержания рубрик, а с другой стороны - содержания анализируемых документов. Процедура классификации/использует меру близости вида Е: S S— [0;1], позволяющую количественно оценивать тематическую близость описаний Si =S и S, S, где описание S/ представляет содержание анализируемого документа, a S— содержание некоторой рубрики.

Экспериментальное исследование метода классификации

Цель проводимого эксперимента состояла в следующем: оценка качества предлагаемого метода классификации с учетом результатов, изложенных выше, т.е. для построения матрицы близости применялись коэффициент корреляции, Андерберга и Юла, применение меры значимости термина в рубрике для уменьшения количества терминов, которые используются при проведении классификации; влияние па качество метода классификации терминов документа, имеющих отрицательную корреляцию с рубрикой. Исследование проводилось на базе данных ВИНИТИ РАН «Информатика» и базах данных ВНТИЦ «Информационные карты НИР и ОКР» (БД ИК) и «Информационные карты диссертаций» (БД ИКД), представленных в формате ИАС xIRBIS. Для рубрикации документов использовались рубрикаторы ГРНТИ [36] и ВИНИТИ [67]. Для проведения эксперимента автоматической классификации документов были построены частотные словники для рубрик. Словники содержат данные о частоте встречаемости терминов в рубрике и документальном массиве. Для их построения были сформированы выборки документов по рубрикам с использованием поисковых запросов. Для каждого поискового результата, который содержал документы отдельной рубрики, строились частотные словники. На их основе была построена матрица близости «термин-рубрика». Для каждого классифицируемого документа строилось его описание, которое представляется набором входящих в него терминов - ключевых слов. Далее проводилась количественная оценка тематической близости документа рубрикам, которая сводится к вычислению суммарного коэффициента близости терминов, входящих в описание документа, для всех рубрик на основе матрицы близости. Выбор максимального суммарного коэффициента близости определял принадлежность одной из рубрик (2.46,2.47). Результаты экспериментов для БД «Информатика» (ВИНИТИ) Эксперимент проводился на материале базы данных "Информатика", которая содержит рефераты, опубликованные в РЖ "Информатика", выпускаемом ВИНИТИ РАН. Общий объем базы данных составляет 73693 реферата, из них 73167 размечено экспертами по рубрикатору ВИНИТИ 395 рубриками. Документы БД содержат поля: авторы, заглавие, реферат, рубрика, ключевые слова и т.д. Цель первого эксперимента состояла в том, чтобы определить влияние терминов документа, имеющих отрицательную корреляцию с рубрикой, на качество классификации. На первом этапе в матрице близости коэффициент не рассчитывался для терминов, отсутствующих в описании рубрики, в этом случае эти термины не участвуют в оценке близости документа рубрике. На втором этапе такие термины были включены в расчет суммарных коэффициентов близости для рубрик. Сводная таблица результатов по всем коэффициентов отражает полноту и точность (2.20-2.21.) процесса классификации документа без учета отсутствующих терминов в описании рубрики (Этап 1) и после добавления этих терминов в расчет коэффициентов (Этап 2) (табл.3Л.). Показатели по всем коэффициентам улучшаются на втором этапе. Следовательно, для повышения качества классификации следует учитывать термины с отрицательной корреляцией. Следующий эксперимент на БД «Информатика» проводился с целью оценки качества предлагаемого метода классификации с использованием коэффициента близости -корреляция. В данном исследовании были применены различные ограничения для уменьшения размерности матрицы близости. Для ограничения количества терминов, которые используются при проведении классификации, были исследованы два различных варианта использования полученного словника. Для каждой рубрики определялись значимые термины, и только они использовались при построении матрицы. В первом варианте - коэффициент значимости термина это его частота в рубрике: Термин считался значимым, если его частота в рубрике больше или равна W д. Общее количество терминов, участвовавших в построении матрицы, составило 12% от общего числа терминов по всем словникам. Во втором варианте коэффициент значимости вычислялся с использованием формулы (2.45). Соответственно

Алгоритмы работы с протоколом запроса

Описываемые программные компоненты, выделенные из общей библиотеки программного комплекса ИАС xIRBIS, адаптированы для использования в качестве отдельных подсистем и функциональных блоков автоматизированных систем, обеспечивающих поиск информации с использованием ИПЯ, имеющего, в том числе, операторы контекстной близости, с отображением найденных документов, управляемым с помощью механизма схем. Подсистема информационного поиска включает совокупность процедур реализации поисковых механизмов. Все алгоритмы основаны на преобразовании физических структур на уровне логической обработки в битовые массивы. Тем самым, большинство действий по формированию результирующей выдачи выполняется над такими битовыми массивами с использованием логических операций. На рис. 4.2 представлена обобщенная схема реализации механизмов поиска, учитывающая возможность сохранения промежуточных результатов запроса в протоколе. Информационно-поисковый запрос с точки зрения документальной ИПС (на примере ИАС xIRBIS) представляет собой совокупность отдельных предложений запроса, в общем случае синтаксически и семантически не связанных между собой. Однако, само понятие «Запрос» предполагает объединенную общей тематикой последовательность поисковых действий, направленных на получение обобщенного результата, что позволяет разрешать ссьшки на результаты отдельных предложений в рамках текущего запроса, объединять поисковые результаты, выделять общее множество релевантных документов и т.п. Протокол, содержащий результаты запроса в виде инвертированных списков, является объектом для работы с запросом. S_Eq - процедура поиска по совпадению терминов; - SBool процедура поиска по логическому выражению; - SAnalogy поиск аналогов; - S_Heurist эвристический поиск; - S_Relev процедура поиска с использованием обратной связи по релевантности терминов; SaveResult сохранение результата поиска в протокол; - SaveQuery - процедура сохранения запроса в файл; - ReadQuery — процедура чтения запроса из файла в протокол; - ExecQuery. — выполнение поиска по предложениям запроса. Алгоритмы поисковых механизмов подробно описаны в [33], поэтому остановимся на алгоритмах, реализующих операции с протоколом. Протокол это линейный список записей со следующими полями имя базы данных, к которой относится поисковый результат; количество документов в результате; количество релевантных документов; флаг принадлежности результата, который принимает следующие значения: о R — результат поиска в локальной БД, о Н — результат поиска во внешнем (удаленном) ресурсе, о F — постоянный запрос; предложение поискового запроса; - результат поиска - последовательность внутренних идентификаторов документов с отметкой соответствия (неотмеченный, релевантный, нерелевантный, неопределенный, заказанный); - ссылка на внешний ресурс; строка комментария; Механизм сохранения/чтения запросов позволяет многократно использовать поисковые запросы. Запросы сохраняются в текстовых файлах, структура которых аналогична структуре протокола. Каждая запись протокола соответствует пяти строкам файла запроса: Первая строка собирается из четырех первых полей записи протокола в виде подстрок, разделенных запятыми, последующие строки дублируют поля записи. Процедура записи результата поиска в протокол (SaveResuIt) Входными данными процедуры являются предложение запроса (QText) и битовый массив - результат noncKa(Res[l..N]). В результате работы процедуры формируется новая запись в протоколе. Битовый массив Res преобразуется в строку, содержащую идентификаторы документов, которые представлены в битовом массиве единицей. Всем документам результата приписывается признак соответствия «неотмеченный». Сформированная строка заносится в поле записи протокола «результат поиска». Производится подсчет таких документов. Полученное значение заносится в поле «количество документов в результате».

Похожие диссертации на Исследование и разработка моделей и алгоритмов структурно-логической обработки информации в документальных информационно-аналитических системах