Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Построение специализированной системы информационного поиска в объектно-реляционной базе данных АПК Бородин Олег Николаевич

Построение специализированной системы информационного поиска в объектно-реляционной базе данных АПК
<
Построение специализированной системы информационного поиска в объектно-реляционной базе данных АПК Построение специализированной системы информационного поиска в объектно-реляционной базе данных АПК Построение специализированной системы информационного поиска в объектно-реляционной базе данных АПК Построение специализированной системы информационного поиска в объектно-реляционной базе данных АПК Построение специализированной системы информационного поиска в объектно-реляционной базе данных АПК Построение специализированной системы информационного поиска в объектно-реляционной базе данных АПК Построение специализированной системы информационного поиска в объектно-реляционной базе данных АПК Построение специализированной системы информационного поиска в объектно-реляционной базе данных АПК Построение специализированной системы информационного поиска в объектно-реляционной базе данных АПК Построение специализированной системы информационного поиска в объектно-реляционной базе данных АПК Построение специализированной системы информационного поиска в объектно-реляционной базе данных АПК Построение специализированной системы информационного поиска в объектно-реляционной базе данных АПК
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Бородин Олег Николаевич. Построение специализированной системы информационного поиска в объектно-реляционной базе данных АПК : диссертация ... кандидата технических наук : 05.13.01 / Бородин Олег Николаевич; [Место защиты: Моск. гос. агроинженер. ун-т им. В.П. Горячкина].- Москва, 2009.- 148 с.: ил. РГБ ОД, 61 09-5/2100

Содержание к диссертации

Введение

ГЛАВА 1. Проблемы построения систем информационного поиска на основе объектно-реляционных баз данных 11

1.1. Информационный поиск в объектно-реляционных базах данных 11

1.2. Обзор возможностей информационного поиска в объектно-реляционных базах данных 18

1.3. Извлечение информации из текста 25

1.4. Показатели эффективности информационного поиска 26

1.5. Анализ математических моделей информационного поиска 28

1.6. Индексация информации 34

1.7. Основные функциональные требования к системам информационного поиска в объектно-реляционных базах данных 35

1.8. Критерии эффективности системы информационного поиска 36

1.9. Выводы и постановка задачи исследования 37

ГЛАВА 2. Система информационного поисрса в объектно-реляционных базах данных как объект исследования 39

2.1. Кибернетическая модель системы информационного поиска 39

2.2.Оценка содержания информационных документов 41

2.3. Математическая модель информационного документа 44

2.4. Конечный автомат в качестве морфологического анализатора 45

2.5. Вероятностная модель анализа содержания информационного документа 48

2.6. Определение и классификация источников информации 53

2.7. Методы обработки информации 56

2.7.1. Индексация информационного документа 56

2.7.2. Обработка содержания информационного запроса 58

2.8. Определение релевантности результатов информационного запроса 60

2.9. Компоненты подсистемы формирования информационного запроса 65

2.10. Структурная модель информационного поиска 67

2.11. Методика построения систем информационного поиска 69

2.12. Результаты и выводы по главе 2 70

ГЛАВА 3. Анализ типовой системы информационного поиска для предприятия АПК 72

3.1. Функциональная модель 72

3.2. Разработка и оценка трудоёмкости алгоритмов системы информационного поиска 77

3.2.1. Обработка информационного документа 77

3.2.1.1. Сохранение информационного документа 79

3.2.1.2. Лингвистическая обработка словоформы 83

3.2.2. Построение информационного запроса 84

3.2.3. Оценка трудоёмкости алгоритмов 87

3.3. Структурная оптимизация системы информационного поиска 106

3.3.1. Определение целевой функции 93

3.3.2. Имитационная модель системы 97

3.3.3. Структурная оптимизация 103

3.4. Результаты и выводы по главе 3 108

ГЛАВА 4. Прототип системы информационного поиска для предприятия АПК 110

4.1. Описание объекта внедрения 110

4.2. Экспериментальные исследования 113

4.2.1. Условия проведения эксперимента 114

4.2.1.1. Программно-техническая среда системы информационного поиска 114

4.2.1.2. Логическая модель объектно-реляционной базы данных 117

4.2.2. Результаты эксперимента и их анализ 120

4.3. Выводы по главе 4 122

Заключение 124

Литература 126

Введение к работе

Актуальность проблемы. В государственных организациях агропромышленного комплекса Российской Федерации, выполняются работы, связанные с обеспечением централизованного накопления и оперативного множественного доступа к актуальной информации по основным тематическим направлениям проблематики АПК России. Накапливаемая информация содержит электронные версии юридических документов, новостные публикации средств массовой информации, научно-техническую информацию в виде информационных статей, аналитических справок и монографий. Полнотекстовые информационные ресурсы научно-технической информации о состоянии и тенденциях развития экономики сельского хозяйства России являются информационной основой при принятии управленческих решений. Основной проблемой является поиск информации по информационным документам, находящимся в базах данных. Выполнение функций поиска информации имеет ряд особенностей:

- поиск информации производится по документам, хранящимся в
объектно-реляционных базах данных в множестве форматов данных;

информация, поступающая от пользователей, в виде информационных запросов, представлена на естественном языке;

информация должна быть предоставлена пользователю в результате выполнения одного-двух информационных запросов без дополнительного уточнения.

В результате возникает проблема своевременного нахождения необходимой информации, которая обусловлена следующими причинами:

информация, полученная в ответ на информационный запрос, может не соответствовать информационной потребности пользователя;

для нахождения требуемой информации пользователю необходимо применять дополнительные классификаторы документов.

В связи с этим представляется актуальной задача оптимизации механизмов поиска информации. Решение этой задачи связано с проблемой разработки технологии анализа текстовой информации, представленной на естественном языке.

Цель и задачи исследований. Целью исследований является повышение точности нахождения информации, сокращение времени предоставления информации и обеспечение полноты обзора текстовых информационных ресурсов, представленных на естественном языке в объектно-реляционных базах данных.

Для достижения поставленной цели в диссертационной работе поставлены следующие основные задачи:

определить целевую функцию эффективности системы

информационного поиска;

- разработать математическую модель информационного документа и
информационного запроса;

- разработать алгоритм лингвистической обработки текстового
содержания информационного документа;

- разработать вероятностную модель информационного документа;

разработать алгоритм обработки содержания информационного запроса;

определить процедуру оценки релевантности результатов выполнения информационного запроса;

сформировать методы построения технологии информационного поиска в системах управления объектно-реляционными базами данных;

на основании предложенных методов разработать прототип системы информационного поиска для предприятий АПК;

провести экспериментальные исследования эффективности прототипа системы информационного поиска.

Объект исследования. Объектом исследования являются средства и процессы информационного поиска в объектно-реляционных базах данных с

учётом отраслевых особенностей Агропромышленного комплекса Российской Федерации.

Методы исследования. В диссертационной работе использовались методы системного анализа, теория множеств, реляционная алгебра, элементы теории принятия решений, методы имитационного моделирования.

Научная новизна. Научная новизна работы заключается в следующем:

сформированы критерии для оценки эффективности системы информационного поиска в объектно-реляционных базах данных;

разработана математическая модель лингвистического анализа содержания информационного документа;

- предложены метод и методика построения системы информационного
поиска в объектно-реляционных базах данных на основе перехода от
кибернетической модели системы информационного поиска к структурной
модели системы.

Практическая ценность. Практической ценностью работы являются:

- возможность применения алгоритмов лингвистической обработки
текста, сформированного на естественном языке, при построении системы
информационного поиска в конкретной предметной области на основе
модификации словаря морфологических основ слов естественного языка без
адаптации алгоритма;

возможность инструментальной трансформации разработанной логической модели базы данных в физическую модель при разработке прикладных систем информационного поиска;

программный модуль лингвистической обработки текста, реализованный в процессе работы, может быть использован без дополнительной адаптации в процессе разработке прикладных систем информационного поиска;

инструментальные средства, реализованные при разработке вероятностной модели анализа содержания информационного документа

могут быть использованы для анализа любых процессов, описываемых цепью Маркова;

- имитационная модель типовой системы информационного поиска путём параметрической настройки может быть использована для оценки эффективности информационного поиска при принятии решений в случае модификации существующей системы или разработки новой системы информационного поиска.

Результаты работы реализованы и приняты к использованию в информационной системе научно-технической информации АПК разработанной ФГУП ВНИИ «Агросистема» для информационной поддержки Агропромышленного комплекса Российской Федерации.

Положения, выносимые на защиту:

1. Математическая модель информационного документа и
информационного запроса.

  1. Методика построения систем информационного поиска в объектно-ориентированных базах данных.

  2. Критерии оценки эффективности систем информационного поиска.

  3. Прототип системы информационного поиска.

Апробация работы. Основные положения диссертационной работы докладывались на трех научно-технических конференциях МГАУ (г. Москва, Россия 2005-2007 гг.).

Публикации. По материалам диссертационной работы опубликовано 4 печатные работы, получено 1 свидетельство о государственной регистрации программы для ЭВМ:

1. Бородин, О. Н. Извлечение информации из полнотекстовых
источников данных / О. Н. Бородин // Вестник ФГОУ ВПО МГАУ. - Вып.
1(16). Агроинженерия. -М.: ФГОУ ВПО МГАУ, 2008. - С. 42-44.

2. Бородин, О. Н. Информационный поиск в объектно-реляционных
базах данных / О. Н. Бородин // Вестник ФГОУ ВПО МГАУ. - Вып. 1(16).
Агроинженерия. - М.: ФГОУ ВПО МГАУ, 2008. - С. 37-39.

3. Бородин, О.Н. Структурная модель системы информационного поиска
в объектно-реляционных базах данных / О.Н. Бородин, Е.А. Воронин //
Журнал научных публикаций аспирантов и докторантов. - 2008.- № 3 - С.
149-152.

4. Бородин, О.Н. Имитационная модель системы информационного
поиска в объектно-реляционных базах данных. / О.Н. Бородин, А.А.
Евстифеев // Открытое образование - 2008.- № 5 - С. 49-55.

5. Свидетельство № 2008612051 Российская федерация. О
государственной регистрации программы для ЭВМ: Анализатор
трудоемкости алгоритмов / О.Н. Бородин, С.А. Малинин. - М., 2008.

Структура и объем диссертации. Диссертация состоит из введения, четырёх глав, заключения, и списка литературы из 103 наименований, содержит 29 рисунков, 19 таблиц и 4 приложений.

В первой главе рассмотрены проблемы построения систем информационного поиска на основе объектно-реляционных баз данных. На основании частных критериев информационного поиска произведён обзор возможностей информационного поиска в объектно-реляционных базах данных. Проанализированы математические модели информационного поиска и определены показатели эффективности систем информационного поиска, кроме того сформулирована цель и задачи диссертационного исследования.

Во второй главе рассмотрены методы построения систем информационного поиска в объектно-реляционных баз данных. Основным содержанием главы являются вопросы построения математических моделей текстового содержания информационного документа на основе теории множеств и теории вероятностей. Рассмотрены методы перехода от кибернетической модели системы информационного поиска к её структурной модели.

Третья глава посвящена вопросам построения архитектуры системы информационного поиска, разработки и анализу трудоемкости алгоритмов

обработки текста на естественном языке и реализации инструментальных программных средств, поддерживающих решение задачи оценки трудоёмкости алгоритмов. Центральное место в главе занимают вопросы структурной оптимизации системы информационного поиска: определение критерия эффективности, оценка частных критериев, выбор элементов системы информационного поиска в соответствии с критериями эффективности. В рамках решения задачи оценки частных критериев рассматриваются вопросы разработки и реализации имитационной модели системы информационного поиска.

Четвёртая глава посвящена практическому применению прототипа системы информационного поиска для предприятий АПК. Приведены результаты экспериментальных исследований, проведённые на основе коллекции информационных документов посвященных тематике Агропромышленного комплекса РФ.

Информационный поиск в объектно-реляционных базах данных

В государственных организациях Агропромышленного комплекса увеличиваются массивы текстовой информации, подлежащие хранению и систематизации. Накапливаемые данные включают разнообразную текстовую информацию, которая содержит электронные версии юридических документов, аналитические обзоры, а также научно-техническую информацию.

Основной единицей хранения текстовой информации является информационный документ, под которым понимается определенный набор текстовой информации, сформированной на естественном языке [48]. Информационный документ имеет определённое число информационных атрибутов, описывающих название документа, краткое содержание, полное текстовое содержание определённого формата. В качестве инструмента для хранения информационных документов в государственных организациях АПК используются объектно-реляционные базы данных. Такой выбор обусловлен следующими причинами: - независимость информации, находящейся в базе данных от файловой структуры операционной системы; - поддержка объектных типов данных; - возможность доступа к информации, содержащейся в базе данных с помощью процедурных языков высокого уровня [51]. По мере накопления информационных документов в базе данных возникает проблема организации эффективного поиска информации по коллекции документов, чтобы пользователь информационной системы смог за минимальное время найти требуемую информацию. Существует два способа поиска информации по коллекции информационных документов: с помощью тематического рубрикатора, с помощью выполнения информационного запроса. Первый способ заключается в навигации с использованием тематического рубрикатора. Особенностью первого способа является создание множества информационных тематик (рубрик). Структура тематического рубрикатора является иерархической. Для реализации тематического рубрикатора необходимо классифицировать информационные документы. Своевременное и качественное нахождение информации в этом случае зависит от полноты и точности тематической классификации информационных документов [5]. Основным недостатком навигации через рубрикатор является трудоёмкость выполнения навигации по рубрикатору. Второй способ заключается в поиске информации в коллекции документов в соответствии с содержанием информационного запроса. Информационным запросом является входное сообщение, содержащее требование на выдачу информации [17]. Результатом выполнения информационного запроса является выявление в некотором множестве документов подмножества документов, соответствующих информационной потребности пользователя. Выполнение информационного запроса в объектно-реляционных базах данных осуществляется при определении источника информации и текстового условия. Источником информации является таблица объектно-реляционной базы данных. Текстовым условием информационного запроса является текст, сформированный на естественном языке и выражающий информационную потребность. Проблемой поиска информации в текстовых массивах данных занимается междисциплинарная область науки, именуемая информационным поиском и базирующаяся на достижениях лингвистики и информатики [99]. В диссертационной работе объектом информационного поиска является коллекция информационных документов в объектно-реляционной базе данных. По способу обработки документа информационный поиск подразделяется на следующие виды: 1. Поиск по текстовому содержанию информационного документа (полнотекстовый поиск). Объектом информационного поиска является текстовое содержание информационного документа. Текстовое содержание информационного документа в объектно-реляционной базе данных в соответствии со стандартом SQL:99 может быть представлено в виде символьного (CHAR) или виде бинарного типа данных (BLOB) [28]. 2. Поиск по метаданным. Объектом информационного поиска являются атрибуты документа, такие как, название документа, дата создания, автор документа [91]. В государственных предприятиях Агропромышленного комплекса задачи по выполнению информационного поиска можно разделить на две категории. К первой категории относится выполнение простых задач информационного поиска в одном — двух информационных документов, местоположение которых в базе данных заранее известно. Результатом является справочная информация, которая служит предпосылкой для принятия управленческих решений или информационной основой для решения следующей категории задач информационного поиска. Вторая категория включает выполнение задач информационного поиска в заранее неизвестном количестве информационных документов. Сложность поиска обуславливается необходимостью сочетать анализ метаданных информационного документа с его текстовым содержанием. Для повышения точности информационного поиска необходимо корректировать информационный запрос. Поиск характеризуется низкой полнотой, так как отсутствует возможность получения степени соответствия тестового содержания документа информационному запросу пользователя. Результаты выполнения второй категории задач информационного поиска лежат в основе аналитических отчётов по содержанию, которых принимаются управленческие решения.

Вероятностная модель анализа содержания информационного документа

Характер функциональной зависимости обусловлен лингвистическими особенностями русского языка. При выполнении информационного поиска без выполнения лингвистической обработки содержания информационного запроса, точность поиска максимальна. Результат информационного запроса составляют документы, в текстах которых встречается словоформа из информационного запроса. В связи с тем, что в русском языке подмножество словоформ может иметь общую морфологическую основу максимальному показателю точности соответствует минимальное значение полноты. При выполнении лингвистической обработки информационных документов множество словоформ будет преобразовано в множество морфологических основ. В этом случае значение полноты информационного поиска повышается за счёт снижения точности.

В целях компенсации снижения точности может быть использовано сортировка результатов выполнения информационного запроса по мере соответствия информационной потребности пользователя.

В результате выполнения сортировки пользователю системы информационного поиска будут представлены документы максимально соответствующие его информационной потребности. Функциональное соответствие (13) реализовано на основе процедуры оценки релевантности результатов выполнения информационного запроса состоящие из операций: 1. Вычисления меры соответствия информационного документа информационному запросу (релевантность). 2.Сортировки результатов поиска по мере соответствия информационному запросу. В объектно-реляционных базах данных релевантность информационного документа определяется по формуле (15), сформулированной Джералдом Сэлтоном [92,98]. Параметры формулы (15): J - частота появления поисковой словоформы в значении атрибута отношения; N - мощность отношения; п - количество вхождения поискового термина в кортежи отношения. Сортировка результатов поиска происходит по нескольким показателям: 1. Релевантность картежей неименованного отношения. 2. Мощность неименованных отношений. Сортировка по значению релевантности картежей неименованных отношений происходит последовательно по всем атрибутам реляционного отношения. Содержание информационного документа описывается с помощью нескольких атрибутов отношения, содержащих информацию о названии документа, аннотации, авторе и текстовом содержании. Текст, представленный в атрибутах информационного документа, имеет разную информационную значимость. Например: информационная значимость атрибута «наименование» выше, чем у атрибута «аннотация». Объектами информационного запроса являются текстовые данные, содержащиеся во всех проиндексированных атрибутах реляционного отношения. В результате выполнения последовательной сортировки по значению в атрибутах неименованного отношения пользователю системы информационного поиска первично будут представлены информационные документы, имеющие максимальное соответствие информационному запросу. Возникает необходимость в экспертной оценке атрибутов неименованного реляционного отношения для указания последовательности сортировки результатов выполнения информационного запроса. Основным критерием сравнения атрибутов неименованного отношения является информационная значимость атрибута, полученная в результате экспертной оценки. Для сравнения атрибутов используется шкала порядка, которая применяется для измерения и упорядочения объектов по одному или нескольким признаков [77]. Шкалы порядка используются, когда измерения качества альтернатив проводятся с помощью экспертов. В целях повышения эффективности представления результатов информационного запроса необходимо отсортировать атрибуты реляционного отношения в соответствии со значениями шкалы порядка. В качестве примера определения релевантности результатов информационного запроса рассмотрим неименованное отношение, состоящее из множества проиндексированных атрибутов Zi=(ATl2, АТ13, АТ22). Каждому атрибуту по шкале порядка присвоено определённое значение ЕО(АТ12) = 2, ЕО(АТ1з) = 1, ЕО(АТ22)=3. Мера релевантности вычисляется по каждому значению атрибута отношения. Сортировка картежей по мере возрастания релевантности в значениях атрибутов отношения происходит в соответствии с рангом атрибута.

Сохранение информационного документа

Согласно разработанной в главе 2 кибернетической модели определим основные функции системы информационного поиска. Под функцией системы подразумевается процесс переработки входной информации в выходную [43].

Перечень основных функциональных требований определяется функциональной моделью [52,75]. Помимо функций системы необходимо определить ассоциативные связи функций системы с пользователями системы информационного поиска. Пользователями информационной системы являются: регистратор документов, информационный пользователь, администратор.

Рассмотрим функции системы информационного поиска и ассоциированных с ними пользователей (рис. 3.1). Регистратор документов инициирует выполнение следующих функций: 1. Регистрация информационных документов. Под регистрацией подразумевается загрузка документа с заполнением информационных атрибутов, таких, как название документа, аннотация, указание издательства и т.д. 2. Классификация документов. Классификация документов заключается в привязке информационного документа к тематическому каталогу для обеспечения функций дополнительной навигации по коллекции документов. 3. Редактирование коллекции информационных документов. Под редактированием коллекции понимается повторное редактирование содержания атрибутов информационного документа, а также создание электронных сборников, объединяющих информационные документы определённой тематики. Информационный пользователь инициирует выполнение следующих функций: 1. Информационный поиск. Информационный поиск выполняется на основе выполнения пользователем информационного запроса. Объектом информационного запроса является коллекция информационных документов, находящихся в объектно-реляционной базе данных. Необходимым параметром информационного запроса является текст на естественном языке, выражающий информационную потребность пользователя. Поиск информационных документов возможен также с помощью тематического классификатора. 2. Просмотр информационного документа. Под просмотром информационного документа понимается получение доступа пользователя к тестовому содержанию информационного документа. Администратор инициирует выполнение следующих функций: 1. Редактирование лингвистического словаря. Под редактированием лингвистического словаря подразумевается оперативное пополнение коллекции основ словоформ новыми элементами. Лингвистический словарь необходимо обновлять для повышения точности информационного поиска в специализированной предметной области. 2. Программное обслуживание. Программное обслуживание заключается в создании правил разграничения доступа пользователя к информационным ресурсам базы данных. Программное обслуживание так же включает выполнение функций резервного копирования информации в базе данных, переиндексацию коллекции информационных документов. Функциональная модель системы информационного поиска в виде диаграммы вариантов использования (Use Case) на языке UML Основные функций системы информационного поиска в объектно-реляционных базах данных реализуются путём интеграции элементов системы, предложенных в работе, с внутренними программными объектами базы данных. Архитектура систем информационного поиска в объектно-реляционных базах данных (рис. 3.2) показывает взаимосвязь объектов структурной модели с объектами базы данных, а так же реализацию основных функций пользователей системы, базирующейся на основе функциональной модели (рис. 3.1) [38,39]. Система информационного поиска включает два компонента: обработчик информационного запроса, источник данных. Источник данных включает набор сохранённых в системе источников данных. Основным элементом компонента является «Классификатор источников данных». В классификаторе находятся сохранённые в системе SQL запросы, построенные по таблицам базы данных (элемент 7). Таблица базы данных (элемент 7) содержат информационные документы и текстовую информацию, подлежащую индексации. Построение индекса по атрибутам реляционных таблиц, описывающих содержание информационного документа, производится в результате работы программных объектов библиотеки interMedia Text, которая входит стандартную поставку СУБД Oracle 10g. Индекс (элемент 8) представляет собой информацию, сохранённую в специализированных таблицах базы данных. Наличие индекса ускоряет доступ к текстовой информации, содержащейся в основных таблицах базы данных. Элемент «Регистратор информационных документов» (элемент 1) осуществляет функции по загрузке новых информационных документов в определённые таблицы БД в соответствии с выбранным источником данных (элемент 2). При выполнении пользователем операций по редактированию записей в таблицах базы данных синхронизация индекса выполняется автоматическими программными средствами базы данных. Изменение содержания информационных документов сопровождается синхронизацией индекса. Информация, поступающая в индекс, подвергается лингвистической обработке (элемент 3). Для выполнения лингвистической обработки информационного документа необходимо на основании текстового содержания информационного документа сформировать массив словоформ. Получение массива словоформ, содержащихся в информационном документе, представленных в бинарном формате данных выполняется адаптером (элемент 4). Модуль лингвистической обработки текста (элемент 3) построен на основе математической модели конечного детерминированного автомата. Лингвистическая обработка текста информационного документа предполагает решение двух задач: фильтрацию текста по содержанию, нахождение морфологической основы словоформы.

Программно-техническая среда системы информационного поиска

Основной задачей проведения имитационного эксперимента является получение среднего значения времени обработки информационного запроса и информационного документа в результате альтернативных реализаций элемента, выполняющего функции лингвистической обработки текста. Для каждой альтернативы предварительно оценено время обработки одного слова на естественном языке, точность (S) и полнота (R) информационного поиска.

В качестве альтернатив рассматривались существующие программные продукты и модуль лингвистической обработки текста, предложенный в диссертационной работе. Оценка времени обработки одного слова для существующих программных продуктов получена экспериментальным путём, а для модуля лингвистической обработки текста - расчетным путём с использованием реализованных в диссертационной работе модулей и программных средств.

Рассмотрим альтернативы: 1. Реализация элемента в виде динамически подключаемой библиотекой DLL, представленной компанией АОТ. Программный продукт распространяется по лицензии LGPL. Продукт может использоваться только в среде операционной системы Microsoft Windows [1]. Значения критериев: S = 0,65; R=0,76;T = 0,2...0,3 с. 2. Использование встроенного в СУБД Oracle 10g решения [82,96]. Точность поиска S = 0,88; R=0,12; Т = 0,01. 3. ISPEL [79,94] Свободно распространяемый морфологический словарь русского языка обеспечивает следующие показатели: S=0,35; R=0,65; Т=0,1. 4. Russian Context Optimizer (RCO). Программный продукт, интегрируемый в СУБД Oracle 10g. RCO позволяет выполнять морфологический анализ текста с использованием технологии расширения информационного запроса дополнительным списком словоформ [32,31,72]. Решение обеспечивает следующие значения критериев S = 0,55; R=0,4; Т = 101 0,04 с. Текстовое содержание информационного документа лингвистически не обрабатывается, в результате размер индекса соответствует содержанию текста. 5. Модуль лингвистической обработки текста. Работа модуля основана на алгоритме лингвистической обработки словоформы. Решение обеспечивает S = 0,37; R=0,7; Т = 0,01.. .0,02 (табл. 3.8). Имитационная модель создаёт поток информационных документов и запросов в соответствии с входными параметрами кибернетической модели системы информационного поиска. Состав элементов имитационной модели приведён на рис. 3.11. Предельное модельное время составляет 3000 часов. Элементы имитационной модели имитируют работу элементов системы информационного поиска определённых в структурной модели. Имитационная модель состоит из элементов Q и D типа. В имитационной модели паре элементов Q, D типа соответствует один элемент из структурной модели. Элементы Q типа имитируют очереди, в которых скапливаются информационные документы и запросы. Очередь сокращается в результате обработки заявки элементами D-типа. Элементы D типа обрабатывают заявки с определённой производительностью (табл. 3.8). В результате имитационного эксперимента элемент модели Inl с интервалом времени Mil создаёт информационный документы случайного объёма. Объём информационного документа находится в интервале [PageMin...PageMax]. Поступление информационных документов в базу данных происходит в восьмичасовом интервале времени. Временной интервал генерации информационных документов соответствует восьми часовому рабочему дню. Фильтрация заявок по признаку рабочего времени суток осуществляется элементом R1. Информационный документ, полученный в результате генератора заявок Inl поступает в очередь на обработку Q1. Элемент D1 имитирует работу элемента системы «Регистратор информационных документов». Информационные документы, обработанные элементом D1, поступают в Q2, D2. Элементы Q2, D2 имитирую выполнение SQL запросов, направленных на сохранение информационных документов в табличном пространстве базы данных. При сохранении информационного документа в СУБД выполняется разработанная на языке SQL хранимая процедура. Хранимая процедура является физической реализацией элемента системы: модуль лингвистической обработки текста. В имитационной модели хранимую процедуру имитируют элементы Q3, D3. Элемент D3 осуществляет обработку информационных документов и запросов. В результате обработки содержания информационного документа элементом D3, документ поступает в элемент R5. Элемент R5 выполняет распределение заявок по принадлежности к информационным документам. Обработанные информационные документы накапливаются в блоке ЕХ1. Для получения среднего времени обработки информационного запроса и документа по всем альтернативным вариантам реализации Q3, D3 необходимо провести эксперимент по каждой альтернативе с подстановкой значения параметров текущей альтернативы в параметры элемента D3 (табл. 3.8).

Похожие диссертации на Построение специализированной системы информационного поиска в объектно-реляционной базе данных АПК