Разработка архитектуры программной системы автоматизированного сбора тематической информации в сети Интернет Арутюнян Роман Эрнстович

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Арутюнян Роман Эрнстович. Разработка архитектуры программной системы автоматизированного сбора тематической информации в сети Интернет : Дис. ... канд. техн. наук : 05.13.11, 05.13.17 : Ростов н/Д, 2004 170 c. РГБ ОД, 61:04-5/4157

Содержание к диссертации

Введение

Глава 1 Исследование и анализ методов и систем обработки текстовой информации и информационного поиска 13

1.1 Исследование математических методов статистической обработки текстов 14

1.1.1 Признаки в задачах статистической обработки текстов 14

1.1.2 Методы классификации текстов 21

1.1.3 Методы информационного поиска текстовых документов 27

1.1.4 Методы автоматической генерации запросов к ИПС 29

1.2 Анализ программных средств информационного поиска и сбора информации в сети Интернет 31

1.2.1 ИПС Интернет 32

1.2.2 Интернет-каталоги 37

1.2.3 Метапоисковые системы 38

1.2.4 Индивидуальные поисковые агенты 39

1.2.5 Системы Интернет-мониторинга 44

Постановка задачи исследования 48

Выводы 50

Глава 2 Разработка моделей и методов получения и обработки документов 51

2.1 Разработка модели информационной потребности при решении задачи информационного поиска 53

2.1.1 Использование разделяющих гиперплоскостей при моделировании информационной потребности 54

2.1.2 Пополнение знаний при помощи инкрементной модификации алгоритма SVM 57

2.1.3 Представление категорий в виде иерархии 61

2.2 Разработка модели контекстного представления документов 63

2.3 Разработка метода формирования множества понятий предметной области 68

2.4 Разработка метода классификации контекстных групп 73

2.5 Разработка метода контекстного поиска документов 78

2.6 Разработка метода автоматического формирования тематических

запросов к ИПС 79

Выводы 85

Глава 3 Разработка архитектуры системы автоматизированного сбора информации 86

3.1 Разработка программных компонентов системы и интерфейсов их взаимодействия 88

3.2 Модуль управления 90

3.3 Формирование потока документов 94

3.4 Модули сбора информации 97

3.4.1 Асинхронное взаимодействие модулей сбора информации 98

3.4.2 Модуль формирования поисковых задач 101

3.4.3 Модули формирования запросов 102

3.4.4 Модули поиска 104

3.4.5 Модули получения документов 105

3.4.6 Модуль обработки документов 107

3.4.7 Модули сохранения документов ПО

3.5 Модули вычислений 111

3.5.1 Модуль уточнения параметров SVM 111

3.5.2 Модуль обновления понятий предметной области 113

3.6 Модули пользовательских интерфейсов 113

3.6.1 Интерфейс администратора 114

3.6.2 Главный интерфейс системы 115

3.7 Организация хранения данных 115

3.7.1 Главная база данных 116

3.7.2 Подчиненные базы данных 119

Выводы 123

Глава 4 Практические аспекты реализации системы автоматизированного сбора тематической информации 124

4.1 Использование архитектуры DCOM для реализации программных компонентов системы 124

4.2 Реализация очередей и механизмов передачи данных 127

4.3 Разработка хранимых процедур для работы с данными 129

4.3.1 Хранимая процедура индексации 130

4.3.2 Хранимая процедура информационного поиска 131

4.4 Реализация алгоритмов обучения 134

4.5 Реализация обработки документов 140

4.6 Реализация пользовательских интерфейсов 141

4.7 Экспериментальная оценка аспектов функционирования системы сбора информации 146

Выводы 152

Заключение 154

Литература 158

Анализ программных средств информационного поиска и сбора информации в сети Интернет
Использование разделяющих гиперплоскостей при моделировании информационной потребности
Асинхронное взаимодействие модулей сбора информации
Реализация очередей и механизмов передачи данных

Введение к работе

Актуальность темы. В последнее время в связи с бурным развитием компьютерной техники и телекоммуникационных технологий стала острой задача поиска информации. На сегодняшний день в электронном виде хранится огромное количество документов, руководств, описаний, инструкций, учебников, научных статей и много другой неструктурированной информации. Проблема нахождения среди такого объема информации нужной становится крайне важной и зачастую трудно решаемой без использования специальных средств, даже если область поиска ограничивается одним компьютером. Развитие сети Интернет еще более усугубило данную проблему, поскольку число документов, доступных посредством этой сети, огромно и продолжает постоянно расти.

В связи с этим в сети Интернет огромную популярность завоевали информационные системы, позволяющие различными способами обеспечивать нахождение требуемой информации и предоставление ее пользователю. Без них уже не представляется возможной работа во всемирной паутине. Такие средства поиска, как информационно-поисковые и метапоисковые системы Интернет, каталоги Интернет и индивидуальные поисковые агенты, а также системы Интернет-мониторинга, позволяют упростить различные аспекты решения этой проблемы. Однако, будучи применимыми для решения частных поисковых задач, существующие средства не обеспечивают решения комплексных задач.

Современные компании и корпорации испытывают сильную информационную зависимость. Расширение сферы услуг, разработка и внедрение новых технологий, а также выполнение текущих бизнес-задач тесно связано со сбором и обработкой различной информации. При этом важны такие аспекты данной проблемы, как максимальная полнота информационного массива, автоматизация процесса сбора информации, а также обеспечение средств навигации в ней. Архитектуры существующих программных средств нацелены на решение частных поисковых задач и позволяют осуществлять узкий поиск при непосредственном участии пользователя.

Таким образом, на сегодняшний день существует потребность в проработке целого ряда аспектов, касающихся функционирования систем информационного поиска, среди которых:

- автоматизация процесса информационного поиска;

- реализация комплексного подхода к решению задачи информационного поиска в сети Интернет, позволяющего задать всю область поиска и обеспечить ее уточнение в процессе работы;

- разработка средств информационного поиска, позволяющих находить документы в соответствии со смысловыми единицами, а не ключевыми словами;

- совмещение информационного поиска, оценки релевантности документов, а также полнотекстовой индексации и классификации найденных документов.

Областью исследования является организация распределенных систем, организация баз данных и знаний, разработка программных средств классификации данных, разработка методов анализа текста и средств поиска.

Предметом исследования являются архитектуры программных систем, базы данных, методы и программные средства классификации текстовых данных и поиска.

Цель исследования состоит в разработке архитектуры программной системы сбора информации в сети Интернет, позволяющей автоматизировать процесс информационного поиска в этой сети, обеспечивая возможность задания всей области поиска и нахождения документов в соответствии с ней, осуществляющей индексацию и классификацию найденных релевантных документов, а также содержащей средства навигации в сформированной базе данных с использованием методов поиска, позволяющих находить релевантные запросу документы, не содержащие его слов.

Задачи исследования. Для решения поставленной цели в диссертационной работе определены следующие задачи исследования:

- разработать масштабируемую распределенную архитектуру программной системы автоматизированного сбора информации в сети Интернет;

- разработать программные компоненты, осуществляющие получение документов из сети Интернет на основе информационной потребности пользователя и их обработку;

- разработать модель контекстного представления содержания текстовых документов, основанную на рассмотрении понятий предметной области и позволяющую решать задачи автоматического формирования поисковых запросов и информационного поиска;

- разработать архитектуру базы данных документов, позволяющую хранить всю необходимую для работы системы информацию, включая контекстный индекс документов и осуществлять поиск релевантных документов, не содержащих слов запроса;

- разработать метод автоматического формирования запросов к поисковым системам сети Интернет, позволяющий в соответствии с информационной потребностью пользователя создавать поток документов при помощи этих систем для дальнейшей обработки.

Методы исследования основаны на использовании теории распределенных систем, теории реляционных баз данных, теории информационно-поисковых систем и теории распознавания образов.

Научная новизна заключается в разработке нового подхода к вопросам организации систем информационного поиска в сети Интернет, позволяющего автоматизировать процесс поиска, задав информационную потребность иерархическим множеством категорий и обучив соответствующую модель на имеющихся документах. При этом распределенная архитектура разрабатываемой системы является масштабируемой и позволяет обеспечить высокую скорость обработки.

Практическая ценность и реализация. Результаты проведенных исследований нашли непосредственное применение при создании систем автоматизированного сбора информации в сети Интернет.

Основные результаты исследований использованы при выполнении научно-исследовательских работ

«Штиль-РИ» в ФГУП «Центр космических наблюдений» (г. Москва); - «Тракторист» в МТУ СИ (г. Москва);

«Эстамп-С1» в ГНУ НИИ «Спецвузавтоматика» (г. Ростов-на-Дону).

Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на IV Всероссийском Симпозиуме по прикладной и промышленной математике (Петрозаводск, 2003), X Всероссийской научно-методической конференции «Телематика-2003» (Санкт-Петербург, 2003), Научно-методической конференции «Современные информационные технологии в образовании: Южный Федеральный Округ» (Ростов-на-Дону, 2003), III Международной научно-практической конференции «Моделирование. Теория, методы и средства» (Новочеркасск, 2003), Международной конференции «Распознавание-2003» (Курск, 2003), Всероссийской научно-практической конференции «Современные проблемы борьбы с преступностью» (Воронеж, 2004), Международной конференции «Интеллектуальные и многопроцессорные системы-2004» (Таганрог, 2004).

Авторство, новизна и полезность принципиальных технических решений защищены тремя свидетельствами об официальной регистрации программных продуктов.

Публикации. По теме диссертации опубликовано 24 печатные работы. Из них 8 научных статей, 13 тезисов докладов и три свидетельства об официальной регистрации программы для ЭВМ.

На защиту выносятся следующие основные положения:

1. Разработана масштабируемая распределенная архитектура программной системы автоматизированного сбора информации, совмещающая решение таких задач, как задание информационной потребности, нахождение по

ней документов, их классификацию, индексацию, а также поиск в сформированной базе данных.

2. Разработаны программные компоненты, последовательно выполняющие задачу получения документов из сети Интернет в соответствии с предложенными этапами, такими, как формирование поисковых задач, формирование запросов, поиск документов, их загрузка, обработка и сохранение.

3. Разработана модель контекстного представления содержания текстовых документов, основанная на построении статистических моделей понятий предметной области, и позволяющая решать задачи автоматического формирования поисковых запросов и поиска.

4. Разработана архитектура базы данных документов, позволяющая хранить параметры моделей обработки, а также контекстный индекс, и осуществлять поиск релевантных документов, не содержащих слов запроса, на основе модели контекстного представления.

5. Разработан метод автоматического формирования запросов к поисковым системам Интернет, позволяющий создавать поток документов при помощи этих систем для последующей обработки в соответствии с заданной информационной потребностью.

Краткое описание работы. Диссертационная работа состоит из введения, четырех глав и заключения.

В первой главе рассматриваются существующие методы обработки текстовых документов, а также архитектуры программных средств информационного поиска и сбора информации в сети Интернет. Рассмотренные методы обработки текстов включают задачи предобработки, построения векторов признаков и отсев признаков. Кроме того, рассматриваются классические методы информационного поиска документов, такие как булев поиск и линейный поиск, а также методы автоматической классификации текстовых документов, такие как наивный байесовский метод (NBC), метод Роччио и метод опорных векторов (SVM). Кроме того, рассмотрены методы автоматического формирования запросов к поисковым системам на основе профиля пользователя. Производится анализ существующих программных средств информационного поиска в сети Интернет, среди которых выделяются общедоступные и индивидуальные средства поиска, а

также средства сбора информации. К общедоступным средствам относятся информационно-поисковые системы Интернет, каталоги Интернет, метапоисковые системы. К индивидуальным средствам относятся индивидуальные поисковые агенты. К системам сбора информации отнесены системы Интернет-мониторинга. Рассматриваются типовые недостатки данных систем и их причины. Осуществляется постановка задачи исследования.

Во второй главе представлены математические модели, используемые для построения системы. Разрабатывается модель информационной потребности пользователя, основанная на иерархическом задании множества классификаторов и рассматриваются вопросы уточнения параметров этих моделей в процессе обработки документов. Также представлена модель контекстного представления документов. Приводятся методы формирования и классификации контекстных групп, являющихся частями текстов документов, и формирования множества понятий предметной области. Контекстный индекс, создаваемый в соответствии с данной моделью, служит основой при проектировании базы данных для хранения документов. В данной главе также рассматривается метод автоматического формирования запросов к поисковым системам Интернет. Кроме того, на основе контекстного индекса разрабатывается метод контекстного поиска документов.

В третьей главе разрабатывается архитектура системы автоматизированного сбора информации. Данная система является распределенной и состоит из множества программных компонентов. Рассмотрены вопросы разработки этих компонентов, а также взаимодействие их между собой. Модуль управления производит координацию работы компонентов системы и обеспечивает хранение объектных ссылок на них. Модули сбора информации предназначены для получения документов из сети Интернет. Они связаны между собой компонентами-очередями, обеспечивающими буферизацию промежуточных данных обработки. Детально рассмотрена архитектура компонентов сбора информации, а также представлен набор данных, передаваемых ими между собой. Рассмотрены модули вычислений, осуществляющие выполнение ресурсоемких задач и особенности их разработки и функционирования. Также представлены пользовательские интерфейсы и рассмотрены вопросы их взаимодействия с остальными компонентами архитектуры. В данной главе проведена разработка архитектуры

базы данных для хранения необходимой информации. Хранение данных осуществляется в распределенной базе данных, разделяющейся на главную базу и подчиненные базы. Представлены таблицы, составляющие главную и подчиненные базы данных.

Четвертая глава посвящена описанию практической реализации разработанной в третьей главе архитектуры с применением разработанных во второй главе моделей и методов обработки данных. Рассмотрены особенности создания распределенной системы на основе архитектуры DCOM, а также спецификации XML, используемые для передачи промежуточных данных обработки между программными компонентами сбора информации. Разработаны хранимые процедуры, решающие задачи индексации и информационного поиска документов в распределенной системе баз данных, основанные на использовании языка XML. В главе рассмотрена реализация алгоритмов обучения и обработки документов, а также пользовательских интерфейсов. Представлены результаты экспериментов по обучению системы, поиску информации и ее сбору, а также эксперимент, оценивающий скоростные показатели разработанной архитектуры.

В заключении обобщены итоги и результаты проведенных исследований.

Анализ программных средств информационного поиска и сбора информации в сети Интернет

Булев поиск опирается на использование инвертированного индекса ключевых слов, то есть таблицы, в которой для каждого ключевого слова перечисляются все документы, в которых оно встречается [90]. Главным достоинством этого алгоритма является возможность связывания слов запроса логическими операциями, например, он позволяет осуществить поиск по запросу «кофе или чай» и получить в результате объединение множеств документов, содержащих слова «кофе» и «чай». К недостаткам этого алгоритма следует отнести невозможность определения релевантностей полученной выборки документов, и, как следствие, невозможность ее сортировки.

При поиске из инвертированного индекса извлекаются списки документов, соответствующие каждому слову запроса. Над полученными множествами проводятся операции, соответствующие логическим операциям, связывающим слова запроса, в результате чего образуется список найденных документов. Как правило, данный алгоритм поиска используется совместно с другими алгоритмами. При этом вначале с помощью булева метода поиска определяется набор документов, содержащих слова запроса, после чего с помощью других алгоритмов определяются релевантности документов из полученного набора.

Вероятностные алгоритмы поиска основаны на расчете вероятностей того, что документ релевантен запросу и, соответственно, формировании списка релевантных документов с помощью этих вероятностей. Для расчета вероятности P(d \ q) используется, как обычно в таких случаях, формула Байеса и тот факт, что вероятность P(q) постоянна на протяжении всего поиска. Таким образом, получаем, что где а — некоторая константа. В качестве факторов, влияющих на безусловную релевантность документа P(d), можно рассматривать его размер, источник, дату публикации. Вероятность запроса q при условии релевантности документа d зависит главным образом от веса ключевых слов запроса в документе d. Для ее расчета обычно принимают гипотезу независимости слов документа и запроса, что приводит к следующей формуле релевантностей: где P(wk \d) — вероятность появления к -го слова запроса в документе d. Рассмотренный алгоритм позволяет отсортировать по релевантностям запросу все множество доступных документов, либо множество, полученное после применения алгоритма булевого поиска. Задача автоматической генерации запросов к ИПС оказалась востребованной при создании индивидуальных поисковых агентов. Она решает проблему обнаружения в сети Интернет документов, релевантных профилю пользователя. Для этого формируемые запросы передаются общедоступным поисковым системам, которые возвращают множество ссылок на документы сети, релевантные этим запросам с учетом используемых ими моделей. Для задания профиля пользователя индивидуальные поисковые агенты используют вектора, элементы которых соответствуют словам, и равны весам этих слов, определяемым при помощи различных методов, например TD-IDF [52, 58, 93]. В соответствии с данным представлением профиля пользователя, методы генерации запросов опираются на веса слов [93]. При этом принимается гипотеза о том, что слова, имеющие наибольшие веса, приведут к получению более релевантных результатов поиска. В качестве слов, составляющих запрос, используются слова, доставляющие максимум оценочной функции. В задачах автоматической генерации запросов используются следующие оценочные функции [93]: - Функция TF (term frequency). Выбираются слова с наибольшими значениями частот повторения в релевантном множестве; - Функция DF (document frequency). Выбираются слова с наибольшими частотами повторения в релевантных документах; - Функция Боли (Воіеу). Для запроса используются слова, попадающие в пересечение множеств, соответствующих первому и второму способам; - Функция TD-IDF. Выбираются слова с максимальными значениями функции TD-IDF; - Функция Odds-Ratio, вычисляемая в соответствии с (3). Выбираются слова, доставляющие максимум данной функции. Во всех случаях задается и фиксируется число слов запроса к, после чего применяются рассмотренные методы для нахождения самих слов.

Согласно исследованиям, проведенным в [93], точность генерации запросов, намного большую, чем у остальных, показал метод, основанный на использовании функцииТ D-IDF. Для проверки точности работы всех методов вычислялись близости векторов признаков найденных документов и категории, равные скалярным произведениям соответствующих нормированных векторов. Метод, основанный на представлении TD-IDF, показал средние величины близости векторов признаков от 0.1 до 0.242 при длине запросов от 2-х до 8 слов. Это значительно превышает показатели для остальных методов.

Отметим, что представленные методы автоматической генерации запросов ориентированы на использование в индивидуальных поисковых агентах и предназначены для единовременного получения множества потенциально релевантных документов и рекомендации его пользователю. При этом фиксируется число слов запроса. Кроме того, эти методы используют для генерации запросов не все слова, представляющие категорию, что недопустимо в случае комплексного автоматизированного решения задачи информационного поиска, когда необходимо получить максимально полное множество документов. Также недостатком приведенного подхода является отсутствие механизма учета контекстных зависимостей между словами - выбираются лишь слова, имеющие максимальные веса. Это может привести к комбинации слов, которые приведут к заведомо низкорелевантной выборке документов при поиске. В качестве примера достаточно рассмотреть категорию «спорт», для которой с большой вероятностью названия видов спорта «теннис» и «футбол» будут иметь значительные веса. Однако относительно небольшое количество документов содержат указания на оба этих вида спорта, что приведет к крайне неудовлетворительным результатам при поиске по запросам, содержащим эти слова одновременно.

Для решения задач информационного поиска и сбора информации в сети Интернет был разработан ряд программных средств, различающихся спецификой выполняемых действий, архитектурой, особенностями реализации, а также применяемыми методами. Рассмотрим три категории данных средств, а именно: - общедоступные средства поиска в сети Интернет; - индивидуальные средства поиска; - системы мониторинга. Эти средства объединяет то, что они могут быть использованы для поиска и сбора документов в сети Интернет. Вместе с тем, для достижения этой цели используются различные механизмы. Некоторые системы хранят большие структуры данных, описывающие документы сети и предоставляющие способы их получения, в то время как другие используют в ходе решения своих задач сервисы, предоставляемые системами первого типа.

Отметим, что задачи информационного поиска и Интернет-мониторинга рассматриваются совместно, поскольку они отражают две различные стороны одной задачи, состоящей в обеспечении пользователя возможностью получения необходимой ему информации в максимально удобной форме. Вопрос автоматизации процесса поиска приводит к совместному рассмотрению указанных задач, анализу их работы и выявлению недостатков, а также разработке новых моделей и методов информационного поиска, обработки информации и программных систем, совмещающих решения данных задач.

Использование разделяющих гиперплоскостей при моделировании информационной потребности

В соответствии с поставленными научными задачами, в рамках данной работы необходимо разработать ряд моделей и методов, обеспечивающих сбор информации в сети Интернет и информационный поиск в сформированной базе данных. На рис. 11 представлена схема, объединяющая разрабатываемые модели и алгоритмы в единую архитектуру [23]. Она отражает взаимодействия элементов данной архитектуры с созданием единой системы информационного поиска.

Согласно схеме на рис. 11 данные из сети Интернет извлекаются с использованием метода формирования запросов к ИПС Интернет и модели информационной потребности. При помощи них производится автоматизация действий пользователя, которые имеют место в случае применения стандартных методов информационного поиска, например при непосредственном использовании ИПС. Эти действия зачастую длительны и однообразны и их автоматизация представляет собой крайне актуальную задачу.

Однако для того, чтобы обеспечить автоматическое получение ресурсов из сети Интернет, моделируя действия пользователя при информационном поиске, необходим метод оценки релевантностей документов. При этом важно отметить, что истинная релевантность документа обычно определяется самим пользователем на основе его информационной потребности, возникшей при необходимости решения некоторой проблемы. Таким образом, для разработки метода автоматической оценки релевантностей документов необходимо разработать модель информационной потребности пользователя и использовать ее для отсева нерелевантных документов. При этом также должен существовать алгоритм обучения данной модели, в ходе которого пользователь передает свои знания о предметной области поиска.

Множество найденных в результате действия описанных выше моделей документов может быть достаточно большим в случае, когда информационная потребность пользователя широка. При этом стоит также отметить, что в результате работы методов, направленных на автоматизацию действий пользователя, число найденных документов может быть значительно больше, чем при традиционном ручном информационном поиске при помощи ИПС. Это приводит к необходимости разработки алгоритмов навигации во множестве найденных документов. При этом важным является реализация расширенных методов информационного поиска, позволяющих использовать наряду с ключевыми словами тематические признаки и понятия предметной области. При использовании последних необходимо также решить задачу генерации данных признаков.

При обработке текстовых документов большую роль играют контекстные зависимости между словами. Учет этих зависимостей позволяет разрабатывать более совершенные методы обработки текстов. Разрабатываемые в рамках данной работы модели и методы также опираются на данные контекстные зависимости. При разработке метода формирования запросов, а также метода навигации во множестве найденных документов используется модель контекстного представления документов, играющая ключевую роль при исследовании их содержимого и позволяющая учесть смысловые зависимости между словами при решении задачи автоматической генерации запросов и смыслового контекстного поиска.

Пользователь, выполняющий задачу информационного поиска, действует согласно информационной потребности, вызванной необходимостью решения каких-либо проблем. Трудность при этом состоит в том, что сама потребность существует только в сознании пользователя и не всегда может быть им адекватно сформулирована. Традиционный подход к решению данной проблемы состоит в том, что пользователь формулирует запрос к ИПС на естественном языке и получает от нее список документов. При этом стоит отметить следующее: - информационный запрос не является точным отражением информационной потребности пользователя, он лишь приблизительно задает тематику поиска; - модели поиска ИПС основаны на вычислении меры близости между «поисковыми образами» запроса и документов и действуют, как правило, опираясь не на смысловую близость, а частоту и взаимное расположение слов запроса документе. Недостаток отражения информационной потребности в виде одного запроса состоит в том, что в результате поиска будут найдены только документы, содержащие все его слова. Однако естественный язык позволяет задать одну и ту же информационную потребность различными способами. Это приводит к тому, что при поиске с помощью данного метода будут найдены лишь документы, содержащие слова запроса, отражающие один из способов задания информационной потребности пользователя, что, в свою очередь, приводит к неполному множеству результатов поиска. При разработке иной модели информационной потребности следует требовать выполнения ряда условий для использования данной модели в задачах автоматизированного информационного поиска. Модель информационной потребности должна обеспечивать: - возможность оценки релевантности произвольного документа; - пополнение знаний при обработке новых документов; - возможность учета различных способов выражения одних и тех же смысловых концепций в текстах на естественных языках..

Асинхронное взаимодействие модулей сбора информации

Модули сбора информации (рис. 24) осуществляют полный цикл по получению документов из сети Интернет. При этом их архитектура является масштабируемой и легко адаптируется к различным потокам информации. Задачи, выполняемые данными модулями, соответствуют их названиям: - Модуль формирования поисковых задач осуществляет циклический обход всех категорий иерархии, задающей информационную потребность пользователя. Каждый цикл обхода соответствует новому множеству информационных запросов, соответствующих данному уровню. При этом с каждым обходом общность запросов увеличивается, что позволяет с большей вероятностью получить наиболее релевантные документы в начале обработки; - Модули формирования запросов получают от модуля формирования поисковых задач указания о текущей задаче, содержащие уровень иерархии / и количество генерируемых запросов N для данного этапа. Запросы, генерируемые этими модулями, переходят на следующий этап; - Модули поиска осуществляют информационный поиск по запросам, пришедшим от модуля формирования запросов, обращаясь при этом к ИПС Интернет. Результатом работы является список адресов документов, полученных в результате данного поиска. При этом также осуществляется проверка на уникальность запроса; - Модули получения документов осуществляют загрузку документов из сети Интернет по адресам, полученным от модулей поиска и модулей обработки. Здесь также осуществляется проверка уникальности документа, включающая проверку на возможное его изменение со времени прошлого скачивания; - Модули обработки документов осуществляют их разбор на слова, нахождение базовых словоформ, формирования векторов признаков, а также определение понятий, содержащихся в документе. Эта информация помещается в специальную структуру для сохранения в базе данных; - Модули сохранения документов взаимодействуют с активными базами данных и осуществляют помещение данных, полученных от модулей обработки, в хранилище. При этом осуществляется формирование индекса документа, а также формируется привязка документов к понятиям предметной области для обеспечения возможности последующего информационного поиска.

Для достижения максимальной производительности системы в целом ее архитектура должны быть максимально оптимизированной и избегать издержек, связанных с ожиданием отдельных модулей результатов работы других. Это важно, поскольку многие из модулей сбора информации выполняют работу, требующую использования больших вычислительных ресурсов, а также связанную с передачей информации по сети Интернет. Эти задачи могут быть продолжительными по времени. Однако задержки в работе системы недопустимы. Вследствие этого реализуется распределенная архитектура, поддерживающая одновременную работу нескольких однотипных компонентов, решающих параллельно несколько задач. В случае решения задач, связанных с ожиданием, таких как задача загрузки документов, несколько компонентов, решающих данные задачи, могут находиться на одном компьютере сети. Это возможно, так как они не отнимают значительного количества ресурсов. Другие же задачи, такие как формирование запросов к ИПС и обработка документов, наоборот, крайне ресурсоемки и требуют выполнения на различных компьютерах для достижения максимальной скорости обработки.

Таким образом, задача распределения компонентов по потокам внутри одного компьютера и по различным компьютерам локальной сети требует механизма синхронизации и объединения результатов работы этих компонентов. Для решения данной задачи используются объекты-очереди.

Пусть задача обработки некоторых данных, поступающих в потоковом режиме, разбивается на NT подзадач 7]. Задача сбора информации укладывается в данную схему. При этом требуется, чтобы эти подзадачи выполнялись последовательно. Обозначив через St множество всевозможных промежуточных данных после і-то этапа обработки, получаем, что для каждого входного множества элементов X с SQ

Для эффективного решения данной задачи и разработки соответствующей архитектуры введем очереди, позволяющие результатам работы предыдущего шага поступать на обработку на следующий. При этом заметим, что этот подход позволяет реализовать полностью асинхронную архитектуру, в которой обработка на этапах осуществляется независимо друг от друга.

Обозначим через Qt очередь с результатами обработки после z -го шага. Тогда вся обработка представится в виде независимых этапов обработки X., состоящих из шагов: - дождаться появления в очереди Qt_x очередного элемента х(_х и извлечь его; - произвести его обработку и получить множество элементов - поместить элементы X. в очередь Q.. Данный подход также позволяет реализовать распределенную обработку данных. Фиксируя очереди Q0,Q1,-..,QNT, представим распределенную обработку следующей схемой: где Z -й компонент обработки, соответствующий этапу Z.. Важно, что данные компоненты могут размещаться как на различных компьютерах сети, так и выполняться одновременно на одном и том же. На это влияет то, насколько задача ресурсоемка, и какую часть от ее выполнения занимает ожидание различных событий, в том числе получения данных по сети. Отметим, что при этом необходимо наличие компонентов, реализующих очереди и доступность их из других процессов и с других компьютеров. Отметим, что данные компоненты можно реализовать с помощью тех же архитектур создания распределенных объектов, при помощи которых реализуются компоненты обработки данных, то есть DCOM, CORBA и так далее. Операционная система Windows от Microsoft включает высокопроизводительную архитектуру MSMQ (Microsoft Message Queue), позволяющую решить данную задачу.

Заметим, что модули сбора информации укладываются в предложенную архитектуру и, таким образом, позволяют реализовать потоковую обработку данных, распределив компоненты, соответствующие этапам обработки, по вычислительным потокам и компьютерам сети. Отметим также, что при реализации удобнее всего использовать для передачи между этапами обработки строки с данными. Но поскольку данные являются разнородными и могут содержать множество значений переменных, будем использовать язык XML (Extensible Markup Language). Сообщения, хранящиеся в очереди, будут инкапсулировать значения многих переменных. При этом спецификации XML на различных этапах будут отличаться.

Реализация очередей и механизмов передачи данных

Важно отметить, что для задания индекса используются сами словоформы, а не их идентификаторы. Это связано с тем, что, будучи хранимыми в различных базах данных, документы содержат связи с различными таблицами словоформ, в которых эти словоформы имеют разные числовые идентификаторы. Сопоставление идентификаторов словоформам осуществляется при сохранении документа.

При разработке приложений, работающих с системами управления базами данных, зачастую возникает проблема потери времени при осуществлении вызовов функций БД для выполнения команд SQL [13]. При этом, учитывая клиент-серверную архитектуру многих современных СУБД, эти вызовы зачастую осуществляются посредством сетевых протоколов, таких как TCP-IP.

Использование хранимых процедур дает возможность одним вызовом решить сразу несколько подзадач одной задачи, соответствующих SQL-командам. Для передачи хранимой процедуре данных о словах документа и их весах, можно использовать разные методы, в частности простую передачу строки с этими данными с последующим ее разбором. Однако при решении этой задачи крайне удобным является использование технологии XML. СУБД MS SQL Server 2000 содержит мощные средства для работы с данными в формате XML. Для разбора XML-строк и извлечения из них информации в SQL Server предусмотрены хранимые процедуры sp_xml_preparedocument, spxmlremovedocument и оператор OPENXML. Чтобы подготовить XML-строку к разбору необходимо вызвать хранимую процедуру sp_xml_preparedocument. Она имеет два параметра. Первый параметр выходной, через него данная процедура возвращает дескриптор XML-документа. Вторым параметром в sp_xml_preparedocument передается XML-строка. Хранимая процедура spxmlremovedocument используется для закрытия дескриптора и освобождения памяти. Для доступа к данным XML используется оператор OPENXML. Удобство его использования основано на том, что данные XML возвращаются им в табличном виде. Это дает возможность использовать эти данные в запросах, а также осуществлять связывание их с другими таблицами. Оператор OPENXML имеет следующий формат OPENXML(idoc int,rowpattern nvarchar,[flags byte]) [WITH (SchemaDeclaration TableName)]. Здесь idoc - дескриптор XML-документа, rowpattern - выражение XPath, позволяющее идентифицировать нужную часть XML-документа, flags - величина, задающая тип отображения между XML-данными и реляционным набором данных. Конструкция WITH позволяет определить схему получаемой в результате таблицы. Хранимая процедура индексации документов принимает в качестве единственного параметра XML-строку со всеми данными о документе, включая его текст, дату модификации, индекс и т.д. (рис. 38).

На рис. 39 представлен алгоритм работы процедуры индексации документов. Он состоит в последовательном выполнении шагов по добавлению различных данных в соответствующие таблицы и также включает шаги разбора переданной в качестве параметра XML-строки с информацией и удаления созданного XML-источника данных [17].

Для достижения приемлемой скорости информационный поиск также осуществляется в хранимых процедурах. Поскольку архитектура системы предусматривает информационный поиск двух типов: обычный - с применением ключевых словам и контекстный - с использованием понятий предметной области, необходима реализация двух хранимых процедур информационного поиска, реализующих указанные его типы.

Хранимые процедуры поиска принимают в качестве параметров XML-строки, для которых необходимо определить спецификации. Спецификация поискового предписания для поиска по ключевым словам приведена на рис. 40. Она включает текст запроса, число возвращаемых документов, а также категорию поиска и временные рамки.

Разработка архитектуры программной системы автоматизированного сбора тематической информации в сети Интернет Арутюнян Роман Эрнстович

Анализ программных средств информационного поиска и сбора информации в сети Интернет

Использование разделяющих гиперплоскостей при моделировании информационной потребности

Асинхронное взаимодействие модулей сбора информации

Реализация очередей и механизмов передачи данных

Похожие диссертации на Разработка архитектуры программной системы автоматизированного сбора тематической информации в сети Интернет