Разработка принципов создания информационно-поисковой Интернет-системы в области наук о Земле Рябинков Артем Иванович

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Рябинков Артем Иванович. Разработка принципов создания информационно-поисковой Интернет-системы в области наук о Земле : диссертация ... кандидата технических наук : 25.00.35.- Москва, 2006.- 186 с.: ил. РГБ ОД, 61 07-5/1604

Содержание к диссертации

Введение

1 Анализ предметной области и постановка задач исследования 12

1.1 Проблема поиска информации в сети Интернет 12

1.2 Анализ Интернет-источников информации в области геоинформационных технологий 14

1.3 Анализ существующих Интернет-поисковых инструментов для ГИС-специалиста 18

1.4 Определение требований к эффективной информационно-поисковой системе по геоинформационной тематике 26

1.5 Выбор типа специализированной поисковой системы 29

1.6 Анализ инструментов создания специализированных систем на базе сбора коллекции документов из сети Интернет 33

1.7 Постановка задач исследования 35

1.8 Выводы к главе 1 38

2 Проектирование архитектуры специализированной информационно-поисковой системы 39

2.1 Проектирование каталога Интернет-ресурсов в области геоинформатики и смежных областей 39

2.2 Проектирование коллекции веб-документов 43

2.3 Разработка методики пополнения коллекции веб-документами с неизвестных Интернет-ресурсов 45

2.4 Разработка методики фильтрация и рубрикации документов на входе в коллекцию 46

2.5 Анализ геопространственного контекста веб-документов на входе в коллекцию 48

2.5.1 Геопространственный контекст информации и его значение 48

2.5.2 Методы определения геопространственного контекста 50

2.5.3 Пространственные поисковые запросы в информационно-поисковой системе 57

2.6 Проектирование интегратора новостной информации 58

2.7 Проектирование методики поиска информации в тематических онлайн-библиотеках 61

2.8 Проектирование методики поиска в сети Интернет файлов геопространственных данных 63

2.8.1 Форматы и размещение геоданных на веб-ресурсах 63

2.8.2 Распознавание файлов геоданных 64

2.9 Интегрированный поисковый интерфейс системы 65

2.10 Структурная схема ИПС 66

2.11 Выводы к главе 2 67

Реализаия модулей информационно-поисковой системы 68

3.1 Создание каталога Интернет-ресурсов в области геоинформационных технологий 68

3.1.1 Разработка структуры рубрикатора 68

3.1.2 Разработка структуры метаописания ресурса в каталоге 69

3.1.3 Разработка процедуры включения ресурсов в каталог и нормативов для модератора каталога 71

3.1.4 Разработка пользовательского интерфейса каталога 72

3.1.5 Разработка административного интерфейса каталога 75

3.1.6 Разработка функционала рейтингования ресурсов и отображения рейтингов 75

3.1.7 Разработка функционала проверки работоспособности ресурсов... 77

3.2 Разработка тематической коллекции веб-документов и алгоритмов ее

пополнения 77

3.2.1 Разработка архитектуры сетевых роботов 77

3.2.2 Разработка методики оценки релевантности веб-страницы 83

3.2.3 Разработка стратегии обхода поисковых слайдеров 88

3.3 Разработка модуля фильтрации и рубрикации документов на входе в

коллекцию 92

3.3.1 Методы автоматической классификации информации 93

3.3.2 Применение метода PrTFIDF для автоматического ру брицирования документов в веб-коллекции 98

3.4 Модуль анализа геопространственного контекста веб-документов 103

3.5 Создание модуля интеграции новостных потоков (агрегатора) 104

3.5.1 Считывание заголовков новостей в формате RSS 104

3.5.2 Считывание заголовков новостей напрямую с веб-страниц 105

3.5.3 Скачивание, фильтрация и рубрикация текстов новостей 107

3.5.4 Обработка новостного потока 108

3.6 Модуль поиска в онлайн-библиотеках 109

3.7 Разработка модуля поиска геопространственных данных 109

3.8 Разработка поисковой машины 112

3.9 Выводы к главе 3 117

Проведение экспериментальных исследований поисковой системы 118

4.1 Платформа реализации и инструментальные средства 118

4.2 Реализация модулей системы для проведения экспериментальных исследований 120

4.2.1 Структура ИПС 120

4.2.2 Интернет-каталог 121

4.2.3 Коллекция веб-документов 123

4.2.4 Новостной интегратор 127

4.2.5 Рурикатор информации 129

4.2.6 Коллекция геоданных 130

4.2.7 Интегрированный поисковый интерфейс системы 131

4.3 Экспериментальное исследование модуля «Интернет-каталог» 133

4.4 Экспериментальное исследование модуля «Новостной интегратор»... 137

4.5 Экспериментальное исследование модуля поиска геоданных 140

4.6 Экспериментальное исследование модуля рубрицирования 143

4.6.1 Описание эксперимента 143

4.6.2 Анализ результатов эксперимента 147

4.7 Исследование эффективности поискового слайдера 148

4.8 Исследование качества поиска в коллекции веб-документов 151

4.8.1 Описание эксперимента 151

4.8.2 Критерии оценки точности поиска 152

4.8.3 Анализ результатов эксперимента 154

4.9 Выводы к главе 4 156

Заключение 157

Список использованной литературы

Анализ Интернет-источников информации в области геоинформационных технологий
Разработка методики пополнения коллекции веб-документами с неизвестных Интернет-ресурсов
Разработка процедуры включения ресурсов в каталог и нормативов для модератора каталога
Интегрированный поисковый интерфейс системы

Введение к работе

Колоссальные объемы информации во всех сферах человеческой жизнедеятельности обусловили высокую значимость и актуальность исследований, посвященных информационному поиску. Бурное развитие сети Интернет позволило предоставить специалистам унифицированный доступ к источникам информации по всему миру, существенно расширило возможности исследователей, нуждающихся в информационных ресурсах для практической и научной работы. Но при этом обнажилась очень острая проблема: объем производимой и поставляемой в Сеть информации значительно превышает существующие возможности по ее надлежащей обработке и поиску. Результаты, выдаваемые поисковыми системами Интернета, зашумлены огромным количеством ссылок на материалы, которые формально релевантны запросу, но на деле не имеют отношения к стоявшей информационной потребности. В итоге чтобы обнаружить нужные документы пользователь вынужден тратить большое количество времени на просмотр совершено не нужной ему информации.

Эти явления отразились и на науках о Земле. Интернет позволил предоставить большим группам исследователей и специалистов огромные массивы текстовых, графических и мультимедиа-данных. Но вследствие отмеченных проблем с поиском в Интернет, эффективность их использования по-прежнему низка. В развитии геоинформатики как одной из перспективных сфер научной деятельности, входящей в состав комплекса наук о Земле, очень остро стоит вопрос по разработке эффективных методов доступа к распределенным информационным ресурсам по наукам о Земле и природопользованию [3].

Сегодня перспективным способом интеграции данных по определенной проблематике, которые размещены в сети Интернет, является построение специализированных тематических порталов. В такой портал собирается информация из большого количества информационных источников, унифицируется, классифицируется и предоставляется пользователю посредством стандартизи-

рованного веб-интерфейса. Методология создания тематических порталов активно прорабатывается различными исследователями. Разработано множество решений на базе применения различных технологий сбора, обработки и представления данных пользователю. Кроме того, по многим предметным областям, есть конкретные рекомендации по составу информации и сервисам, которые портал предоставляет посетителям. В области наук о Земле такие ресурсы также существуют, но их количество явно недостаточное.

Однако тематический портал по своей идеологии нельзя отнести к классу поисковых машин. Несмотря на то, что в нем собрана информация из множества источников, в том числе и из Интернет-ресурсов, есть качественный рубрикатор информации, имеется поиск по коллекции собранных данных, практически вся информация собирается вручную, что подразумевает два основных недостатка такого подхода. Во-первых, вследствие ручной обработки информации, поддержание таких порталов требует большого объема материальных и людских ресурсов. Во-вторых, по этой же причине говорить о полноте покрытия информационных источников в Интернет не приходится, так как информация в Интернет обладает высокой изменчивостью, которую вручную очень сложно отражать на портале.

Требуются автоматические методы пополнения коллекции данных тематического портала из Интернет-источников. Автоматически собранные данные далее могут быть проанализированы, систематизированы и включены в структурированном виде в рубрикатор портала, но до этого момента, пользователи системы могут найти эту информацию и работать с ней.

Необходимо отметить, что автоматические методы поиска информации в Интернете, ее фильтрации, классификации, упоминались рядом исследователей (НИВЦ МГУ, ГНИЙ ИТТ "Информика"), но полноценные исследования этого вопроса не производились, а текущие решения носят половинчатый характер. В частности, некоторые образовательные порталы в домене индексируют веб-ресурсы, но только те, которые включены в каталог портала. То есть если информационный источник неизвестен группе обслуживания портала, то

информация о нем не будет проиндексирована и доступна пользователям [17]. Это не решает проблему обеспечения полноты представления информационных источников по предметной области.

Применительно к геоинформационной тематике (входящей в состав наук о Земле), таких крупных порталов насчитываются единицы, причем ни один из них не содержит средств автоматического поиска в Интернет информации, релевантной тематике. Все порталы создавались стихийно без четко проработанной методологии. Отсутствует как теория комплексного решения данной задачи, так и практические наработки. Организация поиска в Интернете информации по геоинформатике и смежным областям и пополнения ею интегрированного информационно-поискового портала в области геоинформационных технологий и составляет суть диссертационной работы.

Ряд научных исследований в поисковой науке уже посвящались проработке методологии решения задач подобного класса [21, 36,37, 38,40, 71]. Идея решений заключалась в создании Интернет-поисковых машин с типичной для таких систем архитектурой, но алгоритмами, учитывающими тематический контекст информации. Такие системы получили названия специализированных (вертикальных) поисковых машин. Цель такой системы заключается в направленном рекурсивном обходе наиболее интересных для тематики сетевых ресурсов и индексировании таких веб-страниц, которые содержат информацию, относящуюся к данной предметной области. Важнейшим компонентом таких систем является подсистема фильтрации, которая в автоматическом режиме определяет соответствие информации заданной тематике.

Однако предлагаемые поисковые методы в основном слишком универсальны, чтобы можно было говорить об их применимости для построения любой специализированной поисковой системы. Эффективность от их применения в общем случае зависит от предметной области. В частности, в документах по наукам о Земле большое значение имеет геопространственный контекст информации [24, 53, 55, 57, 72], тексты изобилуют упоминанием топонимов [4]. Также в сфере информационного поиска обычно рассматриваются вопросы по-

иска текстовых документов, тогда как, для ГИС-специалиста полезным является поиск в Интернете геопространственных данных [26].

Поэтому для решения задачи создания специализированной поисковой системы в области геоинформационных технологий, как составной части наук о Земле, необходимы комплексные исследования, учитывающие специфику предметной области, типы информационных источников и данных, которые используются специалистами, а также множество других факторов.

Целью работы является разработка принципов создания специализированной информационно-поисковой Интернет-системы для специалиста в области геоинформатики и смежных научных областей.

В основе работы лежит проектирование автоматизированных поисковых сервисов, осуществляющих поиск в Интернет информационных источников по геоинформационной тематике, сбор с них информации, ее обработку и предоставление пользователю. На базе совокупности этих сервисов может быть реализован интегрированный портал, либо эти сервисы могут дополнять функциональность уже существующих порталов, обеспечивая возможность оперативного поиска информации по многочисленным тематическим Интернет-ресурсам. Для достижения поставленной цели в работе рассматривается достаточно широкий спектр задач.

Анализ информации по геоинформационной тематике, размещенной в сети Интернет.
Создание тематического каталога Интернет-ресурсов в области геоинформационных и смежных технологий.
Поиск в сети Интернет веб-страниц по геоинформационной и смежным тематикам, их сбор в хранилище и предоставление пользователю возможность поиска по собранной коллекции данных.
Создание сервиса поиска в сети Интернет файлов геопространственных данных.
Предоставление пользователю возможности поиска информации в он-лайн-библиотеках документов, относящихся к предметной области.

6) Снабжение специалиста оперативной новостной информацией по геоинформационной и смежным тематикам, при помощи создания тематического новостного интегратора. Сужение предметной области до геоинформационной тематики продиктовано тем, что комплекс наук о Земле является очень большим и сложным по составу, и предложено апробировать методику создания тематической поисковой системы на одной из наук, после чего результаты исследований могут быть применены и к другим предметным областям (геологии, астрономии и т.п.). На защиту выносятся следующие результаты:

проведен анализ структуры и способов представления информации в области геоинформатики и смежных областей, размещенной в сети Интернет, на основании которого выработаны требования к эффективной специализированной поисковой системе;
разработана архитектура информационно-поискового портала в области геоинформатики и смежных областей;
разработаны модели и алгоритмы работы основных модулей системы: тематической коллекции веб-документов и модулей ее пополнения, тематического новостного интегратора, модуля поиска файлов геопространственных данных для последующего использования в ГИС-системах;
проведены экспериментальные исследования, подтверждающие работоспособность и эффективность модулей разработанной системы.

Научная новизна полученных результатов:

Основная научная новизна диссертации заключается в проработке методологической базы для создания специализированной поисковой Интернет-системы в области геоинформатики и смежных областей, входящих в комплекс наук о Земле, при условии отсутствия в настоящее время подобных комплексных разработок.

Составляющие научной новизны заключаются в следующем.

Разработка требований к информационно-поисковой системе на основе анализа структуры информации в области геоинформационных и смежных технологий.
Разработка моделей и алгоритмов модулей системы: каталога Интернет-ресурсов, модуля сбора тематически релевантных веб-страниц, модуля поиска геоданных, новостного интегратора.
Создание методики взаимодействия компонентов системы, обмена данными и выдачи поисковых результатов пользователю.

Практическая значимость результатов диссертационной работы состоит в том, что реализация информационно-поисковой системы на базе разработанной методологии позволит существенно сократить время поиска нужной информации для специалиста в области геоинформатики и ГИС-технологий. Это в свою очередь поможет специалистам и исследователям сократить сроки работ, избежать дублирования информации и ненужных усилий по разработке уже существующих способов и методов выполнения своих задач.

Результаты исследований в данной работе могут быть с рядом модификаций приложены к другим наукам о Земле: геологии, экологии, астрономии и т.п. Практическая значимость диссертации подтверждается актами о внедрении результатов исследования на кафедре информационно-измерительных систем Московского государственного университета геодезии и картографии.

Диссертация состоит из введения, четырех глав, заключения, списка литературы и четырех приложений.

В первой главе «Анализ предметной области и постановка задач исследования» проведен анализ существующих в сети Интернет средств, которыми может воспользоваться специалист в области геоинформатики и ГИС-технологий с учетом специфика Интернета. Проведен анализ информации по данной проблематике, размещенной в сети Интернет. Выдвинуты требования к информационно-поисковой системе и проанализированы исследования, позволяющие реализовать эти требования. Кроме того перечислена основная терминология, сформулирована цель и задачи диссертационного исследования.

Во второй главе «Разработка архитектуры специализированной информационно-поисковой системы и информационных моделей ее компонентов» проведено проектирование архитектуры информационно-поисковой Интернет-системы, отвечающей принципам ее построения, выявленным по итогам анализа предметной области в первой главе

В третьей главе «Практическая реализация сервисов в составе портала», приведена конкретная реализация алгоритмов в основе поисковых сервисов, составляющих систему. Предложена технология формирования тематической коллекции документов и методы ее пополнения. Рассмотрен выбор алгоритмов поиска в Интернете веб-страниц, фильтрации нежелательных материалов, автоматической рубрикации найденных документов. Произведен выбор алгоритмов индексирования коллекции, поиска по индексу и ранжирования результатов. Разработан новостной интегратор по тематике. Отражены схемы обмена данными и взаимодействия модулей. Сформулированы требования к аппарат-но-технической платформе. Приведены экранные формы, демонстрирующие пользовательский интерфейс системы.

В четвертой главе «Проведение экспериментальных исследований по оценке эффективности поисковых сервисов в составе портала» описана практическая реализация компонентов системы и приведены результаты экспериментов по определению эффективности работы алгоритмов лежащих в основе информационно-поискового портала. А также проанализирована работа всех модулей в своей совокупности.

В заключении сформулированы основные выводы и результаты диссертационной работы.

Благодарности

Я выражаю большую благодарность моему научному руководителю Майорову Андрею Александровичу, за помощь и поддержку в данном диссертационном исследовании.

Анализ Интернет-источников информации в области геоинформационных технологий

Для проведения анализа информационных ресурсов, интересующих специалиста по геоинформатике, был проведен анализ веб-ресурсов, включенных в общедоступные Интернет-каталоги (каталоги Яндекс rvaca.yandex.ruL Рамблер [top 1 00.rambler.ru]. ОРР-каталогГа тог.ога] ). Также были использованы результаты аналитических исследований, описанные в работах [3, 22,27,16].

Проводился анализ следующих аспектов: Типы информационных потоков; Структура информации по предметной области; Форматы представления информации в каждом из потоков, по каждому разделу тематики; Способы получения информации от источников; Как показано в работе [22], информационные потоки в области геоинформационных технологий, как составной части наук о Земле, могут быть подразделены по типу содержания на: описательные (статьи, монографии, лекции); событийные (мониторинг, новости, конференции); дискуссионные (обсуждения, вопросы-ответы); справочные (базы данных, каталоги, библиотеки); интерактивные ресурсы (моделирование, специализированные расчеты, ГИС, демонстрационные программы).

Информация из описательного, событийного и дискуссионного потоков обычно размещается на веб-страницах статического плана. Определение «статический» здесь не означает технологию создания веб-страницы (которая может быть создана и динамически), а подразумевает что конкретную информация (статья, описание, монография) достаточно жестко привязана к конкретному URL и к ней по URL всегда можно просто перейти. Часто большинство таких веб-страниц действительно являются статическими, то есть находятся на веб-сервере в виде обычных файлов (в форматах html, php и др.).

Событийные и дискуссионные потоки характерны динамичностью информации и более высокой скоростью обновления. Это в основном касается новостей, анонсов конференций, семинаров, форумов. Веб-страницы в таких разделах обычно динамические. То есть событийная информация заносится во внутреннее хранилище, с которым работает веб-ресурс, а затем визуализируется согласно некоторым критериям (по рубрикам, по типу, по новизне). Если знать URL, по которому находится, например, новость или сообщение форума, можно всегда перейти к данной информации.

Эти два потока информацию в последние годы получили новый способ представления и обмена информацией - в виде RSS-потоков. RSS [98] - это стандарт на базе XML на обмен новостными (и близкими по типу) данными. Если веб-ресурс поддерживает RSS потоки новостей, сообщений форумов, конференций и т.д., то работать с такой информацией становится намного удобнее. Но вся мощь RSS заключается в интеграции информации из различных потоков в единый поток, с которым можно работать из одного места, не обходя многочисленные веб-ресурсы, которые генерируют эти данные.

Справочные потоки имеют существенные отличия от описательных потоков, но имеют ряд сходств с событийными и дискуссионными. Информация справочного потока находится в некой БД (хранилище, коллекции), к которой реализован веб-интерфейс. Пользователю информация предоставляется по определенному запросу, который обычно задается путем заполнения отборной или поисковой формы. Соответствующая запросу информация визуализируется на динамически формируемой веб-странице. Принципиальное отличие справочного потока от других информационных потоков заключается в том, что в большинстве случаев информация не связана с конкретным URL. То есть ее нельзя получить, просто перейдя по какой-либо гиперссылке. Запрос обычно поступает в БД методом POST [97], то есть параметры не передаются в URL. Кроме того, для работы с библиотекой данных часто требуется пройти процедуру авторизации. То есть даже если запрос к БД возможен методом GET, где все параметры запроса передаются через URL, то неавторизованный пользователь, перейдя по данному URL, не получит данные. Такую информацию в Интернет-поисковой науке называют скрытым или «глубинным вебом» (hidden web) [62], поскольку крайне трудно реализовать доступ к такой информации автоматизированными способами. В этом случае нужны специальные технологии генерации произвольных запросов к БД. Поисковые системы Интернета не содержат таких средств и не индексируют информацию из глубинного веба, которая представляет справочный поток.

Интерактивные ресурсы - это особая форма представления информации, которая не поддается сколь либо точной классификации. Это могут быть интерактивные электронные карты, веб-доступ к ГИС-системе, демоверсии Интернет-приложений, различные Java-апплеты, системы расчетов, среды моделирования и т.д. Это наиболее сложная с точки зрения поиска информация, так как в большинстве случаев поиск возможен только по текстовой описательной части конкретного ресурса. Веб-страницы, которые содержат эту информацию, практически всегда динамические, содержат множество интерактивных элементов и объектов (DHTML, JavaScript, Applets, Ajax-элементы). Для некоторых решений необходима установка специальных компонентов для Интернет-браузеров. Естественно, что все эти сервисы не индексируются поисковыми машинами в должном объеме.

Разработка методики пополнения коллекции веб-документами с неизвестных Интернет-ресурсов

В виду высокой изменчивости сети Интернет, а также того, что каталог Интернет-ресурсов по геоинформационной тематике формируется вручную, он не может служить актуальным средством для осуществления поиска в Интернете с достаточной степенью полноты. Даже индексирование веб-страниц с сайтов каталога и полнотекстовый поиск по коллекции не могут полностью решить проблему. В Интернете может появиться множество новых Интернет-ресурсов и может пройти очень много времени, прежде чем о них станет известно и они будут проиндексированы сетевым роботом. Кроме того, тематически релевантная информация может быть размещена на веб-сайте, не имеющем отношения к геоинформационной тематике (например, статья по ГИС-технологиям, на личном сайте некого автора). Такой ресурс не будет признан экспертами релевантным тематике, и, следовательно, информация с размещенных на нем вебстраниц не попадет в коллекцию.

Поэтому для обеспечения адекватного покрытия тематических информационных источников в Интернете, коллекция содержит встроенные механизмы автоматического поиска в Сети тематически релевантных веб-страниц.

С конца 90х годов, было проведено множество исследований различных инструментов построения тематических веб-коллекций и на настоящий момент наиболее популярным и широко используемым инструментом является применения сфокусированных роботов (или слайдеров) [23, 36, 59]. Данные роботы имеют такой же принцип работы, что и обычные спайдеры. Они рекурсивно, следуя по гиперссылкам, посещают веб-ресурсы, и скачивают размещенную на веб-страницах информацию. Но в отличие от традиционных сетевых роботов, отбирающих любые доступные веб-страницы в порядке их обнаружения на веб 46 странице, сфокусированный спайдер имеет тематически ориентированную стратегию обхода Интернет-ресурсов.

Поскольку посещение всех Интернет-страниц не представляется возможным из-за огромного объема и быстрой изменяемости доступной в Интернет информации, то стратегия обхода определяет также, какие именно ресурсы удастся посетить (за конечное время). Порядок обхода ресурсов определяется их полезностью для поставленной задачи. [21]

В задаче сбора Интернет-документов, относящихся к геоинформационной тематике, полезностью ресурса является его релевантность тематике. Тем самым сфокусированные спайдеры делают попытки определения - ведет ли конкретная URL ссылка на релевантную и качественную веб-страницу, перед тем как ее скачать. Кроме того, сфокусированные спайдеры посещают URL адреса в оптимальной последовательности, таким образом, что релевантные и качественные веб-страницы оказываются посещенными в первую очередь, а низкокачественные или нерелеватные страницы не будут посещенными никогда.

Таким образом, проектирование сфокусированного спайдера включает в себя следующие задачи: определение начальных URL для сфокусированного спайдера; разработка методов определения близости веб-документа геоинформационной тематике; разработка стратегии обхода сетевых ресурсов. Разработка методики фильтрация и рубрикации документов на входе в коллекцию

В виду того, что сфокусированный спайдер является наиболее критичным с точки зрения производительности элементом ИПС, алгоритм его работы должен быть максимально оптимизирован с точки зрения сокращения времени обработки каждой конкретной веб-страницы, которую он посещает.

Наиболее критичная по времени процедура, выполняемая сетевым роботом - это фильтрация нерелевантных веб-страниц. С одной стороны мы заинте 47 ресованы в том, чтобы робот скачивал только релевантные тематике вебстраницы и как можно реже ошибался, а с другой - если мы будем применять сложные алгоритмы для построения такого фильтра, то существенно понизим производительность спайдера, и скорость сбора информации в Интернет. Поэтому компромиссным шагом является применение двухступенчатой фильтрации на уровне сетевых роботов и на уровне коллекции веб-документов.

Сетевой робот осуществляет только предварительный отсев нерелевантных документов. Алгоритм фильтра должен быть достаточно прост и экономичен с точки зрения затрат процессорного времени, но тем не менее должен решать задачу отсева основной массы «мусора». Вторая ступень фильтрации располагается на входе в коллекцию веб-документов. Данный фильтр может быть более сложен, использовать уже накопленный опыт и статистику документов в коллекции. Ведь коллекции не требуется скачивать документ, очищать его от html-разметки, извлекать ссылки и выполнять другие сложные операции, присущие слайдерам. Нужно всего лишь принять решение о релевантности конкретного документа предметной области.

Помимо автоматической фильтрации, коллекция должна осуществлять и автоматическую рубрикацию поступающих в нее документов. Используется структура рубрикатора Интернет-каталога, который, по сути, является рубрикатором предметной области. Отрубрицированная коллекция, наряду с Интернет-каталогом, обладает большим преимуществом перед неупорядоченной коллекцией документов, поскольку появляется возможность сузить область поиска конкретной проблематикой внутри всего множества документов по геоинформационной тематике.

В настоящее время разработано и применяется большое количество алгоритмов автоматической классификации и фильтрации документов. Каждый из них обладает собственными преимуществами и недостатками. Задача проектирования коллекции дополняется выбором требуемого алгоритма и оценке его эффективности.

Разработка процедуры включения ресурсов в каталог и нормативов для модератора каталога

На главной странице портала представлена структура рубрикатора. Переходя к конкретной рубрике или подрубрике, пользователь перенаправляется в раздел «Каталог ресурсов», где ему отображается список Интернет-ресурсов, соответствующих выбранной рубрике. Таким образом, осуществляется последовательный выбор ресурсов из иерархии рубрик каталога.

В списке выводится следующая информация о веб-ресурсе: 1) Название Интернет-ресурса 2) URL ресурса 3) Описание ресурса о 4) Рейтинг ресурса 5) Создатель/владелец ресурса/правовые аспекты 6) Количество проиндексированных веб-страниц При просмотре списка ресурсов в конкретной рубрике, пользователь имеет несколько возможностей сортировки списка: По дате регистрации По названию ресурса (по алфавиту); По рейтингу; Поиск Интернет-ресурсов

Это реализация контекстного поиска по метаописаниям ресурсов в каталоге. Пользователю открывается поисковая форма, где он может наложить поисковые условия на вхождение определенных ключевых слов в поля описания ресурса. Поддерживается поиск по следующим полям: Название ресурса (указание ключевых слов, которые должны содержаться в названии ресурса); Описание ресурса (указание ключевых слов, которые должны содержаться в описании ресурса); Предметная область (указание рубрик, к которым может относиться ресурс); Создатели/владельцы ресурса (указание ключевых слов, которые должны содержаться в поле «создатели/владельцы ресурса»); Язык ресурса (указание возможных языков ресурса);

Указав нужные поисковые ограничения, пользователь запускает поисковую процедуру, в результате которой он получает список ресурсов в описанном выше формате, но с той разницей, что в текстовых полях выделяются совпадения ключевых слов запроса. Это способствуют визуальному восприятию соответствия ресурса сделанному запросу.

Фильтрация ресурсов по территориальному признаку

Для этого система автоматически генерирует управляющий элемент, содержащий страны и регионы выводимых в списке ресурсов. Выбирая нужный регион, пользователь может сократить список выводом ресурсов, принадлежащих выбранному региону.

Просмотр ресурсов с наиболее высоким рейтингом

Это вспомогательный функционал, доступный пользователям. Он позволяет вывести N веб-ресурсов каталога с наибольшей посещаемостью. Фактически это просмотр списка ресурсов с упорядочением по рейтингу, но в пределах всего рубрикатора. Редактирование информации об Интернет-ресурсах

Данный функционал доступен владельцам ресурсов, и позволяет им вносить корректировки в метаописания ресурсов. Для внесения правок, пользователь должен авторизоваться на сайте, используя данные учетной записи, которые он получил при регистрации Ин 75 тернет-ресурса. После успешного прохождения авторизации открывается форма регистрации ресурса, с ранее введенными значениями полей. Пользователь вносит изменения и подтверждает их. Измененная карточка попадает в БД заявок на регистрацию с соответствующим статусом, чтобы отличать их от заявок еще не зарегистрированных ресурсов.

В случае если информация об учетной записи была утеряна, то пользователь может ее восстановить ее, если он введет правильный email, указанный при регистрации ресурса. При этом, данные учетной записи отсылаются на данный адрес. Также пользователь имеет возможность обратиться к администрации каталога с просьбой изменить описание, если у него нет возможности это сделать самостоятельно.

Окончательное формирование карточек ресурсов производится модераторами, отвечающими за определенные тематические направления. Работа редакторов производится из административного веб-интерфейса портала. Для редакторов существует разделение полномочий, то есть каждый из них может отвечать за определенную рубрику или набор рубрик каталога. Административный интерфейс каталога должен предоставлять следующие функции для модератора: 1. Просмотр заявок на регистрацию (изменения описания) ресурса; 2. Прием/отклонение заявок на регистрацию; 3. Редактирование регистрационной карточки ресурса; 4. Просмотр недоступных ресурсов

Интегрированный поисковый интерфейс системы

Задача тематического фильтра, применяемого слайдером, заключается в определении принадлежности веб-документа (веб-страницы) к одному из двух классов: документов, релевантных геоинформационной тематике, которые следует передать в коллекцию, и нерелевантных документов, которые система считает «мусором».

В виду того, что предметная область «геоинформационные технологии» является достаточно широкой, и содержит несколько различных направлений, то представляется крайне затруднительным реализовать универсальный фильтр, определяющий принадлежность найденной в сети Интернет веб-страницы какому-либо из направлений. Также имеем в виду, что в Интернет-каталоге реализован рубрикатор геоинформационной тематики, верхние уровни которого как раз и являются направлениями в пределах данной тематики. Поэтому представляется разумным осуществлять поиск веб 84 страниц индивидуально в рамках каждого направления в области геоинформационных технологий, реализуя более точную фильтрацию поступающего в систему контента.

Кроме того, на входе в коллекцию, помимо фильтра, стоит еще модуль рубрицирования, который также производит более точную рубрикацию поступающего в коллекцию контента. И если спайдер ошибся, порекомендовав коллекции страницу, нерелевантную рубрике, от которой он запущен, то система автоматически попробует найти документу другое место в структуре рубрик. В случае, если документ не будет релевантным ни для одной рубрике, он будет считаться мусором, и не будет включен в коллекцию.

Таким образом, система должна включать в себя, по меньшей мере, один спайдер на каждую рубрику верхнего уровня. В случае необходимости, можно реализовать набор слайдеров, на любой требуемый набор рубрик.

Каждый спайдер будет сфокусирован на поиске информации по конкретной рубрике, отсеивая ненужные документы. Более точное решение относительно оценки веб-страницы, принимается фильтром на входе в коллекцию, основываясь на значительно большей статистике релевантных документов. Спайдер, по сути, только рекомендует коллекции документы, снижая на нее нагрузку.

Вычисление оценки релевантности веб-страницы базируется на вычислении расстояний в рамках векторной модели информационного поиска [21]. Для осуществления фильтрации требуются следующие составляющие: Снимок веб-страницы, позволяющий производить анализ размещенной на ней информации. Тематический фильтр, который получает робот, приступая к обходу URL из очереди непосещенных ссылок. Порог релевантности, на основе которого определяется релевантность веб-страницы конкретной рубрике.

Снимок формируется путем парсинга кода веб-страницы, из которой удаляется вся HTML-разметка. Из полученного чистого текста удаляются Снимок формируется путем парсинга кода веб-страницы, из которой удаляется вся HTML-разметка. Из полученного чистого текста удаляются стоп-слова (не имеющие тематической направленности), а все остальные слова приводятся к нормальной форме - термам (процедура стемминга). Для каждого из термов вычисляется его частота использования на данной вебстранице. В итоге, снимок страницы представляет вектор пар (t, FtJj)\ термов t и частот их использования на странице F .

Тематический фильтр также представляет собой вектор пар (t, WJ: термов / и их значимости в рамках геоинформационной тематики Wt.

Построение тематического фильтра для каждой рубрики выполняется следующим образом. 1) От каждой из рубрик выбирается множество Sk, включающее N=50 вебстраниц10. 2) Для каждой веб-страницы из выборки рассчитываются данные о частоте встречаемости каждого входящего в нее термина11: (t, FtJ.

3) Рассчитывается средняя частота использования каждого термина по каждому множеству Sk по формуле: FtSk= — (3.1)

4) Рассчитывается средняя частота использования каждого терма в Su, где Su - объединение множеств Sk 5) Если частота встречаемости терма в Sk превышает среднюю частоту в Su, то он включается в тематический фильтр с весом W(t,Sk) = F(t,Si) -FfcSJ.

10 Мы считаем что к этому моменту спайдеры каталога уже наполнили коллекцию веб страницами, которые были привязаны к соответствующим рубрикам (рубрицирование подробнее рассмотрено в следующем параграфе).

11 При попадании в коллекцию веб-страницы, эти данные автоматически рассчитываются и сохраняются в ее карточке. S6 Тем самым фильтр по каждой рубрике строится на основе терминов, имеющих значимую дискриминационную силу, по отношению к другим термам, встречающихся в коллекции. Оценка релевантности рассматриваемой веб-страницы к заданной рубрике определяется по следующей формуле: ад=1 - (з.2) t Документ считается релевантным, если оценка превышает некоторый установленный порог рекомендации L, т.е.: R(p) L (3.3) Уточнение тематического фильтра

В виду того, что окончательное решение о принадлежности вебстраницы к определенной рубрике в коллекции определяется системой рубрикации в коллекции, то с течением времени, начальный фильтр, который получил спайдер рубрики, постепенно будет терять свою актуальность. Так как коллекция постоянно пополняется документами, начальные значения весов термов в пределах конкретной рубрики могут изменяться, причем в достаточно широких пределах. Кроме того, в фильтр могут быть добавлены новые термы, ранее не попавшие в перечень термов с максимальной отличительной силой.

Разработка принципов создания информационно-поисковой Интернет-системы в области наук о Земле Рябинков Артем Иванович

Анализ Интернет-источников информации в области геоинформационных технологий

Разработка методики пополнения коллекции веб-документами с неизвестных Интернет-ресурсов

Разработка процедуры включения ресурсов в каталог и нормативов для модератора каталога

Интегрированный поисковый интерфейс системы

Похожие диссертации на Разработка принципов создания информационно-поисковой Интернет-системы в области наук о Земле