Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Методы информационного поиска тематических сообществ в Веб-пространстве Блеканов, Иван Станиславович

Методы информационного поиска тематических сообществ в Веб-пространстве
<
Методы информационного поиска тематических сообществ в Веб-пространстве Методы информационного поиска тематических сообществ в Веб-пространстве Методы информационного поиска тематических сообществ в Веб-пространстве Методы информационного поиска тематических сообществ в Веб-пространстве Методы информационного поиска тематических сообществ в Веб-пространстве
>

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Блеканов, Иван Станиславович. Методы информационного поиска тематических сообществ в Веб-пространстве : диссертация ... кандидата технических наук : 05.13.01 / Блеканов Иван Станиславович; [Место защиты: С.-Петерб. гос. ун-т].- Санкт-Петербург, 2011.- 122 с.: ил. РГБ ОД, 61 11-5/2452

Введение к работе

Актуальность темы. В течение последнего десятилетия наблюдается экспоненциальный рост числа источников информации в информационном Веб-пространстве. Только в открытой (индексированной) части Веб-пространства на сегодняшний день насчитывается более 20 миллиардов документов и более 200 миллионов Веб-сайтов, не говоря уже о скрытой (неиндексированной) части, в которой эти показатели больше в несколько раз. Для эффективной работы с таким объемом информации требуются современные инструменты и технологии, роль которых играют различные средства информационного поиска.

Наиболее распространенные современные системы поиска информации в Веб-пространстве (Google, Яндекс, Рамблер) имеют ряд проблем. Во-первых, это недостаточная актуальность информации1. Она возникает из-за того, что эти системы выполняют два вида работ: модификация индекса и поиск информации по запросам пользователей в индексе. Модификация индекса занимает большое количество времени (от дней до нескольких месяцев), что существенным образом снижает актуальность источников информации в Веб-пространстве. Во-вторых, ранжирование результатов поиска, существующих систем, основано на авторитетности документов в индексе и формальной близости документов к запросу пользователя. Отсутствие поиска по ссылкам в глубину часто приводит к ошибкам ранжирования.

Кроме того, как известно, методы полнотекстового поиска, ранжирования и классификации, используемые существующими информационно-поисковыми системами, также требуют улучшения.

Цели и задачи работы. Цель данной работы заключается в разработке и реализации новой стратегии информационного поиска, позволяющей значительно повысить актуальность найденных информационных источников и улучшить их ранжированность. Поставленная цель определяет следующие задачи исследования:

системный анализ архитектурных особенностей поисковых роботов и систематизация набора критериев эффективности, которые могут применяться для реализации любых типов поисковых роботов;

выявление и описание общего, универсального ядра Веб-краулера (тип поискового робота, основанного на классическом обходе Веб-пространства) ;

1 Актуальность (свежесть) информации - это доля соответствия контента информационных источников, находящихся в индексе поисковой системы, контенту их подлинников из Веб-пространства в момент времени t.

исследование классического алгоритма ранжирования Клейнберга

HITS и реализация его модификации для информационного поиска

тематических сообществ;

исследование алгоритма взвешивания текста документов TF-IDF и

реализация его модификации для информационного поиска

тематических сообществ;

построение и тестирование программного комплекса на основе

поискового робота с универсальным ядром и модифицированного

алгоритма Клейнберга HITS;

построение и тестирование программного комплекса на основе

поискового робота с универсальным ядром и модифицированного

алгоритма взвешивания текста TF-IDF;

создание нового алгоритма информационного поиска тематических

сообществ, учитывающего информацию о тексте и гиперссылочной

структуре;

построение и тестирование программного комплекса на основе

поискового робота с универсальным ядром и совместного

использования модифицированных алгоритмов TF-IDF и HITS;

создание тестовых коллекций документов для исследования

качества поиска тематических сообществ;

получение экспериментального подтверждения практической

применимости разработанного программного комплекса;

оценка качества метода поиска тематических сообществ,

основанного на совместном использовании модифицированных

алгоритмов TF-IDF и HITS, в сравнении с методами, использующие

те же самые методы по отдельности;

сравнение с существующими реализациями поисковых роботов,

выполняющими поиск в Веб-пространстве.

Методы исследования. Для решения задач, рассматриваемых в диссертационной работе, использовались математические методы теории вероятности и высшей алгебры. А для создания программного комплекса также методы технологии программирования. Для эксперимента использовались известные показатели по оценки качества в информационном поиске, а также создавались тестовые коллекции документов по запросам.

Научная новизна. Научная новизна работы заключается в следующем: 1. Создан метод поиска - направленный поиск тематических сообществ в Веб-пространстве, основанный на модификации классического алгоритма Клейнберга HITS, использующего информацию о гиперссылочной структуре найденных документов.

  1. Создан метод поиска - направленный поиск тематических сообществ в Веб-пространстве, основанный на совместном использовании модификаций алгоритмов HITS и TF-IDF, учитывающем как информацию о тексте, так и информацию о гиперссылочной структуре документов.

  2. Выдвинута идея универсального ядра поискового робота, на базе которой строится любая модель тематического робота, и разработана его структура.

  3. Разработан комплекс программ, реализующий предложенные методы поиска тематических сообществ.

Практическая ценность. Созданный на основе универсального ядра программный комплекс может использоваться в разных режимах, как для различных вариантов тематического поиска, так и для различных вариантов классического. Разработанные методы и алгоритмы могут использоваться в различных информационно-поисковых системах для уточнения результатов поиска и улучшения алгоритмов ранжирования.

Реализация и внедрение результатов работы. Отдельные элементы созданного программного комплекса, предложенные алгоритмы, а также полученные результаты использованы компанией ООО "Клауд Инструменте" в коммерческих продуктах.

Достоверность и обоснованность полученных результатов обеспечиваются общепринятыми показателями, оценивающими качество информационного поиска, значения которых были получены в ходе экспериментов на созданных тестовых коллекциях по запросам, выбранным случайным образом. Программный комплекс прошел отладку и тестирование на созданных тестовых коллекциях.

Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались

на Всероссийской Научной Конференции по электронным

библиотекам RCDL - г. Суздаль (Россия), 2006 г.;

на семинаре в компании IPM (Informed Portfolio Management) - г.

Стокгольм (Швеция), ноябрь, 2010 г.;

на семинарах в компании ООО «Клауд Инструменте» - г. Санкт-Петербург (Россия), 2010, 2011 г.;

неоднократно на заседаниях и семинарах кафедры технологии

программирования (ПМ-ПУ, СПбГУ 2009-2011);

на научном семинаре по информационному поиску IR workshop на

факультете ПМ-ПУ СПбГУ (2010 г.);

на семинаре в Карельском Научном Центре Российской Академии

Наук - г. Петрозаводск (Россия), 2011 г.

Личный вклад автора. Все результаты диссертационного исследования получены автором лично.

Публикации. По материалам диссертации опубликованы 3 работы, 2 из которых в изданиях, входящих в перечень ВАК рецензируемых научных журналов. Список работ приведен в конце автореферата.

Структура и объем диссертации. Диссертационная работа изложена на 122 страницах машинописного текста и состоит из введения, шести глав и списка литературы, включающего 65 наименований. Работа содержит 23 рисунка и 11 таблиц.

Похожие диссертации на Методы информационного поиска тематических сообществ в Веб-пространстве