Методы информационного поиска и ранжирования документов в компьютерных сетях Горбунов Андрей Леонидович

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Горбунов Андрей Леонидович. Методы информационного поиска и ранжирования документов в компьютерных сетях : Дис. ... канд. техн. наук : 05.13.13 : М., 2005 73 c. РГБ ОД, 61:05-5/3623

Содержание к диссертации

Введение

1 Особенности совершенствования теоретической базы компьютерных сетей посредством развития методов информационного поиска (ИП) 8

1.1 Место методов ИП в современных компьютерных сетях и проблема показателей качества ИП 8

1.2 Анализ методов ИП 10

1.2.1 Поисковые системы 10

1.2.2 Кластерный анализ 14

1.3 Основные направления исследований 17

1.4 Заключение по главе 1 18

2 Методы повышения качества ИП посредством ранжирования веб-документов с использованием дополнительной информации о предпочтениях пользователей 20

2.1 Особенности организации поиска информации с учётом сведений о предпочтениях пользователей 20

2.2 Применение метода векторного пространства при поиске информации 20

2.3 Совершенствование алгоритмов поиска информации с учётом сведений о предпочтениях пользователя 22

2.4 Пример применения усовершенствованного поискового алгоритма с учётом предпочтений пользователя 30

2.5 Апробация разработанного метода 33

2.6 Заключение по главе 2 34

3 Методы повышения качества информационного поиска путём ранжирования результатов поиска с использованием статистики переходов при поиске по данному запросу 36

3.1 Особенности использования статистики переходов при организации поиска информации 36

3.2 Разработка процедуры ранжирования результатов поиска с учётом статистики переходов 37

3.3 Совершенствование процедуры ранжирования результатов поиска с учётом статистики переходов 39

3.4 Апробация предлагаемого метода 41

3.5 Заключение по главе 3 42

4 Ранжирование веб-страниц и сайтов по критериям привлекательности для пользователей 43

4.1 Особенности использования веб-сайтов предприятий при организации рекламных кампаний 43

4.2 Методы математического анализа эффективности организации и использования веб-сайтов компний 44

4.3 Выбор математического аппарата и проверка корректности его применения 46

4.4 Разработка модели ранжирования страниц одного сайта (модель 1) 48

4.5 Разработка модели ранжирования сайтов (модель 2) 51

4.6 Апробация предлагаемых моделей 52

4.7 Заключение по главе 4 53

5 Ранжирование источников новостей в Интернете по степени информативности 55

5.1 Особенности работы с источниками новостей 55

5.2 Методы категоризации и классификации новостных источников 56

5.3 Разработка процедур обработки новостей с использованием аппарата дисперсионного анализа 58

5.3.1 Ранжирование с помощью статистических оценок а, Д уи S 60

5.3.2 Ранжирование с помощью дисперсионных отношений 62

5.3.3 Ранжирование с учётом востребованности новостных источников 62

5.4 Апробация предлагаемых меотдов 63

5.5 Заключение по главе 5 65

Заключение 67

Список литературы 68

Приложение. Применяемая терминология и сокращения 73

Место методов ИП в современных компьютерных сетях и проблема показателей качества ИП
Применение метода векторного пространства при поиске информации
Разработка процедуры ранжирования результатов поиска с учётом статистики переходов
Методы математического анализа эффективности организации и использования веб-сайтов компний

Введение к работе

Анализ публикаций последних лет в наиболее авторитетной мировой научной периодике по профилю информационных технологий [58] показывает, что доминирующим направлением в этой сфере на сегодня является Information Retrieval (информационный поиск, ИП) - комплекс научных дисциплин, связанных с построением механизмов поиска информации в больших массивах цифровых данных и с выявлением закономерностей, позволяющих их структурировать. Именно с этим направлением в настоящее время в первую очередь связывается совершенствование телекоммуникационных систем и компьютерных сетей в ракурсе разработки научных основ архитектурных и структурных принципов их создания.

Термин «информационный поиск» (Information Retrieval) введён в научный оборот Моирсом (Calvin Moeers) в 1951 году [66]. Исследования в этой области эволюционировали от разработок, сфокусированных на технических аспектах в 50/60-х годах прошлого столетия (информационно-поисковая система с автоматическим индексированием, впервые разработанная в нашей стране под руководством B.C. Чернявского и Д.Г. Лахути), через интенсивно развиваемые в 70/80-е годы методы, связанные с ориентированными на пользователя интерфейсами поиска к специализированным поисковым инструментам, получившим мощное развитие в связи с появлением всемирной сети в 90-е годы.

Тематика ИП широко освещается в научной литературе. В работах Д. Аветисяна и Р. Аветисяна описываются энтропийная модель на основе статистической теории связи Шенона и корреляционная модель документарного поиска. Заметный вклад в развитие методов ИП внесли своими работами Пархоменко В.Ф., Дюк В.А., Бухштаб Ю.А., Некрестьянов И.С. Одним из основоположников ИП является Д. Сэлтон (G. Salton) -создатель модели векторного пространства, относящейся к числу базовых моделей построения поисковых процедур. Схемы взвешивания при сравнении векторов запроса и документа исследуются в трудах С. Думайса (S. Dumais). Хорошо известны работы Ф. Гея (F. Gey), посвященные поиску с использованием модели логической регрессии, а также исследования Р. Фанга (R. Fung) по байесовским моделям ИП. Доминирующий в настоящее время подход к организации процедуры установления соответствия запроса и документа (метод индекса цитирования) отражен в работах С. Брина (S. Brin) и Л. Пэйджа (L. Page).

Укрепляющийся интерес современных исследователей к данной тематике очевидно обусловлен информационной глобализацией, в сфере компьютерных сетей наиболее выпукло представленной феноменом Интернета. Появление огромных и общедоступных хранилищ информации с постоянным и быстрым обновлением отличающихся сильной неоднородностью данных (база данных лидера поисковой индустрии содержит информацию о более чем 8,5 миллиардов документов) вывело на первый план сложную комплексную задачу разработки методов, обеспечивающих быстрый и качественный поиск в таких хранилищах, их эффективное автоматическое пополнение, определение связей между хранимыми документами, структурирование содержимого хранилищ. Тенденция лавинообразного роста информационной насыщенности сделала подсистемы ИП не только неотъемлемым, но и наиболее важным элементом архитектуры компьютерных сетей.

Во многих случаях центральным звеном процедур ИП является ранжирование документов (веб-страницы и сайты в случае Интернета). Показательный пример - ранжирование результатов работы систем поиска информации (поисковая система, ПС) в Интернете,

Стр. 5(73)

когда найденные документы ранжируются по степени соответствия запросу (релевантности). Без эффективного ранжирования результаты поиска теряют смысл, так как могут включать в себя ссылки на десятки и сотни тысяч документов. В целом ранжирование в Интернете носит характер всеобщего проблемного императива, поскольку обилие неупорядоченной онлайновой информации создаёт ситуацию оценки и выбора в любом аспекте использования Интернета. При этом основными проблемами развития научных основ архитектурных принципов компьютерных сетей в ракурсе ИП являются недостаточная теоретическая проработка применяемых на практике подходов, сравнительно невысокий уровень использования развитых математических механизмов, отставание теоретических разработок от быстро меняющихся поисковых потребностей пользователей компьютерных сетей.

Целью настоящей диссертации является совершенствование теоретической базы компьютерных сетей на основе технологий информационного поиска. Поставленная цель предполагает решение следующих задач:

исследование методов и средств поиска информации в компьютерной сети Интернет;

разработка методов учета предпочтений пользователей при осуществлении поиска (поисковая персонализация);

совершенствование методов учета статистики переходов и поискового поведения пользователей в ходе поисковых сессий;

формирование новых критериев ранжирования документов Интернета, комплексно учитывающих стохастическую природу посещения веб-сайтов;

улучшение процедур поиска новостной информации в Интернете.

В диссертации осуществляется теоретический анализ и экспериментальное исследование функционирования телекоммуникационных систем и компьютерных сетей для специальных приложений - ПС. Разрабатываются научные подходы, методы и алгоритмы для ПС. ПС, будучи объектами седьмого (прикладного) уровня эталонной модели OSI ISO, в случае Интернета с характерным для этой среды мощным поисковым трафиком, оказывают значительное влияние на архитектуру объектов уровней 2-6 (канальный, сетевой, транспортный, сеансовый, представительный): разрабатываемые в диссертации методы снижают объём поискового трафика и, тем самым, высвобождают ресурсы уровней 2-6 для полезной нагрузки.

На защиту выносятся представленные в диссертации:

метод персонализированного ИП с ранжированием результатов поиска через функцию релевантности в виде целевой функции задачи линейного программирования;

метод персонализированного ИП через ранжирование результатов поиска с учётом статистики переходов по ссылкам на найденные документы и поведения пользователя ПС;

метод ранжирования веб-страниц по критериям посещаемости и доступности для посетителей, построенным на базе полумарковской модели изменения состояния системы пользователь-сайт;

метод ранжирования сайтов по критерию общей эффективности, построенной на базе марковской модели, отображающей траекторию перемещения посетителя сайта по его структуре;

метод ранжирования новостных источников в Интернете по критерию информативности, основанный на модели, построенной с применением элементов дисперсионного анализа.

Стр. 6(73)

Научная новизна диссертации заключается в том, что в ней впервые

предложена новая процедура определения релевантности для результатов поисковых сессий в Интернете в виде решения задачи линейного математического программирования, применяемая в целях персонализированного ранжирования результатов поиска информации;

построен оригинальный критерий релевантности для результатов информационного поиска в Интернете с учётом статистики переходов по ссылкам на найденные документы и поведения пользователя ПС в течение поисковой сессии;

предложены базирующиеся на полумарковской модели новые показатели посещаемости сайтов, комплексно учитывающие стохастический характер процесса посещения;

разработана оригинальная модель поведения пользователя во время работы с сайтом в терминах «погружения» в структуру сайта;

разработана модель обработки онлайновой новостной информации на базе схемы дисперсионного анализа;

построен оригинальный критерий категоризации новостных источников с учётом их рыночной востребованности.

Апробация полученных результатов. Основные положения диссертационный работы
докладывались и обсуждались на кафедрах «Вычислительные машины, комплексы и
сети» и «Радиотехнические устройства» Московского государственного Технического
Университета ГА, «Вычислительная техника» Московского Государственного Института
Электроники и Математики, на международной конференции «Российский Интернет
Форум 2002». По теме диссертации опубликовано 6 печатных работ.
Описываемые в диссертации методы ранжирования разработаны и апробированы автором
в период работы в проекте Рубрикой (). Рубрикой - крупнейший в мире
энциклопедический Интернет-ресурс: более 590 тыс. полнотекстовых энциклопедических
статей, более 86 тыс. карт и иллюстраций, 81 наименование энциклопедий, справочников
и книг, включая 30 томов главной на сегодня российской национальной энциклопедии
БСЭ. Компания Microsoft включила встроенную функцию прямого поиска по Рубрикону в
свой наиболее массовый продукт, присутствующий практически на каждом компьютере в
России - пакет MS-Office 2003 (). Инфраструктура контент-продаж Рубрикона используется
старейшей и самой известной в мире энциклопедией на английском языке -
энциклопедией «Британика» - для организации доступа российских подписчиков к своим
онлайновым ресурсам. Рубрикой имеет совместные проекты с лидирующей российской
ПС Яндекс («Яндекс-Энциклопедии» ). Таким образом, проект
Рубрикой является наиболее представительной в современных условиях средой для
развития и проверки разработанных методик.

Исследования базируются на использовании математических аппаратов:

линейного математического программирования;

теории марковских процессов;

статистического дисперсионного анализа.

Практическая ценность работы состоит в разработке технологий, позволяющих

построить специализированный поисковый сервис, обеспечивающий
персонализацию информационного поиска в Интернете;

Стр. 7(73)

увеличить эффективность использования веб-страниц и сайтов как рыночного инструментария;

снизить затраты организаций, использующих Интернет в целях конкурентной разведки.

Диссертация состоит из введения, пяти глав, заключения, списка литературы и приложения.

В первой главе обсуждается место ИП в современных компьютерных сетях; раскрываются основные понятия ИП. Описываются проблематика конструирования ПС, общая методология кластерного анализа. Формулируются главные направления исследований.

Во второй главе разрабатывается основанный на аппарате линейного математического программирования метод определения релевантности веб-документов в ПС с учётом предпочтений искателя информации, названный «методом консенсуса призраков» (МКП) и используемый для ранжирования результатов поиска. Анализируется литература по теме, раскрывается разработанный механизм МКП, приводится пример реализации.

В третьей главе разрабатывается оригинальный метод ранжирования результатов работы ПС с использованием статистики переходов по ссылкам на найденные документы. Метод сравнительно прост и малозатратен в реализации, при этом обеспечивает значительное повышение качества поиска информации в Интернете при комплексном применении в сочетании с ныне практикуемыми подходами.

В четвёртой главе разрабатывается методика ранжирования веб-страниц и сайтов по по различным критериям. Предложенные марковские модели делают возможным комплексный вероятностный анализ процесса посещаемости с наиболее полным отражением его стохастической специфики. Анализ осуществляется с целью совершенствования структуры и навигации сайта, оценивания его эффективности. Полученные результаты имеют значительную коммерческую ценность, поскольку позволяют минимизировать затраты на построение оптимальных рекламных стратегий, а также создавать принципиально новые рекламные инструменты с интеллектуальным управлением.

В пятой главе разрабатывается метод ранжирования онлайновых новостных источников, связанный с тематикой автоматической категоризации. Ранжирование источников новостей по степени их информативности в отношении различных тем обеспечивает экономию дорогостоящих временных и людских ресурсов маркетинговых и PR подразделений компаний. Иные виды ранжирования, которые возможны в рамках предлагаемого подхода, позволяют реализовать новые модели аналитических сервисов. Процедура обработки новостной информации описывается в терминах аппарата дисперсионного анализа. Рассматривается ранжирование на базе статистических оценок параметров предложенной модели, с помощью дисперсионных отношений и с учётом востребованности новостных источников.

Приложение содержит список используемых терминов и сокращений.

Стр. 8(73)

Место методов ИП в современных компьютерных сетях и проблема показателей качества ИП

В третьей главе разрабатывается оригинальный метод ранжирования результатов работы ПС с использованием статистики переходов по ссылкам на найденные документы. Метод сравнительно прост и малозатратен в реализации, при этом обеспечивает значительное повышение качества поиска информации в Интернете при комплексном применении в сочетании с ныне практикуемыми подходами.

Термин «информационный поиск» (information retrieval) введён в научный оборот Моирсом (Calvin Moeers) в 1951 году [66]. Исследования в этой области эволюционировали от разработок, сфокусированных на технических аспектах в 50-х и 60-х годах прошлого столетия (информационно-поисковая система с автоматическим индексированием, впервые разработанная в нашей стране под руководством B.C. Чернявского и Д.Г. Лахути), через интенсивно развиваемые в 70/80-е годы методы, связанные с ориентированными на пользователя интерфейсами поиска к специализированным поисковым инструментам, получившим мощное развитие в связи с появлением всемирной сети в 90-е годы.

Информационная сверхнасыщенность современных больших компьютерных сетей (Интернет, крупные корпоративные информационные системы класса ERP) делает их компоненты, связанные с поиском информации, самыми важными частями таких структур. Это касается всех уровней, от пользовательского компьютера (что хорошо иллюстрируется заявлением корпорации Microsoft о том, что поисковые и классификационные механизмы станут ключевым элементом следующей версии операционной системы Windows Longhorn, появление которой ожидается в 2005 г.), до технических комплексов, обеспечивающих решение задач поиска информации на глобальном уровне (запуск той же корпорацией поисковой системы MSN в феврале 2005 г.). Особенно заметна данная тенденция в Интернете, где лавинообразно растущий поток данных делает решение поисковых задач самостоятельной проблемой областью. От эффективности поисковых подсистем в составе крупных компьютерных сетей в первую очередь зависит способность таких систем к достижению любых других целей. Таким образом разработка поисковых и связанных с ними технологий, составляющая содержание настоящей диссертации, лежит в русле наиболее актуальных сегодня направлений работ по совершенствованию телекоммуникационных систем и компьютерных сетей. При этом зачастую представляет определенную сложность задача оценки эффективности технологий ИП. Общепринятые [23, 24] в сфере ИП показатели полноты поиска (отношение числа релевантных документов в наборе результатов поиска к общему числу релевантных документов) и точности (отношение числа релевантных документов в наборе результатов поиска к общему числу найденных документов) поиска страдают субъективностью, поскольку само понятие «релевантный» документ не является строгим и зависит от точки зрения эксперта, определяющего степень релевантности, а кроме того применимы только в специально смоделированных тестовых ситуациях. Поэтому в данной диссертации для количественной оценки эффективности разрабатываемых технологий поиска и ранжирования документов используются объективные показатели повышения эффективности универсальных, присутствующих в любых сферах процедур информационной деятельности, связанной с Интернет-маркетингом при их осуществлении с применением разрабатываемых методов. Такой подход совпадает также с общим трендом коммерциализации, характерным для Интернета в последние годы. Современный маркетинг в качестве одной из наиболее важных составляющих включает в себя работу в информационном пространстве Интернета: при анализе рынка это сбор в Интернете данных о потребителях услуг и конкурентах; при осуществлении маркетинговых стратегий это распространение через Интернет информации о своих услугах (реклама, промо-акции) и их продажа.

Применение метода векторного пространства при поиске информации

Одним из наиболее эффективных математических инструментов, применяемых для построения процедур обработки запросов в ПС, является модель векторного пространства [24, 60, 62]. В рамках этой модели каждому документу и каждому запросу ставятся в соответствие векторы D и Z, координатами которых являются взвешенные частоты к1 І вхождений термина (для документов) и индикаторы присутствия терминов ТІ (для запросов). Эти векторы нормализуются. Поиск релевантных документов при этом сводится к вычислению расстояния между векторами: как правило, в качестве меры расстояния берётся косинус угла а между п-мерными векторами запросаz=(kia k2Z... knz) и документа d=(kia, кгФ» к„а), координатами которых служат частоты ,г и kid, с которыми поисковые термины і встречаются в соответственно в запросе или документе:

Термины редко повторяются в запросах, поэтому на практике частоты kiZ обычно представляют собой индикаторы присутствия термина в запросе, принимающие значения О или 1). где k ij - взвешенные и нормализованные по столбцам частоты появления термина і в документе j для критерия типа /. Схемы взвешивания могут быть разные - просто относительно документа, относительно всей коллекции документов, комбинированные, пороговые, логарифмические и т. п. [36, 61]. Выбор схемы взвешивания в основном определяется характером базы данных. Здесь и далее под к1 понимается простейший случай - взвешенная относительно числа терминов частота появления термина в документе. Полнота (отношение релевантных документов в результате поиска к общему числу релевантных документов) и точность (отношение релевантных документов в результате поиска к общему числу найденных документов) [23] поиска в ПС, основанной на МВП, зависит в основном от формулировки запроса - чем специфичнее запрос, тем выше точность и ниже полнота и наоборот. Проще обеспечить полноту - надо запрашивать термины самого общего характера. Сортировка результатов осуществляется только по взвешенной частоте вхождений терминов. Применение МВП в "чистом виде" для баз данных Интернет- документов не обеспечивает высокого качества поиска. Среди проблем использования МВП можно упомянуть: A) погрешность метода, которая обусловлена естественной разницей языковой практики и культурного опыта искателя и авторов; B) сложность обнаружения наиболее релевантных документов в наборе результатов с высоким показателем полноты: такой набор может включать очень большое количество документов; ложную повышенную релевантность - большие значения для косинусов углов между векторами d и z для документов малого объёма содержащих не все термины из запроса. В современных ПС подобные проблемы как правило решаются организацией поисковой процедуры в два этапа: I. первичное формирование массива результатов поиска с помощью МВП или других моделей общего характера (например, логическая регрессия [40], байесовская модель [39]. Широкий обзор данной темы можно найти в [22, 23, 27,49,51,63]; П. задействование для сортировки первичного массива результатов поиска алгоритмов типа "цифровой демократии" [28] с присущими им отмеченными выше серьёзными недостатками, от которых свободен разрабатываемый здесь метод консенсуса призраков (МКП) [41]. МЮІ, как и многие другие поисковые алгоритмы, основан на использовании дополнительной информации, содержащейся в веб-документе, новизна МКП заключается в способе её обработки. К такого рода информации, свидетельствующей о специфике понимания автором темы документа, могут относиться критерии: к1 — частота вхождений искомого термина в документ; к2 - цитируемость (количество ссылок на данный документ из других документов); к3 - наличие искомых терминов в наборе ключевых слов документа; (2.2) к4 - наличие искомых терминов в заголовке документа; к5 — наличие искомых терминов в выделенных зонах документа (выделено жирным шрифтом, цветом и т.п.); к6 — расстояние между искомыми терминми в документе; к7 - оценка равномерности распределения искомых слов по документу - при этом критериев может быть больше, иного характера и т.д. в зависимости от специфики ПС, т.е. специфики документов и характера поисковых запросов. В списке (2.2) упоминаются критерии, наиболее широко применяемые сегодня в практике построения ПС для целей поиска информации в Интернете. Критерии (2.2) должны быть представлены в сопоставимом и нормализованном виде - т.е. быть безразмерными и изменяться в интервале от 0 до 1. Можно утверждать, что множество {1с$ - это отражение автора документа j в пространстве математических абстракций, которое для краткости и удобства интерпретации сути разрабатываемого метода назовём «математическим призраком автора», который является виртуальным «носителем знания» об отношении автора к теме документа.

Идея МКП состоит в создании посредством онлайновой диалоговой процедуры аналогичного «математического призрака» искателя с целью организовать «совещание» призраков автора и искателя. Математически совещание выглядит как решение оптимизационной задачи - ЗЛП. Целью виртуального совещания является выработка совместного мнения (консенсус призраков) о степени соответствия документа запросу, количественно выражаемой значением целевой функции ЗЛП, которая используется как мера релевантности.

Разработка процедуры ранжирования результатов поиска с учётом статистики переходов

Все соображения раздела 2.1 касательно затрат, связанных со сканированием информационного пространства Интернета, справедливы и для данной главы, в которой разрабатывается другой оригинальный подход к определению релевантности результатов поиска в Интернете, позволяющий снизить эти затраты.

Наиболее популярный в настоящее время прием фокусировки отображения R (см. раздел 1.2.1) множества J представлений ищущего информацию о характеристиках документов, содержащих требуемые сведения, во множество свойств всех доступных документов -использование элементов множества L для ранжирования результатов работы ПС. Этот подход реализован в сегодняшнем лидере поисковой индустрии Интернета - системе Google, где он называется PageRank [28].

При всех очевидных достоинствах (принцип использования «внешнего» опыта авторов документов, представленных в Интернете, относительная простота реализации) PageRank характеризуется чрезвычайно высокой степенью усреднения оценки степени соответствия результатов поиска запросу, что особенно снижает качество поиска при запросе уникальной информации, не представленной большим объёмом сайтов и гиперссылок - а это часто встречающаяся ситуация, когда речь идёт о маркетинговых исследованиях компаний. Кроме того, PageRank автоматически «недооценивает» новые документы, которые в силу своей новизны недостаточно известны и, соответственно, не обеспечены гипрессылками с других сайтов, что чревато уводом из зоны внимания искателя недавно появившихся документов, а именно такие документы часто представляют особую ценность при проведении маркетинговых исследований в компаниях.

Поэтому более продуктивным представляется механизм определения релевантности, который при сохранении положительных сторон технологий типа PageRank, обеспечивал бы учёт опыт некоторого подмножества сообщества пользователей Интернета, чьи интересы совпадают с интересами искателя. Для краткости обозначим таких пользователей определением «коллеги». Коллеги искателя - это пользователи, задающие в качестве запросов для ПС те же ключевые слова, что и искатель. Этот подход даёт серьёзные основания предположить эквивалентность культурных потенциалов искателя и коллег, которая обеспечивает адекватность фокусировки R. Реализации данного механизма определения релевантности связаны с различными методами ранжирования результатов поиска при помощи статистики переходов при поиске по данному запросу.

Авторы сайтов, на которые заходит в своих поисках искатель и чьи предпочтения, проявленные в размещении гиперссылок, задействуются в PageRank, также интересуются профильной для искателя тематикой. Однако они не исчерпывают весь объём множества «коллеги», которое многократно превосходит по размеру множество «авторы». Поэтому подход с использованием предпочтений коллег намного более представителен. Однако его практические реализации, появившиеся примерно в одно время с PageRank (1999 г.), пока не отличаются высокой эффективностью. Представляется, что причины сложившейся ситуации заключаются в следующем.

В целом подход с учётом предпочтений коллег осуществляется сравнительно несложно. Предпочтения коллег можно оценить с помощью вероятностей того, что по словам, входящим в запрос искателя, его коллеги выбирают тот или иной документ. Для определения этих величин собирается статистика обращений к документам, ссылки на которые содержатся в результатах поиска (первоначально осуществляемого без всяких новаций). На основе этой статистики определяются частотные оценки вероятностей Р и строится специальная индексная матрица вида пу - количество обращений к документу,/ (f=l,... J, J - общее число документов) при запросах, содержащих термин і (i=l,.../, I - общее число поисковых терминов), Nt - общее количество обращений к документам при запросах, содержащих термин /. Pq являются элементами множества Р, отражающего предпочтения коллег. Тогда фокусировка R с помощью Р заключается в пересортировке результатов поиска в соответствии с величинами Р,у. - по аналогии с PageRank назовём такую процедуру ColleaguesRank.

Однако же прямое применение (3.1) (здесь и далее для простоты рассматриваются запросы из одного слова) незначительно увеличивает качество поиска по сравнению с использованием «традиционных» критериев релевантности. Причина: очевидно, что чаще всего коллеги открывают документы с высоким уровнем «обычной» релевантности - т.е. находящиеся в верхней части списка результатов поиска, поэтому ColleaguesRank даст картину мало отличающуюся от исходной. Отсюда небольшой успех попыток осуществить подобные подходы, среди которых наиболее известны от www.teoma.com. В России ведущая ПС Яндекс реализовала эту меру в отдельной секции "Популярные находки".

Положение с реализациями подходов, основанных на ранжировании результатов поиска при помощи статистики переходов при поиске по данному запросу, можно существенно улучшить, использовав следующее очевидное эмпирическое наблюдение: пользователи ПС, найдя отвечающий их требованиям документ, поиск, как правило, заканчивают. Либо перебрав некоторое количество документов, возвращаются к ссылке на наиболее релевантный документ и открывают его. Часть искателей оставляют на экране окна с открытыми документами, но доля таких невелика, поскольку при этом загромождается экран (кроме того многие ПС не позволяют открывать документы в новом окне - Google, например.)

Учёт данного наблюдения приводит к коррекции Ру: где Мк - количество документов, открытых во время поисковой сессии к, ntjk -порядковый номер открытого документа,/ с начала сессии к, Е{) - оператор статистической оценки математического ожидания. Очевидно, что если документ,/ был открыт последним в течение поисковой сессии к, то mjkfMk-1. Мера Р ,у отражает не только предпочтения коллег внутри множества документов, входящих в список результатов поиска, но плюс к тому ещё и предпочтения внутри подмножества тех документов, которые они просмотрели. Обозначим данную модификацию фокусировочной процедуры как ColleaguesRank 1.

Методы математического анализа эффективности организации и использования веб-сайтов компний

Каждый рабочий день в отделе маркетинга любой крупной компании начинается с анализа новостей - одного из базовых элементов конкурентной разведки. Интерес обычно представляет информация по нескольким темам из нескольких десятков источников (см., например, [55]). Иногда количество источников исчисляется сотнями и большинство из них являются онлайновыми или Интернет-версиями офлайновых СМИ.

Сегодняшний новостной поток чрезвычайно интенсивен, на отбор из этого потока требуемой информации и её анализ уходит масса людских и временных ресурсов - этим обусловлен повышенный спрос на системы автоматической категоризации новостей, которые обычно работают на основе методов кластеризации и нейросетевых технологий. Однако применение этих подходов во многих случаях только усугубляет проблему: кластеризация часто даёт логически необъяснимые результаты, а нейросетевые инструменты плохо работают на массивах неоднородных данных, которые характерны для Интернета.

Поэтому на практике процесс работы с новостями обычно состоит из 2 этапов - этапа автоматического или полуавтоматического отбора новостей (и, возможно, их первичной категоризации с помощью поисковых систем) и этапа просмотра с точной категоризацией новостных материалов «вручную», которая осуществляется экспертами-аналитиками -высокооплачиваемой категорией персонала.

При этом уменьшение доли непроизводительного ручного труда связано не столько с категоризацией самих новостей, которые в любом случае надо просматривать эксперту-аналитику, сколько с категоризацией их источников, т.е. отнесением их к разным категориям информативности, которая в данном контексте эквивалентна полезности для целей конкурентной разведки. Задача категоризации источников остаётся актуальной даже тогда, когда автоматическая категоризация самих новостей работает успешно, так как не исчезает проблема выбора: какие из уже категоризированных документов стоит читать в первую очередь, какие - во вторую и т.д. От ранжирования источников новостей по критерию информативности в основном зависит объём работы работы эксперта-аналитика, так как при наличии такого ранжирования он не тратит своё «дорогое» рабочее время на ознакомление с малоинформативными документами.

В данной главе предлагается метод снижения этого объёма с использованием элементов дисперсионного анализа (Analysis of Variance - ANOVA) - известного аппарата из инструментария математической статистики.

Индикатором уровня спроса на решения, связанные с автоматической категоризацией новостной информации в Интернете, служит появление онлайновых ньюс-сервисов от лидеров ГТ-индустрии — Google и Microsoft («Google News» и «MSN Newsbot» соответственно).

Построенные по схожему принципу (полностью автоматическая категоризация новостей из нескольких тысяч источников в Интернете по ряду базовых разделов плюс текущие горячие темы) они обеспечивают оценки новостных потоков, усреднённые без участия человека, что позволяет надеяться на их беспристрастность и объективность. Microsoft, кроме того, обещает оперативную (в течение 10 минут) настройку на интересы пользователя.

Персонализация новостных сервисов, являясь развитием в очевидно правильном направлении, тем не менее требует при практической реализации известной деликатности, а также имеет ряд проблемных моментов объективного характера. Второе связано с тем, что предпочтения пользователей новостных сервисов часто весьма мобильны, а потому велика погрешность при их автоматическом определении. Первое же хорошо известно по возникновению желания покинуть сайт, где происходит заметное по тем или иным признакам исследование поведения посетителя. В целом полностью автоматическая и при этом эффективная персонализация не реализуема, поскольку наилучшим механизмом персонализации в любом случае является сам пользователь.

Поэтому при совершенствовании процедур категоризации новостной информации представляется разумным и целесообразным сосредоточение внимания не столько на вопросах полностью автоматической персонализации, сколько на инструментах, обеспечивающих комплексную эффективность новостного сервиса. Примером такого подхода может служить автоматическая категоризация онлайновых источников новостей - как дополнение к категоризации новостей как таковых - позволяющая вычленять в их множестве категории по степени информативности освещения тех или иных тем.

В целом интерес исследователей к тематике автоматической категоризации обусловлен с одной стороны актуальностью характерной для эпохи Интернета задачи упорядочивания больших объёмов неоднородных данных, а с другой - высокой стоимостью решения этих задач традиционными, «ручными» методами. В структуре Yahoo работу по категоризации сайтов выполняют более 200 профессиональных редакторов, распределяя веб-ресурсы по иерархии, включающей более 500 тыс. категорий, а американская Национальная Медицинская Библиотека тратит на цели «ручной» индексации журнальных статей более 2 млн. долларов ежегодно.

За последнее десятилетие появилась большее количество публикаций, посвященных вопросам автоматической категоризации и классификации. К числу наиболее разработанных математических инструментов, широко используемых для решения данных задач относятся методы нейронных сетей и в особенности - самоорганизующиеся карты Кохонена [50], метод опорных векторов [35], Байесовские сети, методы кластеризации, которые тесно связанные с классической теорией информационных поисковых систем.

Так, например, в поле традиционных для ИП методов лежит подход, основанный на концепции «мегадокмента», который предлагает Frommholz [38] для решению проблемы текстовой категоризации: все документы некоторой категории объединяются в общий мегадокумент, а категоризируемый документ рассматривается как вектор запроса к коллекции мегадокументов. Лидирующий в списке результатов поиска по этому запросу мегадокумент считается категорией, к которой принадлежит документ-запрос.

Lam, Ruiz и Srinivasan [54] разработали «инверсный» по отношению к ИП метод, когда инструментарий самообучающейся автоматической категоризации с использованием обратной связи применяется для улучшения качества поисковых процедур. Продемонстрировано, что такой подход даёт качество поиска, сравнимое с результатами применения «ручной» категоризации.

Moens и Dumortier [57], сравнив результаты ручной категоризации профессиональными индексаторами блока из 930 новых журнальных статей с результатами присвоения этим статьям тематических дескрипторов с помощью нескольких методов автоматической категоризации сделали вывод об эффективности использования классификатора с применением критерия/2 для его обучения на ограниченных учебных выборках. Критерия X 2 используется для обобщения позитивных и негативных примеров каждой категории с целью выработки весового вектора, который отражает степень связи слов и их комбинаций с категорией.

Методы информационного поиска и ранжирования документов в компьютерных сетях Горбунов Андрей Леонидович

Место методов ИП в современных компьютерных сетях и проблема показателей качества ИП

Применение метода векторного пространства при поиске информации

Разработка процедуры ранжирования результатов поиска с учётом статистики переходов

Методы математического анализа эффективности организации и использования веб-сайтов компний

Похожие диссертации на Методы информационного поиска и ранжирования документов в компьютерных сетях