Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Методы повышения эффективности определения показателей цитируемости электронных документов в информационно-поисковых системах Суриков Анатолий Георгиевич

Методы повышения эффективности определения показателей цитируемости электронных документов в информационно-поисковых системах
<
Методы повышения эффективности определения показателей цитируемости электронных документов в информационно-поисковых системах Методы повышения эффективности определения показателей цитируемости электронных документов в информационно-поисковых системах Методы повышения эффективности определения показателей цитируемости электронных документов в информационно-поисковых системах Методы повышения эффективности определения показателей цитируемости электронных документов в информационно-поисковых системах Методы повышения эффективности определения показателей цитируемости электронных документов в информационно-поисковых системах
>

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Суриков Анатолий Георгиевич. Методы повышения эффективности определения показателей цитируемости электронных документов в информационно-поисковых системах : диссертация ... кандидата технических наук : 05.13.17 / Суриков Анатолий Георгиевич; [Место защиты: Моск. гос. ун-т печати]. - Москва, 2008. - 104 с. : ил. РГБ ОД, 61:08-5/1023

Введение к работе

Актуальность темы. В связи с высокими темпами роста объемов представленной в цифровом виде информации, а также с популяризацией глобальных компьютерных сетей и ростом числа их пользователей, задача развития средств информационного поиска и информационно-поисковых систем (ИПС) приобретает сегодня особую актуальность

Одним из последних важнейших достижений в области развития ИПС являются методы определения показателей цитируемости электронных документов (далее - документов) Эти методы позволяют существенно улучшить качество ранжирования в результатах выдачи ИПС по релевантности, являются эффективным способом борьбы с информационно-поисковым текстовым спамом, а также играют важную роль в оптимизации работы ИПС

Впервые идея расчета показателя цитируемости и учета этого показателя при вычислении значений релевантности (смыслового соответствия) в ИПС была опубликована в работах Брина и Пейджа в 1998 г Разработанный ими алгоритм PageRank реализован в ИПС Google В течение последующих нескольких лет появилось множество модификаций этого алгоритма

Существуют также альтернативные методы и алгоритмы вычисления показателей цитируемости В их основе лежит общая идея расчет численного показателя цитируемости данного документа среди множества других документов выборки Единственным источником информации о цитируемости для всех разработанных на сегодня методов являются гиперссылки (формализованные ссылки в тексте одного документа, указывающие на другой документ и содержащие адрес его местонахождения)

Однако практика использования разработанных на основе таких методов алгоритмов выявила ряд их недостатков Во-первых, как было сказано выше, при определении показателей цитируемости учитываются

только гиперссылки, а это лишь часть от общего числа ссылок и цитат Во-вторых, они слабо защищены от попыток искусственной «накрутки» результирующего показателя, и на смену текстовому «спаму» пришел «спам» ссылочный - документы со специально проставленными гиперссылками с авторитетных ресурсов, не содержащие полезной информации в контексте поискового запроса И, наконец, в-третьих, все популярные реализации расчета показателей цитируемое документов довольно ресурсоемки

В связи с этим, задачу повышения эффективности методов определения показателей цитируемости документов нужно признать актуальной

Состояние проблемы. При исследовании, разработке и развитии методов и алгоритмов расчета показателей цитируемости документов охватывается широкий круг проблем, связных с оценкой эффективности, оптимизацией вычислительной сложности, информационным поиском и др Здесь следует отметить значительный вклад отечественных и зарубежных ученых И С Некрестьянов, И В Сегалович, Э Э Гасанов, В Б Кудрявцев, MB Ульянов, С Ильинский, М Кузьмин, А Мелков, ИЕ Кураленок, S Bnn, L Page, U Manber, A Z Broder, К Bharat, MR. Henanger, JM Klemberg, M S Manasse, S С Glassman, J Davis, H Garcia-Molma, N Shtvakumar

Существующие публикации по тематике ссылочного ранжирования и цитируемости в информационном поиске посвящены учету факторов «тематичности» и «доверительности», а также усовершенствованию классического алгоритма PageRank с точки зрения его вычислительной эффективности и устойчивости к искусственным «накруткам» результирующих показателей Здесь следует отметить работы Е А Трофименко «Оптимизация расчета ссылочной популярности и учета ее при ранжировании результатов поиска», L Page, S Bnn «The PageRank citation Ranking Bringing Order to the Web», С Junghoo, RSourashis «Impact of search engines on page popularity», JM Klemberg «Authontative sources in a hyperlmked environment»

В существующих работах по исследованию задачи повышения эффективности определения показателей цитируемости документов не учтены факторы неформального или «неявного» цитирования К ним относятся гиперссылки с нарушением форматирования, ссылки в неформальной форме или цитаты вообще без ссылок, которые могут стать полезным источником информации для расчета показателей цитируемости документов

Объект исследования. Объектом исследования диссертационной работы являются методы и алгоритмы определения показателей цитируемости электронных документов

Цель работы. Целью работы является повышение эффективности алгоритмического и программного обеспечения для определения показателей цитируемости документов и учета фактора «неявного» цитирования

Основные задачи исследования. Достижение поставленной цели предполагает решение следующих основных задач

анализ существующих методов и алгоритмов определения показателей цитируемости документов,

определение основных недостатков существующих методов, поиск путей по их устранению,

разработка метода определения и учета фактора «неявного» цитирования,

разработка метода определения порождающего документа в группе нечетких копий документов,

разработка эффективного метода для определения результирующего показателя цитируемости документов,

экспериментальное исследование предложенного метода для проверки его эффективности

Научная новизна:

  1. Предложен эффективный метод поиска неявных цитат в больших массивах документов (с оценкой 0(п))

  2. Разработаны критерии и предложен метод оценки документов в группе нечетких копий для определения порождающего документа.

  3. Предложен метод вычисления показателя «неявной» цитируемости

  4. Предложен метод определения показателей цитируемости, основанный на методе Кляйнберга и учитывающий показатель «неявной» цитируемости

Практическая ценность результатов работы На основе предложенного метода разработано программное обеспечение для определения показателя цитируемости с учетом фактора «неявной» цитируемости Разработанное программное обеспечение может быть использовано в системах информационного поиска, а также в системах рубрикации и в каталогах электронных документов с целью повышения эффективности ранжирования документов в выдаче Также данное программное обеспечение может быть использовано с целью подавления информационно-поискового спама в выдаче ИПС, так как его важной особенностью является высокая устойчивость определяемых показателей цитируемости к попыткам искусственного влияния извне Разработанное программное обеспечение было внедрено в эксплуатацию ОАО «Сервис+»

Основные результаты, выносимые на защиту:

Метод вычисления показателя «неявной» цитируемости

Метод определения порождающего документа в группе нечетких копий документов

Усовершенствованный метод определения показателя цитируемости документов

Алгоритм повышения эффективности вычисления показателя цитируемости с использованием оригинального метода учета фактора «неявного» цитирования

Апробация работы Основные результаты диссертации были представлены на X Международной научно-практической конференции «Фундаментальные и прикладные проблемы приборостроения, информатики и экономики» (Москва, 2007 г) и на семинаре «Задачи системного анализа, управления и обработки информации» (Москва, 2006 г)

Публикации. Основные результаты по теме диссертации опубликованы в 7 работах, из них 1 - в издании, включенном в перечень ВАК Во всех работах, выполненных в соавторстве с научным руководителем, последнему принадлежит постановка задачи и общее руководство

Структура и объем работы Диссертационная работа состоит из введения, четырех глав, заключения и списка литературы, включающего 94 наименования Материал изложен на 104 страницах машинописного текста, включая 5 таблиц и 9 рисунков

Похожие диссертации на Методы повышения эффективности определения показателей цитируемости электронных документов в информационно-поисковых системах