Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Разработка и исследование нечетких моделей интеллектуального поискового сервиса для сетевых сообществ Интернет Краснощеков, Евгений Евгеньевич

Разработка и исследование нечетких моделей интеллектуального поискового сервиса для сетевых сообществ Интернет
<
Разработка и исследование нечетких моделей интеллектуального поискового сервиса для сетевых сообществ Интернет Разработка и исследование нечетких моделей интеллектуального поискового сервиса для сетевых сообществ Интернет Разработка и исследование нечетких моделей интеллектуального поискового сервиса для сетевых сообществ Интернет Разработка и исследование нечетких моделей интеллектуального поискового сервиса для сетевых сообществ Интернет Разработка и исследование нечетких моделей интеллектуального поискового сервиса для сетевых сообществ Интернет
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Краснощеков, Евгений Евгеньевич. Разработка и исследование нечетких моделей интеллектуального поискового сервиса для сетевых сообществ Интернет : диссертация ... кандидата технических наук : 05.13.17 / Краснощеков Евгений Евгеньевич; [Место защиты: Юж. федер. ун-т].- Таганрог, 2011.- 197 с.: ил. РГБ ОД, 61 11-5/2751

Содержание к диссертации

Введение

ГЛАВА 1. Анализ современных методов и средств поиска информации в интернет

1.1. Особенности существующих механизмов поиска в информационных системах 11

1.2. Влияние процедур поисковой оптимизации сайтов на поисковые сервисы 20

1.3. Анализ средств персонализации поисковых систем 25

1.4. Анализ проблем представления данных и поисковых запросов в информационных системах 30

Выводы по первой главе 46

ГЛАВА 2. Разработка. и исследование моделей представления и использования опыта поиска информации в интернет

2.1 Роль опыта в поиске информации 48

2.2 Модель локального поиска информации

2.2.1 Идентификация экземпляров опыта поиска нечёткими дескрипторами

2.2.2 Оценивание информативности ресурсов рабочей области 69

2.2.3 Особенности реализации локального поиска 83

2.3. Сравнительный анализ поискового сервиса, использующего опыт, с существующими способами поиска 89

2.4.Модель глобального поиска 94

2.5. Анализ особенностей применения комбинированной аналогии при поиске информационных ресурсов 97

Выводы по второй главе 104

ГЛАВА 3. Разработка. моделей визуализации поисковыми сервисами результатов поиска

3.1. Постановка задачи управления визуализацией 106

3.2. Построение и исследование моделей целостности 118

3.3. Анализ алгоритмов реализации оценочных функций 128

3.4. Нахождение границ визуальной области анализа 132

3.5. Преобразования карт и схем обобщающего характера 141

Выводы по третьей главе 152

ГЛАВА 4. Экспериментальное исследование интеллектуального поискового сервиса

4.1. Постановка задачи разработки программного комплекса поискового сервиса 153

4.2. Обзор реализованного интерфейса 155

4.3. Описание технической реализации

4.3.1. Разработанные программные модули 158

4.3.2. Обработка экранных форм 158

4.3.3. Работа с СУБД MySQL средствами языка РНР 161

4.4. Функционирование поискового сервиса 164

4.5.Результаты численных экспериментов 169

Выводы по четвертой главе 175

Заключение 176

Библиографический спсок

Введение к работе

Актуальность темы исследования. Существующие методы поиска информации в сети Интернет и практически реализованные поисковые сервисы не являются средством гарантированного получения результата требуемого качества. Поиск остаётся в значительной степени искусством, базирующемся на знаниях, профессионализме и опыте пользователя. Об этом свидетельствует значительное число научных публикаций, существование непрерывно действующих Интернет-конференций и форумов по поиску информации и организации библиотечных систем, регулярное проведение семинаров поисковыми Интернет-порталами.

В теоретическом отношении информационно-поисковые системы исследуются в течение нескольких десятков лет. Работы Г. Солтона, В. Крафта, К. Бакли, Решетникова В.Н. и многих других учёных развивали различные научные подходы к решению проблемы поиска синхронно с совершенствованием коммуникационных, программных и аппаратных средств информационных систем. Увеличение объёмов оперативной и внешней памяти компьютеров, скорости обработки информации, совершенствование средств работы с базами данных, сетевых технологий обусловили переход от исследования принципов адресного поиска к документальному, фактографическому, семантическому, полнотекстовому и другим, которые используют линейные и векторно-пространственные, детерминированные, нечёткие и вероятностные модели поиска. Современные исследования в области информационного поиска стимулируются развитием Интернет, совершенствованием средств сетевого хранения данных различной природы (тексты, гипертексты, звук, анимация, графика), появлением и расширением социальных сетей в Интернет.

Одним из путей повышения качества поискового сервиса может стать его построение как интеллектуальной системы, использующей опыт поиска членов сетевых сообществ Интернет. Основой создания многих сообществ является обмен опытом в решении прикладных задач реального мира. Социальная сеть в таком случае становится информационной средой, которая структурирует знания о ресурсах внешней сети Интернет и создаёт собственные. Активность социальной сети естественным образом ведёт к необходимости создания собственных средств управления информационными ресурсами.

Как показывает анализ, средства оценки информационной среды Интернет и поиска должны в большей степени обладать интеллектуальным поведением, чтобы решать современные проблемы использования информации глобальной сети. К таким проблемам относятся:

проблема отбора значимых (релевантных) документов. На сегодняшний день поисковыми серверами накоплен значительный общий объём проиндексированных данных о ресурсах Интернет. Результат поиска современных систем на запрос может составлять миллионы документов, просмотр и оценка которых для человека невозможны. Необходимо совершенствовать модели отбора релевантных документов, но существующие методики не дают эффективного результата;

проблема накопления и использования опыта поиска. Особенность данной задачи в том, что современные социальные сети Интернет включают сетевые сооб-

щества, осуществляющие естественным образом накопление и передачу опыта информационного поиска. В отличие от экстенсионального накопления и хранения данных поисковыми роботами (по оценкам экспертов, таким образом проиндексировано около 40% информационного пространства Интернет) сетевые сообщества накапливают информацию интенсиональным образом. При этом средства накопления и использования опыта остаются недостаточно развитыми;

проблема интеллектуальной поддержки процесса решения прикладных задач, требующих поиска информации. Процесс поиска возникает в связи с решением пользователем некоторой прикладной задачи. Учёт некоторых особенностей задач, содержания и смысла документов, относящихся к проблеме потенциально способен повысить качество результата поиска. Современные сервисы обладают недостаточными возможностями целостной поддержки подобных процессов.

Цель и задачи исследования диссертационной работы. Цель работы заключается в разработке и исследовании моделей функционирования интеллектуального поискового сервиса для социальных сетей и сетевых сообществ Интернет.

Для достижения этой цели необходимо решить следующие задачи:

  1. Разработка и исследование моделей интеллектуального процесса решения прикладных задач в диалоге с поисковой системой. Принципиальными отличиями моделей должно стать накопление и анализ опыта поиска, оценка качества найденных и изученных материалов, визуализация информационных структур и связей источников информации.

  2. Разработка и анализ моделей, а также структур хранения и процедур поиска информационных ресурсов по их нечётким описаниям в сетевых сообществах, социальных сетях.

  3. Теоретический анализ вопросов организации поисковых систем, ориентированных на визуальный анализ большого объёма сведений, поддержки процедур манипулирования сложными изображениями и разработки методов визуального представления опыта поиска.

Объектом исследования являются процессы коллективного накопления опыта поиска информационных ресурсов Интернет, его хранения и использования интеллектуальными поисковыми сервисами при выполнении поисковых запросов.

Предметом исследования являются модели описания и использования опыта поиска сетевыми сообществами Интернет, алгоритмы выполнения поисковых процедур при решении прикладных задач, а также модели и алгоритмы визуализации опыта поиска.

Методы исследования опираются на известные методы информационного поиска, теоретические основы разработки баз данных, теоретические методы искусственного интеллекта, методы численной оптимизации, а также методы и средства компьютерной графики.

Достоверность полученных результатов вытекает из их математического обоснования, подтверждается оценками временной сложности, а также результатами программного и численного эксперимента.

Научная новизна работы.

  1. Предложен способ организации информационного поиска в сетевых сообществах, объединяющий средства локального и глобального поиска. Отличительной особенностью предложенного поискового сервиса является накопление и анализ опыта поиска с оценкой качества найденной и изученной информации, что позволяет пользователю повысить качество решения прикладной задачи.

  2. Разработана модель нечёткого описания прецедентов поиска дескрипторами в пространстве концептов онтологии сетевого сообщества, которая отличается от аналогичных моделей предоставлением пользователю оценок экспертов с высоким рейтингом. На основе предложенного формализма синтезированы алгоритмы и определено согласование оценок ресурсов аналитиками, что позволяет повысить качество поисковой выдачи за счёт релевантности результатов.

  3. Предложен метод решения задачи локального поиска на основе интеллектуального поискового сервиса, включающего актуализацию базы данных прецедентов поиска, который отличается от известных методов использованием нечётких категорий. Синтезирован нечёткий алгоритм нахождения наилучших последовательностей актуализации ресурсов, позволяющий получать оптимальное решение задачи локального поиска.

  4. Разработан метод глобального поиска на основе комбинированной аналогии, заключающийся в использовании набора частных показателей аналогии, доступных для оценки средствами поисковой системы. Предложенный метод отличается от известного метода структурной аналогии использованием множества контекстов для оценки сходства пары объектов, что позволяет повысить достоверность определения близких по смыслу ресурсов и увеличить эффективность глобального поиска.

  5. Разработана методика обеспечения целостности визуализации поисковых схем, отличающаяся от известных использованием нечётких оценочных функций для выявления аномалий добавления и удаления объектов на уровне формы, цвета и текстуры, а также топологических отношений объектов поисковых схем. В рамках методики предложен классификационный алгоритм оценки целостности карт и схем поиска, что позволяет избегать аномалий добавления и удаления элементов поисковых карт и схем.

Основные положения, выносимые на защиту.

  1. Способ организации информационного поиска в сетевых сообществах, объединяющий средства локального и глобального поиска.

  2. Модель нечёткого описания прецедентов поиска дескрипторами в пространстве концептов онтологии сетевого сообщества, которая отличается от аналогичных моделей предоставлением пользователю оценок экспертов с высоким рейтингом.

  1. Метод решения задачи локального поиска на основе интеллектуального поискового сервиса, включающего актуализацию базы данных прецедентов поиска, и нечёткий алгоритм нахождения наилучших последовательностей актуализации ресурсов.

  1. Метод глобального поиска на основе комбинированной аналогии, заключающийся в использовании набора частных показателей аналогии, доступных для оценки средствами поисковой системы.

  2. Методика обеспечения целостности визуализации поисковых схем, в рамках которой предложен классификационный алгоритм оценки целостности карт и схем поиска.

Практическая значимость диссертационного исследования заключается в том, что разработаны и внедрены в программной поисковой системе модели, методы и алгоритмы локального и глобального поиска информационных ресурсов на основе использования коллективного опыта поиска информации при создании сложных технических систем и конструкторских разработок.

Внедрение и использование результатов работы. Полученные в диссертационной работе результаты внедрены на ОАО «Таганрогском авиационном научно-техническом комплексе им. Г.М. Бериева» в контрактно-договорном отделе и отделе сетевого планирования работ, а также при выполнении научно-исследовательских работ в Научно-конструкторском бюро цифровой обработки сигналов Южного федерального университета. Результаты внедрения и использования результатов диссертационной работы подтверждаются соответствующими актами.

Апробация работы и публикации. Материалы диссертационной работы апробированы на VII Всесоюзной научной конференции студентов и аспирантов «Техническая кибернетика, радиоэлектроника и системы управления» (Таганрог, 2004); Международной научно-практической конференции «Компьютерные технологии в науке, производстве, социальных и экономических процессах» (Новочеркасск, 2005); IV Всероссийской научно-практической конференции студентов, аспирантов и молодых ученых (Томск, 2006); VIII и IX Всероссийском Симпозиуме по прикладной и промышленной математике (Москва, 2007, 2008); Международной научно-технической конференции «Многопроцессорные вычислительные и управляющие системы (МВУС-2009)» (Таганрог, 2009); на ряде ежегодных конференций профессорско-преподавательского состава федерального государственного автономного образовательного учреждения высшего профессионального образования Таганрогского технологического института ЮФУ.

Публикации. По материалам работы опубликовано 11 печатных работ, в том числе 3 статьи в журналах из перечня рекомендуемых ВАК РФ.

Структура и объем работы. Диссертационная работа состоит из введения, 4 глав основного раздела, заключения, списка литературы и приложения. Основное содержание работы изложено на 185 страницах, включая 13 таблиц, 41 рисунок и список литературы из 115 наименований.

Анализ средств персонализации поисковых систем

В теоретическом отношении задача поиска исследуется уже в течение длительного времени [1-5]. Стимулом исследований является усложнение практических задач поиска и рост объёмов хранимых данных в информационных системах [6,8,12,13]. Информационная система обобщённо представляется кортежем Q,R,4 ,,L,,E, $ , включающим в себя П = {ст],ггг2,...,гігП}- множество хранимых экземпляров объектов, R - отношения между экземплярами, 4у = {у/х, у/2,...,у/т} -множество классов объектов, 0 - отношения между классами, L - язык манипулирования данными, S - правила поддержания целостности данных, Ф - ограничения прав доступа к экземплярам. Каждый экземпляр имеет дескриптор D(cr,),z = l,Q, позволяющий охарактеризовать экземпляр в определённом смысле. Например, уникальность: дескриптор в этом случае рассматривается как значение ключа базы данных.

Основные проблемы организации информационных систем традиционно формулируются в терминах, принятых в библиотечном деле. Составление каталогов, классификация, аннотирование и реферирование, построение тематических подборок и индексов, регистрация и учёт читателей (пользователей) - все эти функции встроены в современные библиотечные [23] и специализированные информационные системы разного масштаба. Современная сеть Интернет может рассматриваться как глобальная информационная система, возникшая естественным образом благодаря появлению коммуникаций между существующими информационными системами различного назначения — от личных web-страниц до библиотек государственного уровня [14,15,17,18]. Различия в формах и форматах представления экземпляров, принципов классификации, механизмах доступа и языках манипулирования поднимают задачу использования информации сети Интернет на качественно более высокий уровень. Как показывает анализ, задача поиска включается практически во все системные процедуры управления данными информационных систем [21,22,24,25].

Каталогизация информационных объектов [11] заключается в классификации: для заданного шк&0. необходимо определить у/п єЧ7, используя некоторую метрику близости так, чтобы

Эффективное решение задачи каталогизации позволяет в дальнейшем ускорить поиск объектов. Основная трудность решения - в определении метрики близости. Чем шире диапазон толкования содержания информационного объекта, тем менее вероятна его однозначная каталогизация. Полнотекстовые документы, графические изображения, видео и аудиоматериалы на практике классифицируются по названиям, авторам, ключевым словам, дате и месту создания, и другим атрибутам, значения которых имеют ограниченную достоверность. Субъективность оценки смысла информационного объекта всегда будет оставаться обязательным фактором, учитываемым при создании информационных систем. Работы по реализации концепции «семантического» Web 2.0 [36] следует рассматривать как подтверждение данного вывода.

Реферирование [47] заключается в построении обзора совокупности источников информации. Задача состоит в выборе наиболее значимых фрагментов из источников гщ ашк,шк eQ, которые образуют реферат на заданную тему г = \Jr Объекты rat, по сути, представляют собой поисковые образы объектов тк. Особенность поиска при автоматическом реферировании - в анализе содержимого информационных объектов с целью выделения наи более информативных элементов. Очевидным требованием к реферату является что предполагает устранение избыточности в совокупности информационных источников. Трудность решения этой задачи в том, что не существует универсального определения информативности и избыточности.

Аннотирование [47] предполагает конструирование объекта аннотации ащ, отражающего смысл исходного объекта шк, но обладающего меньшей Качество конечного результата зависит от вида Qip p ,-- ) и установленных значений атрибутов в предикатных термах. Анализ публикаций показал, что основное внимание сосредотачивается на установке значений атрибутов, которыми являются ключевые слова текстов, и определении оценочной функции. Вид предиката чаще всего фиксирован. Индексирование содержимого информационной системы используется для повышения скорости поиска. Индекс описывается отношением 1(а, Ь), в котором а является ключевым значением для поиска, Ъ - ссылкой на хранимый информационный ресурс. На нижних уровнях информационной системы используются ключевые значения полей баз данных, по которым определяют адрес записи, на верхних уровнях используется индексирование по содержанию, когда ключевые слова текстов связываются с именами ресурсов локальных систем (MS Directory Service), адресами интернет-сети или адресами в глобальной сети Интернет. Современные поисковые серверы для выполнения запросов используют инвертированные индексы [9].

Составление индексов цитирования также относится к функциям библиотечных систем [9]. Его целью является оценка значимости источников информации. Результаты составления индексов цитирования имеют самостоятельное значение и одновременно используются при ранжировании источников поисковыми системами.

Поведение пользователя системы также является предметом исследований [56]. Интерес определяется необходимостью выявления приоритетов в использовании информационных объектов 2 = {ггг1,й72,...,г 7П]}для их актуализации и обновления, оценки качества, а также планирования стратегий обслуживания поисковых запросов.

Онтологии используются в информационных системах для отображения знаний концептуального характера. Инструменты описания онтологии используют известные в теории искусственного интеллекта модели представления знаний и рассуждений. В работе [36] приведён обзор существующих программных систем, решающих эти задачи. Наибольший интерес к он-тологиям в поисковых системах проявляется при извлечении знаний из текстов [37]. Можно отметить, что в подобных онтологиях значительна доля лингвистической составляющей, в меньшей степени — концептуальной. В целом же несмотря на совершенство программных инструментов, проблема автоматического извлечения знаний из текстов далека от своего решения.

Идентификация экземпляров опыта поиска нечёткими дескрипторами

Анализируя содержимое таблицы, можно сделать следующие выводы: - Существует сложная взаимозависимость между компонентами действий «что, где и как ». Постановка задачи поиска, моделирование вариантов его реализации и оценка экспериментально полученных реализаций образуют последовательность с возвращениями. В каждом из действий велика доля эвристики, субъективизма и влияния опыта поиска.

Основой поискового знания следует считать прецеденты удачного поиска, которые явились результатом комплекса описанных выше действий. С большой долей вероятности они могут использоваться повторно, что даёт экономию ресурсов.

Количество шагов поиска, понимаемых как переходы на различные HTML-страницы, связано с поиском решений, но не является реализацией процедуры получения самого результата. Алгоритм поиска конкретного ответа на запрос обычно прост и включает в себя один-три перехода по ссылкам. С точки зрения повторного применения, сохранять описание шагов нецелесообразно. - В силу наличия динамики информационного содержимого Интернет хранение любого результата имеет смысл в течение конечного времени. Подобное знание приобретает экстенсиональную окраску. Эксперты в области поиска информации сопровождают каждый удачный прецедент аналитической составляющей — это можно заметить по общению в форумах и блогах.

Структура аналитической информации об удачных прецедентах поиска всегда «локальна», т.е. относится к узкой предметной области. Универсальные рекомендации в более широком смысле чрезвычайно редки.

Связность знаний определяется наличием отношений между концептами прикладной области. В настоящее время исследования в данной области связаны с построением онтологии. По определению [71] онтология есть спецификация концептуализации предметной области. Формально онтология определяется как 0= C,R,F , где С- конечное множество понятий прикладной области, R — конечное множество отношений между понятиями, F -конечное множество функций интерпретации. Наличие онтологии в поисковых системах чрезвычайно важно и позволяет как интерпретировать запросы к полнотекстовым документам, так и извлекать знания из текстов и строить формальные теории [71,72]. Заметим, что данный аспект не столь значим для реальных поисковых систем. Важнее обеспечить обмен опытом поиска, использование накопленного множества ссылок на информационные ресурсы внутри коллектива пользователей. Формально, если некоторая ссылка связана с разными наборами концептов требуется сформулировать условия, при которых использование ссылки не приведёт к нарушению целостности базы знаний.

Наличие шкалирования и использование семантической метрики также относят к характерным признакам знания. Несомненно, знание о поиске обладает этими признаками. Отношение релевантности гипертекстового документа поисковому запросу лежит в основе процедур построения выдачи любой современной поисковой системой. Соответственно, ранжирование доку ментов предполагает существование шкал, на основе которых определяются отношения порядка.

Свойство активности знания связывается с системой управления знаниями, её способностью добавлять, модифицировать и синтезировать новые знания. Представляется необходимым выделить следующие особенности использования знаний о поиске. Знание должно быть нацелено на решение обобщённых поисковых задач. Таковых можно сформулировать две. Первая где / - функция оценки информативности результата поиска, t - время поиска, t - заданное ограничения R- необходимые сетевые и вычислительные ресурсы, R - заданное ограничение. В такой постановке решается задача пользователем, желающим найти «всё полезное, что нам известно» о решаемой проблеме.

Следует подчеркнуть, что под временем поиска t понимается интервал времени, необходимый аналитику для решения задачи. С практической точки зрения именно этот показатель определяет качество поискового сервиса. Время, затраченное поисковой системой на нахождение первой порции результатов, характеризует в большей степени работу подсистемы управления данными и не является показателем качества найденных ресурсов. Поисковые серверы Google, Yandex, Rambler, Апорт реально дают ответ через единицы секунд практически независимо от формулировки запроса. В то же время поиск в широком понимании предполагает циклическое повторение операций запроса и анализа ответа, т.е. временная модель поиска имеет вид

Объединяющим в сформулированных постановках является опыт, наличие «известного», того, что представляет собой данные и результаты использования этих данных на практике. Решением перечисленных выше задач является множество ресурсов, найденных аналитиком в сеансе работы Е ={е\,е\,..е „}, изучение содержания ресурсов аналитиком включается в процесс поиска. Как показывает анализ, оценка информативности носит субъективный характер, является немонотонной и получает достоверное значение только после ознакомления эксперта с документами Е. Под документами понимаются структурированные файлы определённого функционального назначения - тексты, гипертексты, таблицы, схемы, видео и аудиозаписи, анимация, тематические каталоги, базы данных. Следует подчеркнуть, что рассматриваемый в данной работе процесс поиска и результат поиска связан с интуитивным накоплением информации аналитиком, но не с нахождением ответа на поставленный вопрос. Это означает, что в процессе поиска реализуются два параллельных потока действий:

Анализ алгоритмов реализации оценочных функций

В качестве at выступают независимые аналогии, целостно отражающие определённые аспекты вида и поведения объектов. Предлагаемое структурирование достаточно естественно для информационных ресурсов: рассматривая аналогию между парой et,e} єЕ, эксперт учитывает сходство по источнику ресурса, тематической направленности, качеству представления данных, уровню достоверности, степени актуальности, привычности терминологии, ссылочной ценности, и т.д. В пользу такого предположения говорит следующее: - Любая отдельно взятая аналогия имеет мало шансов оказаться полезной, а имитирующая её система будет оцениваться невысоко. - Человеку-эксперту не свойственно мыслить сложными категориями [91], неизбежны обобщение и декомпозиция на более простые элементы и связи, о которых можно получить достоверную информацию и использовать затем для моделирования мышления [94]. - Информационные ресурсы обладают широким диапазоном свойств и аспектов поведения. Их целостное восприятие человеком-аналитиком при поиске аналогии кардинально отличается от представления информационных объектов на системном уровне. Использование аналогий, доступных для наблюдения и оценки на уровне поисковой системы, является практически приемлемым способом решения проблемы разноуровневого описания.

В терминах теории структурной аналогии [90], любая аналогия А имеет контекст UА, и множество г.ь = иАГ\аПЬ включает в себя элементы, которые используются для оценивания близости объектов а и Ъ функцией s(a, b). В качестве контекста выступает подмножество атрибутов UA = CA,RA,XA,FA ,СА сСДА сЯ,ХА cX,FA cF,DA cD. Для комбинированной аналогии U = С ,R ,Х ,F.Da , C,cC,Ra/ czi?,X0/ cX,Ffli c=F,Da сД Ca/ ПСа/ 0,Ra, DRaj 0,Xai f]Xaj Ф0,аі f]Faj 0,Da, f]Daj 0,i,j = h\A \, s(x,y) = 0a (x,y),sai (х,у),... ак!(х,у)). Приведённая модель позволяет формально описать содержательность Л л как набор контекстов А с А, А ї 0. Набор А специфичен для каждого пользователя системы, все пользователи имеют разные контексты А. Величину А \ можно использовать как меру содержательности: чем больше частных аналогий «просматривается» в найденном материале, тем больше вероятность восполнить недостаток информации. Пустой контекст соответствует бессодержательной аналогии, применение которой практически бесполезно и не направлено на решение задачи (2.2).

Можно заключить, таким образом, что минимизация времени в (2.2) сводится к построению максимальных по мощности контекстов пользователей системы. Существование решения в таком случае определяется тем, существует для конкретного пользователя ли набор контекстов А.

При выборе информационного пространства для аналогий важно обеспечить разделение прикладных и системных объектов поискового сервиса. Отнесение интеллектуальных функций исключительно к прикладным объектам обеспечивает максимальную гибкость системы, однако порождает опасность нестабильной работы. В данном случае многообразие аналогий, полезных аналитику, строится на основе контекстов, которые состоят из системных объектов C,R,X,F,D поискового сервиса. Набор контекстов конкретной системы всегда фиксирован и недоступен для изменения пользователям. Подобная инкапсуляция обеспечивает надёжность и устойчивость системы.

Как показывает анализ, при нахождении набора контекстов А возникают следующие задачи: - Задача отбора А из множества возможных контекстов. Формально, AcCxRxXxFxD, однако принцип отбора полезных элементов неясен. - Определения функции близости s(a, b). Сходство на основе набора аналогий А означает, что s(a,b) зависит от многих параметров и имеет различный вид как для отдельных пользователей, так и в разных областях пространства аналогий. Получить адекватное аналитическое выражение для s(a,b) не представляется возможным из-за недостатка данных. Поэтому должен использоваться некий практически полезный подход.

Отбор полезных контекстов в набор A CxRxXxFxD предлагается строить на основе анализа онтологии. Как известно [71], описание онтологии использует понятие классов. Язык OWL, предназначенный для создания Web-онтологий ресурсов [98], наделён синтаксическими конструкциями для определения классов и их отношений. Таким образом, можно без ограничения общности считать, что между классами существуют отношения, рассматриваемые в объектно-ориентированном анализе [97]: - наследование; - агрегирование (композиция); - ассоциирование. С каждым отношением г є R между классами может быть связана смысловая аналогия. Например, всё, что относится к автомобилям вообще, в определённой степени может относиться к грузовым либо легковым автомобилям; всё, что связано с легковыми автомобилями, в той или иной степени имеет отношение к конкретной марке авто, а также к ассоциирующимся с этими марками объектами: запчастями, услугами по ремонту, и т.д. Таким образом, может быть построен нечёткий ориентированный граф [80] аналогий G = (X, U), в котором множество вершин X соответствует классам онтологии, а множество нечётких рёбер x„Xj eX2,U = {ju( xi,xJ )l xnXj },i,j = l,\X21 соответствуют степени аналогии между парой классов хпх . Здесь ju( xt,Xj ) является степенью принадлежности ребра нечёткому множеству рёбер U. Граф G - (X, U) строится на основе опроса экспертов-аналитиков сетевого сообщества и является формальным представлением глубинных знаний об осмысленных аналогиях прикладной области. В общем случае для построения графа G = (X, U) по описанию на OWL используется набор экспертных правил rOWL= ComiAOWL,Dom , где COWL- условие правила, Аот-множество фактов, добавляемых правилом, Dom- множество фактов, удаляемых правилом. Таким образом, подсистема поиска аналогий относится к классу динамических интеллектуальных систем [96].

Будем считать, что правила rom = COWL,Aom,DOWL обеспечивают полноту описания аналогий в том смысле, что любому концепту ct є С,і = 1,1 СI всегда может быть сопоставлен класс х. єX, j = 1, X\. Тогда справедливы следующие утверждения.

Обработка экранных форм

Возможность решения поставленной задачи зависит от свойств элементов библиотеки G. Библиотека должна обладать полнотой, масштабируемостью, непротиворечивостью и смысловой целостностью,

Полнота рассматривается как возможность сконструировать объект, позволяющий решить задачу обобщения в контексте прикладной задачи. Между контекстами и обобщающими классами существует многозначная зависимость: различные задачи допускают использование одного и того же класса объектов и наоборот - разные классы могут давать приемлемые решения обобщения в одном и том же контексте. Многозначность является эффективным средством обеспечения полноты, однако не решает проблемы построения обобщающего объекта в контексте новой, ранее не решавшейся в системе задачи. Исходя из этого, должен существовать, по крайней мере, один «универсальный» класс обобщающих объектов g0 =G, экземпляр которого CQL способен обобщить любой фрагмент карты:

Очевидно, что в случае его употребления имеет место тривиальное решение с максимальной степенью обобщения.

Масштабируемость — свойство библиотеки предоставлять объекты различной сложности. Например, показателем сложности может служить число графических примитивов. Данное свойство позволит реализовать перераспределение сложности и информационного наполнения картографических изображений. По степени обобщения элементы библиотеки могут быть вы строены в иерархию, нижние уровни которой занимают элементы, обеспечивающие наиболее нетривиальную генерализацию.

Противоречивость библиотеки связывается с наличием различных обобщающих объектов, применяемых в одном и том же контексте для одного и того же подмножества генерализуемых объектов: и имеющих одинаковое визуальное представление. По сути, рассматриваемые объекты обладают только различными атрибутивными данными, что приводит к ошибкам визуального анализа карты.

Смысловая целостность библиотеки рассматривается в следующем аспекте: каждый элемент библиотеки связан с некоторым инвариантом преобразования изображения поисковой схемы. Инвариант определяется классом прикладных задач. Например, для анализа информационных ресурсов по интеллектуальным системам после любого преобразования схема должна сохранять расположение основных порталов и их краткие атрибутивные описания. Точные данные о количестве найденных экспертами ссылок и их ценности в данном случае значения не имеют. Соответствующие данному инварианту элементы библиотеки могут служить для обобщений схем различной тематики.

Рассмотрим объектную модель программного компонента для динамического обобщения. На рис. 3.13 показана UML-диаграмма, иллюстрирующая иерархию наследования. Базовый (интерфейсный) класс определяет наиболее общее поведение обобщающего объекта как сущности схемы или карты. Второй уровень отражает поведение, сохраняющее инвариант прикладной задач. Нарис. 3.13 в качестве примера показан класс для решения задачи транспортной логистики. Суть задачи в перемещении из пункта отправления в пункт назначения груза заданного объема с минимальными издержками при заданных ограничениях. Поведение класса детализируется производными классами, соответствующими конкретному виду транспорта. На рис. 3.13 такими классами являются железнодорожный и автобусный транспорт. Слдует обратить внимание на конкретный класс географической основы Geo-graphicFoundation, размещенный на уровне инвариантов. Для ГИС именно он является универсальным генерализующим классом аэЦ., поскольку географическая основа присутствует в любой карте, схеме или плане и обязательно имеет некоторую реализацию.

Методом конструирования объектов класса CGenMap(MaxQuantity, MapBound). Параметрами конструктора являются требуемое число примитивов результата MaxQuantity и граница подлежащей обобщению области карты MapBound. Если в контексте прикладной задачи не удаётся сконструировать экземпляр заданной сложности, конструктор возвращает значение NULL. Сконструированный объект имеет указатели на визуальное представление (MapView), атрибутивные данные (MapModel) и блок диалога с пользователем (MapController) клиентского приложения. Соответствующие объекты агрегируются в единое целое, реализуя известный шаблон объектного проектирования MVC [97]. Следует заметить, что описание обобщающих элементов представляется не только классами объектов, но и экземплярами объектов. Зачастую обобщающие элементы являются уникальными. Например, объект «ЗБ-карты Google» имеет установившиеся пространственные границы и состав элементов именно в портале Google. Обобщающие объекты в таком случае хранятся в объектной базе данных и конструируются средствами СУБД.

Методом создания атрибутивных данных CreateModelQ. Обобщение естественным образом требует создания информационных структур для хранения обобщённых характеристик объектов — обобщённых списков ссылок, суммарных рейтингов, индексов цитируемости, перечней форм, видов, типов соответственно классификации и т.д. В простейшем случае метод добавляет записи в существующую базу данных, в более сложном — генерирует новую.

Методом получения обобщённых характеристик генерализующего объекта GetParameter(ParameterName). Здесь ParameterName — наименование характеристики. Метод является полиморфным и возвращает результат в виде чисел, текстов, графических изображений, распределений заданных показателей. Например, объект «социальная сеть» может содержать обобщённую информацию о пользователях, темах, сообществах, услугах, информационных ресурсах. Каждому из этих типов ставится в соответствие относительная доля посещений, распределение которой может предоставляться пользователю.

Методом изменения сложности ModifyComplexity(ComplexityFactor). Назначением метода является преобразование изображения в более детализированное, параметр ComplexityFactor определяет степень детализации. Детализация - важный элемент процесса визуального анализа карт, который не компенсируется масштабированием картографического изображения. Специфика преобразования картографического изображения данным методом - в учёте контекста прикладной задачи.

Похожие диссертации на Разработка и исследование нечетких моделей интеллектуального поискового сервиса для сетевых сообществ Интернет