Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Модельно-алгоритмическое обеспечение адаптивного поиска информации в распределенных информационных системах Кустов Денис Викторович

Модельно-алгоритмическое обеспечение адаптивного поиска информации в распределенных информационных системах
<
Модельно-алгоритмическое обеспечение адаптивного поиска информации в распределенных информационных системах Модельно-алгоритмическое обеспечение адаптивного поиска информации в распределенных информационных системах Модельно-алгоритмическое обеспечение адаптивного поиска информации в распределенных информационных системах Модельно-алгоритмическое обеспечение адаптивного поиска информации в распределенных информационных системах Модельно-алгоритмическое обеспечение адаптивного поиска информации в распределенных информационных системах Модельно-алгоритмическое обеспечение адаптивного поиска информации в распределенных информационных системах Модельно-алгоритмическое обеспечение адаптивного поиска информации в распределенных информационных системах Модельно-алгоритмическое обеспечение адаптивного поиска информации в распределенных информационных системах Модельно-алгоритмическое обеспечение адаптивного поиска информации в распределенных информационных системах Модельно-алгоритмическое обеспечение адаптивного поиска информации в распределенных информационных системах Модельно-алгоритмическое обеспечение адаптивного поиска информации в распределенных информационных системах Модельно-алгоритмическое обеспечение адаптивного поиска информации в распределенных информационных системах
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Кустов Денис Викторович. Модельно-алгоритмическое обеспечение адаптивного поиска информации в распределенных информационных системах : Дис. ... канд. техн. наук : 05.13.01 Красноярск, 2006 108 с. РГБ ОД, 61:06-5/2303

Содержание к диссертации

Введение

Глава 1. Распределенные информационные системы. Информационный поиск 28

1.1. Поиск в Интернет 30

1.2 Поисковые системы 31

1.2.1 Индексы поисковых систем 33

1.2.2 Распределенные поисковые системы 33

1.2.3 Модели информационного поиска 34

1.2.4 Критерии оценки эффективности . 36

1.3 Особенности разработки локальных информационных систем 37

1.3.1 Внутреннее представление 39

1.4 Выводы 40

Глава 2. Адаптивный поиск в среде распределенных информационных источников. Частотная терминологическая модель пользователя 42

2.1 Характеристики пользователя ПС 44

2.1.1 Цели 45

2.1.2 Знания 46

2.1.3 Предпочтения 49

2.1.4 Уровень подготовки и имеющийся опыт 50

2.2 Частотная терминологическая модель пользователя 50

2.2.1 Методология PLSA в области извлечения информации 52

2.2.2 Динамический профиль пользователя 56

2.2.3 Алгоритм непрерывной корректировки профиля пользователя 58

2.3 Экспериментальные исследования 60

2.4 Выводы 62

Глава 3 Активная среда локальной информационной системы 64

3.1 Моделирование адаптивной среды локальной информационной системы 67

3.1.1 Пространство адаптации 67

3.1.2 Многослойная логическая структура ЛИС 70

3.1.3 Вероятностная схема ЛИС 73

3.2 Модель пользователя 77

3.2.1 Алгоритм расчета вероятности принадлежности 80

3.3 Архитектура системы ЛИС 82

3.3.1 Метаданные XML и описания представления 82

3.3.2 Архитектура системы 84

3.3.3 Модуль разработчика системы 86

3.3.4 Тестирование АИС 87

3.4 Выводы 88

Заключение 91

Приложение 1. Програмно-алгоритмическая поддержка реализации адаптивной локальной информационной системы 94

Список литературы 98

Введение к работе

Актуальность работы. Бурное развитие Интерент-технологий в последнее десятилетие привело к тому, что в настоящее время любой человек, имеющий доступ к сети, может получить доступ к неограниченным информационным ресурсам.

Однако, при работе с любым поисковым сервисом, мы имеем дело с черным ящиком. Мы можем лишь послать в него некий входной сигнал в виде поисковой строки и получить отклик, ответ на запрос, в виде набора ссылок на соответствующие нашему запросу (релевантные) ресурсы сети. Причем данное соответствие каждым поисковым сервисом трактуется по-разному, в соответствии с алгоритмами, заложенными в данный поисковый сервис его разработчиками.

Проблема заключается в том, что любой поисковый сервис - универсален, рассчитан на работу со всеми пользователями, без учета их индивидуальных потребностей. Это оправдано, поскольку каждый поисковый сервис имеет миллионы пользователей и учет индивидуальных особенностей каждого - не оправдан, если вообще возможен.

Решение проблемы может быть осуществлено путем разработки мо-дельно-алгоритмического и программного обеспечения для пользователя. Такое программное обеспечение работает локально на компьютере пользователя, либо устанавливается на специальном удаленном сервере. Данная программная система базируется на индивидуальных особенностях конкретного пользователя, моделируя его с точки зрения информационных интересов, на основании данных о его запросах к поисковым сервисам Интернет В ходе работы пользователя происходит непрерывная корректировка модели на основании данных о новых и информации о предыдущих запросах к поисковым сервисам. Таким образом, модель всегда отражает актуальные информационные интересы пользователя. Модель пользователя может использоваться для добавления к новому запросу данных, содержащихся в модели, для изна-

5 чального сужения области поиска. Кроме того, модель позволяет осуществить фильтрацию ответов поискового сервиса.

В настоящее время Интерент-технологии также используются при создании локальных информационных систем (ЛИС). В данном случае слово 'локальная' — условно и означает, что такая система не является глобальной, такой как Интернет в целом, в смысле физического разнесения информационных ресурсов. ЛИС - это информационная система, создаваемая для хранения информации по совершенно определенной предметной области.

Физически локальные информационные системы могут размещаться в удаленных хранилищах или на разных серверах. Аналогом таких систем можно считать корпоративные информационные системы или электронные учебники, создаваемые преподавателями в рамках своего учебного курса. Принципиальное отличие таких систем от поисковых систем, описанных выше, заключается в следующем. Поисковые системы представляются для нас черным ящиком, т.е. мы не можем знать, какая информация в них представлена, каким образом организовано ее хранение, каким образом опганизо-ваны ссылки между различными блоками информации. В случае ЛИС, мы выступаем разработчиками такой системы. Разработчику, как правило, известно, на какой круг пользователей ориентирована система. Также разработчик создает информационное наполнение такой системы (так называемый контент), выбирает, в каком виде и как будет храниться информация, каким образом будут организованы переходы между информационными блоками.

При этом основная задача - выбрать правильный способ организации информационного наполнения, способ хранения, способ взаимосвязи блоков информации, способ представления в каждый момент только необходимой пользователю информации. Обеспечивая тем самым удобство работы с системой для ее пользователей. Это достигается использованием модели пользователя и предметной области, а также алгоритмом динамического изменения контента в зависимости от состояния системы (как совокупности состояний модели пользователя и модели предметной области).

Целью настоящей работы является совершенствование процессов взаимодействия пользователя с распределенными информационными системами путем разработки модельно-алгоритмического обеспечения адаптивного поиска информации.

Поставленная цель достигается путем решения следующих задач:

выявить специфику формирования и функционирования поисковых систем, проанализировать существующие подходы к организации модели пользователя;

разработать модель пользователя поисковой системы с учетом его информационных интересов;

разработать алгоритм непрерывной корректировки модели пользователя для адаптивного поиска информации с учетом новых информационных запросов пользователя;

сформировать модель данных для описания предметной области для организации адаптивной среды локальной информационной системы;

реализовать процедуру формирования модели пользователя адаптивной среды в локальных информационных системах и агпоритм ее актуализации;

разработать системную архитектуру для реализации предложенной модели пользователя и процедур описания предметной области адаптивной среды в ЛИС;

реализовать разработанные модели и алгоритмы в реальных проектах.

Методы исследования. При выполнении работы использовались методы системного анализа, оптимизации, методологии структурного анализа и проектирования сложных систем, статистические методы обработки данных, аппарат теории графов, теории вероятностей.

Научная новизна результатов диссертационной работы:

  1. Предложен новый метод формирования модели пользователя, обеспечивающий адаптивный поиск информации, при взаимодействии с распределенными информационными системами.

  2. Разработан новый алгоритм непрерывной корректировки параметров модели пользователя на основе методологии вероятностного латентно-семантического анализа, позволяющий учесть семантическую близость терминологического состава последовательных запросов.

  3. Для формирования адаптивной информационной среды предложена многослойная модель данных логической структуры локальной информационной системы.

  4. Разработан новый алгоритм актуализации модели пользователя адаптивной среды локальной информационной системы, позволяющий учитывать неявные интересы пользователя и использовать эту информацию для организации данных.

  5. Предложена трехслойная модульная масштабируемая системная архитектура активной среды ЛИС.

Значение для теории. Результаты, полученные в ходе выполнения диссертационной работы, создают теоретическую основу для разработки методов и алгоритмов формирования персонализированных программно-информационных сред взаимодействия с распределенными информационными системами.

Практическая значимость. Разработанная в диссертации активная модель пользователя совместно с алгоритмом непрерывной корректировки может служить основой при формировании активных сред взаимодействия пользователя с распределенными информационными системами. Предложенная системная архитектура позволяет автоматизировать процесс проектирования указанных выше систем. Предлагаемая архитектура учитывает внутренние характеристики и организацию электронных информационных ресурсов, поэтому реализуемые на ее основе системы могут использоваться

8 разработчиками в существующих профаммных средах без нарушения их целостности. Разработанная в диссертации архитектура применена при разработке надстройки к обозревателю Интернет.

Реализация результатов работы. В ходе работы над диссертацией реализованы две профаммные разработки, зарегистрированные в Отраслевом фонде алгоритмов и профамм (ОФАП):

  1. Кустов Д.В. «Модуль реализации активной модели пользователя». Инвентарный номер ФАП: 5544. Код профаммы по ЕСПД: .03524577.01269-01

  2. Кустов Д.В. «Профаммная структура корпоративной системы с элементами адаптации». Инвентарный номер ФАП: 5545. Код профаммы по ЕСПД: .03524577.01272-01.

  3. Кустов Д.В., Слободин М.Ю., Огнерубов С.С. «Адаптивная метапо-исковая система». Инвентарный номер ФАП: 5637. Код профаммы по ЕСПД: .03524577.01366-01.

Кроме того, в качестве практической реализации методов формирования активной среды ЛИС, разработана и успешно внедрена корпоративная информационная система для группы компаний «Алгоритм».

Основные тезисы, выносимые на защиту:

  1. Предложенная частотная терминологическая модель пользователя, основанная на представлении интересов пользователя в виде набора троек вида: (категория интересов, текущий вес категории, уровень изменчивости), с разбиением на краткосрочные и долгосрочные интересы, позволяет учитывать неявные интересы пользователя поисковой системы и решать задачу представления пользователю релевантной информации.

  1. Разработанный алгоритм непрерывной подстройки модели на основе новых данных текущего запроса с использованием методологии веро-

9 ятностного латентно-семантического анализа (PLSA) позволяет корректировать параметры модели на основе семантической близости терминов нового запроса и текущего терминологического базиса при каждом сеансе работы пользователя с системой.

  1. Разработанная многослойная модель данных для описания предметной области и адаптивная модель пользователя локальной информационной системы позволяют учитывать интересы пользователя, обеспечивая персонализацию интерфейса и повышение эффективности работы пользователя с такой системой.

  2. На основе структурирования и логической организации локальной информационной системы с использованием структурного подхода UML (Unified Modeling Language) реализована модульная масштабируемая структура локальной информационной системы, что позволяет обеспечить автоматизацию интерактивных процедур анализа и формирования структур таких систем, и разрешает динамическое добавление элементов функциональности без изменений в структуре и сохранении работоспособности системы.

Апробация работы. Основные положения и результаты работы прошли всестороннюю апробацию на всероссийских и международных конференциях, научных семинарах и научно-практических конференциях. В том числе,

на всероссийской научной конференции студентов, аспирантов и молодых ученых "Наука. Технологии. Инновации", Новосибирск;

на всероссийских научно-практических конференциях "Решетнев-ские чтения", Красноярск;

на всероссийской научно-практической конференции "Молодежь и современные информационные технологии";

Диссертационная работа в целом обсуждалась на научных семинарах кафедры системного анализа и исследований операций Сибирского государ-

10 ственного аэрокосмического университета (2004-2006 гг.), на семинарах НИИ СУВПТ (2005-2006 гг.), семинарах Сибирского государственного технологического университета (2006г.).

Публикации. Основные результаты диссертационной работы опубликованы в 13 работах автора (общим объемом 4,6 авторского листа), список которых помещен в конце диссертации.

Структура и объем работы. Диссертационная работа состоит из введения, трех глав, заключения, списка литературы из 102 наименований, 25 рисунков и 11 таблиц.

В первой главе вводятся основные понятия и терминология, используемые для описания организации работы распределенных информационных систем, рассматриваются способы построения, классификации таких систем. Указывается на два взаимосвязанных, но в то же время, отличных друг от подхода к интеллектуализации процесса работы с распределенными информационными системами.

Первый исходит из существующего положения вещей, связанного с организацией поиска информации. Основывается на использовании работы существующих поисковых сервисов. При этом создается специальная надстройка на стороне клиента (т.е. браузера пользователя). Данная надстройка включает модель пользователя, и алгоритм непрерывной корректировки модели, она использует для работы ресурсы терминала пользователя.

Основным инструментом поиска информации для пользователя в настоящее время являются поисковые сервисы (ПС). Обычная схема работы пользователя при этом показана на рисунке 1а. Пользователь отправляет запрос (в виде поисковой строки) к ПС, ПС, обрабатывает данный запрос и выдает множество ссылок на релевантные документы. При этом релевантность оценивается только на основании самого запроса.

Очевидные недостатки данного подхода:

Не учитываются индивидуальные особенности пользователя, соответственно невозможно явно оценить релевантность большинства документов запросу данного конкретного пользователя.

Любой поисковый сервис имеет ограничения на ту область Интернет, информация о которой содержится в его базе (так называемом индексе). Соответственно, работая только с одним ПС, пользователь сознательно ограничивает для себя возможность получить достаточно полную информацию по интересующему вопросу.

Подход, предлагаемый в данной работе, преодолевает указанные недостатки, формируя так называемую активную среду взаимодействия пользователя с информационными системами.

Второй из предлагаемых подходов используется для проектирования активной среды локальных информационных систем.

В данном случае возможно изначальное проектирование той информационной среды, с которой в дальнейшем будут работать пользователи. Основную роль при таком подходе играют три элемента и способ их взаимодействия: модели предметной области и пользователя, алгоритмические и технические приемы взаимодействия.

Для создания активной информационной среды (АИС), предложен модульный и масштабируемый подход. Использование такого подхода т.ребует проработки, в частности следующих вопросов:

Модель предметной области и схема адаптации должны описывать АИС таким образом, чтобы все переменные системы, изменяющиеся во времени (т.е. настраиваемые в процессе работы), были очевидны.

Модель пользователя должна отражать не только явные характеристики пользователя (например, данные, собираемые во время работы пользователя с системой), но и другие неявные аспекты, относящиеся к его программному окружению и характеристикам терминала.

Архитектура системы должна быть легко масштабируемой, т.е. разре
шать добавление элементов функциональности без серьезных измене
ний в структуре и сохранении работоспособности системы.

Представленная в работе новая схема организации АИС позволяет в частности формировать:

Логическую структуру и содержимое АИС, с выделением различных изменяемых в процессе работы элементов (уровней детализации).

Логику процесса адаптации, разделяя адаптацию на уровне технических ограничений и адаптацию на уровне пользователя.

Во второй главе рассматриваются существующие подходы к организации адаптивного поиска в среде распределенных информационных источников, описываются основные способы построения и работы поисковых сервисов (индексация, языковые возможности, средства метапоиска). Вводится понятие модели пользователя, показаны существующие подходы к формированию модели. Дается описание предлагаемого в диссертации подхода к моделированию пользователя: поскольку основной задачей пользователя является поиск необходимой информации, моделирование пользователя строится на основе его информационных потребностей (интересов). Представлено описание применяемой технологии при моделировании информационных интересов пользователя. Рассмотрена методология латентно-семантического анализа, преимущества ее применения при поиске информации. Показан переход к вероятностному ЛСА, применение для моделирования пользователя и формирования алгоритма непрерывной корректировки параметров модели при работе пользователя с системой.

В информационном поиске любой документ представляется как вектор частот появления определенных терминов в нем. В этом подходе отношения между документами и терминами представляются в виде матрицы смежности А, элементом wy которой является частота появления термина tj в документе dj. Обозначим через т количество проиндексированных терминов в коллекции документов d, а через п - количество самих документов. В общем случае

13 элементом Wjj матрицы А является некоторый вес, поставленный в соответствие паре документ-термин (dh tj). После того, как все веса заданы, матрица Л, становится отображением коллекции документов в векторном пространстве. Таким образом, каждый документ можно представить, как вектор весов терминов.

Подход LSA (Latent Semantic Analysis - Латентный Семантический Анализ), предложенный в 1990, заключается в отображении документа в латентное семантическое пространство. Основная цель - отразить скрытую (латентную) связь между терминами и документами. Это достигается использованием сингулярного разложения (SVD-разложение) матрицы А. Предполагается, что такое пространство несет в себе основную смысловую нагрузку. Оценка схожести документов формируется по близости расположения точек латентного семантического пространства.

В основе методологии PLSA лежит идея, предложенная в LSA и описанная выше. При этом используются понятия латентного класса zeZ ={z}, ... , Zk}, множества документов deD ={dj, ... , d^j и терминов weW ={wi, ... ,

Установлено, что распределение слов, принадлежащих данному классу, не зависит от документа и пары наблюдений документ-термин (d,w) — независимы.

Распределение терминов в документе P(w\d) определяется следующим соотношением:

P{w\d)^P{w\z)P{z\d)

Совместная вероятность появления документа и термина определяется следующим соотношением:

P(d,\v) = P(d)P(w\d)

Величины P(w\z) и P(z\d) оцениваются с использованием алгоритма максимизации математического ожидания, который состоит из двух этапов (Е и М), максимизируя логарифмическую функцию правдоподобия:

n(d,w) - частота появлений термина w в документе d.

Вероятность того, что появление термина w в документе d объясняется принадлежностью их к классу z оценивается следующим образом на шаге Е:

P(z d, w) = ^ ', ,

/>(*)/>(

r'eZ

На этапе Mпроисходит переоценка вероятностей:

м'єИч/єО d'eD,MtW

Y, n(d, w)P(z | d, w) n(d, w)P(z \ d, w)
P(w\z)=
v* .. ,.p, , , ,., P(«/|z) = -^

/>(z) =

deD,welV

Хофман предложил обобщенную модель для оценивания условной вероятности, которую он назвал ослабленной процедурой максимизации матожи-дания. При этом на этапе Е в оценку условной вероятности вносится регуля-ризационный параметр /?:

А ' ^P(,z')[P(d\z')P(w\z')Y

z's.Z

Геометрическая интерпретация весовых коэффициентов P(z\ d) - координаты документа в подпространстве, определяемом как вероятностное латентное семантическое пространство.

Предлагается новый подход к моделированию интересов пользователя, основанный на инициализации начального профиля и его последовательной корректировке в процессе работы.

Документы могут быть представлены как векторы латентного семантического пространства. Для того чтобы отслеживать и непрерывно анализировать возможные изменения интересов пользователя, предлагается ввести понятие временного измерения в латентном семантическом пространстве, тем

15 самым, рассматривая уже не само латентное семантическое пространство, а его модификацию - временное латентное семантическое пространство. Каждое измерение (за исключением временного) такого векторного пространства представляет собой условные вероятности при заданном классе P(w\z), P(d\z). Документы представляют собой векторы с весовыми коэффициентами (координатами) P(z\ d), временное измерение полагаем равным нулю.

Запросы, равно как и сами документы, могут быть представлены в виде векторов во временном латентном семантическом пространстве. Кроме весов P(z\Q) у них есть дополнительное (временное) измерение (текущий вес), первоначально равный некоторой положительной величине, уменьшающейся с течением времени, исходя из предположения о падении интереса пользователя к определенной тематике при отсутствии ее фигурирования в о?просах продолжительное время. Если пользователь инициирует запрос, связанный с определенной категорией из его текущего профиля, то вес данной категории может быть либо стабилизирован на определенное время, либо увеличен.

Алгоритм адаптивной коррекции профиля пользователя основан на неявной обратной связи с пользователем, которая реализуется на основе истории его запросов. На вход алгоритма поступает запрос пользователя, на выходе - одна или более троек (триплетов) вида (С,, Wh а,), где С, - категория интересов, Wj - текущий вес, а{уровень изменчивости (смысл данной величины состоит в том, чтобы отразить насколько изменяются интересы пользователя в рамках текущего запроса по отношению к прошлым запросам).

Итак, профиль пользователя представляет собой набор троек. При этом он организован таким образом, что интересы пользователя разделены на два типа: краткосрочные (краткосрочный профиль) и долгосрочные (долгосрочный профиль). Как правило, емкость долгосрочного профиля больше емкости краткосрочного. При этом считается, что тройки, в которых величина текущего веса положительная, относятся к краткосрочному профилю, если вес отрицательный - то к долгосрочному профилю. При этом для троек, находящихся в краткосрочном профиле, текущий вес уменьшается линейно, тогда

как для троек, находящихся в долгосрочном профиле снижение весов - экспоненциально.

Формально профиль в текущий момент / описывается следующим образом

Pn={(Cj,Wj,a^,j=l,k} При этом

Рґі = PrRi u PrLi, где PrRj = {{Cj, Wj, a/)i\ V Wj> 0, j=\, к}- краткосрочный профиль, PrLt = {{Cj, Wj, ц)і\ V Wj< 0, j=l, к}- долгосрочный профиль. Уровень изменчивости {а,) рассчитывается как близость двух последовательных запросов Qi и Qt.\ представленных в пространстве частот их терминов:

Ц'

X*(a.w)2I>(a-pw)2'

и-' d

где n{Q„w) - взвешенные частоты терминов.

Предложен следующий алгоритм непрерывной корректировки модели пользователя. При использовании данного алгоритма предполагается, что существует некоторое хранилище предыдущих запросов пользователя. В текущий момент времени / пользователь вводит новый запрос, который после соответствующей обработки помещается в хранилище запросов. Обновленное (или дополненное) в момент времени / текущим запросом хранилище запросов будем обозначать Qt .

Перед тем, как передать запрос для работы алгоритму производится его обработка на предмет выделения ключевых терминов.

Далее производится пересчет взвешенных частот терминов в хранилище запросов Qt с учетом нового запроса. Когда пользователь вводит очередной запрос, ключевым словам (терминам) данного запроса назначаются наибольшие веса. При поступлении запроса в хранилище запросов происходит

17 проверка на наличие в хранилище терминов, присущих текущему запросу. Если термин встречается впервые, то при его занесении в хранилище вес остается без изменений, если же такой термин уже существует в хранилище (это означает, что пользователь уже когда-то использовал запрос, включающий данный термин), то производится пересчет весового коэффициента данного термина. В конечном счете происходит нормирование весовых коэффициентов.

Категории интересов С, для включения в текущий профиль извлекаются из хранилища посредством использования методологии PLSA, описанной выше.

Далее представлен пошаговый алгоритм непрерывной корректировки профиля пользователя.

  1. Инициализировать хранилище запросов Qt = {wu, w2/> > wki }, где \vki - термины хранилища запросов, к= 1 ... М.

  2. Выделить набор ключевых терминов текущего запроса.

  3. Скорректировать весовые коэффициенты терминов и произвести их нормировку с учетом нового запроса.

  4. Рассчитать уровень изменчивости ah

  5. Рассчитать условные вероятности классов, используя процедуру ТЕМ следующим образом

,,,,^ 2. p(z)[p(Qi Iz )p(wki Iz )J

z'zZ

6. Рассчитать вероятность категории С, для заданного класса латентного
семантического пространства,

Y,"pfi(z\Q,A)

Q,*Q

Р(С, I z) =

2>(c;,6,)/>,(z|c;,e,)

7. Рассчитать вероятность включения категории С, для текущего состояния хранилища запросов Qt,

18 P(Ci\Qi) = YJP{Ci\z)P(z\Qi)

  1. Занести категорию в профиль пользователя. Для этого включить соответствующую тройку (С,, Wh аі) в профиль, согласно схеме представленной на рисунке 2.

  2. Если уровень изменчивости осі > осо (где ссо заданная величина), то увеличить текущий вес категории С, на величину AWt: W( = Wt + AWt.

10.Отсортировать последовательность троек (С„ Wh #,) в профиле по порядку убывания веса Wt. 11.Сохранить получившийся профиль.

Эффективность методов информационного поиска оценивается на тестовых наборах данных. В течение последнего десятка лет был создан ряд стандартных тестовых наборов данных, которые в настоящее время повсеместно используются для проведения экспериментов в области информационного поиска.

Для исследования описанного алгоритма использовалось 4 набора документов:

MED - 1033 документа из Национальной медицинской бпбпиоте-ки;

CRAN - 1400 документов по авиационной тематике;

САСМ - 3204 статьи из журналов САСМ (Communications of the Association for Computing Machinery - Средства Связи Ассоциации Компьютерной Технологии);

CISI - 1460 из научной библиотеки.

В качестве критериев качества подходов к решению задач информационного поиска используются точность (Precision) и полнота (Recall) ответа. Обозначим через С - коллекцию документов, в которой осуществляется поиск, А - множество документов-ответов на запрос, R - множество истинно релевантных документов

В третьей главе описаны вопросы проектирования активной среды локальной информационной системы. Показан способ формирования модели предметной области и организации модели пользователя таких систем. На основе предлагаемых подходов, представлена системная архитектура ЛИС.

В данной работе предлагается новая концепция описания адаптации АИС. Состояния системы могут быть представлены в виде точки трехмерного пространства, измерениями которого выступают: поведение пользователя (предпочтения и навигация), технология (организация сети и пользовательский терминал), внешнее окружение (время, местоположение, язык и т.п.). Представление предметной области соответствует каждой возможной позиции пользователя в "пространстве изменчивости". После обобщения всевозможных различных требований пользователя к ЛИС, предлагается ввести и в дальнейшем учитывать три ортогональных "измерения изменчивости" (рисунок 4):

Переменные пользователя (они касаются навигации пользователя, предпочтений пользователя и т.п.). На рисунке 4 обозначены В.

Переменные внешнего окружения (время доступа, язык, статус доступа и др.). На рисунке 4 обозначены Е.

Технические переменные (тип сети, характеристики терминала и др.). На рисунке 4 обозначены Т.

Позиция пользователя в пространстве изменчивости характеризуется точкой в трехмерном пространстве с координатами {В, Е, Т). Значения переменных изменяются в пределах конечного алфавита символов. Например, В может принимать значения из множества {новичок, эксперт}, Е - из множества {утро, полдень, вечер, полночь} и Г - из множества {HTML-низкого уровня, HTML-высокого уровня, XML}. Тогда любая точка данного пространства адаптации, например (эксперт, вечер, HTML-высокого уровня), будет соответствовать персонализированному состоянию АИС.

АИС отслеживает возможные источники, которые могут повлиять на позицию пользователя в пространстве адаптации, т.е. возможные значения пе-

20 ременных В, Е, Т. Решение о том, какие характеристики учитывать, принимает разработчик с учетом предметной области. Текущая позиция пользователя (В, Е, Т) достигается посредством отображения. Например, пусть есть п технических переменных, каждая из которых может принимать значения из конечного множества У,(і= 1, ...,«). Тогда можно записать отображение

где Г может принимать l^il*!^!*...*\Vn\ значений, которое будет давать позицию пользователя по оси Т. Функции отображения для технической переменной и переменной внешнего окружения строятся аналогично, в то время как отображение переменной пользователя в профиль пользователя выполняется согласно алгоритму, в котором учитывается вероятностная интерпретация структуры АИС.

Для описания логической структуры АИС в предлагаемой модели предметной области используется многослойная модель данных. Представленная многослойная модель данных АИС содержит следующие абстрактные уровни детализации или слои:

  1. Информационные фрагменты (ИФ) или атомарные понятия/концепты, такие как фрагменты текста, изображения, аудио-фрагменты и т.д. Информационные фрагменты хранятся в базах данных и/или в виде отдельных файлов локально или на удаленных серверах.

  2. Описания представлений (ОП), реализуемые посредством XML документов, хранящихся в XML-репозитарии. ОП описывают информационные фрагменты, включаемые в так называемую единицу представления, и способы отбора и извлечения данных в зависимости от значения некоторых параметров (профиль пользователя, технические характеристики, внешние переменные).

  3. Элементарные абстрактные поііятия/концептьі (ЭАК) описывают более крупные единицы информации. Каждый элементарный абстрактный концепт представляет собой один или более ОП, организованных в

21 виде взвешенного орграфа. Дуги представляют отношения между элементарными понятиями или требования к навигации (т.е. последовательность элементарных понятий необходимых для изучения), в то время как веса отражают их релевантность по отношению друг к другу. 3. Предметная область (ПО). В конечном счете, предметная область образована множеством элементарных абстрактных концептов, организованных в виде орграфа. Дуги представляют отношения между ЭАК; они могут изменяться в зависимости от значений переменной пользователя в пространстве адаптации. Нулевой вес может быть назначен дуге, если она служит только для описания отношений между ЭАК и не используется пользователем в качестве элемента навигации. Моделирование АИС осуществляется посредством представления ее в виде направленного мультиграфа ЭАК. В свою очередь каждый ЭАК представляется взвешенным орграфом ОП, т.е. XML документов.

Разработчику необходимо определить М стереотипных профилей пользователя, определяющих определенный вид ИС. Каждый ЭАК может быть сформирован и представлен с точки зрения М профилей пользователя (в частности один ЭАК может быть релевантен только одному профилю).

Каждый ЭАК с М профилями представляет собой множество из ./V документов XML. При этом документ ieN для каждого профиля к = 1, ...,М содержит множество исходящих ссылок (i,j, к), где у - это конечный узел. Такая структура может быть задана мул ьти графом G, в котором каждый узел соответствует XML документу, а каждая дуга - исходящей ссылке:

G = (N,E), Е= \jLik

і є Л' А=1,...,Л/

Для простоты мультиграф G можно представлять как множество взвешенных орграфов Gk, к = 1, ...,М, получаемых извлечением из G узлов и вершин соответствующих каждому профилю. Каждый такой граф Gk будем называть последовательным навигационным графом.

22 Gk = (Nk,Ek), Nk={i\(iJ,k)eEv(j,i,k)zE}, Ek = {{ij%i,j,k)e e]

Описываемый вероятностный подход предполагает, что вес Wk{i,j) дуги (i,j) - это условная вероятность P(J\ к, /), то есть вероятность того, что пользователь, принадлежащий профилю к, находясь на узле /, выберет ссылку на узел у:

Щі,Л: Ек-+ [0,1]; Wk(i,j) = P{j\ к, І), (/, j) є Ек,к=\,...,М-Р(і\ к, і) = 0, V/, поскольку ссылка не может указывать сама ул себя. Кроме того, для каждого узла і сумма весов исходящих дуг для каждого профиля всегда равна единице:

VieNk 2Х(/,у) = 1Д = 1,...,М.

Путь S в Gk определяется упорядоченное множество узлов: S = { s0, su ..., s,\ (sj, sJ+]) є EkJ = 0, ..., /-1}.

Здесь мы не используем традиционное определение пути в орграфе, поскольку релаксирующее условие (sj, sJ+{) є Ek позволяет рассматривать путь, включающий в себя различные последовательные навигационные графы. Это может произойти в том случае, если пользователь с профилем к, находясь на узле sj, выбирает ссылку на узел Sj+\ и вместе с этим переходит в новый профиль h. В этом случае мы рассматриваем граф G, принимая во внимание условие (sj, Sj+\) є Е^

Вероятность того, что пользователь с профилем к, пройдет по пути S определяется выражением

j=0...l

таким образом, -*s _ это произведение весов дуг пути S. Наикратчайшем пу-

тем Sij между двумя узлами / и j для заданного профиля к является путь с максимальной совместной вероятностью:

л*

Ptj = max(/$ )

«A

где // - путь между узлами і и у для заданного профиля к. Таким образом

может быть вычислен наикратчайший путь для каждого профиля. При неизменных весах дуг в рамках одной сессии работы системы, например, такое вычисление может быть проведено единожды в начале сессии.

Поведение пользователя характеризуется множеством переменных пользователя. Основными из них являются:

Текущий профиль, кс.

Текущая дискретная плотность вероятности А(к), к = Х...М, оценивающая вероятность принадлежности пользователя каждому профилю.

Последние посещенные пользователем узлы R = {Ru ..., Rr_u Rr}, где Rr-\ - текущий узел, Rr - следующий узел. Последняя ссылка, выбранная пользователем для перехода к узлу Rr, ассоциирована с исходящей дугой (Rr-\, Rr, кс).

Время, проведенное пользователем в последних узлах t(R\), ...,

t(Rr->). На основании этих данных система для каждого профиля к рассчитывает следующие значения:

Pr , вероятность следования по пути R для дуг, принадлежащих
профилю к.

л*

РR\Rr, достижимость узла Rr, из узла R\ при условии, используются дуги, принадлежащие профилю к.

D![k], распределение посещенных узлов взвешенное по времени, проведенном пользователем на них с учетом принадлежности этих узлов определенным профилям. Эта величина показывает кгк время, проведенное на каждом из узлов, распределяется с учетом

24 профилей пользователя и, очевидно, показывает насколько данный узел интересен пользователю с данным профилем. Естественно, что для реализации данного подхода необходимо точно измерять время, проводимое пользователем на каждом узле, и сохранять эти данные в течение всего сеанса работы системы.

Большие значения величины Рц означают, что узлы пути R являются

релевантными для профиля к. Достижимость Prxr, следующего узла из начального узла пути R учитывает способ достижения пользователем этого узла. Фактически, высокая достижимость Rr, для профиля к означает, что пользователь достигнет следующего узла наиболее "естественным" путем, следуя ссылкам, соответствующим профилю к.

Временные отклонения от интересов пользователя могут быть учтены

- ы попеременным или совместным использованием влияния значении rR И

PRtRr на величину А(к). Первое учитывает фактический путь и стремится к достижению профиля, соответствующего последних предпочтений пользователя; в то время как последнее стремится нивелировать влияние последних (локальных) выборов пользователя, поскольку кратчайший путь не обязательно содержит посещенные узлы ъ ..., Rr_h Rr}.

Для избежания эффекта "бесконечной памяти", принимаются во внимание только г последних узлов. Например, пусть R - последний путь из пройденных пользователем, вероятность Рц проследовать путем R при активном профиле к будет равна нулю, если пользователь посетил хотя бы один узел, не принадлежащий профилю к. Т.е. считается, что Wk{i,j) = О, если (/,/) g Ек,

к=1,...,М.

Для расчета описанных выше значений конструируются дискретные

плотности вероятности.

Основным отличием предлагаемого подхода при расчете вероятности принадлежности пользователя определенному профилю является использование данных о его динамической активности (величина d{k)) и структурных свойств АИС, главным образом зависящих от ее топологии s{k). Алгоритм расчета новой дискретной плотности вероятности, таким образом, имеет следующую структуру:

Входные значения:

Дискретные плотности распределения А(к), А0(к) и s(k).

Последние посещенные пользователем узлы R = {Ru ..., Rr_h Rr}, где /?r_i - текущий узел, Rr - следующий узел.

Время, проведенное пользователем в последних узлах t(R\), ...,

t{Rr-x). Выходные значения:

Новая дискретная плотность распределения А\к). Основные шаги алгоритма:

  1. Рассчитать новую дискретную плотность распределения d(k).

  2. Рассчитать новую дискретную плотность распределения А'(к) согласно формуле:

Уо+Гі+Уі + ЛГз

\l, если s(k) изменилось где ЛИ

[О, иначе

Новое значение А'(к) рассчитывается как взвешенное среднее четырех значений. В частности, первое учитывает первоначальный выбор пользователя; второе - историю взаимодействия пользователя с системой; третье учитывает индивидуальные особенности пользователя и последнее учитывает структурные свойства АИС. Новый профиль может быть выбран случайным образом согласно распределению, задаваемому А'(к), или соответственно наибольшему значению А'(к).

Разработанной модельно-алгоритмическое обеспечение может быть реализовано в рамках трехслойной архитектуры АИС. Она включает следующие слои: слой представления, слой приложения, слой данных.

На слой представления поступают окончательно сформированные страницы, которые затем будут представлены для просмотра пользователю. Также совместно со страницами на слой представления могут посылаться исполняемые скрипты и апплеты, которые выполняют различные служебные команды, например настройка локального времени, подсчет количества времени, проведенного на узлах, настройка параметров терминала пользователя и т.п.

Слой приложения содержит два основных модуля: сервер АИС и компонент моделирования пользователя, которые работают в совокупности с вебсервером. Компонент моделирования пользователя отслеживает действия пользователя и выполняет алгоритм расчета и настройки профиля пользователя.

Сервер АГС для своей работы использует технологию XSP. Фактически из компонентов XML описаний представления формируются XSP страницы, которые далее хранятся в XML репозитарии. Прежде чем конечная страница в формате XSP будет представлена для просмотра пользователю, она проходит своего рода преобразование, чтобы соответствовать настройкам программного обеспечения терминала пользователя.

Слой данных состоит из уровня источников данных, уровня репозитари-ев и модуля доступа к данным. Уровень источников данных объединяет источники данных различного типа, которые используются при построении конечных гипермедиа-страниц. Каждый из источников данных Si соответствующим образом описан посредством метаданных языка XML.

Уровень репозитариев служит для сохранения данных, предоставляемых уровнем источников данных или самим разработчиком системы. Обычно он включает:

XML документы в XML репозитарии; эти документы могут представлять собой XML описания представлений, сгенерированные и готовые к отправке пользователю XSP описания предстаьлений, шаблоны страниц в формате XSL и XML метаданные.

Подготовленные объекты в репозитарии объектов. Они представляют собой объекты, описывающие последовательные графы навигации и данные о зарегистрированных пользователях.

DTD (Document Type Definition), используемые для валидации XML документов.

И, наконец, в модуль доступа к данным реализует эффективные процедуры доступа и обработки данных уровня репозитариев и уровня источников данных.

Особенности разработки локальных информационных систем

В работе [13] сущность и цель модели студента определяется как "представление некоторых характеристик обучающихся, которые (характеристики) полезны для достижения адекватного индивидуального взаимодействия между компьютерным приложением и студентом". Заменив слово студент словом пользователь, мы получим определение модели пользователя применимое к АГ системам.

Моделирование пользователя при организации адаптивных поисковых систем является достаточно сложной задачей. До настоящего времени не существует единых подходов, методов или стандартов разработки таких моделей. Моделью называется некий объект-заместитель, который в определенных условиях может заменять объект-оригинал, воспроизводя интересующие исследователя свойства и характерней ікм оригинала, причем существенные преимущества удобства [12]. В контексте данной работы, объектом-заместителем является пользователь, который рассматривается в виде совокупности некоторых характеристик. Моделирование пользователя - это процесс, охватывающий весь жизненный цикл существования модели пользователя, от сбора и обработки информации о пользователе до непосредственного формирования модели, ее корректировки и подстройки. Какую именно информацию будет содержать модель пользователя, зависит от множества прикладных задач, для решения которых проектируется данная гипермедиа-система. Как уже было неоднократно сказано, модель пользователя - это представление важных характеристик пользователя (в контексте формирующейся системы) в терминах данной системы. Первоначальные сведения в модель закладывает разработчик системы, который имеет некоторые представления как о будущей аудитории, так и о предметной области для которой система разрабатывается. Нужно понимать, что использование достаточно сложных моделей в адаптивных гипермедиа-системах не всегда целесообразно, так как связано с большими затратами на формирование, проверку адекватности и последующую эксплуатацию. При этом даже простые модели, являющиеся грубой оценкой некоторых характеристик пользователя позволяют в значительной мере повысить функциональность и удобства использования ГС. "Создавая модель пользователя нужно понимать, что она никогда не будет идеальным его отражением, а скорее некоторой грубой аппроксимацией его основных характеристик" [23]. Моделирование пользователя может помочь при решении следующих задач, связанных с гипермедиа-системами: Помощь пользователю при изучении определенной тематики. Предоставление важной для данного пользователя информации. Адаптация интерфейса под пользователя. Помощь пользователю в поиске информации. Поддержка совместной работы. Помощь пользователю при работе с самой системой. 2.1 Характеристики пользователя ПС В настоящее время не существует общепринятого определения понятия "модель пользователя". Но можно выделить два основных подхода к построению такой модели. 1. Под моделью пользователя понимают набор характеристик (параметров) и совокупность правил, которые на основании значений этих характеристик управляют процессом общения системы с пользователем [17]. 2. В других классах систем под моделью пользователя обычно понимают набор параметров, измеряемых во время работы системы с пользователем и определяющих степень усвоения им информации по рассматриваемой предметной области. На самом деле, понимание модели пользователя как набора параметров — это слишком узкое понимание. Без учета методов, которые работают с данным набором характеристик, этот набор теряет смысл. Следовательно, модель пользователя можно определить как совокупность набора характеристик пользователя и методов (правил) обработки этого набора.

В гипермедиа-системах эти правила привязаны к конкретной предметной области, что позволяет более качественно имитировать общение пользо 45 вателя со специалистом в данной предметной области. Адаптивная гипермедиа-система, в общем случае, не должна быть ориентирована на конкретную предметную область, поэтому и назначение правил, входящих в модель пользователя, должно быть другим. В первую очередь эти правила должны проводить изменения самой модели пользователя по результатам его работы с системой. Это позволит разработчику системы управлять формированием этой модели, т.е. осуществлять алгоритмическую настройку без программирования.

Частотная терминологическая модель пользователя

Локальные информационные системы, как уже отмечалось ранее представляют собой информационную систему, описывающую определенную (как правило, достаточно узкую) предметную область. К таким системам можно отнести корпоративные информационные системы, специализированные Интернет сайты или электронные учебные пособия. ЛИС создаются с использованием Интернет-технологий, т.е. разбиение информации на блоки и фрагменты (текст, изображения, аудио-, видео-фрагменты и тп). Кроме того, для организации доступа пользователя к тому или иному информационному блоку ЛИС используется механизм ссылок. Все вышеизложенное приводит к тому, что мы можем описывать ЛИС как гипермедиа-систему.

Механизм ссылок в гипермедиа-системах дает пользователю абсолютную свободу навигации в смысле выбора пути следования по узлам или страницам гипермедиа-системы. Такая свобода требует более тщательно/і организации логической структуры гипермедиа и, кроме того, включения некоторых инструментов динамической поддержки навигации [79].

Более того, в настоящее время, в гипертекстовых мультимедиа системах (гипермедиа-системах) все чаще возникает проблема персонализации представления и содержимого (т.е. адаптация гипермедиа-системы к требованиям и задачам пользователя).

Необходимость адаптации появляется вследствие различных аспектов взаимодействия пользователя с гипермедиа-системой. Классы пользоьгтелей, работающих с данной системой, могут быть крайне неоднородны, что объясняется различием их интересов, целей, уровня подготовки и т.п. Гипермедиа-системы должны быть доступны из различных пользовательских терминалов, которые могут отличаться не только с точки зрения установленного на них программного обеспечения, но и с технической точки зрения (например, наличие специализированного оборудования). Организация сети (например, проводная/беспроводная) и другие "околосетевые" условия могут в значительной мере влиять на удобство взаимодействия.

Для решения проблем взаимодействия пользователя с гипермедиа-системами и персонализации такого взаимодействия возникла и активно развивается в настоящее время область исследований называемая адаптивные гипермедиа системы (АГС) [25].

Базовыми компонентами АГС являются модель предметной области (МПО), модель пользователя (МП) и методы (способы, технические приемы) адаптации. Модель предметной области служит для описания базовых компонентов содержимого гипермедиа-системы, а также их организацию. Другими словами, МПО описывает структуру предметной области, т.е. совокупность элементов, отражающих основные компоненты (концепты), и их взаимосвязи в рамках рассматриваемой предметной области. В дополнение к традиционным моделям (например, разработанным в таких областях как человеко-машинное взаимодействие или базы данных), при моделировании адаптивных гипермедиа-систем требуется учитывать различные источники влияния на процесс адаптации. Наиболее подходящим для моделирования предметной области в гипермедиа-системах является дата-центрический подход, и во многих исследованиях используются хорошо известные методы моделирования баз данных [3].

Адаптация представления к модели пользователя в общем случае может быть разделена на непосредственно адаптивное представление, т.е. манипулирование информационными фрагментами, и адаптивная поддержка навигации, т.е. манипуляция ссылками, представляемыми пользователю [25]. Во многом из-за необходимости построения модели пользователе, которая должна отражать текущие потребности пользователя в процессе его взаимодействия с системой, процесс адаптации выливается в сложную задачу. Для создания адаптивного гипермедиа-приложения (АГС), необходимо предложить модульный и масштабируемый подход для описания процесса адаптации. В частности необходимо проработать следующие вопросы: Модель адаптивной гипермедиа и схема адаптации должны описывать гипермедиа-систему таким образом, чтобы все переменные системы, изменяющиеся во времени (т.е. настраиваемые в процессе работы), были очевидны. Модель пользователя должна отражать не только явные характеристики пользователя (например, данные, собираемые во время работы пользователя с системой), но и другие неявные аспекты, относящиеся к его программному окружению и характеристикам терминала. Архитектура системы должна быть легко масштабируемой, т.е. разрешать добавление элементов функциональности без серьезных изменений в структуре и сохранении работоспособности системы. В данной работе представлена новая модель для описания адаптивных гипермедиа-систем, XML-ориентированная модель адаптивной гипермедиа (Х-МАГ), которая позволяет описывать: Логическую структуру и содержимое адаптивной гипермедиа, с выделением различных адаптируемых в процессе работы системы элементов гипермедиа.

Алгоритм непрерывной корректировки профиля пользователя

В диссертационной работе рассмотрены характерные черты поисковых систем (глава 1), а также подробно охарактеризованы прикладные области такого рода систем. Одной из важнейших составляющих адаптивной ПС является модель пользователя. Проведенный анализ соответствующей литературы, а также конкретных реализаций ПС, привел к выводу, что в настоящее время отсутствуют эффективные способы описания пользователя ПС, во многом это касается неоднозначности в определении важности характеристик пользователя, которые должны быть отражены в модели.

Поскольку по своей сути поисковые сервисы направлены на поиск и предоставление информации пользователю по определенной предметной области, было предложено отражать именно "информационные" интересы в модели пользователя (глава 2). Схема организации профиля пользователя, представляется множеством троек вида: (Категория интересов, Текущий вес категории, Уровень изменчивости). При этом профиль делится на две группы (два подпрофиля): краткосрочный и долгосрочный для учета краткосрочных и долгосрочных интересов пользователя. Представление модели пользователя в таком виде позволило применить для оценки релевантности документов хорошо зарекомендовавшую себя в информационном поиске методологию вероятностного латентно-семантического анализа (PLSA).

Предложенный способ организации модели пользователя позволил разработать алгоритм непрерывной корректировки данной модели с учетом новой информации, получаемой при взаимодействии пользователя с системой (глава 2). Разработанный алгоритм адаптивной подстройки модели на основе новых данных текущего запроса с использованием методологии вероятностного латентного семантического анализа (PLSA) позволяет корректировать параметры модели на основе семантической близости терминов нового запроса и текущего терминологического базиса.

Проведенные эксперименты показали, что использование предлагаемого подхода позволяет повысить качество поиска. После выявления круга интересующих пользователя вопросов на основании его работы с поисковым сервисом, осуществляется последующий переходе к работе со специализированными информационными ресурсами. Аналогом таких систем можно считать специализированные Интернет-сайты, корпоративные информационные системы или электронные учебники, создаваемые преподавателями в рамках своего учебного курса в системах открытого образования. При создании таких электронных пособий используются принципы и технологии Интернет: разделение информации на блоки и связывание блоков посредством механизма ссылок. В работе представлена новая модель для описания активной среды локальной информационной системы (глава 3). Организация АИС описывается посредством разных логических уровней, нескольких уровней детализации; верхний (абстрактный) слой описывается посредством взвешенного орграфа выделенных понятий (концептов), нижний (физический) слой составлен из XML документов, образующих конечные страницы гипермедиа. Страница (или мультимедиа-страница) - это своего рода контейнер, содержащий базовые мультимедиа фрагменты, извлеченные из различных источников и описанные на уровне метаданных языка XML. В работе предлагается новая концепция описания АИС. Состояния системы могут быть представлены в виде точки трехмерного пространства, измерениями которого выступают: поведение пользователя (предпочтения и навигация), технология (организация сети и пользовательский терминал), внешнее окружение (время, местоположение, язык и т.п.). Представление предметной области соответствует каждой возможной позиции пользователя в "пространстве адаптации". Представленные в работе способы описания модели пользователя, а также логической структуры предметной области, реализуются посредством предложенной трехслойной модульной масштабируемой системной архитектуры АИС. Таким образом, поставленная в диссертационной работе цель достигнута и задачи решены. Основные результаты работы заключаются в следующем: - проведен анализ существующих подходов к организации поисковых систем и принципов построения персонализированных интерфейсов с использованием модели пользователя; - впервые предложен способ организации адаптивной поисковой системы с использованием модели пользователя и алгоритм непрерывной корректировки модели с учетом новых запросов на основании методологии вероятностного латентно-семантического анализа; - впервые предложена многослойная логическая структура для описания адаптивной среды локальной информационной системы, предложен способ формирования модели пользователя ЛИС и алгоритм корректировки параметров модели (актуализация модели); - на основе предложенного способа описания предметной области и способа формирования модели пользователя разработана модульная масштабируемая системная архитектура активной среды ЛИС; - выполнена и успешно апробирована на практике программная реализация разработанных алгоритмов.

Многослойная логическая структура ЛИС

На слой представления поступают окончательно сформированные страницы, которые затем будут представлены для просмотра пользователю. Также совместно со страницами на слой представления могут посылаться исполняемые скрипты и апплеты, которые выполняют различные служебные команды, например настройка локального времени, подсчет количества времени, проведенного на узлах, настройка параметров терминала пользователя и т.п.

Слой приложения содержит два основных модуля: сервер адаптивной гипермедиа-системы и компонент моделирования пользователя, которые работают в совокупности с веб-сервером. Компонент моделирования пользователя отслеживает действия пользователя и выполняет алгоритм расчета и настройки профиля пользователя.

Сервер АГС для своей работы использует технологию XSP. Фактически из компонентов XML описаний представления формируются XSP страницы, которые далее хранятся в XML репозитарии. Прежде чем конечная страница в формате XSP будет представлена для просмотра пользователю, она проходит своего рода преобразование, чтобы соответствовать настройкам программного обеспечения терминала пользователя.

Слой данных состоит из уровня источников данных, уровня репозитариев и модуля доступа к данным. Уровень источников данных объединяет источники данных различного типа, которые используются при построении конечных гипермедиа-страниц. Каждый из источников данных Si соответствующим образом описан посредством метаданных языка XML.

Уровень репозитариев служит для сохранения данных, предоставляемых уровнем источников данных или самим разработчиком системы. Обычно он включает: XML документы в XML репозитарии; эти документы могут представлять собой XML описания представлений, сгенерированные и готовые к отправке пользователю XSP описания представлений, шаблоны страниц в формате XSL и XML метаданные. Подготовленные объекты в репозитарии объектов. Они представляют собой объекты, описывающие последовательные графы навигации и данные о зарегистрированных пользователях. DTD, используемые для валидации XML документов. И, наконец, в модуль доступа к данным реализует эффективные процедуры доступа и обработки данных уровня репозитариев и уровня источников данных. Для эффективной реализации описанной выше адаптивной гипермедиа-системы (определения структуры и формирования содержимого) необходим соответствующий инструментарий разработчика. Такой инструментарий в рамках предлагаемой системной архитектуры реализуется в виде модуля разработчика (рисунок 4.3). Он должен позволять создавать и тестировать (на предмет синтаксической и семантической корректности) XML документы, реализующие описания представлений гипермедиа и объекты (заранее подготовленные фрагменты данных разного типа), описывающие элементарные абстрактные понятия гипермедиа. Основными компонентами модуля разработчика являются: Компонент моделирования гипермедиа, который позволяет осуществлять визуальное проектирование структуры адаптивной гипермедиа-системы в виде орграфа ЭАК, а каждый ЭАК в виде взвешенного орграфа ОП. В частности, он позволяет назначать веса дугам и предоставляет набор процедур относительно общей вероятностной структуры гипермедиа. Валидатор3 объектов графа, который служит для проверки синтаксиса и семантики описания гипермедиа в виде графа, генерирует статичные объекты (т.е. объект, существующий в файле, базе данных или пересылаемый в сети, время жизни которого не ограничено временем выполнения создавшей и использующих его программ), которые затем помещаются в репозитарий объектов.

Похожие диссертации на Модельно-алгоритмическое обеспечение адаптивного поиска информации в распределенных информационных системах