Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Научно-методические основы автоматизации проектирования информационной архитектуры Web-ресурсов Интернет Мальцева Светлана Валентиновна

Научно-методические основы автоматизации проектирования информационной архитектуры Web-ресурсов Интернет
<
Научно-методические основы автоматизации проектирования информационной архитектуры Web-ресурсов Интернет Научно-методические основы автоматизации проектирования информационной архитектуры Web-ресурсов Интернет Научно-методические основы автоматизации проектирования информационной архитектуры Web-ресурсов Интернет Научно-методические основы автоматизации проектирования информационной архитектуры Web-ресурсов Интернет Научно-методические основы автоматизации проектирования информационной архитектуры Web-ресурсов Интернет Научно-методические основы автоматизации проектирования информационной архитектуры Web-ресурсов Интернет Научно-методические основы автоматизации проектирования информационной архитектуры Web-ресурсов Интернет Научно-методические основы автоматизации проектирования информационной архитектуры Web-ресурсов Интернет Научно-методические основы автоматизации проектирования информационной архитектуры Web-ресурсов Интернет
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Мальцева Светлана Валентиновна. Научно-методические основы автоматизации проектирования информационной архитектуры Web-ресурсов Интернет : Дис. ... д-ра техн. наук : 05.13.12 : Москва, 2004 488 c. РГБ ОД, 71:05-5/314

Содержание к диссертации

Введение

Глава 1. Концепция информационной архитектуры Web-pecypca и проблемы автоматизации ее проектирования 30

1.1 Особенности Web-ресурсов Интернет как объектов проектирования 31

1.1.1 Жизненный цикл Web-ресурсов Интернет 32

1.1.2 Принципы и методы проектирования Web-ресурсов как программно-информационных продуктов 39

1.2. Анализ процесса потребления информации ресурсов Интернет 52

1.2.1 Потребительские характеристики информации и информационных услуг 53

1.2.2 Тематические особенности информационных ресурсов Интернет 54

1.2.3 Особенности потребления информации, как особого вида товара 55

1.2.4. Особенности целевой аудитории Интернет-ресурсов 57

1.2.5 Цели присутствия в Сети 59

1.2.6 Процесс потребления информации 60

1.3 Определение информационной архитектуры Web-ресурсов Интернет 70

1.3.1 Анализ принципов выделения структурных компонент Web-pecypca 73

1.3.2 Системная декомпозиция Web-ресурсов 79

1.3.3 Методы оценки и критерии качества информационной архитектуры 85

1.4 Средства автоматизации проектирования Web-ресурсов 96

Выводы к главе 1 100

Глава 2. Разработка формализованного описания информационной архитектуры Web-ресурсов Интернет и задач ее проектирования 103

2.1 Методы моделирования Web-ресурсов Интернет 104

2.1.1 Модели гипертекстовых документов 105

2.1.2 Моделирование взаимодействия с пользователем 108

2.1.3 Моделирование пользовательской аудитории ПО

2.2 Разработка формализованной модели предметной области и модели внешнего представления Web-pecypca.

2.2.1 Формализованная модель предметных областей пользователей и спецификаций информационных требований пользователей 112

2.2.2 Разработка внутренней модели информации Web-pecypca 120

2.2.3 Разработка внешней модели информации Web-pecypca 125

2.3 Оценка информационной архитектуры на основе информации внутренней и внешней моделей 129

2.4 Задачи модернизации информационной архитектуры Web-ресурсов 134

Выводы к главе 2 137

Глава 3. Построение модели предметной области Web-pecypca на основе автоматизированных процедур лингвистического анализа электронных документов 139

3.1 Анализ методов лингвистического анализа документов 140

3.1.1 Модели набора документов 145

3.1.2 Методы выделения терминоподобных слов и терминов в наборе документов 149

3.1.3 Выделение многословных терминов 155

3.1.4 Особенности анализа содержания текстовых элементов файлов 158

3.2 Формирование набора терминов в автоматизированном режиме .159

3.2.1 Оценка веса терминов 164

3.2.2 Выделение синонимов 167

3.2.3 Идентификация связей между терминами 169

3.3 Формальное описание семантической модели предметной области проектируемого Web-pecypca 172

3.4 Методика автоматизированного формирования семантической модели предметной области Web-pecypca 179

3.5 Особенности применения технологий извлечения информации при формировании множества информации об объектах модели предметной области 184

3.5.1 Применение технологий text mining и Web mining 184

3.5.2 Применение технологий контент-анализа 188

3.5.3 Определение множества информации об объектах на основе предварительного аннотирования набора документов семантической модели 191

Выводы к главе 3 194

Глава 4. Автоматизация формирования внешней модели ресурса на основе семантической модели 196

4.1 Методика формирования множества информационных элементов внешней модели ресурса 197

4.1.1 Формирование множества информационных элементов на основе кластеризации терминов семантической модели 199

4.1.2 Формирование множества информационных элементов на основе предварительного аннотирования набора документов семантической модели ресурса 206

4.2 Определение весов информационных элементов и связей между ними 211

4.3 Распределение информационных элементов по страницам сайта 213

4.3.1 Виды связей между информационными элементами и их отображение в структуре сайта 214

4.3.2 Декомпозиция множества информационных элементов на комплексы страниц сайта 221

4.4 Методика формирования внешней модели Web-pecypca 231

4.5. Методика оценки проекта информационной архитектуры на основе разработанных моделей 234

Выводы к главе 4 236

Глава 5. Принципы и методы размещения информации на страницах Web-pecypca ...238

5.1 Принципы размещения информации на экране дисплея 239

5.2 Элементы и принципы компоновки страниц Web-ресурсов Интернет 245

5.2.1 Информативность элементов страниц сайта 246

5.2.2 Классификация элементов страницы по способу обработки электронной информации 247

5.2.3 Типовые компоновки страниц сайтов 254

5.2.4 Принципы художественного оформления страниц сайтов 256

5.2.5 Влияние на компоновку страниц технических ограничений 257

5.3 Метод и алгоритм размещения информации на странице Web-pecypca 259

5.3.1 Постановка задачи размещения информации на странице 259

5.3.2 Метод решения задачи размещения прямоугольных областей на полосе ограниченной ширины 265

5.3.3 Программная реализация алгоритма размещения информационных элементов на странице гипертекста 269

5.4 Методика оценки размещения информации на странице Web-pecypca 271

5.4.1 Оценка размещения информации в поле экрана 272

5.4.2 Оценка размещения информации на странице гипертекста 277

Выводы к главе 5 280

Глава 6. Автоматизация модернизации информационной архитектуры Web-ресурсов 282

6.1 Интеграция задач проектирования и модернизации информационной архитектуры Web-ресурсов 282

6.1.1 Особенности сопровождения Web-ресурсов на этапе эксплуатации 283

6.1.2 Изменяемые компоненты информационной архитектуры ресурса 290

6.1.3 Типовые функции программных средств управления информационным содержанием Web-ресурсов 295

6.1.4 Состав задач модернизации информационной архитектуры 299

6.2 Использование семантической модели ресурса для определения состава и содержания его модернизации 300

6.2.1 Особенности задач классификации документов при модернизации семантической модели Web-pecypca 301

6.2.2 Классификация документов при модернизации ресурса 307

6.2.2.1 Принципы поиска документов для расширения семантической модели 302

6.2.2.2 Кластеризация. документов.семантической модели ресурса 310

6.2.2.3 Классификация при добавлении нового документа 313

6.2.2.4 Удаление и изменение документов характеристического набора 316

6.3 Автоматизация проектирования и управления модернизацией информационной архитектуры Web-pecypca на основе разработанных методов 317

6.3.1 Информационное обеспечение принятия решений по модернизации и реинжинирингу информационной архитектуры Web-pecypca 317

6.3.2 Организация хранилища данных системы автоматизированного проектирования и модернизации Web-ресурсов 322

6.3.3 Структура системы автоматизированного проектирования и модернизации Web-ресурсов 326

6.3.4 Управление проектами Web-ресурсов в системе 334

6.4 Оценка эффективности методов и средств проектирования и модернизации информационной архитектуры Web-ресурсов 338

6.4.1 Характеристики выполненных проектов 338

6.4.2 Оценка эффективности выполненных проектов 338

Выводы к главе 6 341

Заключение 347

Список использованных источников. 349

Введение к работе

Одной из основных особенностей конца XX столетия, определившей прогресс в третьем тысячелетии, является стремительный рост объема информационных—ресурсов—Решающую—роль -в—этом—процессе играет сеть Интернет, и, в первую очередь, World Wide Web.

Сегодня Интернет - это конгломерат сетей, соединенных друг с другом, который обеспечивает пользователям разнообразные виды информационного сервиса: пересылку файлов и сообщений, удаленный доступ, сеансовый и интерактивный режим работы, бизнес-информацию, новости и т.д.

Количество пользователей Интернет на сегодняшний день составляет примерно 560 млн. По прогнозу исследовательской фирмы Computer Economics к 2005 г. в мире будет более 830 млн. пользователей Интернет.

Россия занимает 15-е место в мире по числу пользователей в Сети. Согласно статистическим данным, всего в России насчитывается 8 миллионов пользователей Интернет, из которых 4 миллиона 300 тысяч - постоянные. С 1998 по 2001 год российская аудитория сети Интернет увеличилась в пять раз, и в настоящий момент пользователями Сети хотят стать еще 36 миллионов россиян. Без преувеличения можно сказать, что сегодня информационные ресурсы Интернет используются практически во всех сферах человеческой деятельности, анализ их содержания, во многом, определяет принятие решений, как в научно-технической области, так и в бизнес-процессах.

Основная часть информационных ресурсов Интернет сосредоточена в WWW.

Компания Inktomi и NEC Research по результатам проведенного исследования Интернет выявили, что в сети содержится уже более 1 млрд. документов. В российском сегменте по исследованию Руметрики количество уникальных документов более 67 млн.

Web-ресурсы представляют собой совокупность гипертекстовых документов, по сути, являясь огромной гипертекстовой базой данных. Наличие ссылок обеспечивает переход от одного документа к другому, что позволяет объединить в единую структуру большое количество связанных между собой документов.

Термин «гипертекст» был введен для описания документов, выражающих нелинейную структуру идей, в противоположность традиционной линейной структуре книг и речи, Тедом Нельсоном в 1965 году [176]. Сегодня существует множество определений этого термина [4, 29, 39, 76, 176],

В основе гипертекстовых документов World Wide Web - язык HTML (Hyper Text Markup Language) [4], разработанный Тимом Бернерс-Ли (Tim Berners-Lee), и стал популярным благодаря броузеру Mosaik, разработанному в NCSA. В 90-е годы прошлого века он широко распространился и расширился.

Возможность встраивать в гипертекстовые документы различные объекты позволила использовать для представления информации практически любые формы и средства, что сделало информационные ресурсы Интернет разнообразными и привлекательными для пользователей.

Сегодня можно отметить следующие тенденции развития Интернет, которые определяют актуальность исследований в этой области:

- расширение сферы и интенсивности использования информации Интернет при решении различных задач, в первую очередь, задач прогнозирования, планирования и управления;

- возросшая конкуренция между ресурсами, особенно крупными, в области предоставления информации и информационного сервиса;

- усиление роли Web-ресурсов в рекламных и маркетинговых стратегиях их владельцев;

- перемещение некоторых бизнес-процессов в виртуальную среду, что связано с развитием Интернет-технологий;

- резкое увеличение спроса на Web-проекты.

Перерождение значительной части Интернет из информационной среды в рекламно-информационную и использование при создании Web-ресурсов методов, применяемых в рекламе, привело, наряду с резким ростом количества ресурсов и пользователей Интернет, также к ряду негативных последствий: преимущественной концентрацией внимания пользователя на визуальных эффектах, а не на информационном содержании сайтов; недостоверной или непроверенной информацией; попытками оказывать влияние на вкусы, потребности и мотивацию пользователей с целью реализации собственных бизнес-стратегий. Все это, так же как и традиционная реклама, часто вызывает ф р акцию__отторжения_у__аудитории _Последние. годы, отмечены повышенным интересом к оформлению сайтов и развитием исследований по оценке их привлекательности для пользователей. Огромные объемы информации, обрушивающиеся на пользователей Интернет, в условиях невысокой релевантности, обеспечиваемой большинством поисковых систем, породили стиль взаимодействия пользователя с Интернет-ресурсами, характеризующийся беглым просмотром страниц, игнорированием долго загружающихся элементов: анкет, систем регистрации, прямой рекламы. Сайты, содержащие большие объемы текстовой информации, признаются скучными большинством исследований пользовательского поведения в Сети и не могут рассчитывать на большое количество повторных посещений.

ф Изучение восприятия информации человеком при просмотре Web-страниц ведется с 1994 года. Наиболее известны результаты исследований Якоба Нильсена [79,156], руководителя компании Nielsen Norman Group (http://www.nngroup.com), а до 1998 года - ведущего инженера и специалиста по Web-usability в Sun Microsystems, а также работы П. Морвиля, Л. Розенфельда [133], Д. Нормана [180], У. Вудсона, Д. Коновера [19], рекомендации фирм Microsoft [152], Apple [118] и других. Отечественные исследования в области пользовательского восприятия сайтов начали развиваться несколько позднее, чем за рубежом. Сегодня их результаты, большей частью, представлены в Интернет - источниках, (наиболее известны работы А. Лебедева (http://www.design.ru), Я. Перевалова (http://usabilyty.ru), В. Головача (http://www.usethics.ru)). Однако имеется значительное количество исследований, посвященных пользовательскому Ъ восприятию информации, представленной на экране компьютера, которые являются теоретической базой для разработки оценок пользовательского восприятия сайтов [5, 7, 28, 31, 40, 41, 83, 89, 97 и др.]

Системы персонализации и кастомизации Web-ресурсов, получившие значительное развитие в последние годы [16, 123, 131, 160, 183, 188], нацелены на устранение дискомфорта пользователя Сети, однако они, по сути, ограничивают _информационное__пространство_ пользователя, поэтому часто сами по себе вызывают негативное отношение, как при скрытом, так и при открытом исследовании пользовательских интересов.

Согласно данным исследования аудитории мирового Интернета (The Internet Monitor), проведенного MASMI Research совместно с Pro Active International, свои персональные данные на сайтах оставляют 47% пользователей в Европе (в России этот показатель несколько выше - 52%).

Несмотря на отмеченные проблемы сегодняшней Сети, Web-ресурсы Интернет представляют сегодня самое большое хранилище информации и являются прообразом единого информационного пространства [38].

Перед создателем информационного Web-pecypca стоит сложная задача -донести информацию до пользователя, сделав ее форму настолько привлекательной, чтобы пользователь осознал ее полезность и необходимость для себя. По сути, это задача рекламирования информационного продукта в условиях жесткой конкуренции с множеством других производителей.

В указанном аспекте дизайн большинства сайтов признается неудачным (до 90% - по высказываниям в Интернет). Повышение качества дизайна сайтов, улучшение пользовательских характеристик ресурсов связывают сегодня не с художественным оформлением, а с проработкой его информационного наполнения.

В значительной мере решение этой задачи сводится к поиску варианта декомпозиции информационного пространства создаваемого ресурса, поиску последовательности представления выделенных частей и определению формы их представления. Важность этих задач для Web-ресурсов Интернет привела к выделению их в область самостоятельных исследований, а именно, к исследованиям информационной архитектуры Web-ресурсов.

Термин «информационная архитектура» был введен в обращение Ричардом Вурманом [153] еще в 1976 году, им же были определены задачи информационного архитектора. Интерес к информационной архитектуре в 90-х _щдах_прошлого столетия_ь1л_связан,_в._основном,_с„интенсивным „развитием информационных систем предприятий и организаций и информатизацией бизнес-процессов.

Сегодня имеется обширная литература по этому вопросу [45, 79, 121, 168 и др.], а также широкий спектр программных средств для автоматизации проектирования информационных систем [52, 81, 84, 121, 141,148, 151].

Концепция информационной архитектуры сайтов начала интенсивно разрабатываться несколько позднее, в конце девяностых годов двадцатого столетия, что в первую очередь связано с интенсивным ростом объема ресурсов Интернет.

Особо значительное место занимают труды Л.Розенфельда и П.Морвиля [133,165], Дж.Дж.Гарретта [131], Р.С. Хилца и М. Турофа [132], Е.И.Рейса [142], а также членов возглавляемой Розенфельдом Argus Associates [158] и Argus Center for Information Architecture. Большое значение для развития концепции ИА, имеет подготовленный ассоциацией Argus глоссарий по информационной архитектуре [159]. Имеется большое количество публикаций в периодических и Интернет-источниках [138, 149,160,161,163,164, 167, 171,172, 183 и др.]

Наряду с публикациями, затрагивающими вопросы, связанные с информационной архитектурой Web-ресурсов, в отечественных и зарубежных источниках значительное место уделяется вопросам, связанным с ее проектированием и оценкой. Это работы по моделированию и автоматизированному проектированию гипертекстов, как основы сайтов, (работы В.П. Морозова, В.П. Тихомирова, Е.Ю. Хрусталева, Ф.Чудинова, Дж.Гарретта), упоминавшиеся выше работы по изучению восприятия человеком информации Web-ресурсов (работы А. Лебедева, Я. Перевалова, В. Головача, Я. Нильсена , П. Морвиля, Л. Розенфельда, Д. Нормана, У. Вудсона, Д. Коновера, рекомендации фирм Microsoft, Apple и других), оценке эффективности Web-ресурсов, управлению их эксплуатацией и развитием. В Интернет существует значительное количество сайтов и дискуссионных форумов, где обсуждаются вопросы проектирования сайтов, в том числе и вопросы их информационной архитектуры.

Сегодняиадача_проектирования_информационной архитектуры оценивается большинством авторов и разработчиков как центральная задача процесса создания сайта.

Показательно, что в глоссарии по информационной архитектуре [159] выделены понятия "маленький информационный архитектор" и "большой информационный архитектор". Если задачей первого является руководство процессом разработки обратной информационной архитектуры, что, по сути, сводится к задаче управления контентом в сложившейся архитектуре сайта, то задачу большого информационного архитектора составляет стратегическое управление проектом Web-pecypca. Появление больших информационных архитекторов знаменует перевод задач проектирования информационной архитектуры из задач второго плана (после художественного проектирования) на центральное место в проекте.

Несмотря на интенсивность работ в области информационной архитектуры сайтов, сегодня многие вопросы в ней остаются нерешенными.

В первую очередь, это касается самого определения концепции информационной архитектуры, которую разные авторы определяют по-разному. Сложность ее определения связана с тем, что современные Web-ресурсы уже на являются просто гипертекстом, обеспечивающим взаимодействие с пользователем за счет активных компонент. Сегодня это сложные системы, включающие базу данных, подсистему интерфейса пользователя, ряд административных и прикладных подсистем, таких как подсистема управления информационным содержанием, авторизации, поисковая, персонализации, сбора и анализа статистики посещений и т.д. Имеются проекты, включающие средства проектирования, позволяющие производить модернизацию структуры сайта. Поэтому первой задачей, решаемой в диссертации является определение и формальное описание информационной архитектуры Web-pecypca, как сложной системы, и формализация задач ее проектирования.

Многообразие требований, предъявляемых к Web-pecypcy программно аппаратной_-средой,_пользовательской -аудиторией _и его .владельцами или спонсорами, часто включает противоречивые группы требований, баланс которых является практически недостижимой задачей для проектировщика сайта. Существующие методики проектирования поэтому, в основном, ориентированы на какую-либо одну группу требований, например, обеспечение комфортной работы пользователя (эргономическое проектирование) или реализацию бизнес-стратегий владельцев ресурса.

Основными этапами любой методики проектирования информационной архитектуры сайта являются те же этапы, которые выделяются в процессе создания любого программного обеспечения: это анализ, разработка и внедрение, однако, методы проведения этих этапов различаются в зависимости от требований, которые предъявляются к ресурсу на этапе анализа, так что каждый из них может включать различный набор решаемых задач.

При решении задачи проектирования информационной архитектуры можно выделить две основные задачи:

1. Декомпозиция информационного пространства ресурса на множество семантически целостных информационных элементов;

2. Разбиение множества информационных элементов на подмножества, объединенные семантическими и перцептивными связями (синтез страниц сайта).

Дополнительными задачами являются задачи, связанные с созданием удобного интерфейса пользователя: организацию поиска информации, разработку навигационных элементов. Можно отметить, что эти задачи являются вторичными, так как после решения двух первых задач определяются все связи между компонентами сайта и при решении двух других задач вопрос стоит только о способе визуализации этих связей.

Сложностью решения задач проектирования информационной архитектуры является отсутствие четких критериев и методов оценки, как проекта в целом, так и его информационной архитектуры. Большинство существующих методов оценивают завершенный проект сайта на основе эмоционального восприятия его пользовательской аудиторией [124, 130, 135, 144, 163, 167, 173], что предполагает наличие—законченного—художественного оформления Оценка незавершенного проекта, что и представляет собой информационная архитектура, вызывает значительные трудности. Существующие для этого методики в большей степени ориентированы на оценку отдельных компонентов, нежели всего проекта в целом. Важность информационной архитектуры для последующих эксплуатационных характеристик Web-pecypca делает необходимой разработку методов ее оценки, позволяющих моделировать пользовательское поведение уже на этапе разработки.

Определение методов решения указанных задач проектирования и оценки информационной архитектуры является второй задачей, решаемой в диссертационной работе.

Высокие требования к актуальности информации Web-ресурсов, конкуренция между ресурсами, рекламные и маркетинговые составляющие ресурсов, делают их главной особенностью, как программно-информационных продуктов, необходимость частой модернизации на этапе эксплуатации. Это делает необходимым интеграцию задач проектирования и эксплуатации в используемых методах поддержки их жизненного цикла. Поэтому третьей задачей, решаемой в диссертационной работе, является исследование задач эксплуатации и модернизации Web-ресурсов и разработка научно-методических основ управления развитием Web-ресурсов и их модернизации на этапе эксплуатации.

Четвертой задачей диссертации является разработка и применение методов, обеспечивающих автоматизированное проектирование и модернизацию информационной архитектуры Web-ресурсов. Необходимость решения этой задачи определяется резким увеличением спроса на Web-ресурсы и необходимостью повышения их качества, что невозможно без применения формализованных методов для анализа и обоснования принимаемых решений.

.Автоматизированное проектирование Web-ресурсов определяется рядом технологий. К ним в первую очередь, относятся:

- - технологии структурного анализа информационного пространства предметной-области; __ __. ._ технологии баз данных для хранения, как информационного содержания Web-pecypca, так и метаданных проекта;

- технологии автоматизации программирования для реализации отдельных компонент информационной архитектуры в виде программного кода на соответствующих языках, в первую очередь, HTML и языках написания скриптов.

Конкретные реализации этих методов в виде отдельных методик и САПР поддерживают методологию прямого или обратного проектирования, которым соответствуют определения прямой и обратной информационной архитектуры. Наиболее распространены и являются исторически более ранними САПР, поддерживающие обратное проектирование, «выросшие» из задач управления информационным наполнением ресурса на этапе эксплуатации. Однако, большинство новых систем ориентировано на методологии прямого проектирования, позволяющие обеспечить более высокие потребительские свойства ресурса как информационного продукта и упростить его последующую структурную модернизацию и расширение.

Несмотря на большое количество систем и отдельных программ, позволяющих автоматизировать как решение отдельных задач проектирования Web-ресурсов, так и комплексное ведение проекта, можно отметить следующие проблемы проектирования Web-сайтов, отмечаемые большинством исследователей сети:

1. Высокая степень автоматизации проектирования Web-ресурсов достигается, в основном на поздних этапах жизненного цикла продукта, а именно, на этапах реализации и сопровождения (модернизации). Начальные этапы, связанные с анализом требований и разработкой информационной архитектуры автоматизированы в очень малой степени, в основном, на уровне отдельных подзадач..

2. Отсутствуют методы оценки информационной архитектуры Web- ресурсов, позволяющие получать комплексную оценку информационной архитектуры на основе оценок отдельных ее элементов и пригодные для

3. __ислользования какла ранних таклла.поздних тапах проектирования Существующие методы проектирования Web-ресурсов только декларативно опираются на моделирование интересов трех групп пользователей Web-pecypca: потребителей, владельцев и разработчиков. Ориентация ресурсов на широкий круг потребителей делает большинство методик малоэффективными для проектирования. По сути, моделирование подменяется работой эксперта в определенной предметной области или копированием сайтов конкурентов.

4. Используемые методики моделирования проекта Web-pecypca моделируют только взаимосвязь его структурных компонент, практически игнорируя его свойства, как информационного продукта, отображающего часть глобального информационного пространства. Это не только делает их малопригодными для проектирования информационной архитектуры, где информационная целостность превалирует над структурной, но также не обеспечивает преемственности моделей различных этапов проектирования.

5. Существует конфликт между рекламно-презентационным аспектом Web-ресурсов и методологией прототипирования, в той или иной степени присутствующим в существующих методиках автоматизированного проектирования. Разрешением этого конфликта является создание и развитие методов, обеспечивающих поддержку проектирования оригинальных сайтов, а именно средств анализа информационного пространства Web-pecypca, компоновки информационной архитектуры, моделирования и оценки оригинальных проектов на начальных стадиях проектирования.

6. Мало проработаны вопросы формирования предметной области Web-pecypca, отсутствуют методики ее структурного анализа. Прямое перенесение методологии структурного анализа, используемого при проектировании информационных систем предприятий, оказывается невозможным из-за разности целей и пользовательской аудитории у Web-ресурсов и ИС предприятий.

7. Мало исследованы вопросы взаимосвязи и взаимовлияния информационной архитектуры и художественного оформления Web-ресурсов. Существует тенденция к смещению акцентов проектирования в сторону информационной архитектуры.

8. В системах автоматизации проектирования Web-ресурсов преобладают методологии обратного проектирования, что не обеспечивает возможности автоматизации проектирования оригинальных сайтов, приводит к распространению технологий прототипирования, отрицательно сказывающихся на потребительских свойствах ресурса как информационного продукта, а также создает сложности при последующей его структурной модернизации и расширении.

Целью настоящего исследования является повышение качества и эффективности отечественных электронных информационных ресурсов за счет разработки методов автоматизированного проектирования информационной архитектуры Web-ресурсов Интернет.

Достижение указанной цели предполагает решение следующих задач:

- анализ современного состояния проектирования Web-ресурсов;

- исследование состояния и развитие концепции информационной архитектуры Web-pecypca;

- систематизация и разработка моделей Web-ресурсов и их компонент; -исследование влияния характеристик информационной архитектуры на эксплуатационные показатели Web-pecypca и обоснование критериев качества информационной архитектуры;

-разработка методов структурного анализа предметной области Web-pecypca;

-теоретическое исследование и разработка формализованных методов синтеза информационной архитектуры Web-pecypca;

-разработка алгоритмов и программных средств автоматизированного проектирования информационной архитектуры Web-ресурсов;

- исследование задач эксплуатации и модернизации Web-ресурсов и разработка научно-методических основ управления развитием Web-ресурсов и их модернизации на этапе эксплуатации.

Структура и объем работы

Диссертация состоит и введения, шести глав, заключения.

Первая глава посвящена рассмотрению общей концепции информационной архитектуры Web-ресурсов Интернет, методов ее проектирования и ее влияния на эксплуатационные характеристики ресурсов.

Рассматриваются особенности Web-ресурсов Интернет как объектов проектирования, анализируются модели их жизненного цикла, методы разработки средств автоматизации проектирования. Показано, что Web-ресурсы характеризуются коротким циклом разработки, высокой частотой изменения их информационного содержания и структуры, одновременным существованием работающей и разрабатываемой версии, что соответствует спиральной модели жизненного цикла и делает необходимым использование методов автоматизации их разработки и модернизации. Проведен анализ процессов потребления информации при взаимодействии пользователей с Интернет, на основании которого определены характеристики Web-pecypca как информационного продукта и средства информационного сервиса, учет которых необходим при его проектировании.

Проводится анализ существующих представлений об архитектуре информации и ее компонентах, а также схем реализации этих представлений в общем процессе проектирования Web-ресурсов Интернет. Рассмотрены три основные аспекта описания Web-pecypca: построение иерархии абстрактных моделей, определение уровней иерархии сложности принятия решений, и формирование организационной иерархии. Показано, что информационная архитектура отражает, в первую очередь, информационный уровень в системной декомпозиции Web-pecypca, однако, она затрагивает и другие уровни, так как часто смысл информации определяет форму и программные средства ее представления.

Во второй главе рассматриваются принципы построения моделей Web-гіесурсовЛнтернет и их.компонент, формализованного представления предметной области Web-ресурсов и информационных требований пользователей, формализуется задача проектирования информационной архитектуры, определяются критерии ее оценки.

Предметная область Web-pecypca определяется как совокупность информации об объектах (процессах, явлениях) и их характеристиках, которая соответствует информационным потребностям или интересам определенной группы пользователей Интернет, составляет его информационное содержание, представляется в виде специальных структур данных и используется пользователями для решения различных функциональных задач.

Формализуется описание моделей предметных областей пользователей и информационных требований пользователей. Показано, что модель предметной области представляет собой внутреннюю модель информационной архитектуры Web-pecypca, которая используется в задачах управления его информационным содержанием. Внешняя модель, которая является представлением организационной иерархии Web-pecypca на информационном уровне, создается на основе моделей информационных требований пользователей, которые отражают информационные потребности планируемой аудитории ресурса.

На основе проведенной формализации определяются основные компоненты организационной иерархии Web-pecypca.

Задача проектирования внешней информационной архитектуры представляется как задача определения отображения модели предметной области на внешнюю модель при заданных ограничениях.

На основе общей задачи проектирования информационной архитектуры определены составляющие ее частные задачи.

Третья глава посвящена разработке модели предметной области проектируемого Web-pecypca на основе анализа электронных документов и Интернет-ресурсов, представляющих его содержание и назначение. Такими документами являются различные электронные тексты, Web-ресурсы, а также модели информационных процессов пользователей предполагаемой целевой аудитории и информационных процессов владельцев ресурса, связанных с продвижением продукции, услуг или идей.

Показано, что центральной задачей определения предметной области для Web-ресурсов является определение множества объектов и отношений на этом множестве. Задача выделения множества объектов интерпретируется как задача выделения терминов на множестве документов, отобранных для описания предметной области. Для решения этой задачи в работе используются методы автоматизированного лингвистического анализа документов. Наряду с выделением множества объектов выделяется и множество связанной с ними входной и выходной информации.

Проведен анализ методов и средств автоматизированного лингвистического анализа документов, лингвистических моделей документов, методов выделения терминов и установления связей между ними и показана возможность их использования для формирования формального описания предметной области Web-ресурсов. Рассмотрены особенности применения этих методов к документам, используемым в составе набора документов, характеризующих информационное пространство.

Предложены методы отбора терминов из множества терминоподобных слов, методы формирования многословных терминов на основе итерационной процедуры, использующей шаблоны терминоподобных словосочетаний с последующей проверкой их информационной ценности. Предложены методы оценки информативности терминов для описания семантики информационного назначения ресурса на основе определения их частотных и вероятностных характеристик.

На основе разработанных методов, правил и оценок предложена методика автоматизированного формирования терминологической семантической модели набора документов и формирования на ее основе множеств объектов и связанной с ними информации модели предметной области Web-pecypca.

В четвертой главе рассматриваются вопросы автоматизированного Ш формирования_внешней_модели_ресурса_на_основе_моделилредметной области и моделей информационных требований пользователей.

Предложена методика формирования множества информационных элементов на основе использования терминов семантической модели и выделенных документальных описаний этих терминов.

Методика основана на формировании информационного элемента как совокупности терминов семантической модели и связанных с ними документальных описаний. Показано, что информационный элемент, как правило, объединяет в себе документальное описание не отдельного термина, а группы тесно связанных терминов.

В зависимости от особенностей структуры связей между терминами Ш семантической модели предложено два подхода к формированию групп терминов, представляющих информационные элементы, и соответствующих им текстовых фрагментов документальных источников:

- кластеризация терминов семантической модели в соответствии с объединяющими их связями с последующим использованием терминов каждого информационного элемента как категорий для целевого аннотирования документов семантической модели ресурса с целью сбора информации, связанной с терминами информационного элемента;

- формирование информационных элементов на основе классификации выделенных на множестве терминов семантической модели структурных единиц документов.

Рассмотрены вопросы разделения множества информационных элементов т iW на подмножества, соответствующие отдельным страницам сайта. Проведен анализ вариантов формирования страниц в соответствии с особенностями структуры связей между информационными элементами. Сформулирована задача декомпозиции множества информационных элементов на группы страниц сайта.

Приведена общая схема решения задачи формирования внешней модели Web-ресурса и предложены методы ее реализации с использованием ЭВМ.

В пятой главе рассмотрены принципы и методы размещения информации _на_страницах_ЖеЬ=гіЄсурса._Показано,_что задана_размещения информации на страницах Web-ресурсов в контексте проектирования информационной архитектуры не предполагает создания окончательного проекта страницы с учетом его художественного оформления, включая композиционные и цветовые решения. Она состоит в определении последовательности представления информационных элементов на странице ресурса, их расположения относительно верхней части страницы и друг друга в соответствии с задачами представления информации.

Рассмотрены различные подходы, используемые к размещению информации на экране дисплея при создании программного обеспечения интерфейсов. Показано, что при создании Web-интерфейсов наиболее важно обеспечить два аспекта: удобство пользователей определенной целевой аудитории, и активизацию интереса, желания работать с Web-ресурсом, воспринимать его информацию, так как посещение пользователем ресурса является добровольным, а не обязательным.

Рассмотрены различные способы визуального представления и размещения информации в поле экрана. На основании их анализа выработаны рекомендации по созданию визуального отображения ресурса с точки зрения его информативности.

Проведена классификация информационных элементов архитектуры сайта по функциональному назначению, информативности и способу обработки электронной информации. Рассмотрено влияние на компоновку страниц сайта технических ограничений. Показано, что конкретная реализация компоновки и художественного оформления требует учета соотношения объема информации к возможному времени ожидания загрузки страницы.

Рассмотрено соотношение информационного и художественного проектирования в общей структуре проектирования Web-ресурсов.

Формализована задача создания информационной компоновки страницы Web-pecypca, предложен метод и алгоритм ее решения.

Рассмотрены методы оценки визуального варианта размещения информации а_хярашще_гипертекста_11редложена. :метдцика„оценки,_использующая оценки эмоционального значения выводимой информации на базе психосемантических шкал.

В шестой главе рассматриваются принципы и методы автоматизации модернизации информационной архитектуры Web-ресурсов на этапе эксплуатации. Рассмотрены особенности сопровождения Web-ресурсов на этапе эксплуатации, задачи модернизации и реинжиниринга информационной архитектуры Web-ресурсов, типовые функции программных средств управления информационным содержанием Web-ресурсов. На основе анализа и классификации систем управления информационным содержанием Web-ресурсов выделена типовая структура и определены основные компоненты систем управления информационным содержанием, показана возможность реализации задач модернизации и реинжиниринга информационной архитектуры в составе систем управления информационным содержанием.

Рассмотрены принципы информационного обеспечения принятия решений по модернизации информационной архитектуры Web-pecypca на основе разработанной семантической модели предметной области Web-pecypca.

Приведены данные о системе автоматизированного проектирования и управления информационным содержанием Web-ресурсов, разработанной в рамках диссертационной работы, а также о Web-проектах, выполненных с ее использованием, показывающие эффективность разработанных методов и программных средств.

Научная новизна работы состоит в следующем:

1. Развита концепция и разработана формализованная модель информационной архитектуры Web-pecypca и основных ее компонент с позиций проектирования.

2. Разработано формализованное описание предметной области Web-pecypca и информационных требований пользователей.

3. Разработана методика структурного анализа и декомпозиции предметной _областж еЬ-ресурса_и_синтеза,наэтой основе.его„информационной„ архитектуры.

4. Разработан формализованный метод компоновки основной структурной единицы гипертекста - страницы, использующий критерии эргономического проектирования Web-ресурсов, что позволяет учесть взаимное влияние информационной архитектуры и ее визуального отображения средствами информационного дизайна.

5. Предложены методы оценки, обеспечивающие методическое единство оценки информационной архитектуры Web-pecypca на всех этапах его жизненного цикла.

6. Предложена методика развития и модернизации Web-pecypca на основе разработанных моделей информационной архитектуры и методов автоматизированного поиска информации

7. Предложена инфологическая модель Web-pecypca, обеспечивающая преемственность результатов проектирования информационной архитектуры на всех этапах его жизненного цикла, и ее реализация в составе хранилища данных.

8. Разработан комплекс методик автоматизированного проектирования информационной архитектуры Web-ресурсов Интернет, обеспечивающий использование ЭВМ на ранних этапах разработки.

Практическая ценность работы заключается в том, что: -разработаны программные средства, реализующие методику автоматизированного проектирования информационной архитектуры Web-ресурсов Интернет.

-на основе проведенных исследований современного состояния проектирования Web-ресурсов Интернет, отобраны показатели, характеризующие качество ресурсов как информационных продуктов, и выработаны практические рекомендации по их использованию в процессе проектирования;

- на основе разработанной инфологической модели Web-pecypca создано программное обеспечение хранилища данных для хранения промежуточных и окончательных результатов проектирования информационной архитектуры;

: =-предложены методика и программные средства для _. проведения структурного анализа предметной области Web-ресурсов Интернет:

-разработаны программные средства компоновки страниц гипертекста на основе эргономических критериев;

Основным научным результатом диссертации является создание научно-методических основ автоматизированного проектирования Web-ресурсов Интернет на основе структурно-аналитического исследования информационного пространства. Полученный результат имеет важное значение для формирования национальных информационных ресурсов, повышения их качества и востребованности отечественной и зарубежной аудиторией Интернет. Разработанная методика нашла применение в практическом проектировании Интернет-ресурсов, научных исследованиях и учебном процессе.

Обобщение и развитие концепции информационной архитектуры Web- pecypca, как его основной составляющей, реализующей связь между конкретной областью глобального информационного пространства и информационными интересами потребителей и владельцев ресурса, позволило создать формализованное представление информационной архитектуры Web-pecypca, обеспечивающее ее структурно и методологически однородное информационное представление для разных этапов проектирования.

Разработана методика структурно-логического проектирования информационной архитектуры, основанная на автоматизированных процедурах анализа и декомпозиции предметной области Web-pecypca и синтеза структурных компонент ресурса.

Разработана формализованная модель предметной области Web-pecypca, использующая его представление в виде семантической сети понятий, что позволило разработать методику и алгоритмы анализа информационного пространства Web-pecypca и его декомпозиции на множество взаимосвязанных информационных элементов, основанные на методах автоматизированного лингвистического анализа электронных документов, методах автоматической классификации и технологиях интеллектуальной обработки информации.

На основе разработанного формализованного описания информационной архитектуры разработана методика оценки пользовательских характеристик проектируемого Web-pecypca, позволяющая проводить оценку показателей работы ресурса на ранних стадиях проектирования, что позволяет существенно улучшить качество пользовательского взаимодействия с информацией ресурса.

На основе анализа типовых схем распределения информации по страницам ресурсов и пользовательских характеристик ресурсов формализованы задачи и разработаны алгоритмы формирования информационного содержания страниц гипертекстовой структуры ресурса и информационной компоновки страниц гипертекста.

Разработаны методические принципы развития и модернизации информационной архитектуры ресурса на этапе его эксплуатации.

Основным практическим результатом работы является расширение и систематизация знаний о процессах информационного взаимодействия пользователей с сетью Интернет и объединение на единой методической основе широкого спектра отдельных работ, существующих в области автоматизации проектирования, сопровождения, эксплуатации и оценки Web-ресурсов.

Разработан комплекс методических, программных и информационных средств для автоматизированного проектирования, сопровождения и модернизации информационной архитектуры Web-ресурсов Интернет, реализующий методику структурно-логического проектирования и обеспечивающий создание эффективных, легко модернизируемых Web-ресурсов, что является важным условием их востребованности аудиторией Интернет и конкурентоспособности в глобальном информационном пространстве.

Использование разработанных в диссертации научно-методических принципов и программных средств в составе системы автоматизированного проектирования Web-ресурсов Интернет позволило сократить сроки их проектирования а л акже улучшить__пользовательские _. характеристики спроектированных ресурсов, повысить вероятность обнаружения ресурса поисковыми системами и улучшить значения формальной релевантности, присваиваемой ими ресурсам, что выражается в занимаемой ресурсом позиции в списке выдачи.

Результаты диссертационной работы внедрены и продолжают внедряться в компании «E.soft» в рамках системы автоматизированного проектирования Web-ресурсов, а также при выполнении отдельных частных проектов. В настоящее время разработанная методика проектирования информационной архитектуры использована при проектировании и используется при сопровождении ряда проектов.

Частные результаты, полученные в диссертационной работе, использованы при выполнении НИР по договорам с Минпромнаукой для реализации задач проектирования Web-интерфейсов, анализа предметной области проектов, исследования и тематически ориентированного отбора Интернет-ресурсов.

В учебном процессе результаты работы реализованы в рамках программы переподготовки специалистов с высшим образованием по дистанционной форме обучения по программе «Дизайн и реклама в компьютерных сетях» в Центре дистанционного обучения МГИЭМ (http://dlc.miem.edu.ru). Также результаты, полученные в диссертации, используются при подготовке специалистов по вычислительной технике и Интернет-технологиям в МГИЭМ в виде конспекта лекций по курсу «Информационные системы». По результатам работы подготовлено учебное пособие для студентов специальностей «Прикладная информатика» и «Информационные системы» Института информационных технологий МГУ С.

На защиту выносятся:

Формализованная модель предметной области Web-pecypca Интернет, методика и адгоритмьі е_лостроенияліразвиіия, Формализованное представление информационной архитектуры Web-pecypca Интернет, методы и алгоритмы ее построения и использования по этапам жизненного цикла Web-pecypca.

Методы и алгоритмы автоматизированного проектирования информационной архитектуры Web-ресурсов Интернет.

Методика оценки характеристик проектов Web-ресурсов на основе формализованного представления информационной архитектуры.

Принципы и методы информационного сопровождения и модернизации Web-ресурсов Интернет на основе формализованных и информационных моделей.

Принципы и методы проектирования Web-ресурсов как программно-информационных продуктов

Четкая классификация методов проектирования Web-ресурсов на сегодняшний день отсутствует. Несмотря на то, что фирмы, занимающиеся проектированием сайтов, используют практически один и тот же набор программного инструментария для разработки, каждая из них имеет свою методику разработки. Очень часто разработчиком является один программист, исполняющий и функции дизайнера, который создает каждый сайт как уникальный продукт. Так же часто используется методология копирования и использования аналогов. Тем не менее, серьезные фирмы, выполняющие проекты, имеющие солидный бюджет и предназначенные для долговременного использования их заказчиками, имеют собственные системы создания и сопровождения своих продуктов.

Для классификации методологий проектирования Web-ресурсов можно использовать классификацию методологий проектирования программных и информационных продуктов. Они, в первую очередь, различаются по используемым моделям жизненного цикла - спиральной или каскадной, а также по охватываемым ими этапам жизненного цикла. Важным критерием при классификации методов является то, как проводится проектирование информационной архитектуры сайта: сверху вниз (прямое проектирование) или снизу вверх (обратное проектирование). Первоначально наибольшее распространение получили методы обратного проектирования, когда сначала создавался дизайн сайта, а затем выстраивалась его информационная архитектура. Такие технологии поддерживали только нижние этапы проектирования и не обеспечивали возможностей их быстрой модернизации, развития и управления их информационным содержанием. Сегодня при проектировании сайтов серьезные разработчики опираются на технологии прямого проектирования, основывающиеся на методологии структурного анализа. Рассмотрение жизненного цикла Web-ресурсов, как программно информационного продуктов, делает важным критерием классификации методов их проектирования также организационные принципы используемой методологии, так как для реализации проекта сайта часто критична скорость его разработки. Она зависит не только от объема проекта, но и от организации разработки. В проектировании программно-информационных продуктов выделяют так называемую технологию быстрого проектирования, опирающуюся на участие пользователей в процессе проектирования, а также использование различных методов и средств автоматизации программирования. Методологии быстрого проектирования опираются на спиральную модель жизненного цикла. На фазе анализа требований пользователи программно-информационного продукта определяют функции, которые он должен выполнять, выделяют наиболее приоритетные из них, требующие проработки в первую очередь, описывают информационные потребности. Определение требований выполняется в основном силами пользователей под руководством специалистов-разработчиков. Ограничивается масштаб проекта, определяются временные рамки для каждой из последующих фаз. Определяется возможность реализации проекта в установленных рамках финансирования и в определенной программно-аппаратной среде. Особенностью сайтов является: 1. Наличие двух групп пользователей: сотрудники фирмы или организации, разработавшей или заказавшей сайт, и удаленные пользователи, для которых сайт предназначен. Первая группа разделяется на две подгруппы: администраторы ресурса и его пользователи.

Очевидно, что эта особенность делает необходимым на фазе анализа создание модели удаленного пользователя на основе исследования целевой аудитории—сайта —и_ привлечения - к разработке реальных или виртуальных пользователей из этой целевой аудитории. Создание единого интерфейса, одинаково удобного для таких разных групп пользователей, требует особенно тщательного анализа представляемой на сайте информации, а также способов и форм ее отображения.

На фазе проектирования часть пользователей принимает участие в техническом проектировании программного продукта под руководством специалистов-разработчиков. Здесь активно используются средства автоматизации программирования, в том числе и прототипы сайтов-аналогов для быстрого получения работающих прототипов страниц сайта. Непосредственно взаимодействуя с ними, пользователи уточняют и дополняют требования к сайту, которые не были выявлены на предыдущей фазе. Более подробно рассматриваются информационные процессы сайта. На этом этапе выполняются первые исследования пользовательских характеристик («юзабилити») сайта с использованием моделирования его работы. Проблемой этого этапа является невозможность привлечения к процессу проектирования достаточного количества пользователей из целевой аудитории. Это заменяется сравнением полученного прототипа сайта с уже существующими и популярными Web-ресурсами, ориентированными на такую же или сходную целевую аудиторию.

На этапе реализации выполняется быстрая разработка сайта с использованием средств автоматизации программирования. Результаты этого этапа позволяют провести более детальное исследование пользовательских характеристик сайта. Пользователи сайта, относящиеся к первой группе, могут оценить удобство его модернизации, управления его информационным наполнением, средства персонализации интерфейса, временные характеристики работы. На этом этапе также сложно привлечь к исследованию и оценке сайта пользователей второй группы. Они могут быть привлечены только в виде группы экспертов. В состав такой группы целесообразно включать как продвинутых пользователей компьютера, так и начинающих. В остальном, группа экспертов должна по возможности адекватно отражать сегменты целевой аудитории. На этом-же этапе производится_физическое-размещение-сайта и тестирование его работы.

На этапе внедрения производится обучение пользователей первой группы работе со средствами управления дизайном и информационным наполнением сайта, устанавливаются средства сбора и анализа статистики о работе пользователей второй группы, начинается подготовка к созданию новой версии сайта. Этап внедрения также предполагает проведение мероприятий по «раскручиванию» сайта: регистрация в поисковых системах и каталогах; рекламирование сайта в средствах массовой информации. На этом этапе поисковые системы и каталоги формируют индекс нового сайта, поисковый образ документа. От того, насколько адекватно информационное наполнение сайта отражает информационные потребности целевой аудитории, для которой он предназначался, выраженные поисковыми образами запросов пользователей второй группы, зависит место появления сайта в упорядоченном по релевантности списке Web - ресурсов, выдаваемых поисковой системой. Для того, чтобы ресурс был востребован, он должен находиться среди начальных элементов списка. Поэтому на этапе внедрения часто выполняется доработка и изменение информационного наполнения сайта. В конкретных реализациях быстрого проектирования сайтов, как правило, используются технологии прототипирования.

Формализованная модель предметных областей пользователей и спецификаций информационных требований пользователей

Моделирование предметной области Web-pecypca Интернет основывается на его интерпретации как представления некоторой области глобального информационного пространства [38].

Если принять в качестве упрощенной модели глобального информационного пространства некоторое множество понятий и объединяющих их связей-ассоциаций, то информационное пространство Web-pecypca можно представить как подмножество множества понятий, объединенных связями-ассоциациями из множества связей системы глобального информационного пространства. Не все связи-ассоциации, существующие между понятиями в глобальном информационном пространстве, поддерживаются конкретным Web-ресурсом. Это означает, что объективно существующие ассоциации могут быть при проектировании структуры Web-pecypca учтены и отображены таким образом, чтобы привлечь внимание пользователей Web-pecypca, или, наоборот, могут быть признаны неважными для конкретных задач предметной области и при проектировании не учитываются, что, скорее всего, сделает их для большинства пользователей неочевидными.

Анализ информационной области, в которой предполагается создание нового ресурса или в которую предполагается расширить уже функционирующий ресурс, является обязательным этапом проектирования.

На выбор информационной области влияет множество факторов, подробно рассмотренных в Главе 1, наиболее важными из которых являются: - стратегические цели и задачи владельцев ресурса; - результаты исследований рынка информации и информационных услуг; - прогноз развития аудитории Интернет. Для создания модели этой области необходимо провести ее структурный анализ, целью которого является выделение основных понятий, определяющих информацию, и представление информационной области в виде структуры, объединяющей выделенные понятия системой связей, отражающих существующие между ними отношения. Понятия в глобальном информационном пространстве могут быть определены и описаны любыми средствами представления информации. Сегодня основными формами представления информации являются текст, изображение и звук. Одна и та же информация, представленная любым из этих способов, обеспечивает адекватное восприятие ее человеком, хотя такие характеристики человеческого восприятия, как скорость восприятия, запоминание, эмоционально-психологические переживания существенно зависят от формы представления информации. На этапе структурного анализа информационного пространства Web-pecypca можно использовать отображение всех понятий в текстовом виде, что и реализовано в абсолютном большинстве информационно-поисковых систем на уровне процедур автоматического анализа и индексирования информационных ресурсов. Звуковые и графические формы в этом случае должны быть заменены текстовыми фрагментами, передающими их смысловое содержание. Предметная область Web-pecypca формируется на основе анализа и объединения предметных областей пользователей целевой аудитории. При построении формализованной модели предметных областей пользователей и спецификаций информационных требований пользователей использованы методы, предложенные в работе [45] для построения моделей предметных областей и спецификации требований пользователей баз данных. При использовании этих методов учтена специфика Web-ресурсов, которые должны предоставлять единый универсальный интерфейс для широкого круга -пользователей,—причем—количество—и состав-групп пользователей сложно определить заранее, так же как сложно предсказать динамику их изменения при эксплуатации ресурса. Под предметной областью пользователей будем понимать информацию о совокупности объектов (процессов, явлений) и их характеристиках, информация о которых соответствует информационным потребностям или интересам определенной группы пользователей Web-pecypca, составляет его информационное содержание, представляется в виде специальных структур данных, хранится в базах данных и используется пользователями для решения различных функциональных задач.

Для Web-pecypca характерны три группы пользователей: посетители сайта, владельцы ресурса, администраторы ресурса, управляющие его функционированием и развитием. Кроме того, посетители сайта представляют собой не однородную группу пользователей с одинаковыми информационными интересами, а разделены на подгруппы в соответствии с перечисленными в Главе 1 параметрами, используемыми для описания сегментов целевой аудитории.

При формировании модели предметной области базы данных исходные данные получаются в результате предпроектных исследований и анализа объектов информатизации и соответствующих бизнес-процессов их использования. Для этого используется методология и программные средства моделирования бизнес-процессов в организации, для которой создается база данных. Отмеченные выше особенности множества пользователей Web-ресурсов, делают этот процесс гораздо более сложным по сравнению с аналогичным процессом для баз данных, в особенности при формировании данных, связанных с множествами Рп, а также с элементами других множеств, которые определяются его составом. Сложность формирования этого множества, по сути, гипотетический характер его описания, оказывают определяющее влияние на адекватность модели предметной области.

Одним из наиболее распространенных подходов при проектировании сайтов является сведение каждого множества Pnj к множеству, состоящему из одного элемента (выбирается эксперт-представитель целевого сегмента пользовательской аудитории, на основании представлений которого формируются все элементы модели, связанные с этим целевым сегментом).

Методика автоматизированного формирования семантической модели предметной области Web-pecypca

Рассмотренные выше методы выделения терминов и связей между ними могут быть объединены в единую методику, которая может быть реализована, как полностью автоматическая процедура, в которой отбор терминов осуществляется по эмпирически установленным правилам отбора терминов по частотным характеристикам и методам установления важности термина. Для более точного решения задачи определения терминов, образующих информационное пространство проектируемого ресурса, желательно привлекать для задач отбора терминов эксперта. Методика основана на стратегии направленного формирования и постепенного сужения количества терминоподобных слов и комбинаций слов и включает следующие этапы. 1. Отбор ресурсов для представления предметной области проектируемого ресурса (формирование множеств D, Р. массивов dug, матрицы Z) Этот этап объединяет несколько направлений деятельности, связанной со сбором информации о тематике ресурса в соответствии с изложенными выше принципами При проведении этого этапа необходимо решить следующие задачи: 1.1. Отбор экспертов, которые будут осуществлять формирование документально-информационной базы ресурса. 1.2. Создание функциональных моделей бизнес-процессов владельцев ресурса. 1.3. Определение на основе этих моделей состава терминов для формирования запросов к поисковым системам для отбора ресурсов-аналогов. 1.4. Анализ целевой аудитории ресурсов-аналогов и формирование на этой основе целевой аудитории проектируемого ресурса с обязательным привлечением к этому процессу экспертов. Разделение целевой аудитории на группы. 1.5. Создание функциональных моделей процессов пользователей по выделенным группам целевой аудитории (желательна экспертиза созданных моделей представителями целевых групп). 1.6. Определение на основе построенных моделей терминов для формирования запросов к поисковым системам для отбора ресурсов, сопутствующих или аналогичных проектируемому. ІЗт ранное таким" ббраТоЖ ножёство"рёсурсов"может""быть сокращёно или дополнено другими ресурсами, предложенными экспертами: книгами, статьями, предметными каталогами, базами данных, словарями 2. Лингвистический анализ ресурсов, выделение терминоподобных слов и словосочетаний, оценка характеристик их информативности и важности для описания информационного пространства проектируемого ресурса (определение множества Т, элементов модели термина и матрицы А. Этот этап включает большую часть операций, которые могут быть выполнены с использованием ЭВМ, однако, в нем также целесообразно включать и коррекцию результатов, как промежуточных, так и окончательных, экспертом. По всем документам набора выполняются этапы 2.1 и 2.2.. 2.1. Определение типа документа и выполнение соответствующей этому типу очистки от служебных символов, символов разметки с выделением особых зон документа: заголовков, подрисуночных подписей, выделений шрифтом. 2.2. Морфологический анализ документа с выполнением следующих дополнительных операций: - исключение слов из стоп-листа; - определение основы слова и словарной формы; - определение частоты использования словарной формы в документе; - выделение возможных наборов синонимов. 2.3. Определение состава однословных терминов по набору документов с выделением синонимов. 2.3.1. Для набора документов в соответствии с выделенным в ходе анализа каждого отдельного документа множеством терминов, представляющим собой объединение подмножеств терминов отдельных документов, строится векторная модель, коэффициентами которой являются частотные характеристики терминов в документах набора. 180 2.3.2. Определяются детерминирующие характеристики терминов в соответствии с соотношением (3.8). 2.3.3. Определяется средняя характеристика веса термина в соответствии с соотношением (3.9) по всем документам набора, в которых присутствует данный термин, для всех выделенных терминов. 2.3.4. Формируются три подмножества терминов: - термины с дискриминирующей характеристикой, превышающей среднее значение, Мд , упорядоченные по убыванию дискриминирующих характеристик с указанием весовых характеристик, принадлежности к особой зоне документа, а также возможных синонимов; - термины с весовой характеристикой, превышающей среднее значение, Мд, упорядоченные по убыванию весовых характеристик, с указанием дискриминирующих характеристик, принадлежности к особой зоне документа, а также возможных синонимов; - термины, не вошедшие ни в первое, ни во второе подмножество, расположенные по убыванию дискриминирующих характеристик с указанием весовых характеристик, принадлежности к особой зоне документа, а также возможных синонимов. В первых двух подмножествах отмечаются термины, принадлежащие к пересечению подмножеств. Значения Мд и Мв могут определяться как средние величины по всем документам набора, однако, учитывая то, что используемые показатели являются относительными величинами, изменяющимися в пределах [0,1], а также то, что априорно оценить вероятности релевантности тех или иных терминов на стадии формирования набора документов невозможно, можно принять их равными 0,5. Из сформированных трех подмножеств терминов наиболее вероятно являются информативными терминами для заданного набора документов, в первую очередь, термины, относящиеся к пересечению двух первых подмножеств, затем те, которые отмечены, как относящиеся к особым зонам документов, затем остальные термины первого, затем второго подмножества. 2.3.5. Коррекция отобранных терминов экспертом. Если добавить целесообразный на этом этапе просмотр состава терминов экспертом с возможностью удаления и дополнения, множество терминов будет более адекватно отображать смысловое содержание набора документов. При добавлении терминов, которых нет в наборе документов, в качестве их источника вводится виртуальный документ, характеристики которого содержат сведения об эксперте. 3. Формирование многослоеных терминов Формирование многословных терминов начинается с формирования терминов 2-го порядка. На каждой итерации порядок терминов увеличивается на 1. Окончанием процесса формирования многословных терминов можно считать либо итерацию, на которой уже не происходит формирования новых терминов, либо ограничить порядок терминов некоторым целым числом. Каждая итерация представляет собой последовательность следующих шагов: 3.1. Формирование терминов порядка і из терминов низших порядков в соответствии с правилами (3.18). Определение множества грамматических форм для каждого термина.

Формирование множества информационных элементов на основе кластеризации терминов семантической модели

Формирование внешней модели ресурса на основе модели предметной области и моделей информационных требований пользователей предполагает определение множества информационных элементов и синтез комплексов страниц на основе выделения групп информационных элементов с учетом существующих между ними связей.

Методика формирования множества информационных элементов D основана на формировании информационного элемента как совокупности терминов семантической модели и связанных с ними документальных описаний. Информационный элемент, как правило, объединяет в себе документальное описание не отдельного термина, а группы тесно связанных терминов. Информационные элементы как объекты синтеза на множестве терминов семантической модели обладают рядом особенностей: - количество терминов в одном информационном элементе ограничивается небольшим числом; - термины, объединенные в один информационный элемент, должны быть тесно связаны; допускается возможность пересечения информационных элементов по входящим в них терминам (некоторая избыточность информации); состав информационных элементов должен охватывать все термины семантической модели, при этом сами информационные элементы должны достаточно четко различаться. Как было отмечено в предыдущих главах, актуальная информация, связанная с отдельным термином семантической модели, может со временем изменяться, важность термина для представления задач владельцев ресурса также может измениться. Это делает необходимым конструировать каждую страницу в виде каркаса из связанных терминов, заполняя этот каркас информацией, актуальной на текущий момент. Такой каркас легче поддается модификации при изменении ассоциаций между понятиями, которые составляют смысл и содержание отдельной страницы и ресурса в целом. Часто отдельный термин является слишком мелкой единицей информации для отображения на странице в виде отдельного информационного элемента. Как правило, информационный элемент составляет несколько тесно связанных терминов. Поэтому определение информационных элементов связано также с определением групп тесно ассоциированных терминов, среди которых не только синонимы. В зависимости от особенностей структуры связей между терминами семантической модели можно выделить два подхода к формированию групп терминов, представляющих информационные элементы и соответствующих им текстовых фрагментов документальных источников: Кластеризация терминов семантической модели в соответствии с объединяющими их связями с последующим использованием терминов каждого информационного элемента как категорий для целевого аннотирования документов семантической модели ресурса с целью сбора информации, связанной с терминами информационного элемента. Формирование информационных элементов на основе классификации выделенных на множестве терминов семантической модели структурных единиц документов. Оба этих подхода предполагают решение задач классификации объектов, которая является одним из наиболее часто используемых методов добычи данных из текстов и гипертекстов. Задача классификации заключается в отнесении конкретного объекта, представленного значениями его свойств - параметрами, к одному из классов фиксированного перечня по определённому решающему правилу в соответствии с поставленной целью. Под параметрами принято понимать набор свойств, характеризующих объект среди ему подобных. Под классом понимают множество объектов, принадлежность к которым исследуемого объекта определяется во время классификации. Под решающим правилом принято понимать реализацию алгоритма классификации, осуществляющего проецирование множества возможных наборов параметров объектов на множество различимых классов. Соответствие поставленной цели формирует требование к качеству классификации, включая соответствие затрат на классификацию отдаче от нее, и может выступать в качестве главного критерия при выборе конкретной реализации алгоритма. Построение классификаторов основывается на гипотезе "локальности", которая предполагает, что схожие объекты в параметрическом пространстве имеют тенденцию располагаться локально, группами, причем межгрупповой разброс параметров значительнее внутригруппового. Применимость гипотезы локальности сильно зависит от выбора параметрического пространства, фактически разделимость набора объектов на классы напрямую определяется подбором действительно значимых параметров. Задачу построения классификатора условно можно разделить на три подзадачи: Выделение характерных признаков, при использовании которых для описания классифицируемых объектов наиболее сильно проявляется принцип локальности. Выбор функций качества разбиения и риска потерь, формирование на их основе алгоритма классификации. Построение обучающей выборки (априорной или во время самообучения системы) и выбор классов. Результат процедуры построения классификатора - построение поверхностей, разделяющих классы в параметрическом пространстве. Общая постановка задачи построения классификатора и варианты формализации используемых в ней оценок приведены в приложении Ж.

По тому, как организован процесс обучения классифицирующих систем, четко выделяются два подхода к проблеме. Первый основан на построении сложных разделяющих поверхностей в случайно выбранных пространствах, а во втором - центр тяжести проблемы переносится на достижение понимания принципов формирования такого описания объектов, в рамках которого сам процесс распознавания чрезвычайно прост. Обучение в этом случае рассматривается как процесс конструирования пространств для решения конкретных задач.

Методы и алгоритмы классификации объектов рассмотрены в приложении Ж. Их анализ позволяет отметить, что для задач классификации терминов или фрагментов текстов наиболее приемлемыми являются детерминистских алгоритмы классификации [30, 39, 80, 146, 154]. Это обусловлено следующими особенностями задач в данном контексте: семантическая модель определяет пространство параметров классификации; количество документов ограничено; новые присоединяемые документы либо релевантны одному из классов, на которые разделены существующие, либо образуют новый класс.

Похожие диссертации на Научно-методические основы автоматизации проектирования информационной архитектуры Web-ресурсов Интернет