Формализация процесса мониторинга информации в сети Интернет при создании предметно-ориентированных хранилищ данных Леонов, Евгений Алексеевич

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Леонов, Евгений Алексеевич. Формализация процесса мониторинга информации в сети Интернет при создании предметно-ориентированных хранилищ данных : диссертация ... кандидата технических наук : 05.13.01 / Леонов Евгений Алексеевич; [Место защиты: Волгогр. гос. техн. ун-т].- Брянск, 2011.- 198 с.: ил. РГБ ОД, 61 12-5/1295

Содержание к диссертации

Введение

Глава 1. Современные математические модели, применяемые для построения предметно-ориентированных хранилищ данных 13

1.1. Обзор основных методов наполнения предметно-ориентированных хранилищ данных 13

1.2. Анализ принципов взаимодействия с внешними информационно-поисковыми системами 17

1.3. Обзор структур данных, используемых в информационных системах 23

1.4. Анализ современных методов анализа информации 25

1.5. Описание принципов работы систем формирования предметно-ориентированных хранилищ данных 36

1.6. Выводы по главе. Цель и задачи диссертационной работы 39

Глава 2. Формализация универсального взаимодействия подсистем метапоиска с ИПС в рамках мультиагентной стратегии 41

2.1. Обобщенная структура взаимодействия подсистемы метапоиска с внешними ИПС 41

2.2. Математическая модель описания внутреннего агента метапоиска 44

2.3. Математическая модель описания внешних информационно-поисковых систем 48

2.4. Математическая модель функции настройки агента метапоиска на работу с внешней информационно-поисковой системой по ее полному описанию . 52

2.5. Математическая модель поиска документов через внешние ИПС с использованием экземпляра агента метапоиска 57

2.6. Описание принципов работы агента метапоиска, его возможностей применения и усовершенствования 64

2.7. Выводы по главе з

Глава 3. Разработка и оптимизация методов анализа и обработки информации при создании предметно-ориентированных хранилищ данных 69

3.1. Моделирование процесса выявления значимой смысловой части документа и приведение его к универсальной иерархической структуре 69

3.2. Разработка методов анализа медиаинформации и семантической классификации изображений 76

3.3. Обоснование выбора и методы выявления основных критериев качества и пертинентности документов 99

3.4. Ранжирование и фильтрация заведомо непертинентных документов в хранилище данных 105

3.5. Выводы по главе 113

Глава 4. Разработка программного комплекса для формирования предметно-ориентированного хранилища данных 115

4.1. Разработка архитектуры программного комплекса 115

4.2. Разработка структуры предметно-ориентированного хранилища данных и его представление в базе данных 123

4.3. Разработка подсистемы анализа коллекций изображений и тестирования каскада нейронных сетей 131

4.4. Разработка принципов клиент-серверного взаимодействия 137

4.5. Разработка программных модулей пользовательского интерфейса 140

4.6. Выводы по главе 152

Глава 5. Анализ эффективности разработанных моделей, и исследование возможностей их применения при построении современных информационных систем 154

5.1. Оценка эффективности разработанных методов и алгоритмов 154

5.2. Анализ применения разработанных моделей и методов в современных информационных системах 158

5.3. Результаты использования разработанных методов в рамках НИР и конкурсных работ 166

5.4. Анализ возможных сфер применения разработанных методов 170

5.5. Выводы по главе 174

Заключение 176

Список использованных источников 178

Обзор структур данных, используемых в информационных системах
Математическая модель функции настройки агента метапоиска на работу с внешней информационно-поисковой системой по ее полному описанию
Разработка методов анализа медиаинформации и семантической классификации изображений
Разработка структуры предметно-ориентированного хранилища данных и его представление в базе данных

Введение к работе

Актуальность. Современные информационные системы (ИС) получили широкое распространение во множестве предметных областей. Начиная с 60х годов прошлого века, велись активные разработки алгоритмов и методов построения интеллектуальных информационных систем исходными данными, которых являлись специализированные базы данных заполняемые экспертами предметных областей. С повсеместным распространением сети Интернет она стала основным источником информации. В результате чего возникла возможность создания интеллектуальных систем, использующих в качестве основного источника информации, получаемой из сети Интернет.

При адаптации методов искусственного интеллекта, используемых в классических ИС, к использованию в интернет-ориентированных информационных системах (ИОИС) возник широкий спектр проблем по наполнению хранилищ данных на основе Интернет. Среди таких проблем:

низкая эффективность методов наполнения хранилищ данных, отсутствие универсальных средств взаимодействия с информационно поисковыми системами;

необходимость и недостаточная эффективность существующих алгоритмов ранжирования документов по степени их качества в ограниченных предметно-ориентированных коллекциях;

большое количество информации представленной в виде медиа информации, что требует дополнительных процедур ее анализа;

общая высокая зашумленность информации в среде Интернет;

наличие в веб-документах большого количества информации его не характеризующей.

В связи с этим значительно возрастает роль качественного автоматического сбора информации, для формирования предметно-ориентированных хранилищ данных. Так как Интернет является универсальным источником информации, то для ограничения предметной области возникает необходимость предварительного отбора документов и выявления степени их соответствия предметной области информационной системы. Также не менее важным является фильтрация заведомо неперти-нентных документов, появление которых в коллекции может быть вызвано наличием большого объема поискового спама в сети. Имеется высокая зависимость качества работы всей ИС и используемых в ней методов анализа от исходной коллекции анализируемых документов. В связи с этим, данная работа, направленная на формализацию и усовершенствование методов и алгоритмов мониторинга информации из сети Интернет является актуальной и требующей решения.

Цель работы формализовать процесс мониторинга информации в сети Интернет и усовершенствовать методы анализа информации, используемые при построении предметно-ориентированных хранилищ данных с целью повышения эффективности работы Интернет-ориентированных информационных систем. Для достижения поставленной цели необходимо решить следующие задачи:

Формализовать процедуры взаимодействия подсистем сбора информации со сторонними информационно-поисковыми системами с целью эффективного наполнения предметно-ориентированного хранилища документов.
Разработать алгоритм обработки документов для выявления уникальной значимой смысловой части и определения основных параметров качества документа.

Разработать классификатор изображений используемых в документах для обнаружения иллюстраций контента и определения их типа.
Разработать методы фильтрации заведомо непертинентных документов в хранилище, с целью уменьшения его объема и повышения точности.
Создать программные средства для автоматизации мониторинга информации в сети Интернет и построения предметно-ориентированного хранилища данных.
Создать информационную систему, основанную на разработанных программных средствах автоматизации мониторинга сети Интернет с целью проверки эффективности предлагаемых методов и алгоритмов.

Методология и методы исследования. В основу исследований положены основные научные положения теории информационного поиска и искусственного интеллекта; математический аппарат и методы теории множеств и логики предикатов; теории искусственных нейронных сетей; теории нечетких множеств и лингвистических переменных. При разработке программной реализации использовалась объектно-ориентированная технология проектирования, а также теория мультиагентных систем.

Научная новизна работы состоит в разработке моделей и алгоритмов автоматизированного сбора и обработки информации для мониторинга информации в сети Интернет, и использование разработанных алгоритмов в процессе формирования предметно-ориентированных хранилищ данных, а именно:

Разработана математическая модель формализованного представления веб-сервисов поиска и ИПС в качестве внешних агентов метапоиска.
Разработаны методы анализа структуры документа для выявления семантически значимых информационных блоков.
Предложена методика предварительной семантической классификации изображений с использованием каскада простых нейронных сетей.
Предложено использование алгоритма нечеткого логического вывода типа Мам-дани для ранжирования документов в условиях ограниченности коллекции по предметной области на основе учета их информативности.

Практическую ценность работы составляют:

Разработанный универсальный программный комплекс, обеспечивающий мониторинг информации из сети Интернет и формирующий предметно ориентированное хранилище данных.
Разработанный сервис тестирования искусственных нейронных сетей классификатора и анализа коллекций изображений.
Классифицированные тестовые и проверочные коллекции изображений для исследований применения методов машинного обучения.

Реализация результатов работы. Результаты исследований и разработанный программный комплекс нашли широкое применение и были использованы в рамках исследований по следующим НИР: «Создание отраслевой системы доступа к информационным ресурсам научного и образовательного назначения по приоритетным направлениям развития науки и техники в области искусственного интеллекта и CALS-, CAD-, САМ-, САЕ-технологий» (гос. per. № 01 2006 05586); «Разработка теории построения инструментальной среды создания многоагентных систем интеллектуализации поиска и анализа данных в глобальных вычислительных сетях» (гос. per. № 01 2009 54253); «Создание информационно-аналитической системы мониторинга, анализа и прогнозирования процесса подготовки научных

кадров в вузах и научных организациях с учетом приоритетных направлений развития экономики и социальной сферы федерального округа» (гос. per. № 01 2009 54245); «Разработка математических моделей, информационного и программного обеспечения для поддержки инновационных решений в области высоких технологий наукоёмких производств» (гос. per. № 01 2009 54252).

Апробация работы. Основные научные и практические результаты работы докладывались и обсуждались на 9 различных конференциях и форумах. Работа докладывалась на международном молодежном форуме «Будущее высоких технологий и инновации за молодой Россией» проводимого в рамках XV международной выставки-конгресса «Высокие технологии. Инновации. Инвестиции» (г. Санкт-Петербург 2009г.) и были отмечены призовым 3 местом; по итогам открытого конкурса молодых ученых по тематике «Наука и образование против террора» была отмечена в номинации «Оригинальная работа» (МГТУ г. Москва 2010г.); III Международной научно-практической конференции «Достижения молодых учёных в развитии инновационных процессов в экономике, науке, образовании» и отмечены дипломом победителя программы «Участник молодежного научно-инновационного конкурса» («УМНИК») (г. Брянск 2011г.); международной научно-практической конференции «Инновации в условиях развития информационно-коммуникативных технологий» (г. Орел 2008г.); и др.

Публикации. По теме диссертации опубликовано 14 печатных работ из них 1 монография и 3 статьи в журналах входящих перечень ведущих российских рецензируемых научных журналов.

Структура и объем работы. Диссертационная работа состоит из введения,

пяти глав, заключения, списка литературы из наименований и приложений.

Основная часть работы содержит страницы машинописного текста, рисунков

и таблиц.

Обзор структур данных, используемых в информационных системах

С развитием сети Интернет увеличивается полнота информации доступной через сеть, что в свою очередь делает привлекательным построение различного рода информационных систем, основывающихся на информации, получаемой из сети. Использование Интернет в качестве основного источника информации для ИС, позволяет автоматизировать процесс сбора информации и заполнения хранилищ документов. Также при таком подходе значительно повышается объективность и актуализация информации, содержащейся в ХД, так как документы в сети постоянно актуализируются и составляются множеством независимых авторов [21].

Интернет-ориентированные системы используют различные методы сбора информации, каждый из них различается по степени автоматизации и качественным параметрам получаемой коллекции документов. Рассмотрим основные методы наполнения предметно-ориентированных ХД документами из сети Интернет.

Одним из первых методов наполнения ХД, является ручной метод [23], при котором эксперт предметной области производит обследование содержимого сети Интернет на предмет выявления информационных источников, соответствующих предметной области. Данный метод является наиболее точным и полностью зависит от квалификации эксперта, занимающегося анализом, но, в связи с огромной трудоемкостью данного процесса, применение метода ограничивается составлением специальных энциклопедических словарей, содержащих только самые основные данные по предметной области. На данный момент наиболее популярным ресурсом, имеющим такой способ наполнения, является Wikipedia. Однако, в связи с тем, что информация собирается экспертами данный ресурс хоть и имеет хорошую каталогизацию, но не позволяет проводить дополнительный автоматизированный анализ информации и строить интеллектуальные подсистемы поиска. Расширение количества характеристик документа, которые могли бы позволить производить более глубокий автоматизированный анализ, еще больше увеличили бы временные затраты экспертов по заполнению ХД. А если учесть, что статьи Wikipedia заполняются на добровольных началах, то это могло бы привести к не привлекательности всего проекта для авторов.

В следующем методе производится частичная автоматизация за счет использования поисковых роботов [23], совершающих переходы по ссылкам. В случае использования данных роботов с целью сбора предметно 15 ориентированной информации, роботы запускаются не по произвольным адресам, как в случае с универсальными поисковыми системами, а на крупные информационные источники в заранее определенные экспертом предметной области адреса. Данный метод может быть достаточно эффективным, в случае правильного определения глубины выборки и исходных информационных источников. Данный подход используется универсальными ИПС, для построения сервисов поиска в новостях, блогах и др. При составлении коллекции анализируемых документов с новостями, роботами осуществляется автоматический обход электронных новостных изданий, и выбираются все документы принадлежащие данным ресурсам и имеющие актуальные даты публикации. Основным недостатком данного метода является ограниченность источников информации, по знаниям эксперта, что может в значительной степени снизить щироту выборки. Также ИС, построенная с использованием данного метода, будет инертна или совсем нечувствительна к появлению новых источников информации. Также немаловажным недостатком является достаточно высокая трудоемкость и необходимость постоянного контроля эксперта.

Развитием предыдущего подхода является метод, при котором ХД заполняется путем автоматического обхода специализированных каталогов [23], посвященных заданной предметной области. Такой метод сбора информации, является одним из наиболее простых, но полностью зависит от качества каталога, составленного сторонними экспертами. Использование каталогов для сбора информации позволяет автоматически классифицировать документы по разделам исходных каталогов. Также при достаточном качестве каталогов обеспечивается высокая точность выборки. При этом процесс сбора информации является почти полностью автоматическим, работа эксперта сводится лищь к указанию незначительного количества исходных адресов каталогов. При использовании достаточного числа независимых каталогов можно достичь приемлемой ширины выборки, а также обеспечить достаточную объективность собираемой информации. Однако в больщинстве случаев такие информационные ресурсы как каталоги часто имеют малое количество каталогизированных документов в рамках одной предметной области, что значительно понижает эффективность данного метода. В последнее время интерес к составлению электронных каталогов значительно понизился, что также сильно снижает актуальность документов, содержащихся в них. Это свою очередь может приводить к неудовлетворительным результатам работы данного метода.

Наиболее популярным способом сбора информации для предметно-ориентированных ХД стал метод автоматического взаимодействия с внешними ИПС (метапоиск) [93, 154, 155]. Данный метод основывается на передачи запросов к ИПС и загрузки документов, получаемых в ответе. Для построения запросов, отражающих информационную потребность системы, может использоваться как эксперт предметной области, так и автоматизированная подсистема, формирующая запросы из описания предметной области (онтологии). Отсылка запросов и разбор ответов от ИПС осуществляется за счет поискового робота, обладающего информацией о принципах работы ИПС и способного с ней взаимодействовать. При использовании данного метода имеется возможность динамически управлять объемом получаемого хранилища данных и соответственно устанавливать охват предметной области. Также использование этого метода позволяет наполнять хранилище заведомо высоко релевантными документами по оценки других ИПС, производя первичный отсев непертинент-ных документов. Наряду с множеством достоинств данного метода, имеется недостатки, обуславливаемые в основном проблемами работы используемых ИПС (коммерциализация выдачи результатов, статичность предоставляемых выборок, информационный шум, семантическая омонимия и др.). Для устранения недостатков отдельной ИПС производится одновременная работа с множеством ИПС. Для работы с каждой отдельной ИПС обычно создаются отдельные поисковые модули. Такой подход имеет существенные недостатки, заставляющие многих разработчиков отказываться от данного метода сбора информации [144]. Каждая поисковая система имеет собственный формат входных и выходных данных, который регулярно изменяется по мере усовершенствования работы и интерфейса ИПС. Данное обстоятельство приводит к тому, что разработчикам нужно постоянно изменять уникальные модули, переписывая их программный код, и как следствие ИС, построенная таким образом, не может быть использована без постоянного вмешательства самих разработчиков. Также при разработке могут быть упрощены запросы к ИПС вплоть до того, что передаются только поисковая фраза без уточнения дополнительных параметров поиска, что влечет за собой резкое ухудшение качества выборки документов.

Наиболее привлекательным подходом к сбору информации является синтез перечисленных методов, что позволит обеспечить наиболее полную выборку документов по предметной области и обеспечить их актуальность. Такой синтез методов требует разработки дополнительных алгоритмов, с помощью которых можно будет объединить выходные результаты всех методов сбора. При этом объединенная коллекция документов содержит значительное количество заведомо нерелевантных документов и документов, имеющих низкую степень соответствия устанавливаемой предметной области. Данная проблема может быть решена при усовершенствовании алгоритмов определения пертинент-ных документов и обеспечении эффективной фильтрации.

Математическая модель функции настройки агента метапоиска на работу с внешней информационно-поисковой системой по ее полному описанию

Для сбора документов в системе используются агент координации и агенты метапоиска, взаимодействующие с внешними поисковыми системами посредством протокола HTTP.

Исходными данными для подсистемы метапоиска являются; поисковый дескриптор; полное описание поисковых систем, используемых в качестве источника информации; настройки поиска, определяемые пользователем; образ пользователя, необходимый для идентификации запрашивающего клиента. Поисковый дескриптор представляет собой набор поисковых фраз, составленных экспертом предметной области. Он передается агенту координации, который просматривает настройки пользователя и описание всех ИПС, в результате чего он создает и запускает экземпляры агентов метапоиска, передавая им наборы фраз из поискового дескриптора [3].

Агенты метапоиска отсылают запросы, содержащие поисковую фразу и предустановленные параметры поиска в соответствии с установками пользователя. После получения запроса АР1 ИПС выдает результаты поиска, которые агент метапоиска разбирает и выделяет из них информацию о найденных документах [4]. Метаинформация о найденных документах передается агенту координации, который производит агрегирование результатов поиска и принимает решение о сохранении информации о документе в хранилище (рис. 2.1).

Работа подсистемы продолжается в цикле до тех пор, пока не будут обработаны все фразы из поискового дескриптора. Полный обход поискового дескриптора в системе метапоиска называется сессией поиска. Данная операция выполняется регулярно для отслеживания появления в сети новых документов и обнаружения изменений в документах. При сохранении ииформации о доку API - (англ, application programming interface) интерфейс программирования приложений менте ведется контроль его версий, и устанавливаются временные отметки его обнаружения и модификации, за счет чего обеспечивается функция мониторинга информации в сети [19].

Основной идеей разработанных моделей является вынесение всех уникальных особенностей подключаемой системы в отдельное описание, не зависящее от программного кода агента метапоиска. Работа с внешней ИПС включает две обширные функции: подключение ИПС в качестве внешнего агента поиска (настройка агента на работу с ИПС) и поиск документов. Для осуществления автономной работы агента для каждой ИПС создается отдельный экземпляр универсального агента взаимодействия, но с уникальным описанием отдельной ИПС. Таким образом, каждый запущенный экземпляр агента взаимодействия является образом внешней ИПС в подсистеме поиска и выглядит для нее как полноценный агент поиска.

Предлагаемая схема взаимодействия с внешними ИПС В разработанной модели настройки поиска не зависят от конкретной ИПС и являются общими, также в разработанном формате имеется возможность уточнить настройки для отдельной ИПС. Используемые ИПС различаются по своему функционалу и могут не поддерживать все устанавливаемые настройки пользователя, поэтому каждый параметр поиска имеет дополнительную характеристику обязательности его использования. В случае если параметр является обязательным для исполнения, а какая-либо из подключаемых ИПС не поддерживает данной возможности настройки, то в этом случае работа подсистемы прекращается и пользователю сообщается об ошибке, после чего он должен либо отключить не валидную ИПС или дополнить ее описание. Также в разрабатываемых моделях предусматривается возможность имитации пользователя, это необходимо для более корректной работы ИПС, так как большинство из них стараются пресечь автоматизированный сбор информации и запрещают ме-тапоиск. Однако, в конечном счете алгоритмы классификации пользователя как робота или человека основываются на вполне формальных параметрах, что позволят создать полную имитацию пользователя.

Ключевым этапом в работе с внешними ИПС является подключение их в систему в виде внешних агентов поиска (инициализации). Данный этап представляется в виде функции, алгоритм работы которой основывается на математических моделях описания внутреннего агента взаимодействия и описании внешней ИПС. В основе данной функции лежит принцип анализа и последующего синтеза отдельных функциональных возможностей ИПС. При этом каждая внешняя ИПС представляется как система, имеющая набор функциональных возможностей, представленных для внешнего пользователя как набор управляемых параметров, а полный набор этих функциональных возможностей представляет полный набор параметров, которые могут быть переданы ИПС [20]. Стоит отметить, что большинство современных ИПС предоставляют различные наборы параметров для управления одними и теми же функциями в системе. Таким образом, в описании ИПС представлена как мультимножество [П0] функциональных возможностей со связанным множеством входных параметров. Результатом работы всех ИПС является список с метаинформацией о найденных документах, но так как данный список может иметь произвольный формат и принцип передачи, в ее описании также присутствует информация о формате выдаваемых результатов. В свою очередь сам внутренний агент взаимодействия с ИПС, также имеет описание собственных возможностей по управлению. Данная возможность вводится для абстрагирования от реализации самого агента метапоиска, что позволяет легко масштабировать агент взаимо 44 действия, добавляя новые возможности поиска и не изменять основные функции подключения внешних ИПС и поиска. Описание агента взаимодействия представляет собой полный набор функций агента метапоиска и схоже с форматом описания ИПС. В результате такого анализа возможностей внутреннего агента поиска и ИПС находится пересечение их возможностей, а также создается экземпляр агента метапоиска с делегированием своих возможностей к внешней ИПС. Для более подробного описания разработанного алгоритма взаимодействия с внешними ИПС рассмотрим основные математические модели: модель внутреннего агента взаимодействия с ИПС, модель описания внешней ИПС, а также функции подключения ИПС и поиска документов через модифицированную модель внешней ИПС.

Разработка методов анализа медиаинформации и семантической классификации изображений

Ограничением по использованию разработанных методов поиска является необходимость использования протокола HTTP в качестве основного протокола передачи данных от браузера пользователя к ИПС. Однако следует отметить, что большинство современных ИПС используют именно протокол HTTP для передачи данных. При этом в разработанных алгоритмах нет практически никаких ограничений на используемые веб-технологии для передачи данных (HTML, XML, JSON и пр.).

Также в качестве ограничения для использования метапоиска может выступать сильная обфускация результатов выдаваемых ИПС, данное ограничение легко преодолевается путем добавления в описание особенностей ИПС параметра указывающего на обфускацию результатов и написания дополнительных алгоритмов для разбора результатов поиска не регулярными выражениями, а с использованием меток DOM-модели. Данная возможность не реализовыва-лась из соображений целесообразности, потому как ни одна из современных поисковых систем не занимается целенаправленным скрытием результатов поиска от автоматизированных систем метапоиска.

Принцип разделения информации о внешней ИПС от реализации взаимодействующего с ней агента позволяет, не изменяя программного кода, легко добавлять новые источники метапоиска. Также актуальной задачей является регулярное обновление информации об изменившихся форматах передачи данных. Большинство поисковых систем не стоит на месте и постоянно дорабатываются, меняя свои форматы входных и выходных данных. При классическом подходе это становится серьезной проблемой для разработчиков систем, использующих метапоиск. При использовании разработанных подходов, модификация информации о формате передаваемых данных является менее трудоемким процессом. Для этих целей в системе была создана удобная подсистема тестирования описаний ИПС с возможностью точечного выявления несоответствия описания реальным форматам. Использование принципов, в которых описание ИПС вынесено в отдельные структуры данных, позволяет дорабатывать дополнительные агенты, по поиску ИПС и автоматизированному сбору информации о их возможностях и принципах работы. Что при классическом подходе не представляется возможным.

Вынесение описания функциональных возможностей самого агента мета-поиска позволяет в случае появления новых возможностей поиска у внешних ИПС легко дорабатывать его функционал. При этом возникнет необходимость изменить описание, но основные функции подключения агентов и использование их для поиска затронуты не будут. Данный подход также дает возможность использовать агент метапоиска в процессе его доработки, так как для отключения незавершенной функциональной возможности или неработающей на данный момент по каким-либо причинам достаточно лишь не указывать их в описании агента метапоиска и их использование автоматически будет блокировано.

В описанном подходе весь функционал реализуется единожды в одном агенте метапоиска, после чего подстраиваясь под конкретную ИПС не нужный функционал просто отключается. Данный подход позволяет обеспечить высокую степень повторного использования программного кода. Также при создании нового экземпляра агента он автоматически запускается в новом потоке, что позволяет распараллелить выполняемые задачи.

Так как каждый экземпляр агента после запуска является полностью независимым от системы, это позволяет легко разносить исполнение агента не только в различные потоки и как следствие исполнять на много ядерных и много процессорных системах, но также и полностью выносить исполнение агента на отдельное вычислительное оборудование с разными каналами связи. Высокая автономность экземпляров агентов также позволяет разносить географически по разным серверам агентов, что позволят делать более широкую выборку по территориальному признаку, так как большинство современных ИПС по умолчанию ограничивают результаты поиска по региону, в котором зарегистрирован провайдер, и многие из этих систем не позволяют изменять эту настройку с помощью параметров. 2.7. Выводы по главе

В главе описана разработанная структура взаимодействия подсистемы метапоиска с внешними информационно-поисковыми системами, которая позволяет разделить программную реализацию агента метапоиска и описание ипс. Изложены все необходимые математические модели для построения универсального агента метапоиска. Показаны принципы его работы и возможные варианты применения, а также описаны преимущества предлагаемой модели метапоиска.

Разработанные математические модели не имеют зависимостей от среды разработки и средств хранения данных, что позволяет гибко конвертировать форматы описательной информации, что в свою очередь позволяет создать удобные средства по централизованному распространению измененной информации о ИПС и предоставить пользователям широкий набор описаний метапо-исковых источников.

Описанные модели подключения внешних ИПС позволяют обеспечить высокую степень отказоустойчивости системы. Показанная в работе возможность выяснения корректности описания позволяет на раннем этапе обнаружить неверное описание и не создавать дополнительных нерабочих экземпляров агентов. Поэтому система метапоиска может оставаться работоспособной пока хоть одна ИПС описана верно.

Таким образом, применение разработанных методов позволяет: использовать широкие возможности метапоиска, используя практически любые ресурсы; осуществлять поиск документов в сети с учетом всех параметров поиска пользователя; гибко расширять подсистему метапоиска и оперативно подстраиваться под изменяющиеся форматы входных и выходных данных внешних ИПС, что решает большинство проблем возникаюших при метапоиске.

Разработка структуры предметно-ориентированного хранилища данных и его представление в базе данных

Удаление выбросов. Девяносто пять процентов данных, распределенных по нормальному закону, находятся внутри интервала ограниченного удвоенным значением стандартного отклонения в окрестности среднего значения. Таким образом, для каждого интервала непрерывных данных были вычислены исключения, находящиеся вне указанных интервалов. Удаление таких выбросов из тренировочной коллекции способствует более успешному обучению сети.

Подбор количества тренировочных данных. Количество данных, используемых для тренировки сети, является существенным фактором, влияющим на эффективность тренировки сети. Чем больше переменных, тем больше данных требуется для тренировки сети. Поэтому в разработанном программном комплексе данный параметр был вынесен для корректировки в интерфейс, что позволило экспериментально установить необходимые значения.

Построение выборки из набора данных. Для оценки эффективности метода построения выборки тренировочных данных, в качестве регулируемого параметра в интерфейс программы по настройке нейронной сети, были вынесены методы построения выборки. В разных задачах классификации могут быть эффективными методы, выбирающие в обучающую выборку как одинаковое количество тестовых примеров на класс, так и с различным количеством примеров по классам. Были разработаны два метода, осуществляющие выборку данных из коллекции изображений. При первом методе выбирается одинаковое количество примеров на каждый класс, во втором методе количество выбираемых примеров на класс пропорционально количеству примеров во всей коллекции, при этом задается лишь размер полной выборки примеров. В обоих методах соблюдаются условия случайности выбираемых данных, и осуществляется проверка репрезентативности класса по параметрам. После построения выборки сравниваются средние значения и диапазонов изменений с аналогичными параметрами полного набора, чтобы убедиться в том, что выборка выполнена правильно.

Проверка качества. В качестве предварительного этапа оценки качества выбранных параметров для подачи на вход нейронной сети и достаточности этих данных для решения поставленной задачи классификации были приведены статистические тесты, показывающие корреляцию между входными данными и установленными классами. Также для оценки качества работы и сбалансированности нейронной сети, обучающая выборка строится размером меньше общего объема классифицированной экспертами коллекции, разница между полным множеством примеров всей коллекции и тренировочной выборкой составляет тестовую коллекцию. Также в разработанном программном комплексе по настройке нейронной сети реализована возможность просмотра диаграммы, на которой изображается количество ошибок сети первого и второго рода (полнота, точность) при повторении обучающей выборки и оставшейся тестовой выборки, что позволяет сбалансировать возможности сети к аппроксимации получаемых значений и точностью обучения.

Шкалирование данных. Все выходные данные должны быть шкалированы к диапазону, который соответствует диапазону выходных значений сжимающей функции активации выходного слоя. Так как для используемой нейронной сети в качестве функции активации нейрона была выбрана сигмои-дальная функция с придельными значениями от О до 1, то и все выходные значения были определены на этом же диапазоне. Также для ускорения обучения сети все входные значения были приведены к тому же диапазону. Для приведения непрерывных входных данных было использовано минимаксное линейное преобразование, при этом как уже было описано выше, данные были разделены на несколько наиболее линейных и репрезентативных диапазонов. Для шкалирования входных данных на диапазон [0,1] использовалась следующая зависимость ITI max(min(F, Vmax), Vmin) - Vmin V = (3.18) Цпах Vmin V - исходное значение параметра; V - значение параметра, нормализованное на диапазон [0,1]; Vmax - максимальное значение параметра (верхняя граница рассматриваемого диапазона); Vmin - минимальное значение параметра (нижняя граница диапазона).

Кодирование данных. При кодировании входных значений линейных данных для каждого диапазона параметра использовался отдельный нейрон. В результате чего один линейный параметр предоставляется сети в виде нескольких нейронов, причем если верхняя граница диапазона меньше подаваемого значения, то значение такого нейрона будет 0; а в случае, если нижняя граница диапазона больше подаваемого значения, то значение на такой нейрон будет 1. Только в случае попадания значения в кодируемый диапазон, значение нейрона будет изменяться в приделах [0,1]. Перечисляемые данные кодируются несколькими нейронами на класс, при этом каждый нейрон сопоставляется с конкретным классом. Все нейроны перечисляемого параметра равны 0, только нейрон, соответствующий значению класса выставляется в 1.

Метод иерархической классификации изображений При разработке метода классификации изображений было решено использовать нейронную сеть с топологией полносвязный многослойный персеп-трон [53]. После создания алгоритмов подготовки входных значений в рамках программного комплекса по обработке изображений была создана программа, предназначенная для исследования работы и настройки нейронной сети [107].

Формализация процесса мониторинга информации в сети Интернет при создании предметно-ориентированных хранилищ данных Леонов, Евгений Алексеевич

Обзор структур данных, используемых в информационных системах

Математическая модель функции настройки агента метапоиска на работу с внешней информационно-поисковой системой по ее полному описанию

Разработка методов анализа медиаинформации и семантической классификации изображений

Разработка структуры предметно-ориентированного хранилища данных и его представление в базе данных

Похожие диссертации на Формализация процесса мониторинга информации в сети Интернет при создании предметно-ориентированных хранилищ данных