Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Формализация процесса мониторинга информации в сети Интернет при создании предметно-ориентированных хранилищ данных Леонов Евгений Алексеевич

Данная диссертационная работа должна поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Леонов Евгений Алексеевич. Формализация процесса мониторинга информации в сети Интернет при создании предметно-ориентированных хранилищ данных: автореферат дис. ... кандидата технических наук: 05.13.01 / Леонов Евгений Алексеевич;[Место защиты: Волгоградский государственный технический университет].- Волгоград, 2011.- 21 с.

Введение к работе

Актуальность. Современные информационные системы (ИС) получили широкое распространение во множестве предметных областей. Начиная с 60х годов прошлого века, велись активные разработки алгоритмов и методов построения интеллектуальных информационных систем исходными данными, которых являлись специализированные базы данных заполняемые экспертами предметных областей. С повсеместным распространением сети Интернет она стала основным источником информации. В результате чего возникла возможность создания интеллектуальных систем, использующих в качестве основного источника информации, получаемой из сети Интернет.

При адаптации методов искусственного интеллекта, используемых в классических ИС, к использованию в интернет-ориентированных информационных системах (ИОИС) возник широкий спектр проблем по наполнению хранилищ данных на основе Интернет. Среди таких проблем:

низкая эффективность методов наполнения хранилищ данных, отсутствие универсальных средств взаимодействия с информационно поисковыми системами;

необходимость и недостаточная эффективность существующих алгоритмов ранжирования документов по степени их качества в ограниченных предметно-ориентированных коллекциях;

большое количество информации представленной в виде медиа информации, что требует дополнительных процедур ее анализа;

общая высокая зашумленность информации в среде Интернет;

наличие в веб-документах большого количества информации его не характеризующей.

В связи с этим значительно возрастает роль качественного автоматического сбора информации, для формирования предметно-ориентированных хранилищ данных. Так как Интернет является универсальным источником информации, то для ограничения предметной области возникает необходимость предварительного отбора документов и выявления степени их соответствия предметной области информационной системы. Также не менее важным является фильтрация заведомо неперти-нентных документов, появление которых в коллекции может быть вызвано наличием большого объема поискового спама в сети. Имеется высокая зависимость качества работы всей ИС и используемых в ней методов анализа от исходной коллекции анализируемых документов. В связи с этим, данная работа, направленная на формализацию и усовершенствование методов и алгоритмов мониторинга информации из сети Интернет является актуальной и требующей решения.

Цель работы формализовать процесс мониторинга информации в сети Интернет и усовершенствовать методы анализа информации, используемые при построении предметно-ориентированных хранилищ данных с целью повышения эффективности работы Интернет-ориентированных информационных систем. Для достижения поставленной цели необходимо решить следующие задачи:

  1. Формализовать процедуры взаимодействия подсистем сбора информации со сторонними информационно-поисковыми системами с целью эффективного наполнения предметно-ориентированного хранилища документов.

  2. Разработать алгоритм обработки документов для выявления уникальной значимой смысловой части и определения основных параметров качества документа.

  1. Разработать классификатор изображений используемых в документах для обнаружения иллюстраций контента и определения их типа.

  2. Разработать методы фильтрации заведомо непертинентных документов в хранилище, с целью уменьшения его объема и повышения точности.

  3. Создать программные средства для автоматизации мониторинга информации в сети Интернет и построения предметно-ориентированного хранилища данных.

  4. Создать информационную систему, основанную на разработанных программных средствах автоматизации мониторинга сети Интернет с целью проверки эффективности предлагаемых методов и алгоритмов.

Методология и методы исследования. В основу исследований положены основные научные положения теории информационного поиска и искусственного интеллекта; математический аппарат и методы теории множеств и логики предикатов; теории искусственных нейронных сетей; теории нечетких множеств и лингвистических переменных. При разработке программной реализации использовалась объектно-ориентированная технология проектирования, а также теория мультиагентных систем.

Научная новизна работы состоит в разработке моделей и алгоритмов автоматизированного сбора и обработки информации для мониторинга информации в сети Интернет, и использование разработанных алгоритмов в процессе формирования предметно-ориентированных хранилищ данных, а именно:

  1. Разработана математическая модель формализованного представления веб-сервисов поиска и ИПС в качестве внешних агентов метапоиска.

  2. Разработаны методы анализа структуры документа для выявления семантически значимых информационных блоков.

  3. Предложена методика предварительной семантической классификации изображений с использованием каскада простых нейронных сетей.

  4. Предложено использование алгоритма нечеткого логического вывода типа Мам-дани для ранжирования документов в условиях ограниченности коллекции по предметной области на основе учета их информативности.

Практическую ценность работы составляют:

  1. Разработанный универсальный программный комплекс, обеспечивающий мониторинг информации из сети Интернет и формирующий предметно ориентированное хранилище данных.

  2. Разработанный сервис тестирования искусственных нейронных сетей классификатора и анализа коллекций изображений.

  3. Классифицированные тестовые и проверочные коллекции изображений для исследований применения методов машинного обучения.

Реализация результатов работы. Результаты исследований и разработанный программный комплекс нашли широкое применение и были использованы в рамках исследований по следующим НИР: «Создание отраслевой системы доступа к информационным ресурсам научного и образовательного назначения по приоритетным направлениям развития науки и техники в области искусственного интеллекта и CALS-, CAD-, САМ-, САЕ-технологий» (гос. per. № 01 2006 05586); «Разработка теории построения инструментальной среды создания многоагентных систем интеллектуализации поиска и анализа данных в глобальных вычислительных сетях» (гос. per. № 01 2009 54253); «Создание информационно-аналитической системы мониторинга, анализа и прогнозирования процесса подготовки научных

кадров в вузах и научных организациях с учетом приоритетных направлений развития экономики и социальной сферы федерального округа» (гос. per. № 01 2009 54245); «Разработка математических моделей, информационного и программного обеспечения для поддержки инновационных решений в области высоких технологий наукоёмких производств» (гос. per. № 01 2009 54252).

Апробация работы. Основные научные и практические результаты работы докладывались и обсуждались на 9 различных конференциях и форумах. Работа докладывалась на международном молодежном форуме «Будущее высоких технологий и инновации за молодой Россией» проводимого в рамках XV международной выставки-конгресса «Высокие технологии. Инновации. Инвестиции» (г. Санкт-Петербург 2009г.) и были отмечены призовым 3 местом; по итогам открытого конкурса молодых ученых по тематике «Наука и образование против террора» была отмечена в номинации «Оригинальная работа» (МГТУ г. Москва 2010г.); III Международной научно-практической конференции «Достижения молодых учёных в развитии инновационных процессов в экономике, науке, образовании» и отмечены дипломом победителя программы «Участник молодежного научно-инновационного конкурса» («УМНИК») (г. Брянск 2011г.); международной научно-практической конференции «Инновации в условиях развития информационно-коммуникативных технологий» (г. Орел 2008г.); и др.

Публикации. По теме диссертации опубликовано 14 печатных работ из них 1 монография и 3 статьи в журналах входящих перечень ведущих российских рецензируемых научных журналов.

Структура и объем работы. Диссертационная работа состоит из введения,

пяти глав, заключения, списка литературы из наименований и приложений.

Основная часть работы содержит страницы машинописного текста, рисунков

и таблиц.

Похожие диссертации на Формализация процесса мониторинга информации в сети Интернет при создании предметно-ориентированных хранилищ данных