Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Методы и алгоритмы обработки потоков данных в многопроцессорных вычислительных комплексах командно-измерительных систем на основе моделей нейронных сетей Фраленко, Виталий Петрович

Методы и алгоритмы обработки потоков данных в многопроцессорных вычислительных комплексах командно-измерительных систем на основе моделей нейронных сетей
<
Методы и алгоритмы обработки потоков данных в многопроцессорных вычислительных комплексах командно-измерительных систем на основе моделей нейронных сетей Методы и алгоритмы обработки потоков данных в многопроцессорных вычислительных комплексах командно-измерительных систем на основе моделей нейронных сетей Методы и алгоритмы обработки потоков данных в многопроцессорных вычислительных комплексах командно-измерительных систем на основе моделей нейронных сетей Методы и алгоритмы обработки потоков данных в многопроцессорных вычислительных комплексах командно-измерительных систем на основе моделей нейронных сетей Методы и алгоритмы обработки потоков данных в многопроцессорных вычислительных комплексах командно-измерительных систем на основе моделей нейронных сетей
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Фраленко, Виталий Петрович. Методы и алгоритмы обработки потоков данных в многопроцессорных вычислительных комплексах командно-измерительных систем на основе моделей нейронных сетей : диссертация ... кандидата технических наук : 05.13.11 / Фраленко Виталий Петрович; [Место защиты: Ин-т програм. систем им. А.К. Айламазяна РАН].- Переславль-Залесский, 2011.- 120 с.: ил. РГБ ОД, 61 12-5/297

Содержание к диссертации

Введение

Глава 1. Аналитический обзор алгоритмов обработки потоков данных космического назначения на основе искусственных нейронных сетей 10

1.1. Актуальные задачи обработки потоков информации в НС КИС нового поколения 10

1.2. Основные свойства и классификация нейронных сетей 12

1.2.1. Преимущества аппарата ИНС 12

1.2.2. Классификация ИНС 13

1.2.3. Нейросетевые пакеты 16

1.2.4. Подходы к распараллеливанию ИНС 20

1.3. Анализ возможностей практического применения ИНС для решения задач космического назначения 21

1.3.1. Сжатие телеметрии и целевой информации 21

1.3.2. Шифрование телеметрии и командной информации, защита от сетевых атак 26

1.3.3. Обработка и анализ космических снимков 30

1.4. Основные выводы 32

Глава 2. Сжатие изображений и шифрование цифровых сигналов 34

2.1. Сжатие изображений с потерями на основе рециркуляционной сети и ИНС Кохонена 34

2.1.1. Основные определения и параметры алгоритмов сжатия 34

2.1.2. ИНС прямого распространения, архитектура «кодер/декодер» 37

2.1.3. ИНС Кохонена и векторное квантование 41

2.1.4. Выводы к разделу 47

2.1. Шифрование с применением архитектуры «кодер/декодер» 48

2.2.1. Алгоритм нейросетевого шифрования 48

2.2.2. Представление данных 49

2.2.3. Кодирование букв и обучение нейронной сети 51

2.2.4. Примеры кодирования и декодирования 52

2.2.5. Оценка скорости алгоритма шифрования на МВС 53

2.2.6. Выводы к разделу 54

Глава 3. Фильтрация изображений и сетевых пакетов. Выделение регионов на космических снимках 55

3.1. Фильтрация изображений на основе асинхронной сети Хопфилда с моделью Крика-Митчисона 55

3.1.1. Обучение сети. Правило Хебба 56

3.1.2. Синхронный режим работы сети 57

3.1.3. Асинхронный режим работы сети 58

3.1.4. Модель Крика-Митчисона. Разобучение 59

3.1.5. Формальное описание алгоритма 60

3.1.6. Экспериментальное исследование сети Хопфилда на космических снимках 61

3.1.7. Выводы к разделу 63

3.2. Разработка и исследование алгоритма фильтрации и классификации изображений на основе двухслойной сети прямого распространения 63

3.2.1. Экспериментальное исследование алгоритма фильтрации космических снимков 64

3.2.2. Экспериментальное исследование универсального алгоритма фильтрации и классификации космических снимков 66

3.2.3. Выводы к разделу 68

3.2. Фильтрация сетевых пакетов 68

3.3.1. Анализ методов сжатия пространства признаков 69

3.3.2. Алгоритм решения задачи фильтрации сетевых атак 71

3.3.3. Проведение экспериментов по защите КВУ от сетевых атак 76

3.3.4. Архитектура программного модуля нейросетевого мониторинга сетевых атак 83

3.3.5. Выводы к разделу 86

3.4. Выделение регионов на снимках ДЗЗ алгоритмом спектрографической «закраски» 86

3.4.1. Разработка спектрографического алгоритма 87

3.4.2. Экспериментальное исследование спектрографического алгоритма на МВС 88

3.4.3. Выводы к разделу 91

Глава 4. Построение программных модулей обработки потоков данных в составе параллельной системы «ППС ИНС» 92

4.1. Особенности распределенной обработки 92

4.2. Характеристика системы «ППС ИНС» 93

4.3. Общая архитектура системы 94

4.4. Xml-описание модулей системы 96

4.5. Xml-описание схем (заданий) системы 97

4.6. Разработка модулей ПС 98

4.7. Описание схем программных реализаций алгоритмов 100

4.7.1. «Закраска» регионов ДЗЗ 100

4.7.2. Сжатие снимков ИНС Кохонена 101

4.7.3. Фильтрация изображений c учителем 102

4.8. Основные выводы 104

Заключение 105

Литература 106

Опубликованные работы 114

Введение к работе

Актуальность работы

Современные требования к космическим системам обуславливают необходимость поиска новых подходов к созданию командно-измерительных систем (КИС), научно-технического задела для разработки перспективной космической техники, конкурентоспособной на мировом рынке. КИС служат для приема, регистрации, отображения, предварительной обработки и передачи в ЦУП телеметрической информации в процессе испытаний и эксплуатации различных изделий ракетно-космической техники (РКТ), а также для контроля параметров орбиты космических аппаратов (КА).

В последние десятилетия во всем мире получила развитие новая прикладная область математики – нейроматематика, основанная на нейросетевых методах обработки данных. С помощью искусственных нейронных сетей (ИНС) можно прогнозировать временные ряды, выполнять распознавание оптических и звуковых сигналов, создавать самообучающиеся системы, управлять подвижными объектами и т.д. Для указанных задач характерны высокая размерность пространства признаков и критический фактор времени, что требует применения высокопроизводительной вычислительной техники.

Известны три направления аппаратной поддержки параллелизма алгоритмов обработки на базе ИНС: создание нейрочипов с использованием технологии FPGA, программно-аппаратная реализация на универсальных многопроцессорных вычислительных системах (МВС) и реализация алгоритмов на видеокартах (GPGPU). В настоящее время становится актуальным внедрение суперкомпьютерной техники в организации Роскосмоса для осуществления имитационного моделирования, управления, обработки целевой информации в режиме, близком к реальному времени.

Предлагаемое в диссертационной работе алгоритмическое и программное обеспечение основывается на комплексе разработанных средств обработки данных космического назначения. При этом учитываются особенности ИНС, возможности современных технологий параллельного программирования и аппаратных средств отечественных суперкомпьютеров семейства «СКИФ». В рамках проектов по программам «Триада», «СКИФ» и «СКИФ-ГРИД», «Поток-ПС», «Космос-НТ» и др. (2005-2011 гг.) автором были разработаны библиотеки алгоритмов и программное обеспечение для ряда космических приложений, включая фильтрацию и сжатие снимков дистанционного зондирования Земли (ДЗЗ), обеспечение безопасности и эффективности передачи информации. Несмотря на имеющиеся международные рекомендательные стандарты CCSDS, указанные задачи по ряду причин (техническое отставание элементной базы, существующая управленческая система и т.д.) остаются нерешенными применительно к отечественным космическим аппаратам и наземным станциям командно-измерительных систем (НС КИС). Бюджет отечественного Роскосмоса в 2005-2011 годах вырос с 0,9 до 3,5 миллиарда долларов, что в 6 раз меньше, чем у США (19 миллиардов долларов), Это приводит к тому, что, к примеру, на космических аппаратах США для сжатия передаваемых данных используется дискретное вейвлет-преобразование (Discrete Wavelet Transform, DWT), а российская сторона передает данные в несжатом виде.

Вопросами обработки данных на нейронных сетях ранее занимались Rosenblatt F., Kohonen T.K., Hopfield J.J., Verma B., Haykin S., Mahoney M., Cheng H., Wosserman F., Горбань А.Н., Галушкин А.И., Новосельцев В.Б., Ясницкий Л.Н. и другие исследователи. Несмотря на очевидный прогресс в этой области, в материалах, опубликованных в научных изданиях, практически отсутствуют достоверные данные по эффективности применения нейронных сетей (оценок качества, скорости, объема, точности и т.д.). В настоящей работе основной упор делается на совершенствование алгоритмов за счет использования интеллектуальных и суперкомпьютерных технологий при объективном подходе к оценке полученных результатов.

Цель диссертационной работы состоит в повышении эффективности и надежности процессов обработки и передачи данных в многопроцессорных вычислительных комплексах космического назначения на основе моделей искусственных нейронных сетей. Для достижения поставленной цели в работе решаются следующие основные задачи: разработка и исследование нейросетевых алгоритмов фильтрации и сжатия изображений с потерями; разработка алгоритмов нейросетевого шифрования и обеспечения безопасности сетевых узлов (защита компьютерных систем от атак); оценка эффективности полученных алгоритмов и их сравнение с существующими аналогами; создание математического и программного обеспечения МВС для решения задач параллельной обработки данных в системах космического назначения.

Методы исследования базируются на использовании теории искусственных нейронных сетей, методов алгебраической теории распознавания, элементов теории кодирования и методов машинного моделирования.

Научная новизна работы заключается в следующем: предложен метод сжатия изображений с потерями, превосходящий возможности формата Jpeg-2000 в широком диапазоне коэффициентов сжатия, основанный на комбинации адаптивного алгоритма минимизации числа нейронов сети Кохонена и алгоритма сжатия без потерь; разработаны алгоритмы, обеспечивающие повышение надежности процессов приема-передачи и обработки информации, включая алгоритм шифрования, обеспечивающий обучение на многосимвольных алфавитах и требующий малого объема памяти для хранения настроек, и алгоритм мониторинга аномальной сетевой активности; предложен алгоритм фильтрации на основе наборов рециркуляционных сетей-экспертов и встроенного механизма классификации, позволяющий восстанавливать изображения при 50% заполнении шумами; разработан метод выделения регионов на снимках ДЗЗ с помощью спектрографических текстур и нейронной сети, обеспечивающий возможность работы не только со спектральными характеристиками, но и непосредственно с пикселями изображения.

Практическая значимость полученных результатов определяется их применением для решения комплекса актуальных задач обработки данных космического назначения в НС КИС, направленных на расширение функциональности и повышение автономности. Разработанные в настоящей работе алгоритмы предоставляют пользователю возможность решения широкого круга задач нейросетевой обработки потоков данных как на кластерных вычислительных устройствах (КВУ), так и на обычных персональных компьютерах с высокой степенью эффективности. Практическая значимость результатов отражена в отчетах выполненных научных исследований в рамках:

Программы Союзного государства «Развитие и внедрение в государствах-участниках Союзного государства наукоемких компьютерных технологий на базе мультипроцессорных вычислительных систем», шифр «ТРИАДА» (проект ПР5 «Разработка новых алгоритмов, принципов создания систем обработки изображений и другой информации от космических средств наблюдения, ориентированных на применение многопроцессорных вычислительных кластеров повышенной вычислительной мощности»);

НИР «Разработка моделей для проведения математического и натурного моделирования по обоснованию принципов предварительной обработки и сжатия целевой информации в бортовых и наземных высокопроизводительных командно-информационных системах при формировании и передаче интегрированных цифровых информационно-управляющих потоков». Шифр НИР: «Поток-ПС»;

Программы Союзного государства «Космос-НТ» (НИР «Разработка прототипа программной нейросетевой системы контроля телеметрической информации, диагностики подсистем космических аппаратов, обработки космических снимков»);

Научно-технической программы Союзного государства «Разработка и использование программно-аппаратных средств ГРИД-технологий и перспективных высокопроизводительных (суперкомпьютерных) вычислительных систем семейства «СКИФ», шифр «СКИФ-ГРИД».

Внедрение результатов работы. Основные результаты диссертационной работы были использованы при разработке программного комплекса «ППС ИНС» для НИЦЭВТ по проекту «Триада» (свидетельство о государственной регистрации программы для ЭВМ № 2010610208, см. прил. А) и модуля мониторинга аномальной сетевой активности на основе искусственных нейронных сетей «Эгида-НС» (свидетельство о государственной регистрации программы для ЭВМ № 2011611277, см. прил. Б). Разработанное алгоритмическое и программное обеспечение внедрено в Научно-исследовательском институте космических систем им. А.А. Максимова (НИИ КС) (см. прил. В). Алгоритмы сжатия и фильтрации внедрены в учебный процесс Института программных систем «УГП имени А.К. Айламазяна» (НОУ ВПО ИПС «УГП имени А.К. Айламазяна») при проведении практических и теоретических занятий по дисциплинам «Математические основы обработки сигналов» и «Моделирование вычислительных систем» (см. прил. Г).

Результаты диссертационной работы докладывались и обсуждались на международных и всероссийских научно-практических конференциях и симпозиумах: научно-техническая конференция ФГУП «РНИИ КП» (10-12 октября 2006, Москва, ФГУП «РНИИ КП»); XII ежегодная научно-практическая конференция УГП им. А.К. Айламазяна (19 апреля 2008, Переславль-Залесский);

I, III и IV всероссийские научно-технические конференции «Актуальные проблемы ракетно-космического приборостроения и информационных технологий» (28-30 апреля 2008, Москва, ФГУП «РНИИ КП»), (1-3 июня 2010, Москва, ОАО «Российские космические системы»), (15-17 июня 2011, Москва, ОАО «Российская корпорация ракетно-космического приборостроения и информационных технологий»); V международная научно-практическая конференция «Исследование, разработка и применение высоких технологий в промышленности» (28-30 апреля 2008, Санкт-Петербург);

IX международная конференция «Распознавание образов и анализ изображений: новые информационные технологии» (РОАИ-9-2008) (14-20 сентября 2008, Нижний Новгород); международная конференция «Программные системы: теория и приложения» (12-15 мая 2009, Переславль-Залесский);

III всероссийская научная конференция «Нечеткие системы и мягкие вычисления» (НСМВ-2009), (21-24 сентября 2009, Волгоград);

I специализированный международный симпозиум «Космос и глобальная безопасность человечества» (2-4 ноября 2009, Amathus Beach Hotel, Лимассол, Кипр); XII всероссийская научно-техническая конференция «Нейроинформатика-2010» (25-29 января 2010, Москва, МИФИ);

I всероссийская научная конференция молодых ученых «Теория и практика системного анализа» (25-28 апреля 2010, Рыбинск);

III международная конференция по безопасности информации и сетей (SIN 2010) (7-11 сентября 2010, Таганрог).

Кроме того, результаты работы докладывались и обсуждались на семинарах Исследовательского центра искусственного интеллекта и Исследовательского центра мультипроцессорных систем ИПС имени А.К. Айламазяна РАН в г. Переславль-Залесский (2005-2011).

Основные результаты диссертационной работы изложены в 19 печатных работах, в числе которых 4 статьи опубликованы в рецензируемых изданиях, рекомендованных ВАК РФ.

Диссертационная работа состоит из введения, четырех глав, заключения, списка литературы, включающего 102 наименования, и четырех приложений. Основная часть изложена на 116 страницах машинописного текста, иллюстрируется 44 рисунками и 52 таблицами.

Анализ возможностей практического применения ИНС для решения задач космического назначения

Пакет Brain Maker Professional предназначен для построения нейронных сетей обратного распространения. Пакет включает в себя программу подготовки и анализа исходных данных NetMaker, программу построения, обучения и запуска нейросетей BrainMaker, а также набор утилит широкого назначения. Программный пакет ориентирован на широкий круг задач – от создания прогностических приложений до организации систем распознавания образов и нейросетевой памяти. Помимо этого, программа предоставляет ряд методов анализа чувствительности выходов сети к различным вариациям входных данных, при этом формируется подробный отчет, в соответствие с которым можно дополнительно оценить степень функциональной зависимости входных и выходных значений. Значительное количество функций программы ориентировано на специалистов в области исследования нейросетей. В программе BrainMaker предусмотрена система команд для пакетного запуска. Существует интерфейсная программа-функция для включения обученных сетей в программы пользователя. В целом пакет может быть интегрирован в программный комплекс целевого использования.

NeuroShell Day Trader v. 3.0 – нейросетевая система, которая учитывает специфические нужды трейдеров и достаточно легка в использовании. NeuroShell Trader имеет, как и другие стандартные программы для трейдеров, «графический» пользовательский интерфейс. Возможности графики позволяют отображать данные в виде японских подсвечников (candlestick), в форме open/high/low/close, high/low/close, линейных графиков или гистограмм различных типов. Существует возможность менять цвета, сжимать и растягивать шкалы, прятать и вновь делать видимыми потоки данных. В ежедневной, недельной или месячной временной шкале можно отображать курсы акций, цены товаров (commodities), биржевые индексы (indexes), взаимные фонды (mutual funds), обменные курсы валют (foreign exchange rates) и т.д.

NeuroShell Trader умеет работать со стандартными текстовыми файлами open/high/low/close/volume, которые поставляют большинство соответствующих агентств. В частности, NeuroShell Trader работает с текстовыми файлами, файлами в формате MetaStock (включая версию 6) и файлами данных в формате, используемом программами TradeStation, SuperCharts и Wall Street Analyst, которые Omega Research распространяет на своих компакт-дисках. Зачастую эти данные непосредственно могут быть использованы в качестве входных переменных для нейронной сети.

В NeuroShell Trader имеется обширная библиотека из более чем 800 технических индикаторов. Помимо стандартных индикаторов, таких как скользящие средние (moving averages), норма изменения (rate-of-change) или стохастические линии (stochastics), NeuroShell Trader дает возможность реализовать собственные индикаторы путем комбинации готовых функций, в состав которых входят условия «если-то», арифметические операторы, тригонометрические функции и многое другое.

Однако одним из основных достоинств рассматриваемого продукта является то, что нейронные сети являются встроенными, а не являются чем-то привнесенным извне и используемым отдельно. Они присутствуют в меню под рубрикой «Predictions» (Прогнозы) наряду с «Indicators» (Индикаторами) и «Data» (Данными). «Prediction Wizard» (Мастер прогноза) позволяет выбрать, что пользователь хочет предсказывать. Это могут быть цены закрытия (close), их процентные изменения или иные данные или индикаторы. Существует возможность устанавливать, на сколько дней вперед делать предсказания [1.7].

Пакет фирмы “The MathWorks” MATLAB также предоставляет пользователям возможность работы с нейронными сетями. Входящий в стандартную поставку MATLAB тулбокс предоставляет широкие возможности для работы с нейронными сетями всех типов. Однако в русскоязычной литературе практически отсутствует методическая литература по применению “Neural Network Toolbox”. Это создает определенные сложности, и пользователи предпочитают использовать специализированные нейросетевые программные средства.

В пакете предусмотрена реализация практически всех типов нейронных сетей, описанных в литературе (15 разновидностей), а также предусмотрена возможность создания пользовательских сетей практически любой конфигурации. Нейронная сеть представлена в пакете как объект, включающий подобъекты и свойства, к большинству из которых имеется доступ из командного окна, что позволяет контролировать поведение сети и гибко управлять ее свойствами. Сеть может быть сохранена в виде .mat-файла. Реализованный набор функций активации, алгоритмов обучения, функций тренировки, инициализации, предварительной и пост-обработки, а также ряд вспомогательных функций, делают Neural Network Toolbox универсальным инструментальным средством для решения задач в самых разных областях науки и техники, а также в экономических и финансовых приложениях.

Работа с пакетом может осуществляться как в режиме командной строки, так и в режиме графического интерфейса пользователя (GUI). В последнем случае доступна реализация только стандартных типов сетей. Сеть произвольной конфигурации можно реализовать только в режиме командной строки [1.8].

Рассмотренные нейросетевые пакеты не рассчитаны на потоковую обработку входных данных. Решение же практических задач требует обработки больших потоков данных, причем с применением средств параллельной и распределенной обработки информации. В связи с этим далее приведена следующая классификация вариантов параллельной декомпозиции нейросетевых вычислений:

Параллелизм уровня сессии обучения подразумевает одновременное обучение одной и той же сети на одинаковых обучающих примерах, однако, с различными параметрами обучения.

Параллелизм уровня учебного примера называют также обучением группами (batch learning): множество обучающих примеров разбивается на определенное количество обучающих подмножеств, каждое из которых используется для обучения своего экземпляра нейронной сети данного типа. В процессе обучения накапливаются изменения весов исходной сети для каждого обучающего подмножества. В конце обучения накопленные изменения весов объединяются и вычисляются новые значения весов.

Параллелизм уровня слоев полезен, когда сеть имеет достаточное количество слоев (больше одного). Вычисления ведутся поточно: каждый слой обрабатывает в данный момент времени свой отдельный пример и, таким образом, увеличивается скорость прохождения данных одного примера через всю сеть, так как сетью обрабатывается несколько примеров одновременно. Невозможно применять при наличии обратных связей у нейронов.

Параллелизм уровня обрабатывающих узлов (нейронов) означает, что каждый узел является отдельной вычислительной единицей, работающей независимо от других узлов. Параллельно в этом случае выполняется, например, суммирование взвешенных входов каждого нейрона, а также другая необходимая обработка.

Экспериментальное исследование универсального алгоритма фильтрации и классификации космических снимков

Задача заключается в разработке набора программного обеспечения (ПО) для повышения уровня информационной безопасности суперкомпьютерных вычислительных систем семейства «СКИФ» в составе перспективной НС КИС, включая систему обнаружения вторжений на основе нейросетевой технологии мониторинга аномальной сетевой активности, использующей аппарат искусственных нейронных сетей.

Обнаружить атаку можно двумя способами: сигнатурный способ сводится к поиску признаков уже известных атак, его преимущество в том, что он практически не подвержен ложным срабатываниям, недостатком же является невозможность обнаруживать незаложенные в систему атаки; способ поиска аномалий позволяет реагировать на ранее неизвестные атаки, но подвержен ложным срабатываниям и требует точной настройки для каждого наблюдаемого объекта; заранее известно, какими функциональными параметрами обладает то или иное приложение или сервис в нормальном состоянии, и любое отклонение от него считается атакой [3.7]. На основании рассмотренных ранее алгоритмов предлагается свести задачу обучения нейросетевой системы и отражения атак к следующей схеме на рис. 3.7: 1) поиск информативных параметров; 2) сокращение числа параметров с помощью МГК или РНС; 3) обучение классификаторов на базе новых информационных векторов. Предлагается использовать расстояние Евклида-Махаланобиса, двухслойный персептрон и сеть Кохонена; 4) отражение атак ) сжатие выбранных на этапе параметров с помощью МГК или РНС; ) классификация нового информационного объекта. Для решения поставленной задачи была использована база данных KDD99 [3.8], содержащая около пяти миллионов записей о сетевых соединениях. Каждая запись в этой базе представляет собой образ сетевого соединения. Соединение – последовательность TCP пакетов за некоторое конечное время, в течение которого данные передаются от IP-адреса источника на IP-адрес приемника (и в обратном направлении). На основании информации, полученной из пакета, и его принадлежности к тому или иному соединению вычисляется четыре группы признаков: 1) признаки, получаемые из сетевого пакета и сессий, такие как продолжительность сессии, тип протокола, тип сервиса, статус соединения, количество отправленных и полученных байт, количество пакетов с нарушением контрольной суммы, количество срочных (требующих приоритетной обработки) пакетов и др.; 2) системные признаки, вычисляемые независимо для каждой сессии, такие как число входов в системные директории, число запусков программ, количество попыток подбора пароля, признаки, отражающие факт наличия входа администратора на ЭВМ, количество выполнений команды su, количество операций с системными файлами и др.; 3) статистика по сессиям за последние 2 секунды (число подключений с одним и тем же IP-адресом или портом, процент сессий с различными флагами состояний, типами сервисов и др.) 4) статистика по последним 100-м сессиям (число подключений с одним и тем же IP-адресом или портом, процент сессий с различными флагами состояний, типами сервисов и др.) Отдельная запись таким образом состоит из 168 байт информации, включает 41 параметр сетевого трафика и промаркирована как «атака типа …» или «не атака». Всего в базе KDD-99 представлены 22 типа атаки. При этом атаки делятся на четыре основные категории: DoS, U2R, R2L и Probe: DoS – отказ в обслуживании, характеризуется генерацией большого объема трафика, что приводит к перегрузке и блокированию сервера; U2R предполагает получение зарегистрированным пользователем привилегий локального суперпользователя (администратора); R2L характеризуется получением доступа незарегистрированного пользователя к компьютеру со стороны удаленной машины; Probe заключается в сканировании портов с целью получения конфиденциальной информации. Как оказалось, для 14 из 23 распознаваемых классов наиболее важным признаком является объем передаваемой информации (т.е. количество переданных и полученных данных – параметры source и destination bytes). Эта информация требуется для определения атак типа DoS и Probe, которым соответствуют наиболее короткие или наиболее длинные сетевые соединения. Однако, для content-based атак (типа ftp_write или phf) принятие решения на основе признаков, базирующихся, например, исключительно на сетевых параметрах, может привести к неожиданным результатам. Стоит отметить и очевидные зависимости – например, признак land (соединение компьютера с самим собой), который связан именно с land-атакой, является наиболее значимым признаком для определения этого класса атаки. На рис. 3.8 показана наибольшая информативность каждого из признаков. В выборке есть 9 признаков, имеющих наиболее низкую информативность (менее 0.001), а значит и их значимость для определения атаки является наиболее низкой. Отдельно стоит отметить, что признаки 20 и 21 (num outbound cmds и number of «hot» logins) вообще не имеют никакого значения для определения типа атаки. Статистическая обработка базы знаний KDD-99 показала, что выборка, кроме всего прочего, имеет серьезный недостаток – повторяющиеся данные. В результате наличия большого объема повторяющихся записей обучение по данной выборке может привести к «смещению акцентов» работы в сторону наиболее часто встречающихся атак. Такое смещение негативно сказывается на обнаружении атак, количество записей по которым и без того мало – это атаки типа u2r и r2l, которые, в свою очередь, также являются опасными. Уточненный алгоритм обработки включал следующие этапы: ) сжатие пространства признаков с использованием метода главных компонент и рециркуляционной ИНС, что положительно сказывается на скорости обучения и снижает затраты аппаратных ресурсов; ) обучение классификаторов на обучающей выборке большого объема – все записи, хранящиеся в базе, были разделены на два непересекающихся подмножества с примерно равной мощностью, данные из первого использовались для обучения классификаторов, данные из второго подавались на распознавание; ) тестирование полноты и точности распознавания сетевых атак [3.9].

Пакеты, уверенность распознавания которых слишком низкая, тоже могут считаться аномальными, что позволяет говорить, что наравне с сигнатурным способом обнаружения атаки используется и аномальный. Выборка эталонов, как говорилось ранее, очень неравномерна, что существенно ухудшает обучение подобной системы (смотри табл. 3.11). Лишь 10 из 22 классов атак обладают достаточным количеством эталонов.

Экспериментальное исследование спектрографического алгоритма на МВС

В настоящее время существует несколько методов, применяемых при создании распределенных систем. В распределенных программных системах можно выделить распределенность трех типов: распределенность вычислений; распределенность данных; гибридная распределенность, в которой распределяются как вычисления, так и данные. Рассмотрим подробнее каждый из вариантов. 1. В случае распределенных вычислений программный комплекс состоит из компонентов, находящихся на различных узлах вычислительной системы. При этом каждый из компонентов выполняет свою функцию в зависимости от конкретной программной системы. В этом варианте может использоваться экземплирование отдельных процедур, функций, объектов на каждом из узлов для обеспечения высокого уровня надежности и доступности системы в целом. Задачи, для которых может быть использована вычислительная распределенность: задача нахождения простых чисел, чисел Фибоначчи, факториала числа, кратчайшего пути в графе и т.д. Интересно отметить, что для решения многих задач подобного рода используются рекурсивные алгоритмы, которые в некоторых случаях могут быть эффективно распараллелены. При использовании вычислительной распределенности очень важно корректно распределить модули, осуществляющие вычисления. Например, не следует отдавать на удаленный узел сети вычисление, требующее для счета с., а для пересылки с. В этом аспекте весьма важными являются: создание такой интеллектуальной стратегии, в которой учитывалось бы количество данных, которое, вероятно, потребуется переслать; количество вычислительных операций, которое потребуется выполнить для решения той или иной задачи; использование данных о скоростных характеристиках сред передачи данных и свободных мощностях кластера; принятие разумного решения о локальном или удаленном способе вычисления. 2. Существуют различные схемы распределения данных. Задачи, для которых может использоваться этот тип распределенности – многопользовательские серверные системы, базы данных, web-серверы, корпоративные информационные системы с хранилищами данных и обширными базами данных. Очевидно, что в этих случаях на программную систему, использующую такой тип распределенности, накладываются требования по обработке огромного числа клиентских запросов. С другой стороны, существуют программные системы, где данные хранятся централизованно в архиве, но при инициации всей системы, они декомпозируются и затем распределяются по вычислительным узлам. Использование подобных систем оправдано в случае, если происходят частые обращения отдельных компонент программной системы в базу данных, и основное время тратится на извлечение информации из нее. Недостатком здесь является большой латентный период программной системы и необходимость разработки специализированного ПО, которое осуществляло бы корректную декомпозицию всей БД, при которой обеспечивалась бы целостность данных. 3. Гибридные схемы. На практике распределенные программные системы в различной степени являются реализациями гибридной схемы, совмещающей в себе как распределение данных, так и распределение вычислений. 4.2. Характеристика системы «ППС ИНС» Разработчиками ядра «ППС ИНС» являются сотрудники лаборатории интеллектуального управления ИПС РАН [4.1-4.3]. Архитектура разработанной системы «ППС ИНС» отвечает требованиям гибкости и расширяемости. Выбранная модульная схема вычислительного ядра обеспечивает гибкую связь модулей, реализующих конкретные алгоритмы. В зависимости от набора реализованных модулей ядро ПС поддерживает создание систем, относящихся к различным предметным областям: обработка потоков космических снимков, задачи управления сложными движениями летательных аппаратов, задачи мониторинга, диагностики и прогнозирования состояния сложных технических систем, использование в качестве компоненты робототехнических систем, решение оптимизационных задач и др. Гибкость системы обеспечивается использованием двух механизмов: каналы – у каждого конкретного модуля есть набор входов и выходов, модуль не знает о системе в целом (или цепочке обработки данных, в которой он использован), он лишь получает данные на обработку и отсылает обработанные результаты; схема описания задачи – позволяет задать произвольный набор модулей и связей между ними. Выбранная архитектура обеспечивает расширяемость системы. В случае, если система не обеспечивает достаточной функциональности для решения прикладной задачи, программист может реализовать новые модули и включать их в различные схемы задач. Из особенностей ПС можно отметить следующее: 1. Модули системы реализуются в виде подгружаемых библиотек и могут содержать как последовательную, так и параллельную реализацию алгоритма. В первом случае параллелизм обеспечивает ядро, во втором – программист, реализующий модуль. 2. Использование двух уровней параллелизма. Помимо параллельной обработки, используется конвейерная обработка данных. Информация от одного модуля передается следующему в цепочке (возможно, на другой узел кластера). После заполнения, все звенья конвейера работают параллельно. 3. Используется двухуровневый контроль действий пользователя ПС: графический интерфейс на этапе формирования текста прикладной задачи информирует пользователя об ошибках в ее описании; вычислительное ядро в процессе анализа и решения задачи взаимодействует с графическим интерфейсом. Тот, в свою очередь, анализирует получаемые сообщения и уведомляет пользователя о критических событиях.

ПС состоит из управляющей моделирующей среды (УМС), базы данных (БД, содержащей обрабатываемую информацию), интерфейсов пользователя и эксперта знаний. На рис. 4.1 показана структура системы. Основной частью программно-аппаратного комплекса является универсальная моделирующая среда (УМС), которая включает: вычисляющее ядро, набор обрабатывающих модулей (наиболее важными среди которых являются модули нейронных сетей и модули специальной и типовой предобработки), модуль извлечения информации (в случае, если источников информации несколько УМС будет содержать набор таких модулей). УМС является единственной частью системы, которая выполняется на кластерном вычислительном устройстве.

Фильтрация изображений c учителем

Разработчиками ядра «ППС ИНС» являются сотрудники лаборатории интеллектуального управления ИПС РАН [4.1-4.3]. Архитектура разработанной системы «ППС ИНС» отвечает требованиям гибкости и расширяемости. Выбранная модульная схема вычислительного ядра обеспечивает гибкую связь модулей, реализующих конкретные алгоритмы. В зависимости от набора реализованных модулей ядро ПС поддерживает создание систем, относящихся к различным предметным областям: обработка потоков космических снимков, задачи управления сложными движениями летательных аппаратов, задачи мониторинга, диагностики и прогнозирования состояния сложных технических систем, использование в качестве компоненты робототехнических систем, решение оптимизационных задач и др. Гибкость системы обеспечивается использованием двух механизмов: каналы – у каждого конкретного модуля есть набор входов и выходов, модуль не знает о системе в целом (или цепочке обработки данных, в которой он использован), он лишь получает данные на обработку и отсылает обработанные результаты; схема описания задачи – позволяет задать произвольный набор модулей и связей между ними. Выбранная архитектура обеспечивает расширяемость системы. В случае, если система не обеспечивает достаточной функциональности для решения прикладной задачи, программист может реализовать новые модули и включать их в различные схемы задач. Из особенностей ПС можно отметить следующее: 1. Модули системы реализуются в виде подгружаемых библиотек и могут содержать как последовательную, так и параллельную реализацию алгоритма. В первом случае параллелизм обеспечивает ядро, во втором – программист, реализующий модуль. 2. Использование двух уровней параллелизма. Помимо параллельной обработки, используется конвейерная обработка данных. Информация от одного модуля передается следующему в цепочке (возможно, на другой узел кластера). После заполнения, все звенья конвейера работают параллельно. 3. Используется двухуровневый контроль действий пользователя ПС: графический интерфейс на этапе формирования текста прикладной задачи информирует пользователя об ошибках в ее описании; вычислительное ядро в процессе анализа и решения задачи взаимодействует с графическим интерфейсом. Тот, в свою очередь, анализирует получаемые сообщения и уведомляет пользователя о критических событиях. ПС состоит из управляющей моделирующей среды (УМС), базы данных (БД, содержащей обрабатываемую информацию), интерфейсов пользователя и эксперта знаний. На рис. 4.1 показана структура системы. Основной частью программно-аппаратного комплекса является универсальная моделирующая среда (УМС), которая включает: вычисляющее ядро, набор обрабатывающих модулей (наиболее важными среди которых являются модули нейронных сетей и модули специальной и типовой предобработки), модуль извлечения информации (в случае, если источников информации несколько УМС будет содержать набор таких модулей). УМС является единственной частью системы, которая выполняется на кластерном вычислительном устройстве. Процесс моделирования заключается в составлении схемы решения поставленной задачи средствами графического интерфейса. Он представляет собой редактор, позволяющий сократить время создания работающей схемы задачи, визуализировать процесс конструирования и избежать возникновения ошибок синтаксиса и семантики разрабатываемых схем задач на этапе проектирования. Созданная таким образом формальная схема описывает ту или иную решаемую прикладную задачу. Для выполнения созданных схем используется вычислительное ядро, запускать которое можно как из графического интерфейса, так и из командной строки. При загрузке вычислительного ядра выполняется подключение описанных пользователем параметризованных модулей и их связывание инициализированными каналами передачи данных. Эти модули не имеют привязки к вычислительному ядру и реализованы как динамически подключаемые библиотеки, имеющие не типизированные с точки зрения ядра входы и выходы. Стандартная схема работы вычислительного ядра с решаемой задачей выглядит следующим образом: 1) чтение xml-файла с описанием решения задачи, чтение xml-описания каждого из требуемых для решения задачи модулей; 2) передача вычислительному ядру списка модулей, которые необходимо загрузить (загрузка модулей на вычислительных узлах происходит исходя из их загруженности и требований, указанных пользователем в описании задачи); 3) инициализация каналов передачи данных (первоначально все входы и выходы модулей находятся в отключенном состоянии, установка связей переводит их в состояние ожидания); 4) начальная инициализация всех модулей (на заданных узлах кластера): ядру передаются значения переменных, которые необходимо установить для каждого из загруженных модулей; 5) запуск системы, передача данных через каналы, ожидание завершения работы всех модулей; 6) завершение работы системы. Шаблон описания модуля системы Описание модуля заключено в секцию module … /module , где: type – тип модуля, возможные варианты: nnet – модуль содержит реализацию нейронной сети; filter – модуль содержит код фильтрации, например, изображений, сигналов. reader – модуль содержит код чтения входных данных; writer – модуль содержит код сохранения выходных данных; parallel – указание, реализует ли модуль параллельность. Возможные варианты: no – модуль содержит последовательный код; yes – модуль содержит параллельный код, реализующий полное распараллеливание. Секция module … /module кроме того содержит следующие подсекции: 1. designer … /designer , раздел описания справочных данных модуля, где class – название класса модуля; 2. init /init , раздел инициализации переменных, стандартными типами задаваемых данных являются: file – строка с именем файла; dir – строка с именем директории; string – строковое значение; float – вещественное значение; int – целое значение; 3. Channels /Channels , раздел описания входов и выходов модуля, входные каналы бывают обычные (in) и буферизованные (in:buffered). Модули, имеющие буферизованные каналы, не начинают свою работу до тех пор, пока все данные, направленные в такие каналы, не будут полностью получены.

Похожие диссертации на Методы и алгоритмы обработки потоков данных в многопроцессорных вычислительных комплексах командно-измерительных систем на основе моделей нейронных сетей