Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Информационно-аналитическая система прогнозирования угроз и уязвимостей информационной безопасности на основе анализа данных тематических интернет-ресурсов Полетаев Владислав Сергеевич

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Полетаев Владислав Сергеевич. Информационно-аналитическая система прогнозирования угроз и уязвимостей информационной безопасности на основе анализа данных тематических интернет-ресурсов: диссертация ... кандидата Технических наук: 05.13.19 / Полетаев Владислав Сергеевич;[Место защиты: ФГБОУ ВО «Уфимский государственный авиационный технический университет»], 2020.- 149 с.

Содержание к диссертации

Введение

Глава 1 Анализ современных угроз и уязвимостей информационной безопасности, методов и средств защиты информации 19

1.1. Классификация угроз и уязвимостей информационной безопасности, характерных для тематических интернет-ресурсов 19

1.2. Классификация нарушителей информационной безопасности и роль тематических интернет–ресурсов в определении их возможностей 21

1.3. Возможности применения тематических интернет–ресурсов для предотвращения угроз и уязвимостей информационной безопасности 23

1.4. Обзор систем обнаружения и прогнозирования атак, источники данных об угрозах и уязвимостях безопасности информации 27

1.5. Статистические характеристики современных угроз и уязвимостей информационной безопасности 34

1.6. Методика ФСТЭК России определения угроз и уязвимостей информационной безопасности 41

1.7. Подход к выявлению угроз и уязвимостей информационной безопасности 44

Выводы по первой главе 46

Глава 2. Разработка моделей и алгоритмов прогнозирования угроз и уязвимостей информационной безопасности на основе анализа данных тематических интернет–ресурсов 49

2.1. Характерные особенности функционирования тематических интернет–ресурсов и подход к прогнозированию угроз и уязвимостей информационной безопасности 49

2.2. Алгоритм прогнозирования угроз и уязвимостей информационной безопасности на основе анализа данных тематических интернет–ресурсов 53

2.3 Модель базы данных интернет–форума 56

2.4. Модель потока текстовых сообщений 57

2.5. Семантическая фильтрация потока сообщений на основе онтологического подхода 60

2.6. Алгоритм семантической фильтрации и статистического анализа потока текстовых сообщений 65

2.7. Определение метода прогнозирования угроз и уязвимостей информационной безопасности 68

2.8. Система нечеткого логического вывода об угрозах и уязвимостях информационной безопасности 71

Выводы по второй главе 77

Глава 3. Разработка и реализация информационно–аналитической системы прогнозирования угроз и уязвимостей информационной безопасности на основе метода анализа данных тематических интернет–ресурсов 79

3.1. Выбор основы информационно–аналитической системы 80

3.2. Выбор редактора онтологии 80

3.3. Средства моделирования нечетких систем и морфологического анализа текста 82

3.4. Функции и структура информационно–аналитической системы 85

3.5. Проектирование информационно–аналитической системы 87

3.5.1. Диаграмма вариантов использования разработанной системы 88

3.5.2. Диаграмма классов информационно–аналитической системы 90

3.5.3. Диаграмма последовательности действий 91

3.5.4. Диаграмма развертывания системы 93

3.5.5. Диаграмма состояний информационно–аналитической системы 94

3.6. Интерфейс информационно–аналитической системы 97

3.7. Механизм использования информационно–аналитической системы 101

Выводы по третьей главе 103

Глава 4 Экспериментальная оценка предложенных методов и алгоритмов прогнозирования угроз и уязвимостей информационной безопасности 105

4.1 Исходные данные для проведения экспериментальной оценки 105

4.2 Процедура проведения эксперимента по интеграции онтологического анализа и нечеткого логического вывода 106

4.2.1 Процедура формирования онтологии угроз и уязвимостей информационной безопасности 107

4.3. Оценка качества проведения экспериментов по результатам прогноза 110

Выводы по главе 119

Заключение 121

Библиографический список 123

Приложение А. Основные определения информационной безопасности 133

Приложение Б. Классификация угроз и уязвимостей информационной безопасности 136

Приложение В. Этапы нечеткого вывода и структура системы нечеткого вывода 140

Приложение Г. Структура и классификация экспертных систем 142

Приложение Д. Акты внедрения .146

Классификация угроз и уязвимостей информационной безопасности, характерных для тематических интернет-ресурсов

Ключевыми элементами обеспечения защиты информации являются определение, анализ и классификация угроз и уязвимостей безопасности. В основе анализа рисков и формулирования требований к системам защиты лежат: перечень существующих угроз и уязвимостей, оценка вероятностей реализации угроз, модель нарушителя. Основные определения информационной безопасности приведены в приложении А [24, 29].

Большинство существующих моделей информационной безопасности основываются на обеспечении целостности, доступности и конфиденциальности информации [29].

Уязвимости информационных систем, как правило, являются следствием ошибок. Ошибки, формирующие уязвимости, разделяются на ошибки администрирования и ошибки реализации.

К ошибкам реализации относят:

– ошибки синхронизации. Вид ошибок, обусловленный существованием временных окон между операциями обработки данных;

– ошибки проверки условий. Например, неспособность программы обработать исключение, в следствии некорректного определения условия обработки данных;

– ошибки проверки входных данных. Как правило, ошибки подобного рода приводят к уязвимостям переполнения буфера.

К ошибкам администрирования относятся:

– ошибки конфигурирования;

– ошибки окружения.

Примерами ошибок данного рода являются ошибки, связанные с некорректной обработкой переменных окружения, и ошибки командного интерпретатора.

Выявление перечисленных ошибок представляет собой непрерывный процесс, осуществляющийся на всех этапах жизни системы: разработки, тестирования и эксплуатации системы.

В качестве основных видов угроз безопасности информационных систем и информации выделяют [23]:

– аварии и стихийные бедствия (наводнения, пожары, землетрясения, ураганы, и т.д.);

– отказы и сбои в работе оборудования и технических составляющих информационных систем;

– последствия ошибок проектирования и разработки составляющих информационных систем (аппаратных средств, структур данных, технологии обработки информации, программ и т.п.);

– ошибки эксплуатации (операторов, пользователей и другого персонала);

– целенаправленные действия злоумышленников и нарушителей.

Классификация угроз информационной безопасности [22] приведена приложении Б.

В результате анализа данных тематических интернет–ресурсов сделан вывод о том, что описание большинства угроз и уязвимостей информационной безопасности может быть извлечено из сообщений пользователей тематических интернет–ресурсов, например, хакерских форумов. Исключение составляют редкие, сложные в реализации угрозы и уязвимости, требующие экспертных знаний либо специализированного оборудования.

Характерные особенности функционирования тематических интернет–ресурсов и подход к прогнозированию угроз и уязвимостей информационной безопасности

На сегодняшний день в сети Интернет функционирует большое количество специализированных информационных ресурсов (форумов, интернет–площадок), используемых пользователями для обсуждения вопросов информационной безопасности, а также способов и механизмов несанкционированного доступа к охраняемым компьютерным данным. В части из них зарегистрированы пользователи, преимущественно интересующиеся сведениями о защите компьютерной информации, а в других – способами совершения атак на информационные системы. Указанные форумы могут рассматриваться источниками информации о вредоносном программном обеспечении, уязвимостях и компьютерных атаках.

На тематических интернет–ресурсов преобладающее большинство обсуждаемых тем посвящено следующим вопросам:

– программное обеспечение, используемое для организации компьютерных атак;

– программирование, в целях реализации угроз и уязвимостей информационной безопасности;

– создание и распространение вредоносных компьютерных программ;

– мошенничество с использованием информационных технологий;

– противоправные операции с банковскими картами и обналичивание похищенных денежных средств;

– обеспечение анонимности при осуществлении противоправных действий с применением информационных технологий; – защита информации.

Указанные выше темы соответствуют актуальным в настоящее время угрозам информационной безопасности [26, 38, 52, 54], что позволяет рассматривать тематические интернет–ресурсы в качестве источников информации для выявления угроз и уязвимостей.

Как упоминалось ранее, события, происходящие в определенной предметной области, как правило, находят отражение на посвященных им дискуссионных интернет–площадках. Среди пользователей тематических интернет–ресурсов присутствуют потенциальные нарушители (заинтересованы в преодолении средств защиты информации) и участники, располагающие сведениями об угрозах и уязвимостях информационной безопасности. Они обмениваются имеющимися у них знаниями с использованием форумов. Указанные факторы позволяют прогнозировать угрозы и уязвимости информационной безопасности, основываясь на анализе данных тематических интернет–ресурсов, используя закономерности, характерные процессу обсуждения угроз и уязвимостей. В общем виде данный процесс можно представить схемой, изображенной на рисунке 2.1.

Для каждого сообщения интернет–форума, кроме текста, доступна информация, о времени его создания, авторе, рейтинге автора, принадлежности к определенному форуму и теме форума, количестве сообщений в теме форума. Описанная структура сообщений позволяет проводить их семантический и статистический анализ.

Путем проведения семантического анализа сообщений форумов возможно осуществление фильтрации тех, которые не имеют отношения к предметной области угроз и уязвимостей информационной безопасности. Таким образом, из дальнейшего анализа исключаются сообщения, не содержащие информации, относящейся к угрозам и уязвимостям информационной безопасности.

В настоящее время в качестве одного из эффективных средств описания предметных областей применяется онтология. При е использовании, интересующая предметная область подлежит описанию в виде организованной совокупности понятий, учитывая существующие между ними связи и их свойства. Онтологические методы позволяют вычислять степень близости текстовых сообщений к терминам предметной области, заданной онтологией. Считается, что сообщения, имеющие нулевое значения коэффициента близости ко всем терминам онтологии, не имеют отношения к рассматриваемой предметной области [70].

Для функционирования тематических интернет–ресурсов характерна закономерность, заключающаяся в том, что при появлении угрозы или уязвимости информационной безопасности, участник форума, которому стало о ней известно, создает новую тему на форуме и оставляет сообщение. Другие участники форума оставляют в созданной теме сообщения, дополняющие или опровергающие предшествующие. В зависимости от важности информации, обсуждаемой в той или иной теме форума, различается внутренний рейтинг авторов сообщений. Как правило, при высокой значимости темы сообщений форума, высок и рейтинг авторов сообщений. Также закономерно увеличение частоты появления сообщений в теме форума, где обсуждается важная информация, особенно в начальной стадии дискуссии.

Перечисленные закономерности могут быть описаны в виде правил нечетких продукций, применяемых в системах нечеткого логического вывода. Для прогнозирования угроз и уязвимостей информационной безопасности могут применяться результаты анализа сообщений тематических интернет–ресурсов. Для этого необходимо проведение статистического анализа потока сообщений форумов и применение систем нечеткого логического вывода. В связи с тем, что пользователи тематических форумов могут создавать сообщения, не имеющие отношения к рассматриваемой предметной области, целесообразно применять методы семантического анализа для исключения их из числа анализируемых. В качестве входных переменных в системе нечеткого вывода могут выступать статистические параметры, характеризующие процесс обсуждения угроз и уязвимостей безопасности информации. Нечеткие правила описывают закономерности изменения потока сообщений тематических интернет–ресурсов (база нечетких продукций). Обоснованность применения нечетких моделей связана со значительной степенью присутствующей неопределенности, по причине сложности предметной области и неполноты информации [36, 42, 70, 75, 76].

Основываясь на результатах прогнозирования возникновения ранее неизвестных угроз и уязвимостей безопасности, специалист, осуществляющий защиту информации, может оценить степень их опасности и предпринять меры по устранению возможных уязвимостей и пересмотру модели угроз информационной безопасности.

Средства моделирования нечетких систем и морфологического анализа текста

Моделирование нечетких систем средствами нечеткой логики в настоящее время осуществляется с применением более 30 программных средств, обладающими необходимыми функциональными возможностями. Сравнение основных параметров и характеристик наиболее популярных из них приведено в таблице 3.2.

Входящие в состав MatLab программные средства нечеткого моделирования пользуются популярностью при решении задач, связанных с разработкой и применением нечетких моделей. По этой причине система MatLab была выбрана в качестве одного из программных средств для экспериментальной оценки предложенных алгоритмом прогнозирования угроз и уязвимостей информационной безопасности. Для нечеткого моделирования в MatLab применяется компонент Fuzzy Logic Toolbox, функциональные возможности которого позволяют реализовывать функций нечеткой логики и нечеткого вывода [47].

В целях реализации описанного в предыдущих разделах алгоритма семантической фильтрации сообщений тематических интернет–ресурсов проведен анализ существующих в настоящее время программных средств, обладающих функциями морфологического и семантического анализа текста (морфологические процессоры русского языка) [18]. Их сравнительная характеристика приведена в таблице 3.3.

Все морфологические процессоры выполняют функцию лемматизации словоформ. Возможности морфологического синтеза реализованы в двух из рассмотренных процессоров, несмотря на то, что во многих задачах компьютерной лингвистики указанная функция крайне важна. Исходные коды двух из указанных выше процессоров являются закрытыми, в связи с чем программы распространяются исключительно в виде бинарных файлов. Также закрытым является словарь MyStem, словарь TreeTagger доступен в виде бинарного файла. Скорость обработки слов у всех рассматриваемых процессоров является достаточно высокой. Особенно важной для работы с ограниченными предметными областями является возможность подключения словаря. Данная функция реализована в MyStem. Каждый морфологический процессор использует собственную систему морфологических тегов, в связи с чем, сравнить результаты их работы на одинаковых корпусах текстов затруднительно.

Оценка качества проведения экспериментов по результатам прогноза

Характеризуя правильность применения прогнозной модели, важным критерием является проверка на адекватность. Модели, остаточная компонента которых обладает свойствами нормальности распределения, случайности и независимости, считаются адекватными. Проверка корреляции внутри ряда осуществляется с применением критерій Дарбина-Уотсона. Согласно упомянутому критерию, модель регрессии считается достаточно адекватной, если величина d, рассчитываемая по формуле 4.5, близка к 2.

Для оценки эффективности алгоритма прогнозирования угроз уязвимостей информационной безопасности на основе анализа сообщений пользователей тематических интернет–ресурсов были проведены эксперименты по автоматизированному сбору сообщений 10 тематических интернет–ресурсов (rdot.org, darkmoney.cc, zloy.bz, grabberz.com, hakepok.su, nulled.io, hashcrack.in, verified.cm, haker–forum.ru, inattack.ru) в период со 12 января по 25 февраля 2018 года. При выборе функций принадлежности входных переменных использовались результаты анализа сообщений. В течение анализируемого периода времени создано 10491 сообщение; средняя ежесуточная частота создания сообщений: 166,5 сообщения/сутки; максимальное количество сообщений в сутки: 747 сообщений/сутки; средний рейтинг авторов сообщений: 176,8.

На основе полученных данных с применением предложенного алгоритма, реализованного в информационно–аналитической системе, произведены вычислительные эксперименты по формированию нечеткого логического вывода о возникновении угроз и уязвимостей информационной безопасности. Полученные результаты сопоставлены с данными о выявленных угрозах и уязвимостях, опубликованных на официальном сайте ФСТЭК России.

Статистические данные о количестве добавленных в базу данных угроз и уязвимостях информационной безопасности ФСТЭК России в анализируемый период времени представлены на рисунке 4.2 и в таблице 4.2.

На основании полученных результатов для качественного анализа прогноза в одних координатных осях построены графики реально выявленных (добавленных в базу данных ФСТЭК России) угрозах и уязвимостях информационной безопасности и прогнозных данных информационно– аналитической системы о возникновении угроз и уязвимостей (рисунок 4.5).

В связи с тем, что анализируемые значения имеют резкие колебания, оценка изменений общего уровня угроз безопасности информации может производиться методами определения трендов. Сглаживание динамического временного ряда методом скользящих средних является одним из них. При этом, фактические уровни ряда заменяются скользящими средними (предварительно выбирается период сглаживания, который является нечетным числом, например, 3, 5, 7 и т.д.). Фактически скользящие средние представляют собой средние уровни за определенные периоды времени (3, 5, 7 и т.д.) и рассчитываются в результате последовательного перемещения начала периода на единицу времени.

Результаты применения метода скользящих средних к значениям прогноза информационно–аналитической системы о возникновении угроз и уязвимостей информационной безопасности и количестве выявленных угроз и уязвимостей по данным ФСТЭК России в анализируемый период с периодом сглаживания 3 и 5 суток представлены на рисунках 4.6 и 4.7 соответственно.

Для оценки полученных результатов произведены расчеты показателей MAPE, MAE, RMSE (по формулам 4.1, 4.2, 4.3 соответственно) для значений прогнозов информационно–аналитической системе о возникновении угроз и уязвимостей информационной безопасности и количестве выявленных угроз и уязвимостей по данным ФСТЭК России в анализируемый период, а также рассчитанным на их основе сглаженным временным рядам с периодом сглаживания 3 и 5 суток. Результаты представлены в таблице 4.3.

В целях проверки адекватности предлагаемой модели, согласно критерию Дарбина–Уотсона, по формуле 4.5 рассчитано значение d = 2,461. В соответствии с указанным критерием, модель считается адекватной, если значение d близко к 2.

Рассчитаны значения показателя точности прогноза , предложенного Четыркиным Е.М. (4.4), для доверительных интервалов 20, 15, 10 %. Результаты расчетов приведены в таблице 4.4.

Представленные в таблицах 4.3 и 4.4 показатели позволяют сделать вывод о том, что результаты прогнозирования информационно–аналитической системы в большинстве случаев подтверждаются данными базы угроз и уязвимостей ФСТЭК России. Результаты экспериментов указывают на существующие временные расхождения в 1 – 2 дня между активизацией обсуждения вопросов информационной безопасности на тематических интернет–ресурсах и добавлением записей о выявленных угрозах и уязвимостях в базу данных ФСТЭК России. Наиболее показательным примером является существенное увеличение количества сообщений тематических интернет–ресурсов (более чем в 4 раза превышены средние ежесуточные показатели) 12.02.2018, в которых наиболее употребляемыми были объекты онтологии: баг, буфер, кряк, патч, скрипт, софт, винда, Windows. 13.02.2018 в базу данных ФСТЭК 16 новых записей о выявленных угрозах безопасности, большая часть из которых имела высокий и критический уровень опасности и связана с уязвимостями в прикладном программном обеспечении Microsoft Windows.

Превышения средних ежесуточных показателей активности пользователей тематических интернет–ресурсов наблюдались в период с 19 по 22 февраля 2018 года. В их сообщениях наиболее часто упоминались объекты онтологии: баг, код, ПО, патч, кряк. 21.02.2018 в базу данных ФСТЭК были добавлены 9 записей об уязвимостях прикладного и сетевого программного обеспечения различных производителей, имевших критический уровень опасности.

13–14 августа 2019 года отмечено существенное увеличение частоты возникновения сообщений (более 5 раз), в которых наиболее употребляемыми были объекты онтологии: ОС, баг, патч, скрипт, софт, винда, Windows, Server. 13.08.2019 в базу данных ФСТЭК России внесены 89 записей об уязвимостях операционной системы и прикладного программного обеспечения Windows, имевших преимущественно высокий и средний уровень опасности.

15–16 октября 2019 года отмечено существенное увеличение сообщений тематических интернет–ресурсов (более 3,5 раз), в которых наиболее употребляемыми были объекты: Cisco, веб, web, баг, кряк, патч, скрипт, софт. 16.10.2019 в базу данных ФСТЭК России внесены 36 записей об уязвимостях веб– интерфейса управления микропрограммным обеспечением маршрутизаторов Cisco, имевших высокий и средний уровень опасности.

Таким образом, специалист по защите информации, получая результаты прогнозирования угрозы либо уязвимости, может оценить степень опасности для защищаемых им информационных ресурсов, корректность применяемой модели угроз информационной безопасности и предпринять действия по нейтрализации уязвимостей.

Улучшению качества прогноза возникновения угроз и уязвимостей информационной безопасности при помощи систем нечеткого логического вывода может способствовать применение более точных правил нечетких продукций, а также увеличение количества входных переменных, характеризующих закономерности изменения потока сообщений тематических интернет–ресурсов в зависимости от возникновения угроз и уязвимостей информационной безопасности. Большое значение имеет определение функций принадлежности входных и выходных переменных системы нечеткого логического вывода, при определении которых следует учитывать статистические показатели потока сообщений анализируемых тематических интернет–ресурсов.