Теоретико-информационные методы стегоанализа графических данных Жилкин Михаил Юрьевич

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Жилкин Михаил Юрьевич. Теоретико-информационные методы стегоанализа графических данных : диссертация ... кандидата технических наук : 05.12.13 / Жилкин Михаил Юрьевич; [Место защиты: Сиб. гос. ун-т телекоммуникаций и информатики].- Новосибирск, 2009.- 153 с.: ил. РГБ ОД, 61 09-5/3370

Содержание к диссертации

Введение

Глава 1. Основные понятия стеганографии и стегоанализа 9

Глава 2. Общая схема предлагаемого метода 12

2.1. Постановка задачи 12

2.2. Описание подхода и основные результаты 13

Глава 3. Описание графических форматов BMP и JPEG 16

Глава 4. Метод стегоанализа данных в формате BMP 22

4.1. Известные методы «встраивания» данных в формат BMP 22

4.2. Подбор изображений для тестирования 23

4.3. Описание разработанного комплекса программ стегоанализа 30

4.4. Стегоанализ «пустых» контейнеров 44

4.5. Стегоанализ пакета StegoTools 48

4.6. Стегоанализ пакета Hide4PGP 54

4.7. Стегоанализ пакета SecurEngine 65

4.8. Стегоанализ пакета S-Tools 66

4.9. Стегоанализ пакета StegoMagic 69

4.10. Сравнение разработанного метода с известными методами 70

4.11. Выводы 83

Глава 5. Метод стегоанализа данных в формате JPEG 85

5.1. Известные методы «встраивания» данных в формат JPEG 89

5.2. Подбор JPEG-изображений для тестирования 90

5.3. Формат JPEG и библиотека libjpeg 93

5.4. Емкость контейнера JPEG и единицы измерения емкости 103

5.5. Описание метода стегоанализа JPEG 114

5.6. Стегоанализ программы Jpeg-jsteg 120

5.7. Стегоанализ программы JPHide 126

5.8. Сравнение разработанного метода стегоанализа данных в формате JPEG с известными методами 136

Глава 6. Основные результаты и выводы 139

Список литературы 143

Основные понятия стеганографии и стегоанализа
Описание подхода и основные результаты
Описание графических форматов BMP и JPEG
Подбор изображений для тестирования

Введение к работе

Актуальность исследования. Диссертация посвящена разработке новых методов обеспечения информационной безопасности в компьютерных и телекоммуникационных сетях. Одной из актуальных проблем безопасности современных компьютерных сетей является борьба с незаконной, скрытой передачей информации.

Для передачи скрытой информации используются различные средства и методы, основные из которых базируются на алгоритмах стеганографии. При этом различного рода «злоумышленники» встраивают информацию, маскируя ее в других сообщениях, которые выглядят безобидно и не вызывают подозрение у потенциального перехватчика (рис. 1). Стеганография имеют богатую историю и широкий спектр различных методов, каждый из которых характерен для своей эпохи. Так, например, в древности применяли тайнопись на табличках, покрытых воском, известен случай передачи сообщения в виде татуировки на голове гонца. В начале XX века использовались симпатические чернила, во времена Второй мировой войны широкое распространение получил метод микрофотографий.

Рис. 1. Лена.jpg. Слева – исходное изображение 300x300 точек,

справа – это же изображение, содержащее 31Кб скрытых данных.

В настоящее время бурное развитие вычислительной техники привело к возникновению особой науки, так называемой цифровой компьютерной стеганографии. Появились новые стеганографические методы, в основе которых лежат особенности представления информации в компьютерных файлах, вычислительных сетях и т.п.

Методы современной компьютерной стеганографии находят применение в области в военной и правительственной связи, защиты авторских прав, для

решения задач обеспечения информационной безопасности. Актуальность проблемы информационной безопасности постоянно растет и стимулирует разработку как новых методов стеганографии, так и методов стегоанализа – обнаружения скрытой информации.

Повсеместное распространение компьютерной техники и глобальных компьютерных сетей, простота в эксплуатации оборудования и доступность для пользователя стеганографического программного обеспечения позволяют сегодня каждому желающему использовать методы стеганографии при передаче информации. Стоит отметить, что этими методами с легкостью могут воспользоваться и злоумышленники, например, для скрытой передачи конфиденциальной информации, коммерческих и государственных секретов и т.п. Поэтому на сегодняшний день стоит проблема построения методов обнаружения скрытых данных в передаваемых сообщениях – задача так называемого стегоанализа.

За последние годы арсенал доступных стеганографических программ заметно расширился. В настоящее время существует более сотни коммерческих, бесплатных и условно-бесплатных пакетов разного назначения: программы, написанные под операционные системы UNIX, MS-DOS, Windows и др., а также кроссплатформенные приложения; имеющие графический интерфейс или интерфейс командной строки; поддерживающие только один или сразу несколько форматов контейнеров; имеющие или не имеющие встроенные средства криптографии и аутентификации; интегрирующиеся в среду или выполняемые отдельно и т.д.

Наиболее популярные программы стеганографии и стегоанализа для файлов графических форматов, такие как Hide and Seek, Jpeg-Jsteg, OutGuess, Steganos, JPHide, F5, Stegdetect и др. часто основаны на алгоритмах, полученных в рамках научных исследований.

Проблемой разработки и усовершенствования методов стеганографии и стегоанализа занимаются многие отечественные и зарубежные ученые: В.Г. Грибунин, И.Н. Оков, Б.Я. Рябко, И.В. Туринцев, А.Н. Фионов, К. Качин (C. Cachin), Р. Андерсон (R. Anderson), Х. Фарид (H. Farid), К. Салливан (K. Sullivan), Д. Фридрич (J. Fridrich), Н. Провос (N. Provos) и др. С каждым годом растет число публикаций, посвященных стеганографии, стегоанализу, а также в смежных областях науки. Широко применяются результаты и достижения классических наук и различных их направлений: теории информации, кодирования, алгебры, физики и т.д.

Целью работы является построение эффективных методов стегоанализа данных в наиболее распространенных на сегодняшний день графических форматах BMP и JPEG. Данные методы должны быть автоматическими, т.е. работать без участия человека и применимыми в телекоммуникационных и компьютерных сетях. Для этого требуются такие характеристики, как высокая скорость обработки данных и высокая вероятность обнаружения скрытой информации.

Задачи исследования - построение экспериментального исследования и разработка методов стегоанализа, базирующихся на алгоритмах сжатия данных. Их применение для методов стеганографии двух типов: 1) основанных на изменении младших разрядов (LSB) и 2) для методов стеганографии в графических форматах с преобразованием Фурье.

Методы исследования

Методы теории информации
Методы теории кодирования
Проведение экспериментальных расчетов на ЭВМ

Научная новизна. Впервые разработан и практически реализован метод стегоанализа, основанный на сжатии данных, эффективность которого выше, чем у ранее известных методов. Данный метод применим в системах обеспечения безопасности компьютерных и телекоммуникационных сетей.

Экспериментально доказаны высокая скорость, эффективность алгоритмов и возможность их применения для наиболее популярных графических форматов: BMP и JPEG. Это позволяет производить стегоанализ «на лету» передаваемой по компьютерным сетям информации, например, при реализации разработанных методов в виде модулей для интеграции с межсетевыми экранами, прокси-серверами и иными системами контроля, учета и ограничения трафика, которые широко применяются в различных организациях.

Практическая ценность полученных результатов

Для наиболее практически распространенных графических форматов построены методы стегоанализа, эффективность которых превосходит ранее известные.
Показана высокая эффективность методов стегоанализа, базирующихся на использовании алгоритмов сжатия данных, и возможность их применения к данным в других форматах.
Параметры предложенных методов позволяют анализировать с их помощью сетевой трафик.

Внедрение результатов исследования в практику. Основные результаты получены в рамках следующих государственных программ:

Грант РФФИ № 06-07-89025. Руководитель: д.т.н., проф. Рябко Б.Я.

По заданию Федерального агентства науки и инноваций (государственный контракт № 02.514.11.4027.2) выполнение научно-исследовательских работ в рамках федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2012 годы», лот 3: «Технологии разработки распределенных программных систем получения и использования знаний» по теме: «Технология разработки распределенных программных систем для мониторинга больших корпоративных научно-образовательных сетей передачи данных на базе современных методов интеллектуального анализа данных и машинного обучения»

Гранты для выполнения научных исследований аспирантами, магистрантами и молодыми преподавателями СибГУТИ, 2007 и 2008 гг.

Апробация работы

Материалы работы докладывались на следующих российских и международных конференциях:

«Информатика и проблемы телекоммуникаций» (Новосибирск, 2007)

XI Международный симпозиум по проблемам избыточности в информационных и управляющих системах (Санкт-Петербург, 2007)

VIII Всероссийская конференция молодых ученых по математическому моделированию и информационным технологиям (Новосибирск, 2007)

«Информатика и проблемы телекоммуникаций» (Новосибирск, 2008)

Международная научная конференция студентов, аспирантов и молодых ученых «Ломоносов-2008» (МГУ, Москва, 2008)

X Всероссийская научно-практическая конференция «Проблемы информационной безопасности государства, общества и личности» (Томск-Красноярск, 2008)

XII Международный симпозиум по проблемам избыточности в информационных и управляющих системах (Санкт-Петербург, 2009)

Публикации. По материалам диссертации опубликовано 8 печатных работ, результаты работы отражены в отчетах по грантам и НИР. Список работ приведен на странице 22 автореферата.

Структура диссертации. Диссертация занимает 151 страницу текста и состоит из введения, обзора литературы, рассмотрения основных графических форматов данных, известных методов стеганографии и стегоанализа, описания собственного исследования, заключения с анализом полученных результатов. Работа содержит 23 таблицы и 53 рисунка. Список литературы включает 88 источников.

Основные положения, выносимые на защиту

Методы стегоанализа, основанные на применении сжатия данных, обладают высокой эффективностью и могут использоваться для выявления скрытой передачи информации в телекоммуникационных сетях.
Разработан метод стегоанализа в графических данных для выявления данных, скрытых при помощи LSB-стеганографии. Метод был испытан на файлах формата BMP и доказал свою высокую эффективность.
Разработан метод стегоанализа, предназначенный для работы с графическими форматами на основе преобразований Фурье. Метод успешно опробован на файлах формата JPEG.
Разработаны методы, технические характеристики которых позволяют использовать их для анализа трафика в компьютерных сетях с целью выявления скрытой передачи информации.

Основные понятия стеганографии и стегоанализа

Стеганография - наука о передаче информации таким образом, что сам факт передачи остается незамеченным. Обратная задача, направленная на обнаружение скрыто передаваемой информации называется стегоанализом.

Основным понятием стеганографии является стегосистема., которая выполняет задачу скрытия и извлечения информации (рис. 2).

Стегосистема включает в себя контейнер, стегоконтейнер, секретное сообщение, ключ, алгоритмы встраивания и извлечения информации, а также канал передачи информации.

Контейнером называется последовательность данных, в которую необходимо занести секретное сообщение. В современной цифровой стеганографии в качестве контейнеров могут выступать файлы распространенных цифровых форматов, таких как BMP, JPEG, WAV, МРЗ, AVI, PDF, EXE. Наиболее удобными контейнерами считаются музыкальные файлы, изображения, видео и т.д. Контейнер, содержащий в себе скрытую информацию, называется стегоконтейнером.

Главным инструментом стегосистемы являются алгоритмы включения и извлечения информации. Они реализованы в любом стеганографическом программном продукте. Среди наиболее распространенных пакетов — Jpeg-Jsteg, OutGuess, Steganos, JPHide, F5 и т.д.

Для встраивания секретного сообщения в контейнер применяется алгоритм встраивания информации, который является основой стегосистемы. Одна из главных задач алгоритма встраивания - внесение незаметных для восприятия человеком изменений в контейнер. Это требование обычно ограничивает емкость контейнера, т.е. максимальное количество скрытой информации, которое способен вместить в себя контейнер. Емкость контейнера зависит от характеристик самого контейнера, алгоритма включения информации, а иногда и от секретного сообщения. Специальный алгоритм извлечения информации предназначен для проверки наличия секретного сообщения внутри контейнера и его извлечения. Для каждого алгоритма встраивания существует свой алгоритм извлечения информации.

Перед встраиванием в контейнер, в целях повышения безопасности и компактности, секретное сообщение обычно сжимается и шифруется. Для сжатия используются различные алгоритмы, например алгоритмы семейства LZ или на основе BWT. Шифрование информации производится по какому-либо заранее заданному алгоритму, например, AES, Blowfish и т.д. Для получения ключа шифрования и дешифрования используется пароль пользователя или результат вычисления хэш-функции от него. Для корректного извлечения информации пароль должен быть передан принимающей стороне по отдельному безопасному каналу передачи информации. Алгоритмы шифрования, сжатия, хэширования чаще всего встроены в стеганографический пакет.

В большинстве стегосистем ключ также влияет на размещение секретного сообщения внутри контейнера, что еще больше затрудняет задачу стегоанализа. Наиболее простые стегосистемы, например, Jpeg-Jsteg, Steghide, не используют такой подход, и скрытая информация помещается в любой контейнер на одинаковые позиции.

В качестве контейнеров обычно выбираются данные, не вызывающие подозрения, например, фотографии, популярные музыкальные композиции и видеоролики. Файл с включенной (или встроенной) скрытой информацией, передается по открытому каналу передачи информации получателю сообщения. Предполагается, что вся проходящая по открытому каналу информация может быть перехвачена и исследована. Поэтому одно из основных направлений при разработке и улучшении методов стеганографии — достижение наибольшей «незаметности» информации внутри стегоконтейнера.

Описание подхода и основные результаты

Наш подход к проверке статистической независимости информации основан на применении алгоритмов сжатия данных. В основу разработанных методов положен тот факт, что исходный контейнер и добавляемая в него информация статистически независимы, поэтому при добавлении скрытых данных в контейнер, размер при его сжатии вырастает по сравнению с размером исходного сжатого «пустого» контейнера. Широко распространенные программы-архиваторы легко могут быть использованы для сжатия. Перейдем к формальному описанию алгоритма. Пусть x = {xv...,xN) - последовательность байтов в данных изображения. Для формата BMP рассматривается само поле данных, в JPEG - матрица округленных ДКП-коэффициентов. Пусть \X\ = N - длина последовательности. Разобьем последовательность X на d равных отрезков и обозначим каждый отрезок Хп где / = 1,2,..., /. Пусть у/(Х) - алгоритм сжатия, примененный к последовательности х. Тогда обозначим за коэффициент сжатия отрезка п последовательности X алгоритмом у/. Обозначим за ср(Х) псевдослучайное изменение младших битов всех байтов последовательности X. Пусть X - последовательность, которая подается на вход программе, a Y - ср{Х) -полученная из нее новая последовательность. Исходная последовательность х сжимается сильнее по сравнению с измененной последовательностью Y. Введем новую величину Те отрезки последовательности , которые не содержали "скрытую" информацию сжимаются лучше, чем соответствующие им отрезки последовательности Y, и напротив, коэффициенты сжатия отрезка последовательности X со «спрятанной» информацией и отвечающего ему отрезка последовательности Y отличаются незначительно. Для определения факта включения информации выбирается пороговое значение для величины 8 и производится оценка количества отрезков, на которых значение величины не превышает порог. Для экспериментального исследования метода была подготовлена серия изображений («контейнеров») форматов 24-bit BMP и JPEG разного разрешения и качественного содержания. Обработка одного изображения выполнялась следующему алгоритму: 1. Вход: пустой контейнер, имя архиватора для выполнения сжатия, пороговое значение 2. Тестирование контейнера разработанным алгоритмом анализа со сжатием заданным архиватором 3. Определение факта заполнения по заданному значению 4. Вывод результата: «Заполнен» или «Не заполнен» Ситуация, когда тест отвечает «Заполнен» на пустом контейнере, называется ошибкой 1 рода. Ошибка II рода возникает в случае ответа «Не заполнен» при проверке непустого контейнера. Тестирование большой серии изображений проводилось в несколько этапов: 1. Настройка. На этом этапе анализировалась небольшая выборка (около 50 изображений) и подбирался наиболее подходящий архиватор и два пороговых значения следующим образом: a. у/(Х) и 8 = 5тт, обеспечивающие отсутствие ошибок I рода. b. t//(X)mS = Smax, при которых достигается «золотая середина» — минимальный процент ошибок II рода при небольшом количестве ошибок I рода. 2. Тестирование по независимым данным. После экспериментального подбора архиватора и двух вариантов порогового значения проводилась проверка результатов на серрга из 1000 других изображений. Наиболее подходящим архиватором оказался ZIP для формата BMP и встроенный алгоритм (RLE + Хаффман) для JPEG.

Описание графических форматов BMP и JPEG

Аббревиатура BMP означает BitMap («битовая карта», «битовая матрица»). Формат BMP относится к числу тех графических форматов, где данные представлены «как есть», без каких-либо преобразований, сжатия и т.д. По этой причине файлы BMP имеют довольно большой размер, например, изображение разрешением 1280x800 24бит будет занимать 2.92Мб. Положительной стороной BMP является простота формата, что делает его очень популярным для применения в качестве стегоконтейнера. Большинство стеганографических средств предназначено для работы с форматом BMP [2]. Существуют два основных варианта хранения данных в формате BMP: 1. Индексированный. Подразумевает наличие так называемой палитры — специального массива данных с описанием всех встречающихся в изображении цветов. Матрица самого изображения содержит лишь индексы палитры. Для включения скрытой информации в этот формат можно использовать только массив палитры, иначе возникнут серьезнейшие искажения, которые будут замечены для человеком. Однако палитра имеет постоянный размер 1Кб, поэтому позволяет сохранять лишь 128 байт данных независимо от разрешения и размера самого изображения. Существуют также алгоритмы включения данных во все индексированное изображение, реализованные, например, в программах Steganos Security Suite, StegHide и т.д. Однако для этого выполняются преобразования, приводящие к серьезной потере качества изображения. По этим причинам индексированные изображения редко используются стеганографическим программным обеспечением. Наш метод стегоанализа работает только с неиндексированными форматами. 2. Неиндексированный. Этот способ представления данных в основном предназначен для полноцветной графики и в настоящее время очень широко распространен. Основным представителем неиндексированных форматов является 24-битный BMP. Он наиболее популярен в среде различных стеганографичеких программ. Файл формата BMP состоит из четырех полей (табл. 1). 1. В начале файла располагается файловый заголовок. Он представляет собой структуру, состоящую из нескольких полей, и описывается следующим образом: [2] typedef struct tagBITMAPFILEHEADER { WORD bfType; DWORD bfSize; WORD bfReservedl; WORD bfReserved2; DWORD bfOfffiits; } BITMAPFILEHEADER, PBITMAPFILEHEADER; Поле bfType содержит сигнатуру файла BMP и в символьном представлении всегда имеет вид "ВМ". По этим двум символам графические программы идентифицируют формат BMP. Поле bfSize предназначено для хранения размера всего файла в байтах. Оно может использоваться для простой проверки целостности файла. Одним из самых важных полей является bfOffbits, в котором располагается смещение массива палитры (табл. 1) относительно начала файла. 2. За файловым заголовком следует информационный заголовок. Он описывается структурой вида: typedef struct tagBITMAPTNFOHEADER г DWORD biSize; LONG biWidth; LONG biHeight; WORD biPlanes; WORD biBitCount; DWORD biCompression; DWORD biSizelmage; LONG biXPelsPerMeter; LONG MYPelsPerMeter; DWORD biClrUsed; DWORD biClrlmportant; } BITMAPINFOHEADER, PBITMAPINFOHEADER; Наиболее важными полями являются biSize, biWidth, biHeight, biBitCount, которые определяют размер самой структуры BITMAPINFOHEADER в байтах, ширину и высоту изображения в точках, и количество битов на точку соответственно. 3. После заголовков располагается массив палитры — область данных, содержащая описание всех используемых в изображении цветов. Размер палитры обычно 1Кб. Палитра используется только в индексированных вариантах формата BMP, и может вообще отсутствовать в неиндексированных. 4. Массив данных — массив, содержащий информацию о всех точках изображения. В неиндексированных форматах каждая точка изображения кодируется тремя цветовыми компонентами: синей, зеленой и красной (R, G и В). Например, под каждую компоненту 24битного BMP отводится по одному байту, следовательно, один пиксель изображения занимает 3 байта или 24 бита. В индексированных вариантах BMP массив данных содержит индексы массива палитры, т.е. ссылки на номера цветов, используемых в изображении. Формат JPEG берет свое название от созданной в середине 1980-х Объединенной группы экспертов по фотографии (Joint Photographic Expert Group), которая входит в состав организации ISO. Целью группы являлось создание эффективного алгоритма сжатия цветных и полутоновых изображений и разработка промышленного стандарта передачи данных с помощью цифровых коммуникационных сетей. Этот алгоритм обеспечивает очень высокую степень сжатия данных при сравнительно небольших визуальных искажениях, что сделало его очень популярным для хранения и передачи изображений по компьютерным сетям. В настоящее время формат JPEG является наиболее распространенным среди всех форматов графических файлов. JPEG является достаточно сложным в сравнении с BMP, поэтому принято различать: 1. «формат JPEG-файла» - способ представления данных JPEG в файле. 2. «алгоритм сжатия JPEG» - набор преобразований, переводящих несжатую графическую информацию в сжатые данные JPEG.

Подбор изображений для тестирования

Одной из первых задач стегоанализа изображений формата BMP является выбор серии незаполненных контейнеров для последующего автоматического тестирования различных стеганографических программных продуктов. Выборка должна быть представительной, т.е. содержать множество файлов с различными параметрами. Обычно оцениваются такие параметры как размеры изображения, наличие "естественных шумов" (более "шумные" естественные природные изображения, полученные с цифрового фотоаппарата или сканера по сравнению с менее "шумными" искусственными картинками, созданными в графических редакторах), количество цветов и т.д. Наиболее удобные источники поиска серий различных по параметрам изображений — современные домашние локальные сети, которые в настоящее время имеются во всех средних и крупных городах. Они содержат множество ресурсов и позволяют быстро найти большое количество разнотипных изображений. Такой метод выбора исходных данных является наиболее предпочтительным: По сравнению с сетью Интернет в домашних локальных сетях ниже вероятность существования изображений, уже содержащих скрытые данные. Выбор исходных файлов на домашнем компьютере ограничивает количество доступных источников (цифровой фотоаппарат, камера, сканер, сотовый телефон). Полученная в результате серия исходных изображений не будет обладать репрезентативностью. Существует опасность подстройки алгоритма под однотипные изображения. Для проведения настоящего исследования выбор файлов проводился в домашних сетях и в сети Интернет с добавлением некоторого количества собственных фотографий с цифрового фотоаппарата. Одной из проблем является наличие в некоторых изображениях аномалий. Данные, находящиеся внутри файла могут представлять собой:

Другой формат, например GIF, PNG, JPG, PDF, EXE и т.п. В этом случае содержимое файла не соответствует его расширению ".bmp". Такие файлы являются следствием различных ошибок или примитивной маскировки данных. Редко используемый BMP-формат, например палитровый 1-, 2-, 4-, 8-битный, беспалитровый 32-битный или BMP с применением сжатия по алгоритму RLE. Серьезно поврежденный BMP. К часто встречающимся повреждениям можно отнести: о Файлы, размер которых меньше требуемого. Наиболее часто это встречается при неожиданном прерывании процесса загрузки из сети («недокачанные» файлы) о Файлы с некорректными данными в заголовке. о Файлы, содержащие лишние данные в конце файла. Некорректные файлы или с наличием аномалий могут серьезно нарушить процесс автоматического тестирования стеганографических программ и отразиться на результатах тестирования методов стегоанализа. Для проведения исследования из различных источников было получено свыше 10000 файлов с расширением BMP. Подготовка окончательной выборки для тестирования методов стегоанализа проводилась в несколько этапов: 1. Анализ заголовков файлов с помощью широко распространенной в среде UNIX стандартной утилиты file позволил отсечь файлы посторонних форматов и выделить только формат 24-бит BMP. 2. Последующее более детальное рассмотрение полей заголовков, вычисление требуемого размера файла, сравнение с реальным размером исключило файлы с лишними данными и не полностью загруженные файлы. 3. Визуальный субъективный анализ оставшихся файлов с помощью программы просмотра изображений и отбор 1000 изображений различного разрешения и качественного содержания позволил сформировать наиболее представительную выборку. Удаление ненужных файлов на этапах 1 и 2 выполнялось в автоматическом режиме при помощи написанного 81іе11-скрипта[18]. На третьем этапе отбора изображений уделялось внимание соотношениям в выборке количества