Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Обработка баз данных с персонифицированной информацией для задач обезличивания и поиска закономерностей Кучин, Иван Юрьевич

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Кучин, Иван Юрьевич. Обработка баз данных с персонифицированной информацией для задач обезличивания и поиска закономерностей : диссертация ... кандидата технических наук : 05.13.01, 05.13.19 / Кучин Иван Юрьевич; [Место защиты: Астрахан. гос. техн. ун-т].- Астрахань, 2012.- 132 с.: ил. РГБ ОД, 61 12-5/1989

Введение к работе

Актуальность исследования. Активное внедрение информационных технологий для повышения эффективности управления привело к формированию больших объемов собранных данных. Количественный рост информации в настоящее время приводит к накоплению качественно новых знаний. Традиционные методы обработки накопленных данных, не дают эффективных подходов для ее интеллектуального анализа, в отличие от методов нового и активно развивающегося научного направления Data Mining, нацеленного на поиск ранее неизвестных знаний.

Особый интерес в качестве объекта поиска новых знаний представляет персонифицированная информация или персональные данные (ПДн), т.е. цифровая информация, генерируемая или так или иначе связанная с конкретной личностью. Значительная потребность в использовании этой информации и ее анализе, в том числе методами Data Mining, в настоящее время испытывается в двух сферах: в бизнес-аналитике и сфере государственных услуг (в связи с активным переводом услуг населения в электронный формат: единая карта гражданина РФ, электронные очереди, электронное правительство и т.п.).

В рамках указанной обработки персонифицированной информации все острее проявляются противоречия требований интеллектуального анализа данных и сохранения приватности личности при использовании ее данных. Так 34,7% организаций, обрабатывающих персональные данные, в качестве основного препятствия к использованию их в качестве объекта исследования называют неясность положений Федерального закона №152 «О персональных данных». В частности, Законодательно установлено, но не регламентировано требование проведения предварительной процедуры обезличивания персональных данных перед их исследованием, что значительно препятствует полноценному и безопасному их использованию в качестве объекта поиска новых знаний.

Направлением Data Mining занимались и продолжают заниматься многие российские и зарубежные ученые: Г. Пиатецкий-Шапиро, А.В. Дюк, И.А. Чубуков, H. Edelstein и др. Использование методов Data Mining применительно к анализу персонифицированной информации без угрозы приватности личности рассмотрены в работах: P.Samarati, G.Aggarwal, RJ Bayardo и др. Наконец, вопросами обезличивания персональных данных в нашей стране посвящены работы: С.Д. Рябко, А.Лукацкого, Е.А. Саксонова, Р.В.Шередина, Е.Царева и др.

Диссертационная работа посвящена разработке альтернативной модели обезличивания персональных данных, позволяющей подготовить данные к анализу методами Data Mining и решить задачу безопасного использования данных по достижению первичных целей их обработки. В работе проверяется возможность использования некоторых методов аппарата анализа временных рядов на базах с персонифицированной информацией и предлагаются усовершенствования существующего метода. Кроме того, предложена новая процедура защитного преобразования данных, зависящая от параметров конкретной среды ее реализации, для повышения безопасности ее применения. Указанные мероприятия должны способствовать развитию эффективной и в то же время безопасной обработки ПДн, чем и обосновывается актуальность темы диссертационного исследования.

Объект исследования – базы данных с персонифицированной информацией жителей РФ, находящиеся в свободном доступе в сети Интернет.

Предмет исследования. Методы, модели и алгоритмы обработки больших наборов персонифицированных данных.

Целью диссертационного исследования является повышение эффективности анализа, поиска новых знаний и безопасной обработки на основе обезличивания персонифицированной информации. Для достижения поставленной цели необходимо решить следующие задачи:

  1. Разработать способы оценки свойств персонифицированной информации на основе построения их классификационной структуры.

  2. Модифицировать метод SSA-Гусеница для решения задач Data Mining применительно к персональным данным.

  3. Построить модель и алгоритм обезличивания данных, позволяющие при необходимости восстанавливать исходные данные.

  4. Разработать алгоритм защитного преобразования, зависящий от параметров конкретной операционной среды обработки.

Методы исследования. В процессе работы использовались методы системного анализа, математического моделирования, теории вероятностей, математической статистики, графов.

Достоверность и обоснованность подтверждена результатами компьютерных экспериментов и внедрением работы в ООО «Новая Клиника» (г. Астрахань).

Научная новизна диссертационного исследования:

  1. Сформирована классификационная структура свойств персональных данных вместе со способами оценки этих свойств, которые позволяют повысить степень эффективности и безопасности обработки данных в процессе поиска новых знаний.

  2. Модифицирован метод SSA-Гусеница применительно к анализу данных, не являющихся временными рядами, а также разработана процедура эффективного выбора длины окна, позволяющая результативнее определять характеристики регулярных составляющих в базах данных.

  3. Предложена новая модель обезличивания, усовершенствующая модель «k-анонимности» и обеспечивающая более высокий уровень функциональности, по сравнению с последней, за счет реализации возможности восстановления обезличенной информации.

  4. Разработан новый алгоритм защитного преобразования данных, который обеспечивает адаптивную связь процесса обезличивания с параметрами конкретной операционной среды.

Практическая значимость.

  1. Полученные в работе количественные оценки свойств баз данных с персонифицированной информацией могут быть использованы для прогнозирования характеристик результатов идентификации личности в произвольных базах персональных данных.

  2. Модифицированный метод SSA-Гусеница позволяет применять различные варианты этого метода для анализа данных, не являющихся временными рядами.

  3. Разработанный в работе алгоритм обезличивания данных может быть использован для безопасного хранения и обработки персональных данных в коммерческих целях.

Апробация работы. Основные положения и отдельные результаты диссертации докладывались и обсуждались на Международной научно-технической конференции «Современные информационные технологии – 2011» (Пенза, 2011), Международной конференции по информационной безопасности «Info Security Russia» (Москва, 2010), I международной научно-практической конференции «Эволюция системы научных коммуникаций Ассоциации университетов Прикаспийских государств» (Астрахань, 2008), Международной отраслевой научной конференции профессорско-преподавательского состава Астраханского государственного технического университета (Астрахань, 2010).

Публикации. Основные результаты диссертационного исследования опубликованы в 6 печатных работах: 3 статьях в журналах из списка, рекомендованного ВАК РФ, 3 материалах и трудах конференций. Все работы опубликованы без соавторов.

Структура и объем работы. Работа состоит из введения, 3 глав, заключения, списка литературы из 106 наименований и 5 приложений. Основная часть работы изложена на 117 страницах машинописного текста, содержит 17 таблиц и 45 рисунков.

Похожие диссертации на Обработка баз данных с персонифицированной информацией для задач обезличивания и поиска закономерностей