Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Методы распознавания образов в задаче анализа изображений и видео по содержанию Шемагина Ольга Владимировна

Методы распознавания образов в задаче анализа изображений и видео по содержанию
<
Методы распознавания образов в задаче анализа изображений и видео по содержанию Методы распознавания образов в задаче анализа изображений и видео по содержанию Методы распознавания образов в задаче анализа изображений и видео по содержанию Методы распознавания образов в задаче анализа изображений и видео по содержанию Методы распознавания образов в задаче анализа изображений и видео по содержанию Методы распознавания образов в задаче анализа изображений и видео по содержанию Методы распознавания образов в задаче анализа изображений и видео по содержанию Методы распознавания образов в задаче анализа изображений и видео по содержанию Методы распознавания образов в задаче анализа изображений и видео по содержанию Методы распознавания образов в задаче анализа изображений и видео по содержанию Методы распознавания образов в задаче анализа изображений и видео по содержанию Методы распознавания образов в задаче анализа изображений и видео по содержанию Методы распознавания образов в задаче анализа изображений и видео по содержанию Методы распознавания образов в задаче анализа изображений и видео по содержанию Методы распознавания образов в задаче анализа изображений и видео по содержанию
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Шемагина Ольга Владимировна. Методы распознавания образов в задаче анализа изображений и видео по содержанию: диссертация ... кандидата Технических наук: 05.13.17 / Шемагина Ольга Владимировна;[Место защиты: Нижегородский государственный технический университет им.Р.Е.Алексеева].- Нижний, 2016.- 154 с.

Содержание к диссертации

Введение

ГЛАВА 1 Обзор современного состояния проблемы анализа видео и изображений по их содержанию 10

1.1 Методы анализа видеопотока 11

1.2 Методы индексации изображений

1.2.1 Текстовые признаки 15

1.2.2 Визуальные признаки 16

1.2.3 Глобальная цветовая гистограмма 18

1.2.4 Методы пространственно-цветового индексирования 18

1.2.5 Семантические признаки 21

1.2.6 Применение гауссовой смеси (GMM) в задаче контекстного поиска изображений

1.3 Мера близости 24

1.4 Цель и задачи исследования 25

ГЛАВА 2 Алгоритмы обнаружения и сопровождения объектов в видопотоке. Автоматическая кластеризации объектов 27

2.1 Использование модели однородной двумерной нейроноподобной среды для обнаружения местоположения объектов на сложном фоне. 29

2.1.1 Процедура построения каскада сильных классификаторов 33

2.2 Применение генетических алгоритмов для уточнения местоположения лица человека на изображении 42

2.3 Система сопровождения найденных объектов 47

2.4 Система анализа видеоинформации

2.4.1 Повышение качества сопровождения найденных в видеопоследовательности объектов 50

2.4.2 Сегментация видеопоследовательности

2.5 Численный эксперимент 55

2.6 Выводы

ГЛАВА 3 Алгоритмы адаптивной сегментации и семантического описания изображений в задаче распознавания изображений с запрещенным содержанием 60

3.1 Цветовая модель 61

3.2 Геометрические признаки 66

3.3 Семантические признаки 72

3.4 Система распознавания атрибутов 74

3.5 Построение классификатора 84

3.6 Численный эксперимент 86

3.7 Выводы 88

ГЛАВА 4 Комплект средств разработки (software development kit - sdk) 90

4.1 Структура приложения 91

4.2 Типы данных, с которыми работает API

4.2.1 Дескрипторы объектов библиотеки 92

4.2.2 Базовые типы данных API 92

4.3 Функции 98

4.3.1 Функции для работы с растровым изображением 98

4.3.2 Функции модуля поиска лиц на цифровых фотографиях 107

4.3.3 Функции модуля определения атрибутов лица. 119

4.3.4 Функции модуля фильтрации изображений с запрещенным содержанием 125

4.4 Статус функции и коды ошибок 134

Заключение 137

биБлиография 139

Введение к работе

Актуальность работы. Развитие информационных технологий, появление цифровых фотоаппаратов и видеокамер привело к очень быстрому росту объема информации, хранящейся в графическом и текстовом виде в цифровых архивах пользователей. Как и любая информация, мультимедиа-данные нуждаются в классификации и структурировании. Поэтому задача создания алгоритмов, позволяющих разрабатывать системы эффективного управления мультимедиа-данными, является актуальной.

Надо заметить, что вследствие все возрастающего объема графических данных, их классификация на основе низкоуровневых признаков, таких как цвет, текстура, форма и т.д., становится все более проблематичной. Поэтому особенно актуальным является создание алгоритмов классификации, основанных на анализе содержания изображений и видеопоследовательностей.

Анализ содержания изображения может быть связан с автоматическим поиском на изображении различных образов, которые могут быть выражены терминами естественного языка, например, лицо человека, автомобиль, дом и т.д. Сами образы, в свою очередь, могут обладать свойствами, например, лицо может быть мужским или женским, детским или взрослым. Этот подход подразумевает формирование высокоуровневых концепций или образов на основе низкоуровневых признаков. Так, образ может иметь вероятностное представление в пространстве признаков (например, «гауссова смесь» или GMM) или же он может быть сформирован при помощи методов машинного обучения.

На основе сформированных образов могут быть построены такие системы управления мультимедиа- данными, как, например, системы контекстного поиска или семантического анализа, системы индексации видеопоследовательностей и т.д.

Конкретная реализация системы управления мультимедиа-данными и способ формирования образов зависит от поставленной задачи, тем самым оставляя исследователям большое поле для творчества.

Целью работы является развитие существующих методов и алгоритмов анализа видео по содержанию для улучшения качества сопровождения объектов и обеспечения возможности автоматической кластеризации событий, а также разработка метода контекстной фильтрации изображений с запрещенным содержанием (соответствует п.5. и п.7 паспорта специальности). Для достижения поставленных целей необходимо решить следующие задачи:

  1. обзор современного состояния проблемы анализа видео и изображений по их содержанию;

  2. разработка алгоритмов формирования образов на основе признаков, полученных при помощи преобразования Хаара;

  3. разработка алгоритма кластеризации объектов в видеопоследовательности;

  4. разработка алгоритма адаптивной цветовой сегментации изображений;

  5. разработка алгоритма фильтрации изображений с запрещенным содержанием;

  6. разработка комплекта средств разработки (software development kit - SDK), позволяющего создавать системы управления мультимедиа-данными.

Объект исследования -статические изображения и видеоматериалы. Предметом исследований являются методы анализа изображений и видеопоследовательностей по их содержанию.

Методы исследования. Для решения поставленных задач в работе использовались методы цифровой обработки изображений, методы математической статистики, методы распознавания образов. Научная новизна работы состоит в следующем:

Предложен новый метод и реализующий его алгоритм кластеризации видеопоследовательности, основанный на способе идентификации человека по изображению лица (способ защищен патентом РФ RU 2382408);

Предложен новый метод и реализующий его алгоритм повышения качества сопровождения найденных в видеопоследовательности объектов (лиц людей), основанный на способе идентификации человека по изображению лица (способ защищен патентом РФ RU 2382408);

Предложен метод и реализующий его алгоритм фильтрации изображений с запрещенным содержанием. Метод в отличие от существующих позволяет:

о проводить адаптивную, а потому более точную цветовую сегментацию изображения с использованием информации о найденных на нем лицах;

о исключить ошибки фильтрации, связанные с ошибочным принятием портретов за изображения с запрещенным содержанием;

о определять возраст найденных на изображении лиц.

Практическая ценность работы заключается в расширении возможностей систем автоматической классификации изображений и видеопоследовательностей. Предложенные методы могут быть использованы для создания систем видеонаблюдения с возможностью автоматической кластеризации событий, для создания систем автоматической классификации видеофрагментов, для создания систем фильтрации изображений с запрещенным содержанием, для создания систем семантического описания изображений, для создания систем поиска изображений, где поисковый запрос может быть выражен терминами естественного языка.

Апробация работы. Основные материалы и результаты диссертационной работы докладывались на следующих научных конференциях:

Всероссийская научно-техническая конференция «Нейроинформатика-2009», МИФИ, Москва, янв. 2009

Всероссийская конференция «Нелинейная динамика в когнитивных исследованиях», Нижний Новгород, май, 2009

Международная научно-техническая мультиконференция «Актуальные проблемы информационно-компьютерных технологий, мехатроники и робототехники» (ИКТМР-2009), «Многопроцессорные вычислительные и управляющие системы» (МВУС-2009) , НИИ МВС, г. Таганрог, сент.-окт.2009

«Четвертая международная конференция по когнитивной науке», Томск, июнь 2010

II Всероссийская конференция «Нелинейная динамика в когнитивных исследованиях», Нижний Новгород, май 2011

«Пятая международная конференция по когнитивной науке», Калининград, июнь 2012

Всероссийская научно-техническая конференция «Нейроинформатика-2013», МИФИ, Москва, янв. 2013

III Всероссийская конференция «Нелинейная динамика в когнитивных исследованиях», Нижний Новгород, сент. 2013

Личный вклад автора

Все методы и алгоритмы, представленные в диссертации, были разработаны автором лично, либо при его непосредственном участии. Алгоритмы построения детектора объектов и детектора атрибутов объектов разрабатывались совместно с Тельных А.А. Комплект средств разработки (software devel-

opment kit - SDK) также разрабатывался совместно с

Тельных А.А. Создание остальных алгоритмов, представленных в диссертации, принадлежит лично автору.

Публикации. По теме диссертации опубликовано 16 работ, в том числе 5 статей в рецензируемых журналах, входящих в перечень ВАК, 6 статей в других изданиях и сборниках трудов конференций, 4 – тезисы докладов, 1 патент, 1 свидетельство о государственной регистрации программ для ЭВМ. На защиту выносятся следующие результаты работы:

  1. алгоритм повышения качества сопровождения найденных в видеопоследовательности объектов (лиц людей), основанный на способе идентификации человека по изображению лица;

  2. алгоритм индексации видеопоследовательности, основанный на кластеризации найденных в видеопоследовательности объектов;

  3. алгоритм адаптивной цветовой сегментации изображений;

  4. алгоритм распознавания изображений с запрещенным содержанием;

  5. комплект средств разработки (SDK), позволяющий создавать системы управления мультимедиа-данными.

Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения, библиографического списка. Общий объем работы - 154 страницы текста, содержащего 44 рисунка и 3 таблицы. Список литературы содержит 82 наименования.

Визуальные признаки

Семантический индекс наряду с низкоуровневыми информационными признаками формируют обобщенный индекс анализируемого видеопотока.

Структурный анализ подразумевает определение границ фрагментов, сцены, нахождение ключевых фреймов. Методы, используемые при определении границ фрагмента, основаны, как правило, на получении визуальных признаков каждого кадра видеопотока с последующим определением меры близости между векторами признаков, характеризующими каждый кадр. Граница фрагмента в этом случае находится между кадрами с наибольшим расстоянием.

Признаки, используемые для определения границы фрагмента, включают в себя цветовые гистограммы [14], гистограммы блоков одного цвета, векторы движения [15,16], признаки, инвариантные к изменению масштаба (SIFT) [17], особые точки [18] и т.д.

На рисунке 2 представлена классификация признаков, которые могут быть вычислены для индексации видеопотока. Эти признаки могут быть разделены на три категории: статические признаки ключевых кадров, признаки объектов и признаки движения. Как видно из рисунка 2, признаки ключевых кадров и признаки объектов сходны по типу, различаясь лишь областью, для которой они вычисляются. Признаки движения, в отличие от предыдущих видов признаков, характерны только для видеопотока и могут быть разделены на два типа: признаки, связанные с движением камеры (например, изменение масштаба при приближении или удалении камеры, поворот камеры и т.д.), а также признаки, связанные с движением объектов, которые и представляют наибольший интерес. Они могут описывать движение либо статистически [19,20], либо используя информацию о взаимном расположении объектов [21,22], либо основываться на изучении траекторий движения объектов [23–26].

Методы индексации изображений основаны, как правило, на возможности пр едставления изображения в виде вектора признаков. В качестве дескрипторов, характеризующих содержание изображения, могут выступать такие визуальные признаки как цвет, текстура, форма, пространственное расположение или семантические примитивы (Рисунок 2). Благодаря широкому распространению вейвлет-анализа его методы стали активно применяться для кодирования текстур на изображениях [27–29]. Кодирование производится, как правило, с использованием банка ориентированных по разным направлениям фильтров [30].

Традиционно поиск информации осуществлялся на основе текстового поиска, и эти же подходы в различных формах были перенесены в методы индексации графической информации. Однако содержание изображения гораздо более разнообразно по сравнению с текстами, а количество визуальных данных огромно и очень быстро увеличивается. Именно поэтому разработка методов индексации данных мультимедиа на основе анализа содержания является актуальной задачей. Эти методы призваны найти соответствие между низкоуровневыми дескрипторами изображений и высокоуровневыми семантическими понятиями, характеризующими собственно содержание изображений. Но, несмотря на значительные усилия, предпринимаемые исследователями в этом направлении, разрыв между низкоуровневыми признаками и высокоуровневыми понятиями остаётся огромным. Поэтому существует настоятельная необходимость в нахождении скрытой взаимосвязи между особенностями низкоуровневых признаков и концепций высокого уровня и в их объединении.

Процедура построения каскада сильных классификаторов

Базовым алгоритмом, используемым для понижения размерности пространства, в котором предстоит решать задачу распознавания в разрабатываемых системах, является метод главных компонент [45]. Суть метода заключается в поиске такого подпространства меньшей размерности, в ортогональной проекции на которое разброс данных из обучающей выборки будет максимальным. В качестве обучающей выборки использовалась база изображений более 1000 лиц. Выбор размерности подпространства осуществлялся на основе численного эксперимента, который показал, что точность распознавания лиц при значениях размерности выше 60 меняется незначительно. Таким образом было сформировано подпространство размерности . Используя информацию о местоположении, области лица вырезаются на каждом кадре трека и приводятся к стандартизованному виду. В рассматриваемом случае изображения приводятся к размеру 32х32 пикселя, нормируются по освещенности и поворачиваются так, чтобы глаза были расположены горизонтально

Пример стандартизованного изображения Все фрагменты трека, содержащие область лица, проецируются на это пространство - после чего каждое лицо характеризуется вектором размерности L. Таким образом, теперь каждый трек представляет собой набор векторов размерности L: &Л,..Х} (7) где kt - проекция z-гокадра трека, N - количество кадров в данном треке. Кроме того, как уже было сказано выше, каждый элемент трека характеризуется значением параметра ratei - оценкой «качества» і-го кадра, вычисленной при помощи детектора лиц.

Для того чтобы ответить на вопрос, принадлежат ли изображения лиц, представленные на двух соседних по времени треках, одному и тому же человеку, необходимо ввести меру близости треков. Для этого вычислим среднее (8) и дисперсию (9) расстояний между элементами внутри трека, а также среднее (10) и дисперсию (11) расстояний между элементами разных треков: 1 1 , где dt - евклидово расстояние между проекциями і-гои у-гокадров, N1q и N2q количество элементов первого и второго треков соответственно, у которых оценка «качества» больше некоторого порогового значения rateq. Чем выше значение этой оценки, тем ближе ракурс найденного на этом кадре лица к фронтальному, поскольку для построения каскада сильных классификаторов использовалась прецедентная база фронтальных изображений лица. Это означает, что в процессе сравнения треков участвуют только те элементы трека, для которых уверенность в том, что это лицо человека, высока. Учет этого параметра позволяет минимизировать влияние ошибки детектирования лица на конечный результат. Кроме того, треки, у которых хотя бы для одной пары элементов совпадает значение номера кадра Frame _number в видеопоследовательности, считаются принадлежащими разным людям.

Будем считать, что два трека содержат лицо одного и того же человека, если одновременно выполняются следующие условия:

Под сегментацией видеопоследовательности понимается процедура разбиения видеоролика на части, содержащие последовательности кадров с выделенным на них объектом одного типа. В случае временного исчезновения объекта из кадра таких последовательностей получается несколько, и их совокупность образует кластер. В данной диссертационной работе предлагается алгоритм сегментации видеоклипа, показавший свою эффективность для решения практических задач. Система сегментации видеопотока необходима для предварительного анализа и сортировки данных систем видеонаблюдения. Система сегментации может применяться и самостоятельно, например, с ее помощью возможна индексация видеоархива.

Задачей системы анализа в этом случае является объединение треков, содержащих один и тот же объект (в нашем случае лицо одного и того же человека), в кластер. При этом вводится понятие расстояния между двумя кластерами. Как и в предыдущей задаче, области лица вырезаются на каждом кадре трека и приводятся к стандартизованному виду (рис. 20), с использованием метода главных компонент [44,45] проецируются на ранее созданное подпространство размерности – после чего каждое лицо характеризуется совокупностью чисел. Таким образом, теперь каждый трек можно представить в виде (7), как и в предыдущей задаче.

Далее полагаем, что на первом этапе каждый кластер состоит из одного трека, и начинаем процесс объединения кластеров. В качестве меры близости используем минимальное расстояние между парами треков, входящих в разные кластера.

При сравнении двух треков длины в первом и во втором случае, каждая проекция изображения лица в одном треке сравнивается с проекцией изображения лица во втором треке. В качестве меры используется евклидово расстояние. Расстояние между треками определяется как минимальное расстояние между элементами этих треков. В итоге формируется матрица расстояний между кластерами размерности . Ищется минимальный и максимальный элемент этой матрицы, после чего вычисляется порог , где параметр – регулировочный. Далее кластеры с минимальным расстоянием между собой объединяются, для укрупненного кластера пересчитываются элементы матрицы расстояний, и процедура повторяется до тех пор, пока минимальный элемент матрицы расстояний меньше этого порога – если это условие не выполнено, то процесс прекращается. Результатом выполнения третьего этапа является список кластеров, каждый из элементов которого содержит список принадлежащих ему треков, состоящих, в свою очередь, из фрагментов видеоролика, на которых находится лицо предположительно одного и того же человека.

Семантические признаки

В данной диссертационной работе предлагается использовать алгоритмы семантического описания изображений, под которыми понимается, как уже было сказано выше, нахождение на изображении ключевых объектов и использование информации об их свойствах для получения информативных признаков классификации.

Получение семантических признаков основано на использовании разработанных в нашей лаборатории нейроморфных детекторов объектов и их атрибутов. Наш подход к построению такого рода детекторов заключается в максимальном использовании "бионических" принципов построения подобных систем, которые имеют аналогию с сетчаткой глаза, рецептивными полями и зрительной корой головного мозга. В частности, мы используем простейшие признаки, получаемые с некоторой нелокальной области изображения, которые можно интерпретировать как "рецептивные поля", выдающие некоторое кодовое описание рассматриваемого участка изображения и активирующие "слабые классификаторы", а ансамбль слабых классификаторов, объединенный в комитет, или сильный классификатор можно рассматривать как аналог искусственного нейрона, расположенного в зрительной коре головного мозга. Математические основы вычислительных методов, используемых при построении такого рода детекторов, были заложены в работах Виолы и Джонса [47]. Для решения проблемы ошибочной классификации портретов использовался детектор лица человека, определяющий размер и местоположение лица на изображении. Принципы построения детектора описаны во второй главе.

В качестве информативного признака было взято следующее соотношение: где – суммарная площадь найденных на изображении лиц, - количество лиц, – суммарная площадь выделенных на изображении сегментов кожи, количество сегментов кожи. Этот признак может быть отнесен как к разряду семантических, так и к разряду геометрических. Сложность ситуации заключается в том, что «изображения для взрослых» также могут содержать портреты, однако атрибуты лиц на этих портретах таковы, что принадлежность изображения к классу нежелательных не будет вызывать сомнений. Поэтому вторым семантическим признаком, который был использован для классификации, является наличие или отсутствие у найденного детектором лица (портрета) соответствующего признака. Третий семантический признак, который был использован для обнаружения детской порнографии, это возрастной атрибут найденного на изображении лица.

Система распознавания атрибутов Нами разработана система обучения и распознавания атрибутов или признаков, которые могут быть связаны с лицом человека, основанная на едином подходе к распознаванию всех типов атрибутов. В частности, это могут быть атрибуты пола, возраста, расы, наличия бороды и усов, очков, а также атрибуты, позволяющие отделить обычный портрет от портрета, характерного для изображений с запрещенным содержанием.

Как и большинство систем распознавания, система распознавания атрибутов состоит из двух модулей – модуля обучения и модуля распознавания.

Задачей модуля распознавания атрибутов является принятие решения о наличии искомого атрибута для данного фрагмента изображения. Входными данными для данного модуля служат фрагменты изображения, содержащие лица, которые были получены при помощи детектора лиц, описанного в первой главе. Выходные данные –решение о наличии искомого атрибута для каждого фрагмента входных данных.

Задачей модуля обучения атрибутов является поиск функции , переводящей произвольный фрагмент изображения в пространство состояний {1, 0, -1} где 1 соответствует наличию искомого атрибута в рассматриваемом фрагменте, 0 соответствует отказу от принятия решения, -1 соответствует отсутствию атрибута. Входными данными для модуля обучения служат также фрагменты изображения, содержащие лицо, для каждого из которых априори определено значение искомого атрибута. Выходные данные – функция классификации .

Общий вид архитектуры системы приведен на рисунке 33. Рисунок 33. Архитектура системы распознавания атрибутов

Принципы построения классификатора , представляющего собой детектор атрибутов, во многом схожи с принципами построения детектора лиц, описанного во второй главе. Искомая функция классификации представляет собой сильный классификатор, состоящий из набора слабых классификаторов (СК). Как уже было сказано ранее, классификатор имеет три возможных решения – 1, 0, -1. Принципиальная схема сильного классификатора приведена на рисунке 34

Дескрипторы объектов библиотеки

Для построения сильного классификатора использовалась хорошо известная процедура AdaBoost, которая позволяет объединить слабые классификаторы в каскад, называемый сильным классификатором, с соответствующими весовыми коэффициентами. Таким образом, сильный классификатор имеет вид: где - фрагмент изображения, - нелинейная функция принятия решения, слабый классификатор, - вес слабого классификатора, T – порог принятия решения и – количество слабых классификаторов в каскаде. При построении сильного классификатора использовался следующий вид нелинейной функции принятия решения : где 1 соответствует принятию решения о наличии искомого атрибута на изображении, -1 его отсутствию, а 0 соответствует отказу от принятия решения (решение «не знаю»). Рисунок 37 характеризует процесс обучения сильного классификатора. На нем приведена зависимость ошибки классификации от количества слабых классификаторов, объединенных в каскад. Данные получены для процесса построения классификатора изображений мужчин и женщин. Рисунок 37. Зависимость ошибки классификации (в %) сильного классификатора от количества слабых классификаторов, объединенных в каскад. Использовалась база данных, состоящая из 1200 изображений мужчин и женщин. Детектор возраста Для решения задачи распознавания изображений с запрещенным содержанием с использованием описанной выше процедуры был построен детектор возраста, призванный классифицировать найденные на изображении лица на детские и взрослые. Рисунок 38. Ошибка классификации дети до 6-7 лет - взрослые Проведенные численные эксперименты показали, что ошибка классификации построенного детектора возраста довольно сильно зависит от того, какой именно возраст считать детским. Так, если классификатор строится на основе базы данных, содержащей изображения детских лиц в возрасте до 6-7 лет, то ошибка классификации может достигать значений 10% (рис. 38).

Однако специфика решаемой задачи требует трактовки возраста детей в юридическом смысле, поэтому в системе использовался классификатор, построенный с использованием изображений детей в возрасте до 17-18 лет. На рисунке 39 видно, что ошибка классификации в этом случае значительно выше. Кроме того, процент отказа системы от принятия решений тоже возрос существенным образом. Такой результат не кажется неожиданным, поскольку даже человеку порой трудно отличить семнадцатилетнего подростка от взрослого только по внешнему виду.

Для построения классификатора использовалась база данных, содержащая 4474 изображения лиц детей в возрасте до 17-18 лет и 3421 изображение лиц взрослых. Тестовая выборка состояла из изображений, которые не предъявлялись системе обучения, и содержала на изображении сегментов кожи, semch 200 изображений лиц детей и 153 изображения лиц взрослых. Рисунок 40. Пример работы детектора возраста. Синяя рамка - ребенок, красная взрослый описанного вокруг наибольшего по площади сегмента кожи, отнесенный к площади всего изображения, - отношение суммарной площади найденных на изображении лиц к суммарной площади выделенных -признак наличия хотя бы одного детского лица на изображении, sem_p -дополнительный признак для классификации портретов (рис. 41). 3.5 Построение классификатора

Классификатор представляет собой дерево принятия решений, основанный на использовании всех вышеперечисленных признаков. Схематично классификатор можно представить следующим образом: Рисунок 42. Дерево принятия решений. При принятии решения о принадлежности изображения к классу нежелательных, а также при условии наличия хотя бы одного детского лица на изображении принимается решение о принадлежности данного изображения к классу детской порнографии.

К сожалению, по понятным причинам, в свободном доступе нет общепринятой базы данных изображений, на которой можно было бы сравнить результаты работы подобных детекторов, предложенных разными исследователями. Поэтому мы можем сравнить результаты работы детектора без предложенных в данной работе алгоритмов и с их использованием. Для тестирования использовалась база данных, состоящая из 50 036 изображений обычного содержания и 50 004 «изображений для взрослых».

Как видно из приведенных в Таб.2 результатов, использование описанных в работе алгоритмов позволило значительно снизить ошибку ложного срабатывания, при этом точность распознавания «изображений для взрослых» несколько снизилась. Это связано, в первую очередь, с особенностями работы детектора лица и детектора атрибутов. Так, при ложном срабатывании детектора лица на изображении адаптивная гистограмма, вычисленная в этой области, не будет соответствовать человеческой коже, следовательно, цветовая сегментация будет некорректной. Точность работы детектора лиц, используемого в данной работе, составляет порядка 90%, и повышение точности его работы будет способствовать уменьшению ошибки фильтрации нежелательных изображений. Использование детектора атрибутов, точность работы которого составляет порядка 80%, тоже вносит дополнительную ошибку в работу системы.

В качестве иллюстрации на Рис.43 приведена сводная таблица результатов работы систем распознавания нежелательных изображений, предложенных другими исследователями. Вследствие того, что результаты были получены на разных тестовых данных, их нельзя сравнивать. Данная таблица лишь дает представление об уровне точности разработанных на данный момент систем. Видно, что уровень точности предложенной в данной диссертационной работе системы вполне сопоставим с аналогами. Рисунок 43. Сводная таблица результатов, составленная на основании данных, представленных в обзоре существующих решений [57,69–71,71–82]. Данные отсортированы по размеру тестовой выборки. Размер выборки указан в скобках после ссылки.