Методы автоматической идентификации личности по изображениям лиц, полученным в неконтролируемых условиях Тимошенко Денис Максимович

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Тимошенко Денис Максимович. Методы автоматической идентификации личности по изображениям лиц, полученным в неконтролируемых условиях: диссертация ... кандидата технических наук: 05.13.18 / Тимошенко Денис Максимович;[Место защиты: Петрозаводс ком государственном университете].- Петрозаводск, 2014.- 140 с.

Содержание к диссертации

Введение

ГЛАВА 1 Обзор современных систем распознавания лиц 12

1.1. Биометрические системы распознавания лиц 12

1.2. Критерии эффективности систем 16

1.3. Базы для систем распознавания лиц 20

1.3.1. База Face Recognition Grand Challenge (FRGC) 22

1.3.2. База Facial Recognition Technology (FERET) 22

1.3.3. База Labeled Faces in Wild (LFW) 23

1.3.4. Базы TOP-Celebrities и Social 24

1.4. Обзор существующих систем 25

1.3.1. Система «FaceVACS-DBScan» компании «Cognitec Systems» 25

1.3.2. Система «VeriLook SDK» компании «Neurotechnology» 27

1.3.3. Система «NEC’s Face Recognition» компании «NEC» 28

1.3.4. Система «Re:Action» компании «VisionLabs» 30

1.3.5. Система «Face Recognition» компании «FACE++» 30

1.5. Выводы 31

ГЛАВА 2 Детектирование лиц на изображениях 33

2.1. Признаки изображений 34

2.1.1. Признаки Хаара 35

2.1.2. Локальные бинарные шаблоны 39

2.1.3. Двухмерное косинусное преобразование 43

2.2. Методы бинарной классификации признаков 46

2.2.1. Композиции классификаторов 47

2.2.2. Адаптивный бустинг и метод Виолы-Джонса 48

2.2.3. Смеси гауссовых распределений 51

2.3. Сверточные нейронные сети 55

2.3.1. Структура сверточной нейронной сети 56

2.3.2. Слои сверточной нейронной сети 58

2.3.3. Алгоритм обратного распространения ошибки для СНС 62

2.3.4. Обучение выходного МОВ-слоя 65

2.3.5. Способы борьбы с переобучением сети 67

2.4. Комбинированный детектор лиц 68

2.4.1. Предобработка изображений 68

2.4.2. Локализация лиц на изображениях 70

2.4.3. Уточнение границ обнаруженных лиц 78

2.5. Выводы 80

ГЛАВА 3 Методы идентификации лиц по списку 82

3.1. Многомерный статистический анализ 83

3.1.1. Метод главных компонент 84

3.1.2. Линейный дискриминантный анализ Фишера 88

3.1.3. Вероятностный линейный дискриминантный анализ 92

3.2. Метод идентификации по списку на основе ВЛДА 96

3.3. Объединение систем 101

3.3.1. Основные методы слияния 102

3.3.2. Канонический корреляционный анализ 103

3.4. Выводы 106

ГЛАВА 4 Экспериментальные исследования 108

4.1. Детектирование лиц 108

4.1.1. Обучение каскадного классификатора 109

4.1.2. Обучение классификатора на основе СГР 111

4.1.3. Обучение СНС для детектирования лиц 112

4.1.4. Обучение СНС для выравнивания MBR 117

4.2. Система идентификации по списку 118

4.2.1. Эксперименты на базе TOP-Celebrities 119

4.2.3. Эксперименты на базах ORL и LFW 125

4.3. Выводы 126

Заключение 128

Список использованных источников 129

Критерии эффективности систем
Система «FaceVACS-DBScan» компании «Cognitec Systems»
Слои сверточной нейронной сети
Метод идентификации по списку на основе ВЛДА

Критерии эффективности систем

Актуальность темы. Задача автоматического распознавания лиц с целью установления личности имеет большое количество приложений в различных областях. Повышенный интерес к данной технологии вызван проблемами общественной безопасности, потребностью в удаленной аутентификации, развитием человеко-машинных интерфейсов. Что важно, во многих случаях для достижения приемлемого качества распознавания лиц не требуется дорогостоящее специфическое оборудование: источниками образцов могут служить фотографии или видеозаписи, сделанные непрофессиональной камерой. Благодаря многочисленным социальным и файлообменным сетям, изображение лица является одним из наиболее распространенных и доступных биометрических параметров человека. Этот факт породил новый вид задач, связанных с поиском информации в глобальной сети Интернет на основе биометрических данных.

Разработка методов распознавания лиц ведется уже несколько десятилетий, однако эта проблема по-прежнему далека от завершения. Автоматическое распознавание является непростой задачей из-за переменчивых условий визуализации лиц, связанных с освещением, положением головы по отношению к камере, старением, мимикой и другими факторами. При проектировании систем стараются избежать негативного воздействия указанных факторов, накладывая жесткие ограничения на процесс фотосъемки лиц, однако наибольший практический интерес представляет задача распознавания лиц на изображениях, полученных в неконтролируемых условиях. В последние годы наблюдается значительный прогресс в данной области, во многом благодаря развитию методов машинного обучения и появлению больших баз фотографий для тренировки систем.

Существует три основных задачи, решаемые системами распознавания лиц: верификация, идентификация на закрытом множестве и идентификация на открытом множестве. В настоящей работе предлагаются метод и комплекс программ для построения системы идентификации лиц по спискам, которая является частным случаем идентификации на открытом множестве. Данный вид систем имеет широкую область применения, а ниже перечислены наиболее актуальные приложения.

Системы наблюдения, устанавливаемые в общественных местах: в метро, на вокзалах, в аэропортах. Список идентификации в таком случае может включать людей, находящихся в розыске. Тогда система распознавания осуществляет мониторинг лиц, появляющихся в области видимости камер наблюдения.

Системы безопасности финансовых учреждений. Банковский сектор регулярно подвергается атакам мошенников, использующих поддельные удостоверения личности для получения денежных займов. Реакция системы идентификации по списку делает возможным принятие превентивных мер по отношению к потенциальным нарушителям.

Автоматизированные системы обработки и модерации содержимого сайтов и социальных сетей. Оперируя биометрическими шаблонами, можно установить связь между изображением лица на фотографии и сетевым профилем соответствующей ему личности. С другой стороны, одним из пунктов пользовательского соглашения с социальными сетями является предоставление пользователем корректной личной информации. Это правило нарушается, когда становится невозможно установить внешний вид пользователя из-за отсутствия изображения лица на его профильной фотографии или из-за наличия посторонних лиц на предоставленной фотографии. Наконец, цифровое изображение человека является объектом гражданского права, в связи с чем возникает проблема отслеживания неправомерного использования фотографий, чаще всего – публичных личностей.

Поисковые системы используют биометрическую информацию для индексации массивов изображений с целью улучшения точности ответов на запросы пользователей.

Решение задачи автоматической идентификации лиц на изображениях, полученных в неконтролируемых условиях, включает в себя создание алгоритмов обнаружения и локализации (детектирования) лиц на изображениях. Последние несколько лет доминирующими подходами для моделирования лиц являются метод главных компонент (МГК) и вероятностный линейный дискриминантный анализ (ВЛДА). В решении задачи детектирования лиц хорошо зарекомендовали себя алгоритм Виолы-Джонса, локальные бинарные шаблоны (ЛБШ) и сверточные нейронные сети (СНС). В данной диссертации представлено описание и анализ перечисленных подходов, положенных в основу разработанного метода детектирования и идентификации лиц по спискам.

Целью диссертационной работы является разработка методов идентификации лиц по спискам на образцах, полученных в неконтролируемых условиях. Для достижения цели сформулированы и решены следующие задачи: 1) проведен аналитический обзор существующих методов, алгоритмов и систем детектирования и распознавания лиц; 2) предложен новый метод детектирования и идентификации лиц по спискам на фотографиях, сделанных в неконтролируемых условиях; 3) разработано и внедрено в автоматизированные системы программное обеспечение для детектирования и идентификации лиц по спискам; 4) проведено экспериментальное исследование предложенной системы и даны рекомендации по выбору параметров системы, повышающих точность детектирования и распознавания лиц.

Предмет и методы исследования. Предметом исследования является система детектирования и идентификации лиц по спискам на цифровых изображениях. В работе используются методы цифровой обработки изображений, машинного обучения, математического моделирования и численного анализа.

Система «FaceVACS-DBScan» компании «Cognitec Systems»

Рассмотрим изображение X и функцию ft (х), где х - некоторая произвольная область изображения, аft- скалярная функция вычисления признака от заданной области. Согласно представленным в предыдущих разделах описаниям видов признаков, fti может вычисляться как свертка изображения с одним из вейвлетов Хаара по формуле (2.10)(2.22) или являться i-ым бином гистограммы признаков ЛБШ (2.19). Применительно к ДКП-2 ft можно представить как i-ый коэффициент преобразования F(u, v) при фиксированном положении окна.

Набор всевозможных функций вида (2.25) будем называть множеством слабых (элементарных) классификаторов [55].

где в - порог принятия решения, р Є {—1,1} определяет направление знака неравенства, kt EK,at = {foPo 0J- набор указанных параметров. Применительно к задаче детектирования лиц на изображениях, множество К можно представить как совокупность независимых детекторов, анализирующих каждую область изображения. Поскольку заранее неизвестно, какие из признаков окажутся наиболее информативными для описания конкретного паттерна лица, то на этапе обучения алгоритма детектирования целесообразно проверить все доступные элементарные детекторы и попытаться сформировать один «сильный» детектор.

Процедура последовательного построения композиции элементарных классификаторов, когда каждый последующий классификатор стремится компенсировать недостатки композиции всех предыдущих, получила название бустинга (boosting). Алгоритм бустинга является жадным алгоритмом - на каждом шаге, компенсируя ошибку предыдущей композиции, он принимает локально оптимальное решение, будучи уверенным, что итоговое решение будет также оптимальным [60]. Цель бустинга - построение композиции sD слабых алгоритмов к t: sD(x) = s(k1(x),k2(x), ...,kL{x)) (2.26)

Количество классификаторов в композиции стало произвольным, а каждый последующий классификатор строится на ошибочных ответах предыдущих (адаптивность), используя одну и ту же базу для обучения. Для алгоритма адаптивного бустинга впервые была доказана теорема бустинга, которая задавала оптимальный способ формирования композиции слабых классификаторов в виде взвешенной суммы. Адаптивный бустинг и метод Виолы-Джонса В настоящей работе мы рассмотрим три модификации алгоритма адаптивного бустинга, применяющихся в дальнейшем для построения детектора лиц:

Алгоритм DAB был предложен Фройндом и Шапире в работе [63]. При построении композиции классификаторов алгоритмом DAB используются два типа весов: коэффициенты взвешенного голосования классификаторов ст Є С и веса обучающих сэмплов wt Є W. На каждой итерации алгоритм DAB увеличивает веса тех наблюдений х, на которых классификаторы чаще ошибаются. Доля решения классификатора в общем голосовании ст определяется точностью его решений на выборке X. Формула взвешенного голосования DAB выглядит следующим образом:

RAB является вероятностным обощением алгоритма DAB. Дискретное множество ответов Y = заменяется на непрерывную оценку fm(x), знак которой определяет класс распознанного объекта, а модуль - степень «уверенности» классификатора. Голосование классификаторов задается суммой

Главное отличие алгоритма GAB от RAB - это способ оценки вероятностей классов, определяющих функции слабых классификаторов [58]. В RAB для этого используется логистическая регрессия (2.37), а в алгоритме GAB рассчитывается разность между вероятностями двух классов (2.39).

В то время как оценка (2.37) является численно неустойчивой, функция, задаваемая формулой (2.39), всегда лежит в пределах [-1,1]. Другим отличием является аппроксимация функции потерь: алгоритм RAB использует экспоненциальную оценку, GAB – квадратичную.

Используя вейвлеты Хаара в качестве признаков для слабых классификаторов, Пол Виола и Майкл Джонс предложили обучать методом адаптивного бустинга сильные алгоритмы и затем выстраивать их в однобокое дерево решений, которое называется каскадом [22]. На каждом уровне каскада сильный классификатор выносит решение, является ли образец искомым паттерном, в нашем случае лицом, или нет (рис. 2.12).

Преимущество такого подхода перед одним сильным классификатором объясняется скоростью принятия решений. В качестве эксперимента сильный классификатор, обученный по методу AdaBoost и содержащий 200 признаков, сравнивался с каскадным классификатором, состоящим из 10 уровней по 20 признаков на каждом. В то время как TPR отличался на 2-3% в пользу сильного классификатора, производительность каскада была почти в 10 раз выше [109].

Рассмотрим матрицу X, по столбцам которой расположены вектора признаков изображения. Предполагается, что распределение каждого элемента вектора признаков подчиняется нормальному, поскольку при построении тот подвержен влиянию огромного числа случайных факторов. В качестве Для построения СГР используется классический EM-алгоритм (Expectation-maximization algorithm), максимизирующий правдоподобие модели на заданных обучающих данныx [33]. На E-шаге вычисляется ожидаемое значение функции правдоподобия, при этом скрытые переменные рассматриваются как наблюдаемые (2.43). На M-шаге рассчитывается оценка максимального правдоподобия, таким образом, увеличивается ожидаемое правдоподобие, вычисляемое на E-шаге. Производится переоценка вектора параметров, используя текущее значение вектора скрытых переменных (2.44)-(2.46).

При обучении модели гауссовых смесей необходимо провести инициализацию параметров модели перед первой итерацией. Не гарантируется нахождение глобального максимума в пространстве данных обучения, таким образом, результат обучения системы в значительной степени зависит от начальных значений. Предположим, что число гауссоид К заранее задано, тогда для инициализации параметров [щ, Щ, j ] может использоваться случайная инициализация параметров модели, алгоритм k-средних [32], метод главных компонент [52] и др.

Отдельно следует рассмотреть виды ковариационных матриц. Считается, что полная ковариационная матрица лучшим образом описывает выборку, поскольку учитывает возможные корреляции между элементами многомерных векторов признаков. Однако на практике элементы вектора признаков часто полагают независимыми, что упрощает форму ковариационной матрицы, приводя ее к диагональной (2.47). Поскольку на E-шаге каждый раз считается инверсия ковариационной матрицы, то диагональная форма еще и вычислительно предпочтительней.

Слои сверточной нейронной сети

. Субдискретизирующий слой. Линейный субдискретизирующий слой Sk, заключающий в себе принцип пространственной субдискретизации, понижает размерность карт признаков, используя технику усреднения значений соседних пикселей. Для этого отображаемая карта признаков разбивается на равные непересекающиеся области. Формула отображения карты признаков if-1 на карту признаков Yjk выглядит следующим образом:

Улучшить работу нейронной сети помогает использование нелинейной децимации. Наиболее распространенным и доказавшим собственную эффективность нелинейным способом субдискретизации является слой типа max-pooling, использующийся для обучения больших сверточных сетей [38, 42]. В этом случае формула отображения карт признаков выглядит следующим образом:

Выходные слои. В зависимости от типа решаемой задачи, может потребоваться интерпретировать выходы сети как вероятности распознаваемых классов. Тогда для нейронов выходного слоя используется функция активации софтмакс (softmax), являющаяся обобщением логистической функции:

Выходной МОВ-слой играет роль линейного классификатора в нейросетевой модели, причем количество классов может быть произвольным и зависит от конкретных решаемых задач. Несмотря на то, что МОВ в изначальной формулировке относится к методам бинарной классификации, существуют подходы, позволяющие использовать ее для решения задач множественной классификации. На практике зачастую применяют способ разбиения исходной многоклассовой задачи на бинарные задачи по схеме «один против всех» [45]. Для проблемы классификации J классов независимо друг от друга обучаются J линейных МОВ, при этом выход j-ой МОВ рассчитывается по формуле: vkfn = wTx (2-59)

Алгоритм обратного распространения ошибки для СНС Обозначим энергию ошибки сети как Е = Е(Х, W) - функция от параметров (весов) сети и входного сигнала X. По правилам алгоритма обратного распространения ошибки необходимо скорректировать вес w J і-го слоя нейронной сети пропорционально величине 5E/5w;j [44].

Для скрытого нейронного слоя вывод градиента немного сложнее, поскольку мы не знаем явного выражения для ошибки на выходе нейронов. Согласно формуле (2.63) для скрытого слоя представим локальный градиент в следующем виде: Для сверточного слоя изменение отдельного веса wjj, имеющего координаты (их, Uy) на сетке сверточного ядра и передающего сигнал из i-ой карты в j-ю карту, вычисляется как сумма изменений весов по всем позициям карты признаков, определяемых на каждой позиции по формуле (2.67):

Для сверточного и субдискретизирующего слоев правило расчета локальных градиентов определяется типом следующего за ними слоя [41]. Пусть k-1 - индекс текущего слоя, тогда справедливы следующие соотношения:

Ограничимся рассмотрением двух последних слоев персептрона и выведем формулы вычисления весов для скрытого и выходного слоев, в случае, когда выходной слой обучается по методу опорных векторов для линейно разделимой выборки. Остальные слои нейронной сети будут обучаться по методу стохастического градиентного спуска. Для многоклассовой машины опорных векторов поиск оптимального набора параметров W осуществляется путем минимизации многомерного функционала L = {Lj}, представленного нелинейными функциями от параметров модели и векторов данных [45].

В формулах (2.78) и (2.79) n - индекс вектора данных; tJn є {1-1}, функция принимает положительное значение, когда номер класса А,п, к которому относится n-ый вектор данных, совпадает с индексом выходного нейрона j, в противном случае принимает отрицательное значение; w;j - матрица весов МОВ-слоя, по столбцам которой содержатся параметры для каждого j-го класса (выходного нейрона); параметр С обеспечивает компромисс между сложностью МОВ и количеством неразделимых точек, j(n)- вспомогательные переменные,

Метод идентификации по списку на основе ВЛДА

Обилие видов признаков изображений, алгоритмов и различных наборов параметров обучения позволяет конструировать множество различных систем распознавания лиц. Мотивация к построению и последующему объединению (фузированию, fusion) различающихся по поведению систем - улучшение качества распознавания за счет того факта, что системы могут ошибаться на разных образцах, а значит - и взаимно дополнять друг друга.

В главе 2 были рассмотрены правила построения композиций для «слабых» классификаторов. Далее будем полагать, что имеем дело с «сильными» решателями, для которых вероятность правильного ответа Р » 0.5. Объединять различные системы возможно следующими способами [107, 108]:

1. Слияние признаков изображений (feature-level fusion). Как правило, объединение на ранней стадии является более эффективными, чем на более позднем этапе: набор признаков содержит больше информации о биометрических данных, чем оценка сходства или решение системы. Однако этот способ является и самым трудоемким: при объединении многомерных векторов усложняется задача редукции совмещенного пространства признаков и классификации шаблонов. Кроме этого, при добавлении нового типа признаков приходится переобучать всю систему.

2. Промежуточный уровень между слиянием на уровне признаков и объединением оценок сходства занимает совмещение биометрических моделей, построенных различными системами (model-level fusion). Подразумевается, что все объединяемые системы имеют общий классификатор, который также приходится переобучать при добавлении новой системы.

3. Объединение на уровне оценок сходства (score-level fusion). Результатом сравнения тестового образца с эталоном из базы является оценка сходства двух построенных моделей лиц. Оценка сходства, как правило, является скалярной непрерывной и ограниченной величиной (в модели ВЛДА это – вероятность). Объединение оценок сходства уже не требует переобучения систем, однако, для эффективного использования оценок двух и более методов необходимо иметь представление о множестве принимаемых ими значений, распределениях, степени коррелируемости и т. п.

4. Фузирование на уровне решений (decision-level fusion) считается наиболее жестким из-за того, что объем информации в этом случае сильно ограничен. С другой стороны, для объединения систем на таком уровне не требуется сложный анализ результатов, зачастую достаточно располагать общими заявленными характеристиками.

5. Для методов, возвращающих в качестве ответа набор идентификаторов, упорядоченных по степени схожести соответствующих шаблонов с образцом, выделяют фузирование на уровне рангов (rank-level fusion).

Основные методы слияния Выбор метода фузирования для систем распознавания лиц зависит от степени проникновения в структуру модулей, количества систем, коррелированности решений, качественных характеристик, сценариев использования. В настоящей работе ограничимся рассмотрением фузирования систем идентификации лиц по списку на основе ВЛДА на уровне признаков (как одного из самых эффективных методов) и оценок сходства (как одного из самых простых методов). Для слияния на уровне признаков применяют следующие методы:

Простая конкатенация векторов признаков. Данный метод не учитывает возможные корреляции отдельных признаков при объединении данных. Элементы корреляционного анализа: МГК, метод канонического корреляционного анализа, метод совместной инерции, регрессионный анализ.

В четвертой главе на экспериментальных данных сравниваются подходы фузирования признаков лиц методом конкатенации и канонического корреляционного анализа с построением линейной комбинации оценок сходства. Канонический корреляционный анализ Канонический корреляционный анализ (ККА, ССА) был предложен Гарольдом Хотеллингом. ККА позволяет найти линейные комбинации между элементами из двух наборов случайных величин, которые имеют максимальную корреляцию друг с другом. Метод ККА лежит в основе модели уравнения, связывающего два набора переменных с наложенными ограничениями, которая известна как модель максимальной корреляции. матрицы ковариации исходных данных; х,у диагональные матрицы собственных значений; Wx,Wy - матрицы проекции (матрицы собственных векторов); порядки всех матриц равны N [46]. Сложность вычислений в (3.56) будет определяться размерностью N, а возможность решения задач на собственные значения зависит от параметров N и К и условия (3.55).

В работе [46] предлагается проецировать вектора признаков как несмещенные случайные величины. Пусть г] = Ах(х — х), ф = Ау(у - у) — элементы канонического пространства признаков, хеХ, уеУ. ССА использует совместно варьируемые данные от двух выборок X и Y для поиска канонических корреляционных матриц: Ах и Ау. Поиск корреляционных матриц осуществляется по следующему алгоритму:

С вычислительной точки зрения большинство нелинейных обучающих алгоритмов сводятся к оптимизации стоимости выпуклой функции или к вычислению обобщенных собственных векторов больших матриц. Процесс конструирования ядра основан на различных подходах. Для дискретных данных (например, последовательностей) часто используются методы, подобные динамическому программированию, методу ветвей и границ, дискретной непрерывной оптимизации и т.д.

На рисунке 3.11 описана основная идея ядерного анализа: большая часть конфигураций данных во вложенном пространстве (относительные позиции) содержится во всех попарно взятых скалярных произведениях, поэтому мы можем работать в этом пространстве, используя скалярное произведение между его элементами, а не их координаты. В большинстве случаев скалярное произведение — вычислительно простая задача.

Методы автоматической идентификации личности по изображениям лиц, полученным в неконтролируемых условиях Тимошенко Денис Максимович

Критерии эффективности систем

Система «FaceVACS-DBScan» компании «Cognitec Systems»

Слои сверточной нейронной сети

Метод идентификации по списку на основе ВЛДА

Похожие диссертации на Методы автоматической идентификации личности по изображениям лиц, полученным в неконтролируемых условиях