Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Нейросетевая система распознавания изображений с использованием локально-эквивариантной репрезентации Хуршудов Артем Александрович

Нейросетевая система распознавания изображений с использованием локально-эквивариантной репрезентации
<
Нейросетевая система распознавания изображений с использованием локально-эквивариантной репрезентации Нейросетевая система распознавания изображений с использованием локально-эквивариантной репрезентации Нейросетевая система распознавания изображений с использованием локально-эквивариантной репрезентации Нейросетевая система распознавания изображений с использованием локально-эквивариантной репрезентации Нейросетевая система распознавания изображений с использованием локально-эквивариантной репрезентации Нейросетевая система распознавания изображений с использованием локально-эквивариантной репрезентации Нейросетевая система распознавания изображений с использованием локально-эквивариантной репрезентации Нейросетевая система распознавания изображений с использованием локально-эквивариантной репрезентации Нейросетевая система распознавания изображений с использованием локально-эквивариантной репрезентации Нейросетевая система распознавания изображений с использованием локально-эквивариантной репрезентации Нейросетевая система распознавания изображений с использованием локально-эквивариантной репрезентации Нейросетевая система распознавания изображений с использованием локально-эквивариантной репрезентации Нейросетевая система распознавания изображений с использованием локально-эквивариантной репрезентации Нейросетевая система распознавания изображений с использованием локально-эквивариантной репрезентации Нейросетевая система распознавания изображений с использованием локально-эквивариантной репрезентации
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Хуршудов Артем Александрович. Нейросетевая система распознавания изображений с использованием локально-эквивариантной репрезентации: диссертация ... кандидата Технических наук: 05.13.01 / Хуршудов Артем Александрович;[Место защиты: Кубанский государственный технологический университет].- Краснодар, 2016

Содержание к диссертации

Введение

ГЛАВА 1. Аналитический обзор современных методов распознавания изображений 9

1.1 Обучение с учителем. Искусственные нейронные сети. Метод опорных векторов 9

1.2 Компактные целостные представления. Снижение размерности. Метод главных компонент 15

1.3 Обнаружение локальных признаков. Сверточные нейронные сети... 23

1.4 Использование пространственных отношений при распознавании. Констелляционные модели 30

1.5 Методы оценки эффективности распознавания 36

1.6 Выводы по первой главе 39

ГЛАВА 2. Модель репрезентации изображения объекта 41

2.1 Понятие эквивариантного детектора как элементарной единицы модели 41

2.2 Высокоуровневые детекторы и взаимодействие между уровнями модели 49

2.3 Выводы по второй главе 57

ГЛАВА 3. Метод обучения системы распознавания изображений в потоке данных 59

3.1 Использования потока визуальных данных для обучения 59

3.2 Алгоритм выделения локальных признаков 62

3.3 Алгоритм оптического трекинга 68

3.4 Параллельное обучение нескольких иерархий признаков 77

3.5 Выводы по третьей главе 81

ГЛАВА 4. Алгоритм распознавания изображений

4.1 Распознавание изображения путем последовательной активации детекторов 82

4.2 Использование решающей обратной связи при распознавании 86

4.3 Выводы по четвертой главе 92

ГЛАВА 5. Результаты исследования и экспериментальные данные 93

5.1 Планирование эксперимента 93

5.2 Оценка эффективности отдельного эквивариантного дететкора 95

5.3 Оценка эффективности распознавания изображений 103

5.5 Локализация объектов в композитных сценах 108

5.5 Выводы по четвертой главе 109

Заключение

Список литературы 112

Список рисунков

Введение к работе

Актуальность темы.

Распознавание изображений представляет собой один из важнейших компонентов систем управления и обработки информации, автоматизированных систем и систем принятия решений. Задачи, связанные с классификацией и идентификацией предметов, явлений и сигналов, характеризующихся конечным набором некоторых свойств и признаков, возникают в таких сферах как робототехника, информационный поиск, мониторинг и анализ визуальных данных, исследования искусственного интеллекта. В настоящий момент в производстве широко используются системы распознавания рукописного текста, автомобильных номеров, отпечатков пальцев или человеческих лиц, находящие применение в интерфейсах программных продуктов, системах безопасности и идентификации личности, а также в других прикладных целях.

Актуальным проблемным вопросом, признанным научным сообществом, остается распознавание изображений трехмерных объектов под различными углами зрения, подвергнутых преобразованиям вращения, масштабирования и трансляции. Современные подходы к решению этого вопроса, такие как многослойные сверточные нейронные сети, а также использование инвариантных детекторов признаков SIFT и ORB, в настоящий момент предлагают частичные решения, не обеспечивающие достаточной точности распознавания и теряющие информацию о структуре объекта.

В диссертационной работе подробно рассматриваются существующие подходы к распознаванию трансформированных объектов и предлагается система распознавания изображений, разработанная для решения этого вопроса.

Объектом исследования диссертационной работы является система распознавания изображений трехмерных объектов под произвольными углами обзора.

Предметом исследования является математические методы, модели и алгоритмы системы распознавания трехмерных объектов по изображениям.

Целью исследования является разработка системы распознавания изображений трёхмерных объектов под произвольными углами обзора.

Задачи исследования:

  1. Формулировка характерных признаков объектов распознавания с учетом их пространственных трансформаций.

  2. Разработка математической модели репрезентации объектов, обеспечивающей устойчивость к распознаванию с различных углов обзора.

  3. Разработка метода обучения системы распознавания, использующего представленную модель репрезентации объектов.

  4. Разработка алгоритма классификации изображений объектов для системы распознавания.

  5. Разработка программного обеспечения, реализующего алгоритм классификации изображений.

  6. Оценка эффективности обучения и распознавания разработанной системы по сравнению с известными системами.

Методы исследования.

Для решения поставленных задач использовались методы компьютерного зрения, теории оптимизации, математической статистики, теории искусственных нейронных сетей, вероятностных моделей, теории планирования эксперимента.

Научная новизна диссертационной работы состоит в следующем:

1. Разработаны теоретические положения нейросетевой системы распознавания изображений, использующей иерархическую модель

локально-эквивариантной репрезентации объектов, изображенных под произвольными углами обзора.

  1. Разработан метод обучения системы распознавания изображений в потоке визуальных данных без учителя, формирующий иерархию локальных признаков объекта путем оценки областей визуальной заметности и оптического трекинга.

  2. Разработан алгоритм распознавания изображений объектов под произвольными углами обзора на основе иерархической модели представления объектов.

Практическая значимость разработанной системы заключается в способности распознавать изображения под произвольными углами обзора. Применение для таких изображений разработанной в данной работе системы распознавания позволяет добиться повышения точности распознавания на 3-5% по сравнению с известными методами.

Положения, выносимые на защиту:

1. Математическая модель репрезентации изображения объектов под произвольными углами обзора, представляющая собой иерархию локальных эквивариантных признаков.

  1. Метод обучения системы распознавания изображений на базе оценки визуальной заметности и оптического трекинга признаков в потоке данных.

  2. Алгоритм распознавания изображений под произвольными углами обзора, основанный на использовании иерархической структуры локальных эквивариантных признаков.

Апробация работы.

Основные результаты работы докладывались на следующих конференциях: III международная научно-практическая конференция «Новейшие исследования в современной науке: опыт, традиции, инновации» 2015 г., VIII международная научно-практическая конференция: «Современные концепции научных исследований» 2014 г., XI международная

научно-практическая конференция «Научное обозрение

физикоматематических и технических наук в XXI веке».

Получено свидетельство о государственной регистрации программы для ЭВМ № 2015619108.

Результаты диссертационного исследования были использованы ООО «Эйртрибьюн» (г. Москва), что подтверждается соответствующим актом.

Публикации. По теме диссертации опубликовано 8 печатных работ, в том числе 5 статей в журналах, рекомендованных ВАК при Министерстве образования и науки Российской Федерации, получено 1 свидетельство о государственной регистрации программы для ЭВМ.

Структура и объем диссертации. Диссертация состоит из введения, пяти глав, заключения и двух приложений. Полный объем диссертации составляет 127 страниц с 49 рисунками и 7 таблицами. Список литературы содержит 114 наименований.

Компактные целостные представления. Снижение размерности. Метод главных компонент

Многослойные перцептроны демонстрируют успешные результаты при использовании их для распознавания изображений некоторых отдельных ограниченных категорий, таких как символы естественного языка, рукописные цифры и почерк [23]. В настоящее время в большинстве приложений, использующих прямое обучение с учителем для распознавания изображений, нейронные сети вытеснены методом опорных векторов, предлагающим более эффективное с точки зрения объема вычислительных ресурсов решение [36].

Метод опорных векторов рассматривает каждый экземпляр данных (изображение) как точку в -мерном пространстве, где п соответствует размерности данных или общему числу пикселей изображения [22]. Каждая из точек принадлежит к некоторому классу (категории). При этом задача распознавания представляется в виде задачи по нахождению такой гиперплоскости в w-мерном пространстве, которая бы отделяла все точки, соответствующие изображениям данного класса, от остальных, не принадлежащих ему. Предполагая, что таких гиперплоскостей может существовать много, метод опорных векторов ставит целью отыскание плоскости, расстояние до которой от ближайшей точки максимально в пределах множества возможных вариантов — т.н. оптимальную разделяющую гиперплоскость и соответствующий ей оптимальный классификатор.

Входные данные, таким образом, имеют вид [22]: {(Хо,УоМХі,Уі),---,(Хт,Ут)} 0-2) где X; — і-тое изображение, a yt — i-тый класс, представленный целым числом. Значения xt, представляющие собой -мерный вектор, нормализуются в пределах интервала {ОД}. Разделяющая плоскость задается параметром w — перпендикуляром (нормальным вектором) от точки к плоскости, и описывается уравнением wx — b = 0. Таким образом, задача сводится к минимизации w. По теореме Куна - Таккера [38] гиперплоскость может быть представлена в качестве линейной комбинации векторов обучающей выборки: w = J%=1aiyixi (1.3) где at — некоторые множители Лагранжа. Нахождение значения w таким образом позволяет получить линейные гиперплоскости, поэтому такой метод относится к разделу т.н. линейных опорных векторов. Классифицирующая функция при этом равна F(x) = sign((w,x) + Ь), где Ъ — вспомогательный параметр смещения [7]. На практике случаи, где данные в задаче распознавания могут быть разделены линейно, достаточно редки. В таких случаях применяется метод использования ядер, предложенный Б. Босером, И. Гийон и В. Вапником, и заключающийся в том, что элементы обучающейся выборки вкладываются в пространство х более высокой размерности с помощью специального отображения (р: Rn -» х [38]. При этом отображение (р выбирается так, чтобы в пространстве х выборка была разделима линейно. Ядром классификатора называется выражение х(х, х ) = ( р(х), р(х )), задающее отображение выборки в новое пространство, и его роль, как правило, может выполнять любая положительно определенная симметричная функция двух переменных. На практике встречаются следующие ядра: полиномиальное, радиальная базисная функция, гауссова базисная функция, сигмоида [38].

Обучения модели, использующей метод опорных векторов производится методами квадратичного программирования, такими как последовательная минимальная оптимизация.

Метод опорных векторов имеет некоторые преимущества и недостатки по отношению к использованию многослойных перцептронов: 1. Многослойный перцептрон представляет собой модель с множеством скрытых параметров, зависящих от числа нейронов сети. Параметризованная модель потенциально способна к инкапсуляции более сложных, высокоуровневых функций, но при этом требует больше времени и вычислительных ресурсов для обучения и настройки параметров. Метод опорных векторов использует векторы, отобранные из обучающей выборки, при этом количество параметров ограничено сверху размером выборки, а на практике может быть прорежено за счет использования инженерии признаков [7].

2. В отличие от обучения нейронной сети, которое осуществляется с помощью метода градиентного спуска (и его вариаций) и оценки ошибки сети, обучение модели опорных векторов включает в себя не только оценку ошибки, но и метрику сложности полученной гиперплоскости. Поиск оптимального значения нейронной сети уязвим к наличию локального минимума, способного остановить процесс градиентного спуска, при этом метод опорных векторов при корректном выборе метапараметров гарантирует нахождение глобального решения [23].

3. Обученная нейронная сеть требует минимальных вычислительных ресурсов для работы в режиме распознавания (предсказания категорий). Метод опорных векторов в некоторых случаях, когда число векторов велико по сравнению с размером выборки, строит предсказания существенно медленнее [7].

4. По сравнению с нелинейным (использующим ядра) методом опорных векторов, нейронная сеть демонстрирует расширенные способности к онлайн-обучению, когда размер выборки не фиксирован и пополняется за счет поступления новых данных.

В большинстве современных приложений алгоритмов распознавания и машинного обучения в настоящий момент отдано предпочтение методу опорных векторов [8, 84] за счет сокращения времени обучения и устойчивости к локальному минимуму. Метод опорных векторов также широко используется для распознавания таких изображений, таких как человеческие лица, демонстрируя высокую точность распознавания (80-85% успешно распознанных изображений) [103] для выравненной выборки. Особенность задачи распознавания изображений заключается в том, что данные, представляющие собой визуальные сигналы, демонстрируют крайне низкую информационную емкость — т.е., большая часть точек растрового изображения (например, соответствующие участкам однотонного или равномерно распределенного фона) не содержит информации, влияющей на распознавание [92]. При этом размерность изображений, использующихся в системах обработки информации, как правило, достаточно велика — современные средства мультимедиа, графические дисплеи и сенсоры обеспечивают массовое распространение изображений (фотографий, кадров видео, компьютерной графики) высокого разрешения, размерность которых измеряется миллионами точек. Для классических методов распознавания образов характерна прямая зависимость между размерностью (числом параметров) данных обучающей выборки и временем обучения, а также показателями сходимости при оптимизации модели. Наличие большого числа параметров, основная часть которых не содержит существенной для распознавания информации, негативно влияет на производительность модели, и помимо требования значительно более высоких вычислительных ресурсов ведет к появлению т.н. проблемы переобучения [6], когда функция распознавания, аппроксимированная моделью, удовлетворительно классифицирует обучающую выборку, но является при этом не генерализованой и демонстрирует низкую точность в тестовой выборке. Для решения этой проблемы используется подход поиска компактного представления изображения — выделения ограниченного числа генерализованных признаков, содержащих основную информацию, необходимую для распознавания.

Высокоуровневые детекторы и взаимодействие между уровнями модели

В рамках диссертационного исследования была разработана иерархическая модель репрезентации изображения, позволяющая представлять изображенные объекты с учетом их пространственных характеристик. В данной главе сформулированы принципы построения модели репрезентации изоьражения, а также аналитическая формулировка модели и ее компонентов.

Цифровое растровое изображение представляют собой матрицу чисел, где каждое значение матрицы соответствует некоторому характеристическому параметру наименьшего логического элемента изображения (пикселю). В качестве параметра могут выступать значение интенсивности (яркости) пикселя для черно-белых изображений, числовое значение цвета для некоторой цветовой модели и др. Данное представление цифрового растрового изображения удобно для использования в информационных системах и системах мультимедиа, а также для хранения данных, однако не содержит психофизиологических характеристик, которые могли бы использоваться для распознавания. Таким образом, для построения системы распознавания изображений, отвечающей поставленной цели, необходима альтернативная репрезентация объекта в виде некоторого количества параметров или признаков, являющихся характеристическими по отношению к классу распознавания. Прежде чем формулировать требования к модели репрезентации, рассмотрим некоторые ситуации, которые могут возникнуть при получении изображения объекта:

1. Объект может присутствовать на изображении не полностью, испытывать на себе влияние различного рода визуальных шумов, перекрытия, или размытия.

2. Вместе с искомым объектом на изображении могут присутствовать детали окружающей обстановки, фона, либо другие объекты. 3. В силу применения к объекту пространственных трансформаций, таких как вращения, масштабирования или трансляции, форма объекта на изображении, представляющая собой проекцию трехмерного объекта на двумерную поверхность сенсора камеры, может меняться соответвенно правилам проективной геометрии.

С учетом этих наблюдений, а также принимая во внимание проведенный аналитический анализ литературы по распознаванию изображений, сформулируем основные принципы построения модели репрезентации изображения, соблюдение которых будет способствовать достижению поставленной цели:

1. Модель должна представлять собой структуру данных, элементы которой соответствуют локальным признакам изображения и их комбинациям. Основанием для этого служит возможность частичного присутствия объекта либо нескольких объектов на изображении - ситуация, в которой невозможно использовать подход компактных целостных представлений.

2. Элементы такой структуры данных должны быть организованы иерархически, т.е. таким образом, что элементы первого уровня модели представляют собой признаки, извлеченные непосредственно из локальных подмножеств растровой матрицы, а элементы последующих уровней - результаты комбинаций элементов предыдущего уровня. Основанием служит многократно отмеченное исследователями [13] свойство представлять и описывать наблюдаемые объекты в виде композиции их фрагментов или частей. Эта особенность проектируемой модели отличает ее от констелляционной модели, не использующей иерархическую группировку.

3. С учетом необходимости распознавать объект с различных углов зрения, модель репрезентации объекта должна включать в свою стурктуру элементы (признаки), полученные путем наблюдения за объектом в процессе трансформаций в реальном времени в достаточном объеме для того, чтобы оценить трехмерную форму объекта. Таким образом, система распознавания, использующая разрабатываемую модель, должна обучаться в потоке визуальных данных, представляющем собой фрагменты видеосъемки объекта в движении. Данное требование является одним из наиболее заметных характерных отличий разрабатываемой модели от альтернатив, рассмотренных ранее, и накладывает дополнительные условия на процесс обучения системы распознавания.

4. Локальные признаки изображения и их комбинации должны выражаться с использованием принципа эквивариантности. Данный принцип, применяемый в статистическом анализе данных [89], противопоставляется более распространенному понятию инвариантности. Различие состоит в том, что при инвариантном преобразовании данных соответственно некоторой функции значение функции остается неизменным, в то время как при эквивариантном преобразовании оно изменяется некоторым образом, соответствующим характеру преобразования. Так, пусть даны функции ft (х) = у и fe (х) = у, реализующие соответственно инвариантное и эквивариантное преобразование. Тогда [22]:

Соблюдение принципа эквивариантности особенно важно при построении иерархии локальных признаков, так как элементы более высоких уровней иерархии получают необходимую информацию о параметризации пространственного преобразования на предыдущем уровне, в случае же инвариантных признаков соответствующая информация теряется. Различия между результатами эквивариантного и инвариантного преобразования приведены на рисунке 2.1.

Параллельное обучение нескольких иерархий признаков

Полученное множество фрагментов высокой заметности будет представлять собой «слабый» результат алгоритма, включающий в себя множество фрагментов, характеризующихся высокой заметностью по сравнению с окружающим фоном, но не являющихся структурно уникальными в пределах изображения. Для нахождения структурно уникальных участков изображения используется вторая часть алгоритма, заключающаяся в нахождении экстремумов масштабируемого представления.

Поиск экстремумов масштабируемого представления производится с помощью известного метода оценки разности гауссиан изображения и вычисления определителя гессиана. Для нахождения участков структурной заметности (представляющих собой локальную концентрацию высокодетализированных элементов изображения) используем вычисление разности гауссиан [10]. Представим изображение / в виде функции от двух переменных f(x, у). Рассмотрим масштабируемое представление изображения L(x,y, t) — результат свертки f(x,y) функцией Гаусса

Применение оператора Лапласа к данному масштабируемому представлению позволяет получить детектор, принимающий положительные значения в областях ярких участков неоднородности радиуса 2t. Для определения участков различного радиуса используется мультимасштабный подход и разные значения t. Искомый показатель, таким образом, представляет собой оператор Лапласа от L(x,y, t), нормализованный по масштабу [10]: Vnorm - \X,y,t) = (Лхх "т" Lyy) (3.JJ Поскольку полученное масштабируемое представление удовлетворяет уравнению диффузии dtL = -VL, становится возможной аппроксимация нормализованного лаплассиана с помощью разности двух представлений, сглаженных гауссовыми функциями с параметрами t — At и t + At: VnormKx.y.t) « (L(x,y,t + At)-L(x,y,t-At)) (3.6) Полученная аппроксимация называется представляет собой разность гауссиан функции f(x,у). Используем эту разность для поиска участков высокой детализации на изображении. Для этого применим к изображению фильтр Канни [11], использующийся для выделения границ, конвертируем полученное изображение в бинарное, где f(x,y) = 0 в случае отрицательного значения детектора Канни, и 1 в противном случае. Тогда участки изображения, соответствующие высокой концентрации границ Канни, будут обрабатываться методом разности гауссиан как области заметности. Таким образом разность гауссиан можно использовать для нахождения морфологических деталей изображенного объекта, не отличающихся окраской (интенсивностью) и не дающих заметных эффектов освещения, но характеризующихся обособленной концентрацией детализированных элементов текстуры.

Для обнаружения точек неоднородной интенсивности используем известный метод вычисления оператора гессиана. Для точки изображения с координатами (х,у) и выбранного масштаба t определитель гессиана задается следующим образом [66]: detHL(x,y, t) = t2(LxxLyy - 4у) (3.7) где HL представляет собой матрицу Гессе от масштабируемого представления L. Точки максимума для такого определителя представляют собой координаты и масштабный размер участков неоднородности, позволяя определителю выступать в качестве дифференциального детектора [65]:

Координаты полученных участков неоднородности (х,у) и их радиус t, полученные с помощью определителя Гессе, ковариантны по отношению к трансляции, вращению и масштабированию изображения. Для участков изображения, полученных таким образом, кроме того, характерно несколько большая устойчивость к аффинным преобразованиям по сравнению с разностью гауссиан. Кроме того, метод определителя Гессе позволяет обнаружить как яркие, так и темные участки неоднородности в изображении, и имеет значительно более низкую вычислительную сложность, что делает его подходящим кандидатом для предложенного комбинированного метода.

Объединение показателей для алгоритма выделения локальных признаков производится путем нахождения пересекающих областей изображения, обнаруженных обоими методами. Использование двух показателей позволяет отыскивать области изображения, характеризующиеся свойствами заметности (максимальной локальной энтропией) и уникальности, как по структурному содержанию, так и по сравнительной интенсивности. Блок-схема алгоритма выделения локальных признаков приведена на рисунке 3.2:

Оценка эффективности распознавания изображений

Полученные веса демонстрируют тенденцию к формированию разреженного кода. Среди весов практически не встречаются дубликатов, при этом характерно наличие нескольких (3-5) «смешанных нейронов», визуально соответствующих комбинации (наложению) различных признаков. За счет соответствующих нейронов детектор способен реконструировать (с использованием функции реконструкции, представленной в разделе 5.2) результаты воздействия трансформаций, отсутствующих в его обучающей выборке. Так, если выборка содержит два результата поворота объекта на угол (р± и (р2 соответственно, то обученный детектор способен предсказать промежуточный результат трансформации срг (р (р2.

Помимо идентификации участков изображения, вторичной функцией эквивариантного детектора является оценка параметров инстанцирования или оценка позиции объекта. Для экспериментальной проверки точности этой оценки использовались смешанные данные выборки HPID и сгенерированной выборки изображений лиц FaceGen с последующей пост-обработкой визуальными эффектами размытия и случайной оккллюзии. Для сопоставления результатов использовались такие методы как классический алгоритм POSIT [8], и обучающийся с учителем регрессор — случайный лес [64]. Поскольку предсказание трансформации является представляет собой регрессию, а не классификацию, в качестве показателя эффективности выбрана относительная погрешность, выраженная в процентах. Результаты представлены в таблице 5.3.

В результате эксперимента обнаружено, что эквивариантный детектор производит более точную оценку пространственных параметров объекта по сравнению с альтернативными методами. Существенное превосходство над классическими методами компьютерного зрения объясняется тем, что алгоритм POSIT требует для оценки позиции наличия маркеров, которые могут быть спроецированы на объект с помощью методов эпиполярной геометрии. Так, оценка позиции человеческого лица, как правило, производится только для ограниченного пространства трансформаций, в условиях, когда глаза и рот находятся в поле зрения камеры. Для изображений, незначительно отклоняющихся от фронтальных, эффективность эквивариантного детектора сравнима с альтернативными методами.

Было проведено исследование эффективности простой двухуровневой модели на трех категориях изображений человеческих лиц: обычные изображения 104 лиц, изображения с искусственным зашумлением при помощи окклюзии и размытия. Эффективность распознаваия рассчитывалась при помощи показателей точности и полноты и сравнивалась с аналогичными показателями альтернативных методов распознавания.

Поскольку в качестве одного из основных преимуществ рассматриваемой модели позиционируется эквивариантность — способность к идентификации объектов на изображении в различных ориентациях — то экспериментальные выборки сгруппированы следующим образом: рассматривается некоторая исходная позиция объекта с координатами вращения (углов Эйлера) (0,0,0), при этом в группу, характеризующуюся значениями ( pmjn, Ч тах)- входят изображения объектов, подвергшихся трансформации вращения ((Pi,(Pj,(Pk), такой, что для любого р Є ( pit pj, рк) верно неравенство (pmin р (ртах.

Поскольку для этого эксперимента требуется значительное количество изображений объектов с различных углов обзора, для его проведения была использована выборка, полученная с использованием компьютерной графики и генерации лиц программой FaceGen.

Тестирование распознавания лиц проводилось путем сопоставления методом Виолы-Джонса [100], классификатора SVM в сочетании с вычислением гистограммы ориентированных градиентов [38] и сверточной сети, обученной на выборке ImageNet. Обученные модели были предоставлены библиотеками Caffe [32] и OpenCV [8].

Метод Виолы-Джонса подразумевает наличие отдельной стадии обучения для каждой ориентации. В рамках эксперимента использовалась предобученная модель, продемонстрировавшая сопоставимые результаты для фронтальной и профильной ориентации лиц, но крайне низкие результаты в промежуточных состояниях. При использовании SVM в сочетании с методами снижения размерности и повышения инвариантности (гистограмма ориентированных градиентов) для классификатора характерно снижение точности по мере включения в выборку изображений различных ориентации. Такое поведение связано с тем, что модель в процессе обучения пытается выработать признаки, одинаково подходящие для всех изображений в выборке, в результате получая равномерно распределенные невысокие значения точности. Среди сопоставимых методов авторская модель уступает только глубокой сверточной сети, способной к обучению различных (не смешивающихся) локальных признаков для различных ориентации объекта.

Некоторые примеры результатов распознавания лиц приведены в приложении А. Следует отметить, что в отличие от метода Виолы-Джонса, разработанная система распознавания позволяет выделить комплексную структуру головы человека, не ограничиваясь участком, содержащим глаза и рот. Такой эффект является следствием использования признаков деталей контура лица.

Сравнение результатов распознавания изображений лиц, подвергнутых воздействию шума размытия производилось с помощью методов SVM+HOG, глубокой сверточной сети и алгоритма случайного леса [59]. Выборка производилась на базе CVLAB Dataset и включала в себя объекты, представленные с различных углов. Шум размытия представляет собой размытие по Гауссу со значением о = 0.5...2.5.

В качестве завершающей группы экспериментальной выборки использовались изображения человеческих лиц под воздействием шума окклюзии (частичного перекрытия). Шум окклюзии сгенерирован при помощи случайного размещения на изображениях лиц непрозрачных геометрических фигур. При генерации шума окклюзии параметры размещения фигур подобраны таким образом, чтобы оставлять открытой минимум две трети площади изображения.