Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Инвариантный анализ двумерных сигналов Фам Чунг Зунг

Инвариантный анализ двумерных сигналов
<
Инвариантный анализ двумерных сигналов Инвариантный анализ двумерных сигналов Инвариантный анализ двумерных сигналов Инвариантный анализ двумерных сигналов Инвариантный анализ двумерных сигналов Инвариантный анализ двумерных сигналов Инвариантный анализ двумерных сигналов Инвариантный анализ двумерных сигналов Инвариантный анализ двумерных сигналов Инвариантный анализ двумерных сигналов Инвариантный анализ двумерных сигналов Инвариантный анализ двумерных сигналов
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Фам Чунг Зунг. Инвариантный анализ двумерных сигналов : Дис. ... канд. техн. наук : 05.12.04 : Москва, 2004 102 c. РГБ ОД, 61:04-5/2154

Содержание к диссертации

Введение

Глава 1. Распознавание прямых изображений 15

1.1. Предварительная обработка изображений 16

1.2. Подготовка данных для экспериментов 18

1.3. Классификаторы 20

1.4. Результаты экспериментов 24

Выводы по главе 1 27

Глава 2. Распознавание изображений с использованием моментов зернике и псевдо-зернике 29

2.1. Предварительная обработка изображений 29

2.2. Моменты Зернике 30

2.3. Моменты псевдо-Зернике 34

2.4. Постановка и результаты экспериментов 35

2.5. Влияние дискретизации угла поворота изображений и числа нейронов в скрытом слое на эффективность распознавания 38

Выводы по главе 2 42

Глава 3. Распознавание изображений комбинированной нейронной сетью 44

3.1. Структура системы распознавания; предварительная обработка 44

3.2. Комбинированная нейронная сеть 47

3.3. Постановка и результаты экспериментов 51

3.4. Сравнение с распознаваниями «прямых» изображений, моментов Зернике и псевдо-Зернике 59

Выводы по главе 3 61

Глава 4. Новый метод инвариантного распознавания двумерных изображений с использованием комбинированной нейронной сети 63

4.1. Метод нейросетевого формирования инвариантных к повороту признаков для распознавания изображений 63

4.1.2. Формирование вектора «кругового» изображения 64

4.1.2. Построение инвариантной нейронной сети 67

4.2. Постановка и экспериментальные результаты 69

Выводы по главе 4 77

Глава 5. Сравнительный анализ эффективности классификации с использованием обучающегося векторного квантователя 78

5.1. Обучающийся векторный квантователь 79

5.2. Постановка и экспериментальные результаты 81

5.3. Области применения систем нейросетевого распознавания изображений 85

Выводы по главе 5 89

Заключение 90

Список сокрещений 93

Список литературы 94

Введение к работе

Актуальность темы

Рассматриваемый в диссертационной работе двумерный
сигнал - совокупность значений функции двух дискретных
пространственных переменных (координат) на ограниченной
прямоугольной области. Под анализом двумерных сигналов
понимается отнесение наблюдаемого двумерного сигнала к
одному из заранее описанных теми или иными средствами
классов сигналов. Следует отметить, что термины «двумерный
сигнал» и «анализ» в значительной степени адекватны терминам
«изображение» и «распознавание», которые и будут
использоваться в дальнейшем. Вопросы исследования задач
распознавания изображений объектов и построения

эффективных автоматических систем распознавания продолжают
оставаться, безусловно, актуальными. Распознавание

изображений является важным направлением в обработке
изображений. Системы распознавания изображений

используются в разнообразных областях, например, таких как робототехника, локация (оптическая, радио-, акустическая, подповерхностная), обработка документов, автоматизация производства. Процесс распознавания изображений обычно можно разделить на четыре основных этапа. Первый - это получение изображения и его преобразование в массив чисел, с которым сможет работать компьютер. Второй — предварительная обработка, включающая удаление шума, повышение качества изображения и, если необходимо, сегментирование изображения на значащие области для их отдельного анализа. Третий —

5 выделение признаков, в результате которого изображение представляется набором числовых признаков для устранения избыточности данных и уменьшения их размерности. Признаки должны удовлетворять следующим требованиям: признаки в одном классе должны иметь близкие числовые значения, а признаки разных классов должны иметь достаточно различающиеся числовые значения. Четвертым этапом является классификация. На этом этапе название класса связывается с неизвестным изображением с помощью изучения его выделенных признаков и сравнения их с представлениями класса, которым классификатор научился на стадии обучения. Первый этап выполняется различными устройствами приема изображения. Задачи остальных этапов обычно решают на вычисленных устройствах. Сюда же относится и нейронные сети, которые могут использоваться для решения задач каждого отдельного этапа или всех этапов.

Обзор применения нейронных сетей в системах
распознавания изображений представлен в [1, 2]. Большинство
задач распознавания изображений требует высокой

производительности, которую невозможно реализовать без
нейрокомпьютеров. В нейрокомпьютерах, являющихся

вычислительными системами параллельного действия,

используются искусственные нейронные сети, т.е. совокупности большого числа определенным образом связанных между собой нейронных элементов. Важнейшая особенность нейронной сети, свидетельствующая о её широких возможностях и огромном потенциале, состоит в параллельной обработке информации всеми звеньями. При громадном количестве межнейронных связей это позволяет значительно ускорить процесс обработки

информации. Другое не менее важное свойство - способность к обучению и обобщению накопленных знаний. Натренированная на ограниченном множестве данных сеть способна обобщать полученную информацию и показывать хорошие результаты на данных, не использовавшихся в процессе обучения. Характерная особенность сети состоит также в возможности ее реализации с применением технологии сверхбольшой степени интеграции. Кроме того, при большом числе межнейронных соединений сеть приобретает устойчивость к неисправностям, возникающим на некоторых звеньях. Функции поврежденных связей берут на себя исправные звенья, в результате чего деятельность сети не претерпевает существенных возмущений. Теоретические основы нейронных сетей изложены в [3 - 11].

В области распознавания изображений важное место занимает проблема обеспечения инвариантности распознавания по отношению к .сдвигу, масштабу и повороту изображений. Иначе говоря, система должна распознавать объект независимо от его ориентации, размера и местоположения в поле обзора. Это обширное направление привлекает к себе интерес многих исследователей. Опубликовано большое количество работ по созданию систем * инвариантного распознавания изображений. Существует три основных подхода к построению систем инвариантного, в том числе нейросетевого, распознавания [12]. Первый из них связан с использованием большого набора обучающих образов, который достаточно полно отображает распознаваемые изображения во всех возможных ситуациях. Второй связан с предварительным преобразованием изображений и формированием инвариантных признаков, используемых затем при классификации изображений. И третий

7 подход связан с созданием нейросетевой системы распознавания, в которой инвариантность признаков обеспечивается особой структурой нейронной сети.

Исследования в [12, 13] показали, что при первом подходе для обеспечения инвариантного распознавания число обучающих образов должно быть большим. Число обучающих образов увеличивается с увеличением желаемых инвариантных параметров. При распознавании изображений, одновременно инвариантного к трем преобразованиям (сдвигу, масштабу и повороту), число обучающих образов будет слишком большим. При этом структура нейросетевого классификатора становится сложной, причём во многих случаях формирование таких обучающих образов невозможно. Тем не менее, этот подход — простой и наглядный и подходит для ряда практических задач. На практике этот подход может найти применение вместе с другими подходами, например, с использованием заранее предварительной обработки для обеспечения инвариантности к сдвигу и масштабу изображений; при этом в обучающей выборке потребуются только образы, которые достаточно полно отображают распознаваемые изображения при всех возможных углах поворота. Поэтому число обучающих образов значительно снижается. Следовательно, при создании системы распознавания изображений этот метод является одним из альтернативных подходов и его нужно исследовать.

При втором подходе инвариантные признаки создаются с
помощью математических , преобразований. Некоторые

преобразования, например, преобразование Фурье применялось [14] для обеспечения инвариантности к сдвигу и повороту. Линейное интерполирование и преобразование Хотеллинга

8
использованы для обеспечения инвариантности к сдвигу и
масштабу в [15]. Ортогональное преобразование для получения
признаков распознавания, инвариантных к аффинному
преобразованию, рассмотрено в [16]. Метод моментов
использовался в [17 - 28]. Заметим, что метод моментов для
формирования инвариантных признаков распознавания
используется наиболее часто. Теоретические основы метода
моментов подробно изложены в работах [17, 18, 26 - 28].
Исследования в [17] также показали что, моменты Зернике и
псевдо-Зернике более эффективны по сравнению с другими
моментами в плане чувствительности к зашумлению
изображения, объему полезной информации и способности
воспроизведения изображения. В [19, 20] показано, что
воспроизведение и классификация английских символов
посредством моментов Зернике дают лучшие результаты, чем с
помощью геометрических моментов. Заметим, однако, что при
этом исследовании шум с разными уровнями добавлялся к
нормализированным изображениям, инвариантным к сдвигу и
изменению масштаба, а не к исходным изображениям. Поэтому
полученные результаты не вполне выявляют влияние шума на
весь процесс распознавания. В работе [21] создан
автоматический классификатор геометрических моментных
признаков с использованием параметрических и

непараметрических алгоритмов классификации. Качество распознавания невысокое, время обработки большое, при этом влияние мешающих факторов (шум, дискретизация угла поворота изображений...) на качество классификации не учитывалось. Далее, в [22] предложен классификатор моментов Зернике на основе самоорганизующейся нейронной сети

9 Кохонена; точность классификации оказалась невысокой. В [23] геометрические моменты использовались для интерпретации изображений корабля. Однако ошибка интерпретации большая. В [24] комплексные моменты использованы для нормализации и классификации изображений. Однако нейронная сеть не применялась в этой работе, и количественные результаты не представлены. В [25] набор нормализованных инерционных моментов и топологических характеристик объектов использовался как признак, инвариантный к повороту, сдвигу и масштабу изображений. Классификация выполнялась на основе модификации правила ближайшего соседа. Применение этого подхода относительно сложное: требуется большой объём вычислений.

Создание нейросетевой системы распознавания, в которой инвариантность признаков обеспечивается особой структурой нейронной сети, является новым направлением исследования в области распознавания изображений. Нейронные сети высших порядков, позволяющие реализовать инвариантность к группам преобразований, исследованы в [18, 29, 30]. На практике применение этого подхода ограничено из-за большой размерности сети; исследование [18] также показало, что нейронные сети высших порядков значительно уступают методу моментов. В [7, 10, 31] представлена модель нейронной сети -неокогнитрона, обеспечивающей инвариантности к сдвигу и малой деформации изображений. Основный недостаток этой модели заключается в том, что число элементов сети увеличивается с увеличением числа распознаваемых объектов. Это вызывает увеличение времени обучения сети.

10
В настоящее время интерес привлекает распознавание с
использованием комбинации двух нейронных сетей -
инвариантной сети, формирующей инвариантные признаки, и
классификатора; подобная система названа в [18]
комбинированной нейронной сетью. Этот подход появился
сравнительно недавно и ряд его проблем ещё не изучен, но он
считается наиболее перспективным [18]. Некоторые

первоначальные исследования комбинированной нейронной сети проведены в [32]. Эта комбинированная нейронная сеть была создана на основе нейронов Adaline. Она обеспечивает инвариантность к сдвигу и повороту на каждые 90 входного образа. Главным недостатком предложенной системы является сложность создания весов нейронов инвариантной сети, особенно при обеспечении инвариантности к повороту и масштабу. В [33> 34] представлена система распознавания круглых объектов (монет), инвариантная к повороту на любой угол. При этом для обеспечения инвариантности к повороту на этапе предварительной обработки нужно выделить изображение круглого объекта из исходного квадратного изображения, определить центр объекта и затем наложить на него круговую решетку, радиус которой равен радиусу объекта. Классификатор выполнялся многослойной нейросетью, созданной на основе модели a-CONE (analog coupled neuron). Главный недостаток этого метода - низкая способность правильного отображения мелких деталей изображения. Поэтому эффективность распознавания изображений снижается. Тем не менее, это интересный метод, который также представлен в [18]. В [35] спроектирована система распознавания путём модификации системы, созданной в [32]. Вместо нейросетевого

классификатора, обученного с учителем, использовался самоорганизующийся классификатор на основе нейронной сети АРТ1. Тогда система распознавания становится более «пластичной». Она может распознавать новые образы, которые не использовались при обучении. Однако, как и в [32], формирование весов нейронов инвариантной сети является сложным, причём инвариантность к повороту обеспечивается только при повороте изображения на угол в 90. В [36] при распознавании изображений объектов, имеющих форму эллипсов, использовалась инвариантная нейронная сеть. Однако результаты исследований представлены весьма кратко, так что оценить эффективность разработанной системы затруднительно.

Из проведенного анализа следует, что создание систем нейросетевого распознавания изображений, инвариантных к повороту, сдвигу и масштабу, остаётся важной и актуальной задачей. С учетом вышеизложенного можно сформулировать основные цели и задачи диссертационной работы.

Цель и задачи работы

Целью диссертационной работы являются разработка, анализ показателей качества и повышение эффективности систем инвариантного нейросетевого распознавания двумерных изображений, функционирующих на основе различных принципов. Для достижения этой цели в работе решаются следующие задачи:

1. проводится анализ эффективности процедуры

нейросетевого распознавания «прямых» изображений без формирования специальных признаков, обеспечивающих инвариантность к повороту изображений;

2. разрабатывается и анализируется эффективность процедуры неиросетевого распознавания с использованием моментов Зернике и псевдо-Зернике;

3.разрабатывается и анализируется система распознавания изображений комбинированной нейронной сетью;

  1. исследуется влияние уровня шума, количества обучающих образов, структуры и параметров нейронных сетей на качество систем распознавания;

  2. разрабатывается метод повышения эффективности распознавания изображений комбинированной нейронной сетью;

  3. проводится анализ эффективности самообучающейся нейросетевой процедуры распознавания изображений обучающегося векторного квантователя.

Методы исследования В диссертационной работе' использовались методы теории искусственных нейронных сетей, теории распознавания образов и моделирования на ЭВМ.

Научная новизна работы

  1. Разработана методика построения и анализа эффективности различных систем неиросетевого распознавания, инвариантного к сдвигу, масштабу и повороту двумерных изображений.

  2. Исследовано влияние шума, количества обучающих образов, структуры и параметров нейронных сетей на эффективность систем инвариантного распознавания.

  3. Разработан новый метод неиросетевого формирования инвариантных к повороту признаков, значительно повышающий эффективность распознавания двумерных изображений.

Практическая значимость результатов работы

  1. Разработан эффективный метод построения систем нейросетевого распознавания комбинированной нейронной сетью.

  2. На основе сравнительного анализа характеристик систем распознавания, построенных различными методами, даны рекомендации по применению каждой системы.

Апробация результатов работы

Результаты диссертации докладывались на 6-ой Международной конференции «Распознавание образов и анализ изображений: новые информационные технологии» (21 - 26 октября 2002, Великий Новгород, Россия); 5-ой Международной конференции «Цифровая обработка сигналов и ее применение» (12 - 14 марта, 2003, Москва, Россия); Международной конференции «Авиация и космонавтика — 2003» (3-9 ноября 2003, Москва, Россия); 11-ой Всероссийской конференции «Математические методы распознавания образов» (23 - 29 ноября 2003, Пущино Московской области, Россия) и 6-ой Международной конференции «Цифровая обработка сигналов и ее применение» (Зімарта - 2 апреля 2004, Москва, Россия).

Публикации

Основные результаты диссертации опубликованы в 9 работах: 3 статьи в академических журналах «Радиотехника и Электроника» и «Pattern Recognition and Image Analysis», 1 статья в журнале «Нейрокомпьютеры: разработка и применение» и 5 работ в трудах Всероссийских и Международных конференций.

Основные положения, выносимые на защиту 1. Нейросетевое распознавание «прямых» изображений не требует предварительного выделения инвариантных признаков и

14 поэтому время распознавания очень мало, однако необходимый интервал дискретизации угла поворота эталонных изображений малый (<15) и поэтому число обучающих образов и время

«

обучения велики, а структура нейросетевого классификатора сложная.

  1. Распознавание, при котором моменты Зернике и псевдо-Зернике используются как инвариантные признаки распознавания, требует малого числа обучающих образов (~ 2-4 эталонных изображения каждого объекта), поэтому время обучения сети существенно уменьшаются (в 10-20 раз в зависимости от метода обучения), структура сети значительно упрощается, однако требуются значительные затраты времени на вычисление моментов.

  2. Распознавание изображений комбинированной нейронной сетью обеспечивает малое время обучения и распознавания, относительно небольшое число обучающих образов (~ 5 эталонных изображений каждого объекта), однако структура системы распознавания сложная, а способность работы в условиях шума невысокая.

  3. Разработанный новый метод нейросетевого формирования инвариантных к повороту признаков значительно повышает эффективность системы распознавания комбинированной нейронной сетью.

Объём и структура работы

Диссертационная работа состоит из введения, пяти глав, заключения и списка литературы. Работа содержит 102 страниц. Список литературы содержит 67 наименований.

Подготовка данных для экспериментов

Прямым будем называть изображение, прошедшее предварительную обработку, включая масштабирование и сдвиг (рис. 1.2), но без выделения признаков, обеспечивающих инвариантность к повороту изображения. Перед подачей на классификатор каждое изображение размером 65x65 преобразовывалось в вектор из 4225 элементов.

Для проведения экспериментальных исследований системы распознавания в режиме обучения и в рабочем (тестирующем) режиме были созданы два множества изображений: обучающее множество изображений, которое будем называть обучающей выборкой, и тестирующее множество (выборка). Угол поворота рассматриваемых изображений изменялся в диапазоне 0 ... 180. Обучающая выборка (Во) первоначально состояла изэталонных незашумленных изображений пяти самолётов. Каждый из них занимал дискретные угловые положения в указанном диапазоне, причём значение дискрета составляло 5. Тестирующая выборка состояла из 185 изображений без шума и 570 изображений с разными отношениями сигнал-шум. При этом каждый из распознаваемых объектов мог занимать любое угловое положение в том же диапазоне (т.е. 0 ... 180), а не только заданные . дискретные (как в обучающей выборке). Местоположение и размер самолёта в наблюдаемом изображении (в тестирующей выборке) выбирались произвольно.

Для формирования изображений с разными отношениями сигнал-шум случайно выбирались пиксели исходного изображения 1(х,у), затем изменялись их числовые значения на максимальные, если эти значения оказывались больше порога, и наоборот - на минимальные. Случайный выбор пикселов осуществлялся по закону равномерного распределения между 1 и 4225.

Классификация изображений выполнялась многослойной нейронной сетью с последовательными связями (иначе говоря, многослойным персептроном - МСП). Число слоев нейронной сети характеризует, каким образом входное пространство может быть разбито на .подпространства меньшей размерности. Для рассматриваемой задачи применение трехслойной нейронной сети с одним скрытым слоем, разбивающей входное пространство образов на классы при помощи гиперповерхности [4, 11], является наиболее рациональным. Число нейронов входного слоя равно числу элементов вектора изображения, т.е. 4225, а число нейронов выходного (третьего) слоя равно количеству распознаваемых классов самолётов, т.е. 5. Каждый выходной нейрон ассоциирован с одним из этих классов. Наблюдаемое изображение относится к тому классу, который соответствует нейрону третьего слоя с наибольшим значением выходного сигнала. Число нейронов скрытого (второго) слоя выбирается экспериментально. При этом выбрано 50 нейронов в скрытом слое. Влияние числа нейронов скрытого слоя на качество классификации рассмотрено далее в следующей главе. Активационной функцией для нейронов скрытого и выходного слои является сигмоидная: /(s) = l/(l + exp(-.s)). На рис. 1.4 показана структурная схема трёхслойной нейронной сети.

Для преодоления недостатков используем некоторые варианты алгоритма ОРО. Эти алгоритмы относятся к двум основным группам [4, 8]: эвристические модификации алгоритма обратного распространения; алгоритмы, полученные с использованием численных оптимизационных методов. Каждая группа также включает различные алгоритмы. Эвристические модификации алгоритма ОРО - алгоритмы, в которых используют адаптивный шаг обучения, или определяются веса и смещения с учётом импульсного коэффициента (momentum coefficient) [4, 8, 42]. Адаптивным шагом обучения называется такой шаг, который целенаправленно выбирается на каждом этапе алгоритма таким образом, чтобы минимизировать среднеквадратическую ошибку сети. Введение импульсного коэффициента позволяет выходить из небольших локальных минимумов. Алгоритмы, созданные числовыми оптимизационными методами (комплексно-сопряженным и квази-Нютона), довольно разнообразны. Здесь применяем алгоритмы, полученные комплексно-сопряженным методом.

Для выявления эффективности нейросетевого подхода проведем также классификацию вышеуказанных изображений с помощью часто используемых непараметрических правил, а именно ближайшего соседа (БС) и минимума среднего расстояния (МСР). Соответствующие алгоритмы описаны, например, в [19, 20, 26, 45]. В нашем случае выборка образов с известной классификацией — обучающая выборка, состоящая из векторов эталонных изображений т-ого размера (т = 4225).

Моменты Зернике

Она отличается от структурной схемы на рис. 1.2 только дополнительным блоком БВМ (блок вычисления моментов Зернике или псевдо-Зернике). Это соотношение показывает, что моменты Зернике обладают простыми свойствами преобразования поворотов: при повороте изображения каждый момент Зернике просто подвергается сдвигу по фазе, следовательно, абсолютные значения моментов Зернике для функции повернутого изображения остаются идентичными значениям до поворота. В связи с этим значение момента Зернике \Апт\ может рассматриваться как признак функции изображения, инвариантный к повороту. Заметим, что поскольку А„.т = А „т, то KJ = K,-/ поэтому можно сосредоточиться на вычислениях \Апт\ при т 0. В таблице 2.1 приведен список инвариантных к повороту моментов Зернике порядка от 0 до 12 и соответствующее каждому порядку число моментов. Таблица 2.1. Моменты Зернике.

В качестве данных эксперимента использовались обучающие и тестирующие выборки, приготовленные в разд. 1.2. При использовании моментов Зернике и псевдо-Зернике надо выбирать максимальный порядок. В работе [17] показано, что чем больше порядок моментов, тем выше точность воспроизведения изображения, но тем меньше способность стабильной работы под действием шума. Выбор максимального порядка должен быть компромиссом двух вышеуказанных свойств. Для выбора максимального порядка целесообразно проводить моделирование с малой эталонной выборкой. Существуют два метода выбора максимального порядка. Во-первых, можно постепенно увеличивать порядок момента до того значения, при котором получаем требуемую точность классификации изображений с определенным уровнем шума. Во-вторых, можно проводить восстановление изображения из моментов. Если различие между исходным и восстановленным изображениями меньше определенного уровня, то выбранный порядок считаем рациональным. Здесь мы используем первый метод и проводим моделирование для пяти изображений самолётов. После моделирования выбран максимальный порядок моментов Зернике, равный 12. По таблице 2.1 получаем 47 значений моментов Зернике для одного изображения. Тогда нейронная сеть будет иметь 47 входов, 5 скрытых нейронов и 5 выходов. Число моментов псевдо-Зернике выбрано равным числу моментов Зернике. Тогда нам надо вычислить моменты псевдо-Зернике до девятого порядка по формулам (2.2, 2.3, 2.13). Структура классификатора моментов псевдо-Зернике и классификатора моментов Зернике одна и та же. Для вычисления моментов Зернике и псевдо-Зернике использовались изображения, полученные после предварительной обработки. Для сравнения проведена также классификация с помощью традиционных непараметрических алгоритмов. Результаты экспериментов приведены в таблице 2.2, показатели распознавания по моментам Зернике показаны в светлых областях, а по моментам псевдо-Зернике - в темных. По полученным данным можно сделать следующие выводы.

По сравнению с распознаванием прямых изображений при распознавании по моментам Зернике и псевдо-Зернике время обучения нейросетевого классификатора меньше. Это объясняется тем, что в данном случае структура сети проще и поэтому количество вычислений на каждом шаге меньше. Однако время нейросетевого распознавания (включает в себя время предварительной обработки, время вычисления моментов и время классификации) увеличилось. Но в случае классификации с помощью традиционных методов (БС и МСР) время распознавания меньше. Проценты правильного распознавания с использованием моментов Зернике и особенно псевдо-Зернике приблизительно равны процентам правильного распознавания прямых изображений. Кроме того, структура нейросетевого классификатора значительно упростилась (47-5-5 по сравнению с 4225-50-5 при классификации прямых изображений).

Комбинированная нейронная сеть

С выхода БФВКИ (рис. 3.1) вектор «кругового» изображения и поступает на комбинированную нейронную сеть (КНС). Она состоит из инвариантной нейронной сети (ИНС), обеспечивающей инвариантность к повороту изображения, и нейросетевого классификатора (НСК), на выходе которого получаем результат распознавания — решение об отнесении наблюдаемого изображения к тому или иному классу. Инвариантная к повороту нейронная сеть. Эта сеть включает в себя набор нейронных «пластин» (НП) (см. рис. 3.3). Нейронные пластины работают независимо друг от друга. Структура пластин одинакова и показана на рис. 3.4; w1,1, w2 1 , w - векторы весов нейронов первой пластины; / сигмоидная функция активации нейрона. Количество нейронов каждой пластины выбирается равным к +1, где к - число клеток одного кольца круговой решетки. Нейронная пластина преобразует вектор изображения в выходной сигнал, который инвариантен к повороту. Этот сигнал поступает на НСК.

Инвариантность выходного сигнала сети к повороту изображения обеспечивается специальным выбором весов нейронов каждой пластины. Вектор весов первого нейрона первой пластины обозначен через w1 1. Его размер совпадает с размером вектора «кругового» изображения (/), а значения элементов выбираются случайным образом, например, с помощью датчика равномерно распределённых на отрезке [0, 1] чисел.

Итак, при повороте изображения на угол инвариантности р элементы вектора «кругового» изображения перемещаются циклически на одно место в том же кольце. Благодаря указанному выше выбору векторов w1,1 / = 1, 2,..., к, выходные сигналы нейронов z{,z2,...,zk также циклически перемещаются относительно друг друга, однако их сумма не меняется. Следовательно, выходной сигнал пластины не изменяется при повороте изображения на угол инвариантности (/ . Инвариантность к повороту на меньшие углы достигается при увеличении числа секторов круговой решетки и соответственно числа нейронов в пластине.

Поскольку значения вектора w1 1 выбираются случайным образом, на практике выходные сигналы пластины иногда будут слишком близкими при предъявлении различных входных образов. При этом ошибка классификации будет большой. Вероятность такой ситуации можно снизить, если использовать не одну а несколько пластин со случайными векторами весов первых нейронов. Различимость формируемых признаков в этом случае увеличивается и точность классификации возрастает. Целесообразное количество пластин определяется экспериментом. Элементы векторов весов первых нейронов на следующих пластинах w1 2, w1 3, w1,4 ... выбираются случайным образом. Векторы весов всех остальных нейронов на этих пластинах создаются тем же способом, что и для нейронов первой пластины. .

Нейросетевое обеспечение инвариантности к сдвигу и масштабу. Распознавание изображений, инвариантное к сдвигу, также может выполняться комбинированной нейронной сетью в соответствии с методом [18, 32], однако эта процедура довольно сложная. Ещё более сложной и практически не реализованной процедурой является нейросетевое обеспечение инвариантности к масштабу. Вместе с тем, результаты наших исследований [37, 46 - 48] показали, что процедура обеспечения инвариантности к сдвигу и масштабу по формулам (1.1) - (1.3) - относительно простая и эффективная. Поэтому нейронная сеть, как инструмент формирования инвариантных признаков, в данной работе используется только для обеспечения инвариантности к повороту изображения, а инвариантность к масштабу и сдвигу реализуется методом моментов в блоке БМС (см. рис. 3.1).

Нейросетевой классификатор. Выходные сигналы ИНС (см. рис. 3.1) поступают на НСК, который реализуется многослойной нейронной сетью с последовательными связями (иначе говоря, многослойным персептроном - МСП). Для рассматриваемой задачи применение трехслойной нейронной сети с одним скрытым слоем является наиболее рациональным. Число нейронов входного слоя НСК равно числу выходных сигналов ИНС, т.е. числу пластин. Число нейронов выходного (третьего) слоя равно числу, распознаваемых объектов, т.е. пяти. Число нейронов скрытого (второго) слоя выбрано в ходе эксперимента, исходя из требуемой среднеквадратической ошибки. Обучение НСК выполнялось с помощью алгоритма Флетчера-Ривса [8], поскольку, как показали исследования [37, 46 - 48], он уменьшает время обучения примерно в 12 раз по сравнению со стандартным алгоритмом обратного распространения ошибки.

В качестве исходных данных также использовались изображения пяти различных самолётов (Bl, F117A, VF22A, MIG29, RAFAL), показанных на рис. 1.1. Для проведения экспериментальных исследований системы распознавания в режиме обучения и в рабочем (тестирующем) режиме были созданы обучающие В\,...,В5 и тестирующие множества Т\, Тг изображений (выборки).

Первая обучающая выборка (В\) состояла из 5 изображений: по одному изображению каждого из пяти распознаваемых самолетов в начальном угловом положении (при (р = 0). Вторая (В2) содержала 25 изображений: по 5 изображений каждого самолета с изменением угла поворота на 5 в диапазоне 25. Третья (і?з) — 50 изображений: по 10 изображений каждого самолета с поворотом на 5 в диапазоне 50. Четвертая (2?4) - 75 изображений: по 1.5 изображений каждого самолета с поворотом на 5 в диапазоне 75. Пятая (Bs) — 100 изображений: по 20 изображений каждого самолета с поворотом на 5 в диапазоне 100. При этом все обучающие выборки В\,..., В5 содержали чистые (не зашумленные) изображения самолётов. Первая тестирующая выборка (Т\) состояла из 185 чистых изображений пяти самолётов: по 37 изображений каждого самолёта. Вторая (Гг) содержала 1110 зашумленных изображений: по 37 изображений каждого самолета для каждого из шести отношений сигнал-шум. При этом каждый из распознаваемых самолётов мог занимать любое угловое положение в диапазоне (0 ... 180) градусов, а не только заданные дискретные (как в обучающих выборках). Местоположение и размер самолётов во всех рассматриваемых изображениях (в обучающих и тестирующих выборках) выбирались произвольно.

Для формирования изображений с разными отношениями сигнал-шум случайно выбирались пиксели исходного изображения 1(х,у), затем изменялись их числовые значения на максимальные, если эти значения оказывались больше определенного порога и наоборот на минимальные (см. разд. 1.2). В результате были созданы изображения с отношениями сигнал-шум 50, 40, 30, 20, 10, 5. Изображения одного самолёта при таких отношениях сигнал-шум q показаны на рис. 1.3. Четыре ИНС (ИНС1,..., ИНС4) созданы для обеспечения инвариантности распознавания к повороту изображений на углы: 30, 20, 10, 5. Из (3.1) следует, что круговая решетка должна разделяться на 12, 18, 36, 72 секторов, при этом число нейронов в каждой из пластин построенных ИНС соответственно равно: 13 в ИНС1, ..., 73 в ИНС4. Создание четырёх ИНС позволяет исследовать влияние числа нейронов пластины (числа клеток одного кольца круговой решетки) на качество распознавания. Влияние количества обучающих образов. Цель этого эксперимента - исследование эффективности системы распознавания при её обучении различными выборками, содержащими разное число обучающих образов, т.е. изображений самолётов при разных угловых положениях. В принципе благодаря инвариантности к сдвигу, масштабу и повороту, можно было бы обучать систему только с одним изображением каждого самолёта. Однако из-за дискретизации изображения при масштабировании и повороте его форма деформируется. Поэтому число обучающих изображений каждого самолёта должно увеличиваться.

Формирование вектора «кругового» изображения

«Круговое» изображение получается наложением специальной круговой решетки на квадратное дискретизированное изображение и суммированием пикселов, оказавшихся в клетках этой решетки. Центр решетки должен совпадать с центром изображения, а её радиус R равен расстоянию от центра до наиболее удалённой части изображения. Значения пикселов, находящихся вне исходного изображения, полагаются равными нулю. а) индексация клеток в начальном положении изображения; б) индексация клеток при повороте изображения на угол р . Круговая решетка показана на рис. 4.1. Она образована следующим образом. Вначале круг радиусом R разбивается кольцами и секторами на клетки (жирные линии на рис. 4.1). Затем каждая из этих клеток дополнительно разбивается (тонкие линии на рис. 4.1) на более мелкие клетки, число которых kj зависит от номера кольца у = 1, ..., р. Число первоначальных клеток одного кольца совпадает с числом секторов к0=360/ср , (4.1) где (р - заданное значение угла инвариантности. Это значение определяем как угол поворота изображения, для которого ИНС должна формировать инвариантные признаки. Как будет ясно из дальнейшего, при повороте изображения на угол, равный углу инвариантности р , выходной сигнал каждой «пластины» ИНС не изменяется. Таким образом, число клеток у-го кольца, полученных в результате дополнительного разбиения, равно k0kj. Клетки одного кольца имеют одинаковый размер. Общее число клеток в рассматриваемой решетке: / = о Г (4.2) Поскольку kj 1, число клеток этой круговой решетки больше, чем при создании решётки методом в главе 3, при этом способность отображения мелких деталей увеличивается.

Напомним, что при повороте изображения на угол ср элементы вектора «кругового» изображения и перемещаются циклически на kj мест в каждой у -ой (/ = 1 ... р) подгруппе. Благодаря указанному выбору векторов весов нейронов значения zx,z2,-..,zk (см. рис. 4.2) также циклически перемещаются, но их сумма не изменяется. Таким образом, выходной сигнал (4.7) нейронной пластины не меняется при повороте изображения на угол инвариантности р . Инвариантность к повороту на меньшие углы достигается при увеличении числа секторов круговой решетки и соответственно числа нейронов в пластине.

Поскольку значения вектора w(1 !) выбираются случайным образом, на практике для повышения различимости формируемых признаков (выходов ИНС) нужно использовать не одну а несколько нейронных пластин. Элементы векторов весов первых нейронов на следующих пластинах w(I,2), w(1 3), w(1,4)... также выбираются случайным образом. Векторы весов остальных нейронов на этих пластинах создаются тем же способом, что и для нейронов первой пластины. Целесообразное количество пластин находится экспериментально.

Постановка и экспериментальные результаты Структурная схема системы распознавания аналогична схеме рис. 3.1 и также состоит из подсистемы предварительной обработки и комбинированной нейронной сети. Функции соответствующих блоков в двух схемах одинаковы за исключением того, что здесь БФВКИ и ИНС строятся методом, который рассмотрен в разд. 4.1.

Использование функционально одинаковых блоков обеспечивает корректное сравнение качества систем распознавания, созданных в соответствии с излагаемым методом и известным [49]. Как и в предыдущих главах, в качестве исходных данных использовались изображения пяти различных самолётов (Bl, " F117A, VF22A, MIG29, RAFAL). Для экспериментальных исследований системы распознавания в режиме обучения и в рабочем (тестирующем) режиме были созданы обучающие В\, ..., В5 и тестирующие множества Т\, Ті изображений (выборки).

Первая обучающая выборка (В\) состояла из 5 изображений: по одному изображению каждого из пяти распознаваемых самолетов в начальном угловом положении (при р = 0). Вторая (Bj) содержала 25 изображений: по 5 изображений каждого самолета с изменением угла поворота на 5 в диапазоне 25. Третья (2?з) - 50 изображений: по 10 изображений каждого самолета с поворотом на 5 в диапазоне 50. Четвертая (.64) - 75 изображений: по 15 изображений каждого самолета с поворотом на 5 в диапазоне 75. Пятая (В5) - 100 изображений: по 20 изображений каждого самолета с поворотом на 5 в диапазоне 100. При этом все обучающие выборки В\, ..., В5 содержали чистые (не зашумленные) изображения самолётов. Первая тестирующая выборка (Т\) состояла из 185 чистых изображений пяти самолётов: по 37 изображений каждого самолёта. Вторая (Г2) содержала 1110 зашумленных изображений: по 37 изображений каждого самолета для каждого из 6 отношений сигнал-шум q = 5, 10, 20, 30, 40, 50. Зашумленные изображения формировались тем же способом, что и в работах [37,- 49]. В тестирующих выборках каждый из распознаваемых самолётов мог занимать любое угловое положение в диапазоне (0 ... 180), а не только заданные дискретные (как в обучающих выборках). Местоположение и размер самолётов во всех рассматриваемых изображениях (в обучающих и тестирующих выборках) выбирались произвольно. Как видно из рис. 4.4 - 4.6, кривые 1 и 2 сближаются при малых значениях параметров п, s, q и расходятся при их возрастании. Это означает, что с ростом числа обучающих образов, числа пластин ИНС и отношения сигнал-шум преимущество нового метода по сравнению с прежним увеличивается. Например, из рис. 4.4 следует, что при использовании 8 обучающих образов ВПР системой, построенной в соответствии с новым методом, возросла на 6% и составила 91%. Заметим, что такого же значения ВПР можно достигнуть и при построении системы методом главы 3, но при увеличении числа обучающих изображений на 10 или же числа пластин на 8 (т.е. на 104 нейронов в рассматриваемом примере). Таким образом, нейросетевая система распознавания, в которой ИНС построена новым методом, существенно эффективнее прежней нейронной системы [49], если значения параметров (число обучающих образов, число пластин ИНС, отношение сигнал-шум) превышают некоторые пороговые значения. Как следует из рис. 4.4 - 4.6, эти условия выполняются при достаточно больших значениях ВПР. Итак, преимущество нового метода построения ИНС наиболее заметно проявляется при тех значениях ВПР, которые в большей степени интересуют практику.

Похожие диссертации на Инвариантный анализ двумерных сигналов