Многоканальная нейросетевая модель системы компьютерного зрения для задач текстурной сегментации Цымбал Дмитрий Александрович

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Цымбал Дмитрий Александрович. Многоканальная нейросетевая модель системы компьютерного зрения для задач текстурной сегментации : Дис. ... канд. техн. наук : 05.13.18 Великий Новгород, 2005 121 с. РГБ ОД, 61:06-5/1166

Содержание к диссертации

Введение

ГЛАВА 1. Модель системы компьютерного зрения для задач текстурной сегментации 15

1.1 Общие положения 15

1.1.1 Фильтры в зрительной системе человека 15

1.1.2 Цветовая модель 16

1.1.3 Фильтры Габора 18

1.2 Анализ существующих методов настойки фильтров Габора 20

1.2.1 Фиксированный набор фильтров Габора 20

1.2.2 Альтернативные методы настройки фильтров Габора 23

1.3 Одноканальная модель 26

1.4 Многоканальная схема 29

1.5 Оценка вычислительной сложности настройки фильтров ГабораЗ 1

1.6 Выводы по главе 1 32

ГЛАВА 2. Алгоритм настройки одноканального фильтра 33

2.1 Постановка задачи 33

2.2 Модель Раиса 33

2.3 Оценивание параметров распределения Раиса 37

2.4 Пост-обработка 41

2.5 Эффективность вычислений 46

2.6 Выводы по главе 2 48

ГЛАВА 3. Многоканальный принцип построения 49

3.1 Общие положения 49

3.2 Многомерная Гауссовская статическая модель 51

3.3 Расстояние Бхаттачария и граница ошибки 57

3.4 Оценка ошибки локализации 60

3.5 Смешанное распределение 63

3.6 Многоканальные методы 66

3.7 Алгоритм многоканальной настройки 70

3.8 Выводы по главе 3 73

ГЛАВА 4. Алгоритм текстурной сегментации с помощью нейросетевого классификатора 74

4.1 Общие положения 74

4.1.1 Самоорганизующиеся карты Кохонена 74

4.1.2 Алгоритмы обучения карты Кохонена 76

4.1.3 Алгоритм Кохонена 78

4.2 Выбор параметров обучения карты Кохонена .79

4.3 Использование карты Кохонена в системе компьютерного зрения для текстурной сегментации изображений 81

4.3.1 Алгоритм обучения карты Кохонена с помощью раскрашивания методом цветовых гистограмм 83

4.3.2 Алгоритм текстурной сегментации с помощью раскрашенной карты Кохонена 86

4.4 Выводы по главе 4 88

ГЛАВА 5. Моделирование системы компьютерного зрения для задач текстурной сегментации 90

5.1 Общие положения 90

5.2 Работа одноканального фильтра 91

5.3 Работа различных классификаторов 98

5.4 Пример работы классификатора с учетом Н-плоскости 103

5.5 Пример использования разработанной системы компьютерного зрения при поиске текстуры на натуральном изображении 107

5.6 Выводы по главе 5 111

Заключение 112

Список литературы

Фильтры в зрительной системе человека
Оценивание параметров распределения Раиса
Многомерная Гауссовская статическая модель
Самоорганизующиеся карты Кохонена

Введение к работе

Компьютерное зрение - это пограничная область знаний. И как всякая пограничная область она интересна для изучения и непредсказуема; здесь часто нет авторитетов, на которых можно сослаться - многие полезные идеи не имеют под собой теоретической основы, а некоторые теории бесполезны на практике; изученные области весьма различаются, и часто кажется, что всякая связь между ними отсутствует.

Зрение же вообще снабжает нас поразительно большим объемом информации о том, что окружает, и дает возможность свободно взаимодействовать с внешним миром, причем все это без непосредственного физического контакта. Благодаря ему мы узнаем расположение объектов, идентифицируем их, соотносим их друг с другом и потому ощущаем значительное неудобство, если лишены этого чувства. Неудивительно, что с появлением электронных вычислительных машин человек пытается научить компьютер «видеть». [14]

«Компьютерное зрение» - это вид деятельности, в котором для извлечения данных применяются статистические методы и используются модели, построенные с помощью геометрии, физики и теории обучения.

Компьютерное зрение применяется довольно широко как в относительно старых областях (например, управление мобильными роботами, промышленные средства наблюдения, военные приложения), так и в сравнительно новых (взаимодействие человек/компьютер, поиск изображений в цифровых библиотеках, анализ медицинских изображений и реалистичная передача смоделированных сцен в компьютерной графике).[12]

Компьютерное зрение сейчас находится в особой точке своего развития. Эта тема стала популярной еще в 1960-х, но только недавно появилась возможность создания полезных компьютерных программ, использующих идеи компьютерного зрения, поскольку компьютеры и программы обработки изображений стали доступны большому количеству пользователей.

Несмотря на многолетние исследования и значительные достижения в этой области, проблема построения полноценной системы компьютерного зрения, способной надежно и в нужном темпе работать в реальном пространстве (пусть при некоторых адаптированных условиях), остается пока нерешенной, и на ней сконцентрированы в настоящее время усилия ряда коллективов и отдельных исследователей в разных странах.

Эта проблема чрезвычайно сложна и многопланова. Она включает в себя технические, алгоритмические, математические, физические и даже психологические аспекты, а также большое количество отдельных задач и подходов к их решению в рамках каждого их этих аспектов.

Обособленной и очень важной задачей при моделировании систем компьютерного зрения является работа с текстурами.

Текстура окружает нас повсюду. Текстура присутствует в изображениях, в реальных и искусственных сценах наблюдения. За последние несколько десятилетий было предложено очень большое количество методов для анализа текстуры. Но бесчисленное разнообразие естественных и искусственных текстур делает невозможным дать универсальное определение текстуры.

Текстура - это широко распространенное явление, которое легко распознать, но которому сложно дать определение. Как правило, относится эффект к текстуре или нет, - зависит от масштаба, при котором он рассматривается. Листок, занимающий почти все изображение - это объект, но листва дерева - это текстура. Источников текстуры множество. Во-первых, изображения, состоящие из большого количества мелких предметов, лучше всего считать текстурой. В качестве примеров можно назвать траву, листву деревьев, гравий, шерсть, щетину. Во-вторых, многие поверхности покрыты правильными узорами, которые выглядят как большое количество мелких предметов. Примеры: пятна на шкуре животных, как у гепарда или леопарда; полосы как у тигра или у зебры, узоры на коре деревьев, древесине и коже. [12].

С текстурой, как правило, связываются три основные задачи.

Сегментация текстуры - это задача, которая состоит в разбиении изображения на участки с постоянной текстурой. Сегментация текстуры включает в себя как представление текстуры, так и вычисление базиса, в котором будут определяться границы сегментов.

Синтез текстуры служит для создания больших текстурных изображений из маленьких элементов изображений. Это делается с помощью пробных изображений, по которым строятся вероятностные модели текстуры, а затем эти вероятностные модели применяются для создания изображений с текстурой.

Определение формы по текстуре состоит в восстановлении ориентации поверхности или ее формы по текстуре изображения. Это можно сделать, допустив, что текстура «выглядит одинаково» в различных точках поверхности, т.е. изменение структуры от одной точки к другой может быть ключом к поверхности.

В данной диссертационной работе концентрируется внимание на задаче текстурной сегментации, решаемой с помощью системы компьютерного зрения.

Текстурная сегментация — это процесс разделения исходного изображения на однородные равномерные области, соответствующие определенным текстурам в изображении. [11] Объединение пикселей исходного изображения в отдельные однородные регионы осуществляется на основе некоторых специфических свойств пикселей, принадлежащих одной и той же текстуре. Процесс текстурной сегментации можно разделить на несколько этапов:

• этап формирования из исходного изображения набора особенностей (характерных признаков), образующих многомерное пространство признаков изображения, каждый вектор которого характеризует особенности определенной текстуры;

• этап классификации, на котором каждая точка изображения соотносится с определенным классом, на основе оценки вектора признаков, соответствующего этой точке в пространстве признаков;

• этап сегментации исходного изображения, основанный на информации полученной после классификации.

На сегодняшний день разработано множество различных методов получения набора признаков из исходного изображения для дальнейшей классификации, основанных на различных характеристиках текстур. Все они могут быть разделены на четыре типа.

1. Статистические методы - методы, использующие корреляционные и ковариационные характеристики текстур.

2. Геометрические методы - двумерные соты Вороного и методы, использующие структурные характеристики текстуры.

3. Методы, использующие фрактальные параметры и случайные поля.

4. Методы, основанные на цифровой обработке сигналов -пространственно-частотная фильтрация и вейвлет-преобразования.

Поэтому применяется локальное энергетическое преобразование, состоящее из нелинейной операции (d), преобразующей отрицательные и положительные амплитуды в положительные (операция модуля или возведение в квадрат), и сглаживания (е).

В результате получается признаковое изображение (f), которое теперь с успехом может быть классифицировано.

В общем случае текстурный анализ строится по многоканальной схеме, чтобы уменьшить ошибку классификации, так как количество текстур в исходном изображении обычно больше двух.

Выходом нелинейного энергетического преобразования является набор признаковых изображений, по одному изображению на фильтр. Для классификации векторов, образующих пространство признаков, т. е. выделения групп или классов схожих векторов на основании выбранных особенностей, применяются различные подходы. Наибольшее распространение получили пороговые методы, методы, основанные на определении границ или областей, различные кластерные алгоритмы (например, метод А -усреднений), подходы, основанные на оценке вероятностных характеристик, и различные классификаторы на основе нейронных сетей. Применение нейронных сетей для решения задач классификации позволяет избежать сложных и громоздких расчетов при оперировании большими объемами многомерных данных. При решении задачи классификации с помощью нейронной сети необходимо выбрать подходящий тип сети и провести ее обучение с использованием набора обучающих данных. Одно из основных свойств нейронной сети заключается в ее способности к обобщению данных. Правильно и хорошо обученная сеть способна генерировать решения, сходящиеся к решениям, получаемым на основе других подходов [4, 10, 57].

Среди нейронных сетей существует целый класс самоорганизующихся нейронных сетей. Основу самоорганизации таких сетей составляет подмеченная закономерность, что глобальное упорядочение сети становится возможным в результате самоорганизующихся операций, независимо друг от друга проводящихся в различных локальных сегментах сети. В соответствии с поданными входными сигналами осуществляется активация нейронов, которые вследствие изменения значений их весов адаптируются к поступающим обучающим выборкам. В процессе обучения наблюдается тенденция к росту значений весов, из-за которой создается своеобразная положительная обратная связь: более мощные возбуждающие импульсы -более высокие значения весов - большая активность нейронов. При этом происходит естественное расслоение нейронов на различные группы.

В классе самоорганизующихся сетей выделяются сети особого типа, которые называются картами Кохонена или самоорганизующимися картами признаков [57, 58]. Карта Кохонена обладает рядом исключительных свойств, позволяющих применить ее для классификации данных. Первое свойство карты Кохонена состоит в том, что каждый вектор из многомерного входного пространства проецируется в определенную точку карты, имеющей намного меньшую размерность (обычно это одно- или двухмерные карты). Следовательно, карта Кохонена позволяет спроецировать многомерное пространство в пространство много меньшей размерности. Второе свойство заключаются в том, что вектора, схожие в исходном пространстве, находятся рядом и на карте. А значит, самоорганизующаяся карта Кохонена производит классификацию входных векторов. Карта представляет собой пространство невысокой размерности, что позволяет легко визуализировать результат. Более того, когда размещение нейронов закончено карта может быть отображена. Это свойство карты позволяет произвести не только классификацию входных данных из пространства признаков, но и в рассматриваемом случае выполнить сегментацию исходного текстурного изображения.

Цель работы

Разработка модели компьютерного зрения для задач текстурной сегментации, ее апробация и численное подтверждение ее эффективности.

Основные задачи, решаемые в диссертации:

1. Разработка методов моделирования компьютерного зрения в задачах текстурной сегментации (главы 1-3)

2. Сравнительный анализ и разработка алгоритмов автоматической настройки фильтрационных каналов (главы 2 и 3)

3. Разработка методики обучения нейросетевого классификатора (глава 4)

4. Разработка программного обеспечения для модели компьютерного зрения в задачах текстурной сегментации (глава 5)

5. Проведение вычислительного эксперимента на разработанной модели компьютерного зрения для сегментации текстурированных изображений (глава 5) Методы исследования

При проведении исследований в работе использовались основные положения теории распознавания образов, методы компьютерной графики, методы теории нейронных сетей, методы теории обработки сигналов, методы математической статистики и теории вероятности.

Научная новизна

1. Предложен новый комплексный подход к решению задачи классификации текстур изображений, требующей многоэтапной обработки информации, который упрощает процедуры обработки данных и повышает их эффективность

2. Разработана многоканальная модель компьютерного зрения для текстурной сегментации, основанная на физиологических особенностях человеческого зрения

3. Впервые предложен алгоритм обучения нейросетевого классификатора с использованием метода цветовых гистограмм

4. В результате вычислительного эксперимента показано, что разработанный алгоритм текстурной сегментации обладает большей точностью распознавания, чем описанные в литературе аналоги

Практическая значимость

Разработаны и доведены до реализации методы решения нескольких актуальных задач компьютерного зрения. Реализованные алгоритмы удовлетворяют требованиям и ограничениям, которые были сформулированы при постановке задачи.

Был разработан обучающий программный комплекс, где можно провести исследование каждого шага в работе предложенной модели. Обучающий программный комплекс внедрен в учебный процесс НовГУ для специализации «Системы искусственного интеллекта». Результаты проведенных исследований использовались в работе по гранту РФФИ № 99-01-00792.

Апробация работы и публикации

Основные положения и результаты диссертационной работы докладывались и обсуждались на Всероссийских научных конференциях «Математические методы распознавания образов (ММРО) -9», ММРО - 10, ММРО - 11 (Москва), международных конференциях «Распознавание образов и анализ изображений: новые информационные технологии» (РОАИ-5-2000) (Самара), «Распознавание - 2001» (Курск), «Математическое и программное обеспечение интеллектуальных систем» (MPZIS-2004) (Днепропетровск), научных семинарах НовГУ и опубликованы в работах [15-19,21,73].

По материалам диссертационной работы издано методическое пособие [20] для студентов старших курсов специальностей «Программное обеспечение вычислительной техники» и «Интеллектуальные системы принятия решений».

Структура диссертации

Диссертационная работа состоит из введения, пяти глав, заключения и списка литературы.

В первой главе исследуются различные подходы при моделировании систем зрения. Рассматривается вопрос использования пространственно-частотных фильтров при получении текстурных статистик. Описываются возможные проблемы при том или ином выборе. Предложена многоканальная модель компьютерного зрения для решения задач текстурной сегментации, основанная на человеческом восприятии.

Вторая глава работы посвящена вопросам моделирования одноканальной системы сегментации в случае многих (больше двух) текстур. Подробно описана работа одного фильтрующего канала (на базе фильтров Габора). Рассмотрено соотношение между энергетическим спектром текстуры и функцией распределения вероятности, что позволит предсказывать минимальную ошибку сегментации без непосредственного вычисления отфильтрованных текстур для всего множества предварительных центральных частот.

В третьей главе решается задача проектирования многоканальной системы текстурной сегментации, как расширение одноканальной системы. В качестве меры, минимизирующей ошибку сегментации, используется расстояние Бхаттачария. Предложен алгоритм настройки параметров многоканальной системы текстурной сегментации.

В четвертой главе рассмотрены подходы к проектированию нейросетевого классификатора на базе самоорганизующихся карт Кохонена, описаны предложенные методы по настройке и обучению классификатора. Предложен метод цветовых гистограмм для обучения и работы классификатора.

В пятой главе приведены результаты вычислительного эксперимента при сегментации текстурированных изображений с использованием различных классификаторов.

В заключение работы сформулированы основные научные и практические результаты работы, выделены перспективные направления дальнейших научных исследований.

Благодарности

Автор выражает огромную признательность коллегам за оказанное сотрудничество и помощь, а также своей семье за моральную поддержку.

Фильтры в зрительной системе человека

Цветовые модели используются для математического описания определенных цветовых областей спектра. По принципу действия все разнообразие цветовых моделей можно условно разбить на три класса: аддитивные (RGB), субтрактивные (CMY, CMYK), перцепционные (HSB, HLS, Lab, YCC). [11]

Цвет имеет как психофизиологическую, так и психофизическую природу. Восприятие цвета зависит от физических свойств света, т. е. электромагнитной энергии, от его взаимодействия с физическими веществами, а также от их интерпретации зрительной системой человека.

Глаз реагирует на три различных стимула, что подтверждает трехмерность природы цвета. В качестве стимулов можно рассматривать, например, наборы из доминирующей длины волны (цветового фона), чистоты (насыщенности) и яркости (светлоты), или из компонент красного, зеленого и синего цветов.

Если в машинной графике применяется в основном аддитивная система смешения основных цветов: красный, зеленый, синий (RGB), то психофизиологическое представление света определяется цветовым тоном, насыщенностью и светлотой, а для моделирования такого представления лучше всего подходит система HSB, где, соответственно: Hue - под цветовым тоном понимается свет с доминирующей длиной волны. В более общем виде Hue идентифицирует цвет объекта. Смысл Hue -положение на стандартном цветовом круге, равно углу между вектором чисто красного тона и текущим. Hue измеряется в градусах, в диапазоне [0..360]. Принято, что для красного цвета берется угол 0, для чисто зеленого - 120, и для чисто синего - 240.

Saturation — насыщенность цвета. Насыщенность равна количеству серого в пропорции по отношению к цвету. Измеряется в процентах от 0% (серый) до 100% (чистый цвет). На стандартном цветовом круге насыщенность увеличивается по направлению к краю круга, и уменьшается по направлению к центру.

Brightness - Относительная светлота или темнота цвета, или яркость цвета. Обычно выражается в процентах от 0% (черный) до 100% (белый). Яркость характеризует интенсивность, с которой энергия света воздействует на рецепторы нашего глаза. Яркость никоим образом не влияет на цветность, но от нее зависит, насколько сильно цвет будет восприниматься нашим глазом. Цветовая модель HSB в отличие от модели RGB носит абстрактный характер. Отчасти это связано с тем, что цветовой тон и насыщенность нельзя измерить непосредственно. Любая форма ввода цветовой информации всегда начинается с определения красной, зеленой и синей составляющих, на базе которых затем с помощью математического пересчета получают компоненты HSB модели. В результате эта цветовая модель имеет то же цветовое пространство, что и RGB модель, а значит, и присущий ей недостаток -ограниченное цветовое пространство.

Вместе с тем HSB модель обладает по сравнению с RGB моделью двумя важными преимуществами: - аппаратной независимостью. Задание составляющих этой модели в виде значений цветового тона, насыщенности и яркости позволяют однозначно определить цвет без необходимости учета параметров устройства ввода. - более простым и интуитивно понятным механизмом управления цветом. А в свете применения в модели компьютерного зрения у цветовой модели HSB есть еще немаловажное преимущество - возможность работать раздельно только лишь с необходимой цветовой плоскостью на заданном тракте модели зрения. Например, в каналах будет использоваться только яркостная плоскость, а при сегментации будет использоваться цветовая.

Достижение результатов в понимании принципов работы человеческой зрительной системы подтолкнуло развитие методов обработки изображений для текстурной сегментации. Пионерское психофизиологическое исследование Джулеша привело к гипотезе, что текстуры с одинаковыми статистиками второго порядка (с идентичными энергетическими спектрами) на первый взгляд являются неразличимыми [53, 54].

Нейрофизиологические исследования также оказали существенное влияние на методы текстурной сегментации. Даугман указал на подобие между контурами сигналов двумерной рецепторной области в зрительной зоне коры головного мозга млекопитающих и между импульсными откликами фильтров Габора [33]. Он также показал, что фильтры Габора обеспечивают оптимальное взаимное разрешение в пространстве и пространственно-частотной области, и поэтому они дают оптимальный компромисс между частотной избирательностью и пространственной локализацией.

Оценивание параметров распределения Раиса

Принимая во внимание результаты, полученные в предыдущем параграфе, оценим параметры распределения Раиса At и Nt в (2.4) как функцию от параметров префильтра Габора и энергетического спектра текстуры Si(u,v). Заметим, что сумма Af + N, эквивалентна суммарной энергии на выходе префильтра Габора. Таким образом, будет использоваться значение энергии на выходе префильтра Габора для определения параметров АІ и Ni. Так как необходимо найти два решения для значений двух параметров, то при вычислениях будет использоваться энергия выхода префильтра Габора, рассчитанная для двух разных масштабов огибающей. Кроме этого, для эффективного вычисления оценок во всех дискретных частотах будет использоваться БПФ [9].

Когда текстура Ь(х,у) пропускается через префильтр Габора h(x,y) с фиксированными параметрами (u,V,crg), то выходная энергия P.(u,v,ag) будет рассчитываться как: м м оо то P,(u,V, rg)= / \sXu,v)\H{u,vfdudv= \ \st{u,v)\G{u-U,v-V)fdudv —оо—оо —оо—оо

Этот результат может быть обобщен, так чтобы P.(u,v,crg) могла вычисляться одновременно для всех центральных частот префильтра Габора. Сначала рассмотрим оконную функцию w(x,y): (xjy) = g{x,y) g{x,y) = —/ ._ ve 2[ 2а 24/2(7J (2.7) где g(x,y) есть Гауссовая огибающая, a w(x,y) полностью задается параметром префильтра (7g. Из (1.2), (1.4) получим преобразование Фурье для оконной функции w(x,y): (2.8) где F{} обозначает оператор преобразования Фурье и с учетом, что G2(u,v) = G2(",v)2.

Если теперь умножить автокорреляционную функцию Ri(x,y) текстуры и(х,у) на оконную функцию w(x,y) и выполнить преобразование Фурье этого произведения, то в результате получим: p[u,V,agyF{ {x,y)Ri{x,y)}=\G{u,vf Si{u,v)=Y\Si{a,pp —оо —оо (2.9). Из теоремы Парсеваля следует, что Pt(u,v,ag) может быть интерпретирована как выходная энергия сигнала ihi(x,y) для заданной текстуры U(x,y) пропущенной через префильтр Габора с центральной частотой (u,v) и масштабом огибающей 7g. Это можно увидеть путем сравнения (2.6) и (2.9) и помня, что G{u-a,v-0) = G{a-u,p-v). Выражение (2.9) может быть эффективно рассчитано в дискретной форме с помощью БПФ, в результате чего в каждой дискретной центральной частоте (u,v) получается f.(w,v,(jg) для заданного о„.

С помощью (2.9) и (2.5) из .(w,v,(Tg) можно получить значения параметров распределения Раиса At и TV,- для всех центральных частот. Подставляя выражение для входной спектральной модели (2.5) в выражение (2.9), получим значение выходной энергии как функцию от центральной частоты префильтра: Р,(и, v,ag) - \G(u, vf S,(„, v) = -ik-.M-.) ]+-?Ч 1 b7TC7g (2.10). Первое слагаемое возникает из доминантной синусоиды в полосе пропускания представленной импульсом в (2.5). Второе слагаемое представляет собой остаточную энергию в префильтрованном изображении hi(x,y) и дает нам значение параметра N, =/7,/(1 бяо ) для распределения Раиса р,(т) в (2.4).

Если рассмотреть Pt(u,v,ag) в частоте (щу) доминантной синусоиды и с двумя различными масштабами огибающей oga и 7gp, то можно найти соответствующее решение А-, и iV,-:

Так как центральная частота префильтра отклоняется от частоты (Ui,v) доминантной синусоиды, то экспоненциальный множитель в (2.10) становится меньше 1, и в (2.11), (2.12), (2.13) возникает ошибка, в частности для /7, = 0. (Заметив, что в случае, когда Д. = 0 эта ошибка не возникает).

Проверка (2.10), (2.12) и (2.13) для //,=0 показывает, что поскольку экспоненциальный терм в (2.10) становится меньше чем 1, мощность все в большей степени характеризуется N{, когда на самом деле Nt должно быть равно 0. Результирующее влияние этой ошибки, однако, не оказывает вредного воздействия на весь алгоритм в целом. С помощью этой ошибки можно выявить наиболее подходящую частоту (Ui,v) локальной доминантной синусоиды, так как меньшее значение iV,- дает меньшее значение дисперсии в тр(х,у), что, в свою очередь, дает нам более низкую ошибку сегментации. Также, величина этой ошибки не выходит за рамки установленного ограничения

Многомерная Гауссовская статическая модель

В главе 2 рассматривалась Гауссовская модель для статического распределения выходных данных постфильтов т(х,у). С помощью гауссовской выходной функции распределения вероятностей, полностью математически описывающую одноканальную схему, можно провести аналитическую связь между образцами текстур, параметрами фильтров и ошибкой сегментации. Это является основой для разработки эффективных алгоритмов построения одиночных фильтров. Более того, с помощью математических методов построения одноканальных фильтров можно построить простой и эффективный классификатор, основанный на Гауссовской статистике текстур, обработанных постфильтров.

Успехи одноканальных систем в предсказании будущей производительности и разработке новых алгоритмов построения фильтров заставляют задуматься о многомерной Гауссовской модели для вектора выходной статистики набора из к фильтров. Разложение многомерной Гауссовской модели по осям составляющих её признаков опять будет гауссовским для случая с одним каналом, описанным в 2 главе. Распространим результаты полученные от одноканальной системы на многомерное Гауссовское распределение для выходного вектора набора каналов фильтрации.

Чтобы приступить к разработке многомерной гауссовой модели надо начать со статистики Раиса для к префильтров ih/x,y). Как и в случае с одноканальным фильтром в (2.3), предположим, что к изображений kj(x,y) уже обработаны префильтрами и состоят из локально преобладающих синусоид и шума. м ( , У) = sa (х, у) + «,, (х, у) = А.ле " + па (х, у), iha{x,y)-sn{x,y) + nil(x,y) Ailei2 M +nn{x,y), Чи (х, У)" s,y (х У) + Щ) (х, У) = Аиеі2хі",х+""у) + пп (х, у), іш (х, У) - sit (х, у) + п1к (х, у) = AlteJ2" x+ + и„ (х, у), (3.1) где / = l,2...N\j = 1,2...к.

Индексы / и j соответствуют текстуре ti и префильтру hj соответственно, к — количество каналов в системе. В (3.1) частота доминантной синусоиды в полосе пропускания находится в пределе (uy.Vij) для текстуры t{, обработанной префильтром hj.

Опять, следуя логике разработки одноканальной системы, огибающая префильтрованного изображения kij(x,y) является выходом префильтра Щ(х,у), где индекс / обозначает текстуру /,-. Распределение Раиса с параметрами АІ и Щ используется для того, чтобы оценить статистику щ(х,у). Следуя методике главы 2 функция распределения вероятностей Раиса для выходных данных префильтра ту(х,у) выглядит следующим образом: где mjemij(x,y), Pi(mj) - это функция распределения вероятностей ту(х,у) и Io(-) - это модифицированная функция Бесселя первого рода нулевого порядка [39, 40, 69, 70]. Как и в случае с одиночным фильтром (2.17), матожидание figtj и дисперсия sly выходных значений префильтра подсчитывается через т +Af. /_ , \ 2тЛ.Л v"» J функцию распределения вероятностей Раиса. тг+АІ г гт v лг„ о 2т "«IT4 dm (3.2) ет } N„. ґ2тА KN , dm (3.3)

Чтобы избежать разницы в нотации, связь между параметрами (u,v, 7gC6 jp,mP) показанная в (2.17), отсутствует в (3.2). Позже, когда в этом появится необходимость, эти параметры будут вновь рассмотрены.

Наложение постфильтра для каждого из к каналов даёт среднюю пространственную характеристику выхода префильтра ту(х,у) и, как и в случае одиночного фильтра (2.19) выходной вектор постфильтров тр!/х,у) имеет Гауссовское распределение. (3.4), где pi(mpj) это функция распределения вероятностей выходного вектора постфильтра тру(х,у) в канале у, mPJe mpij(x,y) для выбранной текстуры tu jupy — значение mpij(x,y) и s2piJ - дисперсия трі/х,у).

Связь между матожиданием постфильтра /Upy и матожиданием префильтра jUgij абсолютно такая же, как и в случае с одиночным фильтром (2.18), за исключением того, что рассчитывается для всех каналов: j=l,2...к. Связь между дисперсиями постфильтра s2piJ и префильтра s2giJ также остались неизменны: s2pij s2 . 2 PV -Л VgoJ UPJ PJ (3.5), где (щ, Vj, а\, а\.) - параметры каналау.

Выражение (3.4) может быть рассмотрено как разложение многомерного Гауссовского распределения mpij(x,y) текстуры tt по каждой из осей признаков, относящихся к каналам j=l,2..k. В таком случае, многомерная

Самоорганизующиеся карты Кохонена

Карта Кохонена или, второе название этой нейронной сети, самоорганизующаяся карта признаков относится к классу нейронных сетей с самоорганизацией на основе конкуренции [2, 3, 4, 57, 58].

Как правило, это однослойные сети, в которых каждый нейрон соединен со всеми компонентами iV-мерного входного вектора х, как это схематически изображено для N— 2 на рис. 4.1.

Нейроны соединяются с соседними нейронами на основе определенной зависимости, которая определяет топологию (структуру) карты. На практике обычно топология карты имеет вид либо прямоугольной, либо гексагональной сетки или сетки со случайным расположением узлов (рис. 4.2).

Карты Кохонена представляют собой сети с упорядоченными нейронами, которые отражают структуру данных таким образом, что близким кластерам входных данных на карте соответствуют близко расположенные нейроны.

Целью обучения нейронной сети считается такое упорядочение нейронов (подбор значений их весов), которое минимизирует значение ожидаемого искажения, оцениваемого погрешностью аппроксимации входного вектора х , значениями весов нейрона-победителя в конкурентной борьбе. При р входных векторах х и применении евклидовой метрики эта погрешность, называемая также погрешностью квантования, может быть выражена в виде р 1=1 (4.1) где wm — это вес нейрона-победителя при предъявлении вектора xt.

Номера нейронов-победителей при последовательном предъявлении векторов х образуют так называемую кодовую таблицу. При классическом решении задачи кодирования применяется алгоритм -усреднений, носящий имя обобщенного алгоритма Ллойда. Для нейронных сетей аналогом алгоритма Ллойда считается алгоритм WTA. В соответствии с ним после предъявления вектора х рассчитывается активность каждого нейрона. Победителем признается нейрон с самым сильным выходным сигналом, т.е. тот, для которого скалярное произведение (xTw) оказывается наибольшим. Заметим, что при использовании нормализованных векторов это равнозначно наименьшему евклидовому расстоянию между входным вектором и вектором весов нейронов. Победитель получает право уточнить свои веса в направлении вектора х согласно правилу WJ -WJ+IJ(X-WJ), где rj - это коэффициент обучения.

Веса остальных нейронов уточнению не подлежат. Алгоритм позволяет учитывать усталость нейронов путем подсчета количества побед каждого из них и поощрять элементы с наименьшей активностью для выравнивания их шансов. Такая модификация применяется чаще всего на начальной стадии обучения с последующим отключении после активизации всех нейронов. Подобный способ обучения известен как алгоритм CWTA (от англ. Conscience Winner Takes All - победитель получает все) и считается одним из лучших и наиболее быстрых алгоритмов самоорганизации.

Помимо алгоритмов WTA, в которых в каждой итерации может обучаться только один нейрон, для обучения широко применяются алгоритмы WTM (от англ. Winner Takes Most — победитель получает больше), в которых, кроме победителя, уточняют значения своих весов и нейроны из его ближайшего окружения. При этом чем дальше нейрон находится от победителя, тем меньше изменяются его веса. Процесс уточнения вектора весов определяется обобщенной зависимостью w, wl+T]iG{i,x)[x-wi\ для всех / нейронов, расположенных в окрестности победителя. В приведенной формуле коэффициент обучения ПІ каждого нейрона отделен от его расстояния до предъявленного вектора х функцией G(i,x). Если G(i,x) определяется в форме G(i,x) = \ , где у обозначает номер победителя, [О для і Ф j то получается классический алгоритм WTA. Существует множество вариантов алгоритма WTM, отличающихся прежде всего формой функции G(i,x). На рис. 4.3 приведены некоторые часто используемые функции.

Многоканальная нейросетевая модель системы компьютерного зрения для задач текстурной сегментации Цымбал Дмитрий Александрович

Фильтры в зрительной системе человека

Оценивание параметров распределения Раиса

Многомерная Гауссовская статическая модель

Самоорганизующиеся карты Кохонена

Похожие диссертации на Многоканальная нейросетевая модель системы компьютерного зрения для задач текстурной сегментации