Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Генеративные и дискриминантные вероятностные методы обучения визуальным понятиям Филатов Владислав Игоревич

Генеративные и дискриминантные вероятностные методы обучения визуальным понятиям
<
Генеративные и дискриминантные вероятностные методы обучения визуальным понятиям Генеративные и дискриминантные вероятностные методы обучения визуальным понятиям Генеративные и дискриминантные вероятностные методы обучения визуальным понятиям Генеративные и дискриминантные вероятностные методы обучения визуальным понятиям Генеративные и дискриминантные вероятностные методы обучения визуальным понятиям Генеративные и дискриминантные вероятностные методы обучения визуальным понятиям Генеративные и дискриминантные вероятностные методы обучения визуальным понятиям Генеративные и дискриминантные вероятностные методы обучения визуальным понятиям Генеративные и дискриминантные вероятностные методы обучения визуальным понятиям Генеративные и дискриминантные вероятностные методы обучения визуальным понятиям Генеративные и дискриминантные вероятностные методы обучения визуальным понятиям Генеративные и дискриминантные вероятностные методы обучения визуальным понятиям Генеративные и дискриминантные вероятностные методы обучения визуальным понятиям Генеративные и дискриминантные вероятностные методы обучения визуальным понятиям Генеративные и дискриминантные вероятностные методы обучения визуальным понятиям
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Филатов Владислав Игоревич. Генеративные и дискриминантные вероятностные методы обучения визуальным понятиям: диссертация ... кандидата Технических наук: 05.13.01 / Филатов Владислав Игоревич;[Место защиты: ФГАОУВО Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики], 2016.- 153 с.

Содержание к диссертации

Введение

Глава 1. Анализ существующих подходов формирования визуальных понятий 15

1.1. Подходы на основе аннотированных и неаннотированных данных 17

1.2. Подходы на основе использования различных каналов информации 21

1.3. Подходы на основе различных представлений изображений

1.3.1. Подход на основе признаковых представлений 26

1.3.2. Подход на основе искусственных нейронных сетей 29

1.3.3. Подход на основе иерархических представлений 30

1.4. Вероятностный подход 32

Выводы по первой главе 38

Глава 2. Синтез генеративных и дискриминантных методов формирования визуальных понятий 40

2.1. Описание генеративных и дискриминантных методов 40

2.1.1. Введение. Общие положения 40

2.1.2. Оценка параметров модели источника 41

2.1.3. Идентификация модели источника наблюдательных данных 46

2.1.4. Скрытые переменные 51

2.1.5. Генеративные и дискриминантные методы 53

2.2. Разработка генеративных и дискриминантных методов для различных этапов формирования визуальных понятий 54

2.2.1. Метод выделения объектов интереса на изображении 55

2.2.2. Метод построения дескриптора визуальных слов 59

2.2.3. Метод установления зависимости между визуальными и лексическими единицами 62

Выводы по второй главе 65

Глава 3. Разработка алгоритмов для системы обучения визуальным понятиям 67

3.1. Общее описание системы 67

3.2. Основные этапы работы системы 70

3.3. Алгоритм формирования словаря визуальных слов з

3.4. Алгоритм разметки сцен кадра 72

3.5. Алгоритм выделения ключевых точек на основе словаря визуальных слов (алгоритм детектора ключевых точек) 74

3.6. Алгоритм сегментации на основе словаря визуальных слов 78

3.7. Алгоритм отбора ключевых точек на основе поля оптического потока 81

3.8. Алгоритм лексико-семантического обучения 82

3.9. Алгоритм установления зависимости визуальных слов и лексем по заданной сцене 85

3.10. Алгоритм распознавания визуальных понятий 86

Выводы по третьей главе 88

Глава 4. Система обучения визуальным понятиям 90

4.1. Общее описание режимов работы системы 90

4.2. Режимы работы СОВП

4.2.1. Основные настройки СОВП 98

4.2.2. Режим раннего зрительного обучения 100

4.2.3. Режим вторичного обучения 100

4.2.4. Режим распознавания 102

4.2.5. Графическое отображение результатов обучения 103

Выводы по четвертой главе 105

Глава 5. Экспериментальное исследование системы обучения визуальным понятиям

106

5.1. Оценка качества формирования словаря визуальных слов 107

5.2. Оценка стабильности детектора визуальных слов 110

5.3. Оценка результатов лексико-семантического обучения 112

5.4. Оценка результатов распознания

5.4.1. Распознавание с использованием режимов детектора SURFWORD и VISWORD 120

5.4.2. Оценка результатов распознавания при использовании размеченных данных 134

Выводы по пятой главе 136

Заключение 138 Список литературы 140

Введение к работе

Актуальность темы исследований и степень ее разработанности

В настоящее время анализу изображений уделяется большое внимание, разрабатываются различные методы и подходы, позволяющие строить описания наблюдаемых сцен. Несмотря на появление современных методов построения многоуровневых описаний изображений, все еще сохраняется проблема «семантического разрыва», и проблема построения семантически-осмысленных описаний по-прежнему остается актуальной. Традиционные методы анализа изображений используют фиксированные описания (априорно заданные, вручную разработанные представления изображений), что ограничивает возможности таких систем к анализу изображений и не позволяет полностью решить проблему семантического разрыва.

Многие современные системы анализа изображений используют подходы, основанные на обучении. При этом предполагается, что в процессе обучения в визуальном канале можно выделить некоторые признаки, а затем использовать их для того, чтобы связать с отдельными объектами интереса в наблюдаемой сцене. Задача «обучение с учителем» широко используется во многих областях, и часто удается получить хорошие результаты ее решения.

В последнее время все большую популярность приобретает более сложная задача формирования визуальных понятий, использующая подход «обучение без учителя». Важность данной задачи связана с необходимостью анализа большого количества неаннотированных данных. При ее постановке менее очевидно, в отличие от «обучения с учителем», что принимать за критерий оценки обучения. До настоящего момента данную задачу удается решить лишь в отдельных частных случаях, включающих существенные ограничения.

Задача формирования визуальных понятий затрагивается при решении многих прикладных практических задач, таких как поиск изображений по имеющейся базе, распознавание объектов, детектирование, анализ сцен. В связи с этим актуальным является развитие методов для решения задачи формирования визуальных понятий.

Формирование визуальных понятий может применяться и в более
сложных системах, например при разработке самообучающихся

робототехнических систем. Более того, решение данной задачи приводит к
построению автоматизированных методов анализа неразмеченных данных, что
является необходимым при использовании больших баз данных с
неразмеченной информацией. Еще одним интересным применением методов
формирования визуальных понятий является разработка сложных

автоматизированных человеко-машинных интерфейсов.

Таким образом, проблема формирования визуальных понятий широко распространена и ее решение в настоящее время актуально, поэтому появляется необходимость разрабатывать новые более широко применимые подходы, позволяющие строить описания, основанные на семантических признаках.

Цель

Цель диссертационной работы состоит в разработке методов формирования визуальных понятий при совместном использовании визуального и лексического потоков информации на основе объединения генеративного и дискриминантного подходов.

Задачи работы

Для достижения поставленной цели было необходимо решить следующие задачи.

  1. Провести анализ предметной области и рассмотреть задачи формирования визуальных понятий в контексте синтеза двух неразмеченных потоков информации с применением генеративного и дискриминантного подходов.

  2. Провести исследование и разработку аналитических выражений и методов, составляющих решение задачи формирования визуальных понятий.

  3. Осуществить практическую реализацию системы обучения визуальным понятиям, обладающей способностью к построению визуальных понятий на основе разработанных вероятностных методов.

  4. Выполнить экспериментальное исследование разработанной системы обучения визуальным понятиям, установить характер формирования визуальных понятий и оценить возможности распознавания визуальных понятий с помощью системы обучения визуальным понятиям.

Научная новизна

Разработан новый метод построения визуальных понятий по видеоданным с субтитрами, в котором с единых позиций вероятностного вывода представлены этапы сегментации изображения, обнаружения и описания ключевых точек, построения словаря визуальных слов и формирования визуальных понятий как совокупности статистически связанных визуальных слов и лексем.

Разработаны новые методы сегментации изображений и детектирования ключевых точек по критерию расстояния до визуальных слов в пространстве дескрипторов.

Предложена новая модификация алгоритма вычисления поля оптического потока, объединяющая алгоритмы детектора ключевых точек SURF и оптического потока Гунера-Фарнебаха.

Практическая значимость

Предложенный метод формирования визуальных понятий позволяет снизить требования к выполнению ручной разметки для больших баз данных и осуществить автоматизацию процесса аннотирования видеоданных.

Разработанный подход к формированию визуальных понятий позволяет при совместном использовании видеоданных и субтитров

выполнять построение ограниченных семантических описаний
изображений без использования аннотированных данных. Данный
подход может быть применен в качестве базового для решения задач
разработки автоматизированных самообучающихся

робототехнических систем и сложных человеко-машинных интерфейсов.

Разработанный метод обнаружения ключевых точек на основе
расстояний до визуальных слов позволяет повысить устойчивость
положений детектируемых ключевых точек, что может быть
использовано для повышения качества решения различных задач, в
том числе, сопоставления изображений.

Методы исследований

Для решения указанных задач в работе применялись методы теории вероятностей и математической статистики, теории информации, машинного обучения, обработки и распознавания изображений.

Положения, выносимые на защиту

Использование визуальных слов в качестве промежуточного описания сцен позволяет сформировать представление изображений, применяемое в разработанном детекторе ключевых точек и алгоритме сегментации; при этом данное представление единожды строится в результате раннего зрительного обучения и далее может применяться в процессе обучения новым визуальным понятиям.

Выведенные в рамках объединенного генеративно-дискриминантного подхода аналитические выражения позволяют без использования процедуры сэмплирования оценивать апостериорные вероятности совместного появления визуальных слов и лексем с точностью, достаточной для выявления связей между ними.

Разработанный метод детектирования ключевых точек на основе их близости к визуальным словам в пространстве SURF-дескрипторов обладает более высокой устойчивостью выделяемых ключевых точек по сравнению с детектором ключевых точек SURF.

Задача формирования визуальных понятий решается разработанной системой обучения визуальным понятиям путем синтеза двух неразмеченных информационных потоков с возможностью последующего корректного распознавания визуальных понятий на видеопоследовательностях с вероятностью до 95 процентов.

Достоверность результатов работы

Достоверность полученных в диссертационной работе результатов обеспечивается корректностью используемых методов исследования, математической строгостью преобразований при получении доказательств утверждений и аналитических зависимостей, а также соответствием

результатов экспериментальной проверки основным теоретическим

положениям и выводам.

Личный вклад автора

Все результаты диссертационного исследования получены автором лично или при его непосредственном участии.

Реализация результатов работы

Результаты диссертационной работы были использованы при выполнении
работ по НИР «Исследование проблем формирования, анализа и представления
изображений в информационных системах на основе интеллектуальных
технологий» (источник: централизованные средства НИУ ИТМО), 2012-2013
гг., тема № 411398; НИР «Исследование проблем распознавания изображений в
информационных системах и построение теории синтеза алгоритмов
распознавания на основе интеллектуальных технологий», 2012 г., тема
№ 12352; НИР «Исследование методов формирования и интерпретации
изображений объектов в обучаемых интеллектуальных системах»

(Государственное задание образовательным организациям высшего

образования, проектная часть), 2014-2016 гг., тема № 14701, а также при постановке и проведении ОКР «Зигзаг-К-ОЭ» и ОКР «Коралл-М», проводимых в ОАО «Корпорация «Комета» – «НПЦ ОЭКН».

Акты внедрения приложены к диссертации.

Апробация работы

Основные результаты работы докладывались на следующих научных конференциях:

V Всероссийский конгресс молодых ученых (работа отмечена дипломом
за лучший доклад), XLIV научная и учебно-методическая конференция НИУ
ИТМО, XXIII Научно-техническая конференция «Сложные

автоматизированные информационно-управляющие системы» (работа отмечена дипломом за лучший доклад), III Всероссийский конгресс молодых ученых, XLIII научная и учебно-методическая конференция НИУ ИТМО.

Публикации

По материалам диссертации опубликовано 8 печатных работ, список которых приведен в конце автореферата.

Структура и объём диссертации

Диссертация состоит из введения, пяти глав, заключения и списка цитируемой литературы. Она содержит 153 страницы машинописного текста, 44 рисунка и 12 таблиц. Список цитируемой литературы состоит из 143 наименований.

Подходы на основе различных представлений изображений

В теории вероятностей и статистике генеративный подход [114, 115] основан на генерации наблюдаемых данных, осуществляемой заданием вероятностных распределений (например, использующихся для установления модели неизвестного источника данных). При этом в генеративных методах определяется совместная плотность распределения вероятностей наблюдаемых и целевых переменных.

Опишем простую вероятностную генеративную модель. Пусть X -изображение некоторой сцены наблюдения, а у - ее описание (целевая переменная).

Тогда генеративная модель, описывающая сцену наблюдения на основе заданного изображения х, строится как последовательность двух основных шагов: задание вида априорного распределения вероятностей для описания Pу); задание вида функции правдоподобия на основе вероятностного распределения P(х у). Предполагается, что сначала выполняется сэмплирование у в соответствии с его априорным распределением P(у), а затем сэмплирование х с учетом функции правдоподобия P(х у). Результат сэмплирования тогда будет распределен в соответствии с совместной вероятностью: P(х,у) = P(х\у)P(у). (1.1) Далее вводится необходимое условие совпадения наблюдаемого значения и значения, полученного в процессе сэмплирования, что приводит к сэмплированию у в соответствии с апостериорной вероятностью P(у х) .

Помимо генеративного, существует дискриминантный [116] (разделяющий) подход. В то время как в генеративных методах оценивается распределение плотности вероятностей, дискриминантные методы описывают условное распределение целевой переменной и наблюдаемых данных. Для представленной выше генеративной модели дискриминантной будет модель, вычисление которой выполняется заданием вида распределения для P(y x) с вычислительной процедурой, выполняющей его оценку (при этом никакие значения не генерируются).

Для задач распознавания образов дискриминантные методы позволяют строить разделяющие поверхности в пространстве признаков. Дискриминантные методы ограничиваются описанием различий между классами (при этом распределение образов внутри классов не описывается в явном виде).

В отличие от дискриминантных методов, генеративный подход предполагает порождение образов внутри классов. Образ описывается как экземпляр выборки, получаемый на основе некоторой плотности распределения вероятностей.

Часто используемым классом вероятностных моделей является класс графических моделей [117]. Основная идея их использования заключается в возможности описывать факторизованную совместную плотность распределения вероятностей наблюдаемых и скрытых величин в виде графа. Использование генеративного подхода для ряда задач компьютерного зрения позволяет, во-первых, создавать хорошо структурированные методы, во-вторых, упрощает процесс решения задач на основе вероятностных оценок.

В то время как генеративная процедура для своего использования требует решения обратной задачи (определение описания, на основе которого порождаются данные), дискриминантная процедура выполняется без ее использования. По этой причине дискриминантные методы на практике выполняются значительно быстрее (в отличие от генеративных, которые могут использоваться для разработки теоретических вероятностных методов решения поставленных задач). Несмотря на указанный недостаток, генеративных моделей для задач машинного обучения применяются как генеративные, так и дискриминантные методы. Укажем наиболее распространенные генеративные методы: смесь гауссиан, наивный Байесовский классификатор, скрытые Марковские модели, сигмоидные сети доверия, Байесовские сети доверия, Марковские случайные поля, ограниченная машина Больцмана, латентное размещение Дирихле, вероятностные контекстно-свободные грамматики и другие. Среди дискриминантных методов можно выделить следующие: логистическая регрессия, машина опорных векторов, условные случайные поля.

Во многих статьях [например, 41, 118, 119] описание объектов интереса сцен осуществляется с помощью набора признаков. Основной акцент сосредоточен на визуальных и пространственных отличиях, содержащихся в изображении наблюдаемого кадра. Методы формирования таких отличий в работах сильно варьируются и определяют качество полученных признаковых описаний.

Использование вероятностного подхода в задачах формирования визуальных понятий позволяет применять строгие критерии и обширный аппарат статистического вывода. Например, может оцениваться вероятность появления в наблюдаемом кадре объекта интереса с заданным описанием.

Часто построение вероятностных методов формулируется в Байесовской постановке. Например, в [119] на основе генеративного подхода в общем виде описана вероятность наличия 7 = 1 или отсутствия 7 = 0 заданного объекта интереса 7 на представленном изображении по: позиции X, масштабу S и внешнему описанию A; где в - параметр объекта интереса, 0bg - параметр заднего фона: p(Y = 1X,S, ) = P(X,S,Y = 1)p(Y = 1) p(Y = 0X,S,A) p(X,S,AY = 0)p(Y = 0) p(X,S,Ae)p(Y = 1) (1 . ) p(X,S,Aebg)p(Y = 0) , где p(Y = 1) ,p(Y = 0) - априорные вероятности встретить объект интереса и фон.

Разработка генеративных и дискриминантных методов для различных этапов формирования визуальных понятий

В генеративных методах модель источника w описывает вид распределения P(х z). При этом появляется возможность строить (порождать) значения х при заданных значениях z путем сэмплирования. Значения z задаются (порождаются) в соответствии с априорным распределением вероятностей P(zw).

В дискриминантных методах осуществляется построение вычислительной процедуры для P(zx,w), с помощью которой можно определять значения целевых и скрытых переменных по наблюдательным данным х, а также выполнять оценку модели источника данных w без использования процесса сэмплирования.

На практике генеративный подход к решению задач машинного обучения часто реализуется через сэмплирование по параметрам моделей. Использование дискриминантных методов в ряде случаев предпочтительнее, так как в рамках генеративного подхода зачастую сложно достичь вычислительной эффективности. 2.2. Разработка генеративных и дискриминантных методов для различных этапов формирования визуальных понятий

В отличие от дискриминантного генеративный подход позволяет порождать наблюдаемые данные при использовании заданных вероятностных распределений. При этом модель источника данных вводится в явном виде.

Использование генеративного подхода позволяет осуществлять детальное рассмотрение процесса порождения данных; появляется возможность введения метамоделей для задания априорных распределений, обладающих набором гиперпараметров, при этом появляется возможность настройки параметров, что приводит к устранению проблемы переобучения в некоторой степени. При этом оказывается возможным создавать описание модели w с различной степенью детальности.

Одним из значительных ограничений использования генеративного подхода является его вычислительная неэффективность для практической реализации. На практике генеративный подход в ряде методов неосуществим за конечное время из-за чрезмерно большого пространства поиска для значений параметров модели (при вычислении параметров модели сэмплирование проводится по всем возможным значениям до достижения условия совпадения значений наблюдательных данных с оцененными).

В связи с этим актуальной становится разработка теоретических генеративных методов и их сведение к дискриминантным для возможности практического применения. Таким образом, предлагается подход к объединению генеративных и дискриминантных методов формирования визуальных понятий, включающий: построение генеративной модели источника данных в форме аналитических выражений, задающих апостериорное распределение вероятностей для изображений в зависимости от визуальных понятий и скрытых переменных; использование оптимизационных техник, точечных оценок и аппроксимаций для вывода аналитических выражений и основанной на них дискриминантной процедуры, выполняющей оценку значений скрытых переменных и вероятностей присутствия визуальных понятий в сцене на основе видеопоследовательностей; применение полученной дискриминантной процедуры для решения практической задачи формирования визуальных понятий.

Применим указанный подход для разработки методов формирования визуальных понятий.

В задаче интерпретации сцен часто возникает необходимость выделения отдельных областей на изображениях для описания объектов. Методы выделения могут варьироваться от установления рамки, содержащей набор пикселей принадлежащих к предполагаемому объекту, до установления граничного контура.

Проведем разработку метода выделения объектов на наблюдаемом изображении. Задачу построения такого метода можно рассматривать как осуществление процесса сегментации для установления принадлежности каждого из N пикселей изображения к одному из классов объектов, описываемых введением набора N скрытых переменных z = (z) =1, таких что zn ={1,...,К}. Значение К будем считать известным. В качестве наблюдательных данных будем рассматривать x = (x„)f=1, где п=(хп,уп,сп). Через х„,Уп обозначим позицию пикселя изображения по горизонтали и вертикали соответственно, сп - яркость пикселя.

Будем предполагать, что при построении генеративной модели рассматривается задача обучения (значения гиперпараметров модели нефиксированы и заранее неизвестны). В таком случае для формирования генеративной модели необходимо осуществлять дополнительное сэмплирование по значениям гиперпараметров распределений.

Перед описанием процесса сэмплирования построим обобщенную генеративную модель решения поставленной задачи.

Определим виды вероятностных распределений для правдоподобия и априорной вероятности появления пикселя, принадлежащего к одному из классов zn . Принадлежность образов к кластерам задается на основе категориального распределения, при этом образы внутри кластеров описываются с помощью нормального распределения: P(znX) = CatZn[},]. P( nzn=k,ii,i:) = Norm [iik,i:k]. (2.35) Заметим, что если выполнить маргинализацию по z для распределения Р(хйц,ЕД), то получается смесь нормальных распределений. Таким образом, можно сказать о том, что категориальное распределение P(zn X) будет задавать априорные значения для коэффициентов смеси на основе вектора параметров Х = (4,...,4), обозначающих весовые коэффициенты групп пикселей, где условие нормировки задается в виде \=1.

Алгоритм сегментации на основе словаря визуальных слов

При этом для решения задачи формирования визуальных слов (отдельных кластеров) используется кластеризация совокупности дескрипторов ключевых точек на основе их близости в пространстве признаков. Центры кластеров, каждый из которых соответствует одному визуальному слову, будем называть дескрипторами визуальных слов (ДВС). Объект интереса тогда описывается не совокупностью дескрипторов ключевых точек, а гистограммой встречаемости визуальных слов (также называемой «мешком слов» (BoW)).

Анализ видеопотока (наблюдаемой сцены) сводится к определению визуальных слов, а также установлению соответствий между объектами наблюдения и отдельными наборами визуальных слов.

Процесс анализа информации речевого канала выполняется схожим с визуальным каналом образом. Сначала неразмеченный поток информации разбивается на набор отдельных лексических единиц (в случае текстового потока лексической единицей будет являться отдельное слово). Частота встречаемости лексем в речевом канале задает априорное распределение вероятностей появления отдельных слов в текстовых данных.

Для формирования отдельных наборов визуальных и аудиальных слов необходимо совместное рассмотрение наборов слов и определение лексико-семантических пар (визуальных понятий), описывающих объекты интереса. В качестве метода построения визуальных понятий предлагается метод оценки совместной встречаемости аудиальных и визуальных слов по наблюдаемой видеопоследовательности, где критерием встречаемости является совпадение временных интервалов встречаемости пар «визуальное слово - аудиальное слово».

Описание анализа двух потоков информации можно разделить на четыре основных этапа формирования визуальных понятий: этап сегментации (выделение объектов интереса или лексических описаний); этап формирования признаков; этап формирования описаний на основе признаков; этап построения визуальных понятий (совместный анализ информации двух каналов). Полученные визуальные понятия в дальнейшем применяются для построения базы данных, используемой на этапе распознавания системы.

Основные этапы работы предложенной системы можно представить следующим образом: раннее зрительное обучение (первичное); обучение на основе лексико-семантической информации (вторичное); распознавание объектов интереса с использованием визуальных понятий.

Первый этап характеризуется извлечением набора признаков из визуального канала для построения словаря визуальных слов, служащего основой для второго этапа. Словарь визуальных слов используется в качестве основы для описания произвольных сцен наблюдения; в качестве структурных признаков изображения для интерпретации сцен используется совокупность визуальных слов. Словарь визуальных слов является промежуточным описанием интерпретируемой сцены.

Этап обучения на основе лексико-семантической информации предполагает нахождение способа объединения информации связанных каналов информации (визуального и речевого описания). Для этой цели выполняется извлечение набора признаков в каждом из каналов (в визуальном канале такие признаки будем называть - дескрипторами визуальных слов, в речевом - лексемами) и определение соотношений между дескрипторами визуальных слов и лексемами в пределах заданного временного промежутка. При вероятностной постановке задачи исследование связи между признаками сводится к установлению совместной плотности распределения вероятностей появления набора дескрипторов визуальных слов и лексем.

Этап распознавания заключается в детектировании объектов интереса на произвольных видеоданных и определении, связанных с этими объектами визуальных понятий.

На этапе раннего зрительного обучения выполняется формирование устойчивых визуальных паттернов, являющихся примитивами при интерпретации сцен (в виде совокупности таких паттернов). В алгоритме формирования словаря визуальных слов (рис. 3.1) визуальное слово – это кластер, состоящий из набора дескрипторов ключевых точек. Каждое визуальное слово описывается на основе вектора признаков центра кластера (эталонного вектора признаков).

Входными данными для алгоритма формирования словаря визуальных слов является анализируемая видеопоследовательность. В качестве основных параметров принимаются предполагаемое количество визуальных слов K и шаг обучения T, описывающий частоту выбора кадров из видеопоследовательности.

В каждом обрабатываемом кадре выполняется выделение набора ключевых точек на основе детектора ключевых точек SURF. Каждая ключевая точка описывается 64-х компонентным вектором признаков (дескриптором) SURF. В процессе обработки видеопотока в памяти программы хранятся дескрипторы всех предыдущих обработанных кадров. После завершения процесса обработки выполняется процесс их группирования (кластеризация) по заданному количеству кластеров (которое соответствует количеству визуальных слов K) с помощью алгоритма k -средних. Критерий минимума квадрата суммарного внутригруппового расстояния задается формулой:

Режим раннего зрительного обучения

В данной главе выполняется исследование работы реализованной системы обучения визуальным понятиям и анализ полученных результатов. Проводится определение оценок стабильности разработанных алгоритмов детектора ключевых точек: SURFWORD и VISWORD и исследование влияния параметров алгоритмов, используемых в системе, на качество обучения. Устанавливается наличие зависимостей между лексемами и визуальными словами.

В отличие от подхода «обучение с учителем», где имеется возможность оценивать качество работы классификаторов, в постановке задач «обучения без учителя» отсутствует конкретный критерий оценки качества решения, по этой причине для оценки результатов обучения и распознавания был разработан ряд оценок, позволяющих определить качество формирования визуальных понятий: оценка качества формирования словаря визуальных слов; оценка стабильности детектора визуальных слов; оценка результатов лексико-семантического обучения; оценка результатов распознавания. Для тестирования и анализа работы СОВП использовалась следующая схема: для каждого видеофайла в отдельности проводился многократный процесс обучения при заданных значениях параметров; по полученным в процессе обучения результатам вычислялся набор статистических оценок и проводился ряд тестов.

Для анализа результатов работы системы были использованы 120 видеофайлов с субтитрами, которые можно разделить на два типа, существенно отличающихся по структуре и содержанию сцены: тип № 1 - видео с простым фоном и одним объектом в кадре. Объекты интереса в кадре могут поворачиваться на 360 градусов и перемещаться в произвольном направлении; тип № 2 - стандартный видеофильм с упрощенными субтитрами. В кадре может наблюдаться любое количество объектов интереса, допустимы произвольные изменения масштаба, угла поворота и направления движения, задний фон может быть произвольным (например, сложным динамическим).

Для оценки качества формирования словаря визуальных слов предполагалось, что равномерно распределенные визуальные слова являются наиболее предпочтительным вариантом при обучении, так как при этом в результате выполнения кластеризации (на этапе раннего зрительного обучения) все признаки, извлеченные из визуального канала, учитываются в равной степени (присутствует равномерное распределение дескрипторов по кластерам).

Установление оценки качества формирования словаря визуальных слов выполняется посредством анализа визуальной информации, содержащейся в файле, используемом на этапе раннего зрительного обучения. Для определения оценки используется энтропия визуальных слов Н(у), определяемая по формуле: к Н(у) = - р{у]) log2 р{у]), (5.1) где К - количество визуальных слов. Оценка качества формирования словаря визуальных слов задается коэффициентом R с использованием максимального значения энтропии визуальных слов S: Зависимость энтропии от количества кластеров для типа № Количество кластеров 10 20 30 40 50 60 70 80 90 100 H(y), бит 3,258 4,175 4,698 5,141 5,477 5,686 5,876 6,076 6,261 6,382 S, бит 3,321 4,321 4,906 5,321 5,643 5,906 6,129 6,321 6,491 6,643 R 0,980 0,966 0,957 0,966 0,970 0,962 0,958 0,961 0,964 0,960 Таблица 5.2. Зависимость энтропии от количества кластеров для типа № Количество кластеров 10 20 30 40 50 60 70 80 90 100 H(y), бит 3,314 4,309 4,893 5,306 5,624 5,890 6,114 6,305 6,475 6,623 S, бит 3,321 4,321 4,906 5,321 5,643 5,906 6,129 6,321 6,491 6,643 R 0,997 0.997 0,997 0,997 0,996 0,997 0,997 0,997 0,997 0,997 Проанализировав данные, представленные в таблицах, можно сделать вывод о том, что при изменении количества кластеров значение коэффициента R остается приблизительно равным и близким к единице. Это означает, что выбор количества кластеров не оказывает существенного влияния на результат обучения на этапе раннего зрительного обучения. Структура распределения признаков в пространстве дескрипторов не накладывает ограничений на выбор количества кластеров.

Дескриптор является признаковым описанием для ключевой точки на изображении, поэтому для каждой ключевой точки можно определить фрагмент изображения (прямоугольную область с центром в ключевой точке), по которому был построен дескриптор. Так как визуальное слово в словаре задается с помощью дескриптора, определим фрагменты изображений для соответствующих визуальных слов.