Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Алгоритмы обработки и анализа символов вейвлет-преобразованием, методом главных компонент и нейронными сетями Фан Нгок Хоанг

Алгоритмы обработки и анализа символов вейвлет-преобразованием, методом главных компонент и нейронными сетями
<
Алгоритмы обработки и анализа символов вейвлет-преобразованием, методом главных компонент и нейронными сетями Алгоритмы обработки и анализа символов вейвлет-преобразованием, методом главных компонент и нейронными сетями Алгоритмы обработки и анализа символов вейвлет-преобразованием, методом главных компонент и нейронными сетями Алгоритмы обработки и анализа символов вейвлет-преобразованием, методом главных компонент и нейронными сетями Алгоритмы обработки и анализа символов вейвлет-преобразованием, методом главных компонент и нейронными сетями Алгоритмы обработки и анализа символов вейвлет-преобразованием, методом главных компонент и нейронными сетями Алгоритмы обработки и анализа символов вейвлет-преобразованием, методом главных компонент и нейронными сетями Алгоритмы обработки и анализа символов вейвлет-преобразованием, методом главных компонент и нейронными сетями Алгоритмы обработки и анализа символов вейвлет-преобразованием, методом главных компонент и нейронными сетями Алгоритмы обработки и анализа символов вейвлет-преобразованием, методом главных компонент и нейронными сетями Алгоритмы обработки и анализа символов вейвлет-преобразованием, методом главных компонент и нейронными сетями Алгоритмы обработки и анализа символов вейвлет-преобразованием, методом главных компонент и нейронными сетями
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Фан Нгок Хоанг . Алгоритмы обработки и анализа символов вейвлет-преобразованием, методом главных компонент и нейронными сетями: диссертация ... кандидата технических наук: 05.13.01 / Фан Нгок Хоанг ;[Место защиты: Томский государственный университет].- Томск, 2014.- 138 с.

Содержание к диссертации

Введение

Глава 1. Аналитический обзор подходов к распознаванию символов 12

1.1 Основные задачи обработки изображений 12

1.2 Подходы и системы распознавания символов и текстов 14

1.2.1 Системы распознавания текста 14

1.2.2 Подходы к распознаванию символов 16

1.2.3 Выделение признаков 19

1.3 Методы обработки изображений и распознавания образов с использованием вейвлет-преобразования 31

1.3.1 Построение дескриптора фигуры 31

1.3.2 Классификация изображений 32

1.3.3 Распознавание лиц 35

1.4 Цель и задачи исследования 39

1.5 Основные результаты и выводы по главе 1 41

Глава 2. Применение вейвлет-преобразования, метода главных компонент и нейронных сетей для распознавания символов и фрагментов печатных текстов 42

2.1 Предложенный алгоритм распознавания символов 42

2.1.1 Выделение признаков изображений символов 43

2.1.2 Уменьшение размерности вектора признаков 48

2.1.3 Распознавание символов нейронными сетями 51

2.2 Предложенный алгоритм распознавания фрагментов печатных текстов 52

2.2.1 Выделение символов из фрагмента текста 53

2.2.2 Распознавание фрагмента текста 57 2.2.3 Распознавание похожих по написанию символов 58

2.3 Основные результаты и выводы по главе 2 61

Глава 3. Разработанное программное обеспечение для распознавания символов и фрагментов печатных текстов 62

3.1 Выбор средств разработки 62

3.2 Реализованные классы для распознавания символов и фрагментов текстов 66

3.2.1 Классы для распознавания символов 66

3.2.2 Классы для распознавания фрагментов печатных текстов 77

3.3 Разработанные программные средства 87

3.3.1 Приложение для исследователей 87

3.3.2 Приложение для обычных пользователей 100

3.4 Основные результаты и выводы по главе 3 102

Глава 4. Численные эксперименты и анализ результатов распознавания разработанными алгоритмами 103

4.1 Тестирование на задаче распознавания рукописных цифр 103

4.1.1 Обучающая выборка 103

4.1.2 Описание тестирования 104

4.1.3 Результаты тестирования 105

4.2 Тестирование на задаче распознавания печатных символов 108

4.2.1 Обучающая выборка 108

4.2.2 Описание тестирования 110

4.2.3 Результаты тестирования 111

4.3 Тестирование на задаче распознавания фрагментов печатных текстов 113

4.3.1 Описание тестирования 113

4.3.2 Результаты тестирования 115

4.4 Основные результаты и выводы по главе 4 118

Заключение 119

Обозначения 120

Список сокращений 121

Список использованных источников и литературы 122

Введение к работе

Актуальность работы. В области обработки изображений задача распознавания образов является одной из широко исследуемых задач в настоящее время. Решение задачи распознавания образов востребовано в различных сферах деятельности современного общества. Например, распознавание лиц используется в системах паспортного контроля аэропортов и вокзалов, распознавание радужной оболочки глаза – в системах контроля доступа, распознавание речи – для управления приборами, такими как компьютеры, телефоны, распознавание жестов – для взаимодействия с людьми с ограниченными возможностями и т.д.

Задача распознавания символов является одной из актуальных задач распознавания образов. Эту задачу можно использовать для решения других задач, таких как распознавание текстов, распознавание автомобильных номеров и т.п.

В настоящее время существует ряд программных средств и систем, использующих алгоритмы распознавания символов для решения задачи распознавания текстов. Широкое распространение получили такие программные средства как ABBY FineReader, Tesseract OCR, CuneiForm, OmniPage, Readiris и др. В каждом из перечисленных программных продуктов предложены свои алгоритмы и методы для распознавания символов и текстов. Однако большинство указанных программных средств являются коммерческими, поэтому алгоритмы и методы, применяемые в них для решения задач, известны только разработчикам.

Хотя перечисленные программы показывают высокую точность распознавания символов и текстов, но они не могут обеспечивать 100% точность распознавания для всех вариантов символов и текстов, а также в присутствии шума на изображениях. Указанные программные средства и системы продолжают развиваться в направлении повышения точности и скорости распознавания. Таким образом, можно сделать вывод, что разработка новых алгоритмов для распознавания символов и текстов является актуальной задачей.

Главными преимуществами признакового подхода к распознаванию символов являются хорошая устойчивость к изменениям формы, размера и шрифта символов и высокая скорость распознавания. Кроме того, такой подход имеет другие преимущества, такие как низкое число отказов от распознавания и простота реализации. Благодаря указанным преимуществам признаковый подход выбран для дальнейшей разработки алгоритмов, предназначенных для распознавания символов разных шрифтов с высоким быстродействием.

Вейвлет-преобразование является эффективным методом для выделения признаков объектов при решении задач распознавания образов. При разложении изображения вейвлет-преобразование содержит в себе необходимую информацию об этом изображении. Например, субдиапазоны в пространственных и частотных доменах, в различных разрешениях, в горизонтальном, вертикальном и диагональном направлениях. Вейвлет-преобразование также достаточно быстро вычисляется. В алгоритмах ряда авторов Mehdi L., Weibao Z., Chang T., Daniel M.R.S., Park S.B. и Gonzalez A.C. используются вейвлет-преобразования

для решения задачи классификации изображений. В указанных работах показано, что при использовании вейвлет-преобразования для выделения признаков изображения точность классификации изображений составляет 76–99,7%.

Кроме того, в области распознавания образов вейвлет-преобразования используются в алгоритмах ряда авторов Lai J.H., Kakarwal S., Zhang B., Gumus E., Wadkar P.D., Kumar S.V.P. и Mazloom M. В указанных работах показано, что вейвлет-преобразования эффективно используются при решении задач распознавания образов, в особенности, задачи распознавания лиц. Точность распознавания лиц при этом составляет 90–98,5%.

Таким образом, применение вейвлет-преобразования является перспективным способом для разработки новых алгоритмов распознавания символов и текстов.

Целью диссертационной работы является разработка алгоритмов на основе вейвлет-преобразования, метода главных компонент и нейронных сетей, способных распознавать символы разных шрифтов и фрагменты текстов.

Для достижения поставленной цели необходимо решить следующие основные задачи.

  1. Разработать алгоритм распознавания символов на основе вейвлет-преобразования, метода главных компонент и нейронных сетей.

  2. Разработать способ построения классификатора для распознавания символов на основе нейронных сетей.

  3. Создать алгоритм распознавания фрагментов печатных текстов на основе разработанного алгоритма распознавания символов.

  4. Осуществить апробацию созданных в диссертационной работе алгоритмов на задачах распознавания символов и фрагментов печатных текстов на изображениях.

Методы исследования. Для решения поставленных задач используются вейвлет-преобразования, метод главных компонент, аппарат нейронных сетей, методы цифровой обработки изображений, методы вычислительной математики и численные компьютерные эксперименты для оценки надежности и эффективности разработанных алгоритмов.

Научную новизну полученных в диссертации результатов определяют следующие положения.

  1. Впервые предложен способ построения классификатора для распознавания символов на основе нейронных сетей, отличающийся от других тем, что каждая нейронная сеть соответствует только одному символу обучающей выборки.

  2. Предложен новый алгоритм, основанный на вейвлет-преобразовании, методе главных компонент и нейронных сетях, позволяющий распознавать символы разных шрифтов в присутствии шума на изображениях.

  3. Разработан оригинальный алгоритм, основанный на предложенном алгоритме распознавания символов и способе выделения символов из фрагмента текста, позволяющий распознавать фрагменты печатных текстов.

Практическая ценность. Разработанные в ходе диссертационной работы алгоритмические и программные средства предназначены для использования в

системах OCR, системах распознавания номеров автомобилей, при обработке изображений.

Реализованные в диссертации алгоритмы предназначены для распознавания рукописных цифр, печатных символов и фрагментов печатных текстов.

Апробация реализованных алгоритмов осуществлялась на задачах распознавания рукописных цифр и печатных символов, при распознавании фрагментов печатных текстов.

Реализация полученных результатов работы. Способ, алгоритмы и программы, разработанные в диссертационной работе, использовались при выполнении работ по гранту РФФИ № 09-08-00309 «Создание программного комплекса автоматизированной обработки изображений и распознавания образов на основе применения искусственных нейронных сетей, регуляторных сетей и эволюционных алгоритмов» (2009–2011 гг.); в проекте «Создание комплексных технологий распознавания объектов на изображении на основе применения моделей зрительного восприятия и методов вычислительного интеллекта», поддержанном грантом РФФИ № 12-08-00296 (2012–2014 гг.).

Степень достоверности результатов проведенных исследований подтверждена результатами численных экспериментов на различных тестовых задачах и согласованностью результатов диссертационной работы с результатами, полученными другими авторами.

Внедрение работы. Результаты работы внедрены в Томском политехническом университете на кафедре вычислительной техники при подготовке специалистов по магистерской программе «Компьютерный анализ и интерпретация данных» по курсу «Методы интеллектуальной обработки и анализа изображений»; при проведении работ по НИР «Разработка алгоритмов и программ восстановления текста из графической информации», выполнявшейся по хоздоговору № 4-311/2013У.

Основные положения, выносимые на защиту.

  1. Способ построения классификатора для распознавания символов на основе нейронных сетей, отличающийся от других тем, что каждая нейронная сеть соответствует только одному символу обучающей выборки.

  2. Алгоритм распознавания символов, основанный на вейвлет-преобразовании, методе главных компонент и нейронных сетях.

  3. Алгоритм распознавания фрагментов печатных текстов, основанный на предложенном алгоритме распознавания символов и способе выделения символов из фрагмента текста.

  4. Разработанное программное обеспечение позволяет успешно распознавать рукописные цифры, печатные символы и фрагменты печатных текстов.

Апробация работы. Результаты диссертационной работы докладывались и обсуждались на следующих симпозиумах, конференциях и семинарах: VIII, IX Всероссийские научно-практические конференции студентов, аспирантов и молодых ученых «Молодежь и современные информационные технологии» (Томск, 2010, 2011); XVI, XVII Международные научно-практические конференции студентов, аспирантов и молодых ученых «Современные техника и технологии» (Томск, 2010, 2011); III Всероссийская научно-практическая конфе-

ренция «Научная инициатива иностранных студентов и аспирантов российских вузов» (Томск, 2010); VI Международная научно-практическая конференция «Электронные средства и системы управления» (Томск, 2010); XIX Всероссийский семинар «Нейроинформатика, ее приложения и анализ данных» (Красноярск, 2011); XIV Всероссийский с международным участием научный симпозиум по теории и приложениям непараметрических и робастных статистических методов «НЕПАРАМЕТРИКА-XIV» (Томск, 2012); The 7th International Forum on Strategic Technology IFOST (Томск, 2012).

Публикации. Основные результаты диссертационного исследования изложены в 17 печатных работах, в том числе в 7 статьях в изданиях из перечня ВАК РФ [1–7].

Личный вклад автора. Постановка задач исследования по теме диссертации выполнена автором совместно с научным руководителем, д.т.н., профессором В.Г. Спицыным. Основные теоретические результаты, представленные в диссертации, получены лично автором.

Структура и объем работы. Диссертация содержит введение, четыре главы, заключение, список использованной литературы, содержащий 117 наименований. Общий объем диссертации составляет 139 страниц машинописного текста, включающих 63 рисунка и 26 таблиц.

Подходы и системы распознавания символов и текстов

Распознавание образов является одной из самых изученных задач в таких областях как цифровая обработка изображений, компьютерное зрение, биометрия, создание интеллектуальных систем безопасности и контроля доступа и т.п. Тем не менее, в области распознавания образов продолжают представлять большой научный и практический интерес такие задачи как распознавание лиц, жестов, отпечатков пальцев, печатных и рукописных символов, печатных текстов и т.д.

В данной главе предложен новый алгоритм распознавания символов, основанный на вейвлет-преобразовании, методе главных компонент и многослойных нейронных сетях. Алгоритм распознавания символов работает следующим образом. Шаг 1. Обучение нейронных сетей. Шаг 1.1. Выделение характерных признаков символов из обучающей выборки на основе применения вейвлет-преобразования. Шаг 1.2. Уменьшение размерности векторов выделенных признаков методом главных компонент. Шаг 1.3. Обучение нейронных сетей полученными векторами выделенных признаков символов. Шаг 2. Распознавание символа. Шаг 2.1. Выделение характерных признаков распознаваемого символа из тестовой выборки на основе применения вейвлет преобразования. Шаг 2.2. Уменьшение размерности вектора выделенных признаков методом главных компонент. Шаг 2.3. Распознавание символа обученными нейронными сетями.

Выделение признаков изображений символов Главной задачей в каждом виде обработки изображения является нахождение эффективного представления, позволяющего отобразить изображение в компактной форме. В современной теории и практике обработки сигналов активно используются преобразования специального вида - вейвлеты, показавшие свою эффективность в спектральном анализе сигналов [10, 95].

Вейвлет-преобразования успешно применяются для извлечения признаков изображений при решении таких задач как классификация изображений текстур [28, 35, 67, 75, 96], классификация изображений объектов, таких как: здание, рыба, трава, люди, автомобиль, самолет, помидор, яблоко и т.д. [5, 14, 16, 51, 82, 90, 109, 113].

Кроме этого, комбинация вейвлет-преобразования и МГК показала свою эффективность для решения задач распознавания образов. В работах [7, 8] предложен алгоритм, основанный на методе Виолы-Джонса, вейвлет-преобразовании и МГК для распознавания множества лиц на изображениях и видеопоследовательностях. Результаты проведенных экспериментов на основе этого алгоритма показали, что точность распознавания составляет -98,4%.

В работе [15] предложен алгоритм, основанный на алгоритме CAMShift, методе Виолы-Джонса, вейвлет-преобразовании и МГК для распознавания жестов на видеопоследовательности. Точность результата распознавания этого алгоритма составляет -94,6%.

Скорость обработки указанных двух алгоритмов достаточно быстрая, 7-14 кадров в секунду для алгоритма распознавания множества лиц, 25-30 кадров в секунду для алгоритма распознавания жестов. Эта скорость позволяет программам, реализованным на основе разработанных алгоритмов, работать в режиме реального времени.

В работах [7, 8, 15] проводилось исследование зависимости эффективности результатов распознавания лиц и жестов от типа вейвлетов и показано, что при использовании комбинации вейвлет-преобразования Хаара и МГК получены наилучшие результаты распознавания. Кроме того, для вейвлет-преобразования Хаара характерны простота реализации и высокая скорость вычисления [12, 13].

Таким образом, можно сделать вывод о целесообразности применения вейвлет-преобразования Хаара и МГК для решения задач распознавания символов и фрагментов печатных текстов с приемлемой скоростью обработки.

Вейвлет Хаара является базисным вейвлет-преобразованием, с помощью которого можно разложить одномерный дискретный сигнал f = (f1,f2,...,fN) на два компонента равного размера. Первый компонент называется средним или аппроксимацией (approximation), а второй -различием (difference) или детализацией (detail). Значения среднего подсигнала a1=(a1,a2,...,aN/2) на первом уровне разложения вычисляются по следующей формуле [6]:

Уменьшение размерности вектора признаков

Класс NeuralNetwork предназначен для создания специальной нейронной сети, соответствующей только одному символу обучающей выборки. В классе NeuralNetwork содержатся многослойная нейронная сеть типа класса ANN_MLP и соответствующая этой сети дополнительная информация типа класса NNAdditionalData. Класс NNAdditionalData включает в себя название символа обучающей выборки, соответствующего нейронной сети, количество нейронов входного слоя и номер сети.

Класс NeuralNetwork имеет конструктор, предназначенный для создания многослойной нейронной сети, которая обучается заданными изображениями символов обучающей выборки. В классе NeuralNetwork содержится метод Recognize, который возвращает результат распознавания символов в виде класса NNRecognitionResult. Класс NNRecognitionResult включает в себя название символа обучающей выборки, соответствующего нейронной сети, степень близости к символу и номер сети. Основные переменные и методы классов NeuralNetwork, NNAdditionalData и NNRecognitionResult перечислены в табл. 3.6–3.8.

Класс Classificator предназначен для создания классификатора на основе специальных нейронных сетей NeuralNetwork. В классе Classificator содержится множество специальных многослойных нейронных сетей и указывается количество нейронов их входного слоя. Класс Classificator имеет конструктор, который создает множество специальных многослойных нейронных сетей, количество которых соответствует количеству классов обучающих символов. В классе Classificator содержится метод Recognize, который возвращает результат распознавания символов в виде класса ClassificatorRecognitionResult. Класс ClassificatorRecognitionResult включает в себя название и степень близости символа первого предположения, а также название и степень близости символа второго предположения. Основные переменные и методы классов Classificator и ClassificatorRecognitionResult перечислены в табл. 3.9–3.10.

Класс ClassificatorManager имеет конструктор, который создает новые экземпляры этого класса. В классе ClassificatorManager содержатся следующие методы: SaveClassificator и LoadClassificator. Метод SaveClassificator предназначен для сохранения созданного классификатора Classificator, основанного на специальных многослойных нейронных сетях, в файле для его последующего использования. Метод LoadClassificator осуществляет загрузку классификатора Classificator для распознавания символов из файла. Основные методы класса ClassificatorManager перечислены в табл. 3.11.

В соответствии с описанием алгоритма распознавания фрагмента печатного текста, приведенным в разделе 2.2, модуль для распознавания фрагментов печатных символов должен решать следующие задачи: поворот изображения фрагмента текста, выделение строк из фрагмента текста, выделение слов из строк, выделение символов из слов и распознавание выделенных символов. Для распознавания выделенных символов используются классы для распознавания символов, представленные в разделе 3.2.1.

a. Классы для поворота изображения фрагмента текста

Для поворота изображения фрагмента текста созданы следующие классы: HorizontalHistogram и ImageProc (рис. 3.4). Рисунок 3.4. Классы для поворота изображения фрагмента текста Класс HorizontalHistogram Класс HorizontalHistogram предназначен для построения проекции бинарного изображения фрагмента печатного текста на ось Y. В классе содержатся количество строк (высота) изображения; количество черных пикселей каждой строки и их максимальное значение; изображение, которое используется для представления данных проекции. Класс HorizontalHistogram имеет конструктор, с помощью которого проводится построение проекции изображения фрагмента текста на ось Y, использующейся для его поворота. В классе HorizontalHistogram также имеется метод GetWhiteCount, который вычисляет количество «белых точек». Основные переменные и методы класса HorizontalHistogram перечислены в табл. 3.12.

Класс ImageProc предназначен для обработки изображения фрагмента текста. Класс ImageProc имеет конструктор, который создает новые экземпляры этого класса. В классе ImageProc содержится метод RotateImage, предназначенный для поворота изображения фрагмента текста на основе использовании проекции изображения на ось Y HorizontalHistogram. Поворот изображения фрагмента текста заключается в нахождении повернутого изображения текста, на котором расположено наибольшее количество «белых строк». Основные методы класса ImageProc перечислены в табл. 3.13.

Класс TextImageLayout предназначен для сохранения информации об изображении фрагмента печатного текста. Класс содержит список выделенных строк; количество выделенных строк, слов и символов текста; результат распознавания текста. Класс TextImageLayout имеет конструктор, с помощью которого класс извлекает информацию о бинарном изображении текста. В классе содержится метод GetLines, который выполняет выделение строк Line из фрагмента текста на основе применения проекции изображения текста на ось Y, построенной с использованием класса HorizontalHistogram. Основные переменные и методы класса TextImageLayout перечислены в табл. 3.14.

Класс Line предназначен для сохранения информации о выделенной строке текста. В классе содержатся координаты верхней и нижней границ выделенной строки; список слов в строке и их количество. Класс Line имеет конструктор, который извлекает информацию о выделенной строке на основе использования метода GetWords, который выделяет слова в строке на основе использования проекции интенсивности строки на ось X. Основные переменные и методы класса Line перечислены в табл. 3.15.

Класс VerticalHistogram предназначен для построения проекции интенсивности изображения текста на ось X. В классе содержатся количество столбцов (ширина) изображения; количество черных пикселей каждого столбца и их максимальное значение; изображение, которое используется для представления данных проекции. Класс VerticalHistogram имеет конструктор, с помощью которого строится проекция интенсивности изображения на ось X, использующаяся для выделения слов в строке текста. Основные переменные и методы класса VerticalHistogram перечислены в табл. 3.16.

Классы для распознавания фрагментов печатных текстов

При реализации разработанных алгоритмов распознавания символов и фрагментов печатных текстов были созданы программы, использующие классы, описанные в разделе 3.2. Данные классы предназначены как исследователям, так и обычным пользователям. Таким образом, были реализованы две программы, предназначенные для указанных категорий пользователей. Первая программа предназначена для исследования различных методов обработки изображений. Эта программа позволяет исследователям наблюдать результаты шагов разработанных алгоритмов. Вторая программа предназначена для обычных пользователей, которые заинтересованы в первую очередь в удобстве использования, а не в гибкости.

Создание пространства собственных символов осуществляется с помощью вкладки «Пространство собственных символов» (рис. 3.9). Вначале пользователю нужно вводить необходимые данные для создания собственных символов. На поле «Обучающая выборка» представлена папка, в которой содержатся изображения символов, используемые для создания собственных символов. Поле «Количество собственных символов» обозначает число собственных векторов ковариационной матрицы, которое соответствует числу использованных признаков при уменьшении размерности вектора признаков. На поле «Папка для сохранения» представлено место для сохранения пространства собственных символов в файле. Кнопки «Загрузить…» открывают стандартный диалог для выбора папки изображений символов или места для сохранения пространства собственных символов. После заполнения всех полей пользователю необходимо нажать кнопку «Создать» для создания пространства собственных символов.

Рисунок 3.9. Вкладка «Пространство собственных символов»

После того как создано пространство собственных символов, данные полученных собственных векторов представляются в виде таблицы, имеющей два столбца: «Собственный вектор» и «Собственное значение» (рис. 3.9). На этих столбцах показываются номер собственного вектора и соответствующее ему собственное значение. Собственные векторы отсортированы по убыванию соответствующих им собственных значений. Кроме того, поле «Значение элементов собственного вектора» позволяет исследователю наблюдать значения элементов выбранного собственного вектора. Папка с изображениями символов состоит из папок, в каждой из которых содержатся изображения только одного класса символа. На рис. 3.10 представлен пример папки с изображениями символов, используемые для создания пространства собственных символов.

Уменьшение размерности вектора признаков символов выполняется с помощью вкладки «Уменьшение размерности вектора признаков» (рис. 3.11). Вначале пользователю необходимо указать используемые изображения символов и пространство собственных символов, предназначенное для уменьшения размерности вектора признаков символов. Данные изображений символов представляются в виде таблицы, состоящей из трех столбцов: «Номер», «Символ» и «Изображение». На этих столбцах показываются номер изображения, название символа и ссылка на изображение. На поле «Пространство собственных символов» представлена ссылка на файл пространства собственных символов. Кнопки «Загрузить…» открывают стандартный диалог для выбора изображений символов или файла пространства собственных символов.

После того как указаны необходимые данные, при выборе изображения символа программа автоматически выделяет вектор признаков выбранного символа и уменьшает его размерность. В результате этого на экране показываются изображение символов размером 6464 пикселя и его 12 локальных частей. На поле «Низкочастотные вейвлет-коэффициенты» представлены значения полученных низкочастотных коэффициентов с использованием вейвлет-преобразования. На поле «Результат уменьшения размерности вектора признаков» приведены значения элементов вектора с меньшей размерностью.

с. Создание классификатора на основе нейронных сетей

Для создания классификатора для распознавания символов на основе нейронных сетей используется вкладка «Классификатор» (рис. 3.12). Рисунок 3.12. Вкладка «Классификатор»

Вначале пользователю нужно заполнить необходимые данные для решения этой задачи. На поле «Обучающая выборка» указана папка с изображениями символов, используемыми для обучения нейронных сетей. Поле «Число входных нейронов» показывает количество нейронов входного слоя нейронных сетей. Минимальная ошибка и максимальное число итераций, использованные в качестве условия завершения обучения нейронных сетей, указаны на полях «Минимальная ошибка» и «Число итераций». На поле «Пространство собственных символов» указана ссылка на файл пространства собственных символов, а на поле «Пака для сохранения» – папка, в которой сохранятся обученные нейронные сети. Кнопки «Загрузить…» открывают стандартный диалог для выбора папки с обучающими изображениями или файла пространства собственных символов или места для сохранения обученных нейронных сетей. После заполнения необходимых данных пользователь нажимает кнопку «Создать» для запуска процесса создания классификатора.

Вначале пользователю необходимо указать изображения распознаваемых цифр, пространство собственных символов и обученные нейронные сети. Данные изображений цифр представляются в виде таблицы, состоящей из трех столбцов: «Номер», «Символ» и «Изображение». На этих столбцах представлены номер изображения, название цифры и ссылка на изображение. На поле «Пространство собственных символов» указана ссылка на файл пространства собственных символов, а на поле «Нейронные сети» – папка, в которой сохранены обученные нейронные сети. Кнопки «Загрузить…» открывают стандартный диалог для выбора изображений распознаваемых цифр или файла пространства собственных символов или папки с файлами обученных нейронных сетей.

После того как указаны необходимые данные, при выборе изображения цифры программа автоматически распознает его указанными нейронными сетями. В результате этого на экране показывается степень близости распознаваемой цифры к каждой цифре обучающей выборки. В дополнение приводятся результаты распознавания как без учета второго предположения, так и с его учетом.

После того как указаны необходимые данные, при выборе изображения символа программа автоматически распознает его с использованием указанных нейронных сетей. В результате этого, на экране показывается степень близости распознаваемого символа к каждому обучающему символу. Также приведены результаты распознавания как без учета второго предположения, так и с его учетом.

Вначале пользователю необходимо указать папку с изображениями символов тестовой выборки, используемые пространство собственных символов и применяемые нейронные сети. Поле «Тестовая выборка» представляет ссылку на папку с изображениями символов тестовой выборки. На поле «Пространство собственных символов» указана ссылка на файл пространства собственных символов, а на поле «Нейронные сети» – папка, в которой сохранены обученные нейронные сети. После заполнения необходимых данных, пользователь нажимает кнопку «Тестировать» для запуска процесса автоматического тестирования. Кнопки «Загрузить…» открывают стандартный диалог для выбора папки с изображениями символов тестовой выборки или файла пространства собственных символов или папки с файлами обученных нейронных сетей.

После того как завершено тестирование, на экране показывают результаты тестирования, представленные в виде таблицы. Таблица результатов тестирования имеет три столбца: «Символ», «Число изображений», «Без учета» и «С учетом». На этих столбцах представляются название символа и соответствующие ему количество изображений, число правильных распознаваний как без учета второго предположения, так и с его учетом.

Тестирование на задаче распознавания печатных символов

Тестирование разработанного алгоритма распознавания фрагмента печатного текста и систем распознавания текста ABBY FineReader 11 и Tesseract осуществлялось на подготовленных 36 фрагментах текстов. Результаты сопоставления распознавания фрагментов печатных текстов, набранных шрифтом Arial, приведены в табл. 4.3. На основе сопоставления результатов распознавания показано, что точность распознавания, достигнутая системой FineReader 11, является наилучшей и составляет 99,94– 100%, точность распознавания системой Tesseract составляет 99,87–100%, а точность распознавания разработанным алгоритмом составляет 97,66– 99,62%.

Наибольшее количество ошибок, возникающих при распознавании разработанным алгоритмом фрагментов печатных текстов шрифта Arial, наблюдается для таких пар символов, как i и j, i и l, e и o, I и l и неразделенных букв rt, rf, ff и ry.

В табл. 4.4 приведены результаты сопоставления распознавания фрагментов печатных текстов, набранных шрифтом Times New Roman. На основе сопоставления результатов распознавания показано, что точность распознавания, достигнутая системой FineReader 11, также является наилучшей и составляет 99,87–100%, точность распознавания системой Tesseract составляет 99,43–99,62%, а точность распознавания разработанным алгоритмом составляет 90,89–98,17%.

Наибольшее количество ошибок, возникающих при распознавании разработанным алгоритмом фрагментов печатных текстов шрифта Times New Roman, наблюдается для таких пар символов, как 1 и l, t и f, r и f, h и b, n и H и неразделенных букв rn, rm, rt, ry, fi, fo, fa, fu и ffi.

На рис. 4.13 представлены усредненные результаты распознавания фрагментов печатных текстов. Результаты распознавания фрагментов текста шрифта Times New Roman в обычном и полужирном начертаниях представлены на рис. 4.13 столбцами 1 и 2. Результаты распознавания фрагментов текста шрифта Arial в обычном и полужирном начертаниях представлены на рис. 4.13 столбцами 3 и 4.

Следует отметить, что для шрифта Arial результаты распознавания разработанным алгоритмом лучше, чем для шрифта Times New Roman. Это объясняется тем, что шрифт Times New Roman является шрифтом с засечками, из-за которых количество неразделенных букв (rn, rm, rt, ry, fi, fo, fa, fu и ffi) для шрифта Times New Roman больше, чем количество неразделенных букв (rt, rf, ff и ry) для шрифта Arial.

Показано, что средняя точность распознавания, достигнутая системой ABBY FineReader 11, составляет 99,95–100%, точность распознавания системой Tesseract OCR составляет 99,51–99,99%, а точность распознавания разработанным алгоритмом составляет 93,65–99,21%.

В данной главе проведено тестирование разработанного алгоритма при распознавании рукописных цифр базы MNIST. Численные эксперименты показали, что при использовании вектора из 49 признаков получен наилучший результат распознавания – 97,5% без учета второго предположения и 99% – с учетом второго предположения.

Результаты экспериментов также показали, что разработанный алгоритм позволяет распознавать рукописные цифры в присутствии шума на изображениях. Следует отметить, что точность распознавания существенно уменьшается, когда уровень шума на изображениях превышает 20%.

В данной главе проведено тестирование разработанного алгоритма на задаче распознавания печатных символов, набранных 8 разными шрифтами. Экспериментальные результаты показывают, что разработанный алгоритм, обученный только символами двух шрифтов, может распознавать символы других шрифтов. Результаты распознавания символов, представленных шрифтами без засечек, лучше и устойчивее, чем результаты распознавания шрифтов с засечками.

Результаты распознавания с учетом второго предположения всегда превосходят результаты распознавания без его учета. Наилучший результат распознавания для большинства шрифтов получен при использовании вектора из 27 признаков. Показано, что разработанный алгоритм также способен эффективно распознавать печатные символы разных шрифтов в присутствии шума на изображениях.

Также проведено тестирование разработанного алгоритма при распознавании фрагментов печатных текстов. Результаты численных экспериментов показывают, что средняя точность распознавания фрагментов печатных текстов, достигнутая разработанным алгоритмом, составляет 93,65–99,21%.

Похожие диссертации на Алгоритмы обработки и анализа символов вейвлет-преобразованием, методом главных компонент и нейронными сетями