Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Разработка и реализация новых принципов автоматического распознавания рукописных документов в компьютерных системах обработки данных Терещенко Вадим Владиславович

Разработка и реализация новых принципов автоматического распознавания рукописных документов в компьютерных системах обработки данных
<
Разработка и реализация новых принципов автоматического распознавания рукописных документов в компьютерных системах обработки данных Разработка и реализация новых принципов автоматического распознавания рукописных документов в компьютерных системах обработки данных Разработка и реализация новых принципов автоматического распознавания рукописных документов в компьютерных системах обработки данных Разработка и реализация новых принципов автоматического распознавания рукописных документов в компьютерных системах обработки данных Разработка и реализация новых принципов автоматического распознавания рукописных документов в компьютерных системах обработки данных Разработка и реализация новых принципов автоматического распознавания рукописных документов в компьютерных системах обработки данных Разработка и реализация новых принципов автоматического распознавания рукописных документов в компьютерных системах обработки данных Разработка и реализация новых принципов автоматического распознавания рукописных документов в компьютерных системах обработки данных Разработка и реализация новых принципов автоматического распознавания рукописных документов в компьютерных системах обработки данных Разработка и реализация новых принципов автоматического распознавания рукописных документов в компьютерных системах обработки данных Разработка и реализация новых принципов автоматического распознавания рукописных документов в компьютерных системах обработки данных Разработка и реализация новых принципов автоматического распознавания рукописных документов в компьютерных системах обработки данных
>

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Терещенко Вадим Владиславович. Разработка и реализация новых принципов автоматического распознавания рукописных документов в компьютерных системах обработки данных : диссертация ... кандидата технических наук : 05.13.06.- Москва, 2000.- 136 с.: ил. РГБ ОД, 61 01-5/1343-X

Содержание к диссертации

Введение

1 Общее описание проблемы 5

2 Анализ литературы 9

2.1 Предобработка изображения 9

2.2 Растровый классификатор 13

2.3 Признаковые классификаторы 13

2.4 Структурные классификаторы 29

2.5 Комбинирование классификаторов 30

2.6 Выводы 31

3 Методы решения поставленной задачи 33

3.1 Содержательная постановка задачи 33

3.2 Структура системы распознавания 35

3.3 Векторное изображение 46

3.4 Признаковый классификатор 53

3.5 Растровый классификатор 61

3.6 Базы изображений 63

3.7 Описание структурных элементов 64

3.8 Выделение структурных элементов 70

3.9 Сопоставление структурного эталона с изображением 76

3.10 Структурный .дифференциальный классификатор 80

3.11 Методика разработки структурных описаний 80

4 Экспериментальные результаты 82

4.1 Результаты испытаний признакового классификатора 83

4.2 Результаты испытаний растрового классификатора 85

4.3 Результаты испытаний полной процедуры распознавания 87

4.4 Сравнение результатов с аналогичными системами 89

4.5 Анализ результатов 89

5 Практическое применение 90

5.1 Обзор реализованных программных систем 90

5.2 Госналогслужба российской федерации. 93

5.3 Пенсионный фонд России 94

5.4 Правительство Москвы 95

5.5 Центр тестирования (министерство образования РФ) 95

5.6 Национальная регистрационная компания 96

5.7 Национальная служба новостей (НСН) 96

Заключение 97

Список литературы

Предобработка изображения

Целью этапа предобработки является приведение изображения символа к виду, оптимальному для его классификации. Принципиальным моментом является то, что "оптимальность" предобработки определяется относительно используемого классификатора. Поэтому задачу выбора алгоритма предобработки нужно решать в контексте используемого классификатора и с учетом требований внешней задачи. Далее приведен обзор основных приемов предобработки, описанных в литературе.

Нормализация размера Нормализация размера изображения символа с сохранением относительного масштаба по его осям - это простейший тип нормализации, который используется в тех случаях, когда при дальнейшей обработке предстоит делать явные или неявные предположения о размере изображения. Примером таких предположений может служить использование растровых точек нормализованного изображения в качестве признаков [4] или использование настроечных параметров, заданных числом точек, а не в метрических единицах.

Нормализация размера без сохранения относительного масштаба осей, т. е. приведение изображения к стандартному размеру (возможно, с белыми полями) уменьшает изменчивость распознаваемого изображения. Однако применение этого типа нормализации требует особой осторожности, поскольку он действительно может сильно упростить задачу классификации только в том случае, если все используемые классы изображений имеют приблизительно одинаковые размерные характеристики, вследствие чего отношение высоты к ширине не является существенным признаком для различения классов. Но если среди входных изображений есть такие, которые отличаются только шириной (например, типографские точка и знак подчеркивания), такая нормализация может привести к потере существенной информации.

Нормализация толщины штриха Толщина штриха не является существенным фактором для различения классов человеком, поскольку один символ никак не может превратиться в другой в результате простого увеличения или уменьшения толщины штриха (в разумных пределах). Учитывая, что классификаторы часто чувствительны к толщине штриха, целесообразно перед распознаванием привести толщину штриха к стандартному значению.

Толщину штриха можно оценить путем расчета средней длины черных участков при пересечении символа горизонтальной или вертикальной прямой в различных местах. Еще один возможный способ оценки толщины штриха основывается на использовании значений периметра и площади изображения символа. При этом делается огрубляющее предположение, что штрих имеет форму вытянутого прямоугольника, ширину которого легко вычислить, зная периметр и площадь.

Нормализация толщины заключается в равномерном расширении или сжатии контура символа на заданную величину. Если в процессе обработки производится векторизация изображения, то в оценке и корректировке толщины штриха можно использовать векторное изображение. Нормализация толщины штриха может производиться как с одинаковым коэффициентом для вертикальных и горизонтальных штрихов, так и с разными коэффициентами. Использование одинакового коэффициента безопаснее с точки зрения внесения неоправданных искажений в изображения символа, но зато использование разных коэффициентов дает возможность сильнее подавить вариабельность символов, поскольку некоторые пишущие инструменты, например перьевая ручка, порождают штрих с толщиной, зависящей от направления движения пера.

Нормализация наклона В задачах распознавания рукописных текстов и при распознавании курсивного типографского текста важно избавиться от влияния наклона символов на значения классификационных признаков. Для этого применяются схемы устранения или нормализации наклона [5]. В отличие от нормализации размера, которую можно применять к каждому символу независимо, исправление наклона символов обычно распространяется на целое слово или на всю строку. Это связано с тем, что по изображению одного символа сложно или даже невозможно априорно вычислить его наклон. Поэтому коррекцию наклона лучше делать в большом фрагменте текста, полагаясь на статистическое сглаживание индивидуальных особенностей символов [6]. Для оценки наклона можно вычислить средний наклон длинных вертикальных штрихов. Такая схема хорошо работает в среднем, но для специфических случаев может давать сбои (например на длинной строке состоящей из одних нулей, у которых нет прямолинейных вертикальных элементов).

Нелинейная нормализация Применительно к ряду задач (в частности, к распознаванию иероглифического письма) были предложены схемы априорной нелинейной нормализации [7]. Обычно такая нормализация задается двумя монотонными непрерывными функциями Fx и Fy, которые отображают исходное изображение в нормализованное так, что точка (х, у) переходит в точку (Fx(x), Fy(y)). Функции Fx и Fy выбираются таким образом, чтобы вдоль соответствующей оси получалось равномерное распределение массы или какого-нибудь другого параметра, например числа переходов "черное-белое". Для алфавитного письма, судя по отсутствию опубликованных работ, использование нелинейной нормализация не получило сколько-нибудь заметного распространения.

Бинаризация При вводе изображения документа в компьютер всегда желательно сохранить максимум информации, присутствующей во входном документе. Современные устройства ввода изображений способны надежно работать не только с черно-белыми (бинарными) изображениями (2 градации), но и с полутоновыми (обычно 16 или 256 градаций) и даже с цветными (обычно это три цвета RGB по 256 градаций на цвет). В идеале система распознавания должна работать с полной информацией на всех этапах обработки изображения. Но, к сожалению, практическая реализация этого подхода сталкивается с существенными трудностями.

Первая, наиболее существенная проблема заключается в том, что полутоновые и цветные изображения занимают, соответственно, в 8 и в 24 раза больше оперативной памяти компьютера, чем бинарные. Во многих ситуациях это приводит к недостижимо высоким требованиям программы к объему доступной оперативной памяти. Кроме того, большой объем данных прямо влияет на время работы программы, что является вторым серьезнейшим аргументом против использования полутоновых и цветных изображений [8]. Вторая проблема заключается в том, что разработанные эффективные методы обработки черно-белых изображений в существенной мере опираются именно на свойство бинарности изображения, как, например, метод выделения по графу связности контура [9].

Содержательная постановка задачи

Важный вывод, который следует из анализа предшествующих работ, заключается в том, что никакой из существующих подходов к построению классификатора не является идеальным. Поэтому для достижения наилучших результатов система распознавания символов должна быть построена как комбинация трех классификаторов: растрового, признакового и структурного.

Растровый классификатор достаточно хорошо изучен и не обладает принципиальными недостатками, препятствующими его использованию. Исходя из этого можно поставить следующую задачу: Реализовать растровый классификатор, выбрав один из описанных в литературе вариантов, и адаптировать его в соответствии с требованиями решаемой задачи.

Создание признакового классификатора требует решения двух задач - выбора системы признаков и выбора решающего правила. Задача создания решающего правила очень хорошо исследована как с теоретической так и с практической стороны. Выбор признаков исследован намного хуже, но существует значительное количество экспериментальных работ, описывающих примеры признаков. С учетом сказанного можно сформулировать следующую задачу: Реализовать признаковый классификатор, выбрав оптимальный набор признаков из описанных в литературе или разработав новые признаки. В качестве решающего правила выбрать один из описанных в литературе вариантов, адаптировав его в соответствии с требованиями решаемой задачи.

Создание структурного классификатора представляет собой наиболее сложную задачу. Описанные в литературе структурные классификаторы не отвечают трем фундаментальным принципам построения структурной системы восприятия -целостности, целенаправленности и использования контекста, которые применительно к общей задаче распознавания образов впервые были сформулированы в [65], и применительно в задаче распознавания рукописных символов описаны в [66, 67, 68, 69, 70,71].

Согласно принципу целостности, распознаваемый объект рассматривается как целое, состоящее из частей, связанных между собой пространственно-метрическими отношениями. Изображение интерпретируется как конкретный объект, только если на нем присутствуют все структурные части этого объекта и эти части находятся в соответствующих отношениях. Сами части получают интерпретацию только в составе предполагаемого целого - гипотезы об объекте.

Согласно принципу целенаправленности, распознавание строится как процесс выдвижения и целенаправленной проверки гипотез о целом, в нашем случае - о символе, изображенном в данном месте строки. Источниками гипотез являются признаковые классификаторы и контекстная информация. Части изображения анализируется не априорно, а только в рамках выдвинутой гипотезы о целом. Традиционный подход, состоящий в интерпретации того, что наблюдается на изображении, заменяется подходом, состоящим в целенаправленном поиске того, что ожидается на изображении.

Использование контекстной информации постулирует, что распознавание объекта должно быть частью интегральной процедуры распознавания более высокого уровня. Процедура распознавания одного символа должна иметь доступ к информации от вышестоящих уровней, например о гипотезе деления слова на символы или об имеющихся контекстных ограничениях. Применительно к распознаванию символов принцип использования контекстной информации можно рассматривать как распространение принципов целостности и целенаправленности на уровень распознавания слов и строк.

Чтобы создать структурный классификатор, удовлетворяющий перечисленным выше принципам, необходимо: а) разработать язык структурных описаний, который позволяет описывать символ как набор структурных элементов, связанных пространственно метрическими отношениями; б) разработать и реализовать алгоритмы поиска на изображении объектов, удовлетворяющих структурному описанию; с) разработать и реализовать программную систему, позволяющую составлять и настраивать структурные описания символов и визуализировать результаты их сопоставления. Хорошо известно, что с ростом числа классов сложность классификатора растет, в то время как его точность падает. С этой точки зрения наиболее простым случаем является выбор одного их двух возможных классов. Однако такой классификатор на первый взгляд не применим к задаче распознавания символов, т.к. число классов в реальных задачах может достигать 100 и более. Тем не менее можно создать гибридную систему, которая будет объединять обычный классификатор на полное число классов и большое количество парных классификаторов, призванных различать часто путающиеся пары символов. Практическая реализация этой идеи применительно к распознаванию рукописных символов требует решения следующих задач: а) разработать язык описания парных классификаторов, который позволяет программировать индивидуальные признаки для каждой пары путающихся символов; б) разработать и реализовать программную систему, позволяющую создавать значительное количество ( 1000) специализированных парных классификаторов за приемлемое время; в) разработать и реализовать процедуру комбинирования классификаторов, которая способна объединить несколько полных классификаторов и очень большое количество парных классификаторов. Входные и выходные данные системы распознавания

Входными данными для системы распознавания одиночного символа является изображение изолированного символа в растровом виде. Выходные данные модуля распознавания представляют собой совокупность двух компонентов:

1. Упорядоченного по вероятности списка гипотез о классе, к которому принадлежит входное изображение, с указанием относительной достоверности каждой из них.

2. Прогноза степени достоверности результата распознавания в целом, т. е. оценку абсолютной вероятности того, что входное изображение относится к первому в списке классу, а не является, например, "случайным мусором".

Следует отметить, что требования к выходным данным классификатора отличаются от тех, которые выдвигались в первых системах распознавания [72]. Изначально от классификатора требовалось лишь определить наиболее вероятного кандидата, т. е. список состоял всего из одной позиции. При этом никакого ранжирования результатов распознавания по доверительной вероятности не производилось. Такая постановка задачи годится только для применявшейся ранее линейной схемы распознавания текста, когда текст сначала разделяется на строки, потом строки разделяются на символы, а результат распознавания символа является окончательным результатом работы системы. Линейная схема обработки подразумевает, что предыдущий этап полностью завершается до начала следующего. Она обладает одним принципиальным недостатком: решение на каждом этапе принимается в условиях отсутствия информации от последующих этапов. Тем не менее, если есть несколько возможных вариантов деления слова на символы, то для выбора правильного варианта полезно использовать результаты распознавания символов, так как при неверном делении на символы классификатор обычно выдает результат с малой степенью достоверности. Также очень полезными для выбора варианта деления на символы являются результаты проверки распознанного слова по словарю. Преимущественная тенденция, используемая при разработке современных схем распознавания, состоит в том, чтобы откладывать окончательное решение на максимально поздний этап. Это реализуется путем разнообразных схем перебора и обработки с возвратами [73].

Отход от линейной схемы обработки определил выдвижение повышенных требований к классификатору - выдавать помимо класса еще и общую оценку степени достоверности полученного результата. Эта оценка используется, в первую очередь, для принятия решения о выборе линейного деления на символы.

Результаты испытаний признакового классификатора

Как следует из приведенных экспериментальных данных, свойства классификаторов полностью соответствуют ранее приведенным качественным характеристикам. Особо следует отметить повышение точности, даваемое структурным уровнем. Хотя оно проявляется во всех множествах, участвовавших в измерениях, ярче всего это явное улучшение проявилось при распознавании цифр, где растровый классификатор имеет точность 96.6%, признаковый - 99.0%, а добавление структурного классификатора позволяет поднять точность до 99. 6%.

Более низкая точность на русском и английском алфавитах объясняется как большим набором символов, участвующих в распознавании, так и наличием патологических "близнецов", т. е. пар символов, между которыми нет четкой границы. Например, казалось бы достаточно непохожие буквы "Н" и "И" у разных людей могут выглядеть совершенно одинаково, т. е. букву "Н", написанную одним человеком, другой человек с уверенностью может принять за "И".

Важной характеристикой классификатора является точность по первым трем вариантам, т. е. процент символов, для которых правильная гипотеза оказалась не ниже третьего места. Это обусловлено тем, что информация о контексте, т. е. словарь и языковые модели, могут исправить ошибку распознавания только в том случае, если правильный вариант располагается не очень глубоко. Например, применительно к английским заглавным буквам точность первого варианта равна всего лишь 98.13%, тогда как по первым трем вариантам она возросла до 99.78%.

После контекстной обработки точность повышается более чем в 8 раз. Для русских заглавных букв ситуация аналогичная - достигается повышение точности распознавания с 98.57% до 99.75%, т. е. в 6 раз. Таким образом, при наличии полноценной контекстной обработки символов распознаваемого текста можно сократить число ошибок до уровня 0.25% и ниже.

Описываемая система распознавания одиночных символов используется в семействе программных средств FineReader, разработанном компанией «ABBYY». Это ПО предназначено для автоматического ввода в компьютер текста, таблиц, форм, опросных листов, бланков и других документов, содержащих как печатные, так и рукописные символы.

Основным продуктом для ввода рукописных документов является программный комплекс FineReader Рукопись. Он продается во всех странах Западной и Восточной Европы, Северной Америки и Австралии. Ко времени написания диссертационной работы было продано более 550 копий продукта FineReader Рукопись.

Полная линия FineReader включает в себя: FineReader 4.0 Standard - система распознавания печатных документов на 53 языках. Имеет пакетный режим работы, сохраняет оформление документа, включая таблицы, поддерживает фоновое распознавание, многопроцессорную работу, содержит модуль обучения новым символам. Система экспортирует результаты напрямую в MS Word, MS Excell, Word Perfect, Word Pro или сохраняет в форматах RTF, TXT, DOC, CSV, XLS, DBF, HTML.

FineReader 4.0 Professional - система распознавания печатных документов на 53 языках. Обеспечивает автоматизированный ввод таблиц и форм в базы данных, включает дизайнер шаблона форм, работает в режиме клиент-сервер, позволяет создавать новые языки, распознает штрих-коды и многое другое.

FineReader 4.0 Рукопись - система распознавания нестилизованных рукописных символов и цифр. Предназначена для автоматизированного ввода в информационные системы машиночитаемых форм, заполненных печатными символами от руки. Это всевозможные чеки, квитанции, регистрационные карточки, заявления, анкеты, избирательные бюллетени и т. п. Содержит настраиваемый автоматический контроль результатов распознавания с помощью регулярных выражений, контрольных правил, сверки по базе данных; автоматический подбор шаблона формы; экспорт через ODBC в базы данных и многое другое.

FineReader Bank— система распознавания платежных поручений старого и нового образца и других «гибких» форм. В категорию «гибких» форм входят все формы, расположение полей в которых не зафиксировано геометрически. Это общее свойство практически всех финансовых документов используемых в России: платежных поручений, балансовых отчетов, справок о доходах, счетов, накладных и пр.

Перед Министерством Налогов и Сборов Российской федерации в 1998 и 1999 годах встала проблема ввода форм справок о доходах и налоговых деклараций, общий объем которых в 1998 году составил 4 000 000 комплектов. Это 28 000 000 страниц или 30 полных пятитонных трейлеров. Как ввести такой объем документов?

До сих пор тысячи сотрудников по всей России в течение многих месяцев занимались черновой работой по «набивке» деклараций вместо того, чтобы заниматься сбором налогов с платежеспособных граждан, тем самым обеспечивая зарплату врачам, учителям, ученым и т.д.

Сегодня налоговая служба выбрала другой путь - менее затратный и существенно более продуктивный. Начиная с осени 1997 года в России введены машиночитаемые формы налоговых деклараций со справок о доходах. Эксперты ABBYY приняли непосредственное участие в их разработке. К лету 1998 года Министерством Налогов и Сборов разработана и введена в строй система ввода налоговых деклараций со правок о доходах. Компания ABBYY разработала подсистему ввода информации на основе FineReader Рукопись. Скорость работы системы может достигать 4 000 страниц в час.

Без верификации FineReader Рукопись допускает в 2 раза меньше ошибок, чем профессиональная машинистка в начале рабочего дня, и в 3 раза меньше, чем та же самая машинистка вечером, в конце рабочего дня. Кроме того, программа автоматически проверяет входную информацию используя справочники, базы данных, сравнивая сумму цифрами и сумму прописью и т. д. Благодаря применению FineReader Рукопись Министерство Налогов и Сборов России стало одним из первых налоговых ведомств в мире, осуществивших автоматический массовый ввод налоговых деклараций.

В настоящее время наши системы на основе FineReader Рукопись используется в Государственной Налоговой Инспекции в Москве, где стоят два мощных промышленных комплекса ввода налоговых документов (налоговых деклараций, отчетности), производительностью по 10 деклараций в минуту каждый. Такой же комплекс развернут в Санкт-Петербурге. Менее мощные комплексы расположены в ГНИ Московской обл., Тульской обл., Нижегородской обл., Ямало-Ненецком АО, Ростовской обл., и Волгоградской обл. Производительность комплекса с одним оператором составляет около 60 тринадцатистраничных деклараций в час, с двумя операторами - около 120 деклараций в час. Эти цифры официально подтверждены в ряде испытаний, например, в Тульской областной инспекции. На форме «Справках о доходах» расчетная производительность составляет около 360 Справок в час на одного оператора.

Обзор реализованных программных систем

В рамках программы Московского Правительства по поддержке малого предпринимательства указом мэра Москвы Юрию Лужкова была поставлена задача по организации Реестра малых предприятий столицы. Малые предприятия (около 300 000) должны заполнить машиночитаемую форму установленного образца (разработанную ABBYY) и ряд других документов. Все материалы, включая рукописную анкету, подлежат автоматизированному вводу в базы данных. Периодически будет проходить обновление сведений, которые также будут автоматически вводиться в компьютер. По договору ABBYY был разработан Типовой Технологический Участок Ввода Данных (ТТУ-ВД) на основе технологии FineReader Рукопись, который успешно прошел испытания на одном из 20 организуемых Регистрационных участках.

Компания ABBYY решала в рамках данного проекта задачу создания тиражируемого технологического участка, обеспечивающего автоматизированный ввод данных в информационную систему. Адаптация ТТУ-ВД к конкретным задачам заказчика составила всего 1-2 недели, так как основные функции распределенной обработки и контроля ввода уже заложены в ПО FineReader Рукопись. Разработка типового комплекса значительно упростила дальнейшее внедрение системы, сократив затраты на создание новых пунктов регистрации.

Федеральный Центр Тестирования выпускников общеобразовательных учреждений РФ, находящийся под патронажем Министерства Образования РФ, предоставляет выпускникам возможность пройти тестирование. Согласно приказу Министерства общего и профессионального образования РФ о централизованном тестировании выпускников, школам и Вузам рекомендовано засчитывать результаты тестирования в качестве выпускных и вступительных экзаменов соответственно. Представительства Центра существуют более, чем в 100 Вузах России. В 1997 году по результатам тестирования проходил прием в 128 Вузах страны, экзамены сдавали около 150 тыс. человек. В 1998 году планируется протестировать более 400 тыс. человек, поэтому было принято решение автоматизировать обработку данных. Во время сдачи теста, отвечая на вопросы экзаменатора, тестируемый заполняет машиночитаемую анкету, разработанную компанией ABBYY. Затем данные со всех анкет вводятся в компьютер на Типовом Технологическом Участке Ввода Данных на основе технологии FineReader Рукопись, и через 10 дней результаты экзамена сообщаются всем экзаменуемым.

ЗАО «Национальная Регистрационная Компания» (НРК) является одним из лидеров в сфере предоставления регистрационных услуг. Регистрационные компании — это важнейший структурный элемент фондового рынка. НРК располагает наиболее современной технологической компьютерной базой и программным обеспечением, которые позволяют предоставлять клиентам услуги, во многих случаях уникальные в России по степени информативности, надежности и безопасности.

По контракту с РАО «Норильский никель» НРК должен был провести чрезвычайно собрание акционеров РАО «Норильский никель» в июне 1996 года и голосование акционеров в июне 1997 года. Процесс голосования в обоих случаях был автоматизирован. В фойе зала был развернут комплекс по вводу бюллетеней для голосования на основе системы FineReader 3.0 компании ABBYY, который позволял обрабатывать 1500 анкет за 10 минут.

Национальная Служба Новостей (НСН) — обладатель уникального электронного архива российской прессы, содержащего на сегодня 1,5 млн. единиц хранения. Круглосуточно в три смены НСН вводит в свой электронный архив более сотни широко известных газет и журналов, выходящих в Москве и крупнейших городах России — 116 изданий, суммарный объем которых эквивалентен двум тысячам страниц машинописного текста в сутки. Вся эта гигантская работа выполняется с помощью 7 сканирующих и 10 распознающих станций, управляемых системой FineReader компании ABBYY.

В данной работе поднята проблема автоматического ввода рукописных документов в компьютер. На примере типовой системы было показано, что решающее значение на эффективность процесса ввода оказывает точность распознавания рукописных символов. В результате была поставлена задача - создать классификатор, существенно превосходящий по точности существующие.

Проведенный анализ литературы показал, что наиболее слабым местом современных систем распознавания являются применяемые принципы построения и комбинирования классификаторов, которые не позволяют целенаправленно использовать всю имеющуюся на изображении символа информацию для достижения максимальной точности. Предварительное извлечение признаков приводит к потере информации, а классификация сосредоточивается на решении задачи выбора лучшего из N классов, которая изначально более сложна, чем задача выбора лучшего из двух классов. Были предложены новые подходы к построению классификатора, которые базируются на принципах целостности, целенаправленности и использования контекста, и новые методы комбинирования классификаторов, основанные на использовании массовых парных дифференциальных классификаторов.

В результате были разработана и реализована система распознавания символов, которая основывается на многоуровневой комбинации классификаторов: трех полных (растрового, признакового и структурного), и большого количества парных дифференциальных классификаторов.

Для реализации структурного классификатора был разработан новый язык структурных описаний, который позволяет описывать символ как набор структурных элементов, связанных пространственно-метрическими отношениями. Были разработаны и реализованы алгоритмы поиска объектов на изображении, удовлетворяющих структурному описанию, и программная система, позволяющая составлять и настраивать структурные описания символов и отображать результаты их сопоставления. Для создания парных дифференциальных классификаторов были разработаны и реализованы язык описания парных классификаторов, который позволяет программировать индивидуальные признаки для каждой пары путаемых символов, и программная система, позволяющая создавать большое количество парных классификаторов за приемлемое время.

Была разработана новая схема комбинирования классификаторов, которая уточняет результаты основных классификаторов, использую результаты работы массовых парных дифференциальных классификаторов.

Предложенные подходы к построению классификатора были реализованы в виде программной системы "FineReader Рукопись" и доведены до уровня промышленного использования. Разработанный модуль распознавания одного символа вошел в состав полной системы ввода документов, который был внедрен в эксплуатацию в нескольких десятках организаций.

Дальнейшие направления исследований возможны в области поиска наиболее эффективных средств описания структурных эталонов, развитии методов построения дифференциальных классификаторов, разработке процедур автоматического создания структурных эталонов. Остается актуальной и задача сбора репрезентативных баз символов в различных предметных областях.

Похожие диссертации на Разработка и реализация новых принципов автоматического распознавания рукописных документов в компьютерных системах обработки данных