Адаптивное распознавание и его применение к системе ввода печатного текста Славин, Олег Анатольевич

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Славин, Олег Анатольевич. Адаптивное распознавание и его применение к системе ввода печатного текста : диссертация ... доктора технических наук : 05.13.01 / Славин Олег Анатольевич; [Место защиты: Ин-т систем. анализа РАН].- Москва, 2011.- 310 с.: ил. РГБ ОД, 71 12-5/41

Введение к работе

Актуальность темы: Рост научно-технического прогресса и его успехи в компьютерной отрасли привели к качественным изменениям в обработке документов, содержащих текстовую информацию. Современные возможности сканирования документов и реализации трудоемких алгоритмов распознавания делают возможным автоматизировать ввод документов в компьютер. Программы распознавания текстовых документов являются сложными программными средствами, реализующими большое число наукоемких алгоритмов. Настоящая диссертация посвящена проблемам распознавания текстов в рамках создания и функционирования персональных и профессиональных программных систем ввода документов в компьютер.

Можно выделить три типа задач распознавания образов. Первый тип – с заранее известным описанием классов, заданных строго и однозначно. Второй тип – с заранее известным числом и описанием классов с нестрогими описаниями. Третий тип – с заранее неизвестными классами, к которым требуется отнести объекты.

Задачи первого типа успешно решаются с использованием компьютера, задачи второго типа – менее успешно, задачи третьего типа практически не решаются, так как число классов для компьютерного распознавания сильно ограничено.

В диссертационной работе рассматриваются в основном задачи второго типа, как наиболее распространенные в реальности. Однако даже они далеки от окончательного решения. Так, в случае обработки изображений плохого качества, в случае различных искажений символов, возникающих, например, на краях отсканированных страниц, в случае не вполне стандартного начертания некоторых символов программы распознавания могут давать большее число ошибок, чем при обработке однородных текстов. В то же время человек, как правило, уверенно распознает текст даже плохого качества, напечатанный малознакомым шрифтом. Успешное распознавание текста человеком нередко происходит за счет адаптации к конкретной странице. При этом сомнительные символы сравниваются с четко напечатанными символами, в построенном шрифте проверяется наличие тех или иных символов, производится сопоставление с известными словами.

Таким образом, разработка новых высокоточных алгоритмов распознавания текстов, равно как и улучшение уже существующих алгоритмов представляется актуальной задачей.

Предметом диссертации является разработка алгоритма адаптивного распознавания текстовых документов, цель которого состоит в перестройке механизма принятия решений, поддерживаемого системой распознавания образов, направленная на обеспечение максимального соответствия особенностям графических образов, использованных при печати документов.

Целями диссертации являются:

1) создание модели адаптивного распознавания, учитывающей искажения образов символов отсканированных документов и основанной на нескольких механизмах: геометрическом распознавании символов, статистических методах кластеризации, сегментации границ символов, словарных механизмах;

2) разработка алгоритмов адаптивного распознавания, направленных на учет особенностей отсканированного документа в различных механизмах распознавания и обеспечивающих оптимизацию нескольких характеристик качества таких как точность распознавания, монотонность оценок и быстродействие;

3) доказательство работоспособности разработанных алгоритмов адаптивного распознавания с помощью формальных исследований и имитационного моделирования;

4) реализация алгоритмов адаптивного распознавания в составе модульной системы распознавания отсканированных документов.

Методология исследования. В работе для проведения исследований были использованы математические методы обработки изображений и распознавания образов, математический аппарат искусственных нейронных сетей, методы теории алгоритмов, машинной графики, а также концепции и методы имитационного моделирования.

Научная новизна работы состоит в следующем:

создана модель адаптивного распознавания, позволяющая перестраивать функционирование алгоритмов распознавания отдельных символов, алгоритмов сегментации границ символов, алгоритмов словарной коррекции;

реализован алгоритм быстрой кластеризации на основе метода ближайшего соседа и метода цепной развертки, позволяющий разбить множество распознанных образов на группы, соответствующие одноименным символам с одинаковыми атрибутами;

предложен и реализован метод построения эталонов, основанный на анализе кластеров, поиске шрифтов, имеющихся в распознаваемом тексте, позволяющий повысить точность распознавания символов и монотонность оценок;

разработан и реализован алгоритм сегментации границ символов, основанный на использовании эталонов, сформированных на основе результатов кластеризации, позволяющий существенно повысить как точность сегментации, так и точность распознавания;

проведено теоретическое обоснование влияния расстояний при параллельном переносе при наложении двух изображений и доказана теорема о малом сдвиге при поиске оптимального наложения.

разработаны приложения адаптивного распознавания в сжатии бинарных изображений.

Практическая ценность и реализация результатов работы. Основным практическим результатом работы является разработка алгоритма адаптивного распознавания и его использование в системах ввода документов в компьютер.

Диссертация состоит из шести глав, введения, заключения и списка литературы. Работа изложена на 275 страницах машинописного текста, содержит 53 иллюстрации, 120 таблиц и два приложения объемом 16 страниц. Список литературы включает 174 наименования.

Результаты диссертационной работы были использованы при реализации алгоритма адаптивного распознавания, являющегося составной частью программы распознавания текстов OCR Cognitive Cuneiform, начиная с 1996 года.

По теме диссертации опубликовано более 20 работ, 16 из них опубликованы в рецензируемых научных изданиях, рекомендуемых ВАК; зарегистрированы патент на изобретение и патент на полезную модель.

Основные результаты диссертации опубликованы в работах, список которых приведен в конце автореферата.

Апробация результатов диссертации. Результаты диссертации докладывались и обсуждались на семинарах Института системного анализа РАН под руководством чл.-корр. РАН В.Л. Арлазарова и д.т.н. Н.Е. Емельянова. По материалам диссертации был сделан ряд докладов на международных конференциях «Системный анализ и информационные технологии» в 2005, 2007 и 2009 г.

Личный вклад автора. Основные научные результаты диссертационной работы принадлежат лично автору. Ряд экспериментальных данных получен разработчиками системы распознавания Cuneiform, в которой автор являлся инициатором разработок, формулировал теоретические и экспериментальные задачи, намечал пути их решения, разрабатывал методики исследований, участвовал в разработке программного обеспечения.

Положения, выносимые на защиту:

метод адаптивного распознавания текстового документа, состоящий из пяти этапов, необходимых для самообучения на результатах распознавания текстовых строк, позволяет производить распознавание с высокой точностью и высокой монотонностью оценок распознавания;

способ формирования обучающей последовательности, основанный на комбинировании монотонных оценок распознавания и подтверждения словарем, позволяет достичь надежности подтверждения символа 0,9999;

функции сравнения бинарных образов, основанные на метрике Хэмминга и на симметрике, использующей единичную окрестность, позволяют кластеризовать множество бинарных образов символов с приемлемым качеством;

задача поиска параллельного переноса эталонного изображения, при котором его совпадение с тестируемым изображением максимально, обладает оптимальным решением; для достижения оптимального наложения двух фигур достаточно малых сдвигов в том случае, когда мера несовпадения при малых сдвигах незначительна;

моделирование процессов оцифровки, проведенное на большом объеме имитационных и реальных образов, позволяет показать адекватность модели оцифровки и выбрать параметры модели для кластеризации и построения обобщенных портретов;

разработанная модель образа кластера в форме разбиения на слои, равноудаленные от общей области, позволяет стабильным способом формировать обобщенные портреты символов;

метод построения эталонов, базирующийся на анализе кластеров и поиске шрифтов, которыми был напечатан отсканированный документ, позволяет при повторном распознавании образов и сегментации границ символов достичь высокой монотонности оценок распознавания и точности распознавания при незначительных временных затратах;

приложение адаптивного распознавания для сжатия бинарных изображений обеспечивает как уменьшение объема изображения, так и различные режимы хранения и воспроизведения изображений.

Адаптивное распознавание и его применение к системе ввода печатного текста Славин, Олег Анатольевич

Похожие диссертации на Адаптивное распознавание и его применение к системе ввода печатного текста