Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Технология извлечения табличной информации из электронных документов разных форматов Шигаров Алексей Олегович

Технология извлечения табличной информации из электронных документов разных форматов
<
Технология извлечения табличной информации из электронных документов разных форматов Технология извлечения табличной информации из электронных документов разных форматов Технология извлечения табличной информации из электронных документов разных форматов Технология извлечения табличной информации из электронных документов разных форматов Технология извлечения табличной информации из электронных документов разных форматов Технология извлечения табличной информации из электронных документов разных форматов Технология извлечения табличной информации из электронных документов разных форматов Технология извлечения табличной информации из электронных документов разных форматов Технология извлечения табличной информации из электронных документов разных форматов Технология извлечения табличной информации из электронных документов разных форматов Технология извлечения табличной информации из электронных документов разных форматов Технология извлечения табличной информации из электронных документов разных форматов
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Шигаров Алексей Олегович. Технология извлечения табличной информации из электронных документов разных форматов : диссертация ... кандидата технических наук : 05.25.05 / Шигаров Алексей Олегович; [Место защиты: Ин-т вычисл. технологий СО РАН].- Иркутск, 2010.- 142 с.: ил. РГБ ОД, 61 10-5/1450

Содержание к диссертации

Введение

Глава 1. Анализ процесса извлечения табличной информации 11

1.1. Таблицы в документах 11

1.2. Статистические таблицы 13

1.3. Форматы входных данных 15

1.4. Метафайлы 20

1.5. Известные методы и системы 23

1.6. Технология извлечения табличной информации 29

Глава 2. Обработка страниц документов 33

2.1. Обрабатываемые таблицы 33

2.2. Система координат 34

2.3. Модель страницы документа 35

2.4. Выделение вертикальных промежутков 42

2.5. Выделение горизонтальных промежутков 49

2.6. Обработка метафайлов 49

2.7. Предобработка страницы 53

2.8. Обнаружение таблиц на странице документа 56

Глава 3. Анализ и обработка таблиц 71

3.1. Модель таблицы 71

3.2. Предобработка таблицы 73

3.3. Анализ функций ячеек таблицы 73

3.4. Сегментация таблицы 82

3.5. Модель структурного описания таблицы 91

3.6. Структурный анализ таблицы 93

Глава 4. Практическое применение результатов 99

4.1. Информационная система извлечения табличной информации 99

4.2. Представление структурных описаний таблицы в XML 104

4.3. Экспериментальная оценка 106

4.4. Автоматизация ввода информации в базу данных 110

Заключение 119

Литература 121

Приложение

Введение к работе

Актуальность исследования. Таблицы являются одним из наиболее используемых способов представления информации в документах. Часто такая табличная информация изначально представлена в базах данных. Однако базы данных не всегда доступны, открыты, содержат полную информацию. В связи с этим актуальность приобретают методы, системы и технологии извлечения табличной информации из документов, которые позволяют преобразовать её к требуемому виду, например, к отношениям в реляционных базах данных.

Актуальность данной проблематики подчеркивается в обзорах авторов Handley J.C. (1999) [17], Lopresti D. и Nagy G. (1999, 2000) [42, 43], Zanibbi R. (2004) [73, 74], Embley D.W. (2006) [10, 11], e Silva A.C. (2006) [9], Полевого Д. В. (2007) [84]. В литературе выделяется несколько задач связанных с извлечением табличной информации: 1) обнаружение — поиск на страницах документов областей, ограничивающих таблицы; 2) сегментация — разделение таблицы на отдельные ячейки, строки, столбцы; 3) анализ функций ячеек — определение того, какие функции выполняют отдельные ячейки таблицы (являются ли они заголовками или данными); 4) структурный анализ — определение связей между ячейками таблицы.

Несмотря на то, что в последние годы появились работы, в которых предлагаются некоторые методы и системы извлечения табличной информации из документов, нельзя считать эту проблему полностью решенной. Сложность автоматического извлечения табличных данных во многом обусловлена большим разнообразием форм изображения таблиц. Известные методы и системы преимущественно ориентированы па заранее определенные структуры и особенности таблиц, которые связаны со стандартами выбранной предметной области. От этого во многом зависит их эффективность. При этом они,

как правило, решают только отдельные задачи, например, только обнаружение или сегментацию таблиц.

Автоматическое обнаружение и сегментация таблиц выполняется в некоторых системах оптического распознавания текста, например, «OmniPage» (Nuance Communications), «Cuneiform» (Cognitive Technologies), «FineReader» (ABBYY). Перечисленные системы ориентированы на «решёточную» структуру таблиц, характерную табличным процессорам, например, Excel. Это снижает их эффективность для обнаружения и сегментации таблиц со сложными структурами заголовков. Кроме того, оптическое распознавание символов выполняется с потерями информации. В системах «PDF2XL» (Cogniview) и «Solid Converter PDF» (Solid Documents), в частности, выполняется преобразование таблиц из документов PDF в файлы Excel/Word. Эти системы также ориентированы на «решёточную» структуру таблиц и выполняют только их обнаружение и сегментацию.

В статистических отчетах (государственных, медицинских, финансовых) основная информация представлена в виде так называемых статистических таблиц1. Вне зависимости от национальной или корпоративной принадлежности такие таблицы обладают достаточно схожей структурой. Большинство таких отчетов доступно в электронном виде, где таблицы, как правило, являются машиночитаемым текстом, т. е. электронным текстом, который хранится в виде строк символов. Однако в литературе не представлены методы или системы извлечения табличной информации, которые с одной стороны являются комплексными, т. е. выполняют обнаружение, сегментацию, анализ функций ячеек и структурный анализ таблиц, а с другой стороны ориентированы на структуру и особенности статистических таблиц, в частности, публикуемых Росстатом. Таким образом, разработка комплексной техноло-

1 «Большая советская энциклопедия. Изд. 3-е» - М.: Советская энциклопедия. Т.25 «Струшшо-Тихорецк». 1976. С. 161-162.

гии извлечения табличной информации, которая ориентирована па структуру и особенности статистических таблиц, представленных в виде машиночитаемого текста в электронных документах, является актуальной задачей.

Цель диссертационной работы состоит в создании технологии извлечения табличной информации из электронных документов разных форматов, которая автоматизирует обнаружение, сегментацию, анализ функций ячеек и структурный анализ статистических таблиц.

Основные задачи диссертационной работы.

  1. Анализ представления статистических таблиц в документах.

  2. Разработка моделей страницы документа и таблицы, предназначенных для представления данных в процессе извлечения табличной информации из электронных документов, на основе проведенного анализа.

  3. Разработка методов автоматического обнаружения, сегментации, анализа функций ячеек и структурного анализа статистических таблиц на основе предложенных моделей.

  4. Разработка информационной системы извлечения табличной информации из электронных документов на основе предложенных методов.

  5. Проверка созданной технологии на задачах автоматизации ввода больших объемов табличной информации из электронных статистических отчетов в базы данных.

Методы исследования: теория множеств, теория баз данных, методы машинной графики, объектно-ориентированное программирование.

Научная новизна. Впервые предложена технология извлечения табличной информации, представленной в виде машиночитаемого текста в электронных документах разных форматов, которая ориентирована на структуру

и особенности статистических таблиц и является комплексной, т. е. выполняет их обнаружение, сегментацию, анализ функций ячеек и структурный анализ.

Практическая значимость. Результаты диссертационной работы могут использоваться в задачах извлечения информации и управления данными. В частности, предлагаемая технология может использоваться для автоматизации ввода в базы данных информации из статистических таблиц, представленных в виде машиночитаемого текста в электронных документах разных форматов. При этом данная технология позволяет снизить затраты и повысить качество формирования баз данных. Работа выполнена при поддержке РФФИ, грант 09-07-12017-офи_м.

Внедрение. Результаты диссертационной работы успешно использовались в Министерстве сельского хозяйства Иркутской области для ввода информации из электронных статистических отчетов Территориального органа федеральной службы государственной статистики по Иркутской области (Ир-кутскстата) в базу данных (БД) автоматизированной информационной системы (АИС) «Каскад». Предлагаемая технология внедрена в Институте систем энергетики им. Л.А. Мелентьева СО РАН, где используется при создании хранилища данных в составе информационной инфраструктуры исследований в энергетике.

Защищаемые положения.

  1. Модель страницы документа, которая служит для представления данных страницы, используемых в процессе извлечения табличной информации.

  2. Модель структурного описания таблицы, которая предназначена для представления табличных заголовков и данных, а также связей между ними.

  3. Методы обнаружения, сегментации, анализа функций ячеек и структур-

ного анализа статистических таблиц, которые обеспечивают извлечение и структурирование табличной информации, содержащейся в электронных документах.

Личный вклад автора. Основные результаты диссертационной работы получены автором лично, а именно: предложены модель страницы документа, эвристические методы обнаружения, сегментации, анализа функций ячеек и структурного анализа статистических таблиц; разработана информационная система для извлечения табличной информации из метафайлов EMF (Enhanced Metafiles); создана технология извлечения табличной информации из электронных документов разных форматов. В неделимом соавторстве с А.Е. Хмельновым получена модель структурного описания таблицы. В неделимом соавторстве с А.Е. Хмельновым, И.В. Бычковым и Г.М. Руж-никовым получено применение предлагаемой технологии для автоматизации ввода статистической информации в базу данных АИС «Каскад». В работах [89-91, 94, 95] автором лично предложен эвристический метод обнаружения таблиц и технология извлечения табличной информации из электронных документов разных форматов. В работах [92, 97-99] автором в неделимом соавторстве с А.Е. Хмельновым предложена модель структурного описания таблицы.

Представление работы. Основные результаты работы докладывались на научно-практических конференциях: Международной конференции «Математические и информационные технологии» (Будва, Черногория, 2009 г.); IX международной конференции «Распознавание образов и анализ изображений: новые информационные технологии» (Нижний Новгород, 2008 г.); XII, XIII и XIV всероссийской конференции «Информационные и математические технологии в науке и управлении» (Иркутск, 2007, 2008, 2009 гг.); Всероссийской конференции «Математическое моделирование и вычислительно-инфор-

мационные технологии в междисциплинарных научных исследованиях» (Иркутск, 2009 г.); VI и IX школе-семинаре «Математическое моделирование и информационные технологии» (Иркутск, 2005, 2007 гг.); Школе-семинаре молодых ученых «Информационные технологии и моделирование социальных эколого-экономических систем» (Иркутск, 2008 г.); семинаре «Ляпуповские чтения и презентация информационных технологий» (Иркутск, 2007, 2008, 2009 гг.).

Публикации. По теме диссертации опубликовано 12 научных работ [88-99], в т.ч. 3 публикации [88-90] в изданиях, рекомендованных ВАК. Получено 4 свидетельства об официальной регистрации программ для ЭВМ в Роспатенте [100-103]: Ж№ 2008614328, 2008614330, 2008614331, 2008614332 (2008 г.).

Технология извлечения табличной информации

Анализ известных подходов, методов и систем извлечения табличной информации из документов, показал, что разработка технологии, комплексно выполняющей задачи извлечения статистических таблиц — обнаружение, сегментацию, анализ функций ячеек и структурный анализ таблиц, представленных в виде машиночитаемого текста в электронных документах разных форматов, является актуальной задачей.

Предлагаемая в диссертации технология включает следующие компоненты. 1. Виртуальный EMF-принтер, позволяющий преобразовывать (печатать) электронные документы разных форматов в метафайлы. 2. Информационная система извлечения табличной информации из метафайлов, которая позволяет автоматически и полуавтоматически выполнять обнаружение, анализ функций ячеек, сегментацию и структурный анализ таких таблиц. 3. Интерпретаторы структурных описаний извлеченных таблиц, которые позволяют преобразовывать их к требуемым видам.

Предлагаемая технология состоит из следующих этапов. 1. Преобразование (печать) электронных документов разных форматов в метафайлы. 2. Получение данных (текста и разграфки) из метафайлов. 3. Обнаружение таблиц на страницах. 4. Анализ функций ячеек таблицы. 5. Сегментация таблицы. 6. Структурный анализ таблицы. 7. Представление структурных описаний в XML. 8. Интерпретация структурных описаний в зависимости от конкретных предметных задач и преобразование их к требуемому виду. На Рис. 1.4 представлена схема, демонстрирующая основные компоненты и этапы предлагаемой технологии. Стрелками на этой схеме показаны потоки данных в предлагаемой технологии.

Электронные документы разных форматов, например, DOC, RTF, XLS, PDF, plainext (ASCII-текст), HTML, содержащие таблицы в виде машиночитаемого текста, печатаются с помощью виртуального EMF принтера в метафайлы. При этом каждый полученный метафайл представляет одну страницу исходного документа.

Полученные метафайлы передаются в информационную систему извлечения табличной информации, где из них извлекается машиночитаемый текст и графические линейки. Данные, полученные из метафайла, относятся к одной странице. Каждая страница обрабатывается отдельно от других. На стра нице выполняется обнаружение таблиц, результатами которого являются прямоугольные области, ограничивающие таблицы внутри страниц. Текст и разграфка внутри такой области относятся к одной таблице. Обработка таблицы начинается с анализа функций ячеек таблиц, в результате которого таблица делится на шапку, боковик и тело, а также выделяются перерезы внутри её тела. Затем, с учетом полученной информации о функциональном делении частей таблицы, выполняется её сегментация. Результатом сегментации является полная табличная разграфка — информация о разделении таблицы на отдельные ячейки. После этого, на основе информации, полученной в результате анализа функций ячеек и сегментации, выполняется структурный анализ таблицы. В результате этого, восстанавливаются структурные связи между данными и заголовками, а также связи внутри иерархий заголовков. Полученные заголовки, элементы данных и структурные связи между ними образуют структурное описание обрабатываемой таблицы. Приведенные на данной схеме задачи извлечения табличной информации — обнаружение, анализ функций ячеек, сегментация и структурный анализ, выполняются в предлагаемой технологии в автоматическом и полуавтоматическом режимах.

Структурные описания таблиц сохраняются в XML файлы унифицированного вида. В зависимости от предметных задач структурные описания таблиц, представленные в XML, могут по-разному интерпретироваться с целью преобразования их к требуемому виду. Например, структурные описания могут быть преобразованы к отношениям в терминах реляционных баз данных или формату электронных таблиц.

Выделение горизонтальных промежутков

В технологии, предлагаемой в диссертационной работе, в качестве входных данных используются электронные документы, представленные в виде расширенных метафайлы формата EMF. При этом предполагается, что каждый поступающий на вход метафайл представляет одну страницу исходного документа. Также предполагается, что те таблицы, которые необходимо извлечь, представлены в метафайлах машиночитаемым текстом, а не растром. Переданный на вход метафайл интерпретируется с помощью средств GDI. Из EMR записей метафайла извлекаются линейки и текст в виде набора текстовых элементов (структура текстового элемента и линейки рассматривается в разделе 2.3). Для этого с помощью функций GDI выполняется перечисление всех EMR записей обрабатываемого метафайла. При этом на каждом шаге такого перечисления, текущая EMR запись воспроизводится на некотором графическом устройстве, т. е. в контексте этого устройства выполняется команда GDI, представленная данной записью.

Если в процессе рассматриваемого перечисления EMR записей текущая запись имеет тип EMR_EXTTEXTOUTW, то она обрабатывается следующим образом. Из этой записи извлекаются позиция вывода текста, последовательность символов и последовательность межсимвольных интервалов. Из контекста устройства, на котором воспроизводится обрабатываемый метафайл, извлекаются текстовые метрики: внешний зазор, внутренний зазор, надстрочный интервал, подстрочный интервал, шаг шрифта, межсимвольный интервал пробела, а также цвета выводимого текста и фона. При этом все геометрические размеры и координаты, получаемые во время обработки текущей записи, преобразуются из логической системы координат эталонного контекста в систему координат устройства приемного контекста в соответствии с режимами отображения, используемыми в обрабатываемом метафайле. Если команда GDI, представленная в текущей EMR записи, выводит текст вне области видимости страницы, либо выводит текст с тем же цветом, что и цвет фона ограничивающей его области, то дальнейшая обработка данной записи не выполняется.

Полученная из текущей EMR записи строка символов может содержать одну или несколько подстрок непробельных символов, разделенных между собой пробельным символами. Для каждой такой подстроки создается отдельный текстовый элемент. При этом сама подстрока становится последовательностью символов создаваемого текстового элемента, а соответствующая ей подпоследовательность межсимвольных интервалов, полученных из текущей EMR записи, становится последовательностью его межсимвольных интервалов. Кроме того, все значения текстовых метрик, полученных при обработке текущей EMR записи, дублируются в создаваемом текстовом элементе.

Затем для каждого полученного текстового элемента вычисляется его базовая точка, которая определяет нижнюю левую вершину его ограничивающего прямоугольника. Для этого исходная позиция вывода текста преобразуется с помощью текущего типа выравнивания текста к целевой позиции вывода текста, х-координата которой совмещается с левым краем текста, а у-координата совмещается с базовой линией текста. Базовая точка текстового элемента получается путем смещения соответствующей целевой позиции вывода текста вправо. При этом у-координата базовой точки текстового элемента совпадает с у-координатой соответствующей целевой позиции вывода текста, а её х-координата смещена относительно х-координаты данной целевой позиции вывода текста вправо на сумму межеимвольных интервалов, расположенных слева от данного текстового элемента. Если для текстового элемента е получена базовая точка: d = (х,у), то его ограничивающий прямоугольник вычисляется следующим образом: (определения w{e) —ширины и h{e) — высоты текстового элемента, приводятся в разделе 2.3). На Рис. 2.7 показан пример формирования текстовых элементов из EMR записи.

Если в процессе рассматриваемого перечисления EMR записей текущая запись имеет тип EMR_SMALLTEXTOUT, то она обрабатывается по аналогии с описанной обработкой записей типа EMR_EXTTEXTOUTW, за исключением того, что межсимвольные интервалы берутся не из самой записи, а из контекста устройства, на котором воспроизводится обрабатываемый метафайл.

Текстовые элементы, полученные в результате обработки страницы р, составляют множество Е(р).

Модель структурного описания таблицы

В данном разделе предлагается модель структурного описания таблицы, которое служит для представления связей между заголовками и элементами данных обрабатываемой таблицы.

Содержащийся внутри некоторой ячейки с текст text (с) является либо заголовком столбца, либо заголовком строки, либо перерезом, либо элементом данных. В предлагаемой модели структурного описания таблицы используются следующие обозначения. Заголовок столбца, соответствующий ячейке с, обозначается, как Заголовок строки, соответствующий ячейке с, обозначается, как Перерез, соответствующий ячейке с, обозначается, как

Элемент данных, соответствующий ячейке с, обозначается, как Дополнительно определим ячейку со, с пустым множеством текстовых блоков: B(CQ) = 0, и следующим ограничивающим прямоугольником:

Вложенные и охватывающие заголовки столбцов образуют иерархию. В предлагаемой модели структурного описания таблицы эта иерархия представляется в виде дерева заголовков столбцов, как показано на Рис. 3.12). Каждый заголовок столбца является в этом дереве отдельным узлом, а каждая пара заголовков столбцов (/гс(са), /IC(Q,)), где Нс{сь) вложен в hc(ca), является ребром. Корнем этого дерева является пустой узел hc{co). Заголовки столбцов самого верхнего уровня являются его подузлами. Будем обозначать дерево заголовков столбцов, как Тс а множество всех его узлов, как Нс.

Также, иерархия, образуемая вложенными и охватывающими заголовками строк, представляется в виде дерева, в котором заголовки строк являются узлами, а пары заголовков строк, в которых один вложен в другой — рёбрами. Корнем этого дерева является пустой узел hr(co). Заголовки строк самого верхнего уровня являются его подузлами. Будем обозначать дерево заголовков строк, как Тг, а множество всех его узлов, как Нг.

Несмотря на то, что перерезы не образуют иерархию, их также удобнее рассматривать, как дерево перерезов. Корнем этого дерева является пустой узел /г0(со). Перерезы являются его подузлами. Будем обозначать дерево пе ререзов, как Т0, а множество всех его узлов, как Н0.

Пусть D: D С R —множество элементов данных таблицы. Каждый элемент данных из этого множества связан с некоторой тройкой заголовков:

Пусть 7-і — подмножество всех троек заголовков из прямого произведения Нсх Нгх Н0, которые связанны с элементами данных из множества D. Тогда структурное описание таблицы в терминах предлагаемой модели определяется, как множество

Структурный анализ таблицы состоит в том, чтобы определить связи между ячейками таблицы, т. е. 1) определить отношения вложенности между заголовками; 2) определить для каждого элемента данных заголовок столбца, заголовок строки и перерез. Результатом структурного анализа является структурное описание таблицы, описанной в предыдущем разделе. Предлагаемый структурный анализ включает в себя следующие задачи: 1. Формирование ячеек. 2. Формирование дерева заголовков столбцов. 3. Формирование дерева заголовков строк. 4. Формирование дерева перерезов. 5. Формирование элементов данных. Дерево заголовков столбцов Тс строится с помощью множества ячеек шапки Ch{t). Каждой непустой ячейке с из множества Ch(t) сопоставляется отдельный узел /гс(с) в этом дереве. При этом если у некоторой ячейки Q, верхняя граница полностью перекрывается нижней границей ячейки са, т. е. то заголовок столбца Нс(съ) является подузлом заголовка столбца hc{ca) в дереве Тс. Если верхняя граница ячейки с проходит по верхней границе ограничивающего прямоугольника обрабатываемой таблицы, то заголовок Нс{съ) является подузлом корня hc(co) в дереве Тс. Формирование дерева заголовков строк. Дерево заголовков строк строится с помощью множества ячеек боковика Cs(t). Для анализа вложенности заголовков строк по отступам от левого края соответствующего им текста определим для некоторой ячейки боковика функцию minxl(c), значением которой является минимальная х-координата среди х-координат левых сторон ограничивающих прямоугольников всех текстовых блоков ячейки с, т. е. В соответствии с особенностями компоновки заголовков строк в рассматриваемых таблицах, будем считать, что если для двух ячеек боковика ср, cq: cp,cq Є Cs(t), выполняется равенство: то заголовки строк, соответствующие этим ячейкам, находятся на одном уровне вложенности в дереве заголовков строк. С помощью этого правила для множества ячеек боковика Cs{t) строится разбиение в котором любая его часть CSi включает в себя все ячейки боковика, соответствующие заголовкам строк одного уровня, и не включает никакие другие ячейки. Каждая часть этого разбиения соответствует отдельному уровню вложенности в дереве заголовков строк. Части этого разбиения упорядочиваются по величине отступов своих ячеек от левого края следующим образом

Представление структурных описаний таблицы в XML

Полученные в результате извлечения табличной информации структурные описания таблиц представляются в виде XML документов. Спецификация используемого XML представления описана на языке XML Schema и приводится в Приложении Б. Пример XML представления структурного описания таблицы приводится в Приложении В. Фрагмент XML представления, содержащий в сокращенном виде структурное описание таблицы, показан на Рис. 4.5.

Корневой элемент document соответствует некоторому документу и может охватывать один или несколько элементов page. Каждый элемент page обозначает некоторую страницу внутри документа и может включать последовательность элементов table. Каждый элемент table представляет отдельную таблицу, расположенную внутри соответствующей страницы документа.

В теле элемента table обязательно присутствует четыре элемента, представляющих компоненты структурного описания таблицы: coIumnHeader — заголовок столбца; rowHeader — заголовок строки; cutinHeader — перерез; data — список элементов данных.

Элементы coIumnHeader, rowHeader и cutinHeader, представляющие заголовки, имеют по два обязательных атрибута: name — текст заголовка, и id — его идентификационный номер. Каждый из этих элементов может включать в себя элементы того же типа, что и он сам. Например, элемент coIumnHeader может включать в себя один или несколько элементов coIumnHeader.

Элемент представляющий список данных data охватывает последовательность элементов data Element, каждый из которых соответствует отдельному элементу данных таблицы. Элемент data Element содержит четыре обязательных атрибута: text — текст элемента данных таблицы, col Id — ссылка на идентификационный номер заголовка столбца, rowld — ссылка на идентификационный номер заголовка строки, cutld — ссылка на идентификационный номер перереза.

В зависимости от предметных задач структурные описания таблиц, представленные в XML, могут по-разному интерпретироваться с целью преобра зования их к требуемому виду. Например, структурные описания могут быть преобразованы к отношениям в терминах реляционных баз данных или формату электронных таблиц.

С помощью разработанной системы «STABEX» была получена экспериментальная оценка предлагаемых в диссертационной работе методов обнаружения, анализа функций ячеек и сегментации таблиц.

Экспериментальная оценка предлагаемого метода обнаружения проводилась на основе подхода предложенного в работе [25]. В соответствие с этим подходом таблица является корректно обнаруженной, если, по крайней мере, корректно обнаружено её тело, т. е. каждая строка в теле таблицы, идентифицирована, как часть данной таблицы. При этом не допускается, чтобы в качестве строк тела данной таблицы были идентифицированы, какие-либо строки, не принадлежащие данной таблице. В этом подходе используются две оценки эффективности метода обнаружения: точность обнаружения таблиц (precision) — процент количества корректно обнаруженных таблиц к общему количеству обнаруженных таблиц; полнота обнаружения таблиц (recall) — процент количества корректно обнаруженных таблиц к общему числу существующих таблиц.

Экспериментальные данные были составлены из статистических отчетов, публикуемых Росстатом и Территориальным управлением Росстата по Иркутской области (Иркутскстатом); из государственных статистических отчетов: США, Евросоюза, Японии; а также из финансовых отчетов различных компаний. Эти отчеты перечислены в Приложении Г таблице Г.1.

Указанные документы были представлены в форматах: PDF, DOC, XLS, HTML. Всего было обработано 425 страниц из указанных документов. Каждая страница содержала от одной до четырех таблиц. Всего они содержали 518 таблиц. Из 215 таблиц, представленных в документах формата DOC, 123 таблицы являлись включениями ASCII-текста, остальные — табличными объектами Word. Кроме текста эти странрщы содержали текст, включая текст с выравниванием по ширине, верхние и нижние колонтитулы, имеющие табличную форму, графики и диаграммы с текстовыми подписями. В таблице 4.1 приведены измерения ТОЧНОСТРІ и полноты автоматического обнаружения для каждого формата.

Эффективность предлагаемого метода анализа функций ячеек таблиц полностью зависит от правильности обнаружения базовых точек тел обрабатываемых таблиц. В данной работе предлагается оценка полноты автоматического обнаружения базовой точки тела таблицы: полнота обнаружения базовых точек тел таблиц — процент количества корректно обнаруженных базовых точек тел таблиц к общему числу обрабатываемых таблиц.

Похожие диссертации на Технология извлечения табличной информации из электронных документов разных форматов