Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Система обработки неструктурированной текстовой информации на основе объектного подхода для повышения эффективности информационного поиска Тригуб Наталья Александровна

Система обработки неструктурированной текстовой информации на основе объектного подхода для повышения эффективности информационного поиска
<
Система обработки неструктурированной текстовой информации на основе объектного подхода для повышения эффективности информационного поиска Система обработки неструктурированной текстовой информации на основе объектного подхода для повышения эффективности информационного поиска Система обработки неструктурированной текстовой информации на основе объектного подхода для повышения эффективности информационного поиска Система обработки неструктурированной текстовой информации на основе объектного подхода для повышения эффективности информационного поиска Система обработки неструктурированной текстовой информации на основе объектного подхода для повышения эффективности информационного поиска Система обработки неструктурированной текстовой информации на основе объектного подхода для повышения эффективности информационного поиска Система обработки неструктурированной текстовой информации на основе объектного подхода для повышения эффективности информационного поиска Система обработки неструктурированной текстовой информации на основе объектного подхода для повышения эффективности информационного поиска Система обработки неструктурированной текстовой информации на основе объектного подхода для повышения эффективности информационного поиска Система обработки неструктурированной текстовой информации на основе объектного подхода для повышения эффективности информационного поиска Система обработки неструктурированной текстовой информации на основе объектного подхода для повышения эффективности информационного поиска Система обработки неструктурированной текстовой информации на основе объектного подхода для повышения эффективности информационного поиска
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Тригуб Наталья Александровна. Система обработки неструктурированной текстовой информации на основе объектного подхода для повышения эффективности информационного поиска : Дис. ... канд. техн. наук : 05.13.01 : Москва, 2004 189 c. РГБ ОД, 61:05-5/1762

Содержание к диссертации

^ СПИСОК СОКРАЩЕНИЙ 4

ВВЕДЕНИЕ 5

1 АЛЬТЕРНАТИВЫ ДЛЯ РАЗРАБОТКИ ЕЯ-СИСТЕМ 11

1.1 Функционирующие ЕЯ-системы и

  1. Галактика-ZOOM. 11

  2. Экспресс -Досье 13

  3. Этап 17

'* 1.1.4 Выводы 19

1.2 Объект исследования 19

"* 1.2.1 Теория синтаксиса 20

  1. Порядок слов в предложении 22

  2. Теория текста 23

  3. He-факторы, характерные для русского языка 25

  4. Выводы 29

1.3 Постановка задачи по разработке ЕЯ-системы зо

1.3.1 Знания 31

* 1.3.2 Понимание ЕЯ как прикладная область ИИ 32

1.3.3 Цели, критерии и ограничения 35

%" 1.3.4 Выводы 38

1.4 Теоретический базис для разработки ЕЯ-систем 38

1.4.1 Принципы и подходы к разработке ЛП 39

  1. Формально-грамматический подход 39

  2. Вероятностно-статистический подход 42

  3. Объектно-ориентированный подход 44

1.4.2 Модели представления знаний 45

  1. Логическая модель ПЗ 46

  2. Сетевая модель ПЗ 46

'* 1.4.2.3 Фреймовая модель ПЗ 49

1.4.2.4 Продукционная модель ПЗ 50

» 1.4.3 Декларативный и процедурный подходы к ПЗ в модулях ЛП 57

1.4.4 Выводы 54

2 ПРИНЯТИЕ РЕШЕНИЯ. РАЗРАБОТКА МЕТОДА 58

  1. Оценка исходного множества альтернатив 58

  2. Концептуальная постановка задачи построения АТЕЯ 61

  3. Принципы объектного подхода 64

  4. Функциональная организация АТЕЯ 73

  5. Математическая постановка задачи построения АТЕЯ 77

% 3 АТЕЯ. АЛГОРИТМИЗАЦИЯ ОТДЕЛЬНЫХ МОДУЛЕЙ 84

  1. Ограничения входного информационного потока 84

  2. Модуль морфологического анализа 86

  1. Дерево - поиска 91

  2. Алгоритм морфологического анализа 98

3.3 Модуль объектного анализа 102

  1. Сравнение синтаксического анализа с ОА 105

  2. Алгоритм объектного анализа для каждого предложения 108

  1. Задача классификации 109

  2. Формирование связей внутри предложений 113

3.3.3 Алгоритм объектного анализа для формирования связей и
отношений между объектными структурами предложений
119

4 АТЕЯ. КОМПЬЮТЕРНАЯ РЕАЛИЗАЦИЯ 123

  1. Функция АТЕЯ предоставляемая DLL для вызова 123

  2. Описание программных структур модуля МА в АТЕЯ 124

  3. Описание структур объектного модуля АТЕЯ 127

  4. Примеры ізо

ЗАКЛЮЧЕНИЕ 134

СПИСОК ЛИТЕРАТУРЫ 139

Приложение 1 151

Приложение 2 152

Приложение 3 153

Приложение 4 154

Приложение 5 155

Приложение 6 156

Приложение 7 157

Приложение 8 159

Приложение 9 165

Приложение 10 179

СПИСОК СОКРАЩЕНИЙ

ЕЯ - естественный язык
ПР - принятие решения
РЯ - русский язык
ПО - предметная область
ЭС - экспертная система
d БЗ - база знаний

ЕЯ-система - естественно-языковая система

ч *

ИИ - искусственный интеллект

БД - база данных

АТЕЯ - анализатор текстов на естественном языке

ЛП - лингвистический процессор

МА - морфологический анализ

ОП - объектный подход

* СА - синтаксический анализ

ОА - объектный анализ ФГП - формально-грамматический подход ВСП - вероятностно-статистический подход КС-грамматика - контекстно-свободная грамматика ООП - объектно-ориентированный подход МПЗ - модель представления знаний

« ИМА - исходное множество альтернатив

МДР - множество допустимых решений ПОМ - Парето оптимальное множество ГК - глобальный критерий

*;

Введение к работе

Во все времена человек стремился оставить свои знания потомкам. До настоящего времени, самым надежным и распространенным способом хранения знаний являлись бумажные носители, а знания представлялись в текстовой форме на естественном языке (ЕЯ). В связи с бурным развитием компьютерной техники и информационных технологий, в течение короткого периода времени произошло накопление большого объема информации на металлургических предприятиях и в других отраслях народного хозяйства.

По причине большого объема информационного потока естественная обработка текстов человеком, на каждом рабочем месте в металлургической отрасли, становится все более трудоемкой и требует больших затрат времени, интеллектуальных ресурсов и памяти. Как следствие, стало принципиальным решение задачи автоматизированного извлечения знаний из текстовой информации на ЕЯ, чтобы облегчить человеку процесс принятия решения (ПР) по интересующей проблеме /114/. Возможности систем извлечения знаний, в настоящее время, не позволяют дать однозначного ответа на вопрос пользователя, но могут «разумно» сузить множество текстовых документов требующих анализа при ПР. Полное обоснование компьютерного анализа текстовых массивов на концептуальном уровне приведено в работе /104/.

Фактически, проблема извлечения знаний из текстов приобрела актуальность еще в XX веке /89/, однако, до настоящего времени, очень мало систем способных к анализу текста, включающему уровень семантического представления /79/. В первую очередь, это связано с трудоемкостью любого из предлагаемых подходов анализа текстов на русском языке (РЯ) и конечно с неформальностью самого РЯ. До сих пор не существует адекватной, полной и общепризнанной формальной модели РЯ.

Однако, на практике все же есть реально функционирующие системы, производящие обработку РЯ. Все известные в настоящее время системы, чтобы иметь возможность применить существующие формальные модели

6 используют, как правило два подхода, обеспечивающих своего рода сужение исходной задачи:

  1. накладывают существенные ограничения на ЕЯ, который обрабатывается системой, в таком случае язык уже считается ограниченным а не естественным;

  2. сужают круг возможных конструкций ЕЯ путем ориентации системы на конкретную предметную область (ПО), такой подход в отличие от первого позволяет системе по-прежнему использовать ЕЯ.

Оба вышеперечисленных подхода, в равной степени часто, используются в современных реализациях как экспертных систем (ЭС) /38/, так и систем специализирующихся на анализе текстов на ЕЯ. Как правила ЭС объединяют в себе оба вышеперечисленных подхода что упрощает задачу реализации системы, но является недостатком, делающим ЭС не универсальным и неполным инструментом. В качестве еще одного существенного недостатка ЭС хочется отметить трудоемкость процесса создания и пополнения базы знаний (БЗ) экспертом, хорошо знающим предметную область предполагаемого использования ЭС /44/.

Однако ЭС не являются естественно-языковыми системами (ЕЯ-системами) в принятой классификации систем искусственного интеллекта (НИ), и не предназначены для решения задачи анализа текста на ЕЯ в отличии от ЕЯ-систем. В связи с тем, что понятие ЕЯ-система является очень общим предлагается воспользоваться классификацией приведенной в работе /1/, согласно которой все ЕЯ-системы подразделяются на четыре класса:

  1. интеллектуальные вопросно-ответные системы;

  2. системы общения с базами данных (БД) /58,67,84/;

  3. диалоговые системы решения задач;

  4. системы обработки связных тестов /76/ (в том числе машинные переводчики/112/).

Разработанная в данной работе система - анализатор текстов на ЕЯ (АТЕЯ) является ЕЯ-системой ИИ, обеспечивающей процесс извлечения зна-

7 ний из текстов на ЕЯ, и относящейся в приведенной выше классификации к четвертой группе. В связи с лингвистической направленностью системы обработки связных текстов на ЕЯ часто называют лингвистическими процессорами (ЛП) /56/. Представляемый АТЕЯ не является полноценной ЕЯ-системой, так как работает со знаниями только на уровне извлечения их из текстов на РЯ и не решает задачу хранения знаний и поиска по ним. Извлеченные АТЕЯ знания хранятся в системе хранилище знаний /90,91,92/, в которой АТЕЯ используется как внешний модуль.

Безусловно, большинство современных систем ИИ имеют в своем активе ЛП для обработки информации на ЕЯ. Глубина обработки ЕЯ в различных ЛП очень отличается. Так информационно-поисковые системы /110,111,113/, как правило, применяют морфологический анализ (МА), а самым высоким уровнем обработки текста на ЕЯ считается семантическое представление. Разработанный АТЕЯ заканчивает серию лингвистических анализов текста на уровне между МА и семантическим анализами.

Если по глубине и качеству обработки ЛП очень отличаются, то во внутренней организации больших отличий не наблюдается, так же как в задачах, решаемых ЛП. По большей части, современные ЛП организованы как последовательные анализаторы с похожими основными чертами. Все ЛП имеющие исторически сложившийся вид в дальнейшем будут называться с эпитетом традиционные или классические.

«При решении интеллектуальных задач компьютерная программа призвана максимально облегчить труд человека: во-первых, обеспечить его ограниченной выборкой документов, отсеяв по предустановленным фильтрам лишнее, во - вторых, предоставить удобное автоматизированное место для проведения оценок.»/3/. Фактически АТЕЯ выполняет основную работу по анализу ЕЯ чтобы предоставить возможности эффективного поиска для максимального сужения подборки документов по запросу пользователя. Однако задача ПР на качественном уровне перед АТЕЯ не ставиться по той простой причине, что человеческий интеллект хотя несомненно медленнее, чем ком-

8
пьютерный, но безусловно гораздо качественней справиться с задачей ПР где
необходимо учитывать эмоции, интуицию и т.д., то есть факты, которые не
^ подвержены моделированию и формализации.

При сравнении разработанного АТЕЯ с традиционными ЛП выделяются
ряд особенностей, во главе с объектным подходом (ОП), принципы которого
разработаны в рамках данной работы и будут изложены в п. 2.3. Другие от
личительные черты АТЕЯ:
* 1) увеличение скорости МА;

2) отказа от сложной и неполной системы правил, используемой при фор-ч

мально-грамматическом подходе (ФГП) к синтаксическому анализу

(СА), путем замены СА на объектный анализ (ОА), который позволяет
выполнять задачу построения объектной структуры с контекстными
связями;
^ 3) увеличение скорости построения формальной структуры для предложе-

ния на РЯ;

  1. решение проблемы анафорических местоимений в рамках предложения и абзаца;

  1. объединение объектных структур отдельных предложений в объектную модель текста в целом.

Теоретические исследование задачи машинного понимания текста на ЕЯ

начались на рубеже 70-х годов XX века /41/. И привели к тому, что в настоя-

щее время, созданы функционирующие ЕЯ-системы способных решать опре-

4 деленный круг задач направленных на интеллектуальную обработку текста

на ЕЯ.

Однако, широкого распространения системы обработки ЕЯ на сегодняшний момент не получили. Причин этому несколько, главные из которых напрямую связаны с несовершенством формальных моделей ЕЯ, что в свою очередь приводит к невысокому качеству обработки ЕЯ, к не универсальности и большим затратам времени и ресурсов как человеческих, так и машин-

9
ных. По крайней мере в двух последних проблемах удалось добиться поло-
жительных сдвигов в АТЕЯ.
і, Разработанный в рамках данной работы ОП позволил построить АТЕЯ,

не использующий объектную модель ПО и заменить очень трудоемкий, плохо формализованный, с большим количеством неоднозначностей СА на ОА, который способен построить формальную объектную структуру по исходному тексту на РЯ и тем самым провести процесс извлечения знаний из текста.

* Полученные АТЕЯ знания представляются в виде специально разработанной

древовидной структуры - объектной модели текста, которая отличается от к

семантической сети и от синтаксического дерева подчинении, формируемого

в процессе СА классическим ЛП.

Кроме того, анализ производимый АТЕЯ после основной части ОА спо
собен объединить по многокритериальной оценки объектные структуры от-
4 дельных предложений в объектные структуры абзацев, пунктов и других

структур исходного текста. Таким образом происходит процесс агрегирования отдельных объектных структур предложений в объектную модель текста в целом.

Именно объектные структуры в АТЕЯ являются знаниями, извлечение которых есть главная задача разработанного анализатора. Соответственно целью АТЕЯ является не поиск «смысла» текста, как в некоторых классических ЛП, а извлечение знаний из текста. Разница в этих целях очень сущест-венна и фактически сужает круг задач, в которых возможно применение

* АТЕЯ. Так, например АТЕЯ не может обеспечить исследования конструкций
РЯ, но зато с успехом заменить традиционный ЛП в информационно-
поисковой системе, а благодаря модульной архитектуре есть возможность
использования любого из модулей АТЕЯ в рамках других задач.

Для обеспечения независимости модулей в рамках АТЕЯ каждый из модулей организован в виде системы черного ящика. Другими словами, каждый v

модуль АТЕЯ является отдельной системой со строгим форматом входного и выходного потоков. А для обеспечения связи отдельных модулей, каждый из

10
которых производит свой анализ, в единое целое в рамках АТЕЯ выходной
поток из предыдущего модуля приводится в формат входного потока сле-
ц дующего модуля. Кроме преимущества связанного с возможностью исполь-

зовать некоторый модуль АТЕЯ в рамках другой системы модульная организация дает еще возможность в самом АТЕЯ без серьезных переработок подключать модули других систем как внешние.

Последовательность модулей, отвечающих за определенный лингвисти-

* ческий анализ, в АТЕЯ линейна и не имеет ни циклов не разветвлений. Ос
новная идея МА и его особенности, реализованные в АТЕЯ изложены в ра-
боте /4/. ОА, реализованный в АТЕЯ, позволяет в упрощенном виде, не опре
деляя синтаксических категорий получить формальную структуру, соответ
ствующую принципам, описанным в статье /5/.

Наиболее близким к ОА, по выполняемым функциям, из классических
4 лингвистических анализов является СА. Под классическим или традицион-

ным СА в дальнейшем будет пониматься СА реализованный по ФГП, ис-

* пользующий максимальное количество лингвистических знаний. Однако,
точной аналогии между любой синтаксической категорией, определяемой в
результате СА и структурой, выделяемой ОА, провести нельзя.

Хотя ОА имеет явные преимущества над традиционным СА говорить о
нем как о решении всех проблем связанных с компьютерной реализацией СА
нельзя. В первую очередь это связано с тем, что ОА не использует лингвис-
тических знаний в таком объеме, в котором это может делать традиционный
» СА. И хотя ОА позволяет решить задачу извлечения знаний на том уровне,

который требуется для информационно-поисковых систем, он имеет недостатки, который изложены в работе 161. Но для получения успешно разработанного и апробированного АТЕЯ сначала был проведен процесс ПР по выбору оптимальной альтернативы и разработаны принципы ОП.

Похожие диссертации на Система обработки неструктурированной текстовой информации на основе объектного подхода для повышения эффективности информационного поиска