Моделирование процесса автоматического извлечения знаний в вопросно-ответных системах Степанова Надежда Александровна

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Степанова Надежда Александровна. Моделирование процесса автоматического извлечения знаний в вопросно-ответных системах : диссертация ... кандидата технических наук : 05.13.18 / Степанова Надежда Александровна; [Место защиты: Гос. ун-т - Высш. шк. экономики].- Великий Новгород, 2008.- 156 с.: ил. РГБ ОД, 61 09-5/964

Содержание к диссертации

Введение

Глава 1 Модель автоматического извлечения знаний для вопросно-ответных компьютерных систем 17

1.1 Общие положения 17

1.2 Лексическое значение

1.2.1 Компонентный анализ и постулаты значения 19

1.2.2 Отношения синонимии, антонимии, гинонимии 21

1.2.3 Полисемия 22

1.2.4 Толкование лексического значения

1.3 Анализ методов обработки корпуса текстов 26

1.4 Метод формализация семантики генитивной конструкции

1.4.1 Интенсиональная логика 29

1.4.2 Теория сорта и сортовые сдвиги 31

1.5 Теория решеток 32

1.6 Анализ существующих методов классификации и разрешения многозначности 35

1.7 Выводы по главе 1 39

Глава 2 Модель концептно-ориентированного лексикона на основе генитивных конструкций 41

2.1 Постановка задачи 41

2.2 Формализация семантики генитивной конструкции 42

2.3 Генитивная конструкция в решетке формальных понятий

2.3.1 Анализ формальных понятий 47

2.3.2 Формальная решетка генитивных конструкций

2.4 Критерий полезности решетки 57

2.5 Модель семантических отношений порядка в решетке 63

2.6 Выводы по главе 2 66

Глава 3 Метод разбиения решетки для извлечения сортов и снятия семантической многозначности 67

3.1 Общие положения 67

3.2 Семантическое расстояние

3.2.1 Семантическая близость 68

3.2.2 Семантическая схожесть и связность

3.3 Мера схожести в решетке формальных понятий 77

3.4 Алгоритм сегментации решетки 84

3.5 Выводы по главе 3 95

Глава 4 Методы поиска ответов в ВОС с помощью Концептно ориентированного Лексикона (КОЛ) 97

4.1 Общие положения 97

4.2 Архитектура типовой ВОС 98

4.3 Классификация вопросов 99

4.4 Исследование свойств концептно-ориентированного лексикона

4.4.1 Собирательные и абстрактные существительные в решетке формальных понятий 107

4.4.2 Снятие семантической многозначности в концептно-ориентнрованном лексиконе 111

4.5 Методы использования концептно-ориентированного лексикона в ВОС 115

4.6 Выводы по главе 4 117

Глава 5 Экспериментальная проверка модели приобретения знаний для вопросно-ответных систем 119

5.1 Общие положения 119

5.2 Описание используемого корпуса текстов и методов его обработки.

5.2.1 Оценка качества исходных данных 120

5.2.2 Описание требований к корпусу текстов 122

5.3 Описание программного комплекса 127

5.3.1 Выбор алгоритма порождения формальных понятий 128

5.3.2 Оценка сложности алгоритма сегментации решетки

5.4 Испытания программного комплекса 135

5.5 Выводы по главе 5 137

Заключение 138

Библиографический список 142

Толкование лексического значения
Анализ формальных понятий
Семантическая схожесть и связность
Исследование свойств концептно-ориентированного лексикона

Введение к работе

Настоящая диссертационная работа посвящена проблеме автоматического извлечения лексико-семантических знаний из неструктурированного текста на Естественном Языке (ЕЯ) с целью их дальнейшего использования в Вопросно-Ответных Системах (ВОС). Для извлечения и структурирования знаний используются методы анализа формальных понятий, основанные на математической теории решеток.

Актуальность работы. ВОС - это особый вид информационной системы, которая умеет обрабатывать введенный пользователем вопрос на естественном языке и выдавать осмысленный ответ. Для поиска ответа используются коллекции документов, например, из сети Интернет. Несмотря на многолетние исследования и значительные достижения в области ВОС, проблема построения полноценной системы в этой области, обеспечивающей высокую точность ответов и работающей с широким диапазоном вопросов, остается пока нерешенной.

Применение методов Обработки Естественного Языка (ОЕЯ) требуется практически на каждом этапе работы ВОС, а качество этих методов является определяющим фактором для точности и полноты извлекаемых ответов. Использование различных лексических ресурсов является практически обязательной частью наиболее эффективных ВОС и позволяет приблизиться к решению следующих проблем: классификация вопроса, предварительное извлечение ответов, расширение и перефразирование вопроса, удаление избыточности в ответах.

В настоящее время одними из самых распространенных лексических ресурсов являются пополняемые вручную компьютерные словари, построенные по модели WordNet. Несмотря на высокий уровень развития современных лексических баз данных, область их покрытия остается узкой, особенно для русскоязычных лексических ресурсов, поэтому разработка лексических ресурсов, специализированных для ВОС, на данном этапе развития технологий ОЕЯ должна опираться на автоматическое извлечение знаний из корпусов текстов.

В лексическом ресурсе, используемом в ВОС, должны содержаться толкования значения лексем, структура лексикона должна основываться на иерархии по принципу от общего к частному, а лексика должна быть представлена с минимальной степенью многозначности.

Цель и задачи работы. Целью настоящей диссертационной работы является разработка модели автоматического извлечения знаний из неструктурированного текста на ЕЯ для повышения эффективности работы ВОС. Для достижения поставленной цели в работе решаются следующие задачи:

1. Разработка методов автоматического извлечения знаний из неструктурированного текста с целью пополнения лексических ресурсов для

использования в ВОС, формулирование требований к лексическим ресурсам, необходимым для ВОС;

Построение модели лексикона и модели семантических отношений в лексиконе для ВОС;
Разработка алгоритма сегментации лексикона и формирования классов схожих лексем;
Разработка методов классификации вопросов, снятия семантической многозначности для ВОС;
Проверка разработанной модели автоматического извлечения знаний с помощью вычислительного эксперимента.

Методы исследований. При проведении исследований в работе использовались методы теории множеств, математической теории решеток, анализа формальных понятий, а также интенсиональная логика и методы лексической и формальной семантики.

Научная новизна. В ходе решения поставленных задач получены следующие результаты, являющиеся новыми в данной области исследований:

Разработана модель Концептно-Ориентированного Лексикона (КОЛ), представленного решеткой формальных понятий, толкование лексического значения получено в виде содержания формальных понятий решетки, а сами лексемы представлены в объеме формальных понятий;
Впервые предложена модель автоматического извлечения знаний из неструктурированного текста на ЕЯ на основе формализации семантики генитивной конструкции на языке интенсиональной логики, знания представлены формальными понятиями в КОЛ;
Разработана количественная оценка меры схожести между формальными понятиями решетки, на основе которой предложен алгоритм сегментации решетки для снятия многозначности слов в объеме формальных понятий решетки;
Предложены методы использования КОЛ для ВОС: расширение ключевых слов вопроса, классификация вопросов с помощью формулы для оценки извлекаемых параграфов на основе нормированной меры схожести между объектными формальными понятиями, обработка собственных имен в вопросах и ответах;
В результате вычислительного эксперимента выполнено оценивание полноты и репрезентативности исходного текста на ЕЯ, используемого для пополнения лексикона, выработаны общие требования, предъявляемые к таким текстам, а также получена количественная оценка КОЛ относительно эталонного лексического ресурса.

Практическая значимость и внедрение. Областью непосредственного практического применения теоретических результатов настоящей работы является использование автоматически пополняемого КОЛ для ВОС.

Разработан программный комплекс, реализующий модель извлечения знаний из неструктурированного текста на ЕЯ на основе решетки формальных понятий. Результатом работы данного программного комплекса является

сегментированная решетка формальных понятий, представляющая собой КОЛ, готовый для использования в ВОС по предложенным в диссертационной работе методам.

Разработанный программный комплекс позволяет провести исследование каждого этапа извлечения знаний и формирования КОЛ, что позволяет внедрить его в учебный процесс НовГУ.

Результаты проведенных исследований использовались в работе по гранту РФФИ № 06-01-00028.

Достоверность и эффективность. Достоверность полученных теоретических результатов подтверждается серией вычислительных экспериментов, демонстрирующих автоматическое формирование и пополнение КОЛ на основе различных текстов на ЕЯ.

Эффективность подтверждается проведенной оценкой сложности предложенных и используемых алгоритмов, а также количественной оценкой точности и степени охвата КОЛ относительно эталонного лексического ресурса.

Апробация работы и публикации. Основные положения и полученные результаты диссертационной работы апробированы в докладах на международных конференциях: IX-я международная конференция «Cognitive Modeling in Linguistics» (София, Болгария, 2007), 7-я международная конференция «Pattern Recognition and Image Analysis: New Information Technologies» (С.-Петербург, 2004), 6-я международная научно-техническая конференция «Interactive Systems And Technologies: The Problems of Human-Computer Interaction» (Ульяновск, 2005), 2-я международная конференция IASTED «Automation, Control, and Information Technologies» (Новосибирск, 2005), VI-й международный конгресс по математическому моделированию (Нижний Новгород, 2004), 7-я международная научно-техническая конференция «Interactive Systems And Technologies: The Problems of Human-Computer Interaction» (Ульяновск, 2007) и на Всероссийской конференции «Математические методы распознавания образов XIII» (г. Зеленогорск, 2007), а также опубликованы в 8 работах, список которых приводится в конце автореферата.

Структура и объем диссертации. Диссертационная работа состоит из введения, пяти глав, заключения и списка литературы, включающего 144 наименования. Основная часть работы изложена на 156 страницах, содержит 21 рисунок и 7 таблиц.

Толкование лексического значения

В данной работе для задачи автоматического извлечения лексико-семантических знаний применяются методы Анализа Формальных Понятий (АФП) [61]. Знания — совокупность сведений о мире, включающих в себя информацию о свойствах объектов, закономерностях процессов и явлений, а также правилах использования этой информации для принятия решений. Лексико-семантические знания включают денотативный и смысловой компоненты связанной с лексемой информации. Практически все перечисленные выше методы в той или иной степени оперируют идеей концепта (понятия). Формализация понятий и их последующий анализ с помощью решетки позволяют оперировать данными на семантическом уровне без потери или недопустимого упрощения объектов и их признаков, в отличие от представления атрибутов с помощью векторов и их статистической обработки. Классификация объектов и результаты анализа данных с помощью АФП могут быть интерпретированы исследователем для предметной области.

Анализ формальных понятий — это метод анализа данных, основанный на математической теории решеток. Основой АФП является доказанная Г. Биркгофом теорема [7] о том, что для любого бинарного отношения можно построить полную решетку. Исследуемая область описывается в терминах набора объектов и атрибутов, вводится описание формального контекста, формальных понятий и решетки, отображаемой с помощью линейных диаграмм.

Теоретико-решеточная формализация концептов позволяет выполнить кластеризацию, визуализацию и исследование атрибутов понятий. В работе [107] обосновывается возможность использования АФП в компьютерной лингвистике для анализа семантических отношений в словарях типа Wordnet [108] и лексических функций [53], создания тезаурусов [124, 99], разрешения многозначности глаголов [42], пополнения онтологии [48]. В работе [123] описывается формальный язык концептуальных графов для представления знаний, а в работе [95] описывается сопоставление концептуальных графов с АФП.

Основой данной работы является установление соответствия между Генитивными Конструкциями (ГК) русского языка и анализом формальных понятий, которое базируется на семантических отношениях между опорным словом и генитивной именной группой [125]. Выбор семантического отношения, как правило, определяется опорным существительным, даже когда оно не является реляционным, что дает возможность применить методы теории решеток к формализации данного отношения. Правильность ГК (рост Пети, но высота столба) определяется в терминах сортов [9], также сорта позволяют составить формулы для записи семантики ГК на языке категориальной грамматики.

Сорта — элементы «наивной картины мира» [8], классы, к которым язык относит более конкретные реалии, сущности, вещи. Сорта можно рассматривать как онтологическую классификацию. Классификация лексики по сортам обсуждалась у Джекендофа, Пустейовского, Фомичева [75, 110, 38]. В работе будет использоваться теория сортов (постулаты значения) для классификации и извлечения семантических отношений из неструктурированного текста.

Целью работы является разработка модели автоматического извлечения знаний из текстов для повышения эффективности работы вопросно-ответных систем, ее апробация и экспериментальное подтверждение эффективности.

Для достижения сформулированной цели необходимо решить следующие задачи: 1. Разработка методов автоматического извлечения знаний из неструктурированного текста с целью пополнения лексических ресурсов для использования в ВОС, формулирование требований к лексическим ресурсам, необходимым для ВОС; 2. Построение модели лексикона и модели семантических отношений в лексиконе для ВОС; 3. Разработка алгоритма сегментации лексикона и формирования классов схожих лексем; 4. Разработка методов классификации вопросов, снятия семантической многозначности для ВОС; 5. Проверка разработанной модели автоматического извлечения знаний с помощью вычислительного эксперимента. Диссертационная работа состоит из введения, пяти глав, заключения и библиографического списка.

В первой главе исследуются различные подходы к классификации лексико-семантической информации, вводятся основные понятия из области упорядоченных множеств и теории решеток, а также предлагается подход к формализации ГК.

Вторая глава посвящена сопоставлению ГК русского языка и формальных понятий решетки. Выполняется формализация ГК с помощью правил интенсиональной логики. Выполняется сопоставление ГК и формального контекста, исследуются варианты построения решетки формальных понятий. Описывается формализация контекста ГК в корпусе текстов и его включение в формальную решетку. Вводится оценка полезности решетки (критерий полезности) для извлечения общих свойств и соответствия требованию иерархичности лексических ресурсов, описывается метод составления формального контекста для максимизации критерия полезности.

В третьей главе решается задача извлечения классов формальных понятий, соответствующих сортам, из формальной решетки понятий. Исследуются меры схожести и связности между объектами и атрибутами,

Анализ формальных понятий

Объектным понятием называется понятие вида (g",g ) (обозначается y(g)), где g є G, аналогично признаковым понятием называется понятие вида {т ,т") (обозначается fi(m)), где теМ. /(g) наименьшее формальное понятие, формальному объему которого принадлежит объект g, определяется аналогично /и(т) - наибольшее формальное понятие, содержанию которого принадлежит признак т. Диаграмму формальной решетки Ш(С, М, I) читают с помощью правила: glm y{g) ju{m). (2.4) Для А,ВсМ имеет место импликация (на признаках) А— В, если А В , т.е. все объекты из G, обладающие множеством признаков А также обладают множеством признаков В. Аналогично импликация на объектах. Наличие импликации А— В в контексте (G, М, I) соответствует тому, что на диаграмме формальной решетки Ш(С М, I) формальное понятие {А1, А") находится ниже формального понятия (В\В").

Помимо формальных контекстов, определенных выше (двузначных контекстов), в АФП используются многозначные контексты, имеющие вид (G, М, W, I), где G, М, W - множества объектов, признаков и значений признаков соответственно, а /— тернарное отношение /с GxMxW, задающее для объекта g значение w признака т. Представление многозначных контекстов двузначными называется шкалированием. Возможные виды шкалирования рассматриваются в [61].

Формула (2.3) задаст формализацию семантики ГК на языке ИЛ, однако в задаче пополнения лексических ресурсов необходимо извлекать лексическое значение отдельных слов. Определение 1.1 вводит понятие слова как элемент словаря, хотя в разделе 1.2 упоминалось, что слова имеют значения только в рамках высказывания. Значение лексемы при ее употреблении в высказывании может отличаться от словарного значения [34]. Например , в предложении «Использование лее просветленного стекла делает их бокалы практически неотличимыми от хрустальных» использование лексемы бокал вызывает у носителя ЕЯ ассоциации с той частью теории лексемы, которая толкует бокал, как физический объект, который производится из некоторого материала. Тогда как в предложении «Взяв в руки бокал вина, вы непременно обнаружите рядом и тарелку с едой» значение лексемы бокал можно толковать как емкость для вина. При этом в обоих случаях употребления слово бокал относится к единому словарному значению лексемы w.

Определение 2.4 Функциональным значением u(w) лексемы w называется значение, которое получает лексема w при ее употреблении в рамках высказывании, такое что u(w) с mng(w) .

При анализе корпуса текстов система ОЕЯ имеет дело с конкретными случаями словоупотребления, т.е. при извлечении значения из текста будет получено именно функциональное значение.

Согласно Определению 2.1 выражение ЛР[Р(х)] описывает множество свойств лексемы w, соответствующей нереляционному существительному. Для более простой формализации будем считать, что все опорные существительные вне ГК относятся к типу е, / , т. е. их свойства описывается выражениями ЛР[Р(х)] и состоят из постулатов значения.

Пусть лексема w соответствует опорному существительному Gcs (нижний индекс s обозначает опорное существительное в рамках ГК Gc). Из формулы (2.2) следует, что в этом случае словоупотребления w имеет значение fss(w) vifss(w)=u(w), т.е. обладает таким набором свойств, которые входят в сорт s. Сорт s является сортом опорного существительного в рамках данной Gc. Таким образом, значение лексемы в составе Gc становится более определенным, как это было отмечено в свойстве 2.4.

7 Примеры двух предложений взяты из Национального корпуса текстов (www.mseorpora.m) Для извлечения лексического значения из ГК ее значение должно быть записано в виде выражения (2.3). Получение данной формулы предполагает, что для каждого сорта ГК имеется описание оператора сдвига по формуле (2.2), т.е. необходимо в ручном режиме с участием лексикографов разработать набор постулатов значения для каждого сорта генитивного отношения (см. свойство 2.1). Целью данной работы является автоматическое извлечение лексического значения из корпуса текстов, поэтому нет возможности опереться на составленные вручную формулы.

При синтаксическом разборе текста могут быть получены только отдельные ГК с указанием опорного слова и существительного генитивной группы. Значит, что свойства ЛР[Р(х)] (толкование) опорного существительного не могут извлекаться непосредственно из текста, поэтому встает задача извлекать это толкование опосредованно на основе дополнительного анализа значений элементов ГК.

Пусть Gel и Gc2 ГК, такие что Gel є Sortk и Gel є Sortt, их генитивные отношения Rlge„ и R2se„ полностью определяются сортами ГК, поэтому Rlge„=R2ge„. Если Rlge„=R2ge„, то из Определения 2.1а следует, что на сорта существительных Gel/ Gclgg и Gc2JGc2gg должны накладываться одинаковые селективные ограничения. В этом случае из формулы (2.1а) следует, что теории опорных существительных (или генитивных групп) должны содержать общее свойство Р. Обозначим как wl и w2 лексемы, соответствующие Gcls и Gc2s, и сорта опорных существительных si и s2, что м 1 є SonsX и w2 є Sort42. Теорию лексемы wl обозначим через набор свойств Р1 (mng(wl) = АР1[Р1(.\-)]), и аналогично mng(w1) = ЛР2[Р2(х)]. Теории wl и w2 в общем случае не будут совпадать, однако из них будет обязательно следовать общее свойство Р по формуле (2.1а). Рассматривая теории wl и w2 только как это общее свойство Р, из формулы 2.0 получим выражение для двух опорных существительных, используемых в ГК одного сорта:

Семантическая схожесть и связность

Удалить из формального контекста Kg все объекты и их признаки, а также все признаки и их отношения, помеченные на удаление. Шаг 2.2.2.1 Вариант 2: для каждого признака bs є В), Cj=(ApBj), для которого также выполняется bf є Вт, удалить из формального контекста Kg отношение Ig для признака bt, что alIsb] для всех объектов а, из объема ФП Q (полное переформирование решетки L не требуется, возможно только необходимо объединить ФП Cj с ФП С;„ если после удаления из контекста признаков выполняется Bj=-Bh), иначе если dj d2, то Шаг 2.2.2.2 Вариант 1: Аналогично Шаг 2.2.2.1 Вариант 1. Шаг 2.2.2.2 Вариант 2: для каждого признака b Bj, Cj—(Aj,Bj), для которого также выполняется Ь) є Вг для каждого ФП Cr=(Ar,Br), что О С,, выполнить: удалить из формального контекста Kg отношение Ig для признака Ь;, что ajIsbl для всех объектов а, из объема ФП С), (полное переформирование решетки L не требуется, возможно только необходимо объединить ФП Cj с ФП Ст, если после удаления из контекста признаков выполняется Bj=B„i). Шаг 2.2.3 Если на Шаге 2.2.2 для каждого Cm є L выполнялось только условие di di и Вариант 2, то ,,.= Lj+Q, иначе если выполнялся Вариант 1 и условие d2 d; или dj d2, то после переформирования первоначальной решетки найти в ней ФП с объемом, в котором содержаться все объекты а1_В,, где я, є Л, и Cj=(Aj,Bj) - спорное ФП первоначальной решетки. Далее выполнять алгоритм по переформированной решетке. Шаг 3 К множеству формальных понятий L, добавить наименьшее ФП ±. Добавить решетку І,- к итоговому множеству формальных решеток {L}.

Каждое множество формальных понятий L, после добавления наименьшего ФП -L будет являться решеткой по Определению 2.3, т.к. в результате работы алгоритма сегментации не изменяется отношение между формальными понятиями в ,-, заданное в исходной формальной решетке L. Только при работе по Варианту 1 появятся новые ФП, являющиеся расщеплением спорных ФП, которые наследуют отношение порядка от спорных ФП. В каждой решетке , вершинным формальным понятием будет являться ФП Q, добавленное к L, на Шаге 2.1.

Описанный выше алгоритм сегментации удовлетворяет Требованию 3.1, т.к. количество классов и количество элементов классов не задаваться перед началом работы алгоритма. Требование 3.2 выполняется, т.к. каждый класс формальных понятий L/ является решеткой. Алгоритмом сегментации также выполняется Требование 3.3, т.к. каждое из ФП СєЬ будет отнесено алгоритмом к одному из / классов или объединено с одним из его суперпонятий, а каждый класс Z, будет включать все подпонятия ФП С,-, за исключением спорных формальных понятий. Содержание вершинного ФП (С,) в каждом классе Z.,- является толкованием класса и соответствует описанию соответствующего сорта.

В алгоритме сегментации на Шаге 2.2.2 из формального контекста Kg удаляется отношение Is между объектами из объема спорного ФП и признаками, наследуемыми спорным ФП от формального понятия из класса, к которому спорное ФП не было отнесено. Таким образом, из решетки формальных понятий удаляется отношение между формальными понятиями из класса, к которому спорное ФП не было отнесено, и спорным ФП со всеми его подпонятиями. Значит, что подпонятиями спорного формального понятия выполняется наследование принадлежности к классу.

В алгоритме сегментации предусмотрено два варианта работы, условия, при которых для построения лексикона будет востребован каждый из вариантов алгоритма сегментации, рассматриваются в Главе 4.

Для получения сортов различной степени детализации возможно применять алгоритм сегментации для каждой решетки из множества {LJ и далее для каждой полученной решетки.

В третьей главе предложены методы обработки лексических ресурсов на основе теоретико-решеточного подхода, формирование которых описано во второй главе. Данные методы позволяют лексическим ресурсам соответствовать Требованию 1.3 и Требованию 1.4 из раздела 1.6: представление лексики с минимальной степенью многозначности и отнесение лексем к семантическим классам (выделение сортов).

Основой для кластеризации формальных понятий является мера схожести между формальными понятиями. Рассмотрены различные способы вычисления семантической схожести между словами и понятиями, в итоге предложена новая мера схожести с учетом особенностей представления лексикона в виде решетки формальных понятий.

На основе меры схожести между формальными понятиями предложен алгоритм сегментации исходной решетки, который в результате работы генерирует набор классов формальных понятий, соответствующих сортам и предоставляет толкование этих сортов. Формальные понятия каждого сорта формируют полные решетки. В алгоритме сегментации количество классов и количество элементов классов определяется в ходе работы алгоритма, каждое формальное понятие исходной решетки относится к одному из итоговых классов или объединяется с одним из его суперпонятий. В итоге классы содержат максимальное количество сходных между собой элементов. Для получения более детальных классов (с меньшим количеством элементов) необходимо применять алгоритм сегментации рекурсивно.

Обосновано, что предложенный алгоритм сегментации позволяется обнаруживать в лексиконе многозначные формальные понятия, выполнять снятие семантической многозначности путем дублирования признаков или уменьшения числа формальных понятий, что дополнительно повышает интерпретируемость результирующих формальных понятий.

Исследование свойств концептно-ориентированного лексикона

В пятой главе выполняется экспериментальная проверка описанной в предыдущих главах модели извлечения знаний на основе решетки формальных понятий. Формулируются требования по полноте и репрезентативности, предъявляемые к корпусу текстов, используемому для построения на его основе КОЛ. Показано, что распределение частоты встречаемости ГК соответствует закону Ципфа для больших текстов русского языка. Согласно закону Ципфа объем корпуса текстов для построения на его основе КОЛ должен быть не менее 50 млн. слов.

Показано, что с увеличением объема используемого корпуса текстов снижение репрезентативности этого корпуса не происходит, при этом покрытие слов, используемых для построения КОЛ, примерно соответствует всему лексикону русского языка.

Описывается процесс обработки корпуса для извлечения знаний. Формулируются требования к исходным данным в виде корпуса текстов и предлагаемому способу извлечения ГК из текста для получения КОЛ, предлагаются методы оптимизации методов извлечения исходной информации.

Приводится описание разработанного программного комплекса извлечения знаний на основе решетки формальных понятий. Описывается обмен данными между модулями программного комплекса. Для генерации решетки формальных понятий используется комбинация алгоритмов Ferre и Norris, предложено условие переключения между алгоритмами для достижения максимальной скорости генерации решетки. Оценивается сложность алгоритма сегментации решетки.

Основные научные результаты состоят в следующем: Предложена и обоснована формализация семантики генитивной конструкции на языке интенсиональной логики. Получены выражения для записи теории лексемы и теории сорта, принадлежности лексемы к сорту, оператора метонимического сдвига. Описаны свойства, которыми обладает формализация семантики генитивной конструкции.

Сформулированы требования к лексическим ресурсам для ВОС. Разработана модель концептно-ориентированного лексикона, представленного решеткой формальных понятий, отвечающая этим требованиям. Толкование лексического значения получено в виде содержания формальных понятий решетки, а сами лексемы представлены в объеме формальных понятий.

Разработана модель автоматического извлечения знаний, представленных формальными понятиями в концептно-ориентированном лексиконе, из неструктурированного текста на русском языке. Концептно-ориентированный лексикон генерируется на основе формального контекста, состоящего из элементов генитивных конструкций и глаголов, в модели управления которых генитивная конструкция занимает место одного из актантов. Формальный контекст автоматически формируется из неструктурированного текста на русском языке.

По теме диссертации опубликовано 8 печатных работ [126, 15, 55, 56, 54, 35, 125, 53]. Основные результаты апробировались на международных конференциях и опубликованы в сборниках докладов и журналах: ГХ-й международной конференции «Cognitive Modeling in Linguistics» (София, Болгария, 2007), 7-й международной конференции «Pattern Recognition and Image Analysis: New Information Technologies» (С.-Петербург, 2004), 6-ой международной научно-технической конференции «Interactive Systems And Technologies: The Problems of Human-Computer Interaction» (Ульяновск, 2005), 2-й международной конференции IASTED «Automation, Control, and Information Technologies» (Новосибирск, 2005), VI-м международном конгрессе по математическому моделированию (Нижний Новгород, 2004), 13-й всероссийской конференции «Математические методы распознавания образов» (г. Зеленогорск, 2007), 7-ой международной научно-технической конференции «Interactive Systems And Technologies: The Problems of Human-Computer Interaction» (Ульяновск, 2007) и в публикации в журнале «Pattern Recognition and Image Analysis: Advances in Mathematical Theory and Applications» (Vol. 17, No. 2, 2007).

Моделирование процесса автоматического извлечения знаний в вопросно-ответных системах Степанова Надежда Александровна

Толкование лексического значения

Анализ формальных понятий

Семантическая схожесть и связность

Исследование свойств концептно-ориентированного лексикона

Похожие диссертации на Моделирование процесса автоматического извлечения знаний в вопросно-ответных системах