Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Теоретическое обоснование и разработка интеллектуальной русскоязычной информационно-поисковой системы Волков Сергей Сергеевич

Теоретическое обоснование и разработка интеллектуальной русскоязычной информационно-поисковой системы
<
Теоретическое обоснование и разработка интеллектуальной русскоязычной информационно-поисковой системы Теоретическое обоснование и разработка интеллектуальной русскоязычной информационно-поисковой системы Теоретическое обоснование и разработка интеллектуальной русскоязычной информационно-поисковой системы Теоретическое обоснование и разработка интеллектуальной русскоязычной информационно-поисковой системы Теоретическое обоснование и разработка интеллектуальной русскоязычной информационно-поисковой системы
>

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Волков Сергей Сергеевич. Теоретическое обоснование и разработка интеллектуальной русскоязычной информационно-поисковой системы : диссертация ... кандидата технических наук : 05.13.01.- Краснодар, 2002.- 180 с.: ил. РГБ ОД, 61 03-5/1208-0

Содержание к диссертации

ВВЕДЕНИЕ 5

1 СОСТОЯНИЕ ВОПРОСА. ОБЗОР И АНАЛИЗ ЛИТЕРАТУРНЫХ

ИСТОЧНИКОВ 12

  1. „ОбщиеПРИНЦИПЫ ПОСТРОЕНИЯ И СТРУКТУРА ИНФОРМАЦИОННО-! гоисковой СИСТЕМЫ 12

  2. ИНФОРМЛЦИОННО-ПОИСКОВЫЕ ЯЗЫКИ 15

  1. Логический поиск .....75

  2. Взвешенный поиск /7

/.2.3 Линейная модель индексирования и поиска 11

  1. Поиске нечетких множествах 11

  2. Пороговые модели 18

  3. Кластерная модель .- 18

  4. Вероятностная модель 18

  5. Коррекция запроса «0релевантности 18

  6. Поиск по смыслу 19

  1. Поиск по шаблону 20

  2. Итеративный поиск 20

і ,3 Формальные модели естественного языка 21

  1. Общие сведения 21

  2. Средства смысаоотождествленчя в ИПС 24

  3. Классификация И 11Я 26

  4. Эволюция информационно-поисковых языков 29

1.4 Программные системы для поиска информации 31

  1. Документальная ИПС Артефакт 31

  2. Система D/Search 31

  3. Oracle Context Cartridge (ОСО 32

  4. ExcaHbur Retrieval Ware ; 34

  5. TEXIS 35

  6. Ятіех 36

  7. Евфрапі 31

  1. Сравнение существующих поисковых систем и обоснование необходимости разработки 38

  2. Постановка задачи 40

  3. Выводы 41

2 ТЕОРЕТИЧЕСКИ К ОСНОВЫ ПОСТРОЕНИЯ
ИНТЕЛЛЕКТУАЛЬНОЙ ИНФОРМАЦИОННО-ПОИСКОВОЙ
СИСТЕМЫ .'. 43

2.1 СШАШИКО-СИІІТАІССИЧЕСКИЙ АНАЛИЗ И СИНТЕЗ ТЕКСТОВ НА ЕСТЕСТВЕННЫХ
ЯЗЫКАХ 43

  1. Семантико-синтаксическая структура текстов 43

  2. Элементы структурной лингвистики 48

  3. Синтаксический анализ текстов 53

  4. Определение значимости слов на основе законов Ципфа 59

2.J.5 Иерархическая векторная модель представления документов в
информационном поиске. 62

2.2 Лингвистический .процессор 66

  1. Блок лексического аншиза 68

  2. Блок морфологического анализа 68

  3. Блок синтаксического анализа 73

  4. Блок семантического анализа 76

22 ВКРОЯТНОСШЫЙСИНЬАКСИЧГСКИЙ анализ 85

2.3. і Структурные и вероятностные методы анализа 85

  1. Вероятностные КС-грамматики 85

  2. Метод генетических алгоритмов 8?

  3. Метод распознавания образов 88

  4. Метод дерева решений 90

2.3 6 Алгоритм вероятностного синтаксического анализа 99

2.4 ВЫВОДЫ 104

3 РАЗРАБОТКА И СОЗДАНИЕ ИНТЕЛЛЕКТУАЛЬНОЙ
ПОИСКОВОЙ СИСТЕМЫ 105

ЗЛ Индексирование документов 105

  1. Система индексирования..., 105

  2. Анализ и классификация способов индексирования 106

3.2 Файловые структуры для хранения и поиска информации 108

3.2. і Основная терминология при описании структур файлов 108

  1. Последовательные фаты ПО

  2. Инвертированные файлы ПО

3.2.1 Индексно-пос.чедовательные фаты.. 111

  1. Мультисписки 111

  2. Ячеистые мультисписки П2

3.2.? Кольцевые структуры 113

3.2.8 Заплетенные списки 115

3.3 Вывор и ОБОСНОВАНИЕ языка программирования ! 17

3.4 Алгоритмическое 11 ПРОГРАММНОЕ конструирование ЙНІ'ШІЛЬКТУАЛЬНЬІХ
СИСТЕМ ДЛЯ ПОИСКА ИНФОРМАЦИИ J18

3.4J Общие положения 118

  1. Нахождение начальноїі формы слова 121

  2. Нахождение не ключевых слов 121

  3. Объекты для нахождения синонимов 122

  4. Реализация поиска в базе данных документов 122

  5. Ретизаиия интеллектуальной надстройки к поисковым машинам сети Интернет 123

  6. Конструирование пользовательского интерфейса 125

3.5 РУКОВОДСТВО ПОЛЬЗОВАТЕЛЯ 126

  1. Требования к оборудованию иустанопка программы 126

  2. Запуск программы 126

  3. Основное окно программы 126

  4. Ввод запроса 12?

  5. Задание области поиска 12?

3.5.6!Іоиск документов 128

3.5.7 Быдача результатов 128

3.6 Выводы 129

4 ОЦЕНКА ЭФФЕКТИВНОСТИ РАБОТЫ ИНТЕЛЛЕКТУАЛЬНОЙ
ПОИСКОВОЙ СИСТЕМЫ 130

4.1. Эффективность и релевантность поиска 130

  1. Качество информационно-поисковых систем 130

  2. Методы улучшения качества поиска 132

4. L3 Эффективность поиска 136

4.2 Тестирование интеллектуальной ИПС 137

  1. Тестирование эффективности поиска 13?

  2. Поиск документов MS Word 13Н

  3. Поиск электронных таблиц MS Excel 141

  1. Поиск Web-страниц 142

  2. Тестирование скорости поиска 142

4.3 Выводы 145

ЗАКЛЮЧЕНИЕ 147

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 148

ПРИЛОЖЕНИЕ А - ИСХОДНЫЙ ТЕКСТ ПРОГРАММЫ 151

Введение к работе

Актуальность проблемы. За последние несколько лет бурное развитие сети Интернет и повсеместная компьютеризация делопроизводства привели к значительному увеличению количества и обьемов электронных документов. Возникающие при этом проблемы поиска нужной информации осложняются слабой структурированностью информационных ресурсов, к тому же хранящихся в различных форматах офисных пакетов. Упорядочивание документов при помощи системы каталогов зачастую является неэффективным и ненамного сокращает время поиска нужного документа. Встроенные во многие пакеты офисных программ средства ручного задания атрибутов документа (тема, ключевые слова, аннотация и т.д.). облегчая в некоторой степени процесс поиска, требуют в тоже время дополнительной работы по аннотированию документов. Дня решения этих проблем в последнее время интенсивно развиваются системы для поиска в полнотекстовых информационных массивах по совокупности признаков (обычно ключевых слов).

Большинство поисковых систем, используемых в Интернет, либо я вляются пол но текстовыми і ю исковыми машинами, либо сочетают древовидную структуру каталогов с возможностью запросов для поиска по аннотациям и названиям документов. Второй тип систем требует квалифицированного эксперта или нескольких экспертов в различных предметных областях для построения иерархической структуры и проверки соответствия содержания поступающих в систему документов их местоположению в дереве.

I fолнотекетовые поисковые системы обычно выделяют из документа только текст без форматирования, иногда строя словарь всех встреченных ключевых слов, но не анализируя смысл текста. Результаты поиска в таких системах с использованием запросов как на естественном языке, так и в булевской форме обычно связаны с большим количеством нерелевантных документов и отсеиванием из результатов поиска действительно необходимых документов только из-за несоответствия грамматических форм слов в запросе и документе и из-за использования в документах слов и словосочетаний, отличных по форме, но имеющих тот же смысл, что и слова в запросе.

Так как большинство пользователей механизмов поиска просто выбирают одно или несколько ключевых слов для поиска и не применяют сложных функций булевой логики, то поисковый механизм сам должен быть достаточно интеллектуальным.

Диссертационная работа посвящена разработке принципов фунциопирования интеллекуалыюй информационно-поисковой системы, включая модули обработки запроса и индексирования документов, лексического анализатора, модуля определения релевантости информации запросу.

Цель работы.

Теоретической обоснование и разработка интеллектуальной информационно-поисковой системы.

Задачи исследования: определение общих принципов построения и структуры интеллектуальной информационно-поисковой системы; проведение анализа существующих моделей представления документов в интеллектуальных информационно-поисковых системах; исследование уровней формальных моделей естественно го языка; разработка структуры лингисі ического процессора; разработка методов анализа к преобразования запроса к поисковой системе па естественном языке к форме. позволяющей достичь эффективных результатов поиска: анализ семантико-синтаксических моделей для описания структуры текстов; рассмотрение статистического (вероятностного) метода анализа на основе дерева принятия решений: решение практических вопросов разработки и создания интеллектуальной информационно-поисковой системы; проведение анализа и классификация способов индексирования документов в интеллектуальных поисковых системах; разработка алгоритмов автоматического индексирования естественно-языковых текстов; разработка алгоритмов индексирования текстовой информации. использующие определение весовых коэффициентов ключевых слов документов и запросов на основе законов Ципфа; проведение анализа специальных структур файлов для храпения информации и ее поиска по совокупности ключевых слов; проведение алгоритмического и программного конструирования интеллектуальной системы для поиска информации; анализ связи между полнотой и точностью поиска еетественно-языковьтх текстов.

Методы исследования.

Один из способов использования контекстно-зависимой информации для повышения точности результатов - нечеткий поиск с дополнением запроса синонимами ключевых слов. Теоретическое обоснование и разработка именно такой системы являлось целью данной работы. В разработанной интеллектуальной ИІ1С каждое ключевое слово запроса может дополняться синонимами, соответствующими одному или нескольким значениям слова, в зависимости от контекста, с учетом морфологии русского и английского языков. Таким образом, в данной системе проводится анализ и преобразование запроса к поисковой системе на естественном языке к форме, позволяющей достичь более эффективных результатов поиска.

Поставленные задачи решены с применением теории графов, теории нечетких множеств, математического моделирования и целочисленного линейного программирования.

Научная новизна. исследованы уровни формальных моделей естественного языка с целью определения оптимальной модели представления документов в интеллектуальной поисковой системе; разработаны методы анализа и преобразования запроса к поисковой системе па естественном языке к форме, позволяющей достичь эффективных результатов поиска; разработана и исследована структура лингиетичеекого процессора - одного из ключевых элементов интеллектуальной поисковой системы с естественно-языковой ориентацией; решены практические .вопросы разработки и создания интеллектуальной информационно-поисковой системы; разработан и исследован перспективный подход к обработке естесгвенно-язьтковых текстов - статистический (вероятностный) метод анализа на основе дерева принятия решений; с целью оптимизации процесса индексирования проведен анализ и классификация способов индексирования документов в интеллектуальных поисковых системах, включающие методы деривативного,- приписного индексирования и автоматической классификации; разработаны алгоритмы автоматического индексирования естественно-языковых текстов в интеллектуальных поисковых системах; для решения практических вопросов представления естественно-языковых документов в индексе поисковой системы проведен анализ специальных структур файлов для хранения информации и ее поиска по совокупности ключевых слов; сформулирована и разрешена задача нахождения путей улучшения качества результатов поиска ИПС при ограничениях, заданных через ресурсоемкость алгоритма индексации и величины вычислительной мощности системы и пропускной способности каналов связи; разработаны принципы построения и структура интеллектуальной информационно-поисковой системы;

Практическая ценность. Основным достоинством разработанной ИПС является ускорение поиска нужной информации и повышение эффективности делопроизводства в организациях с большим количеством электронных документов самых различных форматов. Поэтому дополнительным условием при создании ИПС являлась поддержка индексирования и поиска не только текстовых и HTML файлов, но и всего спектра используемых в офисной работе форматов: документов Word, электронных таблиц Excel, презентаций PowerPoint, баз данных Access и, конечно. Web-страниц в формате HTML.

Дополнительной возможностью разработанной системы является передача преобразованного запроса для поиска по базам данных популярных российских и зарубежных поисковых машин Интернета. И этом случае программа выступает в роли интеллектуальной надстройки к поисковым механизмам сети Интернет, в том числе к системам AltaVista, Rambler, Япсіех.

В настоящее время в рамках проектов комплексной автоматизации управленческого и бухгалтерского учета, проводимых ООО «Инфотэкс», система внедрена на более 20 предприятиях Ханты-Мансийского округа (акт внедрения прилагается).

Апробация работы.

Основные этапы работы докладывались и обсуждались на X Международной конференции " Применение новых технологий в образовании " (Троицк, 1999), 8-ом Международном науч.-техи. семинаре " Проблемы передачи и обработки информации в сетях и системах телекоммуникаций "(Рязань, 1999), Всероссийской науч.- техн. конференции " Новые информационные технологии в научных исследованиях и в образовании (Рязань, 2000), Второй международной научно-технической конференции "Измерение, контроль, информатизация'* (Барнаул, 2001).

Публикации. По теме диссертации опубликовано 10 печатных работ. Из них: 1 учебное пособие, 1 монография, 4 статьи и 4 тезисов докладов на вышеперечисленных конференциях.

Основные положении, выносимые на защиту: принципы построения и структура интеллектуальной информационно-поисковой системы; методы анализа и преобразования запроса к поисковой системе на естественном языке к форме, позволяющей достичь эффективных результатов поиска; архитектура лингистического процессора одного из ключевых элементов интеллектуальной поисковой системы с естественно-языковой ориентацией; алгоритмы автоматического индексирования естественноязыковых текстов в интеллектуальных поисковых системах; методы улучшения качества результатов поиска ИПС при ограничениях, заданных через ресурсоемкость алгоритма индексации и величины вычислительной мощности системы и пропускной способности каналов связи;

Структура и объем работы

Работа содержит 29 рисунков, 8 таблиц, библиографию из 32 наименований на 3 страницах и приложения на 28 страницах.

В первой главе определены общие принципы построения и структура интеллектуальной информационно-поисковой системы; проведен анализ существующих моделей представления документов в интеллектуальных информационно-поисковых системах; определена степень развития информационно-поисковых языков, включая логический поиск, взвешенный поиск, линейную модель индексирования и поиска, поиск в нечетких множествах, пороговые модели, кластерную и вероятностные модели, итеративный поиск: исследованы наиболее известные программные продукты в области организации хранения и поиска информации, созданные российскими и зарубежными разработчиками; обоснована необходимость интеллектуально информационно-поисковой системы, сочетающей предельную простоту* интерфейса, автоматическую индексацию документов без дополнительной работы пользователей, поддержку русской морфологии и поиска по смыслу с использованием русского и английского тезаурусов, и в гоже время позволяющей использовать файлы распространенных в настоящее время форматов; осуществлена постановка задачи и определены методы ее решения.

Во второй главе диссертации рассмоіреньї четыре уровня формальных моделей естественного языка: элементарная теоретико-множественная модель, линейные модели, синтаксические модели, семантические модели; показано, что в информационном языке. обеспечивающем формализацию информационно значимого содержания текста, достаточно иметь некоторый основной набор средств представления связей между дескрипторами; рассмотрены семантико-синтаксические модели для описания структуры текстов; описан алгоритм автоматического синтаксического анализа естественно-языковых текстов. В данной главе разработана структура лиигистического процессора - одного из ключевых элементов ИГІС с естественно-языковой ориентацией, ВЫПОЛНЯЮЩИЙ роль посредника между пользователем и базой данных, в которой хранится интересующая его информация. Рассмотрены методы морфологического аначиза, использующихся в лингвистических процессорах, включая методы с декларативной и с процедурной ориентацией; описаны две стратегии синтаксического анализа - "по приоритетам" и "по порядку слов"; рассмотрен перспективный подход к обработке естественно-языковых текстов - статистический (вероятностный) метод анализа на основе дерева принятия решений.

В третьей главе рассмотрены практические вопросы разработки и создания интеллектуальной информационно-поисковой системы, проведен анализ и классификация способов индексирования документов в интеллектуальных поисковых системах, включающие методы дери вати вного, приписного индексирования и автоматической классификации; разработаны алгоритмы автоматического индексирования естественно-языковых текстов в интеллектуальных информационно-поисковых системах. В данной главе предложены алгоритмы индексирования текстовой информации, использующие определение весовых коэффициентов ключевых слов документов и .запросов на основе законов Ципфа; проведен анализ специальных структур файлов для хранения информации и ее поиска по совокупности ключевых слов. Проведен выбор и обоснования языка программирования (С+^), основными критериями при выборе были поддержка в полной мере объектио-ориентированпого программирования, возможность использования технологии OLE Automation, визуальное проектирование интерфейса. В данной главе также проведено алгоритмическое и программное конструирование интеллектуальной системы для поиска информации

В четвертой главе, посвященной опенке эффективности работы интеллектуальной поисковой системы, рассмотрены понятия эффективности и релевантности поиска; сформулирована и разрешена задача нахождения путей улучшения качества результатов поиска ИІІС при ограничениях, заданных через ресурсосмкость алгоритма индексации и величины вычислительной мощности системы и пропускной способности каналов связи; проанализирована связь между полнотой и точностью поиска естественно-языковых текстов; показано, что ограничение на пропускную способность каналов связи при построении индекса интеллектуальной поисковой системы решается при помощи процесса адаптивного обновления в зависимости от ранга коллекций ресурсов; рассмотрены практические примеры тестирования интеллектуальной поисковой системы на электронных документах разных форматов с использованием запросов на русском языке.

В приложении приведены фрагменты исходною текста на языке C++ разработанной интеллектуальной поисковой системы.

Похожие диссертации на Теоретическое обоснование и разработка интеллектуальной русскоязычной информационно-поисковой системы