Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Проблемы формализации русского языка в процессах управления поисковых, обучающих и естественно-языковых систем Кривцов, Александр Николаевич

Данная диссертационная работа должна поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Кривцов, Александр Николаевич. Проблемы формализации русского языка в процессах управления поисковых, обучающих и естественно-языковых систем : автореферат дис. ... кандидата физико-математических наук : 01.01.09, 05.13.11 / Санкт-Петербург. ун-т.- Санкт-Петербург, 1998.- 16 с.: ил. РГБ ОД, 9 98-4/2050-2

Введение к работе

Актуальность темы. Данная работа посвящена проблемам, которые связаны с представлением знаний о русском языке в вычислительной машине и которые возникают при обработке компьютером текстов на русском языке

Эти проблемы не новы. Однако, семантическая сложность русского языка, многообразие и многозначность его грамматических конструкций накладывают множество ограничений на способы компьютерного представления знаний о языке, предметные области его использоваїшя в вычислительных системах и зависят от возможностей существующих информационных технологий. По существу, это проблемы формализации русского языка для компьютера, которые сводится к решению трех подзадач: морфологического, синтаксического и семантического анализа текста.

Решение этих подзадач позволяет говорить о разработке такой системы базы знаний, которая, сможет использовать естественный (русский) язык в автоматизированном или полуавтоматизированном режиме.

Предметом анализа настоящей диссертационной работы являются методы и формы представления информации о русском языке для компьютера.

Цель диссертационной работы состоит в обосновании предлагаемых принципов формализации русского языка для компьютера, доказательстве утверждений, лежащих в основании этих принципов путем разработки прототипа диалоговой системы обработки произвольной текстовой информации и выдачи результатов этой обработки в доступном для человека виде.

Комплекс актуальных проблем, возникших в ходе исследований, обусловил решение следующих основных задач:

  1. выделить, обосновать и доказать основополагающие принципы и утверждения, необходимые для машинной формализации русского языка;

  2. разработать механизм задания, информации и разработать морфологический анализатор текстов на русском языке;

  3. рассмотреть возможные способы применения разработаштого морфологического анализатора в поисковых и обучающих системах;

  4. описать семантику синтаксиса предложений русского языка, выделить информативную для машины ее основу и разработать синтаксический анализатор произвольных текстовых конструкций;

  1. разработать прототип диалоговой системы морфологической и синтаксической обработки текстов;

  2. описать и обобщить полученные результаты проведенного анализа по проблемам формализации русского языка в процессах управления автоматизированных естественно-языковых систем.

Научная новизна вытекает из сформулированных выше цели и задач исследования. Принципиальной новизной является сам комплексный подход к решению проблем по формализации русского языка для компьютера, в результате которого получается такая система знаний компьютера о предметной области (о русском языке), благодаря которой компьютер способен «общаться» с человеком на естественном языке, вычисляя и обрабатывая произвольные грамматические конструкции.

Основные результаты. Проведенные исследования позволили создать систему, способную анализировать морфологию и синтаксис произвольных текстов на русском языке. Она реализует следующие возможности:

  1. производит морфологический разбор произвольно задаваемого слова;

  2. получает полігуго парадигму любого слова вместе с морфологическим описателем для каждой формы слова этой парадигмы;

  3. строит для любого слова его морфологический шаблон и вычисляет набор слов, соответствующий этому шаблону;

  4. осуществляет выделение в произвольной конструкции (предложение, текст) составляющих ее отдельных слов и получает по ним морфологическую информацию;

  5. приводит выделешгую морфологическую информацию к грамматическому типу, соответствующему грамматическому типу предложения;

  6. выделяет ведущую функцию конструкции, определяет ее аргументы и осуществляет сборку конструкции в виде единой законченной суперпозиции, получая таким образом синтаксический шаблон конструкции;

  7. позволяет по грамматически верному произвольному вопросу на русском языке для произвольной конструкции получить грамматически верный ответ в естественном виде, адекватный синтаксису этой конструкции;

  8. при работе в диалоге с пользователем не требует ограничений на его словарный запас: пользователь может быть «не понят» системой лишь в том случае,

если в вводимой конструкции имеется слово, информация о котором не заложена в электронный морфологический словарь (что для 100000-го словаря основ и возможности генерации более 2.5 млн. словоформ практически маловероятно), либо п том случае, если пользователь в запросе задаст заведомо ложную информацию, искажающую грамматическую конструкцию ( экспериментальная версия системы предполагает общение с грамотным пользователем; в противном случае, искаженная информация игнорируется системой).

Теоретическая значимость результатов работы заключается в предложении нового подхода решения проблем компьютерной формализации русского языка и его перспективности при разработке эффективных автоматизированных систем по обработке текстовой информации.

Практическая ценность полученных результатов состоит в разработанных методах и алгоритмах формализации русского языка (на уровне синтаксиса предложений) и созданных на их основе анализаторов произвольных текстовых конструкций. Готовые алгоритмы и программы могут быть применены в разрабатываемых поисковых, обучающих и других естественно-языковых системах.

Апробация работы. Приведенные проблемные вопросы прошли апробацию в выступлениях на научных конференциях факультета ПМ-ПУ СПбГУ (1996г., 1997г.), научно-практических конференциях Академии МВД (январь и ноябрь 1997), Международной конференции по современным технологиям в образовании (Санкт-Петербург, 1997г.), научно-практических семинарах Междисциплинарного Центра дополнительного профессионального образования СПбГУ (декабрь 1997, январь 1998) и др.

Публикации. По основным вопросам диссертации опубликованы 3 печатные работы, список которых приведен в конце автореферата.

Структура и объем работы. Диссертационная работа в композиционном отношении состоит из введения, четырех глав, заключения, списка основной литературы, включающего 29 наименований и двух приложений. Общий объем работы 94 страницы машинописного текста.

Похожие диссертации на Проблемы формализации русского языка в процессах управления поисковых, обучающих и естественно-языковых систем