Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Лингвистическое и программное обеспечение автоматизированной системы верификации орфографии и грамматики текстов финно-угорских языков Килеев, Вячеслав Васильевич

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Килеев, Вячеслав Васильевич. Лингвистическое и программное обеспечение автоматизированной системы верификации орфографии и грамматики текстов финно-угорских языков : диссертация ... кандидата технических наук : 05.13.12 / Килеев Вячеслав Васильевич; [Место защиты: С.-Петерб. нац. исслед. ун-т информац. технологий, механики и оптики].- Йошкар-Ола, 2013.- 121 с.: ил. РГБ ОД, 61 14-5/1339

Введение к работе

Актуальность темы диссертационного исследования

Представление текста на естественном языке согласно литературной норме является естественной характеристикой автоматизированных систем работы с текстом, в том числе и САПР. Результаты исследований показали, что научные и учебные источники содержат примерно 0,2% неправильно написанных слов. Среди всех неправильно написанных слов в тексте 90% составляют опечатки, которые могут быть обнаружены и устранены компьютерной или автоматизированной системой верификации орфографии, остальные 10%) требуют верификации грамматики.

Актуальным является вопрос разработки и исследования автоматизированных систем верификации орфографии и грамматики для языков с малым количеством носителей языка. Системы проверки орфографии и грамматики разрабатывались в основном для языков, для которых имеются лингвистические корпуса (английский, финский, русский и др.). Кроме того, эти системы реализованы либо только как стационарные информационные приложения, либо как дополнительная функция другого приложения (обычно текстового процессора). Реализация системы в виде веб-приложения расширяет функционал автоматизированной системы.

Сегодня исследования в направлении реализации языковых возможностей автоматизированных систем ведут такие ученые, как норвежский лингвист Т. Тростеруд (финский, саамский языки), И.С. Ашманов (русский язык). В то же время работы по созданию систем верификации орфографии и грамматики для языков с малым количеством носителей, таких как марийский, удмуртский, мордовский и др., являются важными и актуальными. В настоящее время известны различные методы верификации орфографии и грамматики, при этом для разных групп языков применяются разные методы. В этой области можно выделить работы следующих ученых-лингвистов: И. Луутонен, К. Н. Сануков (марийский язык), К. Коскенниеми (финский язык). Также можно назвать работы, вьшолняемые по проекту «Hunspell» (Венгрия). Вопросы распознавания языка представлены в трудах X. Зянга, А. Г. Коробейникова (вьетнамский язык). Следует заметить, что исследования лингвистов без использования компьютерных систем малоэффективны.

Для построения систем проверки орфографии и грамматики языков, в том числе и финно-угорских, не существует больших лингвистических корпусов размером порядка 1 млрд словоупотреблений. Поэтому возникает необходимость исследования и разработки возможности применения для них методов, использующих алгоритмы, для которых все лингвистические данные языка предварительно задаются в специальных лингвистических конструкциях. Это алгоритмы стемминга. Также необходимо обратить внимание на реализацию морфоанализатора таких систем.

Перечисленные направления и задачи исследования являются актуальными для решения вопросов разработки алгоритмов, методов, архитектуры для систем верификации орфографии и грамматики финно-угорских языков и моделей

представления лингвистических конструкций для языков с отсутствующими лингвистическими корпусами.

Цель и задачи исследования

Целью настоящей работы является исследование и разработка программного и лингвистического обеспечения автоматизированной системы верификации орфографии и грамматики языков финно-угорской группы.

Основные задачи данной работы:

анализ лингвистических компонент языков финно-угорской группы;

анализ и классификация методов автоматизированной верификации орфографии и грамматики текстов на языках, имеющих и не имеющих лингвистические корпуса;

анализ и классификация алгоритмов проверки орфографии для осуществления верификации орфографии;

разработка алгоритма стемминга для работы с неограниченно длинными последовательностями аффиксов и для работы с частицами наравне с аффиксами;

разработка модели распознавания предложения исходного языка по правилам грамматики, вводимым лингвистами, для естественных языков;

разработка и исследование алгоритма генерации текстовых подсказок для правильных вариантов написания слова естественного языка в автоматизированных системах верификации орфографии текстов;

разработка архитектуры и структуры программного обеспечения системы верификации орфографии и грамматики текстов финно-угорской группы;

анализ особенностей лингвистического и программного обеспечения системы верификации орфографии и грамматики, реализующей человеко-машинный интерфейс через веб-приложение.

Объект исследования - программное и лингвистическое обеспечение автоматизированной системы верификации орфографии и грамматики текстов на языках финно-угорской группы.

Предметом исследования являются методы и алгоритмы верификации орфографии и грамматики текстов финно-угорских языков в автоматизированной системе.

Методы исследования базируются на использовании теории множеств, теории алгоритмов, теории принятия решений и методов объектно-ориентированного программирования, теории автоматизированного проектирования, методов системного анализа и формальных грамматик.

Научная новизна

Предложены две новые лингвистические компоненты, отличающиеся от существующих функциональным назначением: инфлектион для согласования аффиксов и стема при генерации словоформ и параметры VARS (набор атрибутов) для согласования аффиксов между собой в длинных последовательностях.

Разработан алгоритм стемминга, отличающийся от существующих использованием предложенных лингвистических компонент - инфлектионов и параметров VARS - с циклической обработкой последовательностей аффиксов, благодаря чему обеспечивается работа с неограниченно длинными последовательностями аффиксов и сокращается количество их повторений для высокоагглютинативных языков, а также отличающийся использованием различных способов написания групп аффиксов, благодаря которым возможно работать с частицами наравне с аффиксами, что позволяет проверять соответствие частиц словам.

Предложена модификация алгоритма Дамерау-Левенштейна, которая благодаря вычислению длины каждого символа позволяет корректно рассчитывать меру разницы двух строк, представленных кодировкой с переменной длиной символов.

Предложена модель распознавания предложения исходного языка по правилам грамматики, вводимым лингвистами, отличающаяся от существующих тем, что лексемы группируются в токены с атрибутами, хранящими семантику лексемы. Это позволяет сократить начальный алфавит грамматики и сделать правила вывода более наглядными.

Разработан алгоритм генерации текстовых подсказок для правильных вариантов написания слова естественного языка, отличающийся от существующих обработкой введенных специальных параметров VARS, хранящих лингвистические характеристики слова.

Предложена архитектура автоматизированной системы верификации орфографии и грамматики текста, которая, в отличие от существующих, благодаря выделению подсистемы верификации орфографии и подсистемы верификации грамматики позволяет осуществлять распараллеливание процесса верификации текста большого размера.

Основные положения, выносимые на защиту

Лингвистические компоненты - инфлектион, параметры VARS.

Алгоритм стемминга, позволяющий работать с частицами наравне с аффиксами и с неограниченно длинными последовательностями аффиксов.

Модификация алгоритма Дамерау-Левенштейна.

Модель распознавания предложения исходного языка по правилам грамматики, вводимым лингвистами.

Алгоритм генерации текстовых подсказок для правильных вариантов написания слова.

Практическая значимость работы

Программная реализация автоматизированной системы проверки орфографии и грамматики финно-угорских языков, позволяющая осуществлять проверку текста на наличие орфографических и грамматических ошибок, имеет следующие преимущества:

а) возможность верификации текста в среде Интернет;

б) генерация подсказок по каждому варианту исправления неправильно
написанного слова.

Программное обеспечение зарегистрировано в Реестре программ для ЭВМ Федеральной службы по интеллектуальной собственности, патентам и товарным знакам (свидетельство № 2013615729 от 19 июня 2013 г.).

Апробация результатов работы

Основные положения и результаты диссертационной работы докладывались и обсуждались:

на научно-технической конференции «Исследования. Технологии. Инновации», 22-25 марта 2011 г., Йошкар-Ола;

всероссийской научно-практической конференции «Информационные технологии в профессиональной деятельности и научной работе», 22-23 апреля

2011 г., Йошкар-Ола;

конгрессе по интеллектуальным системам и информационным технологиям «IS&IT 11», 2-9 сентября 2011 г., Дивноморское, Россия;

программе «Участник молодежного научно-инновационного конкурса» («У.М.Н.И.К.»), Йошкар-Ола;

Первом Всероссийском фестивале науки в Республике Марий Эл, 7-9 октября 2011 г., Йошкар-Ола;

ЙО Форуме «Форум твоих идей», 20 ноября 2011 г., Йошкар-Ола;

пятнадцатых Вавиловских чтениях «Инновационные ресурсы и национальная безопасность в эпоху глобальных трансформаций», 8-9 декабря 2011 г., Йошкар-Ола;

XXVIII International Finno-Ugrist Students' Conference Tartu, 8-11 мая

2012 г., Тарту, Эстония;

международной конференции «Автоматизация управления и интеллектуальные системы и среды», 9-15 октября 2012 г., Махачкала;

конгрессе по интеллектуальным системам и информационным технологиям «IS&IT'13», 2-9 сентября 2013, Дивноморское, Россия.

Апробация и внедрение результатов диссертационной работы были проведены в ООО «ПешСайСофт», СГАУ РМЭ «Марийская база авиационной охраны лесов «Авиалесоохрана», ФГБОУ ВПО «ПГТУ», ФГБОУ ВПО «ЧТУ им. И.Н. Ульянова», ФГБОУ ВПО «Санкт-Петербургский государственный электротехнический университет «ЛЭТИ» им В.И.Ульянова (Ленина)».

Результаты диссертации использовались в проектно-конструкторской деятельности ФГБОУ ВПО «ПГТУ» при подготовке и проведении Международной интернет-олимпиады по информатике и программированию, НИР 12.17/12 (гос. контракт 12.741.11.0050 от 27 апреля 2012 г.).

Работа выполнена при поддержке программы ФСР МФП НТС «Участник молодежного научно-инновационного конкурса 2012» («У.М.Н.И.К.») № 10508р/16915 от 1 июня 2012 г.

Публикации

По материалам диссертации опубликовано 15 печатных работ, в том числе три - в рецензируемых журналах, включенных в перечень ВАК.

Структура и объем работы

Диссертационная работа состоит из введения, четырех глав с выводами, заключения, списка использованной литературы (114 наименований). Общий объем 121 страница машинописного текста. Диссертация содержит 50 рисунков и 7 таблиц.

Похожие диссертации на Лингвистическое и программное обеспечение автоматизированной системы верификации орфографии и грамматики текстов финно-угорских языков