Разработка методов звукового распознавания слов на основе их морфологического анализа и синтеза Бекманова Гульмира Тылеубердиевна

Данная диссертационная работа должна поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Бекманова Гульмира Тылеубердиевна. Разработка методов звукового распознавания слов на основе их морфологического анализа и синтеза: автореферат дис. ... кандидата технических наук: 05.13.11 / Бекманова Гульмира Тылеубердиевна;[Место защиты: Евразийском национальном университете им. Л. Н. Гумилева].- Астана, 2010.- 23 с.

Введение к работе

Актуальность темы исследования. Разработка средств эффективного взаимодействия человека с компьютером, в том числе автоматического распознавания речи, является одним из актуальных направлений развития искусственного интеллекта и информатики в целом. Исследованием этой проблемы уже более 50 лет занимаются специалисты нескольких научных областей.. С развитием современных речевых технологий появилась принципиальная возможность перехода от формальных языков-посредников между человеком и машиной к естественному языку (ЕЯ) в устной форме как универсальному средству выражения целей и желаний человека. Речевой ввод обладает рядом преимуществ, таких, как естественность, оперативность, смысловая точность ввода, освобождение рук и зрения пользователя, возможность управления и обработки в экстремальных условиях.

Выявление формальных структур естественного языка, формализация языка в целом, построение конструктивной теории и компьютерной модели языка являются приоритетными направлениями информатики на протяжении последних десятилетий. Системы информационного поиска, диалоговые системы, инструментальные средства для машинного перевода и автореферирования, рубрикаторы и модули проверки правописания, так или иначе, проводят анализ естественно-языковых текстов. Достижения последних лет в области современной логики, искусственного интеллекта и компьютерной лингвистики создали новые предпосылки для исследований природы морфологических, синтаксических, семантических и словообразовательных связей в естественном (казахском) языке.

Степень разработанности проблемы. Значительный вклад в изучение и исследование проблемы распознавания речи и обработки естественно-языковых текстов внесли ученые дальнего и ближнего зарубежья. Достаточно эффективные системы распознавания речи существуют для английского, китайского, испанского, японского и русского языков. Проблемы распознавания речи отражены в трудах следующих ученых: S. Furui, R.O. Duda, Jelinek, F. Jurafsky D., J.H. Martin, E. Keller (ed.), C.D. Manning, H. Schuetze, L.R. Rabiner , B. Juang, S. L. Oviat, Н. Хомского, У. Ли, Дж. Фланагана, Дж. Е. Шуна, Ф. Хейс-Роза, Г. Гудмена, Р. Редди, Т. К. Винцюка, В. Ю. Шелепова, А. В. Ниценко, Г. В. Дорохиной, В. Н. Трунина-Донского, Е. Н. Соколовой, А. Б. Холоденко, М. А. Сапожкова, В.Я. Чучупала, К. А. Маковкина, А. В. Чичагова, В. А. Баранникова, В. А. Кибкало, Д. Е. Шуклина и др.

Вместе с тем в настоящее время не существует эффективной системы распознавания казахской речи. Проведенный анализ лингвистической литературы показал, что в настоящее время нет описания фонетического строя казахского языка, содержащего физические (акустические) характеристики звуков, необходимые для создания автоматического транскриптора, который является неотъемлемой частью системы распознавания казахской речи. Кроме того проблема распознавания речи всегда тесно связана с обработкой текста на ЕЯ, в данном случае разработкой формальных моделей и алгоритмов словоизменения, словообразования и морфологического анализа казахского языка, что делается впервые.

Актуализация проблем исследования и степень их разработанности детерменируют цель, основные задачи исследования и логику ее построения.

Целью диссертационной работы является разработка методов звукового распознавания слов на основе их морфологического анализа и синтеза на основе исследования морфологических, фонологических, семантических закономерностей и фонетического строя казахского языка, направленных на разработку формальных моделей и построения алгоритмов словоизменения, словообразования и морфологического анализа.

Задачи. Для достижения указанной цели диссертационной работы ставятся и решаются следующие задачи:

создание базы данных начальных форм казахских слов с разметкой частей речи и других признаков, необходимых для генерации словаря словоформ;

разработка формальной модели словоизменения и словообразования казахского языка с учетом семантики на основе семантической нейронной сети;

автоматическая генерация базы данных казахских словоформ с полной морфологической информацией;

разработка алгоритма и программы морфологического анализа естественно-языковых текстов с учетом семантики на основе семантической нейронной сети и клеточных автоматов;

формализация фонологических правил звукосочетаний в казахском языке;

разработка транскриптора, позволяющего автоматически генерировать транскрипцию заданного слова;

разработка алгоритмов и программ распознавания казахских слов на основе транскрипции.

Объектами исследования являются морфологические, фонологические и семантические закономерности казахского языка, фонетический состав и классификация звуков казахского языка, методы распознавания речи естественных языков и обработки цифровых звуковых сигналов.

Методы исследований диссертационной работы основывается на теории нейронных сетей, теории формальных языков и автоматов, теории функций комплексных переменных, теории и методов программирования.

Научная новизна полученных результатов диссертационной работы заключается в том, что впервые были:

создана база данных начальных форм слов объёмом 45 000 слов с разметкой частей речи и других признаков, необходимых для генерации словаря словоформ;

получена формальная модель словоизменения и словообразования казахского языка с учетом семантики на основе семантической нейронной сети;

автоматически сгенерирована база данных казахских словоформ объёмом более 1 800 000 словарных статей с полной морфологической информацией;

разработаны алгоритмы и программы морфологического анализа естественно-языковых текстов с учетом семантики на основе семантической нейронной сети и клеточных автоматов;

получены формализации фонологических правил звукосочетаний в казахском языке;

разработан транскриптор, позволяющий автоматически генерировать транскрипцию заданного слова;

разработаны алгоритмы и программы распознавания казахских слов на основе транскрипции.

Основные научные положения диссертационного исследования, выносимые на защиту:

формальная модель словоизменения и словообразования казахского языка с учетом семантики на основе семантической нейронной сети;

алгоритм морфологического анализа естественно-языковых текстов с учетом семантики на основе семантической нейронной сети и клеточных автоматов;

формальные фонологические правила звукосочетаний казахского языка;

транскриптор, позволяющий автоматически генерировать транскрипцию заданного слова;

алгоритмы и программы распознавания казахских слов на основе транскрипции.

Практическая значимость работы состоит в том, что полученные словари могут быть изданы в качестве орфографических словарей. Полученные формализации, методы и алгоритмы могут использоваться в системах обработки естественно-языковых текстов (орфографических корректорах, переводчиках, обучающих системах), системах распознавания и синтеза казахской речи, а также в семантических поисковых системах.

Апробация работы. Результаты работы докладывались на следующих конференциях:

Международной научно-практической конференции студентов, аспирантов, молодых ученых «Современные техника и технологии (г. Томск 2008),

Международной научно-практической конференции «Информационно-инновационные технологии: интеграция науки, образования и бизнеса» КазНТУ им. Сатпаева (Алматы 2008)

Международной конференции «Актуальные проблемы математики и информационных технологий – Аль Хорезми 2009» (Ташкент 2009),

Всероссийской конференции с межународным участием Знания-Онтологии-Теории (Новосибирск, 2009 г).

Результаты диссертационного исследования внедрены в учебный процесс по дисциплинам «Теория языков и автоматов» и «Системы искусственного интеллекта» специальности «050602-Информатика» на кафедре «Программное обеспечение систем и сетей» КазНТУ им. К. Сатпаева и кафедры «Вычислительная техника» ЕНУ им. Л. Н. Гумилева (Акты внедрения).

Публикации. Основные научные результаты диссертации опубликованы в 11 научных трудах, из них 4 опубликованы в изданиях, перечень которых утвержден Комитетом по контролю в сфере образования и науки. Из совместных публикаций в диссертации приведены результаты, полученные автором.

Структура работы. Диссертация состоит из введения, трех глав, заключения, списка использованных источников из 101 наименований и приложений. Основное содержание диссертационной работе изложено на 117 страницах машинописного текста, иллюстрированного таблицами и рисунками.

В первой главе приведены теоретические основы распознавания слов, в которых рассматриваются состав и классификация звуков казахского языка, математические основы распознавания слов казахского языка, в том числе элементы теории нейронных сетей, элементы теории формальных языков и автоматов, а также современные методы и технологии распознавания речи.

Во второй главе автоматизируются морфологический анализ и синтез казахских слов, которые включают в себя построение семантической базы начальных форм слов, формализацию морфологических правил казахского языка, построение и реализацию морфологического синтеза казахских слов, а также построение и реализацию алгоритмов морфологического анализа казахских слов.

В третьей главе реализуются методы распознавания казахских слов. Осуществляется первоначальная запись и обработка речевого сигнала. На основе формализованных фонологических правил звукосочетаний разрабатывается автоматический транскриптор и осуществляется распознавание казахских слов.

В приложении приводятся исходные тексты программмы, формальные правила, и акты внедрения.

Разработка методов звукового распознавания слов на основе их морфологического анализа и синтеза Бекманова Гульмира Тылеубердиевна

Похожие диссертации на Разработка методов звукового распознавания слов на основе их морфологического анализа и синтеза