Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Синтез, анализ и практическая реализация алгоритмов распознавания и предобработки речевых сообщений Выборнов, Сергей Владимирович

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Выборнов, Сергей Владимирович. Синтез, анализ и практическая реализация алгоритмов распознавания и предобработки речевых сообщений : диссертация ... кандидата технических наук : 05.13.17 / Выборнов Сергей Владимирович; [Место защиты: Воронеж. гос. ун-т].- Москва, 2013.- 171 с.: ил. РГБ ОД, 61 14-5/786

Введение к работе

Актуальность темы. По мере быстрого развития информационной техники одной из актуальных проблем является повышение эффективности алгоритмов обработки (передачи, фильтрации, распознавания) аудиоинформации. Несмотря на большой объем исследований в области обработки речи, выполненных как отечественными (Винцюк Т.К., Михайлов В.Г., Назаров М.В., Прохоров Ю.Н, Сапожков М.А., Сорокин В.Н. и др.), так и зарубежными (Гринберг Дж.Е., Грэй А.Х., Джуанг Б.Х., Елинек Ф., Левинсон С.Е., Маркел Дж., Оппенгейм А.В., Рабинер Л.Р., Шафер Р.В., Фант Г., Фланаган Дж. и др.) учеными, известные на текущий момент алгоритмы анализа речевых сообщений, к сожалению, не свободны от недостатков. Так приводимые в литературе алгоритмы распознавания речи обладают существенным количеством ограничений, сравнительно большой вычислительной сложностью и, как следствие, плохой разборчивостью для схожих по звучанию изолированных слов и коротких речевых сегментов. В результате точность современных систем распознавания реально не превышает 98 %. Известные к настоящему моменту алгоритмы адаптивной линейной и нелинейной фильтрации, в частности, предполагающие наличие марковской модели сообщения, требуют достаточно большого объема априорной информации, либо существенно зависят от выбора начальных параметров модели и не всегда обеспечивают достаточно высокое выходное отношение сигнал/шум (ОСШ). Применение же рекомендуемых алгоритмов низкоскоростного кодирования речевых сообщений для передачи информации по каналам с высоким процентом ошибок зачастую приводит к существенному ухудшению узнаваемости диктора и фразеологической разборчивости речи. Таким образом, ряд вопросов по синтезу и практической реализации эффективных алгоритмов обработки речевых сообщений до сих пор остается открытым.

С учетом вышесказанного актуальность темы определяется необходимостью разработки новых подходов к синтезу эффективных, практически реализуемых алгоритмов обработки речевых сообщений применительно к задачам распознавания, фильтрации и кодирования в соответствии с требованиями, предъявляемыми к современным системам связи, контроля и управления, а также развития теоретического аппарата технической информатики в направлении более широкого использования модифицированного параметрического описания речевых сигналов и систем.

Цель и задачи диссертационной работы. Целью работы является разработка новых практически реализуемых в реальном масштабе времени алгоритмов обработки речевых сообщений применительно к задачам распознавания, фильтрации и кодирования речи, превосходящих по качеству функционирования имеющиеся аналоги. Для реализации этой цели в диссертационной работе необходимо было решить следующие основные задачи:

  1. На основе современных подходов разработать эффективные дикторонезависи-мые и с настройкой на диктора алгоритмы распознавания изолированных слов.

  2. Синтезировать эффективные алгоритмы фильтрации речевых сообщений, искаженных аддитивными флуктуационными помехами с неизвестными статистическими характеристиками.

  1. Разработать эффективные алгоритмы низкоскоростного (до 375 бит/с и ниже) кодирования речевых сообщений. Найти структуру алгоритмов для каналов передачи информации с высоким (до 10 %) процентом ошибок.

  2. Выполнить практическую реализацию предложенных алгоритмов обработки речевых сообщений на современной элементной базе.

Методы проведения исследования. При решении поставленных в диссертации задач использовались аналитические и вычислительные методы технической информатики и радиотехники, а именно:

а) аппарат теории вероятностей и математической статистики, марковских процес
сов и систем, теории распознавания образов;

б) методы цифровой обработки сигналов, в том числе теории линейных дискрет
ных систем, спектрального анализа и его приложений, теории нейронных сетей;

в) современные численные методы и методы программирования, методы модели
рования на ЭВМ и цифровых процессорах обработки сигналов (ЦПОС) информационных
процессов и алгоритмов их анализа.

Достоверность основных положений и результатов подтверждается экспериментальными данными, полученными с помощью моделирования синтезированных алгоритмов на ЭВМ (в системе MATLAB и на языке высокого уровня «СИ») и их практической реализации на базе ЦПОС семейства TMS320.

Научная новизна. В работе впервые получены или впервые подробно развиты следующие результаты.

1. Новые параметрические представления речевых сообщений, позволяющие
обеспечить более высокую точность дикторонезависимого и с настройкой на диктора
распознавания изолированных слов и упростить его техническую реализацию.

2. Усовершенствование методов выделения речевых сообщений при наличии ад
дитивных искажений с целью получения новых практически реализуемых в реальном
масштабе времени алгоритмов фильтрации речевых сообщений на фоне помех, работо
способных в отличие от известных прототипов в более широком диапазоне входных

осш.

  1. Комплексные модификации методов низкоскоростного кодирования аудиоинформации, в том числе, применительно к информационным каналам связи с высоким процентом ошибок, позволяющие снизить скорость передачи сообщений и улучшить качество синтезированной речи.

  2. Полученные с помощью указанных методик новые более эффективные либо имеющие более простую структуру по сравнению с существующими аналогами алгоритмы обработки речевых сообщений, а именно:

алгоритм распознавания изолированных слов на основе динамического искажения времени (ДИВ) с настройкой на диктора и объемом словаря до 500 единиц, обеспечивающий точность распознавания порядка 99 %;

дикторонезависимый алгоритм распознавания изолированных слов на основе скрытых марковских моделей (СММ) с объемом словаря до 500 единиц, обеспечивающий точность более 98 %;

дикторонезависимый алгоритм распознавания изолированных слов на основе однослойной нейронной сети с объемом словаря до 500 единиц, обеспечивающий точность распознавания более 98 %;

дикторонезависимый алгоритм распознавания изолированных слов на основе ра-диально-базисной нейронной сети встречного распространения с объемом словаря до 1000 единиц, обеспечивающий точность распознавания более 98 %;

алгоритм фильтрации речевых сообщений на фоне аддитивных квазистационарных помех с неизвестными статистическими характеристиками;

алгоритмы низкоскоростной (до 375 бит/с) передачи речевых сообщений на основе метода линейного предсказания со смешанным возбуждением и Фурье-кодирования, в том числе для каналов с высоким (до 10 %) процентом ошибок,

а также возможности практической реализации этих алгоритмов.

5. Развитие методов моделирования на ЭВМ и ЦПОС алгоритмов обработки речевых сообщений для различных информационных и радиотехнических приложений.

Практическая ценность результатов работы состоит в том, что они позволяют внедрять в разработки современных информационных систем новые эффективные практически реализуемые алгоритмы обработки (распознавания, фильтрации, кодирования) речевых сообщений. Найденные в работе характеристики функционирования предложенных алгоритмов позволяют сделать обоснованный выбор между этими и другими алгоритмами в зависимости от имеющейся априорной информации и в соответствии с требованиями, предъявляемыми к качеству алгоритма обработки и к степени простоты его аппаратурной реализации. Результаты работы могут найти практическое применение при проектировании

автоматических систем с голосовым управлением;

перспективных систем распознавания речевых сигналов,

цифровых систем передачи речевых сообщений промышленного и военного назначения,

систем аппаратурного анализа случайных процессов.

Внедрение научных результатов. Полученные в диссертационной работе результаты использовались при выполнении грантов Министерства образования и науки РФ (Соглашения 14.В37.21.2015, 14.В37.21.2032, 14.В37.21.2102), а также внедрены в ЗАО "НПО СПЭЛТ" (г. Москва) и ЗАО "Специальные системы" (г. Москва), что подтверждается соответствующими актами.

Апробация работы. Основные положения диссертационной работы докладывались и обсуждались на

  1. LX и LXIII Научной сессии, посвященной дню радио, Москва, 2005 г., 2008 г.

  2. 1-й Московской отраслевой научно-технической конференции, Москва, 2007 г.

  3. 5-й Международной конференции "Телевидение: передача и обработка изображений", С.-Петербург, 2007 г.

  4. 10-й Международной выставке и конференции "Цифровая обработка сигналов и ее применение", Москва, 2008 г.

  5. Международной научно-технической конференции "Фундаментальные проблемы радиоэлектронного приборостроения", Москва, 2011 г.

Публикации. По теме диссертации опубликованы работы [1-11].

Основные результаты и положения, выносимые на защиту:

- способы описания информационных сигналов в виде наборов оптимизированных
векторов параметров для синтеза эффективных алгоритмов распознавания речевых со
общений;

способы построения эффективных систем распознавания речевых сообщений;

адаптивные методы выделения речевых сообщений на фоне аддитивных квазистационарных помех;

методы низкоскоростного кодирования речевых сообщений, в том числе для каналов с высоким процентом ошибок;

новые алгоритмы распознавания, фильтрации и кодирования речевых сообщений;

результаты программного и аппаратного моделирования алгоритмов распознавания, фильтрации и кодирования речевых сообщений.

Объем и структура диссертационной работы. Диссертация состоит из введения, 4 разделов, заключения, 2 приложений, списка литературы, состоящего из 149 наименований. Объем диссертации составляет 168 страниц, включая 140 страниц основного текста, 15 страниц приложений, 13 страниц списка литературы.

Похожие диссертации на Синтез, анализ и практическая реализация алгоритмов распознавания и предобработки речевых сообщений