Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Исследование и разработка нейросетевых методов анализа и обработки речевого сигнала в задаче распознавания речи Кушнир Дмитрий Алексеевич

Исследование и разработка нейросетевых методов анализа и обработки речевого сигнала в задаче распознавания речи
<
Исследование и разработка нейросетевых методов анализа и обработки речевого сигнала в задаче распознавания речи Исследование и разработка нейросетевых методов анализа и обработки речевого сигнала в задаче распознавания речи Исследование и разработка нейросетевых методов анализа и обработки речевого сигнала в задаче распознавания речи Исследование и разработка нейросетевых методов анализа и обработки речевого сигнала в задаче распознавания речи Исследование и разработка нейросетевых методов анализа и обработки речевого сигнала в задаче распознавания речи Исследование и разработка нейросетевых методов анализа и обработки речевого сигнала в задаче распознавания речи Исследование и разработка нейросетевых методов анализа и обработки речевого сигнала в задаче распознавания речи Исследование и разработка нейросетевых методов анализа и обработки речевого сигнала в задаче распознавания речи Исследование и разработка нейросетевых методов анализа и обработки речевого сигнала в задаче распознавания речи
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Кушнир Дмитрий Алексеевич. Исследование и разработка нейросетевых методов анализа и обработки речевого сигнала в задаче распознавания речи : Дис. ... канд. техн. наук : 05.13.01 Москва, 2006 182 с. РГБ ОД, 61:06-5/3409

Содержание к диссертации

Стр,

Содержание 2

Введение 7

Глава 1. Аналитический обзор методов обработки речевого
сигнала. Общая структура систем распознавания речи.
Основные принципы построения CFF с применением
нейросетевых технологий
, 22

1Л. Основные особенности задачи распознавания

речи 22

1.2. Многоуровневое представление речевых сигналов

Общая структура систем распознавания речи 23

1.3. Аналитический обзор существующих методов

первичной обработки речевых сигналов 27

  1. Аналитическое обзор методов распознавания речи 34

  2. Анализ нейросетевых подходов к решению задачи распознавания речи 36

  3. Дикторонезависимость и помехоустойчивость систем

распознавания речи 42

1 П. Аналитический обзор верхних уровней анализа систем

распознавания речи 46

1.8. Выводы 49

Стр.

Глава 2. Теоретические принципы обработки информации в

многомерном пространстве на основе неиросетевои

технологии с применением радиально-базисных нейронов и

иерархических структур (ИС) из динамических

ассоциативных запоминающих устройств (ДАЗУ) 51

2.1. Радиально-базисные нейронные сети 52

  1. Теоретические принципы функционирования радиально-базисных нейронных сетей 52

  2. Модификация радиально-базисной сети. Радиально-базисная сеть встречного

распространения 57

  1. Структурная схема и функциональные свойства РБНС ВР 57

  2. Алгоритм обучения РБНС встречного распространения 60

  3. Алгоритм распознавания в радиально-базисных нейронных сетях встречного распространения 62

  4. Отличительные особенности радиально-базисной нейронной сети встречного распространения 67

  5. Механизм помехоустойчивости радиально-базисной нейронной сети встречного распространения 70

Стр.

2.2. Структура из динамических ассоциативных
запоминающих устройств 70

2.2.1. Нейроподобный элемент с временной

суммацией сигналов 71

  1. Динамическое ассоциативное запоминающее устройство как модель многомерного пространства 74

  2. Механизм ассоциативного доступа к

информации посредством ДАЗУ 75

2.2.4. Модификация алгоритма ассоциативного

доступав ДАЗУ 77

2.3. Выводы 80

Глава 3. Применение раднально-базисных нейронных сетей и

динамических ассоциативных запоминающих устройств в

задаче распознавания речи 83

3.1. Акустико-фонетическое пространство

диктора 83

  1. Основные особенности речевых сигналов 83

  2. Построение акустико-фонетического

пространства диктора 85

3.1.3. Особенности представления речевого сигнала в

базисе акустико-фонетического пространства 87

3.1.4. Алгоритм снижения шумовой составляющей в
векторе параметров на основе автоматического
определения степени зашумлённости PC 88

Стр.

3.2.1. Применение радиально-базисных нейронных сетей
встречного распространения для настройки системы
распознавания речи на нового диктора 92

3.2.2, Применение радиально базисной нейронной сети

для распознавания изолированно произносимых слов 98

3.3. Применение динамических ассоциативных запоминающих устройств для организации верхних

уровней системы распознавания речи 103

ЗА Выводы и основные результаты 107

Глава 4. Практическая реализация и экспериментальное
исследование разработанных методов и алгоритмов в задаче
распознавания речи ПО

4.1, Первичная обработка речевых сигналов 112

4.1.1. Детектор пауз 113

4,1.2- Формирование вектора параметров речевого

сигнала 115

4.2, Акустико-фонетический уровень 118

  1. Алгоритм построения акустико-фонетического пространства 118

  2. Организация процесса распознавания 121

4.3, Экспериментальные исследования 124

  1. Настройка параметров системы 126

  2. Проведение экспериментов 128

43.2,1. Распознавание методом динамического

программирования 128

Стр.

4.3.2.2, Распознавание при помощи алгоритма
локального поиска 129

4.3.2.3. Распознавание при помощи радиально-

базисной нейронной сети 130

4-3-2-4. Распознавание аллофонов при помощи

многослойного персептрона 131

4.3.2.5. Радиально-базисная нейронная сеть

встречного распространения 133

43.2.6. Настройка на нового диктора 136

4.3.2.7. Обнаружение помехи в речевом сигнале
при помощи акустико-фонетического пространства
диктора 137

  1. Использование информации верхних уровней для сокращения состава оперативного словаря эталонов 141

  2. Выводы 143

Выводы 145

Заключение 151

Литература 154

Приложения 168

Введение к работе

Значительные успехи в области развития вычислительной техники, информационных технологий, микроэлектроники создают предпосылки для создания нового поколения систем - интеллектуальных. Этому также способствуют достижения в области нейрофизиологии, которые стимулируют развитие бионичных (природосообразных) подходов к разработке интеллектуальных систем.

Способность накапливать знания об окружающем мире (предметной области), реорганизовывать их, принимать решения на их основе - все это относят к основным и отличительным свойствам интеллектуальных систем (ИС). Поэтому ядром любой ИС является некоторая модель мира (предметной области), которая предстанляет собой базу знаний или, в общем случае, динамическую экспертную систему (ДЭС) [93, 54], позволяющую на основании информации разного рода (о внешней среде, внутреннем состоянии системы, прогнозных и реальных результатах действий системы, информации из базы знаний) вырабатывать требуемое управление.

Наиболее важным достижением нейрофизиологии, которое в настоящее время актуализируется в теории управления это познание о способности человека осуществлять прогнозирование развития некоторой ситуации и, сравнивая прогноз с реальной действительностью, адаптироваться, корректировать собственную модель мира и вырабатывать адекватные действия. [6, 93, 54, 94], Поэтому структурная схема интеллектуальной системы должна включать в себя блок прогноза (акцептора действия), наделяющего ИС свойством: "... важнейший феномен, связанный с функционированием интеллектуальной системы, - когда в конце процесса получается результат, который уже в начале этого процесса имелся в представлении системы" [54]. Здесь необходимо отметить, что система распознавания речи (СРР), как интеллектуальная система должна иметь в

своей структуре аналог акцептора действия, модуль формирования прогнозных шаблонов, с которыми осуществляется сравнение входной информации. В этом случае, СРР на основании информации о предметной области, личности диктора, семантике предыдущих сообщений и пр, формирует множество прогнозных шаблонов распознавания, с которыми сравнивается поступающая речевая информация. В случае успешного распознавания, при котором происходит соотнесение прогнозируемого и реального, блок ДЭС сохраняет свои текущие параметры, считая их удачными, в противном случае возникает необходимость более полного анализа входной информации, что может привести к модификации отдельных параметров ДЭС, дообучению системы распознавания.

Если рассматривать интеллектуальную систему в аспекте ее взаимодействия с человеком встаёт вопрос о способе такого взаимодействия или, другими словами, об интерфейсе системы- Преимущества речевого диалога перед традиционными средствами общения исследованы достаточно давно и многократно описаны в литературе [53, 5, 52]. Привлекательность речевого общения, успехи в области автоматического распознавания речи, а также сопутствующее им развитие и удешевление электронно-вычислительной микропроцессорной техники в последнее Бремя привели к тому, что сфера внедрения систем распознавания речи (СРР) существенно расширяется, захватывая различные отрасли производственной, административной, и даже бытовой деятельности.

Речевой канал управления техническими средствами и вычислительными машинами позволяет освободить руки, разгрузить зрение, обеспечить независимость от механических вибраций и условий освещения. Для управления сложными техническими системами человеку приходится осваивать, образно выражаясь, "язык интерфейса1', на что часто тратится достаточно много времени. Поэтому требование эргономичпости к разработке человеко-машинных интерфейсов подразумевает обеспечение

9 наиболее естественных форм взаимодействия, одной из которых, очевидно, является речевой диалог. Кроме того, речевой ввод информации может играть роль дополнительного канала управления, который оказывается во многих ситуациях незаменимым, особенно в случаях, связанных с ограниченной подвижностью человека-оператора.

21 -ый век со всей очевидностью заявил о себе, как эпоха «информационного взрыва». Несомненно, на этом этапе технического прогресса, одними из приоритетных становятся технологии по обеспечению интеллектуальных форм взаимодействия человека с информационно вычислительными машинами. Постоянное усложнение технических систем приводит к тому, что, с одной стороны, каждое элементарное управляющее воздействие человека-оператора должно становиться всё более содержательным, а с другой стороны - обеспечение необходимого разнообразия и гибкости в управлении приведет в этом случае к существенному усложнению человеко-машинного интерфейса. Возникает противоречие, которое может быть успешно разрешено благодаря организации речевого управления, так как формулирование команд на естественном языке обладает необходимой гибкостью и содержательностью.

Есть и другие преимущества речевого общения, число которых будет расти по причине всё большей интеграции вычислительной техники в повседневную жизнь человека. Например, благодаря системам речевого общения, управление справочными службами, традиционно осуществляемое человеком-оператором, уже возможно перекладывать на вычислительную технику.

Несмотря на многолетнюю историю и значительные достижения в области распознавания речи, в полном объеме задача остаётся нерешенной, Особенность современного развития речевых технологий во многом проявляется процессом переосмысления многолетнего опыта и наработок на современной технологической базе.

10 Вопросы, касающиеся проблем дикторонезависимости и помехоустойчивости, остаются актуальными в настоящее время. Современные системы распознавания речи» которые позиционируются как дикторонезависимые, осуществляют распознавание изолированных слов с ограниченным словарём (достигает 500 слов). Точность распознавания в таких системах достигает 95% . Системы распознавания слитной речи, как правило, требуют кропотливой процедуры настройки на диктора, словарь может достигать больших размеров (200.000 слов) [68]. В таких системах, единицей распознавания на акустико-фонетическом уровне, обычно является фонемоподобные элементы языка (аллофоны, дифоны, фонемы и т. д.). Надежность распознавания отдельных фонемоподобных элементов низкая, однако, их относительная малочисленность (по сравнению со словами или слогами) делает их привлекательными для использования, особенно для организации процедуры настройки на нового диктора, изменяющей параметры эталонов системы.

Проблема помехоустойчивости систем распознавания речи должна решаться по двум основным направлениям. С одной стороны, необходим комплекс мер, направленных на устранение помех, шумов и искажений, воздействующих на речевой сигнал. С другой стороны, учитывая практическую ограниченность мер по очистке речевых сигналов, но, не отменяя их, возникает потребность в методах выделения полезного речевого сигнала из акустической среды. Как правило, такие методы используют априорную информацию о полезном сигнале, и они продемонстрировали высокую эффективность в борьбе с различными типами помех [98, 99, 100, 101, 102]. Конечно, требование наличия априорной информации о полезном сигнале существенно сужает область применения данных методов.

Известно, что человек в процессе распознавания речи активно использует априорную информацию о полезном речевом сигнале [6, 71]. Это касается всех уровней системы, начиная с акустического и заканчивая

верхними, интеллектуальными уровнями анализа. Использование априорной информации во многом определяет способность человека оставаться устойчивым к помехам различного рода.

В системах распознавания речи, процедура настройки на нового диктора должна моделировать процесс получения части априорной информации об акустико-фонетических свойствах речевого сигнала данного диктора. Верхние уровни анализа должны обеспечивать систему частью априорной информации языкового, семантического и прагматического свойства. Поэтому актуальной задачей при создании систем распознавания речи является разработка алгоритмов повышения помехоустойчивости СРР, использующих априорную информацию на разных уровнях анализа.

Основные трудности создания систем распознавания и синтеза речи, обозначенные еще на первых этапах исследований, остаются прежними. Предельные возможности вычислительных машин в задаче распознавания речи связаны, прежде всего, с тем, что человек, которого можно взять за эталон распознающей системы, распознаёт осмысленную речь, а компьютеру в полной мере это не дано. Современные системы автоматического распознавания речи принципиально не могут с требуемой надёжностью исправлять ошибки и неоднозначности распознавания, используя семантическую и синтаксическую информацию.

Современное состояние в области распознавания речи можно рассмотреть в свете нового стандарта, принятого сейчас практически всеми известными разработчиками подобных систем, стандарта Microsoft Speech API [69]. Согласно этому стандарту системы распознавания речи можно классифицировать по следующим критериям:

Интервал между отдельными словами. Различаются системы, работающие с отдельно произносимыми словами, и системы, распознающие слитную речь. Распознавание слитной речи обладает принципиальными трудностями, возникающими в результате отсутствия информации о начале и

12 конце слова, что усугубляется объективным отсутствием точных координат слова в связи с эффектами коартикуляции. Нередко конец одного слова является началом следующего, и провести границу между ними невозможно. В результате этого, разработчики вынуждены переходить в область менее надёжных фонетических единиц: фонемы, аллофоны, слоги, надёжность распознавания которых значительно меньше надёжности распознавания отдельных слов. В системах, работающих с изолированно произносимыми командами, диктор должен делать паузы между словами, которые составляют примерно четверть секунды.

Отдельно можно выделить системы, распознающие ключевые слова в потоке слитной речи.

Зависимость от диктора. Системы, обладающие относительной независимостью от диктора, позволяют пользователю работать с системой без предварительной настройки, однако улучшают надёжность после обучения. Независимость от диктора в таких системах достигается за счет хранения звуковых эталонов для всех наиболее типичных голосов носителей данного языка. Это требует в несколько раз большей производительности и объема памяти. Настройка на голос диктора дикторонезависимых систем занимает обычно от 30 минут до нескольких часов, что является основным неудобством для пользователя. Третьей разновидностью систем по данному признаку являются системы, автоматически настраивающиеся на голос диктора в процессе их использования. Системы последнего типа обладают двумя особенностями - им постоянно нужно знать результат своей работы на первом этапе эксплуатации, иначе обучение будет неверным. После настройки на одного диктора, такие системы перестают надежно работать с другими дикторами.

Степень детализации при задании эталонов. Различают алгоритмы, в которых в качестве эталонов используются целые слова, и алгоритмы, использующие эталоны элементов слов.

13 Сравнение целых слов. Сравнение целых слов дает большую точность, скорость, однако требуют значительно большего объема памяти для хранения эталонов. В этом случае требуется обучение каждому слову отдельно.

Сравнение элементов слов. Эти алгоритмы приходится применять в случае больших словарей, так как объем требуемой памяти пропорционален количеству этих эталонных элементов слов и не зависит от объема словаря.

Размер словаря. Размер актуального (оперативного) словаря системы распознавания почти не связан с реальным количеством слов, которые данная система может распознать. Он определяется количеством слов, требуемых для распознавания в данном конкретном состоянии системы. Системы, работающие с малыми словарями (порядка 50-100 слов) позволяют пользователю давать простые команды компьютеру. Для диктовки текстов необходимы большие словари (несколько десятков тысяч слов). Если системы диктовки учитывают контекст для определения активного подсловаря в конкретном состоянии, то фактически они работают со словарями среднего размера (около 1000 слов).

Несмотря на то, что возможна любая комбинация этих характеристик, в настоящее время наиболее применимыми являются системы голосового управления компьютером и системы дискретной диктовки текстов.

В приложении 7 приведены характеристики наиболее известных сейчас систем распознавания речи [89],

Как наиболее известных производителей систем распознавания речи следует выделить фирмы IBM и Dragon systems. Разработанные ими системы способны распознавать связную англоязычную речь, произносимую с паузами между словами, с подстройкой под произвольного диктора, и имеют словари объемом до 20 и 30 тысяч слов, соответственно [65, 64]. В качестве системы распознавания, обладающей максимальным словарем, следует отметить СРР на 200 тысяч слов французского языка [68], которая, однако,

14 требует произнесения фраз не пословно, а послогово - с паузами между слогами [70].

Вместе с тем на фоне большого числа зарубежных коммерческих СРР отчетливо проявляется отсутствие на рынке русскоязычных систем распознавания речи. Несмотря на то, что именно отечественным разработкам принадлежит первенство в этой области [12], есть все основания утверждать, что их уровень существенно не изменился вплоть до настоящего времени. Это ясно выражается в неизвестности хотя бы одной реально работающей русскоязычной СРР со словарем более или менее приличного объема, не говоря уже о системах распознавания слитной речи.

Системы диктовки текстов являются пока привлекательными для покупателей в силу новизны предоставляющихся для пользователя возможностей. Однако реальные системы диктовки должны, очевидно, обладать следующими тремя свойствами: время набора текста с голоса, включая время на исправление ошибок, должно быть меньше времени набора того же текста с клавиатуры; пользователь не должен уставать от набора текста голосом больше чем от набора текста клавиатурой; стоимость системы диктовки должна быть ниже, чем преимущества от ввода информации голосом.

Тестирование существующих систем [ 13] показывает, что они не удовлетворяют ни одному из этих требований. Поэтому они пока являются не более чем дорогими мультимедиа игрушками.

Стоит упомянуть, что системы диктовки текстов на западе нашли свое практическое применение в медицине. Это связано в первую очередь с тем, что область научных разработок для использования в медицине на Западе хорошо финансируется. Кроме того, задача упрощается тем, что словари медицинских терминов в узкой предметной области имеют меньший объем, чем словари повседневного общения, а синтаксис и семантика диктуемых предложений чрезвычайно строгие, что повышает надёжность

15 распознавания. А медицинские работники консервативны в части использования новой техники. Системы диктовки текстов применяются в медицине тогда, когда руки и глаза диктующего заняты, например, во время операции. В этом случае до использования речевых технологий либо вообще не практиковалось документирование происходящего, либо требовало привлечения дополнительных людских ресурсов [13].

Анализируя современное состояние речевых технологий можно сделать вывод о том, что проблема распознавания речи остаётся актуальной, при этом центр внимания переносится из области разработок алгоритмов направленных непосредственно на распознавание речевых сигналов в область обеспечения помехоустойчивости и дикторонезависимости систем распознавания речи.

Цель диссертационной работы: Разработка комплексного подхода, использующего нейросетевые технологии, направленного на повышение надёжности систем распознавания речи за счёт использования априорных сведений о распознаваемом речевом сигнале.

Достижение указанной цели требует решить следующие основные задачи исследования:

1. Изучение и анализ существующих подходов к решению задачи
автоматического распознавания речи.

  1. Разработка способа представления акустико-фонетической информации, учитывающего особенности восприятия речи человеком.

  2. Разработка метода повышения помехоустойчивости СРР, использующего априорную информацию о некоторых свойствах полезного речевого сигнала

  3. Разработка нейросетевого алгоритма настройки системы распознавания речи на нового диктора.

  1. Разработка структуры и определение параметров нейронной сети для задачи распознавания речевого сигнала.

  2. Разработка методов использования языковых знаний для сокращения состава оперативного словаря СРР.

7. Практическая реализация и экспериментальное исследование
разработанных методов и алгоритмов.

Диссертационная работа состоит из введения, четырёх глав, заключения и приложений.

В главе 1 рассматриваются и обобщаются принципы и методы обработки и анализа PC- Анализируются особенности восприятия речи человеком на всех уровнях обработки.

В первом разделе первой главы представлены основные особенности задачи распознавания речи. Выделены главные трудности, встающие на пути разработки систем распознавания речи.

Во втором разделе представлена общая структурная схема системы распознавания речи с описанием функциональной нагрузки каждого модуля системы. Обоснована необходимость многоуровнего представления речевой информации. Актуализирована значимость верхних (интеллектуальных) уровней анализа и обработки речевой информации.

В третьем разделе рассмотрены наиболее распространенные методы первичной обработки речевых сигналов. Проведен аналитический обзор методов, что позволило сформулировать вывод о целесообразности применения природосообразных (бионичных) методов предобработки PC, основанных на использовании физиологических особенностей восприятия речи человеком,

В четвертом разделе приведён аналитический обзор методов распознавания речевых сигналов. Процедура распознавания речевых сигналов разделена на два этапа - распознавание статических образов

17
(квантование, кластеризация) и распознавание динамических

последовательностей. Рассмотрены основные методы решения этой задачи.

В пятом разделе рассказывается об особом классе методов распознавания образов - методов, основанных на нейросетевой технологии. Показана ограниченность применения традиционных нейронных сетей к задачам распознавания динамических образов. При этом аргументирована высокая эффективность применения нейронных сетей в задачах распознавания стационарных образов. Особое место занимают сети, построенные на радиально-базисных элементах, как легко интерпретируемые в базисе многомерного сигнального (признакового) пространства. Выделен особый класс сетей, построенных на иейроподобных (НЭ) элементах с временной суммацией сигналов, способных представлять и обрабатывать динамическую информацию.

Шестой раздел посвящен вопросам обеспечения дикторонезависимости систем распознавания речи. Освещены последние достижения в этой области. Рассмотрены психофизиологические стороны этой проблемы и обоснована необходимость настройки СРР на диктора» следующая из соблюдения принципа природосообразности.

Седьмой раздел первой главы, заключительный, посвящен верхним уровням анализа речевого сигнала СРР. Рассмотрены основные способы представления лингвистических знаний. Проведен аналитический обзор и сформулирован вывод о целесообразности применения декларативных методов представления языковых знаний, как наиболее эффективный.

Результаты аналитического обзора в виде выводов представлены в конце первой главы.

Вторая глава диссертационной работы посвящена описанию теоретических принципов обработки информации в многомерном пространстве признаков на основе нейросетевой технологии с применением

18 сетей из радиально-базисных нейронов, в том числе новой радиально базисной сети встречного распространения, а также структур из динамических ассоциативных запоминающих устройств (ДАЗУ).

В первом разделе представлены теоретические основы функционирования сетей, построенных на радиально-базисных элементах. Представлена разработанная автором радиальная сеть, названная радиально базисной нейронной сетью встречного распространения (РБНС ВР). Описаны алгоритмы обучения и распознавания. Основными отличительными особенностями РБНС ВР являются следующие: прозрачность для анализа, двунаправленность и бионичность, проявляющаяся в итерационном алгоритме распознавания, способном формулировать приблизительные ответы сразу и естественным образом моделировать процесс мышления для выдачи более точного ответа.

Во втором разделе рассматриваются структура и функции нейроподобного элемента с временной суммацией сигналов и ДАЗУ как сети таких элементов, формализуется класс отображений входных последовательностей в траектории многомерного сигнального пространства, реализуемых при обучении ДАЗУ- Излагаются принципы структурной обработки произвольной информации в иерархических структурах (ИС) из динамических ассоциативных запоминающих устройств. Более подробно рассмотрен алгоритм ассоциативного доступа, который далее модифицируется для экономии памяти при сохранении основного свойства ДАЗУ - ассоциативного доступа к информации, использующегося при построении языкового модуля.

Третья глава посвящена вопросам прикладного значения теоретических принципов функционирования РБНС и ДАЗУ в задаче распознавания речи.

В первом разделе третьей главы предлагается новый способ представления речевой информации в многомерном пространстве признаков (МГШ), основная идея которого заключается в выделении из МПП области, соответствующей акустическим параметрам речевого сигнала (PC) отдельно взятого диктора. Выделенная область, маркированная сферическими окрестностями, называется акустико-фонетическим пространством (АФП) диктора. Представлены структурная схема и описание алгоритма повышения помехоустойчивости СРР, основанного на автоматическом определении степени зашумленности речевого сигнала и последующем использовании метода рекурсивного анализа для извлечения из сигнала информации о спектральной характеристике аддитивной помехи с тем, чтобы вычесть ее из исходного сигнала.

Во втором разделе рассматриваются вопросы применения радиально-базисных нейронных сетей в задаче распознавания речи. В частности, использование радиально-базисной нейронной сети (РБНС) для распознавания изолированно произносимых слов, также представлен алгоритм настройки системы распознавания речи на нового диктора посредством радиально-базисной нейронной сети встречного распространения (РБНС ВР).

В третьем разделе приводится описание алгоритма определения состава оперативного словаря для систем распознавания слитной речи ограниченного набора фраз (например, фразового переводчика).

В четвертой главе представлены результаты практической реализации предложенных в диссертационной работе алгоритмов. Проведено экспериментальное исследование алгоритмов с целью определения их работоспособности и эффективности

Прежде всего, описаны использовавшиеся алгоритмы первичной обработки PC, представлены результаты экспериментального исследования радиально-базисной нейронной сети встречного распространения, а именно

20 алгоритмов обучения и распознавания, исследованы вопросы сходимости процедуры распознавания РБНС ВР. Далее представлены результаты тестирования СРР в разных режимах распознавания: при помощи только РБНС, РБНС с механизмом уточнения; методом ДП, реализованным отдельно к последовательностям ВП и последовательностям элементов АФП. Экспериментально проверен метод настройки СРР на нового диктора при помощи РБНС ВР, показаны результаты распознавания для базового диктора, с настройкой и без настройки на нового диктора, В части касающейся верхнеуровнего анализа представлена реализация модуля, определяющего состав оперативного словаря СРР, реализованного на базе предложенного алгоритма ассоциативного поиска.

Кроме того, был проведён ряд экспериментов в рамках фонемного подхода по распознаванию аллофонов при помощи многослойного персептрона. Несмотря на некоторую академичность проведённых исследований применительно к многослойному персентрону, особенности реализации и результаты экспериментов также представлены в этой главе, поскольку исследованы два важных вопроса: влияние контекста на точность распознавания аллофонов и получение списка аллофонов, распознающихся существенно надёжнее остальных.

Основные научные результаты диссертации:

  1. Разработан способ представления акустико-речевой информации в многомерном пространстве признаков (МПП), позволяющий использовать информацию об акустических особенностях голоса диктора в качестве априорной информации о свойствах распознаваемого речевого сигнала.

  2. Разработана и экспериментально исследована новая радиально-базисная нейронная сеть встречного распространения (РБНС ВР), которая позволяет ассоциативно связывать между собой разные признаковые пространства.

21 3. Модифицирован алгоритм ассоциативного доступа к информации по ее фрагменту для динамических ассоциативных запоминающих устройств СДАЗУ).

Прикладные результаты:

1. На основе предложенного способа представления акустико-
фонетической информации разработан алгоритм обнаружения и компенсации
помех в речевом сигнале.

2. Разработан алгоритм распознавания изолированно произносимых
слов при помощи радиально-базисной сети, позволяющий выделять наиболее
информативные признаки эталонов для реализации последующего механизма
уточнения.

3. На основе радиально-базисной нейронной сети встречного
распространения и предложенного способа представления акустико-
фонетической информации разработан алгоритм настройки СРР на нового
диктора.

Похожие диссертации на Исследование и разработка нейросетевых методов анализа и обработки речевого сигнала в задаче распознавания речи