Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Модели и алгоритмы распознавания коротких речевых команд на основе пробных спектральных преобразований входного сигнала Нгуен Чи Тхиен

Модели и алгоритмы распознавания коротких речевых команд на основе пробных спектральных преобразований входного сигнала
<
Модели и алгоритмы распознавания коротких речевых команд на основе пробных спектральных преобразований входного сигнала Модели и алгоритмы распознавания коротких речевых команд на основе пробных спектральных преобразований входного сигнала Модели и алгоритмы распознавания коротких речевых команд на основе пробных спектральных преобразований входного сигнала Модели и алгоритмы распознавания коротких речевых команд на основе пробных спектральных преобразований входного сигнала Модели и алгоритмы распознавания коротких речевых команд на основе пробных спектральных преобразований входного сигнала Модели и алгоритмы распознавания коротких речевых команд на основе пробных спектральных преобразований входного сигнала Модели и алгоритмы распознавания коротких речевых команд на основе пробных спектральных преобразований входного сигнала Модели и алгоритмы распознавания коротких речевых команд на основе пробных спектральных преобразований входного сигнала Модели и алгоритмы распознавания коротких речевых команд на основе пробных спектральных преобразований входного сигнала Модели и алгоритмы распознавания коротких речевых команд на основе пробных спектральных преобразований входного сигнала Модели и алгоритмы распознавания коротких речевых команд на основе пробных спектральных преобразований входного сигнала Модели и алгоритмы распознавания коротких речевых команд на основе пробных спектральных преобразований входного сигнала
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Нгуен Чи Тхиен. Модели и алгоритмы распознавания коротких речевых команд на основе пробных спектральных преобразований входного сигнала: диссертация ... кандидата технических наук: 05.13.18 / Нгуен Чи Тхиен;[Место защиты: Тульский государственный университет].- Тула, 2014.- 162 с.

Содержание к диссертации

Введение

1 Задачи обработки речевого сигнала 9

1.1 Кодирование речевого сигнала 9

1.1.1 Получение кратковременных амплитудных спектров из речевого сигнала 9

1.1.2 Построение мел-частотных кепстральных коэффициентов из спектра сигнала 17

1.2 Преобразование речевых сигналов 21

1.3 Распознавание речевых сигналов 26

1.3.1 Байесовский классификатор 26

1.3.2 Модель скрытой компоненты 26

1.3.3 Модель наблюдаемой компоненты 31

1.3.4 Построение двухкомпонентного случайного процесса 33

1.3.5 Выбор начальных значений параметров модели 49

1.3.6 Вычисление апостериорного распределения для каждого класса речевых сигналов 50

1.4 Основные цели и задачи исследования 51

2 Задача идентификации модели речевого сигнала с целью адекватного восприятия 53

2.1 Этапы решения задачи идентификации модели речевого сигнала с целью адекватного восприятия 53

2.2 Обобщенная процедура обработки речевого сигнала 54

2.3 Задача распознавания речевых команд 56

2.4 Алгоритм распознавания речевых команд 58

2.5 Подбор параметров алгоритма распознавания 59

2.5.1 Процедура подбора параметров алгоритма распознавания 59

2.5.2 Исследование подбора параметров алгоритма распознавания 67

2.5.3 Построение модели классов сигналов как смесей гауссовых распределений 74

2.5.4 Построение модели классов сигналов как двухкомпонентных случайных процессов 79

2.6 Подбор параметров алгоритма распознавания на основе скользящего контроля 87

2.6.1 Независимое тестирование алгоритма распознавания 87

2.6.2 Модифицированная процедура подбора параметров 89

2.6.3 Исследование подбора параметров алгоритма распознавания модифицированной процедурой 92

3 Задача распознавания речевых команд при недостаточном объеме обучающих данных 103

3.1 Влияние объёма и состава обучающей выборки на качество распознавания речевых команд 103

3.2 Многократный алгоритм распознавания речевых команд 105

3.3 Подбор значения параметра преобразования в построении многократного алгоритма распознавания речевых команд 107

3.4 Исследование многократного алгоритма распознавания речевых команд 108

4 Задача распознавания речевых команд на фоне шумов 117

4.1 Увеличение значения отсчетов амплитудных спектров сигналов 117

4.2 Алгоритм распознавания команд на фоне шумов 120

4.3 Исследование алгоритма распознавания команд на фоне шумов 121

4.4 Подбор константы усиления амплитудных спектров с целью улучшения качества их распознавания 137

4.5 Многократный алгоритм распознавания речевых команд на фоне шумов 141

4.6 Исследование многократного алгоритма распознавания команд на фоне шумов 143

4.7 Комбинирование способов уменьшения влияния шума на качество распознавания речевых сигналов 146

Заключение 152

Список использованных источников

Построение мел-частотных кепстральных коэффициентов из спектра сигнала

Апостериорное распределение p(X l) для класса l определяется на основе представления речевого сигнала в виде двухкомпонентного случайного процесса. Двухкомпонентный случайный процесс содержит в себе наблюдаемую компоненту, представляющую собой векторы мел-частотных кепстральных коэффициентов, и скрытую компоненту, являющуюся марковской цепью. В работе рассмотрены эти компоненты двух-компонентного случайного процесса. Построена процедура настройки параметров марковской модели классов речевых сигналов.

В классической теории распознавания образов [5, 9, 26] объекты, подлежащие распознаванию, считаются бесструктурными, описываются векторами фиксированной размерности и представляются точками в пространстве своих характеристик. Однако во многих практических задачах распознавания объекты распознавания (например, молекулы органических соединений, речевые сигналы, тексты) обычно оказываются структурными [14]. Свойства объекта в целом зависят не только от свойств его составных частей, но и их структурной организации.

Речевой сигнал (сейчас в виде последовательности векторов мел-частотных кепстральных коэффициентов X = (xt,t = 1,...,х)) имеет време-ную структуру. Он характеризуется упорядоченностью своих составных частей. Для анализа речевого сигнала как структурного объекта необходимо использовать специальные описания, учитывающие порядок (графы и т.д.).

Речевой сигнал рассматривается как двухкомпонентный случайный процесс, где наблюдаемая компонента X содержит в себе векторы мел-частотных кепстральных коэффициентов xt, скрытая компонента S состоит из элементов st, t = \,...,x, принимающих значения из дискретного множества st є {\,...,}. С физической точки зрения [24] можно рассматривать значения элементов xt как номера фонем, слогов или каких-то отдельных звуков, звукосочетаний.

Порядок элементов sr, st речевого сигнала представляется в виде антирефлексивного несимметричного бинарного отношения, называемого отношением порядка. Для представления отношения порядка используется ориентированный граф без петель, где ребра графа соединяют соседние элементы речевого сигнала sr,st, где t-r = \. На рис. 1.17 приводится граф порядка для речевого сигнала. Граф порядка показывает упорядоченность отсчетов речевого сигнала. Граф порядка для речевого сигнала Учет структурности речевого сигнала улучшает качество его анализа. Но при этом требуется намного больше вычислительных ресурсов. Выбор представления структуры речевого сигнала осуществляется при ком промиссе между точностью представления и вычислительной сложностью. Учитывая этот компромисс, в [24, 61] предполагается, что скрытая компонента S - это цепь Маркова относительно графа порядка (рис. 1.17). Множество значений скрытого элемента st є{\,...,} называется множеством индексов состояний. То, что элемент st принимает какое-то значение (состояние), зависит только от значения (состояния), который принимает элемент st_i, а не от предшествующих элементов SK = {sr,r t}. Формально это выражается следующим образом: qt(st\st_l) = qt(st\S t), где qt (st I st_i) - это условная вероятность того, что элемент st принимает какое-то значение при том, что элемент st_i принял свое значение, qt(st SK )- условная вероятность того, что все элемент st принимает какое-то значение при том, что все предшествующие элементы SK ={sr,r t) приняли свои значения.

Кроме того в [24, 61] предполагалось, что цепь Маркова является однородной. Цепь Маркова называется однородной, если условная вероятность перехода qt (st = і \ st_i = j) того, что элемент st принимает значение І, при том, что элемент st_y принял значение /, не зависит от порядкового номера t в цепи: qt{st = j I st_Y = і) = q{st = j st_Y = і), і J є {\,...J} . Таким образом, скрытая компонента S как однородная цепь Маркова полностью определена матрицей Q( х ), элементы которой являются условными вероятностями переходов qjj (st = і j st_i = j).

В общем случае существуют разные варианты цепи Маркова. В [24, 61] предложена лево-правая цепь Маркова для обработки речевого сигнала. В лево-правой цепи Маркова с увеличением индекса времени t элементов st значения, которые принимают элементы st не уменьшаются. По

Процедура подбора параметров алгоритма распознавания

В данной задаче следует обобщить уже имеющийся опыт обработки речевых сигналов с целью увеличения качества их обработки. Назовём такую задачу задачей идентификации модели речевого сигнала с целью адекватного восприятия.

Задачу идентификации модели речевого сигнала и с целью адекватного восприятия по нашему мнению следует решать в три этапа.

Шаг 1 - идентификация. Предполагается, что речевой сигнал может кодироваться в соответствии с некоторой известной моделью. Предположив, что эта модель параметрическая, следует оценить значения его параметров для заданного речевого сигнала.

Шаг 2 - генерация. Если модель речевого сигнала идентифицирована, то предполагается, что можно варьировать параметры модели, добиваясь изменения речевого сигнала.

Шаг 3 - адекватное восприятие. Предполагается, что речевой сигнал воспринимается и интерпретируется. Будем считать, что в роли воспринимающего и интерпретирующего устройства выступает человек или группа лиц (испытуемых). Кроме того, в этой роли может быть использована и соответствующая техническая система. Будем считать, что восприятие речевого сигнала является адекватным, если его смысл распознается испытуемыми (и/или технической системой).

Легко заметить, что задача идентификации модели речевого сигнала с целью адекватного восприятия обладает многими общими чертами с другими задачами речевой технологии: кодированием речи на первом этапе, преобразованием речи на втором этапе, распознаванием речи на третьем этапе. Таким образом, этапы решения данной задачи означают выполнение вполне определенной обобщенной “процедуры” обработки, шаги которой определены рассмотренными выше этапами.

Если сгенерированный речевой сигнал адекватно воспринимается, то процедура заканчивается. В противном случае она возвращается ко второму шагу с другим набором параметров модели.

Формально, обобщенная “процедура” обработки представляет собой суперпозицию функций, отображающих одно описание речевого сигнала в его другое описание. Отображения формируются на основе экспертных знаний о природе речевого сигнала и цели его обработки. Целями таких отображений могут быть: уменьшение объема сигнала в задаче кодирования, преобразование сигнала в номер класса (число) заранее известных классов сигналов в задаче распознавания речевых сигналов и т.д.

Пусть функция gj отображает /-ое описание 7(/) = (#),...,.у)) ре-чевого сигнала в г + 1-ое описание Y(+ 1) = (у1(г 1),...,у( ) возможно дру гой длины Tj Ti+1. Природа элементов у(+1) описания 7(/+1) может отличаться от природы элементов у() описания Y( ) , т.е. множество допустимых значений элементов у(1+ 1) может отличаться от множества допустимых значений элементов y(i) . Зависимость описаний 7(/) и 7(/+1) речевого сигнала выражается формулой:

Схема обобщенной “процедуры” обработки Такая жесткая обобщенная процедура обработки подходит для речевых сигналов только с определенными характеристиками. Но речевой сигнал обладает большой вариабельностью. Это приводит к нестабильности результатов обработки. Поэтому целесообразно использовать результаты обработки (конечные и/или промежуточные) для постройки функций отображения. Для этого предполагается, что какие-нибудь составные функции отображения в процедуре обработки являются параметрическими. Решение о том, какие именно функции отображения являются параметрическими, принимается на основе экспертных знаний о природе речевого сигнала. Пусть известно, что функции отображения gi , 1i I -1, являются параметрическими gi (X (i) ) = Gi (X (i) ,ai ) , где ai - параметр регулирования. Тогда можно использовать результат обработки Y ( j) , где i j I , для настройки функции gi . Тогда процедура обработка имеет вид: Y(I) = gI-1(gI-2 (KGi (Kg1(Y(1) ),ai )K)).

Таким образом, процедура обработка становится гибкой. Поскольку использование результатов обработки для подстройки процедуры обработки в теории управления называется обратной связью [4], гибкая процедура обработки называется процедурой с обратной связью. Схема обобщенной “процедуры” обработки с обратной связью приведена на рис. 2.2.

Многократный алгоритм распознавания речевых команд

Зависимость числа ошибок от числа состояний l Такой идеальный результат распознавания напоминает нам о проблеме переобучения, т.е. проблеме, когда результат распознавания в процессе обучения прекрасен, но полученный алгоритм распознавания плохо функционирует при независимом тесте.

Одним из наилучших методов уменьшения степени переобучения является обучение по схеме скользящего контроля. В следующем разделе рассматривается процедура подбора параметров алгоритмов распознавания на основе скользящего контроля.

Подбор параметров алгоритма распознавания на основе скользящего контроля 2.6.1 Независимое тестирование алгоритма распознавания

Напомним, что процедурой подбора параметров алгоритма распознавания были получены оптимальные значения параметров N =1024, M =30, P = 27, D =3. Для таких значений параметров был построен алгоритм распознавания, в котором применяется описание классов сигналов как нормальных распределений, смеси нормальных распределений и двухкомпонентных случайных процессов.

На рис. 2.32 показана зависимость числа ошибок от количества W нормальных распределений в смеси при обучении и при независимом тесте. Случай W =1 соответствует тому, что используется нормальное распределение для описания класса сигналов. Оказалось, что числа ошибок от числа состояний l, использующихся для описания классов сигналов как двухкомпонентных случайных процессов при обучении и при независимом тесте. Оказалось, что в независимом тесте число ошибок действительно зависит от числа состояний l. А в обучении такой зависимости не было. Число ошибок в независимом тесте среднем на 1% больше числа ошибок в обучении.

Рисунок 2.33 - Зависимость числа ошибок от числа состояний l а) при обучении и б) при независимом тесте Одним из лучших методов уменьшения степени переобучения (другими словами, уменьшения разницы в ошибках при обучении и при независимом тесте) является обучение по схеме скользящего контроля.

Предлагается процедура подбора параметров алгоритмов распознавания речевых команд на основе скользящего контроля (или кросс-валидации) [19, 30, 33]. Новая процедура такая же, как и процедура подбора параметров алгоритма распознавания за исключением того, что сигналы, использованные для построения алгоритма распознавания и сигналы, использованные для проверки алгоритма распознавания с подсчетом числа ошибок разделены по схеме скользящего контроля:

1. Для каждого класса v =1,2,...,V задать набор речевых сигналов. Каждый речевой сигнал со своей длительностью описывается соответствующей последовательностью отсчетов. 2. Задать диапазоны допустимых значений параметров N , M ,P,D.

3. Оценка параметров методом скользящего контроля.

3.1 Набор речевых сигналов каждого класса сигналов v =1,2,...,V разделяется на k , например 5, равных частей.

3.2 Взять очередные значения параметров N , M ,P,D из диапазонов допустимых значений и построить МЧКК сигналов всех частей.

3.3 Исключить одну часть и использовать МЧКК сигналов остальных k -1 частей для построения модели классов сигналов как нормальных распределений МЧКК с параметрами Sv,v , v =1,...,V .

3.4 Выполнить распознавание речевых сигналов с подсчетом числа ошибок распознавания на наборе речевых сигналов исключенной отдельной части.

3.5 Повторить шаги 3.3-3.4 для каждой отдельной части речевых сигналов и вычислить среднее число ошибок.

3.6 Повторить шаги 3.2-3.5 для всех возможных значений параметров N , M,P,D и найти набор (N ,M ,P ,D ), обеспечивший наименьшее число ошибок распознавания.

4. Процедура заканчивается, когда число ошибок распознавания оказывается приемлемым. Тогда для распознавания можно применить классификатор с классами сигналов lv , v =1,2,...,V , построенными как нормальные распределения мел-частотных кепстральных коэффициентов. В противном случае перейдем к следующему шагу.

5. Построение модели классов сигналов как смесей нормальных распределений мел-частотных кепстральных коэффициентов, полученных при использовании значений параметров (N ,M ,P ,D ). Подбирается количество W нормальных распределений в смесях, обеспечивающее наименьшее среднее число ошибок по схеме скользящего контроля, задав диапазон возможных чисел W : 5.1 Набор речевых сигналов каждого класса сигналов v =1,2,...,V разделяется на k , например 5, равных частей. 5.2 Взять очередное значение W из диапазона допустимых значений и построить МЧКК сигналов всех частей. 5.3 Исключить одну часть и использовать МЧКК сигналов остальных k -1 частей для построения модели классов сигналов как смесей W нормальных распределений МЧКК с параметрами wvn , Svn , vn , где wvn вес n -ого нормального распределения МЧКК класса сигналов v, Svn -ковариационная матрица n-ого нормального распределения МЧКК класса сигналов v, Svn - её определитель; vn - вектор средних значений n -ого гауссового распределения МЧКК класса сигналов v, n =1,...,W , v =1,...,V . 5.4 Выполнить распознавание речевых сигналов с подсчетом числа ошибок распознавания на наборе речевых сигналов исключенной отдельной части. 5.5 Повторить шаги 5.3-5.4 для каждой отдельной части речевых сигналов и вычислить среднее число ошибок. 5.6 Повторить шаги 5.2-5.5 для всех возможных значений W и найти значение W , обеспечивший наименьшее число ошибок распознавания.

6. Если число ошибок распознавания оказывается приемлемым, тогда для распознавания можно применить классификатор с классами сигналов lv , v =1,2,...,V , построенными как смеси гауссовых распределений МЧКК. В противном случае перейдем к следующему шагу.

7. Построение модели классов сигналов как двухкомпонентных случайных процессов. Для этого подбирается наименьшее число скрытых состояний l, обеспечивающее наименьшее среднее число ошибок по схеме скользящей контроля, задав множество возможных чисел l . Схема подбора числа скрытых состояний l, такая же, как схема подбора количества W нормальных распределений в смесях, показанная в шаге 5. Таким образом, параметры алгоритмов распознавания речевых команд здесь тоже подбираются последовательно, и предпочитается более простая модель классов сигналов. Более простая модель классов сигналов предпочтительна, так как требуется меньше вычислительных ресурсов, и уменьшается возможность переобучения.

Исследование алгоритма распознавания команд на фоне шумов

В данной работе рассмотрены основные существующие задачи обработки речевых сигналов: кодирование, преобразование и распознавание речевых сигналов. При кодировании речевой сигнал представлен последовательностью кратковременных амплитудных спектров. Кратковременный амплитудный спектр, в свою очередь, представлен вектором мел-частотных кепстральных коэффициентов. В работе описывается преобразование речевых сигналов путем преобразования их кратковременных амплитудных спектров, используя имеющуюся в нашем распоряжении функцию преобразования, которая расширяет (сжимает) амплитудные спектры. В этом случае достигается эффект расширения или сжатия спектра в соответствии со значением параметра функции преобразования.

Рассмотрен байесовский классификатор речевых сигналов, где классы сигналов представлены в виде двухкомпонентных случайных процессов. Двухкомпонентный случайный процесс содержит в себе наблюдаемую компоненту, представляющую собой векторы мел-частотных кепстраль-ных коэффициентов, и скрытую компоненту, являющуюся скрытой марковской цепью. Рассмотрена процедура построения каждого класса сигналов как двухкомпонентного случайного процесса.

На основе имеющегося опыта с разных областей обработки речевых сигналов сформулирована задача идентификации модели речевого сигнала с целью адекватного восприятия. Этапы решения данной задачи означают выполнение вполне определенной обобщенной “процедуры” обработки, шаги которой определены рассмотренными выше этапами. Приводится формальное описание обобщенной “процедуры” обработки речевых сигналов.

В работе описывается решение задачи распознавания речевых команд как задачи идентификации модели речевого сигнала с целью адекватного восприятия. Разработанный алгоритм распознавания речевых ко 152 манд содержит ряд параметров. Возникает необходимость определения этих параметров. В работе предлагается процедура подбора параметров алгоритма распознавания речевых команд на основе скользящего контроля. При подборе параметров предполагается, что классы сигналов описываются не как двухкомпонентные случайные процессы, а как нормальные распределения векторов мел-частотных кепстральных коэффициентов. Такое предположение было сделано, так как построение классов сигналов как двухкомпонентных случайных процессов трудоемко, а скользящий контроль требует перестройки классов сигналов многократно.

В работе также описывается решение задачи распознавания речевых команд с недостаточным объемом обучающих данных, используя преобразование сигналов. Был предложен многократный алгоритм распознавания речевых команд. Проведено исследование многократного алгоритма распознавания речевых команд. Эксперименты по схемам скользящего контроля подтверждают улучшение качества распознавания, используя многократный алгоритм распознавания речевых команд.

В работе также рассматривается задача распознавания речевых команд на фоне шумов. Для улучшения качества распознавания речевых сигналов предложено применить эвристический прием, заключающийся в увеличении значений отсчетов амплитудных спектров речевых сигналов на некоторую константу. Если спектр зашумленного сигнала сильно отличается от спектра незашумленного сигнала, то очевидно, что степень связи таких спектров может оказаться достаточно малой. Для увеличения степени связи в данной работе предлагается увеличивать значения отсчетов амплитудных спектров обоих сигналов на константу. В экспериментах с некоторыми типами шумов предложенный подход значительно улучшает результат распознавания. Оказалось, что с увеличением значения константы число ошибок распознавания сначала быстро падает, а потом немного растет. Таким образом, слишком большую константу добавлять нельзя, по-153 тому что это ухудшает качество распознавания. Предложенный подход к распознаванию речевых сигналов содержит параметр (константа усиления) в алгоритме распознавания. Эксперименты показали, что результат распознавания сильно зависит от значений параметров алгоритма. Следовательно, необходимо решать задачу оптимизации параметров для улучшения качества распознавания. В работе предложены процедуры оптимизации параметров модели речевых сигналов для улучшения качества их распознавания.

В работе описываются экспериментальные исследования по распознаванию одиннадцати речевых команд с помощью разработанных решений. Эксперименты выполнены по схемам скользящего контроля, чтобы проверить качество распознавания речевых команд предложенными решениями. Проводится анализ полученных результатов и на их основе делаются выводы об адекватности предложенных решений.

Похожие диссертации на Модели и алгоритмы распознавания коротких речевых команд на основе пробных спектральных преобразований входного сигнала