Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Модель, численная и программная реализация оценивания частоты основного тона речевого сигнала с помощью сингулярного спектрального анализа Вольф Данияр Александрович

Модель, численная и программная реализация оценивания частоты основного тона речевого сигнала с помощью сингулярного спектрального анализа
<
Модель, численная и программная реализация оценивания частоты основного тона речевого сигнала с помощью сингулярного спектрального анализа Модель, численная и программная реализация оценивания частоты основного тона речевого сигнала с помощью сингулярного спектрального анализа Модель, численная и программная реализация оценивания частоты основного тона речевого сигнала с помощью сингулярного спектрального анализа Модель, численная и программная реализация оценивания частоты основного тона речевого сигнала с помощью сингулярного спектрального анализа Модель, численная и программная реализация оценивания частоты основного тона речевого сигнала с помощью сингулярного спектрального анализа Модель, численная и программная реализация оценивания частоты основного тона речевого сигнала с помощью сингулярного спектрального анализа Модель, численная и программная реализация оценивания частоты основного тона речевого сигнала с помощью сингулярного спектрального анализа Модель, численная и программная реализация оценивания частоты основного тона речевого сигнала с помощью сингулярного спектрального анализа Модель, численная и программная реализация оценивания частоты основного тона речевого сигнала с помощью сингулярного спектрального анализа Модель, численная и программная реализация оценивания частоты основного тона речевого сигнала с помощью сингулярного спектрального анализа Модель, численная и программная реализация оценивания частоты основного тона речевого сигнала с помощью сингулярного спектрального анализа Модель, численная и программная реализация оценивания частоты основного тона речевого сигнала с помощью сингулярного спектрального анализа Модель, численная и программная реализация оценивания частоты основного тона речевого сигнала с помощью сингулярного спектрального анализа Модель, численная и программная реализация оценивания частоты основного тона речевого сигнала с помощью сингулярного спектрального анализа Модель, численная и программная реализация оценивания частоты основного тона речевого сигнала с помощью сингулярного спектрального анализа
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Вольф Данияр Александрович. Модель, численная и программная реализация оценивания частоты основного тона речевого сигнала с помощью сингулярного спектрального анализа: диссертация ... кандидата технических наук: 05.13.18 / Вольф Данияр Александрович;[Место защиты: Томский государственный университет систем управления и радиоэлектроники].- Томск, 2015.- 149 с.

Содержание к диссертации

Введение

ГЛАВА 1. Обзор существующих методов и алгоритмов оценивания частоты основного тона речи. Обзор моделей вокализированного сегмента речевого сигнала. Постановка задачи 13

1.1. Анализ состояния проблемы оценки частоты основного тона речи 13

1.1.1. Методы оценки частоты основного тона речи 13

1.1.2. Обзор отечественных алгоритмов оценивания ЧОТ 22

1.1.3. Обзор зарубежных алгоритмов оценивания ЧОТ 24

1.1.4. Оценка существующих алгоритмов оценивания ЧОТ 31

1.2. Модели вокализированного сегмента речевого сигнала 34

1.2.1. Волновая модель Келли-Локбаума 34

1.2.2. Модель речевого тракта на основе уравнения Вебстера 37

1.2.3. Гармоническая модель вокализированного сегмента речи 38

1.3. Сингулярная модель вокализированного сегмента речи 39

1.3.1. Прямая задача 39

1.3.2. Обратная задача 40

1.4. Постановка задачи и требования к сингулярному оцениванию частоты основного тона речи 42

1.5. Выводы по главе 43

ГЛАВА 2. Модель и численная реализация сингулярного оценивания частоты основного тона речевого сигнала. Оценка методов и алгоритмов сингулярного спектрального анализа речи 45

2.2. Построение концептуальной модели сингулярного оценивания мгновенной частоты основного тона речи 45

2.2.1. Общий вид модели сингулярного оценивания ЧОТ 45

2.2.2. Анализ модели общего вида 47

2.2.3. Переход к частному случаю 51

2.3. Построение математической модели сингулярного оценивания мгновенной частоты основного тона речевого сигнала 55

2.3.1. Численная реализация модели 55

2.3.2. Математическая модель сингулярного оценивания частоты основного тона 59

2.4. Сингулярный спектральный анализ речевого сигнала 63

2.4.1. Решение проблемы собственных чисел в задачах анализа речи 63

2.4.2. Преобразования Хаусхолдера с ротацией Гивенса

2.4.3. Метод Ланцоша для аппроксимации края сингулярного спектра 75

2.5. Выводы по главе 77

ГЛАВА 3. Комплекс алгоритмов для программной реализации сингулярного оценивания частоты основного тона речи 79

3.1. Реализация генератора сингулярного спектра речевого сигнала 79

3.1.1. Синтез генератора сингулярного спектра речи 79

3.1.2. Процедура Ганкелизации фонемного ряда 79

3.1.3. Алгоритмизация метода Ланцоша для задачи аппроксимации края сингулярного спектра речи 80

3.1.4. Алгоритмизация QR-RQ цепочки для отыскания собственных пар Ритца 86

3.1.5. Реконструкция квазигармонического сингулярного спектра речи 94

3.1.6. Компоновка генератора сингулярного спектра речи 97

3.2. Реализация средства выбора квазигармонической составляющей 99

3.1.1. Синтез селектора 99

3.2.1. Алгоритмизация измерителя частоты временного спектра 99

3.2.2. Процедура выбора наилучшего кандидата с ЧОТ 100

3.2.3. Процедура уточнения значения ЧОТ 101

3.2.4. Компоновка селектора

3.3. Алгоритм сингулярного оценивания частоты основного тона 104

3.4. Выводы по главе 104

ГЛАВА 4. Программная реализация сингулярного оценивания частоты основного тона речевого сигнала. Экспериментальные исследования с моделью 106

4.1. Программная реализации сингулярного оценивания ЧОТ 106

4.1.1. Структура программного комплекса 106

4.1.2. Программная реализация алгоритмов на уровне методов 108

4.1.3. Общий вид работы программного комплекса 110

4.2. Экспериментальные исследования с моделью 112

4.2.1. Оценка временных характеристик сингулярного оценивания ЧОТ речи 112

4.2.2. Оценка адекватности модели сингулярного оценивания ЧОТ 114

4.2.3. Оценка достоверности модели сингулярного оценивания ЧОТ 117

4.3. Выводы по главе 123

Заключение 124

Список литературы 128

Введение к работе

Актуальность научной работы.

Создание систем распознавания речи, вокодерной телефонии, идентификации диктора по голосу связано с необходимостью выделения первичных признаков речевого сигнала в условиях реальной речевой обстановки. Важнейшим параметром речевого сигнала является основной тон, содержащий информацию об интонационной структуре произнесения, индивидуальности голоса диктора и его эмоциональном состоянии, возрастных и патологических изменениях голосового аппарата. В диссертации решается проблема оценивания частоты основного тона (ЧОТ) речевого сигнала. Задача определения ЧОТ речи, включая распределение амплитуд, периодов и начальных фаз гармоник, образующих сложный полигармонический сигнал, относится к классу сложных.

Существующие системы оценивания ЧОТ не позволяют проводить
анализ речевой информации с учетом особенностей речеобразования и
речевосприятия, связанных с анатомией и физиологией человека, так как
методы анализа, лежащие в их основе, ограничены периодической
(стационарной) моделью речевого сигнала, которая подразумевает точное
повторение периода и амплитуды основного тона и не допускает их
изменения на протяжении окна анализа. В свою очередь, это влияет на
точность результатов оценивания ЧОТ [1]. В диссертации предлагается
модель речевого сигнала на основе сингулярного спектрального анализа
(далее - сингулярная модель), которая позволяет рассматривать

речеобразующий тракт как систему акустических резонаторов, в которой параметрами выступают собственные значения и собственные векторы, содержащие информацию о структуре речевого сигнала с учетом нестационарных амплитуд, периодов и фаз гармоник, входящих в его состав. Данное свойство обусловлено тем, что пространство собственных векторов образует нестационарный базис, в который проецируется речевой сигнал [2,3].

В медицинских приложениях речевых технологий повышение точности вычислений является актуальной задачей. Однако повышение точности вычисления ЧОТ приводит к увеличению вычислительной сложности. Разработанная в диссертации модель оценивания частоты основного тона на основе сингулярного спектрального анализа (далее - сингулярное оценивание ЧОТ) позволяет сократить временную обработку речевого сигнала за счет аппроксимации края сингулярного спектра, выделяя главные компоненты, образующие речевой сигнал для случая неизвестных априорных распределений амплитуд, периодов и начальных фаз гармоник [4,5].

Проблематикой эффективного оценивания ЧОТ речевого сигнала занимались такие ученые как Г. Фант, Дж. Фланаган, М.А. Сапожков, В.Н. Сорокин, В.И. Галунов, Б.М. Лобанов, Т.К. Винцюк, Л.В. Златоустова, А.В. Аграновский, Н.Г. Загоруйко, Ю.А. Косарев, А.Л. Ронжин, М.В. Хитров,

С.Л. Коваль, В.Г. Михайлов, В.П. Бондаренко, М.Б. Столбов, др. Таким образом, выбранная тема и направленность исследования в диссертации являются актуальными.

Цель исследования.

Целью исследования является уменьшение вычислительной сложности алгоритмов анализа речевого сигнала при оценивании частоты основного тона с учетом особенностей речеобразования и речевосприятия, связанных с анатомией и физиологией человека для случая неизвестных априорных распределений амплитуд, периодов, начальных фаз гармоник.

Для достижения поставленной цели решается задача разработки модели сингулярного оценивания частоты основного тона речевого сигнала, которая позволяет:

– уменьшить вычислительную сложность алгоритмов анализа речевого сигнала;

– учитывать особенности речеобразования и речевосприятия, связанных с анатомией и физиологией человека для случая неизвестных априорных распределений амплитуд, периодов, начальных фаз гармоник, а также численная и программная реализация модели.

Методика исследования.

Для решения задач, сформулированных в диссертации, используются методы системного анализа, сингулярного спектрального анализа, цифровой обработки сигналов, математической статистики, фонетики, психоакустики.

Степень достоверности результатов.

Достоверность полученных результатов обеспечивается строгостью используемого математического аппарата, адекватностью и достоверностью модели, установленной путем сравнения реакции модели и известных аналогов на тестовые сигналы, большим количеством экспериментальных данных, подтверждающих теоретические результаты, а также внедрением разработанного комплекса алгоритмов в практику.

Научная новизна.

Научную новизну диссертации определяют:

  1. Модель оценивания частоты основного тона, основанная на сингулярном спектральном анализе, в отличие от классических моделей позволяет уменьшить вычислительную сложность алгоритмов анализа речевого сигнала.

  2. Численный метод расчета частоты основного тона, использующий метод главных компонент для анализа временных рядов, в отличие от известных в литературе численных методов, учитывает особенности генерации речевого сигнала человеком и элементы психоакустики.

  3. Комплекс алгоритмов, позволяющий разрабатывать программы, обеспечивающие меньшее количество ошибок оценивания частоты основного тона за счет использования сингулярной модели вокализированного сегмента речи, учитывающей нестационарные параметры основного тона с помощью собственных чисел.

Положения, выносимые на защиту:

  1. Использование модели сингулярного оценивания частоты основного тона позволяет уменьшить вычислительную сложность алгоритмов анализа речевого сигнала на 37% путем аппроксимации края сингулярного спектра.

  2. Численный метод расчета частоты основного тона, использующий метод главных компонент, позволяет проводить анализ речевого сигнала человека с погрешностью не более 0,2%.

  3. Комплекс алгоритмов сингулярного оценивания частоты основного тона позволяет разрабатывать программы, обеспечивающие меньшее количество ошибок оценивания частоты основного тона за счет использования сингулярной модели вокализированного сегмента речи, учитывающей нестационарные параметры основного тона с помощью собственных чисел.

Практическая значимость.

Разработанные модель и алгоритмы позволяют:

  1. создавать программное обеспечение для анализа параметров основного тона речевого сигнала в режиме реального времени;

  2. формировать описание речевого сигнала для его распознавания, идентификации диктора и кодирования речи в цифровых системах связи.

Внедрение результатов

Разработанные модель и алгоритмы сингулярного оценивания частоты основного тона речи используются:

в комплексе программ реабилитации пациентов после полной или частичной потери звучной речи в результате ларингоэктомии (Свидетельство о государственной регистрации программы для ЭВМ № 2015618857 – "Программа речевой реабилитации больных после резекции гортани"). Данный комплекс программ используется в кабинете логопеда отделения опухолей органов головы и шеи в Федеральном государственном бюджетном научном учреждении «Томский научно-исследовательский институт онкологии»;

в качестве одного из модулей вокодера системы записи телефонных разговоров муниципального казенного учреждения «Единой дежурно-диспетчерской службы Сургутского района» – органа повседневного управления Сургутского районного звена территориальной подсистемы РСЧС (МКУ «ЕДДС Сургутского района»);

в учебном процессе при выполнении научно-исследовательской работы студентами кафедры комплексной информационной безопасности электронно-вычислительных систем Томского государственного университета систем управления и радиоэлектроники (КИБЭВС) в части проведения группового обучения студентов кафедры КИБЭВС (Проект ФВС ГПО.5711305 -01 81 01 ПЗ «Сегментация речевых сигналов с применением быстрых численных методов») для подготовки специалистов по специальности 10.05.03 – Информационная безопасность автоматизированных систем, и 21.02.02 – Проектирование и технология

электронно-вычислительных средств. Эффективная программная реализация алгоритмов сингулярного спектрального анализа речи позволила повысить скорость и объемы вычислительных экспериментов, проводимых в рамках базовой части государственного задания ТУСУР – проект № 3657 (2015г.) на базе лаборатории речевых технологий Центра технологий безопасности ТУСУР.

Личное участие автора в получении результатов.

Основные научные результаты получены лично автором. Постановка изложенных в диссертации задач сделана совместно с научным руководителем аспиранта профессором Мещеряковым Р.В. На основе проведенного анализа возможности снижения вычислительной сложности существующих алгоритмов оценивания частоты основного тона, автором были разработаны новые эффективные численные методы и алгоритмы, реализованные в виде комплекса программ. Автор применяет сингулярную модель вокализированного сегмента речевого сигнала с помощью которой разрабатывает модель, алгоритмы и программную реализацию сингулярного оценивания частоты основного тона речи. C 2012 г. автор занимается решением прикладных задач анализа и синтеза речевых сигналов с помощью математического аппарата сингулярного спектрального анализа.

Апробация работы.

По материалам диссертации опубликовано 16 работ, из них 5 статей в журналах, входящих в перечень рецензируемых научных журналов и изданий, 11 публикаций в материалах международных и всероссийских научных конференциях.

Теоретическая ценность научной работы.

Теоретическая ценность работы заключается в развитии теории
математического моделирования процессов речеобразования и

речевосприятия, численных расчетах обработки речевых сигналов с использованием сингулярного спектрального анализа.

Обзор зарубежных алгоритмов оценивания ЧОТ

Известно, что участки вокализированной речи человека характеризуются энергией периодических колебаний голосовых складок. Голосовой источник может быть представлен в виде пульсирующего воздушного потока, где частота (период) повторения импульсов голосового источника носит название частоты (периода) основного тона. Основной тон (ОТ), являясь одним из основных параметров речевого сигнала, в существенной мере определяет структуру речевого сообщения [14]. Интонационный контур высказывания есть траектория изменения мелодии частоты ОТ. Просодика высказывания, одной из составляющих которой служит интонация, есть существенное отличие акустического сигнала речи от письменной речи. Частота (период) ОТ переносит существенное количество информации, содержащейся в речевом сигнале. Выделение частоты ОТ, с точки зрения представленной в нем информации, представляет самостоятельный интерес [14]. При этом необходимо определять, как относительно мед 14 ленные изменения (мелодия) траектории частоты ОТ, так и быстрые ее изменения, моменты включения и отключения голосового источника. С другой стороны, и при построении систем анализа, синтеза, распознавания и сжатия речи, необходимо измерять частоту ОТ, которую используют как один из основных признаков, необходимых для описания речевого сигнала. При работе с реальным речевым сигналом оцениватель ЧОТ должен [14]: 1) быть шумозащищенным; 2) быть нечувствителен к линейным и нелинейным искажениям; 3) обеспечивать высокую точность оценивания частоты ОТ; 4) сохранять точность при больших пределах изменения частоты ОТ, при смене диктора, при смене условий передачи, при наличии микровариаций ЧОТ; 5) работать на сигнале непрерывной речи; 6) иметь адекватный детектор вокализации; 7) работать в реальном масштабе времени.

Для извлечения максимального количества информации, содержащейся в контуре сигнала ОТ, следует предъявить следующее дополнительное требование к системам выделения ЧОТ: оцениватель ЧОТ должен оценивать мгновенные значения периода (частоты) ОТ. Основные методы оценивания ЧОТ речевого сигнала можно рассматривать в следующей классификации [15]:

Из данной классификации можно выделить два типа подходов: спектральные и временные. Спектральные обычно основаны на извлечении спектральных пиков. Временные используют, как правило, корреляционный подход. В последнее время было предложено несколько методов, которые по ха 15 рактеристикам превосходят традиционные. Какие-то методы обладают большей точностью, а какие-то большей устойчивостью к шумам. Рассмотрим принципы работы наиболее популярных методов из классификатора.

В методах, основанных на амплитудной селекции вычисляется расстояние между глобальными максимумами результаты которого можно принять за период ОТ. Необходимость подавления локальных ложных максимумов является проблемой алгоритмов амплитудной селекции [15, 16, 17]. Для решения данной проблемы обычно повышается порог срабатывания в схеме поиска максимумов. Однако при этом увеличивается вероятность пропуска истинного максимума. Пропуск и потеря максимума может привести к существенным искажениям звука в процессе синтезирования. Добавление второго канала амплитудной селекции, выделяющей положение минимумов речевого сигнала, увеличивает надежность определения периода ОТ. Тем не менее даже при относительно небольшом уровне шумов проявляются неустойчивость метода и существенное снижение точности определения ОТ. Достоинством данного метода является простота в реализации.

В основе корреляционных методов определения периода ОТ речевого сигнала заложены принципы оценки среднего значения периода пульсаций квазипериодической корреляционной функции [15, 18]. В частном случае вычисляется первый глобальный максимум корреляционной функции [15, 19]. Частота основного тона f0 рассчитывается в виде соотношения NpA где fd - частота дискретизации; Np-i - среднее число отсчетов корреляционной функции, через которое повторяются пульсации [20]; р - число глобальных максимумов корреляционной функции взятых для усредненной оценки N p-i. Для поиска первого глобального максимума применяется следующий подход. Пусть речевой сигнал представлен в виде последовательности отсчетов Si, /=1,2,…, тогда для вокализированных звуков можно считать, что временной вид речевого колебания почти точно повторяется на каждом очередном периоде ОТ где Т- период ОТ, выраженный в числе отсчетов.

В качестве оценки периода ОТ 7=1//о выбирается значение, минимизирующее целевую функцию, которая определяется как сумма квадратов разностей между отсчетами сигнала («+/) и отсчетами сигнала (n-k+i), смещенными на некоторое число отсчетов [15, 19].

Построение математической модели сингулярного оценивания мгновенной частоты основного тона речевого сигнала

Согласно концептуальной модели проведем математическое моделирование процесса, протекающего в селекторе (2.7). Для этого осуществим математическую постановку задачи 2, а также проведем численное решение.

Система на основе выражений (2.17) – (2.25) – это численное решение для (2.7). Таким образом, подстановка системы, полученной на базе (2.17) – (2.25), и системы (2.16) в систему (2.8) дает численный вид модели сингулярного оценивания частоты основного тона речевого сигнала (2.26.1) – численная реализация генератора сингулярного спектра (ГСС); (2.26.2) - численная реализация средства выбора квазигармонического сигнала, соответствующего частоте основного тона речи (селектор); средняя амплитуда гармоники (средняя величина по максимумам в ряде TON) соответствующая частоте основного тона речи.

Система (2.26) описывает численную реализацию модели сингулярного оценивания частоты основного тона речи в математическом виде [99, 101, 102]: 1. В (2.26.1) решается задача разложения исходного речевого сигнала (одномерного ряд) SN в спектр квазигармонических компонент (многомерный ряд) 17, [/=1,2,…Д;«=1,2,…,]. 2. В (2.26.2) решается задача выбора квазигармонической составляющей, соответствующей частоте основного тона речи в следующих действиях: — выбор одномерного ряда TON, соответствующего частоте основного тона речи, из многомерного ряда Т", соответствующего временному спектру; — оценивается средняя частота основного тона речи F0 (с учетом модуляции), содержащаяся во временном ряде TON, — вычисляется средняя амплитуда во временном ряде TON.

Сингулярные матрицы Uc и VA задают базис в линейном пространстве, порождаемый столбцами и строками исходной матрицы А. В следующем разделе рассмотрен поиск сингулярных чисел и п , \ п = \ п , І. Численное представление базовой схемы сингулярного оценивания ЧОТ имеет следующий вид нкчот - номер компоненты с частотой основного тона речи (НКЧОТ); Т/=нкчотд - активация квазигармоники с НКЧОТ. Таким образом, для главной задачи (2.1) получено численное решение, а, следовательно, задача решена.

Для дальнейшей программной реализации генератора сингулярного спектра (ГСС) важно понимать, что предварительно необходимо проработать вопрос поиска быстрого численного решения полной проблемы собственных чисел [103] за заданное время на микропроцессорах встроенных в бытовые ЭВМ для получения матричного разложения A=UDVT , (2.27) где A – исходная траекторная (Ганкелева) матрица; U и VT – левая и правая матрицы поворота соответственно, состоящие из левых и правых собственных векторов; D – диагональная матрица, состоящая из собственных чисел траекторной матрицы A, расположенных в порядке убывания на главной диагонали.

В первую очередь интересует несложный для реализации класс методов, решающий собственную проблему матриц порядка 128128 за время, соответствующее режимам реального времени [103]. Такой порядок матрицы соответствует фонемному ряду равного 256 отсчетам, что соответствует данным, полученным в результате дискретизации временного кадра в 32мс с частотой 8192Гц. Под режимом реального времени будем понимать время сингулярного спектрального анализа меньшее чем сам кадр анализа. Так как в основе модели сингулярного оценивания ЧОТ речи предложен принцип сингулярного спектрального анализа, в задачу которого входит сингулярное разложение матриц (2.27), проведем отбор наиболее подходящего метода сингулярного разложения (2.27), удовлетворяющего условиям работы в задачах реального времени.

Результаты тестирования программы по диагонализации колебательного гамильтониана протяженной молекулярной среды в режиме параллельных вычислений, проведенного Дементьевым В.А. из Института геохимии и аналитической химии им. В.И. Вернадского РАН, г. Москвы на суперкомпьютере МВС-1000 для матриц размерностью 6464 составило 15 сек с точностью до четвертого знака [104]. Еще десять лет назад решение полной проблемы собственных значений на ЭВМ решалась за достаточно длительное время.

Алгоритмизация метода Ланцоша для задачи аппроксимации края сингулярного спектра речи

Как уже было отмечено в главе 2, парами Ритца будем называть собственные пары (собственное значение, собственный вектор), полученные в результате решения проблемы собственных чисел ковариационной матрицы и симметричной трехдиагональной матрицы 0, полученной в результате работы алгоритма 3.2. Рассмотрим QR факторизацию. QR факторизация симметричной трехдиагональной матрицы 0 (2.42) протекает аналогично факторизации би-диагональной матрицы (2.33), (2.34), (2.40). Для матрицы размерностью тт осуществляется т–1 проходов вдоль диагонали матрицы, где с каждым проходом осуществляется обнуление соответствующего элемента, расположенного под главной диагональю. Таким образом, в первом проходе, матрица Pi выбирается таким образом, что произведение Pi обнуляет элемент, расположенный во второй строке первой колонке. Следующая матрица P2 выбирается так, что произведение P2Pі0 обнуляет элемент, расположенный в третей строке и втором столбце, соответственно для матрицы Pз произведение PзPгPі обнуляет элемент, расположенный в четвертой строке и третьем столбце. В итоге цепочка матричных произведений обеспечивает верхнюю диагональную матрицу R, а матрицы Pь P2, P3, , Pm-i -элементарные матрицы вращения (Гивенса). Что бы понять, как формируются матрицы вращения P, рассмотрим факторизацию для элементарного единичного вращения. Пусть в результате последовательности операций, осуществленных в соответствии с алгоритмом 3.2 получена симметричная трехдиагональная матрица a1 P1 и пусть значения косинуса и синуса, связанные с матрицей вращения Pj обозначаются как сj и sj соответственно, тогда для матричного произведения P1, обеспечиваются следующие вычисления

Таким образом, вычисляя соответствующие элементы матрицы в правой части выражения (3.1), осуществляется элементарное преобразование матрицы 0 в новую матрицу Pi 0. Элемент ц, расположенный в первой строке и первом столбце новой матрицы Рі0, может быть вычислен как а/= (X1C1 + fi1s1 = TJS + с\ .

Аналогичным образом в соответствующих позициях второй колонки матрицы Pi вычисляются новые значения i и г. Для следующего матричного поворота РгРі, для элемента 2 удобно ввести временную переменную, допустим t. Если сначала сохранить текущее значение i во временную переменную t, то значение в соответствующей ячейки новой матрицы Pj0 запишется как (tci+ дої), а значение в ячейке, содержащей элемент г, перепишется как

В итоге, перед тем как будет переписана ячейка, содержащая значение 2, выражением 2сі=ґсі в переменную t запишется 2. Элемент, содержащийся в первой строке и третьей колонке не нуждается в сохранении, т.к. в цепочке RQ не учитывается. Применяя аналогичные рассуждения для последовательности у=2,3,4,…,т-1, окончательно получаем следующие расчетные формулы нахождения поворотных коэффициентов сj и Sj для остальных элементарных матриц вращения Р/

Теперь рассмотрим RQ факторизацию. По правилам матричных операций из правой части выражения (3.3) осуществим перенос матрицы Q в левую часть Q0 = R (3.5) Умножим правую и левую часть (3.5) справа Q0Q = RQ, (3.6) таким образом, осуществиться переход к новому базису, в котором вид матрицы 0 имеет представление 0 і - симметричной трехдиагональной. Продолжая воспроизводить цепочку из последовательности (3.3), (3.5), (3.6) матрица 0(г+і) стремиться к диагональному виду, т.е. к собственным числам, модули которых расположены в убывающем порядке, а произведение последовательности унитарных матриц стремиться к матрице собственных векторов матрицы 0. Для дальнейшей алгоритмизации рассмотрим единичное элементарное преобразование, осуществляемое в (3.7). Аналогично операциям в (3.1) осуществляется матричное произведение матрицы R (3.4) на матрицу Ріт справа где поворотные коэффициенты сj и Sj взяты (восстановлены) из предыдущих вычислений (3.2). В результате (т-1) проходов (3.9) вдоль диагонали формируется разложение вида (3.7) для /=1. В главе 2 рассмотрена сложность матричных операций (3.8), поэтому задача аккумуляции унитарных матриц в (3.8) аналогично решению (2.40). Обобщая выше изложенное, QR-RQ факторизацию можно осуществить в соответствии с алгоритмом 3.3.

Блок-схема алгоритма симметричной QR-RQ факторизации для поиска собственных пар в генераторе сингулярного спектра речевого сигнала Для ускорения сходимости алгоритма 3.3 применяется сдвиг Вилкинсона [149] (рис. 3.2, цикл 13). На выходе алгоритма 3.3 соответственно массив данных a, частично (до m (2.42)) содержащий как собственные значения ковариационной матрицы ААТ, так и трехдиагональной симметричной матрицы 0 (2.42). Вместе с тем, матрица векторов Ym содержит собственные векторы матрицы Qm. Для получения m собственных векторов (в некотором приближении) ковариационной матрицы (векторы Ритца) можно воспользоваться выражением

Для реконструкции квазигармонического спектра необходимо решить обратную задачу для сингулярной модели вокализированной речи, и такая задача рассматривается в главе 2. Как было рассмотрено выше, в соответствии с преобразованиями над матрицей 0 по алгоритму 3.3 образуются собственные пары, представляющие собой m собственных векторов и значений трехдиагональной матрицы 0, а для отыскания m собственных векторов ковариационной матрицы С необходимо произвести матричное произведение в соответствии с выражением (3.10). Таким образом, находится матричная пара ВmХm и ULxm, содержащая m собственных значений и векторов ковариационной матрицы CL L, где в соответствии с выражением (1.5) для последовательности i:=1,2,…,т: { i = 1)i,i, и i =и i }, собственные пары:

Программная реализация алгоритмов на уровне методов

Относительно шкалы Чеддока [161] разница между выборками x1 и х2 слабая, всего 2.5%, следовательно, нет оснований отвергать нулевую гипотезу Н0. Таким образом, принимается гипотеза о незначительных различиях между оценками ЧОТ, полученных с помощью сингулярного оценивания и программой «Praat». Для 100 несортированных (как мужских, так и женских) образцов вокализированных сегментов речи из базы данных Disordered Voice Database [64] дисперсионный анализ показал идентичные результаты.

В процессе пассивного эксперимента появился тезис, который требует дополнительных изысканий. Необходимо учитывать не только канал анализа речевого сигнала, но и канал синтеза [162]. В статье [163] описывается постановка эксперимента по оценке параметров голосового источника. В результате эксперимента рассматривается распределение периодов основного тона ТО женских и мужских голосов на ударных гласных числительных русского языка и их аппроксимация гамма-распределением. Если принять, что множества частотных выборок основного тона І=1,...ЛУ:ХПІ, для женских и і=1,...лУ:уті для мужских дикторов, при [и=1,…,б.ч.; т=1,…,б.ч.] (б.ч. - большое число), имеют некоторую сходимость к нормальному гамма-распределению, то можно предположить, что нормальный (здоровый) диапазон (полоса) ЧОТ для любого диктора (или же диапазон, характеризующий конкретного диктора) составляет где хп, ут - средняя величина ЧОТ для женского и мужского диктора соответственно по всему диапазону гласных звуков речи;

Иными словами, нормальная частота основного тона диктора для нижней и верхней границы не превышает 2 от средней величины. Для конкретного случая (таблица 4.4) диапазон нижней и верхней границы ЧОТ составляет:

Аналогично тому как в главе 1 проводится оценка существующих алгоритмов оценивания ЧОТ, рассмотрим процент грубых (GPE) и средний процент мелких ошибок (MFPE), воспроизводимых при сингулярном оценивании ЧОТ (SEPT) синтетических сигналов. При соответствующей интенсивности гармоника/шум (HNR) для сингулярного оценивания ЧОТ (SEPT) синтетических сигналов оценка GPE равна нулю, а оценка MFPE имеет следующие результаты:

Данные результаты эксперимента показывают, что при тех же условиях сингулярное оценивание частоты основного тона речи (SEPT) оказывает наибольшую робастность к частотным модуляциям и это показывает постоянство оценки MFPE (табл. 4.5, рис. 4.10). Таким образом, заключим, что сингулярный измеритель частоты основного тона осуществляет учет влияния непериодической (нестационарной) модели речевого сигнала, который имеется в естественном сигнале.

Результаты тестирования с использованием речевых баз данных PBD, KPD, DVD показывают, что сингулярное оценивания ЧОТ (SEPT) воспроизводит наименышее количество GPE (табл. 4.5 и 4.6). Таблица 4.7 показывает эффективность оценки в зависимости от пола диктора для баз данных PBD и KPD, т.к. для этих баз данных имеются контрольные оценочные значения ЧОТ, полученные с помощью Ларинографа. Результаты тестирования мужских и женских голосов показывают, что средний процент грубых ошибок больше для женской речи, чем для мужской (таблица 4.7).

10-ю мужчинами и 10-ю женщинами. База данных включает контрольные сигналы, полученные с помощью ларингографа, и их оценочные значения частоты основного тона. На первый взгляд, величина GPE показывает степень робаст-ности оценивания ЧОТ, так как, по сути, показывает процент допущенных ошибок каждым алгоритмов в процессе оценивания, но с другой стороны по данной величине можно судить о степени точности оценивания ЧОТ; так, например, у SEPT среднее количество допущенных ошибок GPE и MFPE на 20 и 16% меньше, чем у SWIPE (табл. 4.8, рис. 4.11), а, следовательно, сингулярное оценивание ЧОТ воспроизводит меньшее количество ошибок по сравнению с известными аналогами, так как погрешность оценивания ЧОТ не превышает 0,2%, что обосновывает второе и третье положение диссертации. Таким образом, результаты данного эксперимента показывают, что способ сингулярного оценивания ЧОТ может быть применен для обработки натуральных речевых сигналов [71, 165, 166].

В настоящее время в качестве одного из модулей программная реализа ция сингулярного оценивания частоты основного тона речи входит в комплекс программ реабилитации пациентов после резекции гортани в Томском НИИ он кологии (Приложение А). Разработанный комплекс предназначен для автомати зации процедуры реабилитации пациентов на этапе формирования у них пище водной речи. Модуль сингулярного оценивания ЧОТ задействуется в упражне ниях по восстановлению тембра голоса. Модуль осуществляет учет влияния непериодической (нестационарной) модели речевого сигнал вырабатываемого пищеводом. Внедренный программный комплекс позволил сократить сроки ре чевой реабилитации на 20%. Положительным качеством внедренного про граммного комплекса является его работа в реальном времени, благодаря чему результаты тренировок доступны уже во время первого приема, а длительность приема при этом не увеличивается (Приложение Б, В). Предложенный ком плекс алгоритмов сингулярного оценивания частоты основного тона речи ис пользовался для разработки одного из модулей вокодера системы записи теле фонных разговоров МКУ «ЕДДС Сургутского района». Примененный алгоритм сингулярного оценивания частоты основного тона речевого сигнала позволил сократить процент выдаваемых ошибок в 2,4 раза, а время отклика анализатора уменьшить на 37% по сравнению с ранее используемым алгоритмом (Прило жение Г).