Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Помехоустойчивые выделители основного тона для низкоскоростных вокодеров и цифровых слуховых аппаратов Бабкин Владимир Владиславович

Помехоустойчивые выделители основного тона для низкоскоростных вокодеров и цифровых слуховых аппаратов
<
Помехоустойчивые выделители основного тона для низкоскоростных вокодеров и цифровых слуховых аппаратов Помехоустойчивые выделители основного тона для низкоскоростных вокодеров и цифровых слуховых аппаратов Помехоустойчивые выделители основного тона для низкоскоростных вокодеров и цифровых слуховых аппаратов Помехоустойчивые выделители основного тона для низкоскоростных вокодеров и цифровых слуховых аппаратов Помехоустойчивые выделители основного тона для низкоскоростных вокодеров и цифровых слуховых аппаратов Помехоустойчивые выделители основного тона для низкоскоростных вокодеров и цифровых слуховых аппаратов Помехоустойчивые выделители основного тона для низкоскоростных вокодеров и цифровых слуховых аппаратов Помехоустойчивые выделители основного тона для низкоскоростных вокодеров и цифровых слуховых аппаратов Помехоустойчивые выделители основного тона для низкоскоростных вокодеров и цифровых слуховых аппаратов Помехоустойчивые выделители основного тона для низкоскоростных вокодеров и цифровых слуховых аппаратов Помехоустойчивые выделители основного тона для низкоскоростных вокодеров и цифровых слуховых аппаратов Помехоустойчивые выделители основного тона для низкоскоростных вокодеров и цифровых слуховых аппаратов
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Бабкин Владимир Владиславович. Помехоустойчивые выделители основного тона для низкоскоростных вокодеров и цифровых слуховых аппаратов : Дис. ... канд. техн. наук : 05.12.13 : Санкт-Петербург, 2003 210 c. РГБ ОД, 61:04-5/660-1

Содержание к диссертации

1 Введение 9

  1. Задача оценки частоты основного тона вокализованной речи и ее место в цифровой обработке речевых сигналов 9

  2. Область применения алгоритмов оценки частоты ОТ вокализованной речи Ю

  3. Актуальность темы исследования 14

  4. Цель работы 17

  5. Структура диссертации 18

2 Обзор существующих методов оценки частоты ОТ

ВОКАЛИЗОВАННОЙ РЕЧИ 19

  1. Постановка задачи оценки частоты ОТ вокализованной речи 19

  2. Факторы, затрудняющие оценку частоты ОТ 25

  3. Требования к точности оценки частоты ОТ в вокодерах 26

  4. Общая структура построения выделителей ОТ 28

  5. Методы предварительной обработки речевых сигналов 29

  1. Линейная фильтрация 30

  2. Выравнивание формантной структуры спектра 30

  3. Нелинейные методы обогащения спектра гармониками частоты ОТ 34

  1. Методы принятия решения 36

  2. Общая классификация методов оценки частоты ОТ 43

  3. Методы оценки частоты ОТ на основе анализа речевых сигналов во временной области 43

  1. Методы частотной селекции 44

  2. Методы амплитудной селекции 46

  3. Многоканальные схемы построения выделителей ОТ 48

  1. Использование нескольких признаков для анализа 48

  2. Использование различных методов предварительной обработки 50

  3. Использование различных частотных полос 50

2.9 Методы оценки частоты ОТ на основе анализа функциональных
отображений речевых сигналов 52

2.9.1 Корреляционные методы и методы линейного предсказания 53

  1. Автокорреляционный метод 54

  2. Разностные методы (AMDF и MSDF) 55

  3. Метод, использующий функцию нормированной взаимной корреляции 57

  4. Методы линейного предсказания высокого порядка 60

2.9.2 Методы, основанные на модификации спектра сигнала 61

  1. Кепстральный метод 61

  2. Другие методы модификации спектра 64

  1. Методы максимального правдоподобия 65

  2. Методы анализа через синтез 69

  3. Методы поиска гармоник частоты ОТ в частотной области 71

  1. Методы спектральной компрессии 72

  2. Обнаружение гармоник ОТ с помощью гребенчатого фильтра 74

  3. Корреляционный анализ спектров 75

  4. Методы спектрального подобия 76

2.10 Методы классификации тон/шум 79

  1. Общие подходы к классификации тон/шум для речевых сигналов 79

  2. Подходы к классификации тон/шум в низкоскоростных вокодерах 80

  3. Признаки, используемые при классификации тон/шум 82

  4. Способы принятия решения тон/шум 85

  1. Постановка задач исследования 88

  2. Выводы 91

3 Исследование методов оценки частоты ОТ вокализованной речи
В ПРИСУТСТВИИ шума и разработка помехоустойчивого выделителя
ОТ
94

3.1 Разработка методики оценки помехоустойчивости выделителей ОТ... 94

  1. Требования к тестовым сигналам 95

  2. Количественная оценка помехоустойчивости 98

  3. Формирование тестовых сигналов 101

3.2 Выбор функционального отображения и исследование его свойств ..106
3.2.1 Корреляционные отображения 108

- в.2.2 Отображения на основе гребенчатых фильтров 111

  1. Гребенчатые КИХ и БИХ фильтры 111

  2. Варианты построения отображений на основе гребенчатых фильтров 114

3.2.3 Сравнение свойств отображений на основе ФВНК и ФЭГФ 120

  1. Качественное определение контрастности отображений 121

  2. Количественное сравнение контрастности отображений 127

3.3 Исследование методов оценки периода ОТ для одного речевого кадра...
137

  1. Выделение глобального максимума отображения 138

  2. Выделение глобального максимума взвешенного отображения 139

  1. Сравнение методов предварительной фильтрации 147

  2. Сглаживание траектории ОТ для нескольких кадров 153

  1. Медианное сглаживание траектории ОТ 153

  2. Сглаживание траектории ОТ методами динамического программирования... 155

3.6 Выводы 160

4 Исследование помехоустойчивости разработанного выделителя
ОТ 162

  1. Описание алгоритма разработанного выделителя ОТ 162

  2. Постановка эксперимента по измерению помехоустойчивости 168

  3. Краткая характеристика сравниваемых выделителей ОТ 170

  4. Полученные результаты 170

  5. Выводы 171

5 Реализация разработанного выделителя ОТ 174

5.1 Особенности реализации алгоритмов цифровой обработки сигналов на
цифровых процессорах обработки сигналов 174

  1. Функциональное моделирование алгоритмов 175

  2. Перевод алгоритмов в арифметику с фиксированной точкой 176

  3. Разработка набора тестовых векторов 178

  4. Реализация на ассемблере 179

  5. Особенности многоканальной реализации 179

  1. Метод раздельного программного кода 180

  2. Метод переключения страниц памяти 181

  3. Метод копирования контекстов 182

  4. Метод переключения дескрипторов 183

5.2 Реализация разработанного выделителя ОТ в LPC вокодере 184

5.2.1 Общее описание реализованного вокодера 184

5
5.2.2 Особенности построения выделителя ОТ в LPC вокодере 186

5.3 Реализация разработанного выделителя ОТ в цифровом слуховом
аппарате 187

  1. Общее описание реализованного цифрового СА 187

  2. Особенности построения выделителя ОТ в цифровом СА 190

  3. Особенности реализации выделителя ОТ на процессорах семейства ADSP-218x 192

5.4 Выводы 196

  1. Заключение 198

  2. Литература 200

Список принятых сокращений

АМВЕ - Advanced Multiband Excitation (алгоритм кодирования речи с улучшенным многополосным возбуждением)

AMDF - Averaged Magnitude Difference Function (функция среднего модуля разности двух сигналов)

CELP - Code Exited Linear Prediction (алгоритм кодирования речи на основе линейного предсказания с сигналом возбуждения из кодовой книги)

FPE - Fine Pitch Errors (малые ошибки в оценке основного тона)

GPE - Great Pitch Errors (грубые ошибки в оценке основного тона)

GSM - Global System for Mobile communications (глобальная система мобильной связи)

HSS - Harmonic Sum Spectrum (сумма гармоник спектра)

HVXC - Harmonic Vector Excitation Coding (алгоритм кодирования речи с гармоническим возбуждением)

IMBE - Improved Multiband Excitation, (алгоритм кодирования речи с улучшенным многополосным возбуждением)

ISO - International Standardization Organization (международная организация по стандартизации)

ITU-T - Interaational Telecommunication Union, Telecommunication standartization sector (международный союз электросвязи, отделение стандартизации электросвязи)

LHPS - Logarithmic Harmonic Product Spectrum (логарифм произведения гармоник спектра)

LPC - Linear Predictive Coding, (алгоритм кодирования речи с линейным предсказанием)

МВЕ - Multiband Excitation (алгоритм кодирования речи на основе линейного предсказания с многополосным возбуждением)

MELP - Multiband Excitation Linear Prediction, (алгоритм кодирования речи на основе линейного предсказания с многополосным возбуждением)

MIPS - Million Instructions Per Second (миллион операций в секунду)

MLE - Maximum Likelihood Estimation (оценка максимального правдоподобия)

MPEG - Moving Pictures Experts Group (группа экспертов в области видеоизображений)

MSDF - Mean Squared Difference Function (функция среднего квадрата разности двух сигналов)

PWI - Prototype Waveform Interpolation (алгоритм кодирования речи с интерполяция формы волны вокализованных звуков)

RC - reflection coefficient (коэффициент отражения)

SNR - Signal to Noise Ratio (отношение сигнал/шум)

STC - Sinus Transform Coding (алгоритм кодирования речи с разложением на гармонические составляющие)

VAD - Voice Activity Detector (детектор речевой активности)

АКФ - автокорреляционная функция

АОФ - адаптивный обеляющий фильтр

АЧХ - амплитудно-частотная характеристика

БИХ - бесконечная импульсная характеристика

БПФ - быстрое преобразование Фурье

ДП - динамическое программирование

ДПФ - дискретное преобразование Фурье

ИНС - искусственная нейронная сеть

КИХ - конечная импульсная характеристика

ЛП - линейное предсказание

НВКФ - нормированная взаимокорреляционная функция

ОС - операционная система

ОТ - основной тон

ПЭВМ - персональная электронно-вычислительная машина

СА - слуховой аппарат

ФВЧ - фильтр верхних частот

8 ФНЧ - фильтр нижних частот

ФЭГФ - функция энергии на выходе гребенчатого фильтра ЦОС - цифровая обработка сигналов ЦПОС - цифровой процессор обработки сигналов

Введение к работе

1.1 Задача оценки частоты основного тона вокализованной речи и ее место в цифровой обработке речевых сигналов

Речь является основным каналом обмена информацией между людьми. С момента изобретения фонографа и телефона технические средства, работающие с речевыми сигналами, постоянно совершенствовались и расширяли сферу своего применения. В настоящее время одним из наиболее перспективных и стремительно развивающихся направлений в этой области является цифровая обработка речевых сигналов, под которой понимается преобразование аналогового электрического сигнала в цифровую форму с последующей его обработкой вычислительными методами.

Речевой сигнал в цифровой форме может рассматриваться с позиций волнового, спектрального или параметрического описания. Последнее, в силу своей компактности, широко используется при решении задач анализа, синтеза, компрессии и распознавания речи. В его основе лежит классическая модель ре-чеобразования [120](Фланаган, 1968), [115](Рабинер, 1981), состоящая в первом приближении из пассивного речевого тракта с переменными во времени параметрами и источника возбуждения в нем акустических колебаний (рис. 1.1).

Усиление Av

Частота основного 1 тона

Генератор импульсов

Модель

голосовой

щели

Параметры речевого тракта

Модель (+)—* речевого тракта

Модель излучения

Речевой сигнал

Генератор шума

Усиление An

Рис. 1.1. Классическая модель речеобразования

10 Текущие параметры речевого тракта и сигнала возбуждения выбираются так, чтобы синтезированный на выходе модели сигнал был близок к оригинальному

^ речевому сигналу в смысле какого-либо критерия. Основной задачей при ис-

пользовании параметрического описания речевых сигналов является оценка параметров выбранной модели на основе анализа текущей речи.

Одним из важнейших параметров сигнала возбуждения колебаний в речевом тракте является частота основного тона (ОТ) речи, характеризующая высоту голоса при произнесении вокализованных звуков речи. Задача автоматической оценки частоты ОТ и ее траектории во времени (называемая часто задачей выделения ОТ) является классической и активно обсуждается в мировой научной литературе многие десятилетия. Человек легко определяет частоту ОТ на слух или на глаз при анализе осциллограмм или спектрограмм речи, однако, построить устройство (выделитель ОТ), автоматически определяющее частоту ОТ с малой ошибкой и малой задержкой во времени, даже при относительно низком уровне помех, довольно трудно [100](Пирогов, 1974).

^ Диссертационная работа посвящена исследованию методов оценки часто-

ты ОТ речи в присутствии белого шума и разработке помехоустойчивых выделителей ОТ, предназначенных для применения в низкоскоростных вокодерах и цифровых слуховых аппаратах.

1.2 Область применения алгоритмов оценки частоты ОТ вокализованной речи

В цифровой обработке речевых сигналов можно выделить следующие основные области применения алгоритмов оценки частоты ОТ вокализованной речи (рис. 1.2):

Алгоритмы оценки частоты ОТ речи

Распознавание речи

Идентификация дикторов

Компрессия

речи (вокодеры)

Очистка речи от шума

Слухопротезирование