Методы и алгоритмы повышения эффективности информационно-телекоммуникационных систем при хранении и передаче речевых данных Белов, Сергей Павлович

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Белов, Сергей Павлович. Методы и алгоритмы повышения эффективности информационно-телекоммуникационных систем при хранении и передаче речевых данных : диссертация ... доктора технических наук : 05.13.01 / Белов Сергей Павлович; [Место защиты: Белгородский государственный университет].- Белгород, 2012.- 449 с.: ил. РГБ ОД, 71 13-5/370

Содержание к диссертации

Введение

ГЛАВА 1. Методы и алгоритмы обработки речевых и канальных сигналов при хранении и передаче речевых данных в итс. современное состояние и постановка задач исследований 24-78

1.1 Проблема минимизации затрат ресурсов ИТС при хранении и передаче речевых данных 24-29

12 Процедуры регистрации, хранения и передачи речевых данных с применением компьютерных средств 29-35

1.3 Модели речеобразования и восприятия звуков речи слуховой системой человека, как основа сжатия речевых данных 36-50

1.4 Методы и алгоритмы обработки речевых данных, уменьшающих объемы их битовых представлений при хранении и передаче 50-59

1.5 Распределение частотно-временных ресурсов ИТС при передаче речевых данных 59-76

1.6 Задачи исследований 75-78

ГЛАВА 2. Разработка и исследование математических основ обработки речевых сигналов 79-133

2.1 Субполосные представления в задачах обработки речевых и канальных сигналов. Характеристика проблемы 79-89

2.2 Разработка математических основ обработки речевых и канальных сигналов при хранении и передаче речевых данных в ИТС 89-103

2.3 Разработка алгоритмов отображения пространства отрезков речевых сигналов на дискретное пространство частотных интервалов 103-116

2.4Вычислительные эксперименты по оценке эффективности разработанных алгоритмов 116-133

2.4.1 Оценивание точности аппроксимации собственных функций субполосных ядер набором собственных векторов субполосных матриц 116-124

2.4.2 Оценивание погрешностей вычислений долей энергий отрезка речевого сигнала в заданных частотных интервалах на основе квадратурной формулы прямоугольников 125-133

2.5 Основные результаты и выводы главы 133

ГЛАВА 3. Разработка методов и алгоритмов уменьшения объемов битовых представлений данных об отрезках речевых сигналов при их хранении и передаче 134-207

3.1 Разработка метода и алгоритма минимизации объемов битовых между звуками слитно произносимой речи с применением решающей функции, обладающей максимальной чувствительностью к наличию в отдельных частотных интервалах энергии, обусловленной звуками речи 136-171

3.1.1 Выбор и обоснование решающей функции для обнаружения наличия в анализируемом отрезке речевого сигнала энергий, обусловленных звуками слитно произнесенной русской речи 137-152

3.1.2 Алгоритм минимизации объемов битовых представлений речевых данных на основе обнаружения и кодирования пауз между звуками слитно произносимой речи с применением решающей функции, обладающей максимальной чувствительностью к наличию в отдельных

частотных интервалах энергии, обусловленной звуками речи 152-154

3.1.3 Исследование характеристик решающей функции, обладающей максимальной чувствительностью к наличию в отдельных частотных интервалах энергии, обусловленной звуками речи 154-171

3.2 Разработка метода и алгоритма минимизации объемов битовых представлений речевых данных за счет обнаружения и кодирования пауз в условиях изменяющихся фоновых шумов на основе отображения пространства отрезков речевых сигналов на дискретное пространство заданных частотных интервалов 171-182

3.2.1 Основы разработанного метода 171-174

3.2.2 Алгоритм минимизации объемов битовых представлений речевых данных за счет обнаружения и кодирования пауз в условиях изменяющихся фоновых шумов на основе отображения пространства отрезков речевых сигналов на дискретное пространство заданных частотных интервалов 173-175

3.2.3 Исследование решающей функции на основе частотной концентрации заданной доли энергии анализируемого отрезка 176-183

3.3 Метод и алгоритм сжатия речевых данных без пауз на основе оптимального квантования по уровню коэффициентов разложения отрезков речевых сигналов по собственным векторам субполосных матриц из т информационных частотных интервалов 182-205

3.3.1 Основы разработанного метода 182-196

3.3.2 Алгоритм сжатия речевых данных без пауз на основе оптимального квантования по уровню коэффициентов разложения отрезков речевых сигналов по собственным векторам субполосных матриц из w-информационных частотных интервалов 197-201

3.3.3 Экспериментальные исследования по оценке эффективности созданного алгоритма сжатия речевых данных без пауз на основе оптимального квантования по уровню коэффициентов разложения отрезков речевых сигналов по собственным векторам субполосных матриц из w-информационных частотных интервалов 201 -206

3.4 Основные результаты и выводы главы 206-207

ГЛАВА 4. Разработка методов и алгоритмов формирования канальных сигналов конечной длительности, оптимальных в смысле максимальной концентрации энергии в заданной частотной полосе ..208-245

4.1 Проблема минимизации частотно-временных ресурсов ИТС при формировании канальных сигналов в цифровых системах передачи с частотным разделением. Современное состояние 208-217

4.2 Интерполяционный метод формирования канальных сигналов конечной длительности с максимальной концентрацией энергии в изменяющейся частотной полосе ограниченных размеров, обеспечивающий точное восстановление передаваемых данных при отсутствии помех...217-224

4.3 Вариационный метод формирования канальных сигналов для систем цифровой передачи информации с частотным уплотнением, обеспечивающий при разделении каналов на основе оптимальной линейной субполосной частотной фильтрации максимальную концентрацию энергии в заданной частотной полосе с точным восстановлением передаваемых данных при отсутствии помех 224-230

4.4 Разработка алгоритмов формирования канальных сигналов конечной длительности, оптимальных в смысле максимальной концентрации энергии в заданной частотной полосе с точным восстановлением передаваемых данных при отсутствии помех 230-232

4.4.1 Алгоритм формирования канальных сигналов конечной длительности с максимальной концентрацией энергии в изменяющейся частотной полосе ограниченных размеров с точным восстановлением передаваемых данных при отсутствии помех 230-231

4.4.2 Алгоритм формирования канальных сигналов для систем цифровой передачи информации с частотным уплотнением, обеспечивающий при разделении каналов на основе оптимальной линейной субполосной фильтрации максимальную концентрацию энергии в заданной частотной полосе с точным восстановлением передаваемых данных при отсутствии помех 231 -232

4.5 Экспериментальные исследования по оценке эффективности разработанных алгоритмов формирования канальных сигналов конечной длительности, оптимальных в смысле максимальной концентрации энергии в заданной частотной полосе с точным восстановлением передаваемых данных при отсутствии помех 232-244

4.5.1 Экспериментальные исследования алгоритма формирования канальных сигналов конечной длительности с максимальной концентрацией энергии в изменяющейся частотной полосе ограниченных размеров с точным восстановлением передаваемых данных при отсутствии помех 232-235

4.5.2 Экспериментальные исследования алгоритма формирования канальных сигналов для систем цифровой передачи информации с частотным уплотнением, обеспечивающего при разделении каналов на основе оптимальной линейной субполосной фильтрации максимальную концентрацию энергии в заданной частотной полосе с точным восстановлением передаваемых данных при отсутствии помех 235-244

4.6 Основные результаты и выводы главы 244-245

ГЛАВА 5. Минимизация затрат частотно-временных ресурсов итс на основе применения широкополосных шумоподобных канальных сигналов 246-286

5.1 Широкополосные шумоподобные канальные сигналы как средство повышения эффективности использования канальных ресурсов ИТС...246-252

5.2 Разработка метода и алгоритма формирования TT1TTIKC на основе фазовой манипуляции ЛЧМ радиоимпульса по закону кодовой последовательности 252-264

5.3 Разработка метода и алгоритма формирования TITTITKC на основе временной манипуляции (по задержке) ЛЧМ радиоимпульсов по закону кодовой последовательности 264-285

5.4 Основные результаты и выводы главы 285-286

6. Техническая реализация разработанных алгоритмов обработки речевых данных при их хранении и передаче с минимизацией требуемых ресурсов итс 287-308 ї

6.1 Техническая реализация алгоритма минимизации объемов битовых представлений речевых данных на основе обнаружения и кодирования пауз между звуками слитно произносимой речи с применением решающей функции, обладающей максимальной чувствительностью к наличию в отдельных частотных интервалах энергии, обусловленной звуками речи 287-294

6.2 Техническая реализация алгоритма минимизации объемов битовых представлений речевых данных за счет обнаружения и кодирования пауз в условиях изменяющихся фоновых шумов на основе отображения пространства отрезков речевых сигналов на дискретное пространство заданных частотных интервалов 294-300

6.3 Техническая реализация алгоритма формирования канальных сигналов для систем цифровой передачи информации с частотным уплотнением, обеспечивающего при разделении каналов на основе оптимальной линейной субполосной фильтрации максимальную концентрацию энергии в заданной частотной полосе с точным восстановлением передаваемых данных при отсутствии помех 300-303

6.4 Техническая реализация алгоритма формирования широкополосных канальных сигналов на основе фазовой манипуляции ЛЧМ радиоимпульса по закону кодовой последовательности 304-306

6.5 Техническая реализация алгоритма формирования широкополосных канальных сигналов на основе временной манипуляции (по задержке) ЛЧМ радиоимпульсов по закону кодовой последовательности 306-308

6.6 Основные результаты и выводы главы 308

Заключение 309-312

Список использованных источников

Процедуры регистрации, хранения и передачи речевых данных с применением компьютерных средств
Разработка математических основ обработки речевых и канальных сигналов при хранении и передаче речевых данных в ИТС
Исследование характеристик решающей функции, обладающей максимальной чувствительностью к наличию в отдельных частотных интервалах энергии, обусловленной звуками речи
Вариационный метод формирования канальных сигналов для систем цифровой передачи информации с частотным уплотнением, обеспечивающий при разделении каналов на основе оптимальной линейной субполосной частотной фильтрации максимальную концентрацию энергии в заданной частотной полосе с точным восстановлением передаваемых данных при отсутствии помех

Введение к работе

Актуальность работы. Современный этап развития общества характеризуется увеличением в информационно-телекоммуникационных системах (ИТС) потоков речевых сообщений как наиболее естественной для человека формы информационного обмена. Интенсивный рост запросов от пользователей на объемы последнего порождает проблему повышения эффективности ИТС, одним из направлений решения которой является минимизация затрат их частотно-временных ресурсов на основе совершенствования методов обработки данных. Это связано с тем, что возможности роста затрат указанных ресурсов существующих ИТС, под которыми в рамках диссертационной работы понимаются ширина частотной полосы и время, доступные для передачи информации в определенной системе, ограничены физическими и техническими факторами, а также объемами финансовых затрат.

В настоящее время проблема минимизации затрат частотно-временных ресурсов ИТС на хранение и передачу речевых данных интенсивно исследуется. Необходимо отметить, что эта проблема носит системный характер, так как, с одной стороны, связана с уменьшением объемов битовых представлений речевых данных на основе учета структурной избыточности речевых сигналов с точки зрения восприятия слуховой системой человека речевой информации, а с другой -с минимизацией затрат частотно-временных ресурсов каналов связи, определяемых режимами передачи этого вида информации.

Большой вклад в решение проблемы минимизации затрат частотно-временных ресурсов ИТС при хранении и передаче речевых сообщений внесли многие ученые и инженеры, среди которых следует выделить Б.С. Атала, Б. Голда, Е.Г. Жилякова, Дж. Маркела, М.В. Назарова, Э. Оппенгейма, А.А. Пирогова, Ю.Н. Прохорова, Л. Р. Рабинера, Ч. Рейдера, В.Г. Санникова, М.А. Сапожкова, В.А. Свириденко, Р.В. Шафера, О.И. Шелухина, Д.В. Агеева, М.Д. Бенедиктова, Н. Винера, Дж. Возенкрафта, В.И. Долгова, А.Г. Зюко, В.А. Котельникова, Д.Д. Кловского, В.Ф. Кравченко, Б.Р. Левина, Н.Т. Петровича, А.А. Харкевича, А.Я. Хинчина, Л.М. Финка, К. Шеннона, В.П. Яковлева и других российских и зарубежных ученых.

В настоящее время созданы различные методы и алгоритмы обработки речевых и канальных сигналов, применение которых позволяет до определенной степени уменьшить затраты частотно-временных ресурсов существующих ИТС при хранении и передаче речевых данных.

1. Для уменьшения объемов битовых представлений речевых данных на основе учета структурной избыточности речевых сигналов с точки зрения восприятия слуховой системой человека речевой информации широко применяются методы, основанные на обнаружении и кодировании данных, зарегистрированных в периоды пауз между слитно произнесенными звуками речи (так называемые технологии VAD (voice active detection)), и сжатии данных, соответствующих собственно звукам речи после удаления пауз, которые не свободны от следующих основных недостатков:

существующие технологии VAD обладают низкой эффективностью, так как используемые в них решающие функции недостаточно чувствительны к наличию звуков речи;

сжатие данных, принадлежащих собственно звукам речи, с использованием грубого квантования по уровню осуществляется с учетом особенностей психоакустической модели и реализуется с помощью методов, которые не являются оптимальными в смысле достижения минимальных погрешностей аппроксимации в выбранных частотных диапазонах спектров исходных сигналов.

2. Современный уровень эффективности использования ИТС для передачи речевых данных является недостаточным, так как он обеспечивается на основе применения специальных методов разделения частотно-временных ресурсов каналов связи и соответствующих классов канальных сигналов, которые обладают следующими недостатками:

разделение канальных сигналов в системах передачи речевой информации с частотным уплотнением на основе применения фильтров с конечной импульсной характеристикой (КИХ-фильтров), из-за не прямоугольности их амплитудно-частотной характеристики (АЧХ) не оптимально в смысле достижения минимума «просачивания» энергии из соседних каналов, что приводит к необходимости расширения межканальной полосы частот для достижения приемлемого уровня их взаимного влияния, а это не позволяет достичь максимального использования выделенных частотных ресурсов;

современные методы формирования канальных сигналов с частотным уплотнением не позволяют эффективно использовать частотно-временные ресурсы ИТС, так как не обеспечивают максимальной концентрации энергии в выделенной полосе частот при заданной длительности сеанса связи;

в системах связи с подвижными объектами эффективность использования выделенного частотного и временного ресурсов также снижается и за счет того, что при большой неопределенности частоты, вызванной эффектом Допплера, и изменений времени прихода принимаемых сигналов для снижения взаимных помех приходится вводить защитные интервалы по частоте и времени;

при передаче речевых данных в режиме кодового разделения ресурсов каналов связи требуются большие временные затраты на подстройку частоты несущих колебаний при реализации информационного обмена с подвижными объектами, а также не удается минимизировать выделенные частотные ресурсы из-за эффекта Допплера.

Это не позволяет говорить об удовлетворительном решении проблемы минимизации затрат частотно-временных ресурсов ИТС при хранении и передаче речевых данных.

Таким образом, разработка новых методов и алгоритмов обработки речевых сигналов, формирования и приема канальных сигналов, позволяющих

минимизировать затраты частотно-временных ресурсов ИТС при хранении и передаче речевых данных, является актуальной проблемой.

Объект диссертационных исследований - информационно-телекоммуникационные системы и процессы обработки речевых и канальных сигналов.

Предмет диссертационных исследований - методы и алгоритмы обработки речевых и канальных сигналов, минимизирующих затраты частотно-временных ресурсов ИТС при хранении и передаче речевых данных.

Целью работы является: повышение эффективности использования ИТС при хранении и передаче речевых данных на основе разработки минимизирующих затраты их частотно-временных ресурсов вариационных методов субполосной обработки речевых и канальных сигналов.

Для достижения поставленной цели были сформулированы и решены следующие основные задачи.

1. Разработка и исследование оптимальных методов и алгоритмов
обработки речевых сигналов на основе субполосных представлений в задачах
сжатия речевых данных.

Разработка и исследование математических основ оптимального субполосного анализа речевых сигналов.
Разработка и исследование методов обнаружения и кодирования речевых данных, принадлежащих паузам, между звуками слитно произнесенной русской речи, на основе учета различий в распределениях долей энергий по частотным интервалам выходных сигналов микрофона при речевых воздействиях и в паузах между ними.
Разработка и исследование методов уменьшения объемов битовых представлений данных об отрезках речевых сигналов, порождаемых звуками русской речи на основе квантования по уровню коэффициентов разложения по собственным векторам субполосных матриц из ^-информационных частотных интервалов с применением кодовых книг квазиоптимальных квантователей.

2. Разработка и исследование методов формирования и приема канальных
сигналов, минимизирующих затраты частотно-временных ресурсов ИТС при
передаче речевых данных.

Разработка и исследование методов и алгоритмов оптимального анализа и синтеза канальных сигналов для систем передачи речевой информации в режиме разделения частотно-временного ресурса ИТС.
Разработка методов и алгоритмов формирования и приема широкополосных шумоподобных канальных сигналов (ШШКС), минимизирующих затраты частотно-временных ресурсов ИТС при большой неопределенности частоты, вызванной эффектом Доплера, и изменениях времени прихода принимаемых сигналов.

3. Разработка технических решений, позволяющих реализовать на основе
применения элементов цифровой вычислительной техники созданные алгоритмы
обработки речевых и канальных сигналов, минимизирующие затраты частотно-
временных ресурсов ИТС при хранении и передаче речевых данных.

Методы и средства исследований. При решении указанных задач использовались методы теории преобразования Фурье, оптимизации, линейной алгебры и теории матриц, теории информации, теории вероятности и математической статистики, теории сигналов, включая цифровые методы их формирования и обработки, вычислительный эксперимент.

Степень достоверности результатов проведенных исследований обеспечивается корректностью проведенных математических преобразований, непротиворечивостью сформированных положений и выводов исследования установленным ранее фактам теории и практики построения ИТС и повышения их эффективности при реализации речевого информационного обмена, а также подтверждается многочисленными вычислительными экспериментами с речевыми и канальными сигналами.

Научную новизну составляют следующие результаты.

Теоретические основы минимизации затрат частотно-временных ресурсов ИТС при хранении и передаче речевых данных, созданные на основе математического аппарата собственных функций субполосных ядер, включая:

метод обработки речевых данных на основе обнаружения и кодирования пауз между звуками слитно произносимой речи с применением решающей функции, обладающей максимальной чувствительностью к наличию в отдельных частотных интервалах энергии, обусловленной звуками речи, что позволяет достичь максимальных степеней сжатия данных при сохранении высокого качества воспроизведения речевых сообщений;

метод сжатия речевых данных на основе обнаружения и кодирования пауз в условиях изменяющихся фоновых шумов путем отображения пространства отрезков речевых сигналов на дискретное пространство заданных частотных интервалов;

метод сжатия речевых данных с исключенными паузами на основе квантования по уровню коэффициентов разложения отрезков речевых сигналов по собственным векторам субполосных матриц из т-информационных частотных интервалов с применением кодовых книг квазиоптимальных квантователей;

интерполяционный метод формирования канальных сигналов с максимальной концентрацией энергии в изменяющейся частотной полосе ограниченных размеров и точным восстановлением передаваемых данных при отсутствии помех;

вариационный метод формирования канальных сигналов для систем цифровой передачи информации с частотным уплотнением, обеспечивающий при разделении каналов на основе оптимальной линейной субполосной частотной фильтрации максимальную концентрацию энергии в заданной частотной полосе и точным восстановлением передаваемых данных при отсутствии помех;

метод восстановления канальных сигналов для систем цифровой передачи с частотным уплотнением на основе оптимальной линейной субполосной частотной фильтрации, позволяющий в отличие от

используемой для этих целей КИХ-фильтрации исключить влияние смежных каналов передачи;

методы формирования и обработки ШШКС для систем цифровой передачи с кодовым разделением адресов, обладающих по сравнению с существующими аналогичными классами канальных сигналов значительно большим объемом слабокоррелированных форм и свойством инвариантности к допплеровскому рассогласованию по частоте, что позволяет минимизировать затраты частотно-временных ресурсов ИТС при связи между подвижными объектами за счет эффективного использования выделенной частотной полосы и обеспечения одновременного информационного обмена для большего количества абонентов.

Практическая значимость результатов исследований определяется возможностью повышения эффективности ИТС при хранении и передаче речевых данных на основе минимизации затрат их частотно-временных ресурсов с помощью разработанных методов и алгоритмов обработки речевых и канальных сигналов с применением предлагаемых технических решений.

Реализация результатов исследования осуществлена: в Белгородском филиале ОАО «РосТелеком», в ОАО «Концерн Созвездие», в НЛП «СпецРадио», в учебном процессе факультета компьютерных наук и телекоммуникаций НИУ «БелГУ» при подготовке специалистов по направлению инфокоммуникационные технологии и системы связи. Внедрения подтверждаются соответствующими документами. Связь с научными и инновационными программами. Результаты диссертационных исследований были использованы при выполнении ряда проектов в рамках следующих программ фундаментальных, поисковых и инновационных исследований:

аналитической ведомственной целевой программы федерального агентства по образованию РФ «Развитие научного потенциала высшей школы в 2006 - 2008 гг.», проект РНП 2.1.2.4974;

федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России, 2007 - 2012 гг.», поисковые исследования в рамках Госконтракта от 26 февраля 2007 года № 02514114010;

аналитической ведомственной целевой программы федерального агентства по образованию РФ «Развитие научного потенциала высшей школы в 2009 - 2011 гг.», проект 656;

федеральной целевой программы «Научные и научно-педагогические кадры инновационной России на 2009 - 2013 годы», Государственный контракт №П964от27мая2010г;

гранта РФФИ, проект №10-07-00326-а, 2009 - 2010 гг.;

федеральной целевой программы «Научные и научно-педагогические
кадры инновационной России на 2009 - 2013 годы», Государственный контракт
№ 14.740.11.0390, 2011 - 2012 гг.;

гранта РФФИ, проект № 12-07-00514-а, 2012 - 2014 гг.

Положения, выносимые на защиту.

1. Теоретические положения, совокупность которых является вкладом в
развитие перспективного направления - создание методов обработки речевых и
канальных сигналов, повышающих эффективность использования частотно-
временных ресурсов ИТС при хранении и передаче речевых данных.

1.1. Аппарат собственных функций субполосных ядер, на основе которого
адекватно сформулированы вариационные условия и решены следующие
оптимизационные задачи обработки и передачи речевых данных.

вычислений точных значений долей энергий сигналов в заданных частотных интервалах;

наилучшей аппроксимации отрезков трансформант Фурье сигналов в заданных частотных интервалах;

построения решающей функции максимальной чувствительности при обнаружении и кодировании пауз в речи;

формирования и обработки канальных сигналов с максимальной концентрацией энергии в заданной частотной полосе при точном восстановлении передаваемых данных;

формирования ШШКС с минимизацией времени на их обнаружение и синхронизацию на приемной стороне и выделяемой частотной полосы для каждого абонента при реализации связи между подвижными объектами.

Методы сжатия речевых данных на основе оптимального обнаружения и кодирования пауз и квантования по уровню коэффициентов разложения отрезков сигналов, принадлежащих собственно звукам речи, по собственным векторам субполосных матриц из ^-информационных частотных интервалов с применением кодовых книг квазиоптимальных квантователей.
Методы формирования и обработки канальных сигналов, оптимальных в смысле минимизации требующейся для передачи ширины частотной полосы с точным восстановлением передаваемых данных при отсутствии помех.
Методы формирования ШШКС для передачи речевых данных с кодовым разделением ресурсов ИТС, позволяющие минимизировать время на их обнаружение и синхронизацию на приемной стороне и выделяемую частотную полосу для каждого абонента при реализации связи между подвижными объектами.

Алгоритмы, реализующие разработанные методы обработки речевых и канальных сигналов при хранении и передаче речевых данных.
Результаты вычислительных экспериментов по исследованию разработанных алгоритмов обработки речевых и канальных сигналов, иллюстрирующие их преимущества при хранении и передаче речевых данных по сравнению с используемыми в настоящее время.

4.Технические решения, позволяющие реализовать созданные алгоритмы обработки речевых и канальных сигналов на основе средств цифровой вычислительной техники.

Специальность, которой соответствует диссертация.

Процедуры регистрации, хранения и передачи речевых данных с применением компьютерных средств

Таким образом, существует реальная необходимость осуществить разработку эффективных методов и алгоритмов сжатия речевых данных для минимизации затрат частотно-временных ресурсов ИТС при их хранении и передачи. При передаче сжатых речевых данных минимизация затрат частотно временных ресурсов ИТС сегодня в основном решается на основе применения методов, которые базируются на принципах формирования канальных сигналов с различными видами манипуляции, позволяющими в определенной степени сузить занимаемую полосу частот или повысить помехоустойчивость их приема [34-35,50-52,54-55,59,65,75,82-83,108,112,133,146,147-148,153 154,159,178,104,253-254,260,266,271,272,232]. Например, в системах мобильной связи GSM передача речевых сообщений осуществляется посредством применения канальных сигналов с GMSK манипуляцией (Gaussian Minimum Shift Keying) [50,59,75,108,112,148,235,272]. Эта гауссовская двухпозиционная частотная манипуляция с минимальным сдвигом обладает двумя особенностями, одна из которых - "минимальный сдвиг", Другая - гауссовский вид огибающей модулирующего символа. Обе особенности направлены на сужение полосы частот, занимаемой GMSK-сигналом в канале радиосвязи. Однако эти модификации приводят к тому, что помехоустойчивость у таких сигналов не велика.

Методы передачи, обладающие высокой помехоустойчивостью (BPSK-двоичная фазовая манипуляция) как правило, занимают довольно широкую частотную полосу, что приводит к нерациональному использованию выделенных частотных ресурсов канала связи и, как следствие, к возникновению специфических видов помех, которые принято называть интерференционными [48,54,59,146,148,107,118,120,181,200,213,222,233]. Для уменьшения влияния этого типа помех на достоверность принимаемой информации приходится вводить защитные частотные или временные интервалы между соседними каналами связи, что также снижает эффективность использования имеющихся частотно-временных ресурсов ИТС.

Вместе с тем, применение новой разработки - технологии ортогонального частотного уплотнения (OFDM), в последнем поколении систем беспроводного широкополосного доступа (WiMAX), позволило обеспечить достаточно низкий уровень интерференционных помех и тем самым уменьшить защитные частотные интервалы (полосы) между соседними каналами [35,50-52, 75,108,112,210, 235,253-254,260,266,271,272,274,281]. Однако минимизировать уровень этого вида помех при использовании указанной технологии для передачи информации не представляется возможным из-за применения в качестве канальных сигнальных конструкций ортогональных базисов с прямоугольной формой модулирующего импульса.

Все рассмотренные выше классические методы узкополосной модуляции разработаны с целью достижения максимальной спектральной эффективности, т. е. передачи информации с возможно большей скоростью в возможно более узкой полосе частот [59]. Проблема заключается в том, что с увеличением числа пользователей количество каналов, выделенных для связи, должно возрастать. В то же время, как было указано выше, общий частотный ресурс ИТС является ограниченной величиной, и, более того, невозможно бесконечно уменьшать полосу частот, в которой осуществляется передача информации [59]. В системах связи с простыми сигналами эффективность использования выделенного частотного ресурса дополнительно снижается за счет того, что при большой неопределенности частоты, вызванной эффектом Допплера, и изменениях времени прихода принимаемых сигналов для снижения взаимных помех приходится вводить защитные интервалы по частоте [55].

Одним из методов, позволяющим кардинально увеличить число пользователей при ограниченном частотном ресурсе ИТС, является использование модулированных сигналов с расширенным спектром, иначе называемых сигналами с шумоподобным спектром или широкополосными шумоподобными канальными сигналами (ШШКС) [55,59,64,82,181,200,233,42-44,109,177,215,219,233,238]. Основная идея применения сигналов с расширенным . спектром заключается в том, чтобы вместо узкополосного модулированного сигнала, осуществляющего передачу информации в выделенном ограниченном участке спектра, использовать сигнал с расширенным спектром, занимающим весь выделенный для системы связи участок спектра [59]. Но при этом значительное количество пользователей могут одновременно использовать выделенную полосу частот. Для разделения пользователей, работающих одновременно в одной и той же полосе частот, применяется расширение спектра цифрового модулирующего сигнала (а значит, и высокочастотного сигнала) с помощью специальной кодовой последовательности. Каждому пользователю назначается персональная кодовая последовательность для расширения спектра, которая и позволяет абонентам выделять из совокупности принимаемых реализаций ШШКС только предназначенный им сигнал. Поскольку общее количество кодов может быть очень велико, то и количество пользователей в выделенной полосе частот может быть значительно больше, чем при разбиении выделенной полосы частот на отдельные подканалы [59,200].

В настоящее время при построении современных ИТС широко применяются ШШКС сформированные посредством модуляции по фазе гармонического несущего колебания по закону изменения псевдослучайной кодирующей последовательности (ФМ ПСП) [42-44,55,109,119,177,200,215,233, 238], которые хотя и реализуют в определенной степени все указанные преимущества сложных сигналов, однако при их использовании, особенно при передаче информации в системах мобильной или спутниковой связи возникает необходимость устранения неопределенности по частоте, что приводит к дополнительному увеличению времени поиска и синхронизации, а также к значительному усложнению аппаратуры их обработки.

Разработка математических основ обработки речевых и канальных сигналов при хранении и передаче речевых данных в ИТС

С другой стороны, минимальную величину р можно найти, изучив процесс формирования звуков в речевом тракте. Для адекватного представления речевого тракта [236] необходимо учитывать выборки на временном интервале, по крайней мере, в 2 раза большем, чем время распространения звуковой волны от голосовых связок до губ. Если принять это расстояние равным 17 см, а скорость звуковой волны 340 м/с, получим временной интервал 1 мс. При частоте выборок 8 кГц получим /?min=8. Для более качественного предсказания следует увеличивать/? до 10-н12, однако при этом возрастает объем вычислений при определении ар и число отсчетов анализируемого отрезка речевого сигнала, которых должно быть, по крайней мере, в 10-f20 раз больше р.

Здесь также целесообразно отметить, что в связи с нестационарностью речевых сигналов, значительно меньших значений среднеквадратичной погрешности предсказания можно достичь, если параметры {ак} предсказывающего фильтра адаптивно изменять во времени в соответствии с уровнями формант речи [279].

При анализе речевых сигналов методом линейного предсказания с использованием модели, содержащей только полюсы, в силу особенностей данного метода, как средства спектрального анализа, результирующий спектр определяется в основном огибающей спектра речи и в модели с небольшим числом полюсов не зависит от тонкой структуры речи [179]. В тоже время, в случае необходимости исследования тонкой структуры спектра, целесообразно применять модель с нулями, так как она очень чувствительна к этой структуре. Кроме этого, данную модель удобно использовать при анализе назальных звуков, когда имеют место нули передаточной функции вследствие влияния носовой полости на образование звука. Для уменьшения ошибки принятия значений амплитуд спектра между гармониками основного тона, стремящихся к нулю, за нули спектра, важно перед проведением анализа речевой сигнал подвергнуть инверсной свертке. Наиболее широко для этой цели применяется метод инверсной фильтрации, основанный на линейном предсказании с применением математической модели, передаточная функция которой содержит только полюса. Если огибающая спектра речи содержит и полюсы и нули, то порядок передаточной функции, содержащий только полюсы, должен быть очень высоким, так как нули также приходится аппроксимировать с помощью полюсов. В результате анализа с применением модели высокого порядка получается аппроксимация импульсного отклика голосового тракта, или, другими словами, огибающая спектра речи, которую можно представить с помощью модели меньшего порядка с передаточной функцией, имеющей полюсы и нули.

Таким образом, используемые в настоящее время подходы к анализу и синтезу речевых сигналов основываются на частотных представлениях с применением традиционных методов преобразования Фурье, что позволяет выявлять такие их свойства, которые в первоначальном виде скрыты или по крайней мере не очевидны [184]. Однако эти методы до определенной степени себя исчерпали, так как не позволяют строить более совершенные и оптимальные процедуры обработки сигналов [93]. При рассмотрении вопросов генерации речевых сигналов наиболее часто используют модели линейного предсказания, которые позволяют осуществлять анализ речевого сигнала с последующим его синтезом, что является важным при создании систем, предназначенных для сжатия речевых сигналов при их хранении и передаче. Однако, необходимо отметить, что для достаточно уверенной оценки параметров таких моделей необходимо иметь не меньше 200-300 отсчетов речевого сигнала, что не всегда является приемлемым, особенно при функционировании систем в реальном масштабе времени. Кроме этого, наряду с ухудшением разборчивости воспроизводимой речи существенно искажается тембр и другие характеристики, что неприемлемо для качественного воспроизведения звукозаписей и аудиоконференций.

Проведенный анализ показал, что общим для всех применяемых моделей речевых сигналов является отражение свойства концентрации его энергии в узких частотных интервалах, составляющих малую долю всей частотной полосы, равной Ц) /2. Модели восприятия звука слуховой системой человека

При разработке методов и алгоритмов минимизации затрат частотно-временных ресурсов ИТС при хранении и передаче речевых сигналов на основе уменьшения объемов битовых представлений данных об отрезках, соответствующим звукам слитно произнесенной речи, очень важно учитывать особенности реакции периферийных органов слуха на такого типа воздействия.

Исследование слуховой системы человека и восприятия ею звука осуществляется достаточно интенсивно. Сегодня существуют различные модели звуковосприятия, среди которых центральное место занимает психоакустическая модель, которая позволяет установить способности слуховой системы воспринимать и преобразовывать в определенные слуховые ощущения (громкость, высоту, тембр и др.) основные объективные параметры звукового сигнала, такие, как интенсивность звука и пределы ее изменения (динамический диапазон), частотный диапазон, временные характеристики и т.д.[264].

Исследование характеристик решающей функции, обладающей максимальной чувствительностью к наличию в отдельных частотных интервалах энергии, обусловленной звуками речи

Причиной такой популярности ДПФ является наличие быстрого алгоритма вычислений правой части определения (2.17), так называемого быстрого преобразования Фурье (БПФ), который наиболее эффективен в вычислительном отношении, когда количество обрабатываемых отсчетов является степенью двойки [161,183-184,204,232].

Вместе с тем заметим, что дискретизация частотной оси при ДПФ приводит к потери информации, которая не позволяет точно вычислить значение долей энергии вида (2.15) и адекватно решить проблему отображения отрезков сигналов на дискретное пространство распределения долей (частей) их энергий в заданных частотных интервалах. Точное решение этой проблемы предлагается в параграфе 2.3.

В первой главе отмечалось, что одной из проблем цифровой обработки речевых сигналов является выбор интервала их дискретизации, от величины которого, в соответствии с теорией Найквиста, зависит уровень отличий трансформанты Фурье дискретной последовательности отсчетов от трансформанты Фурье непрерывного отрезка вида (2.4). Отметим, что указанные отличия определяются степенью сосредоточенности энергий дискретизуемых сигналов в частотном интервале вида (2.22).

Следует иметь в виду, что сосредоточенность энергии отрезков непрерывных сигналов во многом зависит от их длительности. В, частности, можно доказать [226] справедливость соотношения: Из соотношения (2.24) следует, что даже в рассматриваемом случае, область определения трансформанты Фурье отрезка непрерывного сигнала будет неограниченна. Вместе с тем, как следует из теории Найквиста, необходимо обеспечить малый уровень энергии отрезка непрерывного сигнала вне диапазона частот, определяемого правой частью соотношения (2.22). Это условие можно выразить следующим образом: 1- J F(x)2 fe//2 , (2.25) где є определяет уровень отличий трансформант Фурье, который должен быть достаточно мал, чтобы по результатам анализа дискретных отсчетов можно было с высокой достоверностью судить о свойствах соответствующего отрезка непрерывного сигнала.

Таким образом, необходимость вычисления правой части соотношения (2.25) диктуется также задачей выбора интервала дискретизации.

Необходимо заметить, что при не возможности использования интервала дискретизации, удовлетворяющему условию (2.25) при выбранном уровне Е часто перед дискретизацией из отрезка сигнала удаляется энергия, не попадающая в частотный интервал вида (2.22). Это осуществляется на основе так называемой частотной фильтрации, которая должна приводить к отрезку сигнала f,(t), с трансформантой Фурье: F me- dt (2.26) о в идеализированном случае удовлетворяющей требованию [0,o)[-7T/At,7r/At] Следует отметить, что частотная фильтрация является одним из основных инструментов анализа отрезков речевых сигналов, так как позволяет выделить характерные для них так называемые квазициклические компоненты, которые проявляются в виде повышенной концентрации энергии в определенных достаточно узких частотных интервалах. При этом в идеализированном случае должно обеспечиваться условие, обобщающее (2.27) F ) = \Q,coeClk (2 28) где Qt-определяется соотношением вида (2.8). В настоящее время наиболее часто используются нерекурсивные фильтры с конечной импульсной характеристикой (КИХ- фильтры), реализующие частотную фильтрацию на основе свертки [6,37,41,69-71,78,116,121-123,140,166,185,194-195,198-199,232] м /„=2 /- . = и#, (2-29) где /zt-конечная импульсная характеристика фильтра длительностью М (апертурой). Импульсная характеристика рассчитывается, исходя из требования для амплитудно-частотной характеристики (АЧХ) КИХ - фильтра Н{а ) \: м #( ») = hkexp[-jmAt(k-l)] (2.30) наилучшей аппроксимации идеализированного соотношения: іадИ Л (2.31)

Следует отметить, что конечность импульсной характеристики не позволяет в точности выполнить это требование. Как следствие, АЧХ КИХ -фильтров имеют пульсации как в полосе пропускания, так и в полосе задержки между которыми располагаются так называемые переходные полосы. Эти эффекты проявляются тем сильнее, чем короче импульсная характеристика КИХ - фильтра.

Наличие переходных полос проявляется в просачивании энергии в полосу пропускания из полосы задержки, что может сильно сказываться на характеристиках выходной последовательности. Вместе с тем, для анализа свойств речевых сигналов важно адекватно оценивать компоненты, определяемые энергией только в выбранном частотном интервале, что отражает идеальное требование (2.28). Ясно, однако, что наилучшая аппроксимация требования (2.31) не означает достижения наилучшей аппроксимации (2.28). Поэтому необходимо разработать метод фильтрации, удовлетворяющий сформулированным выше требованиям получения компоненты, определяемой только энергией в заданном частотном интервале.

Наиболее широко применяемые методы сжатия речевых данных базируются на использовании результатов преобразования Фурье, которые подвергаются затем анализу с точки зрения оценки их относительной значимости для восстановления исходных речевых сообщений после удаления компонент, признанных незначимыми [56-57,121-123,125-126].

Вместе с тем, наличие в речевом сигнале квазициклических компонент проявляется в необходимости сохранения информации о трансформанте Фурье в одном или нескольких сплошных частотных интервалах конечной ширины, которые определяются длительностью обрабатываемого отрезка. Следовательно необходимо иметь математический аппарат, позволяющий аппроксимировать отрезки трансформант Фурье исходного сигнала в заданных частотных интервалах в виде линейной комбинации

Вариационный метод формирования канальных сигналов для систем цифровой передачи информации с частотным уплотнением, обеспечивающий при разделении каналов на основе оптимальной линейной субполосной частотной фильтрации максимальную концентрацию энергии в заданной частотной полосе с точным восстановлением передаваемых данных при отсутствии помех

Проблема уменьшения объемов битовых представлений речевых данных при их хранении и передаче рассматривается в работах многих авторов, особенно специалистов в области телекоммуникаций, что подтверждается результатами анализа научно-технической литературы [196,198,209,236-237].

При этом отмечаются два основных аспекта: необходимость обнаружения с последующим их кодированием пауз, возникающих между отдельными словами и в режиме диалога занимающих до 60% длительности исходных звукозаписей, и сокращение объемов битовых представлений собственно звуковых данных.

Уменьшение объемов битовых представлений речевых данных за счет обнаружения с последующим кодированием пауз заключается в определении интервала, на котором отсутствуют звуки речи, фиксации начала этого интервала и его длительности. Кроме этого, при распаковке сжатых речевых данных для воспроизведения речи с комфортным звучанием необходимо знать некоторые параметры этого интервала, например, значения математического ожидания и наименьшего среднеквадратичного отклонения [11]. Очевидно, что длительность пауз между словами, фразами зависит от дикторов. Кроме того, известно [40,110,156,191-192,217-218], что речь состоит из фонем перемежающихся паузами, которые так же целесообразно кодировать. При реализации этого подхода к уменьшению объемов битового представления речевых данных при их хранении и передаче возникает необходимость построения решающей процедуры, позволяющей на основе предварительно (при отсутствии звуков речи) оцененных вероятностных характеристик последовательностей данных в паузе (шумов) определить является ли анализируемый отрезок порождением шума или содержит аддитивную смесь сигнал + шум. Применяемые (в основном в телекоммуникациях) в настоящее время решающие процедуры обнаружения пауз основываются на использовании так называемых фильтров линейного предсказания [40,67,128-129,27,150,158,164,182-184,196,198,236-237,256]. Среди несовершенств такого подхода можно выделить: принципиальную невозможность построения фильтра линейного предсказания конечного порядка для «белого» шума; наличие в решающей функции «мертвых зон», когда изменение одних параметров компенсируется изменениями других; возможное совпадение максимумов энергетических спектров шума и звука, что приводит к совместному их подавлению и ошибочному отнесению анализируемого участка к паузе и т.д. [168]. Можно указать и другие особенности использования фильтров линейного предсказания, которые для повышения достоверности принятия решения о наличии паузы приводят к необходимости анализа достаточно больших отрезков (до 0,6 с), что не позволяет достигать максимального сжатия данных.

Для сжатия участков звуковых данных тоже разработаны различные процедуры, основой которых служат необратимые преобразования исходных данных либо за счет более грубого квантования по уровню, либо путем построения моделей генерации, позволяющих осуществить их воспроизведение (вокодеры). Наибольшей степени сжатия удается достичь в случае применения вокодеров. Однако, при этом, наряду с разборчивостью воспроизводимой речи существенно искажается тембр и другие характеристики, что неприемлемо для качественного воспроизведения звукозаписей и аудиоконференций.

Существующие методы сжатия звуковых данных с использованием грубого квантования по уровню основываются на психоакустической модели, что приводит к необходимости применения так называемых субполосных преобразований отрезков (векторов) отсчетов речевых сигналов, позволяющих получить другие векторы, подвекторы которых отражают частотные свойства исходного вектора в выбранных диапазонах оси частот. Именно компоненты этих подвекторов подвергаются квантованию по уровню с различными шагами, чем достигается учет частотно-избирательных свойств человеческого слуха.

В настоящее время для субполосного преобразования принято использовать процедуру прореживания выходных последовательностей КИХ-фильтров (фильтров с конечной импульсной характеристикой), настроенных на соответствующие участки оси частот. После квантования этих данных по уровню они могут либо сохраняться, либо подвергаться статистическому обратимому кодированию для достижения большей степени сжатия. Восстановление исходных данных для воспроизведения речи принято осуществлять с использованием специально рассчитанных КИХ-фильтров.

Не вдаваясь в подробности, можно отметить, что такая процедура субполосного преобразования не является оптимальной в смысле минимума погрешностей аппроксимации спектров исходных векторов в выбранных частотных диапазонах, что приводит к увеличению погрешностей восстановления данных по квантованным значениям и, как следствие, к ухудшению качества воспроизводимой речи.

Речь, как было отмечено в первой главе, представляет собой колебания сложной формы, зависящей от произносимых слов, тембра голоса, интонации, пола и возраста говорящего. Проведенный в работе анализ тонкой структуры распределения энергий отрезков речевых сигналов по сетке частотных интервалов, состоящих из звуков речи и пауз, с применением для этих целей метода отображения пространства отрезков исходных речевых сигналов на дискретное пространство частотных интервалов, описанного в главе 2, позволил установить, что характеристическим свойством отрезков сигналов, порождаемых звуками речи или паузами, является существенное различие в распределении их энергий по сетке частотных интервалов, что явилось основой для разработки методов уменьшения объемов битового представления речевых данных, за счет обнаружения и кодирования пауз.

Эффективность предлагаемого метода в значительной степени зависит от достоверности определения отсутствия в анализируемом отрезке речевого сигнала энергий, обусловленных наличием речевых компонент (шумы регистрирующих приборов в паузах). Вместе с тем заметим, что в зависимости от длительности обрабатываемого отрезка сигнала и выбранного количества частотных интервалов, в которых осуществляются вычисления значений отображений пространства отрезков исходных речевых сигналов на дискретное пространство распределения долей их энергий, правильность принятия решения о принадлежности анализируемого участка к звукам речи (т-информационные частотные интервалы) или порожденному шумами регистрирующих приборов в паузах (неинформационные частотные интервалы) может существенно меняться [16]. В связи с этим очень важным является выбор решающей функции, позволяющей минимизировать вероятность ошибочного принятия решения.

Методы и алгоритмы повышения эффективности информационно-телекоммуникационных систем при хранении и передаче речевых данных Белов, Сергей Павлович

Процедуры регистрации, хранения и передачи речевых данных с применением компьютерных средств

Разработка математических основ обработки речевых и канальных сигналов при хранении и передаче речевых данных в ИТС

Похожие диссертации на Методы и алгоритмы повышения эффективности информационно-телекоммуникационных систем при хранении и передаче речевых данных