Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Адаптивные методы цифровой обработки речевых и тональных сигналов в задачах обнаружения и распознавания Кузнецов Михаил Владимирович

Адаптивные методы цифровой обработки речевых и тональных сигналов в задачах обнаружения и распознавания
<
Адаптивные методы цифровой обработки речевых и тональных сигналов в задачах обнаружения и распознавания Адаптивные методы цифровой обработки речевых и тональных сигналов в задачах обнаружения и распознавания Адаптивные методы цифровой обработки речевых и тональных сигналов в задачах обнаружения и распознавания Адаптивные методы цифровой обработки речевых и тональных сигналов в задачах обнаружения и распознавания Адаптивные методы цифровой обработки речевых и тональных сигналов в задачах обнаружения и распознавания
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Кузнецов Михаил Владимирович. Адаптивные методы цифровой обработки речевых и тональных сигналов в задачах обнаружения и распознавания : Дис. ... канд. техн. наук : 05.12.13 : Самара, 2003 152 c. РГБ ОД, 61:04-5/1423

Содержание к диссертации

Введение

1. Общая характеристика проблемы распознавания объектов и явлений 19

1.1. Качественное описание задачи распознавания 19

1.2. Основные задачи построения систем распознавания 23

1.3. Классификация систем распознавания 32

1.4. Различение и распознавание речи, музыки и тональной сигнализации 43

1.5 Выводы 47

2. Адаптивная цифровая обработка тональных сигналов в групповых приёмниках многочастотного кода (ПМК) 48

2.1. Задача обнаружения гармонической сигнализации в составе импульсных случайных потоков в системах цифровой телефонной связи 48

2.2. ПМК с адаптивной дельта-модуляцией (АДМ) 53

2.3. ПМК с адаптивной дифференциальной импульсно - кодовой модуляцией (АДИКМ) 64

2.4. ПМК с нелинейной импульсно-кодовой модуляцией 74

2.5. Выводы 81

3. Исследование способов повышения эффективности использования системы связи за счёт распознавания формы сигнала 83

3.1. Простой метод сжатия речевых сигналов 83

3.2. Алгоритм распознавания изолированных слов 92

3.3. Выводы 105

4. Адаптивные методы распознавания речевых, музыкальных и гармонических сигналов 107

4.1. Адаптивный метод распознавания сигналов одно- и двухчастотной сигнализации в телефонии на фоне речи 107

4.1.1. Оценка законов распределения интервалов между нулями гармонических и речевых сигналов 110

4.1.2. Результаты испытаний ПЛС с нелинейной цифровой фильтрацией 119

4.2. Статистическое уплотнение канала связи за счет адаптации частоты дискретизации к ширине спектра передаваемого сигнала 120

4.3. Выводы 141

Заключение 142

Список использованных источников 144

Приложения

Введение к работе

I g^ ry? .

Диссертация посвящена разработке алгоритмов функционирования адаптивных устройств цифровой обработки сигналов в условиях априорной неопределённости статистических параметров каналов связи, сигналов и помех, а также оценке эффективности устройств, реализующих найденные алгоритмы.

Актуальность темы. При решении ряда практических задач обнаружения и распознавания цифровых сигналов в телефонии часто приходится встречаться с априорной неопределённостью каналов связи, статистических параметров сигнала и помех. В условиях недостатка априорной информации затруднительно отдать предпочтение каким либо фиксированным алгоритмам обработки сигналов, оптимальным для всех случаев. Большой диапазон неопределённости значений параметров сигналов и помех приводит к недопустимым потерям качества алгоритмов обработки, рассчитанных на полностью известные статистические характеристики сигналов и помех. Этим объясняется интерес разработчиков к созданию адаптивных устройств, способных эффективно преодолевать значительную начальную неопределённость. Такие устройства находят в настоящее время широкое практическое применение в цифровой электросвязи, медицине, радиолокации и других областях. Примерами их использования в отечественных разработках могут служить БИС адаптивных кодеков в перспективных системах цифровой передачи речи на основе адаптивной дифференциальной импульсно-кодовой (АДИКМ) и адаптивной дельта-модуляции (АДМ), разработанных В.Г. Угером, В.М. Штейном (ЦНИИС, г.Москва), М.Д. Бенедиктовым (МТУСИ, г.Москва) и др.

Многие задачи обнаружения и различения случайных и детерминированных сигналов на фоне помех с неизвестными априорно статистическими характеристиками приводят к построению устройств, адаптирующихся к наиболее информативным параметрам: числу пересечений заданного уровня за фиксированное время, распределению длительностей выбросов и пауз между ними, распределению времени пребывания сигнала в заданных границах и т.д. Таковы задачи распознавания речи, обнаружения тональной сигнализации на фоне речи в телефонии, измерения частоты сигнала на фоне помех, а также ряд других.

Разработка цифровых систем передачи непрерывных сообщений основывалась на теоретических работах В.А. Котельникова, К. Шеннона, А.А. Харкевича, А.И. Величкина, Д.Д. Кловского, Л.Р. Рабинера, Р.В. Шафера и других.

Существенный вклад в теорию и технику цифровых систем передачи непрерывных сообщений внесли работы В.Р. Беннета, М.У. Поляка, Ю.А. Алексеева, Ю.Н. Прохорова, В.Г. Угера, В.Э. Гуревича, И.С. Брайниной и других.

РОС НАЦИОНАЛЬНАЯ^

"SgZttt.

о» .„,...,

В известных алгоритмах обработки сигналов в основном используются спектральные характеристики на основе быстрого преобразования Фурье (БПФ), что требует значительных вычислительных затрат. Анализ временных параметров существенно упрощает обработку сигнала в реальном масштабе времени.

В задачах обнаружения тональной сигнализации в составе импульсных случайных потоков на основе нелинейной ИКМ, АДИКМ и АДМ в алгоритмах адаптации используется информация о форме многочастотного сигнала, что позволяет оптимизировать пороги приема и полосу пропускания приёмника для каждой из принимаемых частотных компонент. В настоящее время, в России, вновь вводимая цифровая сеть сопрягается с существующей аналоговой телефонной сетью. Наиболее ответственным и сложным звеном в оборудовании сопряжения является групповой цифровой приёмник многочастотного кода (ПМК) набора номера.

Рост потребности в полосе пропускания оптического волокна носит «лавинный» характер. Технологии ATM, IP, PDH, SDH (STM-16/64) уже не справляются с катастрофическим ростом объёмов передаваемой информации. Это заставляет разработчиков систем связи искать такие решения, которые имеют значительный запас по пропускной способности и позволяют гибко увеличивать производительность сети.

Алгоритм определения эффективной ширины спектра на основе анализа формы сигнала позволяет адаптивно подбирать оптимальную частоту дискретизации сигнала пропорционально ширине его спектра и осуществлять статистическое уплотнение канала связи. На примере широкополосного цифрового радиовещательного канала с частотой квантования 32 кГц (передача стереопрограммы или классической музыки) реализована возможность передачи двух каналов вещания (16 кГц) и четырёх речевых каналов тональной частоты (8 кГц).

Таким образом, актуальность предложенной диссертационной работы заключается в повышении эффективности систем и устройств электросвязи за счёт их адаптации к временным характеристикам сигналов и помех.

Целью диссертации является разработка алгоритмов функционирования адаптивных устройств цифровой обработки сигналов в условиях априорной неопределённости статистических параметров каналов связи, сигналов и помех, а также оценка эффективности устройств, реализующих найденные алгоритмы.

Методы исследований. Для решения поставленных задач в диссертационной работе используются: теория вероятностей, методы статистической теории связи, прикладная теория выбросов случайных процессов, методы цифровой обработки сигналов, спектральный и корреляционный анализ случайных процессов, нелинейная цифровая фильтрация, статистическое моделирование на ПК.

Научная новизна работы. В процессе работы получены следующие результаты:

Получены новые адаптивные алгоритмы обнаружения тональной

сигнализации в составе импульсных случайных потоков в системах

цифровой телефонии на основе ИКМ, адаптивной дельта-модуляции

(АДМ) и адаптивной дифференциальной ИКМ (АДИКМ).

Предложен новый метод распознавания тональной сигнализации в

телефонии на фоне речи, основанный на априорной информации о форме

сигнала.

Предложен простой и эффективный алгоритм сжатия речевого сигнала (до

30 раз) на временной основе для решения узкой задачи при крайне

ограниченных возможностях аппаратных средств.

Разработан метод распознавания изолированных слов, инвариантный к

темпу, громкости и тембру речи.

Предложен адаптивный метод определения ширины энергетического

широкополосного спектра случайного сигнала на временной основе.

Практическая ценность и реализация результатов работы. На основе новых алгоритмов обнаружения тональной сигнализации в составе импульсных случайных потоков в системах цифровой телефонии с ИКМ, АДИКМ и АДМ, разработаны помехоустойчивые адаптивные групповые приёмники двухчастотных сигналов набора номера в системах сопряжения существующих аналоговых АТС с цифровыми. Используя предложенный метод распознавания тональной сигнализации в телефонии на фоне речи, смоделирован на ПК и разработан адаптивный помехоустойчивый приёмник линейной одно- и двухчастотной сигнализации.

С помощью предложенного алгоритма сжатия речевого сигнала удалось добиться сжатия речевого сигнала (оті0 до 30 раз) на основе обработки сигнала во временной области. Области применения: цифровые системы хранения речевой информации; повышение скорости передачи сообщений по каналам связи; секретная связь, голосовая почта в сети интернет. Используя метод распознавания изолированных слов, инвариантный к темпу, громкости и тембру речи, можно организовать коммутацию голосом телефонной связи, ввод данных диктором в ПК или любую другую систему автоматики.

На основе предложенного адаптивного метода определения ширины энергетического спектра широкополосного случайного сигнала повышена эффективность системы связи (в 2ч-4 раза) путём статистического уплотнения широкополосного цифрового канала за счёт адаптации частоты квантования к ширине спектра передаваемого сигнала (речь/музыка). Система может быть использована в цифровом радиовещании.

Апробация работы. Основное содержание работы докладывалось и обсуждалось на:

Iе* Международной научно-технической конференции стран СНГ «Техника и технология связи» (Беларусь, Минск, 1999 г.);

3s* Международной научно-технической конференции «Цифровая обработка сигналов и ее применение» (Москва, 2000 г.);

- научно-технических конференциях ПГАТИ (Самара, 1998 - 2000 гг.).

Публикации. Основное содержание работы отражено в 13 печатных работах, включая б статей в научных изданиях, 3 тезисов докладов, получены 4 патента на изобретения. Все работы опубликованы до дня защиты.

Структура и объём работы. Диссертация состоит из введения, четырёх глав, заключения, списка литературы и приложений. Основная часть работы содержит 148 страниц машинописного текста, 35 рисунков и 11 таблиц, список литературы содержит 52 наименования.

На защиту выносятся:

алгоритмы работы помехоустойчивых приёмников двухчастотных сигналов набора номера в системах цифровой телефонии на основе нелинейной ИКМ, адаптивной дельта-модуляции (АДМ) и адаптивной дифференциальной ИКМ (АДИКМ);

адаптивный метод распознавания сигналов одно- и двухчастотной сигнализации в телефонии на фоне речи;

алгоритм сжатия речевого сигнала на временной основе;

метод распознавания изолированных слов;

методы определения ширины энергетического спектра случайного сигнала на временной основе для адаптивного подбора частоты дискретизации;

результаты моделирования и экспериментального исследования предложенных алгоритмов и устройств цифровой обработки сигналов.

Качественное описание задачи распознавания

Распознавание образов (объектов, сигналов, ситуаций, явлений или процессов) - едва ли не самая распространенная задача, которую человеку приходится решать практически ежесекундно от первого до последнего дня его существования. Для решения этой задачи человек использует огромные ресурсы своего мозга, включая одновременно около 7-8 млрд. нейронов. Именно это дает возможность людям мгновенно узнавать друг друга, с большой скоростью читать печатные и рукописные тексты, безошибочно водить автомобили в сложном потоке уличного движения, осуществлять отбраковку деталей на конвейере, дешифровать аэро- и космические фотоснимки, разгадывать коды, древнюю египетскую клинопись и т. д.

Распознавание образов - это научное направление, занимающееся разработкой принципов и созданием систем, предназначенных для определения принадлежности объекта к одному из ранее известных классов объектов. Под объектом при этом понимают различные предметы, явления, процессы, сигналы, ситуации. Каждый объект описывается совокупностью признаков (свойств, характеристик, параметров): А = аи о2,аь .... а„, где А - вектор образа; щ - признак; / - номер признака.

Если признаки представлены действительными числами, то можно образы векторов рассматривать как точки Л -мерного пространства.

Образ - это класс объектов. Он может быть задан с помощью некоторого набора различных реализаций, которую называют обучающей выборкой. Различие этих реализации зависит от многих причин: естественных флуктуаций параметров, шумов, погрешностей измерений и т.д. Те реализации образа, которые не участвовали в создании описания образа, называют контрольной выборкой.

Основные, традиционные задачи теории распознавания образов - это выбор информативных признаков, выбор решающих функций, предварительная классификация объектов (таксономия).

Выбор признаков в значительной степени зависит от качества распознавания. Из множества различных характеристик объектов (полученных непосредственными измерениями или какими-либо преобразованиями исходных описаний) надо выбрать наиболее существенные, которые позволяют достаточно компактно описать реализации образа и в то же время достаточно точно различать объекты [2].

Решающая функция должна позволять принимать решения отнесения контрольной реализации к одному из классов образов. При построении решающих функций необходимо учитывать закономерности описания образа, выявленные на обучающей выборке, кроме того, решающая функция должна отражать в себе некоторую гипотезу о характере изменения контрольных реализаций образов, которые будут поступать на вход системы в ее практической работе.

Задачей таксономии является выбор алфавита образов исходя из той или иной задачи обработки информации. Это могут быть, например, сегменты речевого сигнала, фонемы, целые слова. В геометрической интерпретации задача таксономии сводится к разбиению многомерного признакового пространства на определенное число областей.

Все три названные задачи тесно взаимосвязаны. Конечная цель состоит в увязке многих противоречивых требований к системе, например, минимальной стоимости и сложности системы при заданном допустимом проценте ошибок распознавания.

При выборе решающего правила используют понятия метрического пространства, метрики.

Метрическое пространство - это множество точек, на котором определена метрика. Метрика - правило определения того или иного расстояния между двумя точками А, В пространства - функция с1(А,В) с неотрицательными действительными значениями, удовлетворяющие условиям

Выбор вида метрики зависит от природы образов, от характера изменений признаков. Он должен обеспечивать изменение расстояния адекватное действительным различиям между реализациями образов. Эти собственные различия реализации могут быть оценены, например, методами психологических исследований на основе закономерностей человеческого восприятия. Окончательным критерием качества метрики при данной системе признаков является минимум числа ошибок распознавания контрольной выборки [3].

Распознавание представляет собой задачу преобразования входной информации, (в качестве которой уместно рассматривать некоторые параметры, признаки распознаваемых образов), в выходную, представляющих собой заключение о том, к какому классу относится распознаваемый образ [4].

Как уже говорилось выше, велики потребности в комплексной механизации и автоматизации производства, создания роботов, в широких масштабах необходимо решать задачи технической и медицинской диагностики, метрологического прогноза, формализованной оценки общественных, экономических и социологических явлений и процессов. Определение наиболее вероятных направлений их трансформации и предопределили значительные усилия научной и инженерной мысли, направленные на решение теоретических и прикладных вопросов проблемы распознавания [5]. Чтобы в полном объеме оценить всю сложность и значения этой проблемы, достаточно сказать, что создание искусственного интеллекта - это, по-видимому, построение распознающих систем, приближающихся по своим параметрам к возможностям человека в решении задач распознавания.

Задача обнаружения гармонической сигнализации в составе импульсных случайных потоков в системах цифровой телефонной связи

В настоящее время для увеличения ёмкости телефонной сети широко внедряются цифровые каналы связи. При этом вновь вводимая цифровая сеть должна сопрягаться с уже существующей аналоговой телефонной сетью. Наиболее ответственным и сложным звеном в оборудовании сопряжения является приёмник многочастотного кода (ПМК) набора номера.

Наряду с наиболее распространенными в России цифровыми ЭАТС с нелинейной импульсно-кодовой модуляцией (ИКМ), начинается внедрение более эффективных систем цифровой телефонной связи с адаптивной дифференциальной импульсно-кодовой модуляцией (АДИКМ). А на Украине уже выпускаются ЭАТС с адаптивной дельта- модуляцией (АДМ). Оборудование сопряжения аналоговой АТС с любой из трёх видов цифровых ЭАТС отличается только типом кодера и ПМК.

В современных системах автоматической телефонной связи сигналы набора номера передаются многочастотным кодом « 2 из 6 ». Номерная информация формируется в спектре канала ТЧ (тональной частоты) комбинациями из двух частот ряда 1700, 1500, 1300, 1100, 900 и 700 Гц. При взаимодействии аналоговой АТС с цифровой ЭАТС оборудование сопряжения (ОС) обычно устанавливается на стороне аналоговой АТС. Групповой ПМК, входящий в состав ОС, обрабатывает групповой цифровой поток с выходов кодеров, выделяет информацию о наборе номера, а также о наличии одночастотных сигналов типа «зуммер» на частоте 425 Гц и АОН на частоте 500 Гц в каждом из телефонных каналов и помещает её в служебный канал сигнализации. Выделение исходной номерной информации из цифровых потоков должно обеспечиваться групповым ПМК непосредственно, без предварительного преобразования сигналов в аналоговую форму.

На вход универсального приёмника двухчастотных сигналов набора номера подаётся групповой цифровой поток, образованный объединением N индивидуальных потоков с выходов соответствующих кодеров. После распознавания приёмником информации о набранном номере в каждом из N аналоговых телефонных каналов, эта информация помещается в служебный канал сигнализации и передаётся на цифровую ЭАТС в составе группового цифрового потока.

К помехоустойчивости приёма двухчастотного «знака» набора номера предъявляются высокие требования (Рот 10"4) во всём диапазоне уровней и частот сигнала. На первый взгляд, в отсутствие помех от речи, задача построения ПМК не является слишком сложной. В действительности, все известные разработки цифровых ПМК для сигналов с ИКМ, АДИКМ и особенно с АДМ, не в полной мере удовлетворяют жестким нормам МСЭ-Т С2.455 (табл. 2.1), разработанным ранее применительно к аналоговым приемникам и не учитывающим присутствия кодера [11-12]. Особенно это касается варианта передачи двухчастотного сигнала по неуплотненным физическим линиям, соединяющим АТС с междугородной телефонной станцией. При этом допустимый «перекос» в уровнях двух сигнальных частот (700 и 1500 Гц) может достигать Р= 12 дБ. Учитывая широкий динамический диапазон уровней сигнала (-36,5 + -6,5) дБ, допустимую нестабильность частот сигнализации ±15 Гц и известное нелинейное явление подавления в кодере меньшей по уровню частотной компоненты, общий «перекос» уровней частотных составляющих на выходе кодера может достигать порядка 20 дБ.

Снижение помехоустойчивости приема двухчастотных сигналов набора номера вызвано дополнительно такими неблагоприятными факторами, как отсутствие информации о моментах начала каждой двухчастотной «посылки», которые следуют без перерывов «безынтервальным пакетом» (рис.2.1), а также малая минимальная продолжительность посылки Т« 30 мсек, что препятствует статистическому накоплению результатов анализа.

Учитывая неизвестную начальную фазу двухчастотных сигналов на интервалах анализа Га, случайные сдвиги частот от номинальных значений, случайные «перекосы» уровней и длительностей «посылок», переадаптацию шага кодера при смене «знаков», цифровой поток на выходе каждого из перечисленных типов кодеров можно рассматривать как реализацию импульсного случайного процесса. Независимо от типа кодера (ИКМ, АДИКМ, АДМ), каждый многоканальный ПМК должен адаптироваться к параметрам группового потока, представляющего собой сумму индивидуальных цифровых потоков с выходов отдельных кодеров.

С целью упрощения построения многоканальных ПМК любого типа, на интервалах анализа Та предложено использовать многоканальную запись в ОЗУ текущего отрезка группового цифрового сигнала в реальном масштабе времени, ускоренное последовательное одноканальное считывание из ОЗУ и одноканальную обработку предварительно записанного предшествующего отрезка сигнала (рис.2.2) [12, 13, 14].

Отслеживание динамики нарастания кода в коррелометре в сумме с двойным подтверждением превышения порогового уровня, значительно повышает достоверность приёма передаваемой пары частот, исключая приём сигнала во время переадаптации ПМК, а так же при расстройке частоты свыше допустимого значения (рис.2.3).

Алгоритм распознавания изолированных слов

Из отечественных устройств речевого ввода-вывода можно назвать мультипрограммный автомат распознавания и синтеза речи, МДРС-1 6Д. Он предназначен для использования в системах управления, когда приходится фиксировать промежуточные результаты, вводить новые данные, давать машинные инструкции.

В подсистеме распознавания реализован программно-аппаратный подход к распознаванию. Принцип работы анализатора речевых сигналов (АРС) основан на использовании априорной информации о формантной структуре речевого сигнала и формантные параметры. На основе таких признаков образуется описание произнесенного слова, которое затем сравнивается с набором произнесенных эталонов методом динамического программирования, реализованным аппаратно. По результатам ДП- сравнений принимается решение, т.е. принимается одна из гипотез: входная реализация тождественна одному из эталонов заданного словаря; реализация не принадлежит заданному словарю; реализация равно удалена от нескольких эталонов заданного словаря; реализация произнесена тихо; реализация не принадлежит классу речевых сигналов (помеха). Визуальная информация выводится на экран.

В диссертационной работе предложен запатентованный в России алгоритм распознавания речи, содержащей разделенные небольшими паузами слова. При этом возможна настройка алгоритма распознавания как на конкретный голос, так и на произвольный. Например, в [15] описан адаптивный алгоритм распознавания изолированных слов, произносимых любым диктором, при этом обеспечивается независимость эффективности распознавания от громкости голоса, темпа и частоты основного тона речи. Распознавание голосовых команд находит широкое применение во многих областях жизни. Благодаря широкому распространению ПК открываются широкие перспективы взаимодействия человека и компьютера с помощью голоса, например голосовой ввод в ПК текста незрячими людьми, обучение глухих людей речи, исправление дефектов произношения звуков, обучение иностранным языкам и т.д. В частности, в телефонии весьма перспективным может быть набор голосом добавочного номера (пароля) после установления соединения. Голосовой набор добавочного номера позволит расширить емкость телефонной сети без существенных затрат. Не понадобится прокладки дополнительных линий, либо выделения добавочных телефонных номеров и оборудования на АТС, как бывает при использовании блокиратора. Путем установки сравнительно недорогого устройства (приставки к основному телефонному аппарату) можно к имеющемуся телефонному номеру добавить еще несколько.

Распознавание добавочного слова - пароля, произнесенного голосом абонента, выгодно отличается от распознавания дополнительной цифры, набранной на номеронабирателе после установления соединения. Дело в том, что в России, в отличие от многих стран мира, все еще используется импульсный, а не тональный набор номера. Как показал опыт, дополнительная цифра, передаваемая по каналу связи импульсами постоянного тока, плохо распознается и не обеспечивает надежной коммутации. Это объясняется существованием аппаратуры уплотнения на соединительных линиях между некоторыми АТС. Как известно, каналы ТЧ имеют полосу частот в диапазоне 300-г3400Гц, а спектр импульсов постоянного тока длительностью 4СМ-60 мс и периодом около ЮОмс от номеронабирателя сосредоточен в полосе низких частот порядка ОИООГц. Очевидно, что импульсы постоянного тока почти полностью подавляются каналом ТЧ, на выходе которого остаются только короткие импульсы малой амплитуды после дифференцирования «фронтов» исходной последовательности импульсов. Эти «фронты» следуют на фоне импульсных и флуктуационных помех, в итоге отношение сигнал/шум и помехоустойчивость приема дополнительной цифры получаются низкими. Совершенно аналогично обстоит дело и при передаче импульсов постоянного тока по междугороднему каналу связи, поэтому коммутация после приема добавочной цифры крайне ненадежна. В этом причина низкой эффективности подобных систем, которые, тем не менее, благодаря своей простоте и дешевизне получили довольно широкое распространение в России.

При передаче дополнительной цифры (или любого заранее выбранного слова - пароля) голосом вызывающего абонента надежность распознавания сигнала заметно возрастает. Спектр голоса хорошо согласован с частотной характеристикой канала ТЧ, отношение сигнал/шум ожидается достаточно высоким, во всяком случае, не ниже, чем во время разговора после установления связи. Если по каким-либо причинам шум в канале ТЧ велик и информация о добавочной цифре (или слове) недостоверна, то и разговор по такому каналу не мог бы состояться. Разумеется, расширение емкости телефонной сети подобным способом в несколько раз (иногда до трех- четырех) не дается совершенно даром. В такой же степени возрастает нагрузка на существующую телефонную сеть, интенсивность использования приборов на АТС, а также время ожидания абонентов. Несколько снизить время ожидания соединения можно путем установления в таких системах ограничения продолжительности разговора, например в пределах 3-г5 минут. По согласованию между абонентами возможно установление различных приоритетов в группе из 2+4 абонентов, за которыми закреплен данный основной телефонный номер. Такими абонентами могут быть члены одной семьи в многокомнатной квартире, соседи по дому, сослуживцы и т.д.

Статистическое уплотнение канала связи за счет адаптации частоты дискретизации к ширине спектра передаваемого сигнала

Все больше и больше с каждым годом возрастают объемы передаваемых сигналов разного содержания по системам телекоммуникаций. Речевые и музыкальные сигналы занимают значительное место в них. Поэтому вопросам связанным с эффективностью использования каналов связи уделяется повышенное внимание. Разрабатываются различные методы сжатия информации, одним из известных является алгоритм сжатия данных звука ISO/MPEG (алгоритм сжатия использует особенности восприятия звуков человеческим ухом - так называемый психоакустический эффект. Человеческое ухо и связанные с ним центры головного мозга воспринимают примерно 10% информации, содержащейся в звуковом сигнале. Остальные 90% являются избыточными, следовательно, их можно не передавать по каналу связи).

Цифровая передача радиовещательного сигнала, в частности классической симфонической, инструментальной и вокальной музыки с высоким качеством звучания, требует использования дорогого широкополосного канала связи. Например, для цифровой передачи такого сигнала с исходной полосой частот 20 22000Гц и частотой следования отсчетов /а = 48 кГц, из расчета 2 байта на отсчет, потребуется цифровой канал с полосой 768 кГц. Для сравнения, в такой полосе возможна организация 12-ти цифровых каналов передачи речи методом ИКМ, или даже 24-х речевых каналов (методом АДИКМ либо АДМ).

В то же время, для передачи вещательного сигнала далеко не всегда требуется столь широкополосный цифровой канал. В зависимости от жанра вещания (эстрадная музыка, художественное чтение, дикторский текст, паузы между передачами) в некоторые отрезки времени необходимая полоса частот канала может быть снижена в два, четыре и более раз без потери качества передачи. При этом половина и более отведенной полосы частот цифрового канала связи заметную часть времени может быть использована для передачи дополнительной информации. К примеру, снизив частоту следования отсчетов вдвое до ./=24 кГц (для эстрадной музыки), можно в промежутке между соседними отсчетами музыкального сигнала передавать другие сигналы, например цифровую телефонию, различные данные и т.д.

Аналогично, снизив исходную частоту следования отсчетов вчетверо до 12 кГц (художественное чтение либо дикторский текст высоким женским голосом), можно только 25% времени использовать канал непосредственно для передачи вещания, в течение остального времени канал освобождается для передачи дополнительной информации. Для передачи дикторского текста, произносимого мужским голосом, допустимо снижение частоты дискретизации в 5 6 раз до 8 9,6кГц и дополнительное уплотнение исходного цифрового широкополосного канала в 4 5 раз. Наконец, в паузах между вещательными передачами возможно полное использование пропускной способности канала для передачи добавочной цифровой информации.

Как известно, в соответствии с теоремой Котельникова, для неискаженного восстановления аналогового сигнала из дискретного необходимо выбрать частоту квантования аналогового сигнала по крайней мере вдвое выше максимальной частоты спектра исходного низкочастотного непрерывного сигнала. Следовательно, для оптимального выбора частоты дискретизации аналогового сигнала необходима информация об эффективной ширине его спектра. Непосредственный быстрый спектральный анализ исходного широкополосного непрерывного вещательного сигнала в частотной области методом быстрого преобразования Фурье сопряжен со значительными сложностями, требует существенных вычислительных и аппаратных затрат.

Простая приближенная оценка ширины спектра сигнала путем подсчета интенсивности его переходов через нулевой уровень является в данном случае по ряду причин довольно грубой. Моделирование на компьютере отрезков реального музыкального сигнала показало, что моменты смены знака в основном определяются низкочастотными составляющими повышенного уровня и сравнительно мало зависят от высокочастотных компонент слабого уровня, которые суммируются с низкочастотными. Основная информация о высокочастотных составляющих широкополосного сигнала, которые собственно и определяют ширину его спектра, содержится в первой производной сигнала. Выделение первой производной сигнала эквивалентно его фильтрации в частотной области, с подъемом уровня верхних частот спектра со скоростью 6 дБ на октаву. На выходе дифференциатора суммарная мощность сигнала определяется в большей степени интенсивностью высокочастотных составляющих спектра, поскольку низкочастотные компоненты в значительной мере подавлены. Чем шире энергетический спектр исходного сигнала, тем больше должна быть относительная доля мощности (дисперсии) его производной сравнительно с дисперсией сигнала. В качестве оценки первой производной дискретного сигнала удобно принять пропорциональную ей первую разность, то есть разность хт(0 между двумя соседними отсчетами сигнала х ), разделенными интервалом дискретизации Т: Из (4.10) следует, что с увеличением степени корреляции Я(Т) между соседними отсчетами и сужением спектра сигнала средний модуль первой производной снижается, а коэффициент к растёт. Непрерывно измеряя значения коэффициента к на интервалах локальной стационарности сигнала, можно отслеживать динамику изменения коэффициента автокорреляции Я{Т) и эффективной ширины спектра в зависимости от жанра вещательного сигнала.

Известна связь между интервалом корреляции сигнала т и шириной его спектра вида: ДГэТ 1.

Расширение спектра сигнала поведет к уменьшению корреляционных связей между соседними отсчетами сигнала, разделенными интервалом дискретизации Т, к росту среднего модуля первой производной и уменьшению коэффициента к. Уменьшение величины безразмерного коэффициента к ниже некоторого допустимого порога означает, что частота дискретизации /д = должна быть повышена, а интервал дискретизации Т соответственно уменьшен таким образом, чтобы новое значение коэффициента к оказалось выше порога. Решение об этом должно быть принято на следующем интервале анализа сигнала Га.

Продолжительность Га нужно выбирать из компромиссных соображений. С одной стороны, интервал анализа необходимо по возможности сокращать для оперативного отслеживания характера вещательного сигнала с тем, чтобы на слух при сменах жанра изменения интервала дискретизации Т оставались незамеченными и не снижали качества воспроизведения сигнала. С другой стороны, выборка сигнала длительностью Га должна быть достаточно представительной для надежного усреднения модулей сигнала и его первой производной и достоверной оценки коэффициента к.

Компромисс достигается при выборе интервала анализа Га = 0,1+0,2 сек, на котором проходят сотни некоррелированных отсчетов сигнала. В то же время, задержка в принятии решения о смене частоты квантования длительностью 0,1-И),2 сек. несущественна, поскольку смена жанра вещательного сигнала не может произойти мгновенно.

Для объективного подбора пороговых значений коэффициента к необходимо установить связь между ним и эффективной шириной спектра АF3. Рассмотрим несколько вариантов решения этой задачи, соответствующих различной форме энергетического спектра сигнала. Как известно [18], усреднённый спектр речевого сигнала имеет подъём в области частот 400-г500 Гц и дальнейший спад со скоростью 6 дБ на октаву для высоких женских голосов, а для низких мужских голосов - 12 дБ на октаву. Для спектра музыкальных сигналов характерен подъём в области частот порядка 1,5+3 кГц и далее спад со скоростью 6-И 2 дБ на октаву в зависимости от жанра передаваемой музыки.

Похожие диссертации на Адаптивные методы цифровой обработки речевых и тональных сигналов в задачах обнаружения и распознавания