Разработка и исследование методов повышения эффективности и качества компрессии цифровых аудиоданных Стефанова Ирина Алексеевна

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Стефанова Ирина Алексеевна. Разработка и исследование методов повышения эффективности и качества компрессии цифровых аудиоданных : диссертация ... кандидата технических наук : 05.12.13 / Стефанова Ирина Алексеевна; [Место защиты: Поволж. гос. акад. телекоммуникаций и информатики].- Самара, 2007.- 155 с.: ил. РГБ ОД, 61 07-5/5521

Содержание к диссертации

Введение

1. Анализ результатов научно-экспериментальных исследований основных психоакустических свойств слуха человека 14

1.1 Состояние вопроса и постановка задачи 14

1.2. Свойство частотного группообразования 16

1.3. Границы слышимых звуков 27

1.4. Свойство частотной избирательности 32

Выводы по главе 1 43

2. Исследование параметров эффективности сжатия звуковых сигналов 45

2.1. Состояние вопроса и постановка задачи 45

2.2. Исследование параметров длины выборки 46

2.3. Анализ частотного параметра для различных подходов к спектральному анализу звуковых сигналов 54

2.4. Исследование энергетического параметра 61

Выводы по ГЛАВЕ 2 71

3. Минимизация частотного параметра эффективности сжатия 73

3.1. Состояние вопроса и постановка задачи 73

3.2. Условие оценки наиболее вероятного наибольшего числа ощущаемых на слух спектральных компонент в пределах субполосы 74

3.3. Анализ условия слышимости спектральных компонент 81

3.4. Метод оценки разрешающей способности доп по частоте в пределах субполосы 87

Выводы по ГЛАВЕ 3 97

4. Компьютерное моделирование блока психоакустического анализа кодера цифровых аудиоданных 99

4.1. Состояние вопроса и постановка задачи 99

4.2. Средства моделирования цифровой обработки звуковых сигналов и условия проведения субъективной оценки качества звучания 100

4.3. Степень округления модуля спектральных компонент 106

4.4. Ограничения на временной и частотный параметры эффективного сжатия 111

4.5. Моделирование порога слышимости при маскировке 119

Выводы по главе 4 128

Заключение 130

Список использованной литературы

Границы слышимых звуков
Исследование параметров длины выборки
Условие оценки наиболее вероятного наибольшего числа ощущаемых на слух спектральных компонент в пределах субполосы
Средства моделирования цифровой обработки звуковых сигналов и условия проведения субъективной оценки качества звучания

Введение к работе

Актуальность темы. Важнейшие технико-экономические показатели любой системы цифровой обработки и передачи звуковых сигналов в значительной мере определяются степенью сокращения избыточности первичного цифрового сигнала. При этом различают статистическую и психоакустическую избыточность. Сокращение статистической избыточности основано на учете свойств самих ЗС, а психоакустической - на учете особенностей слухового восприятия звука. Устранение статистической избыточности ЗС даже при достаточно сложных процедурах обработки позволяет в конечном итоге уменьшить изначально требуемую пропускную способность канала связи лишь на 15 ... 40 % [1 - 7]. Такое сжатие уже не может обеспечить все возрастающие требования, причем не столько к количеству, как к качеству передаваемой информации. Поэтому в последнее время в нашей стране и за рубежом уделяется большое внимание [8 - 22] вопросам развития новых методов сжатия ЗС, основанных на использовании психоакустических свойств слуха человека. При этом сжатие ЗС производится не во временной, а в частотной области, для чего используются дискретные ортогональные преобразования (ДОП). Основополагающими в этой области являются работы таких авторов, как Е. Zwicker, W. Reichardt, К. Brandenburg, G. Stoll и др. В России следует выделить работы Ю.А. Ковалгина и A.M. Синильникова.

В современных цифровых технологиях для систем обработки и передачи ЗС самое широкое применение получили алгоритмы компрессии, реализованные в стандартах [23 - 26], выработанных международной экспертной группой MPEG (Moving Pictures Expert Group), и в стандарте ATSC (Advanced Television System Committee) Dolby АС-Ъ (A/52) [27]. Соответствующие кодеки обеспечивают цифровые скорости от 64 кбит/с [28] для мультимедиа приложений до 384 кбит/с [29] для цифрового стереофонического вещания. При этом, согласно результатам [30] экспертных оценок качества, выполненных в соответствии с [31], субъективное качество студийного цифрового сигнала

сохраняется при сжатии цифрового потока с 768 кбит/с до 128 кбит/с. А по утверждению разработчиков MUSICAM [32, 33] качество источника цифрового звука сохраняется и при сжатии до 8 раз. Другие алгоритмы компрессии, используемые в форматах РАС, VQF, WMA, Ogg Vorbis, при том же качестве обеспечивают скорость не ниже 96 кбит/с. Этого удалось добиться за счет изменения психоакустической модели соответствующих кодеров. Вместе с тем дальнейшее развитие высокоэффективных (высокопроизводительных при условии сохранения качества источника цифрового звука) кодеков ЗС сдерживается рядом нерешенных проблем, основными из которых являются:

Известно [34], что при пропускной способности слухового аппарата в 100...120 кбит/с человек способен осознанно воспринимать лишь порядка 100 бит/с, что значительно ниже цифровой скорости на выходе современных систем сжатия ЗС. Одной из основных причин такого различия является неэффективное использование основных свойств слухового анализатора в психоакустических моделях кодеров, что является следствием отсутствия их аналитического описания.
Другой причиной относительно невысокой эффективности современных систем сжатия ЗС является построение их психоакустических моделей на основе усредненных экспериментальных данных [23 - 27]. В результате высокое качество субъективного восприятия звука может быть обеспечено лишь для лиц с частотной чувствительностью слуха не выше средней (до 16 кГц). Такой подход к построению психоакустических моделей объясняется неявным отображением в имеющихся статистических данных зависимости основных психоакустических свойств слуха от его частотной чувствительности. Вследствие этого выявить необходимую зависимость можно лишь аналитическим путем.
Одним из основных параметров, определяющих эффективность сжатия ЗС в частотной области, является длина выборки N дискретного ортогонального преобразования. В стандартах MPEG значение N варьируется от 256 до 2048, а в стандарте Dolby АС-Ъ (Л/52) - от 256 до 512. С целью поиска

рациональной величины N был проведен ряд исследований [35, 36]. При этом, по сути, оценивалась длительность Г_п интервала дискретного ортогонального преобразования Т_п. Однако существенный разброс в полученных результатах затрудняет выбор какого-либо из них. Экспериментальный же путь решения этого вопроса требует довольно значительных временных и финансовых затрат.

Другим важным параметром эффективности кодирования ЗС в базисах ДОП является энергетический параметр - степень округления (уменьшение разрядности кодирования) коэффициентов ДОП. В настоящее время среди специалистов в области обработки звуковых сигналов нет единого мнения [30,37,38] относительно интерпретации искажений, связанных с процедурой округления. Поэтому степень округления предлагается определять эмпирически [39], что обусловливает ее зависимость как от характера ЗС в целом (речь или музыка), так и от характера отдельных их фрагментов.
Третьим параметром эффективности сжатия цифровых аудиоданных, влияющим на качество субъективного восприятия восстановленного звука, является частота дискретизации F_A. Так, с целью повышения качественных показателей в современной высококачественной аудиоаппаратуре F_a увеличивают до 96 и даже до 192 кГц [30]. Объясняют этот эффект недостаточным временным разрешением, обусловливающим неприятное звучание ошибок квантования, совершенно не учитывая психоакустический аспект. Видимо, по этой причине, по крайней мере, в общедоступных литературных источниках, отсутствуют сведения о закономерности изменения F_a в рабочем диапазоне частот ЗС, причем в зависимости от частотной чувствительности слуха.

От обоснованного решения перечисленных проблем зависят все важнейшие характеристики как существующих, так и новых высокоэффективных систем цифровой обработки и передачи ЗС. Поэтому актуальной является задача изыскания аналитического описания основных психоакустических свойств слуха, рациональных параметров эффективности сжатия и разработки эффективных методов исключения избыточных спектральных компонент.

Цель и задачи работы. Целью диссертации является повышение эффективности и качества сжатия цифровых аудиоданных. Для достижения указанной цели в диссертационной работе поставлены следующие задачи:

анализ статистических данных, полученных в результате экспериментальных исследований основных психоакустических свойств слуха человека, с целью их аналитического описания при учете эффективно передаваемой полосы частот ЗС;

исследование и установление предельно допустимых с точки зрения сохранения качества источника цифрового звука значения Т_п и степени округления модуля коэффициентов ДОП для музыкальных и речевых сигналов;

исследование и установление психоакустического аспекта механизма влияния F_a на качество субъективного восприятия звука и закономерности ее изменения в рабочей полосе частот ЗС;

разработка методик и экспериментальное исследование эффективности сжатия цифровых аудиоданных при различных значениях параметров сжатия.

Объектом исследования являются новые цифровые технологии для систем обработки и передачи ЗС.

Предметом исследования является система сжатия цифровых аудиоданных.

Методы исследования. При решении поставленных задач использовались методы спектрального анализа, теории вероятностей и математической статистики, теории цифровой обработки сигналов, результаты экспериментальных исследований психоакустических свойств слуха и статистических свойств звуковых сигналов, а также компьютерное моделирование.

Научная новизна работы заключается в развитии методов цифровой обработки ЗС и состоит в следующем:

разработан алгоритм психоакустического анализа ЗС, основанный на моделировании порога слышимости при маскировке;

сформулированы ограничения сверху на величину Т_п, обеспечивающие условия для эффективного сжатия музыкальных и речевых сигналов с

сохранением качества источника цифрового звукового сигнала;

- получено аналитическое выражение для оценки достаточной степени округления модуля спектральных компонент при условии сохранения каче-

(Самара, ПГАТИ, 2001 - 2005), 3 Международной конференции и выставке «Цифровая обработка сигналов и ее применение» (Москва, 2000), 5 Международной научно-технической конференции «Проблемы техники и технологий телекоммуникаций» (Самара, 2004), 6 Международной научно-технической конференции «Проблемы техники и технологий телекоммуникаций» (Уфа, 2005), 7 Международной научно-технической конференции «Проблемы техники и технологий телекоммуникаций» (Самара, 2006), 8 Международной научно-технической конференции «Проблемы техники и технологий телекоммуникаций» (Уфа, 2007).

Публикации. Основное содержание диссертации отражено в 13 печатных работах, в том числе 2 статьи в научных изданиях, входящих в перечень ВАК, и 11 тезисов и текстов докладов на Российских и Международных конференциях.

Достоверность полученных результатов и положений работы обосновывается корректной интерпретацией параметров эффективности сжатия ЗС и строгим использованием математического аппарата в процессе выводов аналитических выражений. Подтверждается оценками экспертной комиссии при прослушивании сжатых цифровых аудиоданных, взятых с компакт-диска EBU-SQAM, Cat. № 422 204-2, рекомендуемого для таких испытаний исследовательской группой MPEG, а также научными трудами и апробациями на представительных научных форумах.

Основные положения, выносимые на защиту:

алгоритм моделирования порога слышимости при маскировке;

значения Т„, при которых еще обеспечиваются условия для эффективного сжатия музыкальных и речевых сигналов с сохранением качества источника цифрового звукового сигнала;

аналитическое выражение для оценки достаточной степени округления модуля спектральных компонент, при условии сохранения качества источника цифрового звукового сигнала;

методика оценки разрешающей способности ДОП по частоте, необ-

ходимой и достаточной для сохранения качества источника цифрового звука учитывающей рабочую полосу частот ЗС;

- результаты экспериментальной обработки цифровых аудиоданных средствами компьютерного моделирования.

Структура и объем работы. Материал диссертации состоит из введения, четырех глав основной части, заключения, списка использованной литературы и приложений. Основная часть работы содержит 142 страницы машинописного текста, 55 рисунков, 14 таблиц. Список литературы включает 111 наименований.

В первой главе рассматриваются результаты научно-экспериментальных исследований основных психоакустических свойств человеческого слуха - частотного группообразования, абсолютного и болевого порогов слышимости, частотной избирательности. С целью повышения эффективности и качества сжатия источника цифрового звукового сигнала проводится регрессионный анализ этих свойств с учетом различной частотной чувствительности слуха.

Во второй главе на основе статистической модели ЗС А.В. Рим-ского-Корсакова вырабатываются рекомендации относительно величины интервала дискретного ортогонального преобразования для музыкальных и речевых сигналов. Обосновывается психоакустический аспект механизма влияния F_a на качество субъективного восприятия звука и проводится регрессионный анализ соответствующего психоакустического свойства слуха при учете его различной частотной чувствительности. Производится оценка сверху закономерности изменения F_A во всем слышимом диапазоне частот для основных подходов к спектральному анализу ЗС. Вводится интерпретация ошибок округления коэффициентов ДОП, проводится регрессионный анализ соответствующего психоакустического свойства слуха и производится оценка достаточной степени округления при учете различной частотной чувствительности слуха.

В третьей главе формулируется условие оценки наиболее веро-

ятного числа слышимых спектральных компонент в пределах отдельной частотной группы, проводится регрессионный анализ адекватного им психоакустического свойства слуха и разрабатывается методика их оценки. Производится оценка снизу закономерности изменения F_a в слышимом диапазоне частот с учетом различной частотной чувствительности слуха.

В четвертой главе разрабатываются методики для компьютерного моделирования порога слышимости при маскировке и искажений, вызванных округлением спектральных компонент, а также изменением Г_п и разрешающей способности ДОП по частоте. Приводятся результаты моделирования и экспертизы качества субъективного восприятия сжатого звука на основе звукового материала, рекомендуемого для таких испытаний исследовательской группой MPEG.

В заключении изложены основные выводы и результаты, полученные в диссертационной работе.

В приложениях приведены протокол экспертной комиссии по субъективной оценке качества сжатого звука в зависимости от значений параметров эффективности сжатия и в случае моделирования порога слышимости при маскировке, а также акты внедрения и использования результатов диссертации.

Границы слышимых звуков

Всю совокупность слышимых тонов можно отобразить с помощью плоскости слышимости. Схематично плоскость слышимости для здорового слуха показана на рис. 1.5 [45], где по оси ординат отложен уровень звукового давления Е, а по оси абсцисс - частота/ Область слышимости ограничена снизу абсолютным порогом слышимости, отделяющим уровни слышимых звуков от неслышимых, а сверху - болевым порогом. Плоскость слышимости простирается примерно от 20 Гц до 20 кГц и от 0 до примерно 135 дБ. За нулевой уровень принято звуковое давление 2-Ю 5 Па, что лишь на порядок превышает звуковое давление 5-Ю"6 Па, возникающее вследствие броуновского движения молекул при температуре 25 С.

Учет абсолютного порога слышимости считается одним из достоинств систем сжатия ЗС. Однако при этом используются усредненные экспериментальные данные, причем ограниченные частотой 16 кГц. На рис. 1.6 [45] приведены результаты обработки более 100 кривых абсолютного порога слы шимости здоровых людей обоего пола в возрасте 20 - 25 лет. Сплошной линией показана усредненная кривая. Нижняя пунктирная линия соответствует порогу слышимости 10% контингента исследованных людей, а верхняя 90%. Видно, что полоса разброса значений абсолютного порога слышимости минимальна в области средних частот (точнее на частоте 3500 Гц), медленно расширяется в сторону низких частот и несколько быстрее в сторону высоких частот.

В первом приближении верхнюю кривую рис. 1.6 можно считать характерной для людей с низкой частотной чувствительностью слуха, среднюю кривую - для людей со средней частотной чувствительностью слуха, а нижнюю - для людей с высокой частотной чувствительностью слуха. Решение задачи аппроксимации абсолютного порога слышимости A(f) известно [69] лишь для нижней кривой рис. 1.6. С помощью линейной регрессии общего вида (1.1) и предварительного преобразования графического представления дан-ных в табличное теперь удалось описать все три кривые рис. 1.6 при R si: - для высокой частотной чувствительности слуха AB(J) = 21,67-lg(/) + 211,5/lg(/) + 18054/2 00001/- 120694/е 000001/ 3,94-sin(/6-10-4)+ 102508, дБ; (1.10) - для средней частотной чувствительности слуха Ac(f) = 24,8-lg(/) + 248,2/lg(/) + 20801/2 00001/- 139758/e 000001/ 2,58-sin(f6-10-4)+ 118809, дБ; (1.11) - для низкой частотной чувствительности слуха Л„(/) = 17,88-lg(/) + 259,65/Ш + 15956/20 00001/- 109271/е 000001/+ 2,42-sin(/ 6-10"4) + 93182, дБ. (1.12)

Аналитическое описание болевого порога слышимости, в отличие от абсолютного, имеет значение только для теоретических исследований эффективности сжатия ЗС. Относительно этого порога следует отметить, что согласно рис. 5 его наибольшее значение составляет 135 дБ. В других литературных источниках [30, 37, 38] приводятся значения от 120 до 145 дБ. Следовательно, болевой порог слышимости, показанный на рис. 1.5, в первом приближении можно считать средним из возможных болевых порогов. Однако практический интерес представляет минимально возможный болевой порог.

Получить представление о минимальном болевом пороге можно путем сопоставления его статистики со статистикой абсолютного порога слышимости. Поскольку верхняя и нижняя кривые рис. 1.6 почти параллельны и в среднем смещены относительно средней кривой на 10 дБ, не будет большой ошибкой считать минимальным болевой порог рис. 1.5, смещенный вниз на 10 дБ. При использовании линейной регрессии общего вида для такого поро-га B(f) удалось получить достаточно точную (R = 0,995) и по сравнению с [65] более простую аппроксимацию: B(f) = -36/lg(f- 6) - 1,2-Ш + 227/20 00001/- 79,4; дБ. (1.13)

На рис. 1.7 линиями показаны результаты аппроксимации порогов слышимости, а точками - соответствующие экспериментальные данные. Видно, что функциональные зависимости (1.10) - (1.13) достаточно точно соответст-вуют экспериментальным данным как по критерию R , так и по форме.

Исследование параметров длины выборки

Для начального цифрового представления звуковых сигналов с целью их дальнейшей обработки и, в частности, сокращения избыточности, а также при передаче по каналам связи обычно используются принципы импульсно-кодовой модуляции (ИКМ) [86]. Поэтому будем считать, что первичный цифровой сигнал представляет собой последовательность ИКМ отсчетов при частоте дискретизации, удовлетворяющей требованию теоремы В.А. Котель никова. Пусть также спектр сигнала получается путем применения к выборке первичного цифрового сигнала длиной в N временных отсчетов вещественного дискретного ортогонального преобразования, коэффициенты которого не коррелированны, по величине не зависят от начальной фазы и естественным образом интерпретируются как частотные составляющие (тоны) исходного аналогового сигнала. Таким образом, исходный сигнал представляется последовательностью спектральных выборок по N спектральных компонент (тонов) каждая.

С целью выработки обоснованных рекомендаций относительно значений Гп и Fn в необходимо определить условия, позволяющие считать их необходимыми и/или достаточными. Эти условия можно сформулировать следующим образом:

а) обеспечивается возможность достаточно точного восстановления динамики изменения уровня спектральных компонент ЗС во времени;

б) устраняемые системой сжатия коэффициенты ДОП, не должны, по крайней мере, существенно, расходиться со спектральными компонентами, маскируемыми слуховым анализатором человека.

Первое условие непосредственно связано с величиной Тп, которую целесообразно искать на основе статистической модели звуковых сигналов.

Наиболее полной статистической моделью ЗС считается модель А.В. Римского-Корсакова [87], согласно которой сигнал звукового вещания по своим свойствам подобен стационарному случайному процессу, модулированному по амплитуде другим случайным процессом. Эта модуляция происходит с периодами, значительно превышающими периоды, как большинства музыкальных тонов, так и основных тонов речи. Кроме того, модулирующий процесс некоррелирован с модулируемым процессом.

Преимуществом этой модели является достаточно правильное и полное качественное описание ЗС. Используя разные параметры для модулируемой и модулирующей составляющих модели, можно аппроксимировать ЗС различных жанров. Модель получила подтверждение и в более поздних иссле дованиях[88-90].

В соответствии с моделью А.В. Римского-Корсакова звуковой сигнал можно представить как Ці) = Стт{0,гі( ) гДе с7(0 - случайный низкочастотный процесс с распределением Wa{x), мало изменяющимся на интервале времени Г порядка 0,1 с, а г(г) - стационарный гауссовский процесс с нулевым средним и единичной дисперсией. В общем случае Gj(t) нестационарный процесс, однако в дальнейшем нас будет интересовать поведение звукового сигнала на отрезке времени Тп, значительно меньшим интервала стационарности Gj(f). Поэтому допустимо считать, что распределение Wa(x) на отрезке времени Гп не зависит от времени, но его параметры меняются в зависимости от жанра передаваемого фрагмента звуковой программы (речь, симфоническая или эстрадная музыка и т.п.).

Напомним теперь, что в ходе обработки цифровых аудиоданных производится периодическое с периодом Тп преобразование N временных отсчетов в N коэффициентов ДОП (рис. 2.1). При использовании частотных ДОП каждый блок из N его коэффициентов можно интерпретировать как мгновенный спектр (спектральную выборку) звукового сигнала. Тогда Тп вполне отвечает роли параметра, ответственного за точность восстановления той из составляющих динамики изменения уровня спектральных компонент, которая определяется низкочастотным модулирующим случайным процессом Jj(f). То есть чем выше частота модуляции, тем меньше должен быть интервал преобразования Гп. На этом основании и в соответствии с теоремой отсчетов В.А. Котельникова величину Гп следует выбирать из условия: Тп 1/(2 (2.2) где Fa - верхняя частота спектра модулирующего случайного процесса Gj(f).

Согласно [91] частоту F0 для музыкальных сигналов (за исключением синтезированной музыки) можно принять равной 65 Гц, а для речевых сигналов - 45 Гц, что вполне согласуется с положением модели А.В. Римского-Корсакова относительно частот модуляции процесса г\(). Тогда в соответствии с (2.2) получаем [92]: Тпї 7,7 мс для музыкальных сигналов, 11 мс для речевых сигналов.

Второе условие требует высокую точность моделирования порога слышимости в пределах каждой спектральной выборки. Порог слышимости, формируемый слуховым анализатором человека, представляет собой совокупность участков КМ взаимно немаскируемых спектральных компонент ЗС. При этом одна и та же спектральная компонента время от времени становится то маскирующей, то маскируемой. То есть форма порога слышимости все время меняется. Вместе с тем рецепторами слуха воспринимается лишь часть всего множества спектральных компонент ЗС, определяемая разрешающей способностью слуха по частоте Д/ Следовательно, для идеального моделирования порога слышимости, помимо высокой точности аппроксимации КМ необходимо, чтобы разрешающая способность ДОП по частоте A jon совпадала с А/і

Условие оценки наиболее вероятного наибольшего числа ощущаемых на слух спектральных компонент в пределах субполосы

В реальных сигналах частотные группы не имеют постоянного места на оси частот [45]. В связи с этим наибольшая по абсолютной величине спектральная компонента может оказаться в любом месте частотной группы полосного ряда. Поэтому в дальнейшем частотные группы полосных рядов будем рассматривать как искусственно образованные субполосы, ширина которых равна ширине соответствующих частотных групп.

Выделим теперь в рабочей полосе частот ЗС произвольную спектральную компоненту и рассмотрим характер ее поведения на последовательности спектральных выборок (рис. 3.1). Если в некоторой выборке эта компонента превышает порог слышимости при маскировке (пунктирные линии на рис. 3.1), то в следующей выборке она может оказаться как вновь не маскируемой (рис. 3.1а), так и маскируемой (рис. 3.16). Последнее событие эквивалентно отсутствию (нулевому уровню) компоненты в данный момент времени. Поскольку в течение Гп уровень спектральных компонент остается неизменным, такой процесс можно интерпретировать как последовательность тональных импульсов случайной интенсивности, длительности и частоты повторения. А, учитывая, что немаскируемые спектральные компоненты образуются слухом независимо друг от друга [45], эта интерпретация справедлива для любой немаскируемой компоненты спектральной выборки.

Условия маскировки тональных импульсов исследованы достаточно подробно [45]. На рис. 3.2 [45] показано изменение порога слышимости стационарного тона, характерного при его маскировке равномерно маскирующим шумом Ервш, в случае маскировки тональных импульсов различной длительности tK с частотой следования 0,5 Гц, вырезанных из того же стационарного тона. Как видно, порог слышимости Ет тональных импульсов превышает порог слышимости Ет стационарного тона на величину Дпс( и) причем заметно возрастает относительно Еш лишь, начиная с длительности импульса 200 мс.

На рис. 3.3 показано изменение Ет относительно Еш в случае маскировки тонального импульса длительностью tK = 5 мс, вырезанного из того же стационарного тона, в функции частоты его следования /и. Видно, что при граничной частоте/р повторения импульса (/ , = 1//,, = 200 Гц), когда после довательность импульсов сливается в непрерывный тон, Ет опускается до характерного для этого тона значения порога слышимости Еш.

Авторы экспериментов отмечают, что полученные результаты не зависят ни от частоты заполнения импульсов, ни от уровня мешающего шума. Выбор же равномерно маскирующего шума продиктован только удобствами проведения экспериментальных исследований, поскольку в этом случае пороги слышимости при маскировке не зависят от частоты. В случае использования в качестве мешающего сигнала тон пришлось бы каждый раз менять частоту заполнения импульса. С другой стороны для фиксированной частоты пороги слышимости при маскировке равномерно маскирующим шумом ничем не отличаются от порогов слышимости при маскировке тоном. Поэтому результаты, приведенные на рис. 3.2 и 3.3, вполне применимы и для случая маскировки тоном.

Однако зависимости рис. 3.2 и 3.3 справедливы для последовательностей тональных импульсов хотя и различных, но фиксированных длительностью и частотой следования. В связи с этим заметим, что ґи = Гп является наименьшей из всех возможных длительностей тонального импульса. При этом Ети минимально, что обусловливает максимально возможное число слышимых спектральных компонент и, как следствие, максимально допустимое А/доп, а значит, минимально допустимую (необходимую) с точки зрения потерь качества исходного звука частоту дискретизации.

Частоту следования тональных импульсов/, можно принять постоянной только в случае усреднения процесса изменения модуля каждой /-й спектральной компоненты С/ по времени, причем интервал усреднения Гус должен быть значительно больше Гп. С целью оценки значения/, предположим, что для С/ известна вероятность P0MJ отсутствия маскировки. Рассмотрим некоторый интервал времени Гус » Гп. За это время будет обработано Тус/Тп спектральных выборок и с вероятностью Ром; произойдету = Ром,і Тус/Тп событий отсутствия маскировки С,. Средний интервал времени между этими событиями составит Tyjj = Тп/Ром;. Приняв этот интервал времени за период следования тональных импульсов длительностью /и = Гп, получаем среднюю частоту их повторения /и = 0м,/Гп. При этом / = 1/Гп.

Средства моделирования цифровой обработки звуковых сигналов и условия проведения субъективной оценки качества звучания

В процессе моделирования MATLAB позволяет использовать как готовые стандартные блоки из достаточно обширной библиотеки Simulink, так и создавать собственные блоки systems с технологией применения -функций (&гф/-файлы). 5"-функция является описанием блока в виде серии команд (сценарий) без входных и выходных параметров на одном из языков программирования: MATLAB, С, C++, ADA или FORTRAN. Script- шлы нельзя запустить без предварительной подготовки, поэтому в качестве полноценного модуля в системе MATLAB предусматривается возможность создания А/-файлов-функций, которые содержат входные и выходные параметры и используют аппарат локальных переменных.

М-функция, создаваемая на языке MATLAB, имеет следующие ограничения. Во-первых, она может иметь только один входной и один выходной порт. Во-вторых, передаваемые и принимаемые через эти порты данные могут быть только скалярами или векторами типа double (двойной точности). При этом данные могут быть целыми, действительными или комплексными числами.

Simulink-блок однозначно описывается набором входных переменных и, переменных состояния х и выходных переменных у. Процесс моделирования выполняется системой Simulink поэтапно. Сначала производится инициализация модели - подключение блоков, определение размеров сигналов, типов данных, величин такта дискретности, задание параметров блоков и порядка их выполнения, а также выделение оперативной памяти для хранения переменных. Затем Simulink начинает выполнять собственно цикл моделирования, в процессе которого реализуется вычисление функциональных зависимостей, описываемых блоками в том порядке, который был установлен на этапе инициализации. Для каждого блока система Simulink вызывает функции, которые вычисляют переменные состояния х, их производные, а также выходы у на текущем шаге времени моделирования. Этот процесс продолжается, пока моделирование не будет завершено.

Для решения поставленной задачи на языке программирования MATLAB были написаны функции, сохраненные как М-файлы для многократного использования и включенные в Simulink-модепь по правилам и наравне со стандартными библиотечными блоками системы Simulink. Тем самым была обеспечена высокая скорость моделирования.

В качестве входных и и выходных у переменных при моделировании использовались массивы действительных чисел: одномерный для моноканала и двумерный для стереоканала.

В системе MATLAB + Simulink имеется два инструментальных набора ToolBox и Blockset. Набор расширений ToolBox содержит наборы функций и относится к системе MATLAB, а набор расширений Blockset содержит наборы блоков, методов и функций и относится к системе Simulink. Большинство стандартных блоков, используемых при моделировании, были взяты в под-библиотеках Signal Processing Blockset (блок обработки сигналов) и Signal Processing Toolbox (средства обработки сигналов).

Длительность звукового файла лежит в диапазоне от несколько секунд до несколько минут, а его цифровая обработка происходит последовательно по выборкам определенной длины. Для реализации такого процесса в библиотеке Simulink имеется блок From Wave File. Этот блок (Signal Processing BlocksetlWIN32IFrom Wave File) последовательно считывает выборки цифровых аудио данных из файла с расширением .wav 32-битовой операционной системы Windows с последующим представлением каждой из выборок в виде массива данных типа double. При этом данные являются правильной десятичной дробью. Кроме того, для звукового файла типа mono выходом блока From Wave File является вектор M-by-l (один столбец), а типа stereo - матрица М-Ьу-2 (два столбца).

Параметрами бока From Wave File являются имя и путь к исходному звуковому файлу, количество отсчетов N в выборке, минимальное количество обращений No5p к файлу с учетом его длительности Т (іУ0бР = F IN) и точность представления данных (в нашем случае double).

Для повышения частоты дискретизации в системе MATLAB + Simulink имеются стандартный блок Interpolation (n-D) Using PreLookup и функция интерполяции interpQ. Оба средства работают с одномерными массивами. Скорректировать программу стандартного блока при обработке двумерного массива (стерео сигнала) не представляется возможным. Поэтому с целью инвариантности моделей к типу сигналов был использован блок Simulink Fen (Simulink/User-DefinedFunctions/MATLAB Fen) с подключением к нему функции interpQ.

Функция интерполяции у = interp (и, г, I, alpha) вычисляет значение сигнала в промежутках между его отсчетами. В результате число отсчетов исходного вектора и увеличивается в г (обязательно целое) раз. При этом вначале в исходную последовательность вносятся нулевые элементы. Затем, расширенная таким образом исходная последовательность, обрабатывается низкочастотным фильтром. Параметры фильтра подбираются таким образом, чтобы минимизировать среднеквадратичную ошибку между точками интерполяции. Необязательные параметры / и alpha задают порядок фильтра и частоту отсечки, соответственно. По умолчанию 1=4, alpha=0,5.

Разработка и исследование методов повышения эффективности и качества компрессии цифровых аудиоданных Стефанова Ирина Алексеевна

Границы слышимых звуков

Исследование параметров длины выборки

Условие оценки наиболее вероятного наибольшего числа ощущаемых на слух спектральных компонент в пределах субполосы

Средства моделирования цифровой обработки звуковых сигналов и условия проведения субъективной оценки качества звучания

Похожие диссертации на Разработка и исследование методов повышения эффективности и качества компрессии цифровых аудиоданных