Модели и алгоритмы обработки мультимедийной информации, учитывающие особенности человеческого восприятия Лукин Алексей Сергеевич

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Лукин Алексей Сергеевич. Модели и алгоритмы обработки мультимедийной информации, учитывающие особенности человеческого восприятия : Дис. ... канд. физ.-мат. наук : 05.13.11 Москва, 2005 90 с. РГБ ОД, 61:06-1/479

Содержание к диссертации

Введение

Глава 1. Банки фильтров и их частотно-временное разрешение 9

Сведения о человеческом восприятии 9

Восприятие звука 9

Восприятие изображений 11

Традиционные банки фильтров 12

Выводы 15

Глава 2. Банки фильтров с адаптивным разрешением 16

Существующие решения 16

Предлагаемая схема 18

Стратегии управления частотно-временным разрешением 19

Широкополосный анализ стационарности 19

Многополосный анализатор стационарности 22

Принцип наиболее компактного описания сигнала 22

Выводы 24

Глава 3. Применение предложенной модели банков фильтров 25

Шумоподавление: общие принципы 25

Шумоподавление для аудиосигналов 27

Задача шумоподавления и метод спектрального вычитания 27

Интерпретация в виде многополосного гейта 29

Недостатки спектрального вычитания 29

Применение предложенной модели банка фильтров 31

Результаты 32

Шумоподавление для изображений 35

Применение предложенной модели 36

Дополнительные модификации метода АРСА 37

Оптимизации быстродействия 38

Переход в новое цветовое пространство 38

Результаты 41

Нелокальное усреднение: модификация алгоритма 42

Подавление центрального канала в аудио 45

Постановка задачи 45

Существующие подходы 46

Предлагаемый подход 48

Результаты 49

Временное масштабирование аудио 50

Постановка задачи 50

Существующие подходы к решению задачи 51

Предлагаемый метод 53

Банк фильтров 54

Блокировка фаз 58

Рандомизация фаз 61

Сохранение транзиентов 62

Результаты 63

Построение спектрограмм 65

Традиционный метод 65

Предлагаемый метод 67

Выводы 70

Глава 4. Локальная одномерная цветовая модель 71

Предлагаемая модель 71

Применения 72

Интерполяция байеровских шаблонов 72

Предлагаемая модификация алгоритма 73

Результаты 75

Предлагаемый алгоритм увеличения резкости границ 77

Результаты 78

Выводы 78

Заключение 79

Основные результаты работы 79

Научная новизна работы 79

Практическая значимость и реализация 80

Апробация работы и сделанные публикации 81

Литература

Восприятие изображений
Стратегии управления частотно-временным разрешением
Применение предложенной модели банка фильтров
Предлагаемый алгоритм увеличения резкости границ

Введение к работе

Цифровая обработка сигналов (ЦОС) [1] играет все более важную роль с распространением мультимедийных возможностей персональных компьютеров. Зарождение основных методов ЦОС происходило в середине 20 века, когда появлялись первые компьютеры. В те годы большие усилия при создании алгоритмов ЦОС тратились на их эффективную реализацию. Сейчас, когда мощности даже персональных компьютеров возросли настолько, что позволяют в реальном времени проводить сложную обработку сигналов, на передний план выходит вопрос о качестве алгоритмов, а не об их быстродействии. Зачастую пользователи готовы пожертвовать скоростью вычисления ради достижения лучших результатов.

Алгоритмы ЦОС переходят из разряда узкоспециальных в разряд повсеместно используемых. Ранее они применялись в таких задачах, как профессиональная звукозапись и обработка звука, радиолокация. Теперь же алгоритмы ЦОС все активнее используются в повседневном человеко-машинном интерфейсе, который становится мультимедийным: это и чипы цифровых фотокамер, обрабатывающие изображения, и мобильные телефоны, кодирующие и обрабатывающие звук, и персональные компьютеры, играющие роль домашнего центра развлечений за счет широких возможностей обработки звука, изображений и видео.

Важную роль в алгоритмах ЦОС играют банки фильтров - преобразования, раскладывающие сигнал на несколько частотных полос с возможностью обратного восстановления [2]. К банкам фильтров, в частности, относятся кратковременное преобразование Фурье (STFT), широко используемое в об-

Дословный перевод англоязычного "filter banks". В отечественной литературе также употребляется термин «гребенки фильтров». В этой работе будет использоваться термин «банк фильтров», чтобы подчеркнуть включение в это понятие возможного прореживания сигнала в банке фильтров, а также стадии синтеза, дополняющей стадию анализа.

работке аудио, и дискретное вейвлет-преобразование (DWT), являющееся основой многих алгоритмов обработки изображений. В этой работе рассматриваются более сложные банки фильтров для обработки цифровых изображений и аудио, позволяющие достигать лучшего качества обработки за счет варьирования частотно-временного разрешения в соответствии со свойствами человеческого восприятия.

Как будет показано в главе 3, предлагаемые банки фильтров способны улучшить многие существующие алгоритмы обработки сигналов, т.к. они могут быть встроены в общую схему различных методов. В этой работе будет рассмотрено их применение в задачах шумоподавления и приведено несколько примеров использования предложенных методов в других задачах.

Восприятие изображений

Несмотря на то, что Фурье-анализ редко используется применительно к изображениям, некоторые свойства человеческой системы визуального восприятия формулируются в терминах частот. Если в звуке частоты означали количество колебаний в секунду, то для изображения пространственной частотой называется число колебаний интенсивности изображения на градус телесного угла, проведенного из глаза зрителя. Именно в терминах пространственной частоты формулируется функция чувствительности к контрасту (contrast sensitivity function) [17], описывающая чувствительность нашего глаза к колебаниям различных пространственных частот вблизи амплитудного порога восприятия (рис. 2).

Для нашего восприятия изображений существенным является понятие масштаба. Одно и то же изображение мы можем рассматривать с разного расстояния, и в зависимости от этого будут меняться пространственные частоты изображения. В первые моменты рассматривания изображения глаз по воз можности охватывает изображение целиком или крупными кусками, а затем, фокусируя внимание на определенных деталях, переходит в более подробный масштаб рассмотрения.

Это свойство важно, в частности, при построении систем шумоподавления для изображений. Несмотря на то, что максимум чувствительности глаза приходится лишь не некоторую полосу пространственных частот, при разных масштабах рассмотрения изображения «масштаб интереса» будет смещаться. Поэтому важно подавлять шум в широком спектре частот, а не только в области высоких частот или в области максимальной чувствительности глаза.

Традиционные банки фильтров

Традиционно для анализа и обработки звуковых сигналов применяются банки фильтров с косинусной модуляцией [1]. В таких банках фильтров базисными функциями являются гармонические колебания, умноженные на гладкие весовые окна. Наиболее распространенным банком фильтров является STFT (Short Time Fourier Transform) - кратковременное преобразование Фурье. STFT[n, со] = х[п + т] и [т] еШт от=-оо Здесь х[т] - сигнал, w[m] - весовое окно, со - круговая частота.

Все базисные функции STFT определены на одном и том же временном интервале и имеют сильно различающееся количество осцилляции: от 0 (постоянная составляющая) до N/2 (здесь N - число точек в весовом окне). Таким образом, STFT разбивает частотно-временную плоскость на равновеликие прямоугольники (рис. 3). Это является значительным недостатком STFT с точки зрения частотно-временного разрешения. Во-первых, наше ухо имеет не равномерное частотное разрешение, а близкое к логарифмическому (см. [3]. Во-вторых, когда в процессе обработки модифицируются коэффициенты преобразования в пределах одного фрейма STFT, то изменение сигнала во вре 13 области распространяется на всю длину весового окна, а это приводит к эффекту Гиббса1 («размазыванию» всплесков во времени) из-за значительного числа осцилляции некоторых базисных функций.

Таким образом, частотно-временное разрешение банков фильтров, основанных на STFT, не соответствует нашему восприятию. На низких частотах частотное разрешение нашего уха лучше, а на высоких — хуже, и в следующих главах будет показано, что соответствующее варьирование частотно-временного разрешения банка фильтров приводит к улучшению качества обработки.

Другим популярным видом банков фильтров являются вейвлеты [1]. Базисные функции дискретного вейвлет-преобразования (ДВП) являются сдвигами и растяжениями одной и той же функции - материнского вейвлета. Благодаря этому свойству удается эффективно контролировать эффект Гиббса, выбирая конкретный вид материнского вейвлета. Большее число осцилляции

материнского веивлета приводит к лучшему частотному разрешению анализа и большему эффекту Гиббса.

ДВП являются частным случаям т.н. квадратурных фильтров, разбивающих сигнал на две полосы: высокочастотную и низкочастотную. Для разбиения сигнала на большее число полос преобразование применяется повторно к субполосным сигналам. Такая рекурсивная схема является существенным недостатком при обработке аудио. Во-первых, вейвлеты не являются идеальными низкочастотными фильтрами, а значит возникает эффект наложения спектров1. Часть сигнала, проникающая в соседний частотный канал, рекурсивно распространяется далее по частотным каналам. Учитывая традиционно невысокую длину вейвлетов и недостаточное частотное разрешение, можно сделать вывод, что вейвлет-преобразование не обеспечивает достаточно хорошего для обработки аудио частотного разделения каналов. В задачах обработки аудио часто желательно разместить отдельные гармоники спектра в разные частотные каналы. Для полифонической музыки число одновременно присутствующих в спектре гармоник может достигать десятков и даже сотен. ДВП с таким числом частотных полос и хорошим разделением между полосами слишком вычислительно сложно, т.к. потребует вейвлетов очень высоких порядков (сотни и тысячи). Поэтому для обработки звука использование ДВП ограничено.

Стратегии управления частотно-временным разрешением

Управлять частотно-временным (или частотно-пространственным) разрешением результирующего банка фильтров можно различными способами. При обработке звука, в соответствии с психоакустическими данными, необходимо обеспечить лучшее частотное разрешение на низких частотах и лучшее временное разрешение на высоких частотах. Кроме того, требуется улучшить временное разрешение вблизи резких всплесков в аудиосигнале (транзиентов) для уменьшения эффекта Гиббса. В этой части будет описано три возможных алгоритма для такого управления разрешением. Широкополосный анализ стационарности

Стратегия управления микшером коэффициентов будет состоять из двух частей. Априорная часть будет устанавливать частотно-временное разрешение банка фильтров согласно кривой частотного разрешения нашего слуха. Второй компонент стратегии основан на анализе локальной стационарности сигнала (т.е. неизменности мощности и спектра). Для стационарных участков происходит увеличение частотного разрешения для более точной обработки гармоник, вблизи транзиентов - увеличение временного разрешения для подавления эффекта Гиббса.

В предлагаемой реализации в качестве априорной стратегии предлагается выбор увеличенного частотного разрешения ниже 4 кГц. Частота 4 кГц была выбрана как пограничная частота между преимущественно тональной частью музыкально-речевых аудиосигналов (ниже 4 кГц) и преимущественно шумовой частью (выше 4 кГц). Например, в голосе ниже 4 кГц располагаются преимущественно гармоники (в т.ч. - форманты) [3], а выше 4 кГц - преимущественно шумы шипящих и свистящих согласных.

Вторая составляющая управления микшером коэффициентов - анализатор стационарности сигнала. Результатом работы анализатора является оценка стационарности аудиосигнала в каждый момент времени. В качестве анализатора стационарности был выбран алгоритм «мера похожести спектра» (spectrum similarity measure [23], [25]), и его свойства были улучшены с помощью нескольких модификаций. Мера похожести спектра измеряет отклонение двух кратковременных амплитудных спектров, взятых в последовательные моменты времени: Здесь X(t,k) - комплексные STFT-коэффициенты сигнала, t - индекс времени, к - индекс частоты.

Первая модификация переводит амплитуды в нелинейный масштаб, возводя их в степень 0.25. Исходный линейный масштаб амплитуд не позволяет обнаружить малые по абсолютной амплитуде всплески. Логарифмический же масштаб был бы одинаково чувствителен к малым и большим всплескам. Поэтому был выбран промежуточный масштаб между этими двумя.

Вторая модификация метода изменила вычисление отклонений амплитуд в полосах равной ширины (STFT) на вычисление отклонений энергий в критических полосах слуха. Это значительно уменьшило чувствительность меры к стационарным шумам, которые в силу случайности спектра вызывали достаточно большие значения меры.

Третья модификация ввела более сложный алгоритм вычисления разности энергии по времени в пределах каждой частотной полосы. В силу случайности кратковременных спектральных оценок, даже в спектрах стационарных сигналов присутствуют кратковременные амплитудные выбросы, на которые реагирует метрика. Поэтому было предложено искать не мгновенные различия в амплитуде (между двумя соседними временными окнами), а более протяженные ступеньки в зависимости «амплитуда-время». Для этого к массиву амплитуд применяется во временном направлении фильтр вида [-1, -1, -1, -1, 1, 1, 1, 1], т.е. сигнал коррелируется (сворачивается) с искомой «ступенькой». На выходе фильтра получается мера нестационарности сигнала в данной частотной полосе. После суммирования результатов по всем частотным полосам мы получаем общую меру нестационарности в данный момент времени, которая после применения порога и будет служить указателем транзиентов (рис. 5).

Многополосный анализатор стационарности

Заметим, что предыдущий алгоритм можно использовать и для независимой оценки стационарности в заданных частотных полосах (например - в критических полосах). С помощью этих данных можно более тонко управлять микшером коэффициентов (т.е. частотно-временным разрешением банка фильтров).

В результате предложенных модификаций удалось заметно улучшить верность нахождения транзиентов в звуковых сигналах и их точность по частоте. Полученный метод позволяет в один и тот же момент определить наличие транзиента в одном частотном диапазоне и его отсутствие - в другом.

Принцип наиболее компактного описания сигнала

В предыдущих пунктах был предложен способ варьирования разрешения банка фильтров, основанный на эмпирических соображениях. Возникает вопрос об «оптимальном» способе управления. В этом пункте будет рассмотрен способ варьирования частотно-временного разрешения банка фильтров, кото рый наиболее компактно локализует энергию сигнала и предотвращает размытие энергии как по частоте, так и по времени (в т.ч. — эффект Гиббса).

Цель адаптации частотно-временного разрешения банка фильтров - наиболее компактная локализации энергии сигнала в пределах каждого окна банка фильтров и предотвращение эффекта Гиббса.

Применение предложенной модели банка фильтров

Предлагаемая система позволяет устанавливать произвольное частотно-временное разрешение в произвольных областях частотно-временной плоскости. В данной работе было реализовано управление микшером коэффициентов с помощью многополосного детектора стационарности, описанного в главе 2.

Обработаем исходный сигнал тремя шумоподавителями, основанными на STFT с различными размерами блока (например, 200 мс, 50 мс и 12 мс). В результате их работы получатся три сигнала, обработанных с различным частотно-временным разрешением. Далее эти сигналы смешиваются в частотно-временной области для образования результата. Смешение происходит в пространстве коэффициентов STFT-банка фильтров с единым частотно-временным разрешением (в этой работе предлагается взять размер окна STFT 12 мс). Управляет микшером коэффициентов некоторая априорно заданная стратегия, основанная на частотно-временных свойствах слуха, а также анализатор стационарности аудиосигнала. В качестве априорной стратегии мы предлагаем выбор увеличенного частотного разрешения ниже 4 кГц. Частота 4 кГц была выбрана как пограничная частота между преимущественно тональной частью музыкально-речевых аудиосигналов (ниже 4 кГц) и преимущественно шумовой частью (выше 4 кГц). Например, в голосе ниже 4 кГц располагаются преимущественно гармоники (в т.ч. - форманты) [3], а выше 4 кГц -преимущественно шумы шипящих и свистящих согласных, а также большая часть звуков взрывного и ударного характера (транзиентов).

Вторая составляющая управления микшером коэффициентов — анализатор стационарности сигнала. Результатом работы анализатора является оценка стационарности аудиосигнала в каждый момент времени. Эта оценка смещает работу микшера коэффициентов в сторону лучшего разрешения по времени в моменты транзиентов и в сторону лучшего разрешения по частоте на стационарных участках. Предлагаемая общая стратегия управления микшером коэффициентов такова: Ul-a)X1[f,t] + aX2[f,tl / 4кГц U,] \(\-a)X2[f,t] + aX3[f,t], / 4кГц

Здесь Хх[/,/], X2[f,t] и X3[f,t] — STFT-коэффициенты сигналов, обработанных с различным частотно-временным разрешением (от высокого частотного разрешения до низкого), Y[f,t] — STFT-коэффициенты результирующего смешанного сигнала, а - выходное значение анализатора стационарности (от 0 до 1, чем больше значение - тем меньше стационарность сигнала).

Таким образом, шумоподавление с переменным частотно-временным разрешением строится из готовых блоков - шумоподавителей с фиксированным частотно-временным разрешением - путем комбинирования их результатов с помощью банка фильтров и управляемого микшера коэффициентов.

Результаты

В результате применения предложенного адаптивного банка фильтров удалось заметно повысить качество шумоподавления как на стационарных интервалах аудиосигнала (более высокое подавление шумов), так и на транзи-ентах (отсутствие размытия по времени).

В таблице 1 приведены значения отношения сигнал/шум для шумоподавления тестового фрагмента "Castanets" (гитара и кастаньеты) с различными размерами окна STFT. Также приведен результат предложенного адаптивного метода, показывающий улучшение метрики PSNR. Тестовые прослушивания подтверждают повышение качества шумоподавления и снижение уровня пред-эхо на этом и других звуковых фрагментах.

На рис. 8 показаны спектрограммы обработки части этого звукового отрывка «наилучшим» фиксированным окном (25 мс) и с помощью адаптивного частотно-временного разрешения. На них видно, что адаптивный метод подавляет пред-эхо, возникающее перед ударами кастаньет (слева от вертикальных линий).

Шумоподавление для изображений

В этом разделе будет рассматриваться задача подавления стационарного широкополосного шума в растровых изображениях, цветных или черно-белых.

Большинство алгоритмов шумоподавления для изображений принадлежат одному из двух классов. Первые работают с изображением в одном масштабе и выполняют усреднение соседних пикселей для сглаживания шума [16], [18], [19], [20]. Вторые выполняют над изображением преобразование с целью более компактной локализации энергии и работают в пространстве коэффициентов преобразования [10], [11], [12], [13], [21]. Такие алгоритмы при соответствующем выборе преобразования имеют возможность работы в нескольких масштабах. Общей схема этого класса алгоритмов такова: 1. Преобразование, компактно локализующее энергию. 2. Уменьшение коэффициентов преобразования. 3. Обратное преобразование.

В качестве преобразования наиболее популярны варианты дискретного вейвлет-преобразования [10], [1]. Оно достаточно простое с вычислительной точки зрения, позволяет анализировать изображение в нескольких масштабах и достаточно компактно локализует определенные направления границ (обычно - вертикальное и горизонтальное, в более сложных версиях - больше [12]).

Недостаток вейвлет-преобразования в том, что его базис не адаптируется к локальным свойствам изображения. В работе [13] рассматривается применение метода главных компонент (МГК) для построения локально-адаптивного базиса изображений и использование этого базиса в качестве преобразования в шумоподавлении.

Предлагаемый алгоритм увеличения резкости границ

Еще одно применение локальная одномерная цветовая модель нашла в разработанном автором алгоритме масштабирования (передискретизации) растровых изображений. Задача масштабирования изображений заключается в передискретизации (интерполяции) растрового изображения на другую сетку пикселей (обычно - более плотную, что соответствует увеличению разрешения). В рамках совместного научно-исследовательского проекта с Samsung Advanced Institute of Technology автором работы предложен гибридный алгоритм масштабирования изображений, комбинирующий известные алгоритмы бикубической интерполяции и NEDI [36], [37]. Заключительной стадией алгоритма является увеличение резкости границ, размывающихся при увеличении разрешения. Для этого был предложен отдельный алгоритм, основывающийся на локальной одномерной цветовой модели.

Идея алгоритма заключается в частичной палитризации каждого блока изображения. Изображение разбивается на перекрывающиеся блоки, и каждый из блоков подвергается следующей трансформации. Для блока выбирается два наиболее «репрезентативных» («опорных») цвета, и цвета пикселей блока сдвигаются в сторону ближайшего репрезентативного цвета. Это аналогично известным алгоритмам палитризации изображений по методу К-средних, но пиксели не принимают цвета палитры, а лишь сдвигаются в их сторону (рис. 25). Величина сдвига зависит от положения цвета пикселя относительно двух опорных цветов и от «консистентности» локальной одномерной цветовой модели. Консистентность вычисляется как среднее отклонение цветов пикселей от прямой, соединяющей опорные цвета.

После такой трансформации цветов пикселей в каждом блоке результирующие блоки сшиваются по методу overlap-add, т.е. домножаются на весовые окна и складываются с перекрытием.

Результаты

В результате рассмотренного преобразования заметно повышается резкость границ в отмасштабированном изображении, а те области, которые не удовлетворяют локальной одномерной цветовой модели, остаются практически неискаженными. Это приводит к увеличению как визуального качества [38], так и метрики PSNR.

Выводы

В этой главе описана локальная цветовая модель для работы с цветными изображениями. Модель не является принципиально новой, однако на ее основе в работе строятся новые высококачественные алгоритмы интерполяции изображений. Также модель применяется для улучшения компактности локализации энергии в алгоритме шумоподавления изображений, описанном в главе 3. Заключение Основные результаты работы

1. Предложен новый подход к обработке мультимедийной информации, учитывающий особенности человеческого восприятия и основанный на банках фильтров с переменным частотно-временным разрешением.

2. На основе предложенного подхода разработаны новые алгоритмы для обработки аудиосигналов и цифровых изображений, обеспечивающие более высокое качество обработки мультимедийной информации в системах человеко-машинного интерфейса по сравнению с известными алгоритмами.

Разработана программная система для реставрации аудиозаписей и программное обеспечение, реализующее предложенные алгоритмы.

Научная новизна работы

Предложенная модель смешивания коэффициентов для варьирования частотно-временного разрешения является новой. Разработанные на ее основе алгоритмы усовершенствуют уже известные алгоритмы шумоподавления для изображений и аудио. В частности, предложенный алгоритм шумоподавления изображений усовершенствует алгоритм, предложенный Parks, Muresan в 2003 году [13]. Адаптивные банки фильтров упоминаются в качестве перспективного направления исследований в книге [9] с обзором современных методов шумоподавления в аудио.

Разработанная модель банка фильтров с переменным частотно-временным разрешением может быть применена к множеству уже существующих алгоритмов обработки звука и изображений, повышая качество обработки.

Модели и алгоритмы обработки мультимедийной информации, учитывающие особенности человеческого восприятия Лукин Алексей Сергеевич

Восприятие изображений

Стратегии управления частотно-временным разрешением

Применение предложенной модели банка фильтров

Предлагаемый алгоритм увеличения резкости границ

Похожие диссертации на Модели и алгоритмы обработки мультимедийной информации, учитывающие особенности человеческого восприятия