Цифровая обработка изображений динамических сонограмм для нейтрализации спектральных искажений речевой информации Алюшин Виктор Михайлович

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Алюшин Виктор Михайлович. Цифровая обработка изображений динамических сонограмм для нейтрализации спектральных искажений речевой информации: диссертация ... кандидата технических наук: 05.13.01, 05.13.19 / Алюшин Виктор Михайлович;[Место защиты: Федеральное государственное автономное образовательное учреждение высшего профессионального образования "Национальный исследовательский ядерный университет "МИФИ"].- Москва, 2014.- 217 с.

Введение к работе

Актуальность темы

Речевые сообщения (PC) вместе с видеоданными являются наиболее широко используемым контентом информационного обмена (ИО), что обуславливает практическую необходимость создания эффективных методов и программно-технических средств качественной передачи речевой информации (РИ). Качество речевой передачи также важно для речепреобразующих устройств, работающих в защищенном от НСД режиме, предусматривающем намеренное искажение-восстановление её смыслового содержания и оценку эффективности такой защиты. Кроме того, при передаче, обработке и записи речи окружающая акустическая обстановка и сама среда распространения PC довольно часто являются неблагоприятными, что приводит к изменению главной характеристики качества передачи РИ - речевой разборчивости (РР), ее снижению и затруднению в понимании PC. В дополнение к этому, при передаче PC по линиям связи низкого качества или низкой пропускной способности разборчивость также может быть снижена за счет ограничений алгоритмов аудиокодирования и воздействия канальных помех. В связи с этим, в системах защиты и обработки РИ актуальной является задача восстановления смыслового содержания (семантики) преднамеренно или непреднамеренно искаженных PC с целью улучшения понятности устной речи, иногда даже в ущерб другим качественным характеристикам: натуральности, естественности звучания и комфортности восприятия.

Анализ существующих методов и средств восстановления частично разрушенной, искаженной речевой информации показал, что все они, так или иначе, влияют на трансформацию спектральных характеристик речевого сигнала, прежде всего изменяя значения амплитудного спектра. С его огибающей связана и фонетическая функция (ФФ), согласно работам А.А. Пирогова и других ученых, определяющая понятность устной речи, ее смысловое содержание (семантику), которое в конечном итоге можно представить в текстовом виде.

Разработке и исследованию различных методов цифровой обработки и защиты речевой информации, определения и повышения разборчивости PC посвящены работы ведущих отечественных и зарубежных ученых: Пирогова А.А., Калинцева Ю.К., Сапожкова М.А., Женило В.Р., Хорева А.А., Карга-шина В.Л., Чудновского Л.С, Шалимова И.А., Малинина Ю.И., Соболева В.М., Фанта Г., Фланагана Дж., Рабинера Р., Шафера Р., Продеуса А.Н. и др.

Опираясь на результаты этих работ, можно построить единую методическую и алгоритмическую базу, позволяющую бороться с наиболее распространенными видами помех и искажений даже при их значительном воздействии на спектральные характеристики PC. Современные многоядерные процессоры значительно расширяют возможности цифровой обработки сигналов, основывающейся, как правило, на кратковременном спектральном Фурье-анализе (КФА), который может быть принят за основу построения базовых методов коррекции спектральных характеристик искаженного PC, а также фильтрации, удаления и/или компенсации (вместе - нейтрализации)

сопутствующих ему шумов и помех.

Посредством КФА реализуется оригинальный подход к обработке акустических сигналов, базирующийся на технологии преобразования информации "звук-изображение-звук" (далее - технология образного анализа-синтеза). Первая часть преобразования "звук-изображение", приводящая к построению и визуализации узкополосных динамических сонограмм (ДС), известная более полувека, довольно хорошо изучена, но требует уточнений. Однако вторая часть - "произвольное изображение-звук" — в открытых источниках появилась относительно недавно и её возможности до конца ещё не исследованы.

В рамках предлагаемого подхода нейтрализация воздействия на РИ шумов и помех, воссоздание разрушенных или утерянных фрагментов речи могут быть реализованы посредством обработки (реконструкции и восстановления) изображений искаженных ДС с последующим синтезом по ним нового восстановленного PC. Обратный переход от нового изображения к рече-подобному сигналу (РПС) возможен либо с помощью обратного преобразования Фурье обновленных спектральных срезов на изображениях ДС, либо непосредственным расчетом по корректно рассчитанным параметрам подобранных подходящих частотно-временных описаний самого PC.

Перспективность использования указанного подхода для восстановления семантики искаженных PC обусловлена также активным развитием технологий анализа и обработки видеоданных в повсеместно развивающихся системах видеоконференций, трансляций, наблюдения, обработки и регистрации. Используя результаты работ Претта У., Гоулда Б., Ярославского Л.П., Грибунина В.Г., Брукштейна A.M., Хольта Р.Дж. и других известных авторов в сфере цифровой обработки изображений и компьютерной стеганографии, можно использовать наработанный потенциал видеоанализа и обработки применительно к графическим образам PC, в качестве которых берутся изображения ДС, для трансформации и восстановления спектральной огибающей при нейтрализации различных типов речевых искажений.

Таким образом, в связи с вышеизложенным, актуальным является совершенствование технологии преобразования информации "звук-изображение-звук", использование существующих и разработка перспективных решений к видеоанализу и обработке для создания новых методов, алгоритмов и программно-технических средств нейтрализации разнообразных семантических искажений РИ.

Объект исследования - системы речевой обработки, связанные с обнаружением и нейтрализацией спектральных искажений речевой информации.

Предмет исследования - модели речевых сигналов, методы и алгоритмы обработки изображений узкополосных динамических сонограмм, пригодные для восстановления искаженной речевой информации.

Цель диссертационного исследования - разработка методов и алгоритмов реконструкции и восстановления изображений искаженных узкополосных динамических сонограмм с последующим переходом к волновой форме нового речеподобного сигнала и их реализация в программно-технических средствах для нейтрализации семантических искажений речевой информации.

Основные задачи исследования

В диссертационном исследовании поставлены и решены следующие задачи:

исследование свойств речеобразования и слухового восприятия, анализ существующих описаний речевых сигналов для обоснования выбора способов графического представления ключевых для понимания параметров PC на изображениях ДС;

исследование возможности применения методов обработки изображений для нейтрализации спектральных помех и искажений семантики речевой информации с учетом требований к реализации в специальных технических средствах;

совершенствование технологии преобразования "звук-изображение-звук" в части восстановления (синтеза) речеподобных сигналов по изображениям узкополосных спектрограмм;

разработка и исследование специализированных методов и алгоритмов восстановления гармонической и формантной структур искаженных речевых сигналов;

разработка и исследование универсальных методов обработки спектральных характеристик PC на изображениях динамических сонограмм с оценкой возможности их комплексного применения;

реализация предложенных методов и алгоритмов в едином программном комплексе, их экспериментальное тестирование, а также разработка интерактивного графического интерфейса и интерфейса взаимодействия с внешними распространенными графическими редакторами;

оценка эффективности предложенных программно-технических решений.

Методы исследования

В работе использовались методы системного анализа, цифровой обработки сигналов и изображений, математического и компьютерного моделирования, спектрального и корреляционного анализа, а также методы оценки защищенности речевой информации. Общей методологической основой проведения исследований является системный подход.

Научная новизна:

предложен новый подход к восстановлению семантики и повышению РР искаженной РИ, основанный на обработке изображений спектральных описаний PC;

показана возможность использования активно развивающегося научно-методического аппарата цифровой обработки изображений, для анализа, обработки и защиты речевой информации;

разработан и реализован алгоритм нахождения частоты основного тона (ЧОТ) вокализованных участков речи по экстремумам аппроксимирующего многочлена спектральных разверток, позволяющий в отличие от существующих методов, находить положения кратных основному тону гармоник искаженного помехами PC даже при их частичном отсутствии в оригинальном сигнале при небольших вычислительных затратах;

предложен впервые способ наложения формант на восстановленную гармоническую структуру с использованием априорных сведений из базы данных голоса конкретного диктора;

усовершенствован алгоритм синтеза нового понятного и разборчивого речеподобного сигнала (РПС) по восстановленным и реконструированным изображениям узкополосных ДС, интерпретируемых в качестве его спектральных характеристик.

Практическая ценность работы обусловлена созданными программно-техническими средствами, реализующими разработанные методы цифровой обработки изображений ДС для восстановления семантики искаженной РИ.

Разработанные методические и технические средства позволяют создавать новое поколение высокоэффективных программно-аппаратных комплексов для решения следующих задач:

нейтрализации искажений и помех в многоканальных системах приема, регистрации PC, а также в мобильных защищенных устройствах передачи РИ;

оценки защищённости РИ, произносимой в выделенных помещениях конфиденциальных переговоров или передаваемой по системам защищенной голосовой связи;

дистанционного мониторинга текущего психоэмоционального состояния оператора управления особо важными, либо опасными объектами по уровню микротремора в голосе в интересах ГК «Росатом», МО и других служб и ведомств;

поиска людей под завалами и в труднодоступных местах в интересах МЧС и МО на основе распознавания PC при высоком уровне шумовых помех.

Предложенный для нейтрализации помех и искажений РИ подход, реализуемый на основе преобразования информации «звук-изображение-звук, можно рассматривать в качестве некоторого нового базиса для создания современных методов и методик оценки защищенности речевой информации в выделенных помещениях и каналах голосовой связи, а также повышения эффективности систем обеспечения информационной безопасности РИ на объектах защиты. С учетом возможностей злоумышленника по использованию цифровой обработки сигналов были уточнены критерии эффективности защиты выделенных помещений (табл.1).

Основные положения, выносимые на защиту:

— уточненное описание речевого сигнала, подходящее для описания вока
лизованных и невокализованных участков речи, которое вместе с обоснован
но выбранной оконной функцией, позволяет корректно рассчитывать изоб
ражения ДС и интерпретировать результаты КФА на изображениях ДС;

усовершенствованный метод синтеза звуковых сообщений по изображениям спектрограмм, позволяющий генерировать звук РПС без оригинальных фазовых значений или с частичным использованием оригинальной фазы в зависимости от поставленной задачи и параметров звуковой обработки;

алгоритм автоматического восстановления гармонической структуры вокализованных участков искаженного звукового сигнала по вершинам парабол треков гармоник PC на спектральных развертках, позволяющий повысить точность нахождения частоты основного тона в условиях ограниченных вычислительных ресурсов;

набор реализованных в ПО вычислительных процедур и алгоритмов обработки изображений динамических спектрограмм, позволяющих эффективно нейтрализовать спектральные искажения PC различных видов;

единый программный комплекс "Sound Tool", реализующий на различных аппаратных платформах разработанные алгоритмы, использующий технологию параллельного программирования для ускорения обработки изображений спектрограмм.

Внедрение результатов работы

Результаты диссертационного исследования учтены при разработке модулей маскираторов речи для цифровых радиостанций, используемых в радиосетях ОВД.

Результаты работы в виде ПО нейтрализации искажений РР применены при разработке специализированного многоканального программно-аппаратного комплекса повышения речевой разборчивости "Палитра" в интересах заказчиков из силовых ведомств.

Теоретические и практические результаты, полученные в ходе выполнения диссертационной работы, использованы в учебном процессе НИЯУ МИФИ при разработке лабораторного практикума по дисциплине "Методы и средства контроля эффективности защиты информации от утечки по техническим каналам".

Получены соответствующие акты о внедрении результатов диссертационной работы из силовых структур и НИЯУ МИФИ.

Апробация работы

Основные результаты диссертационной работы докладывались на следующих конференциях:

Всероссийской конференции по защите информации RuCTF 2013, Екатеринбург, 19-22 апреля 2013 г.;

ІХ-й Международной научно-практической конференции «Безопасность ядерной энергетики», Волгодонск, 23-24 мая 2013 г.;

Шестнадцатой Международной научно-практической конференции "Фундаментальные и прикладные исследования, разработка и применение высоких технологий в промышленности и экономике", Санкт-Петербург, 5- 6 декабря 2013 г.

Результаты диссертационного исследования в составе демонстрационных макетов опытных образцов акустических комплексов «Матрица» и

«Матрица-ND» демонстрировались соответственно на Международных салонах «Комплексная безопасность - 2011» и «Комплексная безопасность -2012».

Достоверность результатов обеспечивается корректностью применения математического аппарата, доказанностью выводов, совпадением теоретических результатов с экспериментальными данными, а также успешной практической реализацией результатов в образовательной деятельности, апробацией на научно-технических конференциях, семинарах и выставках, внедрением результатов исследований в ряд практических разработок.

Публикации

По основным положениям диссертационной работы опубликовано 8 печатных работ, из них 6 - в изданиях, рекомендованных ВАК, в том числе 1 работа в журнале, входящем в базу цитирования Scopus.

Личный вклад автора

Основные научные результаты получены автором лично.

Структура и объем работы

Диссертация содержит 217 страниц машинописного текста и состоит из введения, четырех глав, заключения, списка использованных источников и трех приложений. Основная часть диссертации содержит 179 страниц текста, 93 рисунка и 25 таблиц. Список источников включает 124 наименования.

Цифровая обработка изображений динамических сонограмм для нейтрализации спектральных искажений речевой информации Алюшин Виктор Михайлович

Похожие диссертации на Цифровая обработка изображений динамических сонограмм для нейтрализации спектральных искажений речевой информации