Модели и алгоритмы в системах анализа речевых сигналов Трубицын Владимир Геннадьевич

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Трубицын Владимир Геннадьевич. Модели и алгоритмы в системах анализа речевых сигналов: дис. ... кандидата технических наук: 05.13.17 / Трубицын Владимир Геннадьевич;[Место защиты: Белгородский государственный национальный исследовательский университет - ФГАОУ ВПО].- Белгород, 2013

Содержание к диссертации

Введение

1. Анализ процесса речеобразования, характеристик, свойств и моделей речевого сигнала . 10

1.1 Процесс речеобразования. Характеристики и свойства речевых сигналов . 10

1.2 Существующие методы и алгоритмы сегментации речевых сигналов для его представления и обработки 27

1.3 Анализ существующих методов преобразования устной речи в речевые данные (кодирование речевого источника) 32

1.4 Постановка задачи исследования . 41

Выводы по главе . 47

2. Математическая модель анализа речевых данных в системах представления устной речи 48

2.1 Выделение участков квазистационарности для обработки речи на основе корреляционного анализа реализаций речевого сигнала . 48

2.2 Математическая модель анализа речевых данных в системах представления устной речи . 54

Выводы по главе 63

3. Методика формирования участков речевых отсчётов, порождаемых вокализованными звуками 64

3.1 Способы и приёмы определения значений интервалов автокорреляции временного ряда интервалов автокорреляции, соответ-ствующие структурным изменениям в речевом сигнале . 64

3.2 Линейная регрессионная модель тренда временного ряда интервалов автокорреляции смежных сегментов финитного участка речевых отсчётов . 70

3.3 Оценка временного ряда интервалов автокорреляции смежных сегментов финитного участка речевых отсчётов 80

Выводы по главе . 86

4. Алгоритм передискретизации речевых отсчётов за счёт изменения частоты выборки речевых отсчётов на выделяемых участках 87

4.1. Уменьшение количества речевых отсчётов в формируемых участках квазистационарности для анализа и представления речи 87

4.2 Алгоритм передискретизации речевых отсчётов за счёт изменения частоты выборки речевых отсчётов на выделяемых участках . 90

4.3 Анализ корректности алгоритма передискретизации речевых отсчётов за счёт изменения частоты выборки на выделяемых участках . 95

4.4 Требования и ограничения применения процедур многоскоростной обработки при передискретизации речевых отсчётов 98

4.5 Результаты экспериментальных исследований алгоритма передискретизации речевых отсчётов за счёт изменения частоты выборки на выделяемых участках 105

Выводы по главе 110

5. Оценка эффективности методики формирования участков речевых отсчётов, порождаемых вокализованными звуками и алгоритма передискретизации речевых отсчётов на выделяемых участках 111

5.1 Интервальные оценки использования методики по формированию участков квазистационарности вокализованных звуков и потерь мощности речевых сигналов при передискретизации 111

Выводы по главе . 117

Заключение . 118

Список используемых источников 122

Анализ существующих методов преобразования устной речи в речевые данные (кодирование речевого источника)
Математическая модель анализа речевых данных в системах представления устной речи
Оценка временного ряда интервалов автокорреляции смежных сегментов финитного участка речевых отсчётов
Требования и ограничения применения процедур многоскоростной обработки при передискретизации речевых отсчётов

Введение к работе

Актуальность работы: В настоящее время наблюдается значительный рост исследований и разработок в области анализа, кодирования и синтеза речи. Одной из основных задач, стоящих перед речевыми технологиями яв-ляется задача компактного цифрового представления устной речи для её хра-нения, обработки, передачи и защиты. Интерес к системам анализа речевых данных при кодировании обу-словлен повышением требований к качеству речевого сигнала в системах различного назначения:

1. В криптографических системах государственного, военного и корпора-тивного назначения.

2. В авиационных системах связи для реализации возможности определе-ния психофизиологического состояния летчика по голосу.

3. В системах защиты информации по каналам диапазонов сверх длинных и длинных волн при организации связи типа "электронной речевой почты".

4. В системах хранения речи для автоматизированных, электронных, рече-вых справочных служб.

5. В мультимедиа ориентированных системах коммуникации.

6. В системах речевого управления. Существующие модели речеобразования не в полной мере соответст-вуют их адекватному представлению в речевых данных, что ограничивает применение речевых технологий. Это связанно с возникающим противоречи-ем: с одной стороны длительность временного участка речевых отсчётов для анализа должна быть малой, чтобы последовательность таких участков точно отражала динамику изменений в речевом сигнале, в частности появление ко-ротких пауз и участков переходных звуков. С другой стороны длительность анализируемого участка должна быть достаточно большой, чтобы обеспечить точность оценки характеристик речевого сигнала. Данное противоречие приводит к проблемам человеко-машинного взаимодействия и искусственного интеллекта возникающим при автоматиче-ском распознавании и понимании речи, синтезе и воспроизведении речи из данных, записи и хранении больших объёмов речевых данных отражающих человеческие знания в различных областях, верификации и идентификация диктора. Разрешение противоречия возможно за счёт принятия соотношения ло-кально-стационарного характера модели речеобразования с квазистационар-ным характером участков речевого сигнала, соответствующих режиму уста-новившихся звуков.

Стратегия определения роли анализа субъективных факторов в деле создания речевых интерактивных систем имеет три аспекта: 1. Разработка методов для определения областей применения техноло-гии автоматического распознавания, кодирования и генерации речи.

2. Выбор подходящих алгоритмов распознавания, кодирования, генера-ции речи и характеристик соответствующих систем.

3. Включение речевых подсистем в контекст задач пользователя. Исходя из анализа литературы и изделий, представленных на тематиче-ском рынке программного обеспечения или компьютерного оборудования, следует, что ни одна из подобных систем не лишена принципиальных недос-татков. Иными словами, необходимого уровня эффективного представления речевых данных с точки зрения занимаемого объёма и качества воспроизве-дения существующим изделиям пока достичь не удалось. Такое положение вещей, по-видимому, связано не с частными недостатками конкретных сис-тем, а с необходимостью изменения представлений о закономерностях рече-вого процесса.

В основе настоящего исследования лежат результаты работ в области: теории и методов параметрического кодирования речи (Д. Фланаган, Г. Фант, М.А. Сапожков, А.А. Пирогов); теории кодирования на основе ли-нейного предсказания ( Л.Р. Рабинера, Р.В. Шафера, Дж.Д. Маркела, Б.С. Атола, Д. Раймда, Ф. Итакура, М.Р. Шредера), методов сегментации рече-вого сигнала (П.Мермельштайн, Дж. Ван Хемерт, Б. Пеллом, В.Н. Сорокин, Е.Г. Жиляков). Развитие и использование цифровых процессоров обработки сигналов и труды таких ученых как Б.С. Атол, Д. Серено, Л. Селарио, А. Гершо, Е. Пайксоу, Д.Г. Рове, Т. Ванг привели к усложнению алгоритмов, по-явлению новых моделей, развитию методов анализа речевых сигналов через синтез. В указанных трудах имеются фундаментальные научные результаты для дальнейшего развития речевых технологий. Между тем, до настоящего времени существующие подходы к решению задач исследования моделей и алгоритмов для анализа речевых данных и обнаружение закономерностей в них, а так же разработка и исследование методов и алгоритмов представле-ния устной речи носят локальный по областям применений и разрозненный по методам характер. Это делает актуальной тему диссертационных исследо-ваний и обуславливает выбор объекта, предмета и цели исследования.

Объект исследования: Процесс анализа речевых сигналов для систем представления данных устной речи.

Предмет исследования: Алгоритмы, модели, методы анализа речевых сигналов для систем представления данных устной речи. Целью работы является Совершенствование методов анализа устной речи за счёт установления закономерностей в речевых сигналах, при сегмен-тации вокализованных и невокализованных участков для эффективного представления речевых данных. Для достижения цели были сформулированы и решены частные задачи:

1. Анализ статистических, временных, спектральных, корреляционных ха-рактеристик и параметров речевых сигналов фонетических групп звуков рус-ской речи.

2. Исследование существующих методов, моделей и алгоритмов цифрового преобразования речи в системах кодирования речевых сигналов.

3. Разработка методов и алгоритмов формирования участков квазистацио-нарности в реализациях речевого сигнала, соответствующих вокализованным звукам.

4. Разработка метода уменьшения объёма речевых данных за счёт изменения частоты выборки речевых отсчётов в сформированных границах участков квазистационарности речевого сигнала.

5. Оценка эффективности предложенных методов в системах анализа рече-вых сигналов для представления устной речи.

Методы исследований базируются на использовании математического аппарата теории вероятности и математической статистики, теории корреля-ционного и спектрального анализа, цифровой обработки сигналов, методов регрессионного анализа и методов моделирования систем, а так же исследо-вание речевых процессов с использованием средств и методов имитационно-го моделирования. Научная новизна:

1. Математическая модель анализа речевых сигналов, базирующаяся на ме-тоде корреляционного анализа, позволяющая представлять речевые данные в виде временных рядов интервалов автокорреляции смежных сегментов рече-вых отсчётов фиксированной длины.

2. Методика формирования участков речевых отсчётов, порождаемых вока-лизованными звуками, по принятым решениям на основе аппроксимации временных рядов интервалов автокорреляции смежных сегментов речевых отсчётов линейными моделями тренда, позволяющая определять границы та-ких участков для эффективного представления речевых отсчётов в данных. 3. Алгоритм передискретизации за счёт изменения частоты выборки речевых отсчётов на выделяемых участках с помощью разработанной методики, по-зволяющий сформировать необходимое и достаточное количество речевых отсчётов для их эффективного представления в речевых данных. Практическая значимость подтверждается: разработанными теоре-тическими положениями, доведенными до патентов на изобретения.

1. Патент на изобретение № 2248619 от 20.03.2005 г “Способ и устройство преобразования речевого сигнала методом линейного предсказания с адап-тивным распределением информационных ресурсов”.

2. Патент на изобретение № 2400831 от 21.09.2010 “Способ выделения сег-ментов квазистационарности при анализе речевого сигнала в вокодерах с ли-нейным предсказанием”.

3. Патент на изобретение № 2432624 от 11.05.2011 “Способ уменьшения объема данных при широкополосном кодировании речевого сигнала”. 4. Патент на изобретение № 2445718 от 20.03.2012 “Способ выделения сег-мента обработки речи на основе анализа корреляционных зависимостей в ре-чевом сигнале”.

Реализация результатов исследования осуществлена: в ФГБОУ ВПО «Госуниверситет – УНПК» г. Орёл на кафедре «Электроника, вычисли-тельная техника и информационная безопасность» в рамках учебно-методических комплексов дисциплин «Основы цифровой обработки сигна-лов» и «Проектирование центральных и периферийных устройств ЭВС» для спе-циальностей 210201 «Проектирование и технология радиоэлектронных средств» и 210202 «Проектирование и технология электронно-вычислительных средств» а также планируется для использования в рамках дисциплины «Теория кодирова-ния, сжатия и восстановления информации» для направления подготовки 090900 «Информационная безопасность».

Внедрения подтверждаются соответствующими документами.

Область исследования. Содержание диссертации соответствует пас-порту специальности 05.13.17 “Теоретические основы информатики” (техни-ческие науки) по следующим областям исследований:

п.5. “Разработка и исследование моделей и алгоритмов анализа данных, обнаружение закономерностей в данных и их извлечениях, разработка и ис-следование методов и алгоритмов анализа текста, устной речи и изображе-ний”;

п.6. “Разработка методов, языков и моделей человеко-машинного об-щения; разработка методов и моделей распознавания, понимания и синтеза речи, принципов и методов извлечения данных из текстов на естественном языке”.

Положения, выносимые на защиту:

1. Математическая модель анализа речевых данных в системах представле-ния устной речи, базирующаяся на методе корреляционного анализа. 2. Методика формирования участков речевых отсчётов, порождаемых вока-лизованными звуками, базирующаяся на оценке соотношения между сни-жением остаточной дисперсии и потерей числа степеней свободы при пе-реходе от единой линейной регрессионной модели тренда временного ря-да к кусочно-линейной регрессионной модели. 3. Алгоритм передискретизации речевых отсчётов за счёт изменения часто-ты выборки речевых отсчётов на выделяемых участках с помощью разра-ботанной методики, базирующийся на использовании процедур децима-ции и интерполяции. Достоверность выводов и рекомендаций обусловлена корректностью применяемых преобразований с использованием теории вероятности и мате-матической статистики, непротиворечивостью и воспроизводимостью ре-зультатов, полученных теоретическим путем и в ходе выполнения экспери-ментов, проведением оценки адекватности разработанных моделей и устой-чивости алгоритмов.

Апробация результатов диссертационного исследования. Результаты диссертационного исследования обсуждались на следую-щих научно-технических конференциях: IX Международная научная конфе-ренция. Сборник трудов. – М.: Академия управления МВД России, 2000. – С. 372 –377; 5-я международная конференция "Цифровая обработка сигналов и ее применение". Доклады. Том 2. - М: Радиотехника, 2003. - С. 405 – 407; Proceedings of International Workshop "Speech and computer" SPECOM 2003. – M.: MSLU, 2003. – P. 168 – 169;

Публикации. По теме диссертационного исследования опубликовано 14 печатных работ (из них 7 в журналах из списка ВАК РФ), в том числе че-тыре патента на изобретение зарегистрированных в Государственном реестре изобретений Российской Федерации.

Анализ существующих методов преобразования устной речи в речевые данные (кодирование речевого источника)

Аналого-цифровое преобразование речи, реализуя переход речевого сигнала из непрерывного по времени и состоянию вида в цифровые данные, одновременно решает задачу сжатия речевых данных. Эта задача является частным случаем задачи эффективного кодирования речевого источника. Она представляет собой задачу компактного дискретного представления устной речи в условиях недостаточной априорной информации о её свойствах за счёт сокращения естественной статистической избыточности речи (статисти-ческое кодирование источника) и использования уменьшающих исходный объём речевых данных необратимых преобразований, которые не снижают субъективного качества восстанавливаемой речи, т.е. сокращения психофи-зической избыточности (психофизическое кодирование источника). Эффективность различных методов цифрового речепреобразования может оцениваться степенью достижимого сжатия устной речи, при условии возможности восстановления исходного сообщения в соответствии с требуе-мым качеством и принятым критерием верности. Количественные оценки эффективности процедур цифрового речепреобразования определяются сравнением оцениваемого метода с выбранной эталонной процедурой, в ка-честве которой целесообразно выбирать оптимальный метод кодирования, позволяющий реализовать потенциальные характеристики системы обработ-ки. Так как оптимальный метод кодирования требует полной статистической определенности речевого источника и произвольной задержки сообщения, не имеющий места в реальной ситуации [81], то в задачах цифрового кодирова-ния речи за эталонную процедуру принимается стандарт ИКМ со скоростью 64 кБит/с. При этом, показателем эффективности выступает коэффициент сжатия речевого сигнала, который равен отношению скоростей кодирования речи с использованием эталонного и предлагаемого методов.

Общепринятая система классификации методов цифрового речепреоб-разования включает в себя методы непосредственного кодирования речи и методы параметрического кодирования речи. Наиболее распространённые стратегии кодирования речевого сигнала приведены на рисунке 1.3.1.

Основные функции данных методов – это проанализировать сигнал, удалить избыточность и соответствующим образом закодировать информа-ционные части речевого сигнала. Временные методы непосредственного кодирования речи осуществля-ют преобразование в цифровые данные формы речевого сигнала во времен-ной области. РСМ основана на временной дискретизации непрерывного ре-чевого сигнала в соответствии с теоремой В.А. Котельникова с последующей оцифровкой мгновенных значений посредством квантования отсчётов и ко-дированием уровня квантования [36, 7, 65]. Цифровое речепреобразование методами дифференциальной РСМ (DPCM) и дельта-модуляции (DM) харак-теризуются включением дополнительной процедуры предсказания текущего дискретного отсчёта речевого сигнала функцией определённого количества предыдущих отсчётов. В этих случаях речевыми данными выступают не мгновенные значения речевого сигнала, а закодированная разность между действительным и предсказанным значением с учётом полярности при DPCM [12, 100, 101] или только информация о полярности этой разности при DM [101, 66]. Множество вариантов осуществления основных процедур: дискретизации, предсказания, квантования и кодирования обуславливают разнообразие алгоритмов цифрового речепреобразования на основе времен-ных методов. Признаками дальнейшей классификации в рамках описанных методов выступают режимы осуществления трёх первых процедур:

- фиксированный или адаптивный характер данных процедур;

- равномерные или неравномерные шкалы дискретизации, квантования и кодирования;

- линейная или нелинейная функция предсказания;

- скалярный или векторный способ квантования.

Временные методы непосредственного кодирования речевого сигнала имеют высокое качество соответствия цифровых данных речи и аналогового речевого сигнала и относительную простоту реализации цифрового речепре-образования. Международным союзом электросвязи (МСЭ) рекомендованы соответствующие спецификации серии G, реализующие алгоритмы PCM со скоростью преобразования 64 кБит/с (G.711) [40] и адаптивной DPCM (G.726) со скоростями 40, 32, 24 и 16 кБит/с [74, 75, 76, 77, 78]. Основным недостатком цифровых данных, полученного методами PCM, является суще-ственная статистическая избыточность, сохраняющаяся в условиях дискрети-зации речевого сигнала, характеризующегося нестационарностью и недос-тачностью априорных сведений о его статистике, с фиксированной частотой дискретизации. Некоторому сокращению избыточности цифровых данных устной речи приводит использование DPCM и DM, которое проявляется в уменьшении требуемых информационных ресурсов, за счёт использования декоррелирующей процедуры предсказания.

Принципиально иную парадигму цифрового преобразования представ-ляют вокодерные и гибридные методы, обеспечивающие значительную сте-пень сжатия речи. Сутью данных методов преобразования является отказ от цифрового представления формы речевого сигнала. При этом из анализируе-мого сегмента речи выделяются характерные параметры, которые являются в свою очередь объектом векторного квантования и кодирования. Развитие данных методов кодирования соответствует процессу исследования структу-ры устной речи на акустическом, фонетическом и лингвистическом уровнях. Верхней ступенью классификационной иерархии вокодерных методов явля-ется разделение их на речеэлементные и параметрические методы.

Анализаторы речеэлементных вокодеров распознают произнесённые элементы речи, после чего производится их кодировка. Опознаваемый еди-ничный элемент речи (фонема) служит признаком классификации таких во-кодеров. Речеэлементные вокодеры обеспечивают значительную степень сжатия речевого сигнала, в некоторых случаях близкую к потенциальной, однако не обеспечивают натуральность и узнаваемость говорящего. Потен-циальная минимальная скорость кодирования речи, обеспечивающая её вос-приятие нормального качества составляет 1000 Бит/с [79].

Параметрические методы вокодерного кодирования реализуют на этапе анализа выделение медленно изменяющихся параметров, характеризующих состояние голосового тракта (спектральная огибающая, описываемая с по-мощью состояний линейной дискретной динамической системы - фильт-рующая функция) и сигнала возбуждения (генераторная функция). Область первичного анализа для выделения кодируемых параметров речевого сигнала (сегменты непрерывного сигнала или последовательность дискретных отсчё-тов) классифицирует параметрические методы на спектральные и спектраль-но-временные. Дальнейшее разделение спектральных методов на полосные, формантные и ортогональные основано на используемом способе описания спектральной огибающей: в виде ординат спектра на ряде частот речевого диапазона, совокупностью формантных параметров или суммой ортогональ-ных функций, составляющих огибающую спектра [63, 62, 83, 99].

Современные спектрально-временные вокодеры в качестве объекта анализа используют оцифрованный методом РСМ речевой сигнал и по этой причине получили название транскодеков. Основным признаком классифи-кации спектрально-временных вокодеров выступает метод выделения пара-метров, среди которых наибольшую популярность приобрёл метод линейно-го предсказания [46, 47, 48, 67, 70]. Параметрические методы вокодерного преобразования обеспечивают существенное сжатие речевого сигнала. Одна-ко синтезированная речь с применением данных методов имеет худшее каче-ство, натуральность и узнаваемость чем восстанавливаемая речь при исполь-зовании кодеков формы сигнала. Схемные решения вокодерных систем зна-чительно дороже и сложнее, многие из вокодерных методов требуют значи-тельного времени для выполнения анализирующих процедур. Исключение составляют вокодеры, реализующие цифровое речепреобразование методом линейного предсказания речи.

Приведенная классификация методов цифрового преобразования уст-ной речи не является исчерпывающей, но достаточно полно представляет ос-новные подходы к кодированию речевого источника.

Математическая модель анализа речевых данных в системах представления устной речи

Математическая модель это запись основных соотношений искомых величин со значениями параметров системы в аналитической форме и выра-жение логических условий в виде системы равенств или неравенств.

Математическая модель представлена на рисунке 2.2.1.

Разработанная математическая модель позволяет определять границы участков квазистационарности в реализациях речевого сигнала с целью сег-ментирования временных участков речи, соответствующих вокализованным, невокализованным звукам и переходным с вокализованного на невокализо-ванный и с невокализованного на вокализованный. Основными компонентами математической модели, выделения участ-ков квазистационарности речевого сигнала являются следующие элементы. 1. - пространство аналогового речевого сигнала с ограниченным динамическим диапазоном и полосой частот. В соответствии с рекоменда-циями МСЭ:

2. - отображение пространства реализаций непрерывного речевого сигнала в пространство анализируемых речевых отсчетов :

Отображение описывает аналого-цифровое преобразование непре-рывного речевого сигнала, включающее три процедуры: дискретизацию, квантование и кодирование. Частота дискретизации может принимать зна-чения в 8000, 11025, 16000, 22050 кГц, - число уровней квантования 256 для - число бит на отсчет 8 и 65536 уровней квантования для 16 бит на отсчет. Математически описывается рядом Котельникова В.А., урав-нениями линейного квантования и неэффективного кодирования. 3. - пространство речевых отсчетов соответствующих реализа-циям речевого сигнала на активных участках речи:

4. - отображение пространства речевых отсчётов на финитном ин-тервале, соответствующем длительности мс с частотой дискретизации из пространства речевых отсчётов активного участка речи:

Данное отображение представляет собой формирование из всей сово-купности речевых отсчётов на активных участках множества речевых отсчё-тов, соответствующих одинаковым финитным интервалам. Участки выбира-ются из соображений связанных с выводами относительно проведённого анализа продолжительности фонемных единиц вокализованных и невокали-зованных звуков, а так же микропауз содержащихся в словах и словосочета-ниях. Ещё одним фактором, влияющим на выбор продолжительности участ-ка, является продолжительность алгоритмической задержки, не приводящей к неадекватному восприятию речи. Предлагаемые длительности с соответствующими частотами дискрети-зации, количество дискретных отсчётов в пределах предлагаемых длительно-стей и соответствующее количество бит при реализации алгоритма PCM для кодирования представлены в таблице 2.2.1:

. Отображение реализуется посредством сдвига последовательности в речевых отсчёта из сформированной последовательности финитного участка на кратные 24-м временным отсчетам по мере поступления данных, но не превышающих временного интервала мс. При таких условиях коли-чество сегментов . - пространство речевых отсчётов смежных сегментов фикси-рованной длины. , где - общее количе-ство смежных сегментов. ; где - количество отсчетов в каждом сегменте, а - номер сег-мента, полученного в результате сдвига на 24 отсчета относительно преды-дущего. Для второго сегмента индексы отсчётов речевого сигнала на вы-бранном финитном участке будут изменяться от 48 до 240 при соответст-вующей частоте дискретизации и количества бит на отсчёт. отображение пространства речевых отсчётов смежных сегмен-тов на финитном участке речевого сигнала в пространство автокорре-ляционных функций .

Данное отображение реализует процедуру формирования пространства автокорреляционных функций путем их вычислений, используя пространст-во речевых отсчётов для сформированных смежных сегментов в пределах финитного участка. где - сдвиг между отсчетами в пределах одного сегмента. - пространство автокорреля-ционных функций смежных сегментов речевого сигнала в пределах финитно-го участка соответствующей длительности. 10. - отображение пространства автокорреляционных функций смежных сегментов речевых отсчётов во множество значений интер-валов автокорреляции этих сегментов :

Отображение реализуется посредством расчёта интервалов автокорре-ляции для каждого сегмента в пределах сформированных участков финит-ной длительности. Интервал автокорреляции для каждого сегмента опреде-ляется количеством дискретных отсчетов автокорреляционной функции, до того дискретного отсчета, при котором значение автокорреляционной функ-ции будет меньше или равно 0,05 её максимального значения. - множество значений интервалов автокорреляции для смеж-ных сегментов речевых отсчётов в пределах финитного участка. 12. - отображение множества значений интервалов автокорреля-ции смежных сегментов финитного участка во временной ряд значений интервалов автокорреляции индексы, которых соответствуют номе-рам смежных сегментов речевых отсчётов финитного участка Данное отображение представляет собой процедуру формирования временных рядов значений интервалов автокорреляции, для последователь-ностей из отсчетов речевого сигнала, в соответствии с выбранными значе-ниями частоты дискретизации и количества Бит/отсчёт. Для того, чтобы обеспечить учёт предыдущих состояний речевого сиг-нала в последующем анализе состояний финитных участков при формирова-нии временных рядов для анализа осуществляется сдвиг пяти последних смежных сегментов предыдущего временного ряда в последующий. Это по-зволит формировать начальные условия для последующей обработки. 13. - пространство временных рядов значе-ний интервалов автокорреляции финитного участка, где - номера сегментов, а .

Пространство представляет собой временные ряды интервалов авто-корреляции для совокупности финитных участков речевых отсчётов соответ-ствующих участку активности речи.

Оценка временного ряда интервалов автокорреляции смежных сегментов финитного участка речевых отсчётов

На основе применения методов регрессионного анализа, временного ряда значений интервалов автокорреляции смежных сегментов речевых от-счётов, решение задачи оптимального управления функционирования слож-ной системы по определению границ участков квазистационарности в рече-вых данных сводится, к задаче определения структурных изменений в про-цессе речеобразования. Суть подхода применительно к задаче определения структурных изме-нений процесса речеобразования заключается в следующем. Изменение зна-чений интервалов автокорреляции представляет собой изменение в структуре временного ряда. В этом случае, начиная с некоторого момента времени , которому соответствует один из смежных сегментов, происходит изменение значений интервалов автокорреляции, что обуславливает измене-ние параметров уравнения регрессии.

Если временной ряд включает в себя соответствующий момент вре-мени, то необходимо определить значимо ли влияют структурные изменения в процессе речеобразования на характер изменения значений интервалов ав-токорреляции. При значительном влиянии для моделирования тенденции временного ряда следует использовать кусочно-линейные регрессионные мо-дели, предполагающие собой разделение исходной последовательности зна-чений интервалов корреляции на две части – до момента времени и после момента времени . Для каждой части формируется уравнение регрессии. Если структурные изменения незначительно повлияли на характер тенденции временного ряда значений интервалов корреляции, то ее целесообразно опи-сать единым для всей совокупности уравнением регрессии.

При построении кусочно-линейной модели происходит снижение оста-точной суммы квадратов по сравнению с общим для всей последовательно-сти уравнением тренда. Однако разделение последовательности на две части приводит к уменьшению числа наблюдений и как следствие – к снижению числа степеней свободы в каждом уравнении кусочно-линейной модели. По-строение единого для всей последовательности уравнения тренда позволяет сохранить исходное число наблюдений, но остаточная сумма квадратов уве-личивается по сравнению с кусочно-линейной моделью. Выбор между двумя моделями будет зависеть от соотношения между снижением остаточной дис-персии и потерей числа степеней свободы при переходе от единого уравне-ния к кусочно-линейной модели. Для оценки такого соотношения использу-ется статистический тест Чоу [25, 105].

Статистический тест, основан на расчете параметров уравнений регрес-сии для оценки соотношений между снижением остаточной дисперсии и по-терей числа степеней свободы при переходе от единого уравнения к кусочно-линейной модели. Использование статистического теста, основанного на расчете параметров уравнений регрессии, позволит определять временные границы участка квазистационарности для кодирования речи на основании формирования вывода по результатам анализа, временного ряда значений интервалов корреляции смежных сегментов для финитного участка.

Выдвигается гипотеза о структурной стабильности тен-денции исследуемого временного ряда. Определяется остаточная сумма квадратов по кусочно-линейной модели : где – остаточная сумма квадратов первого уравнения регрессии, – остаточная сумма квадратов второго уравнения регрессии.

Сокращение остаточной дисперсии при замене единого уравне-ния регрессии кусочно-линейной моделью определяется следующим обра-зом: где – остаточная сумма квадратов единого уравнения регрессии.

Для проверки нулевой гипотезы используется критическая статистика, имеющая распределение Фишера: где – наблюдаемое значение критической статистики, – число пара-метров первого уравнения регрессии, – число параметров второго уравне-ния регрессии, – число параметров общего уравнения регрессии, – чис-ло наблюдений. Найденное значение критической статистики сравнивается с кри-тическим значением , полученным по справочным таблицам распределе-ния Фишера для заданного уровня значимости (ошибка первого рода) и числа степеней свободы и , при этом использует-ся правосторонняя критическая область. Если , то нулевая гипотеза отклоняется, это означает влияние структурных изменений на динамику ис-следуемого признака. Если , то нет оснований отвергать нулевую гипотезу о структурной стабильности исследуемого временного ряда.

При анализе временных рядов момент времени , начиная с которого происходят структурные изменения, задается исследователем. Задачей явля-ется установление факта наличия значительных структурных изменений в динамике временного ряда. Применительно к анализу процесса речеобразо-вания необходимо решать обратную задачу – определить значение интервала корреляции, которое соответствует значительным структурным изменениям в процессе речеобразования.

Для решения поставленной задачи предлагается следующая методика:

1. Определяется значение интервала корреляции соответствующее предполагаемым структурным изменениям в речи.

2. Формируются структуры трех моделей регрессии – двух кусочно-линейных, разбивающих всю последовательность значений интервалов авто-корреляции на две части и одной единой модели тренда для всей совокупно-сти значений интервалов автокорреляции.

3. Осуществляется обучение выбранных моделей с использованием мето-да наименьших квадратов.

4. Осуществляется оценка значимости и адекватности полученных моде-лей. Для оценки значимости используются F-критерий (для оценки значимо-сти всего уравнения регрессии) и t-критерий (для оценки значимости каждого параметра модели). Оценка адекватности построенных моделей осуществля-ется на основании анализа среднего квадрата ошибки и исправленного ко-эффициента детерминации.

5. Рассчитывается остаточная сумма квадратов для кусочно-линейной модели регрессии: где – общая сумма квадратов разности первого уравнения регрессии, – общая сумма квадратов разности второго уравнения регрессии, – i-е значение интервала автокорреляции временного ряда, – среднее значение интервалов автокорреляции первого уравнения регрессии, – среднее зна-чение интервалов автокорреляции второго уравнения регрессии, – коли-чество значений интервалов автокорреляции описываемых первым уравне-нием регрессии, – количество значений интервалов автокорреляции опи-сываемых вторым уравнением регрессии, – коэффициент детерминации.

6. По выражению (3.3.2) рассчитывается значение сокращения остаточ-ной дисперсии при замене единого уравнения регрессии кусочно-линейной моделью.

7. По выражению (3.3.3) рассчитывается наблюдаемое значение критиче-ской статистики .

8. Определяется критическое значение статистического критерия .

9. Производится сравнение полученных значений и . Если , то в точке произошли значимые структурные изменения в про-цессе речеобразования, т. е. определена граница. С зафиксированной грани-цы, характеризуемой значением , описанные шаги методики выполняют-ся для нового временного участка речи. Если , то структурные изме-нения не значимы, и необходимо анализировать следующее значение интер-вала корреляции, т. е. вернуться к первому этапу. Описанная методика является итерационной и заканчивается после об-работки всего финитного участка. Результаты использования предлагаемой методики для определения структурных изменений для переходного участка в слоге “АШ” слова “Шалаш” с вокализованного звука “А” к невокализован-ному звуку “Ш” представлены на диаграммах рисунка 3.3.1. Анализ диаграмм рисунка 3.3.1 позволяет сделать выводы:

1. На диаграмме 3.3.1.1 представлены результаты анализа изменений в структуре временного ряда значений интервалов корреляции для затухающе-го звука “А”. Из диаграммы видно, что тренды единого уравнения регрессии и кусочно – линейной модели, состоящей из двух уравнений регрессии прак-тически совпадают. При этом критическое значение статистического крите-рия превышает наблюдаемое значение критической статистики . Тогда принимается гипотеза о структурной стабильности временного ряда.

Требования и ограничения применения процедур многоскоростной обработки при передискретизации речевых отсчётов

Применение процедуры децимации в алгоритме передискретизации ве-дёт к переформатированию речевых отсчётов в представлении речи. Умень-шение количества речевых отсчетов за счёт передискретизации приводит к эффекту пропадания звука при его воспроизведении с исходной частотой дискретизации. В этом случае обеспечение качества воспроизведения адекватного слу-ховому восприятию человеком достигается применением процедуры интер-поляции речевых отсчётов, сформированных в выделяемых участках квази-стационарности. В соответствии с целью работы по совершенствованию методов сег-ментирования речевых сигналов и эффективного представления речевых от-счётов на выделяемых участках квазистационарности вокализованных звуков актуальным становится вопрос восстановления речевых отсчётов при их де-кодировании.

В виду того, что алгоритм передискретизации речевых отсчётов реали-зует процедуру децимации только для вокализованных звуков с фиксирован-ным коэффициентом децимации, для управления процессом декодирования достаточно одного бита, сигнализирующего об изменении частоты дискрети-зации в сторону увеличения.

Так как речевые отсчёты представляются совокупностью участков пе-ременной длины для вокализованных, невокализованных и переходных зву-ков, тогда для воспроизведения адекватного слуховому восприятию человека необходимо формировать метки о начале и окончании участков классифици-руемых как квазистационарных с передискретизацией речевых отсчётов.

Речевые отсчёты, находящиеся между соответствующими метками по-вергаются процедуре интерполяции. Восстановление необходимого количества речевых отсчётов на финит-ных участках с частотой дискретизации реализуется процедурой интер-поляции, как процедура цифровой обработки речевых отсчётов с помощью операции линейной цифровой фильтрации. В результате, которой формиру-ется выходной сигнал с повышенной частотой дискретизации в соответ-ствии с коэффициентом интерполяции [51, 87, 94]. Так как в предлагаемом алгоритме передискретизации речевых отсчё-тов для их эффективного представления используется фиксированный коэф-фициент децимации , то в алгоритме передискретизации речевых от-счётов при восстановлении коэффициент интерполяции будет таким же.

При этом на временные и спектральные изменения речевых отсчётов накладываются определённые ограничения, если сравнивать их с речевыми отсчётами, которые были бы получены путём непосредственной дискретиза-ции исходного аналогового речевого сигнала.

Такими ограничениями является то, что при идеальной амплитудно-частотной характеристики линейного цифрового фильтра, реализующего ин-терполяцию, модули спектров речевых отсчётов на выходе системы интерпо-ляции и сигнала, полученного путём непосредственной дискретизации анало-гового речевого сигнала совпадают. При этом аргумент спектра речевых от-счётов на выходе системы интерполяции оказывается изменённым в соответ-ствии с фазо-частотной характеристикой фильтра.

Из условия безыскаженной передачи по линейной цепи амплитудно-частотная характеристика должна быть частотно-независимой (постоянна для всех составляющих сигнала), а фазо-частотная характеристика линейной, по-скольку данное условие обеспечивает постоянство группового времени за-медления. Это означает, что начальные фазы всех частотных составляющих получат пропорциональный частоте сдвиг, не нарушающий их фазовые соот-ношения. Однако формирование реакции на выходе линейной дискретной системы сопровождается смещением на величину группового времени за-держки [84].

Сдвиг реакции по времени может существенно повлиять на восстанов-лении речевых отсчётов после передискретизации, так как общая последова-тельность формируется объединением потоков до, во время и после передис-кретизации [87].

Как известно процедура децимации и интерполяции при многоскорост-ной обработке состоит из формирования промежуточного сигнала, который является реакцией или воздействием для линейной дискретной системы.

Синтезировать линейные дискретные системы с заданной амплитудно-частотной характеристики и строго линейной фазо-частотной характеристики возможно в классе фильтров с конечной импульсной характеристикой [84].

Соотношение выход/вход таких фильтров описывается линейно – раз-ностным уравнением. где - количество учитываемых отсчётов импульсной характеристики. Для синтеза КИХ фильтров с линейной фазо-частотной характеристи-кой в работе применялся метод с использованием окон. Применение окон со-провождается появлением пульсаций значений амплитудно-частотной харак-теристики фильтра. С увеличением числа наблюдается увеличение числа пульсаций и уменьшение ширины главного лепестка (переходная полоса ам-плитудно-частотной характеристики) [70, 71, 3, 4] . Анализ некоторых существующих окон показал, что уменьшение ко-эффициента пульсаций сопровождается увеличением ширины главного лепе-стка, которое регулируется только изменением длины окна. Проблемой ис-пользования таких окон является либо чрезмерная ширина переходной поло-сы, что снижает избирательность, либо слишком большая длина , что при-водит к трудностям реализации и возникновению задержки реакции из-за пе-реходных процессов в фильтре [17, 84].

Данное противоречие учитывалось при синтезе цифрового фильтра для систем децимации и интерполяции при передискретизации. Так, как необхо-димо обеспечить требуемую избирательность в достаточно узкой полосе час-тот с обеспечением минимальной задержки (относительно небольшой поря-док фильтра).

Описанное противоречие в значительной степени может быть преодо-лено компромиссом, который достигается с помощью окна Кайзера.

Модели и алгоритмы в системах анализа речевых сигналов Трубицын Владимир Геннадьевич

Анализ существующих методов преобразования устной речи в речевые данные (кодирование речевого источника)

Математическая модель анализа речевых данных в системах представления устной речи

Оценка временного ряда интервалов автокорреляции смежных сегментов финитного участка речевых отсчётов

Требования и ограничения применения процедур многоскоростной обработки при передискретизации речевых отсчётов

Похожие диссертации на Модели и алгоритмы в системах анализа речевых сигналов