Моделирование речи на основе гармонического звукоряда для воспроизведения на разных скоростях с сохранением тембра Морозов Петр Дмитриевич

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Морозов Петр Дмитриевич. Моделирование речи на основе гармонического звукоряда для воспроизведения на разных скоростях с сохранением тембра: диссертация ... кандидата Физико-математических наук: 05.13.18 / Морозов Петр Дмитриевич;[Место защиты: ФГБОУ ВО Санкт-Петербургский государственный университет], 2017

Содержание к диссертации

Введение

1. Проблема изменения скорости воспроизведе ния цифрового звука с сохранением тональности 14

1.1. Особенности человеческой речи 14

1.2. Особенности восприятия звука человеком 16

1.3. Цифровой звук 18

1.4. Структура WAV-файла 19

1.5. Связь преобразования Фурье с реальными гармониками 22

1.6. Вейвлетное преобразование 26

1.7. PSOLA 30

2 2. Задача гармонической аппроксимации 32

2.1. Критерий качества 32

2.2. Частотно-амплитудный детектор 34

2.3. Модификация частотно-амплитудного детектора 46

2.4. Последовательная оптимизация 51

2.4.1. Переход к оптимизации по периодам 52

2.4.2. Градиентный спуск для фиксированного периода 53

2.4.3. Минимизация вычислительной погрешности при градиент ной оптимизации для фиксированного периода 54

2.4.4. Стабилизация фаз 57

2.4.5. Оптимизация периодов 58

3. Синтез 62

3.1. Сглаживание скачков 62

3.2. Заполнение пропущенных отсечек 63

3.2.1. Квазиэрмитовы кубические сплайны 64

3.2.2. Построение КЭК-сплайна 65

3.2.3. Свойства КЭК-сплайнов 66

3.2.4. Линейная интерполяция 68

3.2.5. Оптимизация дополнительных сэмплов 72

3.3. Восстановление звукового давления 76

4. Описание вычислительного алгоритма 78

4.1. Анализ входного потока 78

4.2. Синтез выходного потока 83

5. Эксперименты 86

5.1. Инструментарий 86

5.2. Структура экспериментов 87

5.3. Визуализация экспериментальных результатов 89

Заключение 112

Список условных обозначений 112

Список литературы

Цифровой звук
Частотно-амплитудный детектор
Заполнение пропущенных отсечек
Синтез выходного потока

Введение к работе

Актуальность темы исследования. Управление темпом воспроизведения записанного звука позволяет потребителю подстроить общую длительность звучания аудиоматериала под свои нужды. Оно было возможным еще с момента появления аналоговой звукозаписи. Так, темп воспроизведения в фонографе регулировала скорость вращения рукоятки. На граммофонах и патефонах устанавливались стабилизаторы скорости вращения пластинок, на магнитофонах — стабилизаторы скорости лентопротяжки. Стабилизаторы имели несколько стандартных режимов скоростей, выбираемых пользователем. Помимо этого, пользователь мог внести изменения в стабилизаторы и получить стандарты, не предусмотренные производителем.

Таким образом, изменения в воспроизведении аналоговой звукозаписи делались посредством механического вмешательства. Однако при таким подходе искажается тембр записанного голоса, вплоть до неузнаваемости последнего на больших отклонениях темпа воспроизведения от темпа записи. Поэтому такое непосредственное значительное ускорение/замедление темпа воспроизведения чаще применялось именно для изменения тембра голоса.

С наступлением компьютеризации на смену аналоговому звуку пришел цифровой и появились новые, программные возможности обработки звукозаписи. Цифровые аудиосигналы на сегодняшний день имеют обширные области применения. В частности, в радиовещании, при составлении аудиокниг и аудиословарей.

Одной из актуальных на сегодня задач в области цифровых сигналов является изменение темпа воспроизведения цифровой речи с сохранением исходного тембра. Предложено много алгоритмов решения этой задачи, воплощенных в программных комплексах, но полученная по ним выходная цифровая речь часто содержит такие дефекты, как быстрое вибрато (тремоля-ция) при ускорении и “дырявость” при замедлении. В диссертационной работе рассматривается алгоритм решения поставленной задачи, при котором данные дефекты не возникают.

Степень разработанности. Эра цифрового звука открыла большие возможности для манипуляции со звуком. Сложные звуковые эффекты оказалось возможным достичь программными средствами. Комплексы таких программ от одной фирмы-производителя, объединенных интерфейсом, именуются звуковыми редакторами. Наиболее известные из них — Acid Music Studio, Adobe Audition, AudaCity, Audio Speed Changer Pro, Cakewalk Sonar, Logic Pro, Music Construction Set, Nero WaveEditor, PaulStretch, PhotoSounder, Pro Tools, Propellerhead Reason, REAPER, Sound Forge, VocalRemover. Не во всех них реализована возможность ускорения/замедления входного аудиофайла с сохранением исходной тональности звука. Данная реализация была обнаружена в конвертере PhotoSounder, онлайн-сервисе VocalRemover, про-

граммах AudaCity, Audio Speed Changer Pro, PaulStretch, Adobe Audition, REAPER. Во всех них при воспроизведении ускоренной/замедленной речи имеется дефект тремоляции и/или “дырявости” и иногда снижение качества выходного результата по отношению к оригиналу.

Целью и задачей диссертации являются создание математического аппарата, который позволяет решить задачу изменения темпа воспроизведения цифровой речи с сохранением исходного тембра, и разработка на основе этого аппарата программного комплекса.

Научная новизна. В ходе диссертационного исследования был разработан новый алгоритм решения задачи изменения темпа воспроизведения цифровой речи с сохранением исходного тембра. Выполнена оригинальная методика синтеза речевого сигнала с измененным темпом воспроизведения.

Теоретическая значимость работы связана с построением адекватной математической модели цифрового звука, а также в формализации самой задачи построения. Приведены соответствующие формулы и алгоритмы.

Практическая значимость. Увеличение темпа речи — востребованный прием, используемый при трансляции рекламы и подгонки воспроизведения аудиофайла к выделенному окну в эфирном времени. Замедление темпа речи может быть полезно изучающим иностранный язык. Или пожилым людям: с возрастом понижаются острота слуха и скорость восприятия.

Методы исследования. В диссертационной работе используются математическое программирование, методы дискретной оптимизации и создание ортогональной системы функций-пробников.

Положения, выносимые на защиту:

Математическая модель речи на основе гармонического звукоряда.
Численный метод последовательной оптимизации в определении фундаментальной частоты и амплитуд обертонов оцифрованной речи.
Алгоритм повышения уровня гладкости при интерполяции квазиэрмитовыми кубическими сплайнами и его реализация в программном комплексе.
Алгоритм ускорения с помощью изменения частоты дискретизации и его реализация в программном комплексе.
Моделирование функциональной зависимости спектра аудиосигнала от времени с помощью системы ортогональных пробников, которые, в отличие от вейвлетов, имеют переменные носители, отличающиеся от пробника к пробнику.

Положения соответствуют пунктам 1, 2, 4, 7, 8 раздела “Области исследований” паспорта специальности 05.13.18.

Достоверность научных результатов обеспечивается строгостью доказательств, со-

гласованностью с уже имеющимися результатами в данной и смежной областях и экспериментальной проверкой в компьютерном моделировании.

Апробация работы. Результаты, изложенные в диссертации, были представлены на международной научной конференции “Процессы управления и устойчивость” (Санкт-Петербург, 2011 г., 2012 г. и 2013 г.), всероссийской конференции, посвященной 80-летию со дня рождения В.И. Зубова “Устойчивость и процессы управления” (Санкт-Петербург, 2015 г.), “Семинаре по конструктивному негладкому анализу и недифференцируемой оптимизации” (факультет ПМ-ПУ СПбГУ, 2016 г.).

Публикации. По теме диссертации опубликовано 11 работ, в том числе три статьи в журналах, входящих в перечень изданий, рекомендованных ВАК.

Работы [5], [6], [8], [2], [3], [10] написаны в соавторстве. В работе [5] автору принадлежат алгоритмы интерполяций, Михееву В.С. — алгоритм расшифровки WAV-файла. В работе [6] автору принадлежат алгоритмы модуляций, Михееву В.С. — алгоритм расшифровки WAV-файла. В работе [8] автору принадлежат экспериментальная часть и алгоритмы модуляций, Михееву В.С. — алгоритм расшифровки WAV-файла. В работе [2] автору принадлежат теоретическая часть и алгоритмы интерполяций, Михееву С.Е. — общая постановка задачи. В работе [3] автору принадлежат доказательства основных результатов, Михееву В.С. — алгоритм расшифровки WAV-файла. В работе [10] автору принадлежат разработки частотного детектора и критерия качества, Михееву С.Е. — общая постановка задачи.

Структура и объем диссертации. Диссертация состоит из введения, пяти глав, заключения, списка условных обозначений и списка литературы. Определения, леммы, теоремы, следствия, примеры нумеруются в соответствии с главой, в которой они находятся. Объем работы составляет 122 страницы, не включая объем приложения, равный 12 страницам. Количество таблиц: 7. Количество рисунков: 45. Список литературы включает 57 наименований.

Цифровой звук

Человеческий стереослух способен определить направление на источник звука. Для этого используются два физических явления: фазовый сдвиг между звуковыми волнами, приходящими в левое и правое ухо на длинных (больше расстояния между ушами) волнах, и разный уровень фильтрации высокочастотных составляющих в зависимости от разницы направлений на источник звука левого и правого уха [32]. В этой работе сложнейшая задача акселерации стереозвука не рассматривается, поскольку здесь будет применяться математический аппарат, не рассчитанный на восстановление фаз гармоник.

В режиме моно для записи звуков используется один микрофон, а для воспроизведения — один звукогенератор. При этом информация о пространственном расположении источников исходного звука искажается. Слушатель воспринимает весь воспроизводимый звук исходящим из одной точки.

Наиболее существенной особенностью слуха для целей акселерации является субъективная неразличимость суммы нескольких гармонических колебаний при различных фазах смещения одного относительно другого [12]. Это позволяет не заботиться о привязке найденных гармоник друг к другу по фазе. Поэтому синтезированное звуковое давление вида р W{t) = x0{t) + Y Pi{t)sm{ui{t)t) i=1 будет вызывать те же ощущения, что и входной сигнал (1.1). При наличии гармонических составляющих с большой разницей в амплитудах, составляющие для малых амплитуд могут не слышаться. На этом основано много алгоритмов сжатия, а также использование при синтезе звука всего лишь четырех обертонов (формант) из шестнадцати, которые могут как-то оказывать влияние на тембр.

Обычный здоровый человек, не обладающий выдающимися слуховыми особенностями, способен воспринимать звук в диапазоне 16 20000 Гц при передаче колебаний по воздуху [2], [15]. Частоты человеческого голоса лежат в диапазоне 300 Ч-4000 Гц [19]. Диапазон частот, которые такой человек в состоянии услышать, называется слуховым диапазоном, более высокие частоты — ультразвуком, более низкие - инфразвуком. Некоторые полости речевого ап 18 парата могут производить ультразвуки, но поскольку они не воспринимаются человеческим ухом, заниматься их записью и воспроизведением нет смысла.

Для работы на цифровых компьютерах акустический сигнал W(t) подвергается цифровой обработке в аналогово-цифровых преобразователях (АЦП) [21]. Она состоит из двух дискретизаций — по времени и по амплитуде, называемой квантованием. По времени: в равноотстоящих друг от друга моментах времени t1, ..., tN, именуемых отсечками, производятся замеры амплитуды электрического сигнала, являющаяся аналогом входного акустического давления. Квантование: в том же АЦП измеренное аналоговое значение амплитуды в отсечке оцифровывается, то есть находится среди принятых машинных чисел для данного формата звукового цифрового файла такое машинное число W(ti), которому соответствует физический аналог, наиболее близкий к измеренному [35]. Пара отсечка — квантованная амплитуда (ti,W(ti)) именуется сэмплом. Как правило, масштаб времени выбирается таким, что ti+1 i = 1, i = 1, ..., N, поэтому для обозначения отсечки используется просто натуральное число, а последовательность сэмплов представляется одномерным массивом W(1),W(2), ..., W(N).

Самые распространенные частоты временной дискретизации — 8 000, 22 050, 44 100, 48 000, 88 200, 96 000 и 192 000 Гц. Частота дискретизации 8 000 Гц считается стандартной в телефонии, 22 050 — на радио, 44 100 — в Audio CD, остальные — в DVD Audio. Большинство современных проигрывателей позволяют правильно воспроизводить звуки с цифровых аудиофайлов, записанных с произвольной частотой дискретизации. А звуковые редакторы также и вести звукозапись на задаваемой пользователем частоте дискретизации.

Частотой Найквиста называется равная половине частоты дискретизации звуковая частота. Это максимальная частота, которую цифровая система может адекватно сохранить и воспроизвести [5]. То есть если подлежащий дискре 19 тизации аналоговый сигнал имеет частотные компоненты из диапазона 0 20 кГц, то у такого сигнала частота дискретизации должна быть не менее 40 кГц. Однако качество воспроизведения, то есть погрешность в амплитудах составляющих гармоник, будет лучше, если частота дискретизации заметно более чем в 2 раза превышает частоту входного сигнала. Поэтому и принимается в DVD Audio частота дискретизации 48 кГц и даже выше.

Для квантования приняты разрядности 8, 16, 24, 32 и 64 бит. То есть количество уровней громкости равно, соответственно, 88, 168, 248, 328 и 648. Для качественной записи достаточно использовать разрядность 16 бит [27], разрядности с большим значением расширяют динамический диапазон и тем самым позволяют повысить качество звукозаписи.

Одними из первых контейнеров для хранения оцифрованного несжатого аудиопотока были файлы формата WAV (Waveform Audio File Format, от английского “waveform” — “в форме волны”) [24]. Формат был разработан фирмами IBM и Microsoft в 1991 году [56]. Он не налагает ограничений на используемый алгоритм кодирования. Будучи интегрированным в систему Windows, он стал столь же распространенным, что и сама система [57]. В силу идейной простоты, за последнюю четверть века он практически не подвергся сильным изменениям, и ныне известен как “standard WAVE_FORMAT_PCM” (PCM — Pulse Code Modulation = импульсно-кодовая модуляция) [25]. Большое количество прочих аудиоформатов в основном возникали для внедрения той или иной идеи сжатия цифрового аудиопотока

Частотно-амплитудный детектор

Помимо медленного изменения амплитуд гармоник, в реальных звуках и в частности в человеческой речи происходит еще и медленное изменение фундаментальной частоты. Таким образом, общий вид аппроксиматора усложняется: f(x,y,u,t,At) = р = x0(t, At) + J2 х ( At) cos(wi( , At)At) + yi(t, At) sin( (, At) At), (2.1) І=1 где ж = (ж0,...,жP), 2/ = (Ш,-,2/P), w = (w1,...,wP). Для цифрового звука время t дискретно. Выбором масштаба времени можно назначить шаг дискретизации равным 1. Не умаляя общности можно считать, что отсечки происходят во время t = п = 1,2,.... Таким образом, к оптимизации предъявляются ЗР + 1 дискретно заданных функций Xi{n,k), yi{n,k), Ui{n,k), х0{п,к), i = l,...,P, n = l,2,..., fc = -n,-n + l,.... Похожее на метод наименьших квадратов (МНК) введение критерия ка 32 чества на всем входном цифровом потоке в момент т N-1 Q(x,у}ш}т) := 2(W(n) - f(x,у,ш}т}п- m)f (2.2) n=0 приводит к чрезмерно сложной в вычислительном плане задаче его минимизации по функциям х,у,и;, поэтому вместо этого глобального критерия Q предлагается перейти к минимизации последовательности локальных критериев качества qm, т = К, ...,N — К — 1, в прямоугольных окнах ширины 2К, центрированных относительно текущего п-го сэмпла с фиксированными в этом окне фундаментальной частотой и косинусно-синусными амплитудами обертонов в аппроксиматоре где x0(m,k),...,x,(m,k), yi(m,k),...,y,(m,k), wi(m,k),...,wP(m,k) для задачи минимизации локального критерия качества m-го шага являются функциями только одного аргумента к, для которых т — параметр. После минимизации по ним критерия качества qm получим минимайзер, зависящий от параметра т.

Минимизация критерия качества qm соответствует нахождению ортогональной проекции [16] вектора \&(т) := (W(m - К),..., W(m + К- 1))т размерности 1К на линейную оболочку векторов vr.= (vt(-K),...,vt(K-l)y, г = 0,...,2Р. Здесь WeR v0(t) = 1, v2j-i(t) = cosfat), V2j(t) = sin(c ), j = 1,..., P. (2.5) Выбор К — полуширины окна — предстоит сделать с помощью дополнительных соображений. Поиск минимайзера для qm и ортогональной проекции сводится к одной и той же системе линейных уравнений: Г ({г/г}г) = {x0,x1,y1,...,xP,ypy (2.7) и T(V) — матрица Грама для системы векторов V. Здесь скалярное произведение “” в применении к столбцам высоты 2Р + 1 а:=(а0,...,а2Р)т, (3 := (/30,..., (32РУ 2Р задается формулой а (3 = а, $.

Решение этой линейной системы существенно облегчается при назначении величины 2К кратной периоду основной гармоники Т(т) = 2тг/ш1{т) с коэффициентом кратности к. Тогда в силу ортогональности векторов матрица Грама становится диагональной, и решение системы элементарно: ъ{т) = Щ = 2v rW(m\ i = 0,...,2P. (2.8) v 2 кТ{т) Анализ согласно критерию qm и основанный на нем синтез наталкиваются на затруднения, связанные с возможностью от сэмпла к сэмплу свободно менять в результирующем потоке из анализа долю гармоник. Тогда любое смещение фаз гармоник при воспроизведении приводит к резким скачкам в звуковом давлении [29]. Для устранения этого эффекта предлагается производить перед синтезом сглаживание выходных параметров анализа.

Если бы человеческая речь представляла из себя смесь гармоник с произвольными частотами, то фиксация соотношений между некоторыми частотами вида (1.5) ухудшила бы качество аппроксиматора (2.1) в смысле критериев качества (2.2) и (2.4). Однако, с одной стороны, наличие обертонов в человеческой речи является экспериментально установленным фактом, а с другой, эти критерии отвечают более за восстановление формы сигнала, чем за частоты гармоник. То есть можно очень хорошо восстановить форму сигнала по аппрокимантам, полученным из аппроксиматора с помощью этих критериев качества, однако гармонические составляющие этого аппроксиматора не будут иметь ничего общего с фундаментальной частотой и обертонами исходного сигнала. Поэтому желательно модифицировать эти критерии таким образом, чтобы их применение давало бы реальную частоту и амплитуду основной гармоники и обертонов и, кроме того, обеспечивало бы непрерывность фазы при переходе от одного сэмпла к другому.

Заполнение пропущенных отсечек

Пусть входной сигнал, аппроксиматор и критерий качества описаны, соответственно, формулами (2.23), (2.24), (2.25). Минимизация выбранного критерия качества в последовательные моменты т осуществляется по ЗР + 1 переменной: фундаментальной частоте и1(т), обертонам ш2(т)}...,шР(т), постоянной составляющей 60(т), амплитудным составляющим P1(m), ...,рР(т) фазовым составляющим 6 1(m), ...,6 P(m).

Связь (2.33) фундаментальной частоты с обертонами снижает количество переменных оптимизации до 2Р + 2. Таким образом, для каждого m-го сэмпла входного цифрового сигнала требуется найти фундаментальную частоту ил(т) и компоненты вектора 5(m) = (50(m),p1(m),01(m),...,pP(m),0P(m)). В монозвуке человек не различает фаз гармоник, а также постоянную составляющую звукового давления, как уже говорилось в 1.2. Поэтому в наборе 5(т) для дальнейшего синтеза потребуется только составляющие с нечетными индексами (p1(т), ...,рР(ш)). Однако для построения полноценной аппроксимации и фазы, и постоянную составляющую придется вычислять.

Классический градиентный спуск сразу по 2Р + 2 переменным плохо под 52 ходит для минимизации критерия (2.25). В частности, по той причине, что окно просмотра должно быть кратно периоду основной гармоники Т(т). И, с другой стороны, при фиксированной частоте основной гармоники вычисление условного многомерного минимума по переменным z производится элементарно и неитеративно. Поэтому здесь для оптимизации предлагается своего рода синтез градиентного (по z) и покоординатного (по Т) спусков.

С точки зрения чистой математики, оптимизация по частотам эквивалентна оптимизации по соответствующим периодам. Однако в программной реализации появляется некоторая разница в пользу периодов, вызванная возможностью вести поиск оптимума на целочисленной сетке.

А именно. В [3] говорится, что человек не замечает разницы в частотах, если они отличаются менее чем на 4%. Относительная чувствительность частотного восприятия возрастает по мере увеличения частоты, достигая на 1000 Гц 0,3% и сохраняя такое отношение на всем частотном диапазоне слышимости [8]. Таким образом, при итеративной поиске оптимума по частотам минимальный шаг смещения можно назначить равным 3 Гц. И какую бы начальную частоту ни взять, сетка частот не отобразится взаимнооднозначно на целочисленную сетку периодов. Поэтому условие кратности количества узлов в окне просмотра периоду основной гармоники, требуемое в теореме 2.4, не будет выполнено. Что приведет к вредной зависимости амплитуд гармоник от текущих фаз. Оптимизация по периодам на целочисленной сетке таким недостатком не обладает.

Для конкретной частоты дискретизации ujdiscr (она в явном виде задается в WAV-файле) легко рассчитать по диапазону [штт}штах] фундаментальных частот соответствующий диапазон целочисленных периодов [Ттош,Ттоаж]: На стр. 16 указывались диапазоны фундаментальных частот мужского и женского голосов - 85 -=- 155 Гц и 165 + 255 Гц, соответственно. На наиболее распространенной частоте дискретизации 44100 Гц соответствующие диапазоны периодов будут от 280 до 520 отсечек и от 140 до 260 отсечек. Наибольшее частотное изменение при переходе от одной отсечки к соседней составит « 2.234 Гц. Следовательно, частотное изменение при изменении периода на 1 будет не воспринято человеком.

Возьмем пробники (2.10) на носителях (2.38), в которых мультипликаторы E(j), j = 0,..., Р, взяты из таблицы 6. Согласно теореме 2.5 такой выбор обеспечивает взаимную ортогональность пробников. А это означает, что в критерии q m (z,T,S,v) матрица квадратичной формы / 2 положительно определена и имеет диагональный вид (см. доказательство теоремы 2.1). В силу теоремы 2.6 данный выбор дает единственный минимайзер z . Его компоненты легко вычисляются: 2/ —— J2 W(m + k)vi(T,k), І = 0,...,2Р. (2.46) 2 ko E2T Затем вычисляется значение критерия для этого минимайзера: q m (z ,T,S,v). 2.4.3. Минимизация вычислительной погрешности при градиентной оптимизации для фиксированного периода

Расчет синусно-косинусных амплитуд непосредственно по формуле (2.46) может приводить к большим вычислительным погрешностям. Это обнаруживается легкозамечаемой взаимосвязью между частотой и амплитудой: низкочастотная составляющая имеет большую амплитуду, а высокочастотная — малую. Такое же вредное влияние оказывает на точность в определении амплитуд гармоник постоянная составляющая.

Указанное осложнение можно ослабить следующим образом. 1. После нахождения постоянной составляющей согласно формуле (2.46) она вычитается из входного сигнала: щ(к) = W(m + к) - z0 1, к є Sh 2. После нахождения амплитуды первой гармоники по модифицированно му сигналу W производится еще одна модификация для определения амплиту ды второй гармоники: W2(k) := Wx(k) - zlVl(T,k) - z2v2(T,k), к Є S2. 3. И так далее: Wi+l(k) := Щк) - Z2i-iv2i-i(T,k) - Z2iV2i(T,k), к є +ь і = 2,...,Р - 1. Если все бы вычисления выполнялись точно, то скалярное произведение Wi с высокочастотными пробниками v2j и v2j-\, j і, совпадало бы со скалярным произведением этих пробников на входной сигнал. Такое совпадение обеспечивается ортогональностью пробников.

Можно взглянуть и по-другому на предлагаемый прием. Если входной сигнал имеет вид (2.23), уже найден период основной гармоники и остается опреде 55 лить только амплитуды обертонов, то, выполняя для этого скалярное произведение входного сигнала на высокочастотный пробник, мы увидим, что погрешность этого определения зависит от того, насколько близко к нулю оказывается скалярное произведение высокочастотного пробника и низкочастотного, умноженного на амплитуду, теоретически равное нулю. При больших амплитудах низкочастотной гармоники могут возникать погрешности скалярного произведения, зависящие от квантования и вычислительных погрешностей, сопоставимые с амплитудами высокочастотной гармоники. Если же изъять каким-то образом из входного сигнала низкочастотную составляющую с большой амплитудой, то можно ожидать сокращение погрешностей вычисления амплитуд высокочастотных составляющих. Подобное явление будет наблюдаться даже и при неточных вычислениях амплитуд низкочастотных составляющих.

Синтез выходного потока

Эта аппаратура, согласно паспортным данным, позволяла высококачественно записывать (см. микрофон) с последующим воспроизведением различимый звук до частот от 50 до 16000 Гц, что надежно перекрывает весь частотный диапазон человеческой речи.

Программное обеспечение. Для исследования фразы записывались с помощью микрофона и звукового редактора Sound Forge Pro 11.0 в WAV-файл. Для работы с оцифрованным звуком был выбран язык программирования C++ за такие достоинства: широкая распространенность, создание эффективных загрузочных модулей, возможность применения операций на низком уровне.

Основа экспериментального материала была составлена из десяти предложений, длительность зачитывания которых была около четырех секунд при темпе, близком к темпу зачитывания новостей по телевизору. Пять предложений зачитывались низким голосом (мужским), пять других — высоким голосом (женским) и записывались на частоте дискретизации 44100 Гц, моно, в WAV-файлы, которые потом использовались как входные для компьютерной обработки.

Переработанный цифровой звук после воспроизведения выходных WAV-файлов с помощью описанного в предыдущем параграфе аппаратного и программного обеспечения составил стимульный материал для оценки качества всей цепи: аналоговая запись оцифровка анализ оцифрованного звука синтез нового файла с переработанным оцифрованным звуком воспроизведение.

Поскольку эксперименты производились со звуком моно, из пяти динамиков 4 были отключены. Работающий динамик был укреплен на оштукатуренной стене в один кирпич и находился выше сабвуфера на 1.2 м. Последний распола 88 гался на письменном деревянном столе на расстоянии 10 см от стены и одного метра от лица сидящего слушателя. Линия слушатель-сабвуфер была перпендикулярна стене. Фразы: 1. Сам процесс ввода публикаций не вполне тривиален. 2. В будущем это может отразиться на размерах стимула. 3. Серьезно отнеситесь к организации выполнения работы. 4. Сегодня из девяти человек, которые работают в компании... 5. Наши программисты трезво оценивают свои возможности. Стимульный материал был дан прослушан аудитории из семи различных людей без слуховых дефектов. Единодушно всеми было отмечено следующее: 1. Замедление. Проверялись различные замедления на 0, 10, 20, 30, 40 и 50%. Дефектов в голосе замечено не было. Также не было отмечено отличий в го лосе диктора от оригинала. Существующие в интернете замедляющие “кон куренты” — конвертер PhotoSounder, онлайн-сервис VocalRemover, аудио редактор AudaCity, программы Audio Speed Changer Pro и PaulStretch — имели следующие существенные дефекты. (a) PhotoSounder и PaulStretch. Помимо сильных искажений частотных характеристик появлялись дополнительные шумы. (b) VocalRemover, AudaCity и Audio Speed Changer Pro, видимо, осуществляют замедление вставкой пустых участков, что особенно заметно при больших замедлениях. 2. Ускорение. Проверялись различные ускорения на 30, 40, 50, 70 и 100%. До 50% дефектов в голосе замечено не было, также не было отмечено отличий в голосе диктора от оригинала; проблем с восприятием информации у ауди тории не было. На больших ускорениях стали появляться проблемы с рас 89 познаванием информации у части аудитории. При ускорении 70% и первом прослушивании проблемы с распознаванием были у всех. Существующие в интернете ускоряющие “конкуренты” — онлайн-сервис VocalRemover, аудио-редактор AudaCity, программы Audio Speed Changer Pro, Adobe Audition и REAPER — имели те же особенности, и кроме того, VocalRemover давал ускорение лишь до 50%. Конвертер PhotoSounder и программа PaulStretch имели при ускорении такие же дефекты, что и при замедлении.

Прослушать результаты экспериментов можно на интернет-ресурсе [54]. Под “Конкурент 1” подразумевается онлайн-сервис VocalRemover, под “Конкурент 2” — аудиоредактор Audacity, под “Конкурент 3” — аудиоредактор Adobe Audition, под “Конкурент 4” — программа PaulStretch.

Как уже говорилось, продукты переработки файла тремя редакторами — VocalRemover, Audacity, Audio Speed Changer Pro — акустически неотличимы. Поэтому на интернет-ресурсе размещено сравнение с одним из них.

Иллюстрации крупным планом работы комплекса Темп-дискретизация проведем на односложном слове первой фразы: “сам”. Для удобства разделим этот слог на две части — “с” и “ам” — и рассмотрим по отдельности. Это позволит разглядеть на графике звукового давления отдельные колебания.

Фонема “с” — глухая, ей соответствует высокочастотная составляющая. В период ее главной гармоники укладывается примерно пять отсечек. Поэтому при частоте дискретизации 44100 Гц фундаментальная частота (см. стр. 15) будет находиться в районе 8 9 кГц, что наблюдается на рисунках 9 и 10. Если произвести подготовку рассматриваемого фрагмента к ускорению согласно предлагаемому алгоритму, то на прежней частоте дискретизации фундаментальная частота после синтеза уменьшится, и соответствующий ей участок сонограммы сместится вниз, что наблюдается на рисунке 11