Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Система разделения дикторов на основе вероятностного линейного дискриминантного анализа Кудашев Олег Юрьевич

Система разделения дикторов на основе вероятностного линейного дискриминантного анализа
<
Система разделения дикторов на основе вероятностного линейного дискриминантного анализа Система разделения дикторов на основе вероятностного линейного дискриминантного анализа Система разделения дикторов на основе вероятностного линейного дискриминантного анализа Система разделения дикторов на основе вероятностного линейного дискриминантного анализа Система разделения дикторов на основе вероятностного линейного дискриминантного анализа Система разделения дикторов на основе вероятностного линейного дискриминантного анализа Система разделения дикторов на основе вероятностного линейного дискриминантного анализа Система разделения дикторов на основе вероятностного линейного дискриминантного анализа Система разделения дикторов на основе вероятностного линейного дискриминантного анализа Система разделения дикторов на основе вероятностного линейного дискриминантного анализа Система разделения дикторов на основе вероятностного линейного дискриминантного анализа Система разделения дикторов на основе вероятностного линейного дискриминантного анализа
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Кудашев Олег Юрьевич. Система разделения дикторов на основе вероятностного линейного дискриминантного анализа: диссертация ... кандидата технических наук: 05.13.11 / Кудашев Олег Юрьевич;[Место защиты: Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики»].- Санкт-Петербург, 2014.- 158 с.

Содержание к диссертации

Введение

1 Современные подходыкзадаче разделения дикторов 14

1.1 Акустические признаки 15

1.1.1 Мел-частотные кепстральные коэффициенты 16

1.1.2 Коэффициенты линейного предсказания 19

1.1.3 Перцепционные коэффициенты линейного предсказания . 22

1.1.4 Постобработка акустических признаков 24

1.2 Детектор речевой активности 29

1.3 Сегментация фонограммы 33

1.3.1 Баейсовский информационный критерий 34

1.3.2 Обобщенное отношение правдоподобия 36

1.3.3 Дивергенция Кульбака-Лейблера 37

1.4 Кластеризация речевых сегментов по дикторам 39

1.4.1 Построение голосовой модели диктора 40

1.4.2 Методы кластеризации дикторов 47

1.4.3 Метод кластеризации на основе VBA 49

1.5 Оценка эффективности систем разделения дикторов 51

1.6 Выводы 53

2 Система разделения дикторовнаоснове PLDA 55

2.1 Вероятностный линейный дискриминантный анализ 56

2.2 Модель PLDA задачи разделения дикторов 60

2.2.1 Оценка параметров PLDA 60

2.2.2 Результаты численных экспериментов 64

2.3 Кластеризация речевых сегментов 70

2.3.1 Модельный отбор 71

2.3.2 Кластеризация при известном числе дикторов 77

2.3.3 Алгоритм кластеризации 87

2.4 Выводы 89

3 Построение системы разделения дикторов 91

3.1 Методика оценки эффективности систем 92

3.1.1 Акустические базы 93

3.1.2 Критерии оценки эффективности 98

3.2 Построение опорной системы разделения дикторов на фонограмме 102

3.2.1 Акустические признаки 102

3.2.2 Детектор речевой активности 102

3.2.3 Поиск точек смены дикторов на фонограмме 104

3.2.4 Кластеризация речевых сегментов по дикторам 105

3.2.5 Схема алгоритма опорной системы 105

3.2.6 Результаты численных экспериментов 106

3.3 Выбор акустических признаков 109

3.4 Модуль сегментации фонограммы 111

3.5 Модуль кластеризации 114

3.5.1 Кластеризация при известном числе дикторов 114

3.5.2 Модельный отбор 119

3.6 Выводы 126

4 Программные средства системы разделения дикторов 128

4.1 Структура системы разделения дикторов 128

4.2 Технические характеристики системы 132

4.2.1 Поддерживаемые архитектуры и операционные системы 132

4.2.2 Количество потребляемой памяти 133

4.2.3 Быстродействие системы 135

4.3 Сравнительный анализ с системой LIUM 138

4.3.1 Описание системы LIUM 138

4.3.2 Потребление памяти и быстродействие 140

4.3.3 Оценка эффективности 140

4.4 Дальнейшая работа 141

4.5 Выводы 142

Заключение 145

Литература 147

Коэффициенты линейного предсказания

Практическая значимость. Система, разработанная в рамках диссертационной работы, дает возможность осуществлять разделение дикторов на фонограмме при условии отсутствия информации о числе дикторов. При этом качество разделения сопоставимо и в некоторых случаях превышает качество аналогичной системы, работающей в условиях присутствия информации о числе дикторов. Применение разработанной системы в качестве этапа предварительной обработки речевого сигнала позволяет достичь 40 % относительного уменьшения величины равновероятной ошибки системы тексто-независимого распознавания дикторов по голосу, осуществляющей поиск целевого диктора на фонограмме.

Внедрение результатов работы. Результаты, полученные в рамках данной работы, нашли свое практическое применение в качестве программного модуля разделения дикторов, внедренного в состав ряда продуктов общества с ограниченной ответственностью «Центр Речевых Технологий»: АПК «Трал», ПО «VoiceGrid», голосовой поиск «VoiceGrid». Отдельные результаты диссертационной работы были внедрены в учебный процесс кафедры речевых информационных систем НИУ ИТМО в рамках дисциплины «Распознавание дикторов». Результаты внедрения подтверждены соответствующими актами.

Апробация результатов работы. Результаты исследования представлялись и обсуждались на следующих научно-методических конференциях: I и II Всероссийский конгресс молодых ученых (Санкт-Петербург, 2012-2013), ХLI научная и учебно-методическая конференция НИУ ИТМО (Санкт-Петербург, 2012), 15th International Conference on Speech and Computer (Пльзень, Чехия, 2013), Acoustics, Speech and Signal Processing (ICASSP) (Флоренция, Италия, 2014). За научные результаты, полученные в ходе исследования, соискателем был получен диплом победителя конкурса грантов правительства Санкт-Петербурга для аспирантов в 2013 году.

Публикации. По теме диссертации опубликовано 8 печатных работ, 6 из которых в изданиях из перечня рецензируемых научных журналов ВАК, 3 из которых в международных журналах, индексируемых в базе данных Scopus.

Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения и списка литературы (112 наименований). Материал изложен на 158 страницах и включает 27 таблиц и 15 рисунков.

Современные подходы к задаче разделения дикторов На данный момент существует большое количество различных систем, решающих задачу разделения дикторов на фонограмме. В той или иной степени все такие системы включают в себя следующие основные этапы [8,21–24]:

Построение акустических признаков на фонограмме. Целью этого этапа является выделение из акустического сигнала наиболее значимой информации, отвечающей за индивидуальные особенности голоса диктора. Среди многих требований, предъявляемых к такой информации, в первую очередь следует отметить устойчивость к различных акустическим искажениям и помехам, а также относительную быстроту вычисления. В разделе 1.1 представлено подробное описание основных акустических признаков, используемых как для задачи разделения дикторов на фонограмме, так и для других задач автоматической обработки речи.

На этом этапе производится выделение тех сегментов фонограммы, которые содержат запись голоса диктора. Очевидно, этот этап необходим для исключения излишней информации и ускорения работы алгоритмов. В разделе 1.2 приведены наиболее распространенные и эффективные методы детектирования речевых сегментов на фонограмме, существующих на данный момент.

Под сегментацией речевых сегментов фонограммы понимается нахождение точек смены дикторов на этой фонограмме. Таким образом, результатов этого этапа является первоначальное выделение таких сегментов, которые содержат речь только одного диктора. В разделе 1.3 приведены методы поиска точек смены дикторов и основные применяемые для этого критерии.

В результате выполнения этапа сегментации, на выходе формируется наборе непересекающихся сегментов фонограммы, каждый из которых содержит речь только одного диктора. На этапе кластеризации необходимо произвести объединение всех сегментов, содержащих речь одного и того же диктора, в один набор речевых сегментов - кластер. В разделе 1.4 приведены основные современные подходы к решению задачи кластеризации речевых сегментов по дикторам.

Сложно переоценить роль акустических признаков в системах автоматической обработки речи. Удачный выбор акустических признаков, с одной стороны, позволяет справиться со многими трудностями, такими как наличие различных типов шумов, акустических искажений и т.п. С другой стороны, он позволяет выделить наиболее значимую информацию из акустического сигнала, значительно снижая объем входных данных и, тем самым, увеличивая быстродействие системы.

Для решения различных задач области обработки речевого сигнала применяются различные акустические признаки. В данном разделе предлагается остановиться на основных и наиболее распространенных среди таких задач акустических признаках. Здесь будет дано их краткое описание, приведены результаты воздействия на них различного рода акустических помех и искажений, а также представлены различные методы нормализации и постобработки акустических признаков. 1.1.1 Мел-частотные кепстральные коэффициенты

Мел-частотные кепстральные коэффициенты (Mel-frequency cepstral coefficients, MFCC) хорошо зарекомендовали себя как в задачах распознавания речи [25,26], так и в задачах распознавания дикторов [6,27,28]. Эти две задачи являются в какой-то степени противоположными друг другу, т.к. в задаче распознавания речи необходимо максимально уменьшить дикторскую вариативность, а в задаче распознавания дикторов, наоборот, следует эту вариативность максимально сохранить, уменьшив в свою очередь лингвистическую. Успешное применение в обоих задачах одних и тех же акустических признаков указывает, с одной стороны, на то, что эти акустические признаки содержат в себе достаточно широкий спектр как дикторской, так и лингвистической информации. С другой стороны, это также означает, что указанные две задачи тесно связаны друг с другом и достаточно сложно отделить один тип вариативности от другого.

Построение признаков MFCC начинается с процедуры разбиения входного сигнала на временные окна небольшой длины (20-30 мс), называемые кадрами, с фиксированным шагом смещения (10-15 мс). Далее, для каждого полученного кадра применяются следующие преобразования [29]:

Кластеризация речевых сегментов

Задача кластеризации по дикторам состоит в группировке сегментов фонограммы, полученных в результате сегментации, таким образом, чтобы каждый полученный набор сегментов (кластер) содержал речь одного и того же диктора, а различные кластеры содержали речь различных дикторов.

Фактически, решение этой задачи равносильно решению задачи разделения дикторов на фонограмме и является наиболее сложным их всех рассматриваемых этапов. Предварительные этапы, такие как выделение речевых участков и их сегментация, призваны для увеличения эффективности решения задачи кластеризации, но не упрощают её. Для кластеризации сегментов фонограммы зачастую применяются те же метрики оценки схожести речевых участков, как и при задаче сегментации. К этим метрикам в первую очередь стоит отнести BIC и КЛ – дивергенцию, описанные в разделе 1.3. Однако, для более точной оценки параметров распределения акустических признаков голоса диктора, вместо гауссовых распределений применяются более сложные модели, такие как СГР [72], факторный анализ [4] в пространстве «собственных голосов». Кроме этого, применяются различные методы компенсации вариативности, такие как линейный дискриминантный анализ (Linear Discriminant Analysis, LDA), метод главных компонент (Principal Component Analysis, PCA) [73].

Среди множества методов, используемых для решения задачи кластеризации, отдельно стоит рассмотреть методы, применяемые для построения голосовых моделей дикторов.

В этом разделе будет дано краткое описание основных современных методов как построения голосовой модели диктора, так и непосредственно кластеризации.

Можно сказать, что задача построения голосовой модели диктора является краеугольным камнем на этапе кластеризации речевых сегментов. Фактически, в зависимости от качества создаваемой модели напрямую зависит и качество всей системы разделения дикторов. Под качеством здесь подразумевается, во-первых, обобщающая способность модели, а, во-вторых, её дискриминативная способность. Таким образом, в случае построения удачной голосовой модели, задача кластеризация может быть сведена к простому попарному сравнению голосовых моделей речевых сегментов и объединению наиболее схожих сегментов.

Однако, на практике возникает множество трудностей, препятствующих построению качественной голосовой модели. Среди таких трудностей можно отметить наличие различного рода вариативностей, среди которых: лингвистическая вариативность; внутри-дикторская вариативность, связанная с различным эмоциональным состоянием диктора; вариативность акустического окружения и канала. Также значительную трудность представляет собой изначально достаточно малое количество материала, используемого для оценки параметров модели, поскольку отдельно взятый сегмент фонограммы содержит зачастую менее 1 секунды речи диктора.

Достижения в области разделения дикторов на фонограмме тесно связаны с методами построения голосовой модели в области тексто-независимой идентификации дикторов по голосу. Среди таких методов следует отметить применение СГР и факторного анализа в пространстве «собственных голосов» (Eigen Voice, EV)и в пространстве «полной изменчивости» (Total Variability, TV) [9].

Рассмотрим набор входных данных X = {xt}J=1, xt Є RD. Как известно, СГР представляет собой взвешенную сумму гауссовых распределений и плотность распределения СГР задается в виде формул: где М - количество гауссойд смеси; 7гс - веса гауссойд; /ІС, ЕС - средние значения и ковариационные матрицы гауссовых распределений.

Задача построения голосовой модели на основе СГР для рассматриваемого набора данных X сводится к оценке параметров /ІС, ЕС, 7ГС.

Одним из критериев оценки этих параметров является метод максимального правдоподобия (Maximum Likelihood, ML). Считая набор значений входных данных X независимыми, ML-оценку параметров можно выразить формулой [64]:

Не существует аналитического решения уравнения (1.43) для СГР, позволяющего получить точные оценки параметров гауссойд. Вместо этого применяется итерационный алгоритм EM (Expectation-Maximization) [64], позволяющий найти значения параметров, доставляющих один из локальных максимумов функции правдоподобия.

Существует проблема переобучения параметров на входные локальные данные. Как следствие, критерий ML обладает низкой обобщающей способностью в случае, если размер входных данных достаточно мал относительно количества оцениваемых параметров.

Наряду с критерием ML, существует не менее распространенный критерий MAP (Maximum A Posteriori) - оценки. Суть его заключается в использовании априорной информации о распределении искомых параметров. Используя теорему Байеса, критерий MAP-оценки сводится к следующей формуле:

Если в качестве априорного распределения используется сопряженное семейство распределений, то MAP-оценка параметров сводится к аналитическому решению. Так, для семейства СГР, MAP-оценка параметров принимает вид [7]: где г - фиксированная величина, т.н. релевантность, которая изменяется в диапазоне от 0 до оо. В частности, в случае равенства релевантности нулю, формулы (1.45), (1.46), (1.47) представляют собой стандартную оценку ML.

Применения критерия MAP-оценки позволяет получать наиболее робастную оценку параметров модели даже при небольшом размере входных данных.

Как правило, в качестве априорного распределения выступает СГР, обученная алгоритмом EM на большой и представительной базе обучения и носит название UBM (Universal Background Model).

Также необходимо отметить, что чаще всего адаптации подвергаются только средние значения гуссойд, в то время как веса и ковариационные матрицы остаются без изменений.

В 2005 году была представлена работа [10], которая легла в основу самых эффективных на текущий момент методов создания голосовой модели дикторов [28]. В основе этой работы лежит идея применения факторного анализа при MAP-оценке средних значений гауссойд СГР модели диктора. Предполагается, что для произвольного диктора средние значения СГР его модели могут быть представлены в виде:

Акустические признаки

Остается открытым вопрос о начальной инициализации искомых параметров. Более простым представляется способ инициализации значений q k. Можно предложить несколько способов такой инициализации:

Путем предварительной кластеризации другим методом, к примеру, методами, описанными в разделе 2.3.2. В этом случае значение qik можно установить близким к 1, если вектор w{ в соответствии с предварительной кластеризацией принадлежит диктору к.

Представленный метод вариационного приближения искомых параметров, как и многие другие итерационные методы, гарантирует сходимость к локальному максимуму функции правдоподобия. Таким образом, для улучшения надежности кластеризации можно производить несколько различных инициализаций, в результате чего произвести выбор из набора получившихся параметров те, которые доставляют максимум нижней границе.

Необходимо сделать одно замечание относительно представленных методов кластеризации речевых сегментов. Замечание полученный набор различных вариантов кластеризации речевых сегментов фонограммы. Поскольку количество речевых сегментов, как правило, значительно больше, чем максимальное указанное число дикторов Ктах, с большой долей вероятности существуют такие множества речевых сегментов, которые лежат внутри одного кластера для всех вариантов кластеризации. В этом случае можно с высокой степенью уверенности утверждать, что эти речевые сегменты принадлежат одному диктору. Как было показано в численных экспериментах раздела 2.2.2, надежность разделения речевых сегментов значительно увеличивается при увеличении их длины.

Учитывая все вышесказанное, предлагается после этапа кластеризации и получения набора {Ото} =1 производить объединение речевых сегментов, которые лежат внутри одного кластера для всех вариантов кластеризации. Для этого можно применить иерархическую кластеризацию, алгоритм которой состоит из следующих этапов:

Произвести объединение тех пар кластеров, для которых S{j = М, получив тем самым новый набор кластеров &t+i. 4. Пункты 2-3 повторять до тех пор, пока есть возможность производить объединения.

Этот алгоритм представляет собой модифицированный алгоритм агломера-тивной иерархической кластеризации. Его отличие состоит, во-первых, в более надежном способе выбора пар объединяемых кластеров, и, во-вторых, в допущении одновременного объединения нескольких пар кластеров.

После применения иерархической кластеризации можно с более высокой степенью надежности произвести модельный отбор числа дикторов на фонограмме

Было показано, что применение напрямую оригинального метода PLDA из задач тексто-независимого распознавания дикторов по голосу нецелесообразно для решения задачи разделения дикторов на фонограмме, в рамках которой происходит оперирование короткими речевыми сегментами. В этой связи был предложен метод адаптации PLDA к рассматриваемой задачи, а также был проведен численный эксперимент, показывающий преимущество разработанного метода.

Был разработан метод кластеризации речевых сегментов на фонограмме по дикторам, состоящий из двух этапов: кластеризация при известном числе дикторов и модельный отбор итоговой кластеризации.

Для этапа кластеризации при известном числе дикторов было предложено два метода: метод спектральной кластеризации на основе метрики схожести PLDA, метод кластеризации на основе вариационного Байесовского анализа.

Для этапа, осуществляющего модельный отбор, было также предложено два варианта подсчета функции правдоподобия: на основе оценок схожести всевозможных пар входных векторов; на основе вероятностного линейного дискрими-нантного анализа. Для обоих методов были приведены способы настройки системы с целью регулировки соотношения ошибок первого и второго рода (ACP и ASP).

В заключении было дано описание общего алгоритма кластеризации речевых сегментов, а также были приведено замечание, позволяющее увеличить эффективность методов модельного отбора и кластеризации.

Сравнительный анализ с системой LIUM

Поскольку при практической эксплуатации разработанной системы, используется только модуль тестирования, рассматриваемые технические характеристики будут относиться исключительно к этому модулю.

Реализация модуля тестирования разработанной системы осуществлена с использованием языка программирования C++. Выбор данного языка программирования обусловлен его достаточно высоким уровнем абстракции, высоким быстродействием, а также возможностью поддержки различных архитектур процессоров и операционных систем посредством использования различных компи 133 ляторов и их параметров. Так, в результате реализации осуществлена поддержка следующих операционных систем и архитектур процессора:

Компиляция программных кодов для операционной системы семейства Linux осуществлялась при помощи компилятора GCC (GNU Compiler Collection) версии 4.4 [108]. Компиляция программных кодов для операционной системы семейства Windows осуществлялась при помощи MS Visual Studio 2010 [109].

Сборка программного обеспечения осуществлялась посредством кроссплат-форменной системы автоматической сборки CMake версии 2.8 [110].

Для ускорения трудоемких вычислительных операций использовались математические библиотеки IPP (Integrated Performance Primitives) [111] и MKL (Math Kernel Library) [112] компании IntelR.

Основным результатом сборки разработанной системы является динамически подключаемая библиотека, содержащая в себе набор функций, позволяющих производить разделение дикторов на фонограмме, а также набор файлов, хранящих параметры системы.

Количество потребляемой памяти обусловлено в первую очередь количеством памяти, необходимой для хранения промежуточных данных вычислений при работе системы. К таким данным относятся: акустические признаки, статистика Баума-Уэлша речевых сегментов, i-вектора речевых сегментов, матрица схожести AQ.

Пусть D - размерность используемых акустических признаков, Njea - количество акустических признаков фонограммы, Nseg - количество речевых сегментов фонограммы, М - количество гауссойд UBM, R - размерность i-вектора. Тогда количество памяти, необходимой для хранения основных промежуточных данных вычислений, представлено в таблице 4.1.

Стоит отметить одно важное замечание: вместо хранения исходных статистик Баума-Уэлша первого порядка n-го речевого сегмента Fn, целесообразнее хранить предварительно подсчитанное произведение TT_1F n , поскольку, во-первых, в формулах оценки апостериорных распределений параметров моделей дикторов метода VBAV (1.76) - (1.79) и апостериорной оценки распределения i-векторов (1.64) используется именно это произведение, а, во-вторых, размер полученного вектора TTS_1F n равняется размеру i-вектора R, что значительно меньше размера статистики первого порядка [D М].

Значения всех данных хранятся при помощи вещественного типа единичной точности, размер которого равен 4 байта. Это обусловлено экономией памяти, а также значительным увеличением быстродействия за счет использования SSE2 инструкций, позволяющих получить 4-х кратное увеличение скорости вычислений при работе с данными, хранящимися в данном формате. Кроме этого, численные эксперименты показали несущественное изменение качества работы системы при переходе от двойной к одинарной точности представления данных вещественного типа.

Основываясь на таблице 4.1, рассмотрим потребление памяти разработанной системы для 5-минутной фонограммы активного телефонного диалога базы NIST2008-ENG. Учитывая размер шага кадра равным 0.01 секунды при построении акустических признаков, число Nfea для рассматриваемого случая равняется 30000. Исходя из таблицы 3.14, длина речевых сегментов составляет в среднем не менее 0.5 секунд, следовательно, в качестве верхней оценки величины Nseg можно взять значение 600. Учитывая параметры разработанной системы, описанной в разделах 3.2, 3.3, размер акустических признаков D равняется 30, количество гауссойд М = 512, размер i-вектора R = 100. Тогда потребление памяти в данном случае составит порядка 6,5 Мб на одну фонограмму.

Рассчитанное значение является достаточно низким для современных ЭВМ, что позволяет одновременно обрабатывать значительное количество фонограмм на одном вычислительном сервере.

Необходимо заметить, что размер памяти, необходимой для хранения всех промежуточных данных вычислений, кроме матрицы «схожести», прямо пропорциональны длине обрабатываемой фонограммы. Количество элементов указанной матрицы прямо пропорционально квадрату длины фонограммы, что может привести к существенному возрастанию величины потребляемой памяти при работе с длинными фонограммами. Таким образом, этот факт накладывает ограничение на размеры обрабатываемых фонограмм в зависимости от объема доступной оперативной памяти ЭВМ.

Кроме хранения промежуточных данных вычислений для каждой фонограммы, хранение данных параметров модели (UBM, матрица Т, m,V, ) занимает 6 Мб. В дополнение к этому целесообразно хранить в памяти предварительно подсчитанную матрицу TT lT для ускорения расчетов блоков CALC i-VECTORS и VBAV, которая занимает дополнительные 20 Мб. Этот размер потребляемой памяти модулем тестирования является постоянным и не зависит от количества и длительности обрабатываемых фонограмм.

Похожие диссертации на Система разделения дикторов на основе вероятностного линейного дискриминантного анализа