Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Текстозависимая верификация диктора: модель, статистические исследования, комплекс программ Ручай, Алексей Николаевич

Текстозависимая верификация диктора: модель, статистические исследования, комплекс программ
<
Текстозависимая верификация диктора: модель, статистические исследования, комплекс программ Текстозависимая верификация диктора: модель, статистические исследования, комплекс программ Текстозависимая верификация диктора: модель, статистические исследования, комплекс программ Текстозависимая верификация диктора: модель, статистические исследования, комплекс программ Текстозависимая верификация диктора: модель, статистические исследования, комплекс программ Текстозависимая верификация диктора: модель, статистические исследования, комплекс программ Текстозависимая верификация диктора: модель, статистические исследования, комплекс программ Текстозависимая верификация диктора: модель, статистические исследования, комплекс программ Текстозависимая верификация диктора: модель, статистические исследования, комплекс программ Текстозависимая верификация диктора: модель, статистические исследования, комплекс программ Текстозависимая верификация диктора: модель, статистические исследования, комплекс программ Текстозависимая верификация диктора: модель, статистические исследования, комплекс программ Текстозависимая верификация диктора: модель, статистические исследования, комплекс программ Текстозависимая верификация диктора: модель, статистические исследования, комплекс программ Текстозависимая верификация диктора: модель, статистические исследования, комплекс программ
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Ручай, Алексей Николаевич. Текстозависимая верификация диктора: модель, статистические исследования, комплекс программ : диссертация ... кандидата физико-математических наук : 05.13.18 / Ручай Алексей Николаевич; [Место защиты: Челяб. гос. ун-т].- Челябинск, 2012.- 104 с.: ил. РГБ ОД, 61 12-1/924

Содержание к диссертации

Введение

ГЛАВА 1. Голосовая биометрика 9

1.1 Основные понятия голосовой биометрики 9

1.2 Обоснование уникальности речи 14

1.3 История развития распознавания диктора 16

1.4 Современное состояние и перспективы голосовой биометрики 23

1.5 Голосовые базы 25

1.6 Заключение 26

ГЛАВА 2. Текстозависимая верификация диктора 28

2.1 Общая модель распознавания диктора 28

2.2 Формантный метод текстозависимой верификации диктора

2.2.1 Обработка речевого сигнала 32

2.2.2 Вычисление векторов признаков 34

2.2.3 Построение решающего правила 35

2.3 Заключение 36

ГЛАВА 3. Форманты 37

3.1 Исследования формант 37

3.2 Выделение формант 39

3.3 Оценка точности и устойчивости извлечения формант 44

3.4 Заключение 47

ГЛАВА 4. Новый метод сегментации сигнала 49

4.1 Показатель Гёльдера как оценка сингулярности сигнала 49

4.2 Новый метод сегментации на основе оценки показателя Гёльдера 51

4.3 Оценка точности и устойчивости нового метода сегментации 55

4.4 Сравнение нового метода со стандартными методами сегментации 62

4.5 Заключение 65

ГЛАВА 5. Оценка надежности и улучшение формантного метода текстозависимой верификации диктора 66

5.1 Оценка надежности формантного метода текстозависимой верификации диктора с помощью метода опорных векторов 66

5.2 Оценка надежности формантного метода текстозависимой верификации диктора 68 5.3 Улучшение формантного метода текстозависимой верификации диктора 71

5.4 Заключение 74

ГЛАВА 6. Реализация системы разграничения прав доступа 76

6.1 Модель атак и защиты биометрических систем распознавания диктора 76

6.2 Описание общей системы разграничения прав доступа 82

6.3 Описание реализованной системы разграничения прав доступа 83

6.4 Описание интерфейса системы разграничения прав доступа 85

6.5 Заключение 87

Заключение 89

Список литературы 92

Введение к работе

Актуальность работы. В настоящее время актуальной является разработка систем, предназначенных для распознавания диктора. Такие системы активно развиваются в течение последних 60 лет. На данный момент задачу нельзя считать решенной, так как существующие системы распознавания диктора не отличаются высокой надежностью, по этой причине продолжается разработка и реализация новых методов и подходов. Преимущества биометрических систем в сравнении с парольными системами очевидны, они имеют большую практическую значимость, что обосновывает важность как теоретических исследований, так и практических разработок.

Цель работы. Целью данной диссертационной работы является разработка модели текстозависимой верификации диктора и реализация на ее основе системы разграничения прав доступа в операционной системе (ОС) Windows ХР. В соответствии с поставленной целью необходимо решить следующие задачи:

обзор существующих методов и подходов решения задачи распознавания диктора;

разработка модели текстозависимой верификации диктора;

исследование и оценка точности и устойчивости предложенных характеристик речи;

разработка и тестирование нового метода сегментации речевого сигнала для увеличения надежности распознавания диктора;

оценка надежности текстозависимой верификации диктора и исследование методов увеличения ее надежности;

разработка и реализация системы разграничения прав доступа в ОС Windows на основе модели текстозависимой верификации диктора.

Методы исследования. В процессе теоретических исследований применялись методы обработки речевого сигнала, теории вейвлет преобразования, распознавания образов, теории вероятностей и математической статистики. Для численных экспериментов использовалось тестирование на голосовых базах с реальными речевыми фразами.

Материал исследования. В ходе численных экспериментов использовались четыре голосовые базы, которые были собраны в Челябинском

государственном университете и содержали речевые фразы различных дикторов. Запись фраз велась в естественных условиях на микрофоны различных типов.

Область исследования. Областью исследования является разработка и реализация новых методов обработки речевого сигнала для решения задачи текстозависимой верификации диктора.

Предмет исследования. Предметом исследования диссертационной работы являются методы и модели текстозависимой верификации диктора, методы обработки речевых сигналов.

Научная новизна. Научная новизна диссертационной работы состоит в разработке и тестировании нового метода сегментации речевого сигнала для уменьшения ошибок текстозависимой верификации диктора.

Практическая значимость работы. Результаты, полученные в ходе исследования, нашли применение при создании системы разграничения прав доступа в ОС Windows ХР, которая была успешно протестирована на кафедре компьютерной безопасности и прикладной алгебры Челябинского государственного университета. Реализованные модули могут быть использованы при построении любых биометрических систем с целью разграничения прав доступа в ОС Windows ХР. Голосовые базы, собранные для численных экспериментов, могут также быть использованы для других исследований в области обработки речевых сигналов.

Основные научные результаты. В процессе выполнения диссертационной работы были получены следующие научные результаты:

  1. Получены оценки точности и устойчивости модифицированного метода вычисления формант на основе линейного предсказания.

  2. Разработан новый метод сегментации речевого сигнала для увеличения надежности текстозависимой верификации диктора. Новый метод основан на вычислении оценки показателя Гёльдера с помощью непрерывного вейвлет преобразования. Получены оценки точности и устойчивости предложенного метода сегментации.

  3. Разработан и улучшен формантный метод текстозависимой верификации диктора, получены оценки его надежности.

  4. Разработана система разграничения прав доступа в ОС Windows ХР на основе улучшенного формантного метода текстозависимой верификации диктора, которая успешно прошла тестирование на кафед-

ре компьютерной безопасности и прикладной алгебры Челябинского государственного университета.

На защиту выносятся следующие положения

  1. Оценки точности и устойчивости модифицированного метода вычисления формант на основе линейного предсказания.

  2. Новый метод сегментации речевого сигнала на основе оценки показателя Гельдера.

  3. Улучшенный формантный метод текстозависимой верификации диктора и оценки его надежности.

  4. Реализованная система разграничения прав доступа в ОС Windows ХР на основе улучшенного формантного метода текстозависимой верификации диктора.

Апробация работы. Основные положения диссертационной работы были апробированы на следующих конференциях и семинарах:

  1. «Безопасность информационного пространства», V—VIII международная научно-практическая конференция, 2006-2009.

  2. «Студент и научно-технический прогресс», ХХХІ-ХХХП студ. научная и межвузовская научно-практическая конференция, 2007-2008.

  3. «SIBINFO», 9-10 Всероссийский конкурс-конференция по информационной безопасности, 2009-2010.

  4. «Проблемы теоретической и практической математики», 40-41 Молодежная школ а-конференция, 2009-2010.

  5. «Современные проблемы математики», 42 молодежная школа-конференция, 2011.

  6. «Будущее образование и науки — в руках молодых», молодежная научная конференция, 2009.

  7. Семинар кафедры Компьютерной безопасности и прикладной алгебры Челябинского государственного университета, 2007-2012.

Публикации. Основные результаты опубликованы в 16 печатных работах [1]—[16], среди которых 2 работы [15, 16] размещены в журналах, включенных в перечень высшей аттестационной комиссией.

Структура и объем работы. Работа состоит из введения, шести глав, заключения, списка литературы, включающего 168 наименований. Объем диссертации составляет 104 страницы.

Современное состояние и перспективы голосовой биометрики

В первый год жизни ребенок может научиться произносить отдельные подражательные звуки, затем дети учатся складывать звуки в слова, и только к 3-5 годам ребенок уже по-детски умеет разговаривать. В течение долгого времени человеку приходится продолжать учиться говорить, на протяжении всего этого времени формируется устойчивость и уникальность голоса.

Обоснование стабильности и уникальности речи достаточно важно для задачи распознавания диктора. Как показывает практика, проявление индивидуальности голоса человека следует искать в двух основных группах признаков [1]. Первая группа связана с анатомическими особенностями голосового тракта, а вторая — с уникальным механизмом приведения его в действие (артикуляционной деятельностью), который обусловлен работой центральной нервной системы. Первая группа признаков отражает статические свойства речевого аппарата человека, а вторая группа уже описывает его поведение во времени.

Также стоит отметить, что индивидуальность зависит от произносимых звуков. Так, например, некоторые дикторы произносят одно слово, но при этом используют различные для этого звуки, аллофоны. Также необходимо отметить зависимость от диалекта диктора и его индивидуальности в произнесении фраз.

Анатомические особенности человека связаны с его голосовым аппаратом. Например, частота основного тона находится в прямой зависимости от колебаний голосовых складок, которые, в свою очередь, зависят от длины, толщины и натяжения последних. То есть различные анатомические особенности являются индивидуальными. Однако анатомическое обоснование не является обособленным, а тесно связано с артикуляционным.

Подробней остановимся на артикуляционном обосновании уникальности речи. Для этого рассмотрим речеобразование как динамическую задачу в повседневной жизни, где необходимо решать задачу управления мышцами. Так, например, при воспроизведении речи задействовано порядка 120 мышц: 44 мышцы груди, 9 мышц живота и брюшной полости, 28 мышц лица и челюстей, 12 мышц языка, 9 мышц глотки, 6 мышц мягкого неба и гортани. При этом управление мышцами порождает достаточно высокочастотный процесс, где частота находится в пределах 200-3400 Гц.

При огромной избыточности наших двигательных возможностей во время речеобразования возникает проблема ограниченности наших вычислительных ресурсов, таких как головной и спинной мозг. Исходя из современного представления физиологов о мозге, можно сказать, что наш мозг, образованный из нейронов, не может за один такт обрабатывать трехмерные данные [63]. Как было сказано выше, при речеобразовании необходимо решать задачу управления порядка 120 мышцами, но важно учитывать, что эта задача усложняется из-за того, что каждая из мышц (как и вес ткани человека) является нелинейной по управлению [29].

Тот факт, что решаемая нами в повседневной жизни задача управления имеет размерность намного больше, чем размерность нашего вычислителя, говорит о том, что мы не способны быстро и точно выполнять не только совершенно новые задачи управления, но и переобучаться. Для того, чтобы их осуществлять, нам приходится долгое время подбирать собственные решения сложных задач управления и запоминать их путем долгих тренировок. То есть уникальность речи появляется вследствие случайности и неповторимости процедуры обучения речеобразованию нашего мозга, каждый человек уникальным образом вырабатывает динамику быстрых подсознательных движений при воспроизведении речи.

На протяжении всей оставшейся жизни человек пользуется выработанной схемой речеобразования. При этом возникает так называемая мышечная память, когда все управление мышцами происходит на подсознательном уровне. Мышечная память достаточно стабильна во времени в связи со сложностью кардинального переобучения индивидуальной схемы речеобразования и уровня подсознательности воспроизведения речи.

Как видим, речь человека является стабильной и уникальной, что дает право говорить о возможности успешного распознавания диктора по голосу, хотя эта задача окончательно не решена.

Весь путь решения задачи распознавания диктора можно уложить в отрезок 60 лет. Чтобы описать важные достижения и установить этапы истории развития этой области, разделим этот временной отрезок на десятилетия [105]. В работах [35, 73, 78, 108, 109, 135, 136, 145] были проведены и сделаны достаточно подробные обзоры развития области распознавания диктора.

1950-е годы Аудиториальный метод. Исследования в области распознавания диктора начались с аудиториальных методов оценки узнаваемости дикторов в различных условиях представления речевого сигнала [35]. Это метод основывается на слуховом восприятии речи человеком. С помощью аудиториально-го метода были проведены эксперименты для решения разнообразных задач таких, как установление информативности и индивидуальности отдельных звуков, определение наиболее индивидуальных участков спектра речи, выяснение роли амплитудных характеристик речевого сигнала для выделения индивидуальных характеристик речи, оценка различий между голосами дикторов и др.

Метод спектрограмм. Данный метод основывается на визуальной экспертизе видимых картин произносимых слов. Как и аудиториальный метод. метод спектрограмм является субъективным. Он заключается в получении контурных спектрограмм для произносимых слов и фраз в виде трехмерных изображений в координатах время-интенсивиость-частота [33]. Сразу можно отметить, что данный подход не дал высоких результатов в надежности распознавания диктора, так как этот метод сильно зависит от контекста, ко-артикуляции и редукции, уровня шума, изменения артикуляции с возрастом. Однако данный подход явился толчком к дальнейшему изучению спектральных характеристик речи, что позволило исследовать параметрическое описание сигнала и дать оценку информативности и индивидуальности признаков. 1960-е и 1970-е годы Ранние системы. Первая попытка автоматического распознавания диктора была предпринята в 60-е годы, на 10 лет позже, чем были осуществлены первые попытки автоматического распознавания речи. Pruzansky из Белл лаборатории [130] был одним из первых, кто начал исследования, с использованием банка фильтров и функции корреляции между спектрограммами сигналов для получения меры сходства. Затем Pruzansky и Mathews [131] улучшили данный метод, a Li [124] усовершенствовал его с помощью линейного решающего правила. Позже Doddington из компании Texas Instruments (ТІ) [93] использовал формантный анализ вместо банка фильтров. Было выяснено Endres [98] и Furui [103], что одной из самых серьезных проблем в распознавании диктора является вариативность характеристик в классе одного диктора.

Формантный метод текстозависимой верификации диктора

Под речевым сигналом понимают колебания воздушной среды, порождаемые движениями артикуляторных органов диктора [28]. Опуская технические подробности, будем считать, что речевой сигнал представлен отсчетами функции s(i) вещественной переменной [3, 33, 55]. В работе будем рассматриваться только дискретные сигналы, которые описываются дискретными последовательностями отсчетов s(n) = s(nT), где Т — const — интервал дискретизации, п — целое, п = 0,1,2,..., Аг. Так как частота речевого сигнала расположена в диапазоне от 200 Гц до 3400 Гц, то в соответствии с теоремой Котельникова частота дискретизации сигнала должна превышать удвоенное значение верхней частоты сигнала, то есть частота дискретизации должна быть не менее 6800 Гц.

Качество распознавания диктора по голосу сильно зависит от качества сигнала, так как система распознавания диктора чувствительна к фоновому шуму, канальному шуму и искажениям, создаваемым различными микрофонами. Зашумленный сигнал имеет вид s(t) — f(t) + e(t), где f(t) — полезный сигнал и e(t) — шум. Цель состоит в том, чтобы подавить шумовую составляющую e(t) сигнала и восстановить /() [27].

Для этого была использована шумоочистка сигнала с помощью дискретного вейвлет-преобразования. Для декомпозиции речевого сигнала был выбран вейвлет Добеши db4 с уровнем разложения от 4 до 6. Он является ортогональным вейвлетом с компактным носителем, па базе которого легко реализуется вейвлет-преобразование с использованием быстрых алгоритмов. Для каждого уровня выбирается оптимальный порог с помощью критерия Штейна несмещенной оценки риска [27], и применяется мягкая пороговая обработка детализирующих коэффициентов с многоуровневым трешолдингом. Далее производится вейвлет-реконструкция, основанная на первоначальных аппроксимирующих коэффициентах и модифицированных детализирующих коэффициентах всех уровней.

Следующей важной процедурой обработки сигнала является удаление из фразы слабовыраженных речевых участков, таких как начальные и конечные паузы. Проблема выделения начала и конца фразы является актуальной для многих областей обработки речи, так как достаточно важно точно определить границы фразы.

Проблема определения границ может быть решена методом, основанным на измерении энергии и числа переходов через нуль [35]. Так как энергия звуков речи с самым низким уровнем, таких как слабые фрикативные, превышает энергию фонового шума, граничные точки достаточно легко определить с помощью простого измерения энергии сигнала и числа переходов через нуль. Считается, что первые 100 мс записи не содержат речевой информации, и этот участок используется для вычисления пороговых значений величин. Обработка речевой фразы происходит окном длиной в 20-30 мс. Если измеренная энергия в окне больше порогового значения, то можно с уверенностью сказать, что в этом окне присутствует речевая информация. Однако, если энергия меньше порогового значения, — это еще не значит, что в этом окне нет речевой информации. Шипящие звуки не обладают большой энергией и представляют собой частые незначительные колебания около нулевого уровня.

Для более точного определения границ фразы используют число переходов через нуль. Начиная с первого окна, вычисляем уровень энергии в нем. Если он ниже порогового, то переходим па следующий сегмент и вычисляем энергию в нем. Если же средний уровень энергии в окне больше порогового, то идем в обратном направлений и сравниваем уже величину среднего числа переходов через нуль. Как только она становится меньше порогового значения, останавливаемся и считаем, что начало фразы найдено. Аналогично находится и конец фразы.

При записи речевого сигнала с микрофона уровень записываемого сигнала в разных условиях и для разных дикторов может значительно варьироваться. В результате этого при процедуре обучения фразы даже одного и того же диктора оказываются различными по амплитуде, также возможно изменение динамического диапазона амплитуды речевого сигнала в момент записи одной фразы. Причиной этого может быть, например, изменение расстояния между диктором и микрофоном в момент записи или изменение физических характеристик телефонного канала. Это приводит к неточному извлечению признаков и в итоге — к ошибкам верификации диктора.

Для нормализации уровня сигнала был применен метод усреднения уровня сигнала на протяжении всей фразы. Метод заключается в вычислении кратковременной энергии в окне. Затем осуществляется умножение отсчетов этого окна на коэффициент, равный отношению энергии всей фразы к кратковременной энергии окна, приводящее среднюю энергию всей фразы к одному уровню. 2.2.2 Вычисление векторов признаков

На основании данных, полученных с помощью опытов, основные физические проявления индивидуальности следует искать в спектральных или формантных признаках речевого сигнала. В качестве векторов признаков положим формантные наборы.

Термин формант был впервые введен Фланаганом в середине прошлого века [28, 30, 65]. Опуская физические подробности, под формантой будем понимать локальный максимум амплитуды сглаженного спектра, называемый амплитудой форманты, и соответсвующую ему точку экстремума, называемую частотой форманты. Традиционно форманты нумеруются в порядке возрастания их частоты Fl, F2, F3 и т.д.

Далее в тексте диссертации форманту будем формально обозначать как / = (to, а), где w — частота форманты, а — амплитуда форманты. Множество всех формант будем обозначать символом Н С R2. Можно считать, что / = (го, а) Є Я, то w 0 и а 0. Под формантным набором будем понимать набор формант =Ш?-і = {(г«і,аі)}7-і, где v Є N и Wi ф Wj, если і ф j, и Wi 10j, если і j. Под множеством формантных наборов X будем понимать множество всевозможных формантных наборов. Методы извлечения формант и оценка их точности и устойчивости будут подробно описаны в Главе 3.

В формантном методе текстозависимой верификации диктора векторы признаков должны вычисляться на определенных сегментах речевого сигнала. В большинстве существующих систем распознавания диктора используется метод покадровой обработки речевого сигнала, в рамках которого сигнал разбивается на пересекающиеся кадры с определенной длиной и шагом смещения. Длина сегмента зависит от скорости изменения артикуляторного аппарата при речеобразовании, а шаг смещения управляет скоростью, с которой отслеживается динамика изменения признаков в речевом сигнале [36]. Так как малая длительность кадра применяется для оценки динамики изменения спектральных составляющих сигнала, то шаг смещения выбирается таким образом, чтобы детали изменения спектра, с одной стороны, не были чрезмерно сглажены, а с другой стороны, не претерпевали резких изменений. Поэтому длина кадра и шаг смещения обычно объединены в пары. В существующих системах распознавания диктора используется длительность кадра, равная 20-30 мс, а шаг смешения — 10-20 мс [1]. Метод покадровой обработки речевого сигнала приводит к появлению провалов спектра сигнала, которые называют антиформантами. Также возникает проблема, которая заключается в том, что многие согласные в основном непериодичны, и их спектры поэтому частично или полностью являются сплошными, что отличается от спектров гласных звуков, являющихся периодичными. Данные недостатки приводят к неточным значениям формант, что сказывается на надежности распознавания диктора.

Оценка точности и устойчивости нового метода сегментации

Таким образом, для решения системы уравнений (3.4) относительно коэффициентов предсказания следует сначала вычислить величины ip(i, к), где і Є [0,р] и к Є [1,р]. Только после этого можно переходить к нахождению коэффициентов Ь/с

Существует два подхода для выбора конечного интервала [п пг]: автокорреляционный и ковариционный. Автокорреляционный подход основан на предположении, что сигнал равен нулю вне интервала [О, N — 1]. Тогда легко показать, что N-l-(i-fc) Ф,к)= Yl s(n)s(n + i-k), іє[0,р],кє[1,р]. n=0

Ковариционный подход заключается в том, что длина интервала [щ,П2\ уменьшается к концам интервала [О, N — 1] как в автокорреляционном методе, хотя различие между автокорреляционным и ковариционный подходом сводится к небольшим вычислительным деталям. Определив функцию передачи (3.1) по полученным коэффициентам Ьк, можно построить сглаженный спектр речевого сигнала s(n) [28], который определен как log ОД Uei„ = 10 log A(z) -20\og\A(z)\z=em. (3.5) Получаемый спектр не является спектром исходного сигнала, потому что для вычисления КЛП используют сотни входных отсчетов, а самих коэффициентов bk, где к — 1,... ,р, вычисляют не более двух десятков. Тем не менее, полученный из КЛП спектр характеризует спектр исходного сигнала.

Найти форманты можно с помощью вычисления корней знаменателя передаточной функции A(z). Эти корни называют полюсами передаточной функции (3.1). Представим функцию A(z) в виде разложения на линейные множители р р A(z) = 1- акг к = J](l - zh z-1), (3.6) fc=l k=\ где zu — корни функции A(z) при к — 1,... ,p. Используя (3.5) и (3.6), модуль сглаженного спектра можно выразить в виде V 10 1ogG(z),=eto = -20 J]logl-e -w) , (3.7) к=\ где Uk = —г In Zk — корни функции A(z) в единичной окружности комплексной плоскости при к = 1,... ,р. Как видно из формулы (3.7), корни шк однозначно характеризуют максимумы в сглаженном спектре, то есть однозначно определяют форманты. На основе корней zk, к = 1,... ,р, можно вычислить оценки формантных частот Wk и соответствующие им ширины частотных полос hk. fs I i-m(zk)\ fs wk = — arctan —Г т , hk = — \og\zk\, 2-7Г yre(zk) J 7Г где fs — частота дискретизации речевого сигнала, re и im — действительная и мнимая части комплексного числа. Порядок линейного предсказания р обычно выбирается равным примерно щ + 2... 4, из расчета одна форманта на 1 кГц спектра плюс 2... 4 форманты. Метод вычисления формант на основе линейного предсказания был модифицирован в соответствии с рекомендациями из статьи [60]: удалялись полюсы zk с im(zk) 0 и полюсы zk с частотой wk меньше 200 Гц, а также полюсы Zk с шириной hk меньше 500 Гц. Пример сглаженного спектра гласного ударного звука «а» и его формант показан на рисунке 3.1. 1001 2001 3001 4001 S001 Частота, Гц Рисунок 3.1. На рисунке толстой линией изображен сглаженный спектр речевого сигнала гласного ударного звука «а», квадратами на нем отмечены локальные максимумы данного спектра, которые соответствуют восьми формантам, тонкой линией изображены отсчеты ДПФ сигнала Достаточно важным вопросом для выделения формант с помощью полюсного фильтра является вопрос устойчивости системы. Говорят, что система устойчива, тогда и только тогда, когда ее реакция на любой ограниченный по амплитуде сигнал ограничена. Для того чтобы линейная система была устойчива, необходимо и достаточно, чтобы все полюсы системы были по модулю меньше единицы, то есть \zk\ 1,к = 1,... ,р. В общем случае система может быть как устойчивой, так и неустойчивой. Неустойчивость может приводит к тому, что спектральные пики, соответствующие формантам и найденные с помощью полюсов фильтра, могут не соответствовать истинным значениям.

Вопрос устойчивости системы был детально исследован в работе [28], где показывается, что, если обеспечивается достаточная точность вычислений, то использование автокорреляционного метода гарантирует условие \zk\ 1, к — 1,... ,р, то есть условие устойчивости системы.

В ходе исследований формант было обнаружено появление аномальных выбросов в выборке значений частот формант ШІ, і = I,...,п. Точечная оценка значений частот форманты может быть найдена как

По начальной выборке объема п вычисляется значение статистики т\. Затем из выборки удаляется экстремальный член гитіП(гитах) — в зависимости от того, какое значение более удалено от w. Вычисление последовательных статистик ведется до тех пор, пока тг+\ ТІ, И пусть повторится к раз. Полученные значения статистик т,, г = 1,...,/с, каждый раз сравниваются с критическими значениями. Превышение критерием критического значения позволяет установить не только наличие выбросов, но и их количество.

Точность и устойчивость формант была оценена в экспериментах на собранной голосовой базе ГБ4, состоящая из 12 дикторов, каждый из которых произносил 50 раз гласный звук «а». Для извлечения формант был использован модифицированный метод на основе линейного предсказания из раздела 3.2. Для вычисления 3 формант был выбран порядок предсказания р — 12, для 5 формант — р — 14.

В таблице 3.1 приведены значения частот первых 3 формант для первого диктора. Значения частот первых 3 формант согласуются со значениями формантных частот гласного звука «а» из статьи [60]. В таблице 3.2 приведены значения частот первых 5 формант для первого диктора.

Описание общей системы разграничения прав доступа

Данные условия образуют систему линейных неравенств относительно (z,b), которая в случае линейного разделения обучающей выборки (X, Y) может быть решена методами линейной алгебры или методами оптимизации.

В случае линейно неразделимой обучающей выборки (X, Y) не все следующие условия (5.1) будут выполнены. Однако эту задачу классификации можно свести к задаче поиска максимальной совместной подсистемы системы линейных неравенств или к задаче оптимизации.

Для построения нелинейного разделителя был предложен способ создания нелинейного классификатора, в основе которого лежит переход от скалярных произведений к произвольным ядрам. Решение проблемы линейной неразделимости происходит на основе перехода от исходного пространства признаков X = Rd к новому пространству Я с помощью некоторого нелинейного преобразования ф : Rd — Н, Пространство И называют спрямляющим. Введем понятие ядреной функции К : Hd х Rd - R как функции К{х,у) = ("Ф{Хг),ф{х )н. Для построения гиперплоскости с максимальным зазором в пространстве Н нет необходимости задавать преобразование ф в явном виде, достаточно лишь знать К. На практике обычно используют следующие ядра:

Далее опишем метод получения оценки надежности формантного метода текстозависимой верификации диктора [50] с помощью метода опорных векторов.

Эксперименты проводились на голосовой базе ГБ2, состоящей из 100 дикторов, каждый из которых произносил 13 раз некоторую одинаковую для всех фразу. Обозначим объекты, относящиеся к каждому классу дикторов, следующим образом: где га = 100 — количество дикторов и к = 13 — количество попыток. Для каждого объекта распознавания uty из класса Г2 необходимо задать вектор признаков Жу.

Первый эксперимент заключается в том, чтобы выяснить, можно ли построить гиперплоскость между двумя любыми классами Q,ix и ПІ2 дикторов на основе заданных векторов признаков x j и x,2j. С помощью реализованного метода опорных векторов установлено, что практически все классы дикторов были линейно неразделимы, то есть невозможно было построить разделяющую гиперплоскость между классами без ошибок распознавания.

Далее в этом эксперименте был использован метод опорных векторов на основе расширения пространства, где в качестве ядра было выбрано полиномиальное ядро с d — 2. В результате эксперимента все классы дикторов успешно были разделены гиперплоскостями, то есть успешно были построены разделяющие гиперплоскости между классами без ошибок распознавания.

Второй важный эксперимент заключался в проверке того, что один класс ПІ можно отделить от всех остальных вместе взятых классов с помощью разделяющей гиперплоскости. Аналогично результатам первого эксперимента было установлено, что только с помощью метода опорных векторов на основе расширения пространства с полиномиальным ядром можно построить разделяющую гиперплоскость без ошибок распознавания.

На основании полученных результатов можно сделать вывод о том, что возможно успешное разделение множества образов без ошибок. Однако в системах текстозависимой верификации [88, 89, 96] с помощью решающего правила на основе метода опорных векторов возможны ошибки. Это следует из того, что обучение системы происходит на выборке малого объема, в итоге обучение будет приводить к ошибкам распознавания.

Для того чтобы получить количественную оценку надежности формантного метода текстозависимой верификации диктора, необходимо найти ошибки перового и второго рода [10]. Для экспериментов была использована голосовая база ГБЗ из 100 дикторов, каждый диктор произносил 13 раз некоторое одинаковое для всех слово. Предварительно все 1300 фраз разбивались на кратковременные непересекающиеся вокализованные сегменты так, чтобы каждому сегменту соответствовал гласный звук слова. Для этого применим два метода сегментации сигнала: метод покадровой обработки и новый предложенный метод сегментации сигнала с помощью оценки сингулярности. Для каждого сегмента вычислялись векторы признаков, формантные наборы, то есть для каждой фразы и находим вектор признаков х(и).

Сравнение фраз дикторов щ и ujj осуществляется при помощи модифицированного решающего правила (2.2) при заданном пороговом значении Л

Затем составим матрицу Мшохізоо п0 всевозможным фразам дикторов, элементами которой являются 1 и 0, соответствующие результатам решающего правила (5.2).

При успешном распознавании дикторов в идеальном случае матрица М должна содержать единицу только в тех местах, где фразы соответствуют одному и тому же диктору. Поэтому количество единиц для такой матрицы должно быть равно с\ = 1300-13, а нулей должно быть со = 1300-(1300 —130).

В построенной матрице М в тех местах, где фразы соответствуют одному и тому же диктору, подсчитываем количество нулей do- А в тех местах, где фразы соответствуют разным дикторам, подсчитываем количество единиц d\. Тогда ошибки первого рг и второго рг рода определим соотношением do d1 Pi = — и р2 = — С! С0 Перебирая различные пороговые значения Л в пределах [0,100], вычисляем ошибки первого и второго рода для этих пороговых значений описанным выше способом. На рисунке 5.1 приведены графики зависимости ошибок первого и второго рода от порогового значения. Для наглядности некоторые значения этой зависимости содержатся в таблице 5.1.

Похожие диссертации на Текстозависимая верификация диктора: модель, статистические исследования, комплекс программ