Методы и модели распознавания русской речи в информационных системах Гусев Михаил Николаевич

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Гусев Михаил Николаевич. Методы и модели распознавания русской речи в информационных системах: диссертация ... кандидата технических наук: 05.13.10 / Гусев Михаил Николаевич;[Место защиты: Санкт - Петербургский государственный университет телекоммуникаций им . проф . М . А . Бонч - Бруевича].- Санкт-Петербург, 2014.- 378 с.

Содержание к диссертации

Введение

Глава I. Основные методы, модели и алгоритмы распознавания речи 21

1.1 Классификация систем распознавания речи 21

1.2 Этапы распознавания речи 23

1.2.1 Членение речевого потока 24

1.2.2 Вычисление акустических признаков 24

1.2.3 Сравнение со звуковыми моделями 25

1.2.4 Способы определения произнесения слов не из словаря системы47

1.2.5 Языковые модели 49

1.3 Выбор структуры системы 53

1.4 Выводы 55

Глава 2. Построение моделей звуков речи и подготовка речевых баз 56

2.1 Модели звуков речи 56

2.1.1 Классификация звуков речи 57

2.1.2 Именование звуков речи 61

2.1.3 Структура скрытых Марковских моделей звуков речи 62

2.1.4 Оптимизация структур моделей звуков речи 68

2.1.5 Результаты моделирования 75

2.2 Аннотирование речевой базы 76

2.2.1 Основные этапы формирования аннотации 76

2.2.2 Подготовительный этап 77

2.2.3 Формирование идеальных транскрипций 77

2.2.4 Предварительное обучение системы распознавания 84

2.2.5 Транскрипционное моделирование 85

2.2.6 Циклический этап 90

2.2.7 Коррекция границ звуков 91

2.2.8 Завершающий этап 94

2.2.9 Особенности предложекнного способа 95

2.3 Экспериментальная проверка 96

2.4 Выводы 97

Глава 3. Статистическая модель речи 99

3.1 Альтернативы 100

3.2 Сущность статистической модели 104

3.2.1 Общие положения 104

3.2.2 Общая структура статистической модели 104

3.3 Реализация статистической модели речи 110

3.3.1 Генерация последовательностей 110

3.3.2 Статистика о составе населения и ТД 112

3.3.3 Генерация выборки звуков 113

3.3.4 Определение длительностей звуков 114

3.3.5 Наложение интонационных контуров 116

3.4 Звуковые базы 119

3.4.1 Аллофонная звуковая база 120

3.4.2 Базы слитной речи 130

3.5 Особенности статистической модели 137

3.6 Области применения 138

3.6.1 Синтез речи 138

3.6.2 Оценка качества речевых сигналов 139

3.6.3 Исследование свойств речевых сигналов 140

3.7 Выводы 141

Глава 4. Моделирование длительности звуков речи 142

4.1 Основные причины вариативности длительности звуков 142

4.2 Зависимость вероятности появления фонем от их длительности 145

4.3.Учет длительностей в алгоритме распознавания 152

4.4 Оптимизация процесса распознавания 157

4.5 Результаты экспериментов 159

4.6 Развитие модели 160

4.7 Результаты экспериментов на расширенной модели 167

4.8 Выводы 167

Глава 5. Психоакустическая модель 169

5.1 Свойства звуковых сигналов и особенности их восприятия 169

5.1.1 Чувствительность слухового анализатора 170

5.1.2 Амплитудное распределение 180

5.1.3 Временные свойства слухового анализатора 181

5.1.4 Эффекты маскировки и критические полосы слуха 186

5.1.5 Временные характеристики речевого сигнала 189

5.2 Реализация психоакустической модели 191

5.3 Применение психоакустической модели в распознавании речи 201

5.4 Выводы 203

Глава 6. Речевая аналитика 205

6.1 Возможные подходы к построению системы 205

6.2 Основные элементы разработанной системы поиска ключевых слов 209

6.3 Минимизация фонетической сети 210

6.4 Режимы работы системы 215

6.5 Критерии оценки качества системы 220

6.6 Результаты тестирования 221

6.7 Выводы 222

Глава 7. Оценка качества передачи речевых сигналов 224

7.1 Классификация методов оценки качества звука 227

7.2 Обоснование необходимости разработки новых методов 228

7.3 Метод AQuA 230

7.4 Метод NIQA 251

7.5 Метод RecQual 260

7.6 Выводы 266

Заключение 267

Основные сокращения 273

Основные термины 275

Использованная литература 280

Приложения 298

Способы определения произнесения слов не из словаря системы
Подготовительный этап
Реализация статистической модели речи
Учет длительностей в алгоритме распознавания

Введение к работе

Актуальность темы. Десятилетиями ученые и инженеры искали способы, которые позволили бы общаться человеку с компьютером на естественном языке. Но до 50-х годов XX века термин «диалог» относился только к разговору двух людей.

В июне 2006 года в Санкт-Петербурге прошла XI Международная конференция SPECOM' 2006. На официальном открытии профессор Лоуренс Рабинер отметил, что исследователи речевых технологий прошли долгий путь. Так, например, исследователями Кембриджского университета (CUED) разработана система HTK, в университете Карнеги-Меллона (CMU) создана система Sphinx, а в Технологическом университете Брно – система Kaldi.

Но, несмотря на успехи, достигнутые в этой области, проблему автоматического распознавания речи еще нельзя считать решенной.

Вопросами общения человека с компьютером (или человека с человеком посредством компьютера) на естественном языке в звуковой форме занимается одно из направлений информационных технологий – речевые технологии.

Бурное развитие речевых технологий вызвано насущными потребностями современного общества в решении практических задач от создания голосовых интерфейсов к информационным системам до инструментов, используемых службами безопасности.

Речевые технологии сегодня – это целый комплекс направлений компьютерной обработки речи человека (синтез и распознавание речи, идентификация диктора по голосу, изменение тембра голоса и т.п.).

Практические задачи решаются на основе исследований и разработок программных и аппаратных систем синтеза, анализа и распознавания речи. Живая человеческая речь значительно отличается от всех технических сигналов. Для ее автоматической обработки недостаточно традиционных способов обработки сигналов – необходимо учитывать свойства восприятия и образования речи. Особенно это относится к распознаванию русской речи.

На сегодняшний день программные средства распознавания русской речи представлены единичными разработками. В России было создано лишь несколько коммерческих систем распознавания русской речи. В основном они обеспечивают распознавание небольшого словаря и рассчитаны на организацию речевых запросов к базам данных и для голосового управления оборудованием.

Это объясняется отсутствием необходимых методов, моделей и алгоритмов, позволяющих решать задачи организации интерактивных голосовых сервисов с должным качеством.

На современном этапе развития информатизации страны особенности строения и восприятия речевого сигнала не учитываются теорией распознавания русской речи, возникает сложная научная проблема разработки и обоснования обобщенного описания методов и моделей распознавания русской речи.

Таким образом, тема исследования является актуальной.

Теоретические и практические предпосылки к проведению данного исследования развиты в работах ученых И.А. Алдошиной, П.А. Скрелина, В.Н. Сорокина, В.В. Александрова, А.Л. Ронжина, В.И. Галунова, А.В. Аграновского и других исследователей.

Цель работы и задачи исследования. Целью диссертационной работы является повышение качества распознавания русской речи в информационных системах путем создания новых методов, моделей и алгоритмов, основанных на углубленных знаниях о свойствах русской речи.

Для достижения цели в диссертационной работе поставлены и решены следующие задачи:

Разработка моделей звуков речи на основе структуры звуковой волны.
Разработка модели длительности звуков речи.
Создание звуковых баз данных.
Исследование вариативности произнесения слов русской речи.
Исследование особенностей восприятия звуковых сигналов человеком.
Разработка модели усредненной речи для распознавания.
Создание методов оценки качества передачи речи.
Экспериментальная проверка предложенных методов, моделей и алгоритмов их реализаций на комплексе программных средств распознавания речи.

Объект исследования. Русская речь.

Предмет исследования. Методы, алгоритмы и методики распознавания русской речи.

Методы исследования. В диссертационной работе использованы методы: теории информации; теории множеств; теории вероятности,

экспертного и статистического анализа; теории графов; распознавания образов; интеллектуального анализа данных, обработки текстовой информации; распознавания человеческой речи; цифровой обработки сигналов; психоакустики; объектно-ориентированного программирования.

Положения, выносимые на защиту:

Модель длительности звуков речи; классификация и модели звуков русской речи, учитывающие структуру звуковой волны, их применение для распознавания речи.
Концепция статистической модели речи и метод транскрипционного моделирования вариативности произнесения слов русской речи; их применение для построения универсальных речевых баз.
Психоакустическая модель восприятия звуковых сигналов человеком и ее применение в распознавании речи и оценке качества передачи речи.
Модель усредненной речи и средства минимизации фонетической сети для поиска ключевых слов и распознавания речи.

5. Методы и программные средства оценки качества передачи речи.
Научная новизна. В работе исследована новая предметная область:

применение методов и моделей распознавания речи, основанных на знаниях свойств речевого сигнала и особенностей его восприятия. Наиболее важные результаты, составляющие научную новизну:

Разработана, экспериментально обоснована и исследована статистическая модель длительностей звуков русской речи, отличающаяся использованием модифицированной формулы закона нормального распределения для описания зависимостей и средствами учета длительности в алгоритме распознавания. Статистическая модель длительностей звуков русской речи дает дополнительные возможности повышения качества распознавания речи за счет учета длительности при вычислении подобия, и увеличения скорости распознавания путем исключения из рассмотрения цепочек с некорректной длительностью звуков. Также разработаны классификация и модели звуков русской речи, учитывающие структуру звуковой волны и открывающие широкие возможности повышения точности описания звуков в системах распознавания речи.
Разработана концепция статистической модели речи, представляющей собой универсальную речевую базу данных и знаний современного состояния языка. Отличается тем, что объединяет в себе элементы синтезатора речи, статистические данные и корпуса речевых

данных большого объема, со следующими целями: повышения качества синтетической речи, выдаваемой системами синтеза, создания звуковых потоков для обучения систем распознавания речи, тестирования и оценки качества вокодеров и каналов связи. Также статистическая модель речи позволяет проводить фундаментальные исследования.

Предложен метод транскрипционного моделирования, отличающийся тем, что правила транскрипционного моделирования формируют с учетом правил пропуска и замены символов, отображающих соответствующие звуки, вставки и смещения новой последовательности относительного центрального звука. Также при формировании правил учитываются как теоретически возможные искажения идеального произнесения, так и зависимости, полученные в результате анализа реальных звукозаписей речи. Предложенный метод позволяет с высокой степенью достоверности определять реальный звуковой состав произносимых высказываний.
Разработаны метод и программные средства автоматизации аннотирования речевых баз данных, отличающиеся использованием транскрипционного моделирования для выявления реализованного звукового состава записей базы, позволяющие существенно повысить эффективность процесса разработки.
Предложена психоакустическая модель, основанная на теории восприятия звука человеком, расширяющая возможности предварительной обработки звукового сигнала для исключения из него компонент, несущественных для восприятия. Предложенная модель отличается полнотой учитываемых одновременно свойств восприятия звука человеком.
Разработаны модель усредненной речи и методика ее построения, основанная на автоматизированном обучении по речевой базе, отличающаяся тем, что для каждого искомого слова формируется персональная структура, исходя из его звукового состава. Модель усредненной речи позволяет унифицировать построение антимоделей в системах поиска ключевых слов и снизить количество ложных срабатываний. Также предложены средства минимизации фонетической сети, позволяющие повысить скорость работы систем распознавания и поиска ключевых слов.
Разработаны методы и программные средства оценки качества передачи речи, позволяющие контролировать качество речевого сигнала; Метод AQuA отличается использованием расширенного набора критических

полос слуха, включая логарифмические и резонаторные полосы; учетом коэффициентов важности различных полос; использованием алгоритмов синхронизации исходного и оцениваемого сигнала; раздельной обработкой активной и неактивной фаз сигнала; возможностью использования специализированных сигналов для оценки качества. Метод NIQA отличается используемыми параметрами, вычисляемыми как в спектральной, так и во временной областях; применением психоакустической модели; использованием базы ассоциаций, используемых в качестве эталонов при вычислении оценок; формирование базы ассоциаций в результате обучения. Метод RecQual отличается тем, что оценка выполняется не на основе анализа параметров сигнала, а по результатам работы системы распознавания речи. Предложенные методы позволяют получать большую степень соответствия вычисляемых и экспертных оценок.

8. В результате экспериментальных исследований с применением разработанных программных средств доказана эффективность предложенных методов, моделей и алгоритмов.

Обоснованность и достоверность научных положений, основных выводов и результатов диссертации обеспечивается за счет всестороннего анализа состояния исследований в данной области, подтверждается корректностью предложенных моделей, результатами тестов, апробацией основных теоретических положений диссертации в печатных трудах и докладах на международных научных конференциях, результатами опытной эксплуатации и внедрения разработанных программных средств.

Практическая ценность работы. Разработанные и предложенные в данной работе методы и модели дают возможность:

проводить анализ речевых данных;

создавать системы распознавания речи и поиска ключевых слов с высокой точностью;

повысить эффективность служб безопасности и аналитики бизнеса;

повысить уровень автоматизации и качества обслуживания пользователей информационных систем;

понизить нагрузку на операторов экстренных служб;

автоматизировать классификацию звуковых архивов;

ускорить работу операторов колл-центров;

развивать смежные области, например: определение качества передачи речи и определение языка диктора.

Реализация результатов работы. Результаты работы были использованы при реализации проекта по созданию программного обеспечения голосовых ресурсов в ООО НПФ «Беркут»: на основе упрощенной статистической модели речи был создан компактный синтезатор речи по тексту, работающий в микроконтроллере.

Разработанные программные средства внедрены: в ООО «Новавокс» в системе повышения качества обслуживания звонков Novavox Smartphone Speech Attendant; в ООО «Сарапульские системы» при создании программного обеспечения «Словоискатель»; в программном обеспечении автоматизированной системы самообслуживания лаборатории 17 ИПУ РАН.

Исследования, отраженные в диссертации, реализованы при создании комплекса обработки мультимедийной информации «Буква–2» во ФГУП «НИИ «Квант», а также внедрены в учебном процессе на кафедре информатики и компьютерного дизайна СПбГУТ.

Апробация работы. Результаты работы докладывались на: 57, 58 НТК профессорско-преподавательского состава научных сотрудников и аспирантов ГУТ (Санкт-Петербург, 2005–2006); 11 и 12 международных конференциях SPECOM (Санкт-Петербург, 2006–2007); IV международном конгрессе «Нейробиотелеком – 2010» (Санкт-Петербург, 2010); II и III Международных научно-технических и научно-методических конференциях «Актуальные проблемы инфотелекоммуникаций в образовании и науке» (Санкт-Петербург, 2013–2014); 3-й Международной научно-практической конференции «Современное машиностроение» (Санкт-Петербург, 2013); VIІI Международной научно-практической конференции «Перспективные вопросы мировой науки–2013» (Прага, 2013); X Международной научно-практической конференции «Наука и образование–2013/2014» (Прага, 2014).

В 2006 году проекты «Разработка развивающей игры «говорящие кубики»» и «Разработка статистической модели русского языка» вышли в финал конкурса Русских Инноваций 2006.

Публикации. По теме диссертации опубликовано 41 научная работа, из них: 2 монографии и 17 работ в изданиях, входящих в перечень ВАК (4 патента на изобретения, 2 патента на полезные модели, 3 свидетельства о регистрации программы для ЭВМ и 8 статей в научных изданиях).

Личный вклад автора. Все результаты, представленные в диссертации, получены автором лично или в соавторстве. В работах, выполненных в соавторстве, участие автора является определяющим.

Структура и объем диссертации. Диссертация состоит из введения, семи глав, заключения, списка литературы, включающего 189 наименований, и пяти приложений. Работа изложена на 297 страницах без приложений, содержит 118 рисунков, 54 таблицы.

Способы определения произнесения слов не из словаря системы

В начале 90х годов прошлого века велись активные попытки создания гибридных моделей, совмещающих в себе нейронные сети и HMM [112 – 114, 134, 136, 141, 155, 161, 165, 167, 175, 176]. Основная идея исследований заключалась в том, чтобы HMM отвечала за моделирование временной структуры речевого сигнала, а нейронная сеть обеспечивала вычисление оценок вероятностей. Основная сложность, связанная с применением гибридных моделей, заключается в организации обучения. В процессе обучения требуется одновременно оценивать и параметры Марковской цепи, и весовые коэффициенты нейронной сети. На сегодняшний день автору неизвестно ни одного алгоритма, позволяющего выполнять одновременную оценку параметров HMM и нейронной сети. Другая сложность обучения заключается в том, что для обучения гибридной модели требуется большой объем данных, размеченных вручную.

HMM – являются мощным инструментом распознавания речевых сигналов и на сегодняшний день представляются оптимальной базой для создания систем распознавания. Большинство известных систем, используемых на практике, основано на НММ.

Скрытые Марковские модели предоставляют возможность описания временной структуры звукового сигнала – нужно только построить соответствующие модели звуков. Использование таких моделей должно повысить адекватность описания речевого сигнала и привести к увеличению точности распознавания.

Для повышения адекватности речевого сигнала также представляется целесообразным дополнение скрытых Марковских моделей средствами моделирования длительности звуков речи, что также приведет к увеличению точности распознавания.

Звуковой сигнал, поступающий на вход системы распознавания речи, зачастую содержит различного рода помехи: шумы, неречевые звуки (смех, кашель, дыхание), речь посторонних лиц, различные нарушения речевого потока (оговорки, «эканья»), а также слова, которые не входят в словарь системы. Влияние этих факторов приводит к ошибкам распознавания. Одной из ключевых задач системы распознавания речи является определение и отсеивание перечисленных помех.

Существует два основных подхода к решению названной задачи: вычисление оценок правдоподобия (или просто подобия) и манипуляции со словарем и грамматикой системы.

Метод вычисления оценок подобия заключается в расчете для каждого распознанного слова числовой характеристики, соответствующей уровню уверенности его корректного распознавания. Полученная характеристика сравнивается с порогом и, если значение характеристики выше порога, принимается решение о правильном распознавании. В противном случае слово считается распознанным неверно.

Оценки подобия можно разделить на три группы [66]: простые характеристики, апостериорная вероятность и отношения правдоподобия.

Манипуляции со словарем и грамматикой заключаются в добавлении в словарь и грамматику системы специальных акустических моделей, отождествляемых с помехами. Соответственно, если распознается специальная модель, принимается решение об ошибочном распознавании и наоборот. Особенность подхода состоит в том, что определение СНИС выполняется непосредственно в процессе распознавания и не требует применения дополнительных вычислительных алгоритмов. Два основных направления манипуляций: оптимизация словаря и модели заполнения.

Для оптимизации словарь необходимо дополнить "словами" двух типов: модели-шумы и слова-антимодели. Первые отсеивают ошибочно выделенные детектором речевой активности звуки, вторые – «вытесняют» малопохожие на звук слова из списка результатов распознавания.

Модели-шумы весьма эффективны в отсеивании различных щелчков, стуков, скрипов, жужжаний и даже дыхания. Однако, для борьбы с более сложными шумами они оказываются малопригодными.

Модели-шумы хорошо отсеивают "артефакты", возникающие из-за ложных срабатываний детектора речевой активности, поэтому с увеличением точности алгоритмов VAD их актуальность сокращается. Кроме того, ресур-соемкость Моделей-шумов на порядок выше ресурсоемкости VAD.

Слова-антимодели могут формироваться по двум основным принципам. В первом случае для каждого СИС строится слово-антимодель, во втором – строится несколько слов-антимоделей на весь словарь.

Первый вариант требует значительных вычислительных ресурсов, т.к. рабочий словарь системы фактически удваивается. Эксперименты показали, что использование небольшого статического набора слов-антимоделей не дает желаемого результата, а увеличение их количества приводит к падению производительности системы.

За счет оптимизации словаря обычно не удается достичь удовлетворительного процента отсеивания СНИС при допустимом падении процента распознавания СИС и производительности. Подробнее перечисленные алгоритмы описаны в приложении 1.

Подготовительный этап

На подготовительном этапе звукозапись разделяется на фразы. Каждая фраза записывается в отдельный звуковой файл с уникальным именем. Также формируется текстовый файл, в котором устанавливается соответствие между именами звуковых файлов и текстами фраз (рисунок 2.24).

В отличие от полностью ручного процесса аннотирования, для выполнения задач первого этапа не требуется привлечения высококвалифицированного, высокооплачиваемого эксперта. Предварительную подготовку данных вполне можно поручить студентам-фонетистам.

На подготовительном этапе не требуется применение никаких специальных программных средств: достаточно воспользоваться любыми текстовым редактором, и редактором звуковых файлов, поддерживающих wav-формат.

На втором этапе с помощью текстового процессора формируются идеальные транскрипции записанных фраз; транскрипция каждой фразы сохраняется в отдельном файле с названием, соответствующим названию звукового файла. Параллельно формируются предварительные модели звуков, используемые системой распознавания речи (рисунок 2.25).

Основная работа выполняется лингвистическим процессором, реализующим многоуровневую обработку текста фраз, завершающуюся преобразованием текста в транскрипции [45]. Описание лингвистического процессора приводится ниже.

Текстовый процессор обеспечивает пакетную обработку текстовых файлов, передавая тексты лингвистическому процессору и сохраняя полученные транскрипции. По идеальным транскрипциям определяется активный алфавит системы распознавания и проверяется полнота звукового состава речевой базы, после чего для каждого символа алфавита создаются предварительные модели звуков. Для удобства просмотра и возможности ручного редактирования модели сохраняются в текстовом формате. Лингвистический процессор

Лингвистический процессор [8, 78] представляет сложный программный комплекс, со структурой, представленной на рисунке 2.26.

Лингвистический процессор включат в себя: словарь, модуль поиска словоформ, модуль парсинга, модуль акцентуации словоформ; модуль контекстного анализа; модуль акцентно-интонационного транскриптора. Словарь, модули поиска и акцентуации

Словарь – это лингвистическая база данных, позволяющая получить данные обо всех основных грамматических категориях словоформ. Для каждой словоформы определяется частеречная принадлежность, грамматические категории, а также положение ударения. Применяемый словарь включает более 600 тысяч словоформ.

Модуль поиска словоформ обеспечивает поиск словоформ в словаре и является интерфейсным модулем между базой данных, и остальными модулями системы. Для ускорения поиска предусмотрена возможность хеширования словарных значений.

Поиск словоупотреблений в словаре осуществляется по следующим правилам:

словоупотребление ищется в исходном виде (то есть таким, как встретилось в тексте);

словоупотребление, содержащее прописные буквы, или полностью состоящее из них, перекодируется в строчные и ищется в словаре;

в словоупотреблениях, полностью состоящих из прописных букв (могут также встретиться дефис или апостроф), все буквы, кроме первой, перекодируются в строчные, после чего словоупотребление ищется в словаре;

словоупотребления, содержащие дефис и не найденные в словаре, разделяются на две части (до и после дефиса), которые ищутся в словаре как отдельные словоупотребления. Если обе части найдены, они считаются отдельными словоупотреблениями, а дефис между ними - знаком препинания.

Модуль акцентуации предназначен для расстановки ударений в словоупотреблениях. При этом словоупотребления подразделяются на три класса: словоформы, для которых есть словарная статья или статьи. Акцентуация опознанных словоформ, выполняется по определенным правилам, описание которых выходит за рамки данной работы.

неопознанные словоупотребления. Для неопознанных словоупотреблений применяется один из двух вариантов обработки: ударения выставляются на средний слог в словоупотреблении, или каждый слог считается ударным;

исключения. Обработка исключений проводится согласно спискам исключений, и результат поиска по словарю для акцентуации не применяется.

Модуль парсинга

Модуль парсинга – условное название, реальный функционал модуля не ограничивается парсингом. Парсер является ядром лингвистического процессора: он отвечает за выделение предложений из текста и их лингвистическую обработку, обращаясь к различным компонентам системы.

На первом этапе работы парсера из текста выделяются предложения. Выделение предложения производится по пунктуационным признакам конца предложения (символ конца абзаца, многоточие, вопросительный знак с многоточием, восклицательный знак с многоточием, вопросительный знак, восклицательный знак и точка, кроме ситуаций, когда она служит частью сокращенного написания слов или инициала). Предполагается, что текст не содержит орфографических и пунктуационных ошибок.

Выделенные предложения разбиваются на словоупотребления – цепочки знаков расширенного алфавита4, разделенные цепочками иных знаков. Выделяются следующие категории словоупотреблений:

обычные словоупотребления;

сокращения (с точкой, со слэшем и иными неалфавитными знаками);

цифровые образования;

Реализация статистической модели речи

После того как длительности аллофонов сформированы, они приводятся к заданным частотам основного тона в модуле 6.2, причем ЧОТ не остается постоянной на всем аллофоне, а изменяется в соответствии с движением, заданным в просодических параметрах. Чтобы минимизировать искажения звуков, модификация ЧОТ звуков разных типов проводиться с использованием различных алгоритмов, построенных на базе PSOLA.

Далее, с учетом параметров энергии, заданных в просодике, формируется амплитудная огибающая звуков цепочки (модуль 6.3), и производится морф стыков звуков для минимизации шумов на стыках (модуль 6.4).

Звуковой сигнал приводится к формату, указанному блоком №1, и передается ему для последующего использования. Преобразование формата звукового сигнала производится в модуле №6.5

Реализация статистической модели речи выполнена на персональном компьютере в соответствии с описанием модулей и схем взаимодействия, приведенных ранее. Ниже приводится конкретизация некоторых алгоритмов, использованных в нашей реализации.

В основе генерации распределений лежит генератор случайных чисел. Под случайностью обычно понимается непредсказуемость события, например такого, как результат подбрасывания монеты. В действительности же нет непредсказуемых событий: «Ничто в природе не случайно… Кажущаяся случайность событий есть лишь проявление неполноты нашего знания о них»10.

Так результат подбрасывания монеты зависит от ее начальной ориентации, силы броска, сопротивления воздуха и еще очень многих факторов.

Ill Когда зависимость сложна, проще рассматривать результат как случайный, особенно если интересен средний результат, а не конкретный исход очередного испытания.

Формально случайность определяется как отсутствие определенного образца в поведении. На практике же случайные числа (события) генерируются по некоторому алгоритму, поэтому их значения предопределены, и такие числа называются псевдослучайными. Удобство псевдослучайной последовательности в ее воспроизводимости - последовательность всегда может быть повторена, а работа программы, на ее основе, - проверена и отлажена.

Довольно часто используется генератор равномерно распределенных чисел в интервале [0, 1]. Вероятность попадания числа в подынтервал 0 а b 1 равна длине интервала b - а. Ниже представлена формула простейшего алгоритма: очередное значение генератора случайных чисел; Int - операция взятия целой части.

Удобство «равномерного» генератора заключается еще и в том, что на его основе можно формировать случайные числа, имеющие более сложные законы распределения. Так, для статистической модели, был реализован генератор случайных значений (3.2), имеющих треугольное распределение. Значения А и В задают границы интервала, а значение С (А С В) - положение максиму.

В основу статистики о составе и характеристиках населения положены данные, полученные Госкомстатом России в результате Всероссийской переписи населения 2002 года. В упрощенной статистической модели используется только информация о возрастно-половом составе населения. Соответственно для связи ТД со статистикой населения используется два критерия: пол и возраст. Введено шесть, весьма условных, ТД (таблица 3.1).

1. На основе статистики о возрастно-половом составе населения определяется процент населения, соответствующий каждому ТД;

2. Значения процентов приводятся к целым числам (путем домножения на 10);

3. Производится минимизация значений (ищется наименьший общий делитель (НОД) всех значений процентов, после чего они все на него делятся);

4. Подсчитывается сумма значений процентов (NТД) и заводится генератор случайных чисел с равномерным распределением. Сумма значений процентов равна длине выборки, поэтому нужно устанавливать разумные ограничения на точность приведения их к целым числам;

5. Строятся интервалы значений, соответствующие ТД ([0, NТД1[, [NТД1, NТД1 + NТД2[…);

6. Рассчитываются NТД значений генератора случайных чисел. Попадание значения генератора в интервал приводит к включению ТД в выборку.

Возможны и другие варианты.

Распределения звуков генерируются на основе статистики о частотности звуков. Информация о частотности звуков является индивидуальной для каждого диктора, и является частью его описания. Однако, если по каким либо причинам данная статистика отсутствует, предусмотрена возможность подмены ее статистикой, полученной на основе обработки текстов. Естественно, общая статистика не позволяет в полной мере моделировать параметры ТД, зато появляется возможность работать с голосами, данные по которым подготовлены не полностью.

Для генерации выборки звуков используется примерно тот же алгоритм, что и для генерации выборки ТД.

1. Значения частотностей умножаются на одну сотую длины генерируемой выборки12 и округляется до ближайшего целого. (Длина выборки равна Nv);

2. Строятся интервалы значений, соответствующих каждому звуку;

3. Рассчитывается Nv значений генератора случайных чисел. Для каждого значения выполняются п.п. 4 – 6. Выборка считается сформированной и выполнение алгоритма завершается, после того, как отработаны все Nv значений;

4. Определяется звук, в интервал которого попадает значение генератора;

5. Звук добавляется в выборку;

6. Проверяется количество добавленных звуков до включения паузы. Если оно меньше минимального, то переходи к п. 4; если оно больше максимального, то переходим к п.8; иначе переходим к п.7;

7. Разыгрываем возможность возникновения паузы. Если выпала пауза, то переходим к п.8; если нет – то к п.4;

8. Проверяем последовательность до паузы13 на правила следования: оглушение/ озвончение, приписывание мягкости;

В общем случае длина выборки в звуках это параметр программы.

9. Последний ударный гласный маркируется признаком фразового ударения, необходимым, для формирования интонационного контура;

10. В выборку добавляется символ паузы.

Учет длительностей в алгоритме распознавания

Процесс распознавания в разработанной системе условно разделяется на два уровня: сетевой и узловой. Сетевой уровень отвечает за распространение процесса распознавания по ФС и формирование списка активных узлов, узловой – за продвижение по моделям отдельных звуков и определение значений подобия.

Для удобства реализации процесса распознавания используется двойная структура данных: с одной стороны это ФС с другой – список активных узлов. Активными узлами считаются узлы ФС, которые на данном шаге участвуют в процессе распознавания.

Базовый алгоритм распознавания включает следующую последовательность действий:

1. Инициализация. Состояния всех узлов ФС сбрасываются. Выходное состояние начального узла инициализируется константным значением, соответствующим началу процесса распознавания. Начальный узел включается в список активных узлов.

2. Организуется основной цикл распознавания по всем фреймам входящего речевого сигнала (пункты 3-27).

3. Организуется обход списка активных узлов и реализация сетевого уровня распознавания (пункты 4-13).

4. Проверяется выходное состояние узла. Если узловой процесс распознавания еще не достиг выходного состояния, выполняется переход к следующему узлу списка активных узлов.

5. Просматривается список связей текущего активного узла. Для всех связей выполняются пункты 6-13.

6. Создается копия выходного состояния узла.

7. К текущему значению уровня доверия копии состояния добавляется значение доверия данной связи. Если связи равновероятны, то их уровень доверия равен нулю, если нет – логарифмической вероятности перехода.

8. Если уровень доверия больше порогового значения, то копия состояния пересылается узлу, следующему по связи, и для него выполняются пункты 9-13. Если нет – продолжается просмотр списка связей.

9. Проверяется активность узла. Если узел не активен, он активизируется, инициализируется и добавляется в список активных узлов.

10. Сравниваются уровни доверия входного состояния и принятого состояния. Если уровень доверия входного состояния выше, выполняется возврат к просмотру списка связей (пункт 6).

11. Входное состояние заполняется данными принятого состояния.

12. Если узел является словом, меткой, концентратором или конечным узлом, то для него вызывается узловой уровень распознавания.

13. Выполняется возврат к просмотру списка связей (пункт 6.)

14. Организуется цикл обхода активных узлов и реализация узлового уровня распознавания (пункты 15-27).

15. Проверяется тип узла. Если узел является словом, меткой или концентратором, выполнение продолжается от пункта 16. Для конечного узла выполнение продолжается от пункта 19, для узлов-моделей звуков выполнение продолжается от пункта 21.

16. Сравниваются уровни доверия входного и выходного состояний узла. Если уровень доверия входного состояния ниже, выполнение продолжается от пункта 15.

17. Если узел имеет символьное имя (обычно, это узлы слов и меток), выполняется наращивание пути распознавания в выходном состоянии узла: в список меток пути добавляется новая метка, содержащая имя узла, значение уровня доверия, номер текущего фрейма и другую информацию.

18. Выполнение продолжается от пункта 15.

19. Просматривается список сохраненных вариантов распознавания и сравнение их с входящим состоянием узла. Если уровень доверия входного состояния выше уровня доверия одного из элементов списка, или в списке имеются свободные места, то входящее состояние сохраняется в списке результатов распознавания.

20. Выполнение продолжается от пункта 15.

21. Создается копия текущих состояний модели звука. При копировании осуществляется сдвиг таким образом, чтобы копия входного состояния узла соответствовала первому состоянию модели звука и т.д.

22. К копии каждого состояния прибавляется логарифмическая вероятность перехода в данное состояние.

23. Для копий состояний, правдоподобие которых превышает пороговое значение, рассчитывается уровень доверия принадлежности к текущему фрейму распознаваемого сигнала.

24. Полученные уровни доверия складываются с текущими уровнями доверия копий состояний.

25. Если уровень доверия копии состояния превышает уровень доверия состояния, то выполняется обратное копирование в рабочий набор состояний модели.

26. Заполняется выходное состояние узла. Для этого создается копия последнего состояния звуковой модели. К уровню доверия копии добавляется логарифмическая вероятность перехода из последнего состояния. Если текущий уровень доверия выходного состояния уза ниже уровня доверия копии, за выходное состояние узла принимается копия.

27. Выполнение продолжается от пункта 15.

28. Список лучших результатов распознавания хранится в конечном узле сети.

Возможны различные способы учета длительностей фонем в алгоритме распознавания. Остановимся на двух из них, наиболее опробованных в разработанной системе распознавания речи:

способе «тающего максимума» и

способе контроля за пересылкой маркера.

Какой бы из способов учета длительности не был избран, в базовом алгоритме необходимо предусмотреть средства, позволяющие определять длительность фонем.

Для этого в структуру описания состояния добавляется новое поле данных – длительность. Значение длительности во входном состоянии узла принимается равным нулю, значение длительности в выходном состоянии соответствует текущей длительности фонемы. Значения длительностей увеличиваются после обновления данных в рабочих состояниях модели звука (п.25).

Способ «тающего максимума»

В базовой версии алгоритма распознавания в рабочих состояниях сохраняется информация о состояниях с максимальными значениями правдо 156 подобия. Способ тающего максимума заставляет значения правдоподобия изменяться пропорционально текущей длительности фонемы.

Методы и модели распознавания русской речи в информационных системах Гусев Михаил Николаевич

Способы определения произнесения слов не из словаря системы

Подготовительный этап

Реализация статистической модели речи

Учет длительностей в алгоритме распознавания

Похожие диссертации на Методы и модели распознавания русской речи в информационных системах