Автоматический анализ, распознавание и синтез тональной речи (на материале вьетнамского языка) Нгуен Ань Туан 0

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Нгуен Ань Туан 0. Автоматический анализ, распознавание и синтез тональной речи (на материале вьетнамского языка) : ил РГБ ОД 71:85-5/57

Содержание к диссертации

Введение

Глава 1. Современное состояние проблемы речевого общения человек-ЭВМ 21

1.1. Работы советских коллективов по автоматическому распознаванию и синтезу речи 22

1.2. Создание и промышленное использование коммерческих систем автоматического распознавания и синтеза речи 45

1.3. Основные тенденции развития зарубежных научных исследований в области речевого человеко-машинного общения 57

1.3.1. Краткий обзор докладов 1982 58

1.3.2. Краткий обзор докладов 1983 78

Глава 2. Структура вьетнамского языка и некотоше проблемно-ориентированные естественные подъязыки на его основе 94

2.1. Фонетические особенности вьетнамского языка. 94

2.2. Структура слогоморфемы 97

2.3. Группы и структура вьетнамских предложений . 111

Глава 3. Аппаратура выделения признаков способа и места образования звуков для исследования вьетнамской речи 122

3.1. Бинарные признаки 126

3.1.1. Признак оС (Ан) 126

3.1.2. Признак 6 (Ав) 129

3.1.3. Признаки о , о п 130

3.2. Признаки места образования звуков и просодические признаки 131

3.2.1. Признак средней интенсивности сигнала 131

3.2.2. Формантные параметры 133

3.2.3. Канал по и каналы селекции импульсов по длительности 135

3.2.4. Канал измерения частот основного тона (ОТ) речевого сигнала 138

3.3. Спектральное представление речевого сигнала в новом устройстве выделения речевых параметров 142

3.4. Сервисное матобеспечение ввода с УВРП-М и гребенки полосовых фильтров 149

3.5. Микропроцессорное устройство выделения информативных признаков 153

Глава 4. Методы и алгоритмы, используемые при -анализе фонетических особенностей и автоматическом распознавании речи 162

4.1. Основная модель речеобразования

4.2. Краткие сведения о гомоморфном анализе 171

4.3. Логическая обработка результирующего спектра при выделении частоты основного тона 181

4.4. Использование линейного предсказания для анализа и синтеза тональной речи 188

4.5. Методы динамического программирования при нелинейном сравнении входных и эталонных реализаций слогоморфем 2 01

Глава 5. Фонетические особенности слогоморфемвьетнамской речи 213

5.1. Выявление признаков тональностей на слогоморфемах 215

5.1.1. Выбор статистического материала для изучения фонетической структуры слогоморфем 215

5.1.2. Динамические характеристики частоты Основного тона (ОТ) dZQ

5.1.3. Динамические характеристики признака усредненной интенсивности сигнала на слогоморфемах, характеризуемых различной тональностью 235

5.2. Формантные характеристики гласных отрезков-слогоморфем 239

5.2.1. Усредненные характеристики формантных частот, полученные видеограммам 241

5.2.2. Характеристики формантных частот, полученные методом линейного предсказания 248

5.2.3. Исследование гласных аппаратурно-программным методом 251

5.3. Анализ формантной структуры дифтонгов в слогоморфемах 262

5.4. Характеристика согласных вьетнамского языка 278

5.4.1. Исследование фрикативных и аффрикат 278

5.4.2. Исследование взрывных звуков 281

5.4.3. Сонорные согласные 284

Глава 6. Особенности вьетнамской сжтной речи 288

6.1. Явления на стыках слогоморфем 291

6.2. Основные параметры дифтонгов и гласных слитной речи 3 04

6.3. Автоматическая сегментация и фонетическая маркировка тональной речи 307

Глава 7. Автоматическое распознавание избранной и слитной речи 315

7.1. Создание неадаптивной системы дискретного распознавания ограниченной вьетнамской речи 317

7.2. Адаптивная система изолированных слов и фраз для задачи речевого управления ИВК-2338

7.3. Адаптивная система распознавания изолированных слов и многослогоморфем на ЭВМ Электроника-60 357

Глава 8. Синтез вьетнамской речи 363

8.1. Введение 364

8.2. Использование серийного фонемофона синтезатора для генерации вьетнамской речи 381

8.3. Синтез речи методом линейного предсказания 391

8.4. Компилятивный синтез вьетнамских предложений из отрезков речевой волны 397

Заключение 409

Литература 412

Создание и промышленное использование коммерческих систем автоматического распознавания и синтеза речи
Признаки места образования звуков и просодические признаки
Логическая обработка результирующего спектра при выделении частоты основного тона
Формантные характеристики гласных отрезков-слогоморфем

Введение к работе

Актуальность темы. Разработка систем автоматического речевого ввода и вывода информации для индоевропейских языков была связана с исследованиями фонетических характеристик английского, русского, немецкого, французского и других языков, а также развитием различных методов цифровой обработки сигналов и принятия решений при сравнении входных реализаций с эталонами. Огромная предварительная работа по изучению фонетики, к сожалению, не была проделана для тональных языков народов слаборазвитых стран -китайского, вьетнамского, бирманского, таиландского и других языков, на которых говорит более полутора миллиардов человек. А между тем структура тональных языков (в первую очередь, смысловое значение типа тональности на тонированных слогах - слого-морфемах) не позволяет легко переносить результаты, полученные для индоевропейских языков, на языки тонального типа.

Включение в состав внешних устройств современных ЭВМ средств речевого ввода и вывода и широкое повсеместное распространение вычислительных машин (в том числе и в странах, где население использует языки тонального типа) поставили на очередь дня оснащение этих машин такими синтезаторами речи и системами автоматического распознавания, которые могут использовать пользователи - носители нормы произношения тонального языка. Применение средств устного диалога "человек-ЭВМ" обеспечит большой экономический и социальный эффект, повысит производительность труда в сфере управления, проектирования и поиска оптимальных решений, обеспечит доступность ЭВМ всему населению, повысит комфортность рабочих мест, уменьшит утомляемость операторов ЭВМ, обеспечит речевое управление техникой. Особенно актуальны средства речевого общения человека и вычислительных машин для слаборазвитых

стран, где широкое внедрение ЭВМ, оснащенных интеллектуальными терминалами, речевым вводом и выводом информации, позволит быстрее решить ряд актуальных задач, связанных с нехваткой квалифицированных кадров и общим развитием этих многонаселенных стран (программированное обучение, автоматизация конторских работ, облегчение управления различными механизмами и т.д.). В связи с этим тема диссертационной работы, связанная с разработкой систем автоматического распознавания и синтеза речи для вьетнамского языка представляется весьма актуальной.

Целью работы является разработка научных основ и создание технических средств анализа, автоматического распознавания и синтеза тональной (вьетнамской) речи, а также исследование фонетической, морфологической и грамматической структуры вьетнамского языка для разработки математического обеспечения систем речевого ввода и вывода информации.

Методы исследования. Основными методами распознавания тональной речи были: I) логический "аппаратурно-программный метод", при котором специализированная аналоговая аппаратура выделяет в реальном времени признаки способа и места образования звуков, а также просодические характеристики речи, а программы распознавания на основании логического анализа динамической картины признаков принимают решение о фонетической структуре высказывания и типе тональности на слогоморфемах; 2) метод динамического программирования, позволяющий осуществлять нелинейное сравнение входной реализации (слогоморфемы или слогосочетания) с эталонами при использовании выделяемых аппаратурно неоднородных параметров способа и места образования звуков, а также просодических признаков. Первый метод использовался при построении систем распознавания, работающих без предварительной настройки на дитора, второй - с настройкой на диктора. При построении систем автоматического

синтеза вьетнамской речи использовались методы: а) линейного предсказания, б) компиляционные методы формирования высказываний из дифтонгов слогоморфем и в) формантного параметрического синтеза, основанного на модели речеобразования и учитывающего особенности тонального языка. При исследованиях характеристики тональной речи использовались как цифровые методы (быстрое преобразование Фурье, линейное предсказание, гомоморфный анализ), так и гибридный, аппаратурно-программный способ анализа, основанный на создании моделирующего стенда на базе ИВК-2 и аппаратуры, предназначенной для выделения информативных признаков тональной речи.

Научная новизна. В работе впервые в мире проведено широкое всестороннее научное исследование (на фонологическом, морфологическом и грамматическом уровнях) языка тонального типа (вьетнамского) с целью создания устройств автоматического речевого ввода и вывода информации. Разработаны методы автоматического выявления шести типов тональности - для озвонченных участков слогоморфем, а также классификации (по формантной структуре и типу тональности) всех вьетнамских гласных и дифтонгов, что позволяет уверенно распознавать 66 типов гласных и 28 дифтонгов и трифтонгов изолированных слогоморфем. Получены основные параметры согласных вьетнамского языка. Исследованы фонологические явления, связанные с порождением слитной речи потоком тонированных слогов. Впервые разработаны экспериментальные системы автоматического распознавания и синтеза речи для языка тонального типа. Предложена математическая модель речеобразования, учитывающая особенности вьетнамского языка. Показано, как использовать известные методы цифровой обработки сигналов к такому специфическому явлению, как тональная речь. Разработана экспериментальная установка для исследования вьетнамской речи. При построе-

- 9 -ний систем распознавания основной упор делался на создание систем, работающих без предварительной настройки на голос оператора. В системах, работающих с настройкой на голос диктора, использованы признаки способа и места образования звуков, что позволяет сильно повысить надежность распознавания слов при работе с дикторами, не участвовавшими в обучении. Рассмотрено три метода автоматического синтеза тональной речи, причем один из методов, основанный на компиляции высказывания из дифтонгов позволяет получать произвольную качественную вьетнамскую речь из 760 элементов - переходных участков звукосочетаний слогоморфем.

Практическая ценность. Диссертационная работа выполнялась в рамках плановых научно-исследовательских работ ВЦ АН СССР -НГР: 0182.3043 942, а также в соответствии с планами совместных научных исследований между госкомитетом по науке и технике Социалистической Республики Вьетнам и Академией Наук СССР.

Разработанный автором макет для исследования речевых сигналов (устройство выделения информативных признаков речевых сегментов) использовался в других плановых работах ВЦ АН СССР, а также в плановых научно-исследовательских работах Одесского Государственного Университета, Днепропетровского Государственного Университета и Академии Наук Кубы, что подтверждается актами об использовании результатов докторской/диссертации.

Основное практическое значение диссертации заключается в том, что она показала реальную возможность создания систем автоматического распознавания и синтеза речи для языков тонального типа и выявила признаки, характеризующие особенности тональной речи.

Диссертация состоит из восьми глав и приложения.

Создание и промышленное использование коммерческих систем автоматического распознавания и синтеза речи

Наиболее поздние из известных публикаций по проблеме промышленного изготовления и практического использования систем автоматического распознавания речи представлены в журнале "Электроника" за 1982-3983 г.г. В (121 рассматривается внедрение систем распознавания речи в Японии. Отмечается, что Япония выходит на первое место в мире по практическому использованию такой аппаратуры. Японские фирмы усиленно внедряют речевой ввод в промышленность, что позволяет им поднять и без того высокую производительность труда.

Пока самой распространенной, но все еще довольно ограниченной областью практического применения систем автоматического распознавания речи в Японии (так же как и в США.) является распределение и контроль. Пять крупных японских фирм, распределяющих коммерческие товары, приступили к использованию речевого ввода информации. ЛОдна из систем распознавания речи используется японским почтовым вздомством для сортировки писем. Фирмы Nisson Motor со u Hitachi Ltd используют речевой ввод на линиях контроля продукции. Фирма Nagsa-Kuja 5 торгующая одеждой, использовала американскую систему распознавания речи Threshold-600 для распределения продукции; к настоящему времени фирма приобрела дополнительно две системы распознавания речи DP-100 фирмы Nippon Electric Company . На автомобильном заводе фирмы Nissak с середины 1981 г. система распознавания речи используется для контроля прохождения автомобиля по конвейерной линии. Система, разработанная специалистами фирмы Kawasaki на базе американского устройства распознавания речи фирмы interstote Electronics распознает 100 слов с точностью 96%.

Наиболее эффективно системы распознавания речи используются в Японии крупной промышленной фирмой Hitachi , которая сама выпускает для продажи системы распознавания речи HR-100, настраиваемые на голос оператора и распознающие 128 слов с точностью 98-93%. Распознавание речи используется на пяти заводах этой фирмы. На одном из них инспекторы, проверяющие электронные микроскопы в затемненном помещенрш, передают голосом в ЭВМ различные данные. Контролеры холодильников пользуются голосовым вводом потому, что их руки заняты. Распознавание речи используется также при контроле ксерокопировальной аппаратуры, при сборке телефонных станций на одном из заводов, где мастера голосом подают в систему распознавания слов команды, по которым заказываются детали, подающиеся автоматически к различным обрабатывающим центрам.

БС121) отмечается, что как фирма NEC , так и фирма Hitachi выпускают более сложные системы распознавания речи, которые работают на голос произвольного диктора. Hitachi стремится также сделать систему распознавания слитной речи, аналогичную системе DP-100 фирмы NEC , которая, в свою очередь, объявила о создании первой системы, распознающей все слоги (и звуки) японского языка, что дает возможность вводить по слогам устные высказывания практически неограниченного словаря.

Фирма NEC реализовала сопряжения системы распознавания речи DP-100 (слитная речь до 5 слов, объем словаря - 150 слов, настройка на голос пользователя, стоимость - около 20 000 долларов) с системой автоматизированного проектирования (САПР). Как показали предварительные испытания этой системы, после недельной тренировки пользователи, подготовленные к работе с клавиатурой, используя речеввой ввод, в 2 раза повышают производительность труда. Эффективность работы с САПР в интерактивном режиме неподготовленных к работе с клавиатурой пользователей возрастает еще больше.

Кроме этих фирм, системы распознавания речи разрабатывают также фирмы Sanyo Electric иAmada Group , которые объявили о создании устройств распознавания речи для подготовки лент цифрового программного управления станками. Одновременно в Японии разрабатываются и более дешевые системы распознавания речи. Так фирма NEC приступила к выпуску платы распознавания, стоящей 445 долларов, для персональных компьютеров.

Междут тем в США., второй стране, выпускающей коммерческие системы распознавания речи, одна из фирм-изготовителей Interstate Electronics Corp не сумела в 1981 г. достичь намеченного объема продажи таких систем (продано всего 100 плат распознавания речи типа Q-Bus (82). Фирма создает словарь к набору ИС, которые обеспечат распознавание 25 слов, для зарубежной фирмы, выпускающей настольные часы с речевым управлением. В 1982 г. фирмой разработан телефонный автоответчик, автоматически реагирующий на голосовой запрос. Внимание фирм, изготовляющих детские игрушки, привлекло сообщение, что Interstate снижает цену на однокритальные устройства распознавания слов со словарем 16 слов, до 5 5 долларов за штуку.

Признаки места образования звуков и просодические признаки

А (илиО) - признак средней интенсивности сигнала, который измеряется с помощью специальной транзисторной схемы-генератора управляемой частоты, выдающей на счетчик импульсы, число которых за интервал анализа пропорционально среднему значению напряжения сигнала. Сигнал непосредственно с микрофонного усилителя подается на детектор, интегратор и генератор управляемой частоты (ГУЧ). После этого сигналы с генератора (частота которых переменна) поступают на вход счетчика. Характеристика зависимости частоты генератора Ігуц от интенсивности приведена на рис.3.3. Генератор управляемой частоты (ТУЧ) принадлежит к типу релаксационных генераторов. ТУЧ работает следующим образом. В исходном состоянии транзисторы Т-р Tgj Tg - закрыты. При подаче на вход сигнала Т открывается, что приводит к открытию транзистора Т2» При открытии Т2 емкость C-j начинает заряжаться. Как только С] зарядится до Иот транзистора Тд, транзистор Тд открывается и С разряжается по цепочке базово-эмитерный переход Тд - J Q . где ЬГУЧ - частота генератора при нулевом входном сигнале.

Хотя техническая реализация данного канала несколько сложнее, чем других каналов устройства параметр А0 получен способом более удобным для практического использования при распознавании. Такие же каналы разработаны для получения признаков средней интенсивности сигнала в полосах первой и второй формантних частот (Р1 и F2). Для этих новых признаков (А-, и Ар) частоты генератора при нулевом входном сигнале г. и Гдг равняются 400 и 1200 Гц соответственно. F-», FpifA-p Ар) (значения усредненной формантной частоты и средней интенсивности сигнала в формантных ооласгях) выдаются после прохождения сигнала через частотнозависимые усилители, включающие полосовые фильтры, перекрывающие полосу частот, соответствующую областям 1 или П формант всех звуков речи (частота среза / =700 Гц по уровню - Здб). при последующем спаде б дб на октаву.

Для второй форманты использован полосовой фильтр, перекрывающий область второй форманты. На рис.3.6. проведена амплитудно-частотная характеристика усилителя канала, выделяющего частоту форманты Fp, которая имеет вид двухгорбой кривой (/ = 600 Гц,/ р= 1300 Гц,/ = 2800 Гц). Речевой сигнал, прошедший через фильтры, далее усиливается и клип пируется для получения значений F.j, F2, а также поступает на генератор управляемой частоты (ГУЧ) для получения средних ин-тенсивностей сигнала в формантних областях - параметров А-, и А2- После этого импульсы с клиппера (триггера-Дкддта) или ГУЧ поступают на счетчики. Как ранее отмечено, усредненные интенсивности сигнала (огибающие) Аи, А2 Значения формантних частот характеризуются количеством импульсов на выходах фильтров за время где %1Я&х&)] и 1 2[ЩХШJ - оператор фильтрации. бСдМДб/ДІІ)- оператор формирования импульсов. ДУд ЖАІЛ2 пороги формирователей. Измерение мгновенной частоты сигнала, усредненной за интервал анализа, производится в канале IV о . Сигнал, поступающий с микрофонного усилителя, клиппируется и дифференцируется. Положительные импульсы поступают далее на счетчик IVO , который и выдает в машину показания, пропорциональные мгновенной частоте сигнала. Шумные характеризуются максимальными значениями ІУОМ на участке шумности, длительностью участка w, временем фронта нарастания: Средним числом нулевых пересечений на стационарном участке:

Логическая обработка результирующего спектра при выделении частоты основного тона

Как отмечено в 4.1 эффективной процедурой нахождения частоты основного тона является метод результирующего спектра (метод произведения гармоник) . Для более эффективной работы этой процедуры, безошибочного и точного выделения ОТ в сложных условиях (при аддитивных шумах и прохождении сигнала через телефонный канал) целесообразно обеспечить предварительную обработку сигнала до получения результирующего спектра (LPC ).

Произнесенный в микрофон сигнал поступает на усилитель и аналого-дискретный преобразователь, с которого восьмиразрядные отсчеты поступают в ЭВМ БЭСМ-6. Процедура упаковки формирует машинные слова (по б отсчетов ыв слове) и посылает реализации в упакованном виде в архив, чтобы эти реализации можно было использовать в последующих экспериментах. В системе ГРАФ возможны 2 режима - непосредственная обработка введенного сигнала и обработка считанной из архива информации. Рассмотрим процедуры, используемые при нахождении основного тона (ОТ) более подробно.

Если сигнал -у (Ь ) представлен последовательностью из отсчетов ( иТ), 0 n N-1, где Т - интервал дискретизации во временной области, а соответствующий такому дискретизирован-ному сигналу ( iT) спектр представлен отсчетами 0 к N -1, где К - расстояние между отсчетами в частотной области, равное

Эта формула определяет дискретное преобразование Фурье для последовательности Г(УСГ) ИЗ N отсчетов. При нахождении основ 2 -ного тона спектральными методами используется массив спектральных составляющих, полученный алгоритмом быстрого преобразования Фурье.

В работе при анализе динамики ОТ на слогоморфемах был использован не основной алгоритм БПФ, а некоторая его модификация, предложенная Кули и Тыоки для преобразования действительных чисел. Смысл модификации сводится к разбиению массива N исходных данных на два подмассива, каждый из которых рассматривается как действительная и мнимая части комплексного массива длины —- , за счет чего время преобразования сокращается примерно в 2 раза. Используемый алгоритм подробно описан в

Выделение основного тона спектральными методами состоит из последовательности стандартных процедур, совокупность которых должна обеспечить его надежное и точное определение. Эта последовательность процедур точного нахождения основного тона приведена на рис.4.9 На рис.4.9 показана последовательность процедур, предшествующих логической обработкеU?C. Этапы 1-6 рис.4.9 обеспечивают получение картины "видимой речи" - массива чисел (спектральных составляющих) в координатах "время - частота - амплитуда". 1 этап - преобразование массива аргументов из формы чисел с фиксированной запятой в форму с плавающей запятой для алгоритма быстрого преобразования Фурье; 2 этап - умножение массива аргументов на весовую функцию для реализации кратковременного быстрого преобразования Фурье и устранение многочисленных локальных максимумов спектра,-3-6 этапы реализуют алгоритм быстрого преобразования Фурье подготовка вспомогательных массивов, выполняемая до работы алгоритма БПФ; 4 - собственно быстрое преобразование Фурье, реализующее модификацию дискретного преобразования с комплексными числами; 5 - упорядочение комплексных коэффициентов, полученных процедурой БПФ в порядке возрастания их индексов; б - получение действительных коэффициентов (восстановление спектра исходной функции) по массиву, отражающему спектр комплексной функции); 7 - фильтрация сигнала, которая ограничивает используемый спектр сигнала (полученный процедурой БПФ), срезая верхнюю полосу частот, как не содержащую существенной информации от ОТ. Частота среза раьна 500 Гц на уровне 0,7 и 1200 Гц на уровне 0.1. (Фильтрация производится простым перемножением двух рядов чисел); 8 - логарифмирование спектра, которое производится для того, чтобы работать в дальнейшем не с обсолютными величинами, составляющих спектр а лишь с некоторыми его характерными точками - максимумами, определяемыми b F (В работе использовались натуральные логарифмы); 8а - получение автокорреляционной функции дискретного спектра. В основу всех спектральных методов выделения основного тона (ОТ) положена работа либо с самим спектром в нашем случае - с bt F ), либо с автокорреляционной функцией этого спектра ки 0 Эти функции при нахождении ОТ взаимозаменяемы, подставляя одну вместо другой можно получать различные модифжации методов выделения ОТ. Если ввести обозначение ф (1 с00) = UP; l = 1,2...,12810, где с00-интервал дискретизации в частотной области, то автокорреляционная функция для дискретного спектра сигнала будет равна: то есть каждый отсчет автокорреляционной функции дискретного спектра есть результат почленного перемножения исходного спектра ф( и)Лна тот же спектр, сдвинутый на w отсчетов вправо и суммирования всех произведений.

Из физических соображений мы пренебрегали далеко отстоящими членами ряда. Так, если частота основного тона (ОТ) находится в пределах 150-500 1 (для дикторов, носителей нормы ханойского произношения), то для уменьшения времени работы выбирают VI - 10,11,...,35. Вычислять автокорреляционную функцию на всем участке спектра вовсе не обязательно; 9 - лифтирование частотного спектра, которое подобно логарифмированию, является некоторой предварительной обработкой спектра с целью улучшения его в нужном нам направлении. Лифтирование производится затем, чтобы убрать медленные изменения спектра (причиной такого изменения является наличие в сигнале формантних частот Р . р ), оставив неискаженной его тонкую структуру (спектр сигнала, определяемого источником возбуждения). Для этой цели вычисляется сглаженный спектр ф(пи)] который для получения лифтированного спектра вычитается из исходного

Формантные характеристики гласных отрезков-слогоморфем

Анализ формантных характеристик гласных так же, как и характеристик основного тона производился спектральными и временными методами. На первом этапе исследовались спектрограммы "видимой речи", полученной процедурой быстрого преобразования Фурье, входящей в состав программного обеспечения для анализа речи системы ГРАФ, о которой упоминалось в предыдущем разделе. По реализациям слогоморфем, произносимых 20 дикторами было получено более 4500 видеограмм, которые в дальнейшем были частично обработаны для вычисления формантных характеристик (в качестве статистического материала использовались слогоморфшы, .слова и предложения, приведенные в табл. 5.1а-5.1д).

Хотя анализ, основанный на кратковременном дискретном преобразовании Фурье, является достаточно хорошо изученным его применение к вьетнамской речи (да и к речи вообще) для получения формантных характеристик обладает серьезными недостатками, и связано с ограничениями, вытекающими как из наличия нестационарных, переходных участков, так из квазипериодичности гласных. Методы, основанные на спектральном анализе, часто не дают удовлетворительного описания формантных параметров и их динамики на протяжении гласного участка. Методы традиционного анализа с помощью преобразования Фурье для обеспечения высокого разрешения по частоте (а именно это может обеспечить удовлетворительное определение резонансных частот речеобразующего тракта по речевому сигналу) требуют относительно протяженных участков речи, а это приводит к тому, что быстроменяющиеся акустические события не могут быть точно исследованы спектральными методами. Далее, вследствие квазипериодической природы стационарных участков гласного спектральный анализ дает мало информации о спектре между гармониками ОТ гласного, поэтому частотные методы неудовлетворительно отражают формантную структуру голосов с высоким основным тоном (а к ним-то и относятся голоса вьетнамских дикторов). Поэтому в данном разделе будут рассматриваться результаты, полученные временными и спектрально-временными методами анализа, в частности, методом линейного предсказания, который подробно описывается в главе У. В связи с требованиями выявления формантных параметров в реальном масштабе времени будут рассмотрены также результаты по выделению формантных частот аппаратурно-программным методом с помощью каналов специализированных устройств выделения информативных признаков.

При использовании видиограмм для изучения формантных характеристик следует учитывать трудности их получения, связанные, как отмечено, с тем, что частота основного тона обычно достаточно велика и гармоники основного тона, как правило, не совпадают с резонансами речеобразующего тракта. Тем не менее, видиограммы позволяют нам получить некие усредненные параметры формантных частот, которые мы в первом приближении можем принять за оценки формант. При этом следует иметь в виду то, что нам, вообще говоря, известны области изменения первой и второй формантных частот. В связи с этим предлагается некий формальный прием, позволяющий получить усредненные формантные характеристики, которые їложно использовать для автоматического распознавания гласных. На рис.5.7 приводится выданная на печать типичная ви-диограмма звука "и", произнесенного изолированно в 1 тональности. Для получения обобщенных формантных характеристик все реализации видеограмм звуков "и", произнесенных в одной тональности, строились усредненные спектрограммы, сводившие динамические спектрограммы к некоей средней, в которой значение каждого амплитудного отсчета по оси частот определялось выражением: Таким образом, для гласных осуществляется некая спектрально-временная нормализация и гласный представляется обобщенным вектором, проекции которого - спектральные отсчеты число которых определяется окном анализа.

Шея начальные усредненные спектрограммы, можно производить дальнейшее усреднение характеристик по различным дикторам и различным реализациям звуков. В таблице 4.5 приведены усредненные формантные характеристики различных гласных вьетнамского языка, полученные после анализа усредненных характеристик изолированных звуков - за формантную частоту принималась частота максимума нормированной по времени усредненной по множеству реализаций спектрограммы в соответствующей спектральной области. При этом учитывалось, что каждая обобщенная спектрограмма строится для конкретного диктора, а множество дикторов дает множество обобщенных спектрограмм, каждая из которых соответствует одному звуку. Поэтому в табл.5.5 приводятся средние минимальные и максимальные значения формантных частот F-] и F2, которые и характеризуют область изменения этого параметра для множества дикторов и различных реализаций звука (независимо от контекста).

Автоматический анализ, распознавание и синтез тональной речи (на материале вьетнамского языка) Нгуен Ань Туан 0

Создание и промышленное использование коммерческих систем автоматического распознавания и синтеза речи

Признаки места образования звуков и просодические признаки

Логическая обработка результирующего спектра при выделении частоты основного тона

Формантные характеристики гласных отрезков-слогоморфем

Похожие диссертации на Автоматический анализ, распознавание и синтез тональной речи (на материале вьетнамского языка)