Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Исследование и разработка методов автоматического синтеза речи по фонемному тексту Лобанов Борис Мефодьевич

Исследование и разработка методов автоматического синтеза речи по фонемному тексту
<
Исследование и разработка методов автоматического синтеза речи по фонемному тексту Исследование и разработка методов автоматического синтеза речи по фонемному тексту Исследование и разработка методов автоматического синтеза речи по фонемному тексту Исследование и разработка методов автоматического синтеза речи по фонемному тексту Исследование и разработка методов автоматического синтеза речи по фонемному тексту Исследование и разработка методов автоматического синтеза речи по фонемному тексту Исследование и разработка методов автоматического синтеза речи по фонемному тексту
>

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Лобанов Борис Мефодьевич. Исследование и разработка методов автоматического синтеза речи по фонемному тексту : ил РГБ ОД 71:85-5/103

Содержание к диссертации

Введение

ГЛАВА І. ЛИНГВОАКУСТИЧЕСКИЕ ОСНОВЫ СИНТЕЗА РЕЧИ ПО ТЕКСТУ 15

1.1. Система фонем русского языка и адлофония речи. 16

1.2. Просодические характеристики русской речи.. 26

1.3. Элементы акустической теории речеобразования. 34

1.4. Формантная модель синтеза звуков речи 47

Выводы 59

ГЛАВА 2. ЭКСПЕРИМЕНТАЛЬНОЕ ИССЛЕДОВАНИЕ ФОРМАНТНЫХ И ПРОСОДИЧЕСКИХ ХАРАКТЕРИСТИК РЕЧИ. 61

2.1. Формантные параметры аллофонов речи одного диктора 62

2.2. Формантные частоты гласных и согласных многих дикторов. 75

2.3. Просодические характеристики односинтагменных фраз г 96

Выводы. 106

ГЛАВА 3. МОДЕЛЬ АРТЙКУЛЯТОШОЙ ДИНАМИКИ РЕЧЕОБРАЗОВАНИЯ 108

3.1. Артикуляторно-командное представление фонем. 109

3.2. Динамика движения активных артикуляторов... 118

3.3. Временная организация артикуляторных движений 131

Выводы 138

ГЛАВА 4. ВЫЧИСЛЕНИЕ ФОРМАНТНЫХ ПАРАМЕТРОВ ПО ФУНКЦИЯМ ДВИЖЕНИЯ АРТИКУЛЯТОРОВ 143

4.1. Формантная модель .внутрислоговой коартикуляции. 145

4.2. Вычисление текущих значений формантних частот 151

4.3. Вычисление текущих значений амплитудных параметров 159

Выводы 165

ГЛАВА 5. СИНТЕЗ ФОРМАНТНЫХ ПАРАМЕТРОВ ПО ФОНЕМНОМУ ТЕКСТУ 167

5.1. Динамический формантний портрет фонемы 168

5.2. Модификация формантных параметров фонемы в речевом потоке. 173

5.3. Алгоритм синтеза формантных параметров по фонемному тексту. 190

Выводы 200

ГЛАВА 6. МОДЕЛЬ СИНТЕЗА ПРОСОДИЧЕСКИХ ХАРАКТЕРИСТИК РЕЧИ.. 202

6.1. Особенности просодической организации русской речи 203

6.2. Просодические портреты интонем 208

6.3. Алгоритм синтеза просодики речи по тексту... 218

Выводы 231

ГЛАВА 7. СИНТЕЗ РЕЧЕВОГО СИГНАЛА ПО ФОРМАНТНИМ ПАРАМЕТРАМ. 234

7.1. Методы синтеза речевых сигналов 234

7.2. Источники возбуждения формантной модели речевого тракта 245

7.3. Аналоговая и цифровая реализации формантного синтезатора 255

Выводы 268

ГЛАВА 8. АППАРАТУРНО-ПРОГРАММНАЯ РЕАЛИЗАЦИЯ СИНТЕЗАТОРОВ РЕЧИ КАК УСТРОЙСТВ РЕЧЕВОГО ВЫВОДА ИНФОРМАЦИИ ИЗ ЭВМ 270

8.1. Алгоритмы фонемно-интонационного транскрибирования текстов, выводимых из ЭВМ. 271

8.2. Серийное устройство речевого вывода на базе синтезатора речи "Фонемофон-3" 284

8.3. Синтезаторы речи серии "Фонемофон-4" 293

Выводы 300

ЗАКЛЮЧЕНИЕ 301

ЛИТЕРАТУРА 305

ПРИЛОЖЕНИЕ. Справки, акты и др. документы, подтверждающие внедрение в народном хозяйстве результатов диссертационной работы 319

Введение к работе

Современный уровень развития вычислительной техники и ее повсеместное внедрение в человеко-машинных системах управления делают актуальной организацию общения человека и ЭВМ в одной из наиболее удобных для человека форм - в форме речевого диалога на естественном языке. Речевой способ общения в человеко-машинных системах имеет принципиальные преимущества, главными из которых являются следующие: удобство, естественность и простота общения,не требующая специальной подготовки, что существенно расширяет круг потенциальных пользователей автоматизированных систем управления, повышает эффективность использования ЭВМ; разгрузка зрительного канала при выводе информации и устранение ручных манипуляций при вводе, что увеличивает оперативность взаимодействия с ЭВМ и уменьшает число ошибок оператора; возможность использования в качестве терминалов обычных телефонных аппаратов и существующей сети телефонной связи, что существенно сокращает объем капитальных затрат при вводе в действие человеко-машинных систем массового обслуживания.

К настоящему времени созданы все предпосылки для промышленного освоения принципиально нового типа внешних устройств ЭВМ -устройств речевого ввода-вывода информации (УТВВ). Внедрение УРВВ будет иметь важное народно-хозяйственное значение. Можно указать на следующие основные области их применения:

I. Автоматизированные системы управления технологическими процессами. Здесь УРВВ используется самостоятельно, либо в комплексе с визуальным дисплеем (управление промышленными роботами,

5 САПР различного назначения, системы автоматизированной наладки и монтажа аппаратуры).

Человеко-машинные системы оперативного управления сложными объектами. Здесь УРВБ используется в дополнение к визуальному дисплею (система управления воздушным движением, диспетчерская служба энергосистем и т.п.).

Автоматизированные системы управления предприятий и отраслевые АСУ. УРВБ подключается к местной телефонной сети и обеспечивает выдачу информации по телефону по инициативе пользователя или ЭВМ (телефонная референтская служба министерств и ведомств, информационно-справочные службы в подсистемах контроля за выполнением приказов, материального снабжения, кадров и др.).

Телефонные информационно-справочные системы массового обслуживания. Здесь УРВБ подключается к городской телефонной сети (системы расчета с абонентами за услуги связи, телефонные справочные системы, службы сервиса и др.).

Перечисленные примеры далеко не полностью охватывают возможные сферы применения УРВБ. Важно отметить следующее: применение УРВБ существенно повысит эффективность использования вычислительной техники и сделает ЭВМ доступной самому широкому кругу пользователей.

Указанные преимущества систем речевого ввода-вывода информации в ЭВМ, их практическая реализуемость и умеренная стоимость при использовании новых поколений БИС и СБИС заставляет все большее число специалистов обращаться к проблеме автоматического-го анализа и синтеза речи. За последние несколько лет за рубежом (главным образом в США и Японии) резко возросло число сообщений о проектируемых или законченных образцах синтезаторов и анализаторов речи, выполненных на базе специализированных БИС или микрокомпьютеров [ IJ .

Следует отметить, что речь идет только о разработке, производстве и внедрении устройств речевого ввода-вывода информации первого поколения, характеризующихся сравнительно низкими показателями назначения (объем словаря, надежность, удобство пользования и др.). Что же касается разрабатываемых в рамках различных научных программ и пока еще далеких до завершения систем речевого ввода-вывода, которые по своим показателям приближаются к естественным системам речевого общения между людьми (неограниченный объем словаря, слитная речь, высокая надежность связи и др.), то можно с уверенностью ожидать их еще более широкое распространение во всех сферах использования вычислительной техники.

Создание систем речевого общения с ЭВМ требует решения двух основных проблем: проблемы автоматического синтеза и проблемы автоматического анализа и распознавания речи. Настоящая работа посвящена исследованию вопросов, связанных, в основном, с решением первой проблемы. К настоящему времени существует ряд законченных разработок, обеспечивающих речевое воспроизведение от нескольких десятков до нескольких сотен слов [ 2 ] . Не умаляя их практического значения, отметим, что такого рода устройства вряд ли могут быть в полной мере названы синтезаторами речи. Фактически они выполняют функции цифрового магнитофона, обеспечивая речевое воспроизведение с произвольной выборкой из памяти отдельных слов или фраз, предварительно начитанных диктором.

В полном объеме проблема синтеза речи решается в тех исследованиях и разработках, в которых ставится задача автоматического синтеза речи произвольного словарного состава непосредственно по орфографическому или фонемному тексту сообщения. Эта задача еще окончательно не решена ни для одного из языков, хотя на ее

7 решение были затрачены усилия многих исследователей в США, Японии, Франции и других странах. Исследователи сталкиваются здесь с принципиальными трудностями, связанными с созданием кибернетической системы, моделирующей речевое чтение человеком произвольных текстов. Следует отметить также, что далеко не все результаты, полученные для одного языка,годятся при разработке синтезатора речи другого языка. Фонетические системы каждого конкретного языка уникальны. Необходима конкретно-языковая разработка правил ритмико-мелодической организации речи, ассимиляции, коар-тикуляции и редукции звуков.

Впервые возможность синтеза русской речи по тексту была продемонстрирована в 1971 году в работе М.Ф. Деркача, Н.Г.Загоруйко, Г.Фанта и И.Лллиенкранца[э] , выполненной в Лаборатории передачи речи Королевского технологического института в Стокгольме. Определенный вклад в решение различных аспектов проблемы синтеза русской речи по тексту внесли также работы Л.В.Бондарко [4J , С.В.Голубцова [б] , В.И.Галунова [б] , Л.В.Златоустовой [7J , В.Й.Еули[8] , Э.Ю.Кюннапа [э] , В.Н.Сорокина [ю] , Г.Д.Фролова [ilj , Л.А.Чистович [12] и ряда других исследователей. Однако единая теория синтеза русской речи по тексту оставалась не разработанной. Не было также работ, направленных на создание универсальных устройств синтеза речи, способных выполнять функции стандартного внешнего устройства ЭВМ для вывода информации в речевом виде.

Таким образом, исследование проблемы синтеза речи по тексту актуально как в теоретическом плане создания кибернетической модели чтения текста человеком, так и в практическом плане создания универсальных устройств речевого вывода информации из ЭВМ, обеспечивающих синтез речи по произвольной выходной алфавитно-

8 цифровой информации.

К настоящему времени сложились три основных подхода в исследованиях и разработках проблемы синтеза речи: компиляционный, бионический и лингвоакустический.

В основу компиляционного подхода положено предположение, что любое сложное речевое сообщение может быть получено путем простого соединения (компиляции) элементарных речевых единиц. Элементарные единицы начитываются диктором, соответствующие им сигналы компрессируются тем или иным способом, кодируются и записываются в ПЗУ. При синтезе речевого сообщения из ПЗУ считыва-ются в нужной последовательности закодированные речевые единицы с одновременным восстановлением речевого сигнала.

Очевидная идейная простота компиляционного метода и простота его технической реализации обусловили большое количество зарубежных сообщений о проектируемых и законченных разработках компиляционных синтезаторов и их применении [ 2 ] . В СССР проделаны опыты синтеза русской речи, когда в качестве элементарных речевых единиц использовались аллофоны [із] , слоги [l4] , словоформы [ 15 ] , синтагмы или фразы [16] . К настоящему времени выяснилось, однако, что удовлетворительный по качеству компиляционный синтез речи возможен лишь при использовании в каче;-стве элементарных речевых единиц отдельных фраз либо отдельных словоформ, подставляемых в определенное место стандартной фразы. Попытки добиться возможности высококачественного синтеза произвольного текста путем простой компиляции словоформ,слогов или аллофонов не привели к положительным результатам. Стало ясно, что все эти элементы речи тесно связаны внутри фразы. В слитной речи не существует аналогов этих элементов, произнесенных изолированно, и, наоборот, речь, составленная из изо-

9 лированно произнесенных элементов, звучит ненатурально.

В определенной степени противоположным компиляционному является бионический подход к созданию систем синтеза речи. При этом подходе решается задача моделирования физиологических процессов речеобразования у человека. Исследуются и моделируются нейрофизиологические [Г?] , механические [ю] , аэродинамические Г18J и акустические [19J аспекты физиологии речеобразования. Признавая большую общенаучную значимость этого подхода, отметим, что в практическом отношении он еще очень далек от завершения. В настоящее время имеются весьма фрагментарные бионические модели речеобразования и делаются лишь первые попытки их использования для построения устройств синтеза речи [20] .

Третий, лингвоакустический подход к проблеме синтеза речи, разрабатываемый в данной диссертации характеризуется стремлением получить функциональную модель речеобразования, адекватную реально существующим языковым и акустическим явлениям. Входом такой модели является синтезируемый текст произвольного содержания, выходом - акустические речевые сигналы, обеспечивающие высококачественное звучание заданного текста. По своему существу разрабатываемая в рамках данного подхода модель является кибернетической функциональной моделью чтения текстов человеком. Она рассматривается как аналог естественного процесса образования речи и учитывает, с одной стороны, законы реализации и функционирования в речи лингвистических единиц различного уровня, а с другой - конкретное акустическое проявление деятельности речевого аппарата в процессе звуковой реализации этих лингвистических единиц. лингвоакустический подход базируется на двух фундаментальных понятиях: лингвистического - фонемы и акустического - фор-

10 манты.

Под фонемой понимается наименьшая языковая единица, имеющая смыслоразличительное значение. Из последовательности фонем строятся слова35, являющиеся элементарными носителями смысла. Смысл высказывания выражается посредством цепочки слов, состоящих в свою очередь из цепочки фонем. Это означает, что если мы сумеем построить устройство, которое по последовательности фонем будет синтезировать разборчивые речевые сигналы, то с помощью такого устройства станет возможным автоматически выразить в устной форме смысл любого правильно сформулированного предложения или текста.

Под формантами понимаются частотные резонансы (полюса передаточной функции) речевой акустической системы. Параметры формант (частота, ширина, амплитуда) определяются акустическими свойствами системы. В частности, один из наиболее важных параметров - частота форманты, тесно связан с геометрической конфигурацией речевого тракта [2l] . Поскольку в процессе производства речи конфигурация речевого тракта непрерывно изменяется, то в соответствии с этими изменениями закономерно изменяются фор-мантные частоты. Доказано, что формантное описание речевого сигнала является наиболее экономным [22] , а речь, восстановленная по формантним параметрам,практически неотличима от естественной [ 23 ] .

Таким образом, формантное описание, с одной стороны, позволяет весьма точно и экономно описать речевой сигнал, а с другой - к На письме слова отображаются последовательностью букв. Для русского языка существуют простые алгоритмы преобразования "буква - фонема" [7] . оно тесно связано с процессами артикуляции звуков, т.е. в конечном счете с фонемным текстом сообщения.

Более 10 лет тому назад эти соображения стимулировали автора к разработке в рамках лингвоакустического подхода фонемно-формантного метода (ФФ-метода) синтеза речи. Непосредственной разработке ФФ-метода предшествовали исследования информационно-модуляционной структуры речи [ 24-26 ] , разработка методов анализа фонетических и акустических признаков речевого сигнала [27-30 J , формантних характеристик русских фонем [31-33] и интонационных характеристик речи [ 34-35] . На базе этих исследований в 1972 году был создан первый в стране фонемно-формантный синтезатор речи "Фонемофон-1". Результатом дальнейших исследований ФФ-метода явилось создание все более совершенных второй (1974г), третьей (1978г) и четвертой (1982г) моделей синтезатора русской речи. Из них "Фонемофон-3" освоен в производстве в 1982 году и является первым серийно выпускаемым отечественным синтезатором речи. Подготавливается к производству модель синтезатора речи "Фонемофон-4", освоение которой намечено на 1983 год. Различные аспекты технической реализации ФФ-метода защищены авторскими свидетельствами на изобретения [36-44] .

Экспертная оценка качества синтеза речи, полученная для последней модели "Фонемофон-4", показала ее полную разборчивость и вполне удовлетворительную практически для всех применений натуральность звучания. Отметим также, что в техническом плане реализация ФФ-метода не представляется слишком громоздкой. На элементах средней интеграции объем синтезатора не превышает 6-Ю плат, а с применением К-М0ЇЇ БИС в ближайшие 1-2 года ожидается его одноплатная реализация.

В связи со сказанным можно констатировать, что для целей

12 синтеза русской речи развиваемый в диссертации ФФ-метод достиг достаточно высокой степени завершенности. ФФ-метод по своей сути может быть с успехом адаптирован также для синтеза иноязычной речи. За рубежом ведутся широкие исследования и разработки различных аспектов ФФ-метода синтеза английского [45] , немецкого [46 J , французского [47 ] и других языков. Однако в этих исследованиях отсутствует четкая последовательность в использовании лингвоакустического подхода. Зачастую разрабатываемые методы являются комбинацией лингвоакустического подхода с компилятивным [46,47] или бионическим [45] . Разработанный автором в рамках ФФ-метода многоязычный синтезатор речи "Фонемофон-5" демонстрирует конструктивность лингвоакустического подхода и для синтеза иноязычной речи.

Исследования, проведенные в области создания моделей синтеза речи по тексту, позволили вскрыть тонкие глубинные и поверхностные структуры звуковой организации речевого потока. Удовлетворительный по качеству синтез речи по тексту в принципе невозможен, если не созданы всеобъемлющая и детально проработанная акустическая модель полной системы фонем языка, модель их модификаций в речевом потоке под действием комбинаторных, позиционных и просодических факторов. Таким образом, по мере разработки все более качественной модели синтеза речи по тексту накапливается все больше достоверной информации об эталонных образах каждой фонемы и их модификаций в речевом потоке. Эта информация является исключительно ценной для смежной области - автоматического фонемного распознавания речи.

Диссертация содержит 8 глав, введение и заключение.

Б первой главе излагаются положения, являющиеся основополагающими для лингвоакустического подхода к синтезу речи.Описыва- ІЗ ется система фонем и аллофонов русской речи. Излагаются общие сведения о просодических (интонационных) характеристиках речи и обсуждаются основные проблемы их синтеза. Вскрывается связь артикуляторного и акустического уровней и описываются формант- ные модели артикуляторных укладов для различных групп фонем.

Во второй главе описываются проведенные автором экспериментальные исследования формантных характеристик гласных и согласных фонем и их аллофонов, а также эксперименты по анализу, синтезу и восприятию просодики односинтагменных фраз. Полученные в результате этих исследований данные легли в основу разрабатываемого ФФ-метода синтеза речи.

В третьей главе описывается предложенная автором модель динамики движения артикуляторных параметров. Разработка этой модели позволила разобраться в особенностях формы переходов формантных параметров и в их временной организации на уровне элементарного открытого слога. Результаты, полученные в этой главе, используются в дальнейшем при разработке в рамках ФФ-метода алгоритмов динамики движения формантных параметров.

В четвертой главе, основываясь на рассмотренной модели артикуляции и экспериментальных данных о формантных характеристиках фонем, разрабатываются уравнения артикуляторно-формантных связей. Полученные уравнения используются в дальнейшем при разработке в рамках ФФ-метода алгоритмов вычисления текущих значений формантных параметров по функциям движения артикуляторных параметров.

В пятой главе вводится понятие формантного портрета фонемы, разрабатываются и описываются динамические формантные портреты фонем русской речи и правила их модификации в речевом потоке. Описывается алгоритм синтеза формантных параметров по фонемным портретам.

В шестой главе вводится понятие портрета интонемы, разрабатываются и описываются динамические портреты интонем русской речи. Описывается алгоритм синтеза просодических характеристик речи: мелодики, ритмики и энергетики, на основе этих портретов.

Седьмая глава посвящена разработке и описанию методов синтеза речевого сигнала по формантним параметрам. Описывается реализация формантного синтезатора на основе аналоговой и цифровой техники.

В восьмой главе описываются действующие модели синтезаторов речи, разработанные в рамках модификаций ФФ-метода, а также особенности их функционирования и применения как устройств речевого вывода информации из ЭВМ.

В приложении к диссертации приведены сведения о внедрении результатов исследования в народном хозяйстве.

В диссертации отсутствует специальный раздел, посвященный историческому обзору существующих методов синтеза речи. Это сделано, отчасти, из-за того, что в последнее время появилось большое количество обзорных работ по данной теме, таких как [1,2,47], а также в связи с тем, что в диссертации в начале каждой главы дается краткий обзор литературы по соответствующей проблеме.

Система фонем русского языка и адлофония речи

Под фонемой в лингвистике понимается наименьшая смыслоразличи-тельная единица языка [52 ] . Вопрос о существовании каждой отдельной фонемы решается положительно, если она участвует в смысловом противопоставлении слов языка. Другими словами, данный звук является фонемой, если найдутся слова, различающиеся только этим звуком. Например, фонемы /м/ и /в/ существуют, поскольку существуют слова МОЛ и ВОЛ.

В русском языке насчитывают 42 фонемы: /у,о,а,э,ы,и,м,м ,н,н , л,л ,р,р/,йіВ,в/,з,з 1ж,б,б ,д ДІг,г/,ф,ф ,о,с ,ш,ш ,ХіХ/,Ц ч,п,п ,т,т; к,к/. Каждая фонема обладает определенными акустическими свойствами, которые обусловлены артикуляторными особенностями ее образования. Схематическое изображение артикуляторного аппарата человека дано на рис. І.І. Каждую фонему характеризует определенный "способ" и "место" ее образования. По способу образования русские фонемы делятся на две основные группы: гласные /у,о,а, э,ы,и/ и согласные (остальные 36 фонем). Образование гласных фонем характеризуется отсутствием преград в речевом тракте, в то время как при образовании согласных в ротовой полости обязательно присутствует полная или неполная смычка (щель), создаваемая языком или губами.

Согласные фонемы по способу образования делятся на группы сонорных, щелевых, взрывных и аффрикат (рис. 1.2). Для группы сонорных согласных характерно наличие относительно широкой щели. Эта щель образуется между колеблющимся кончиком языка и альвеолами у дрожащих сонорных, при опускании боковинок языка у боковых сонорных, при опускании небной занавески - у носовых сонорных. Группа щелевых согласных характеризуется наличием достаточно узкой щели, образуемой нижней губой, кончиком или спинкой языка при их смыкании с зубами, альвеолами или твердым небом. Щелевые согласные делятся по способу образования на звонкие и глухие в зависимости от того, участвуют или не участвуют в их образовании голосовые связки. Группа взрывных характеризуется наличием полной смычки в артикуляторном тракте с последующим ее резким открытием. Так же как и щелевые согласные, взрывные делятся на звонкие и глухие. И наконец, фонемы из группы аффрикат характеризуются тем, что в процессе их образования происходит смена фазы смычки на фазу шумообразующей щели.

Формантные параметры аллофонов речи одного диктора

В главе I было показано, что с помощью формантной модели речевого тракта можно осуществить синтез любого звука речи путем соответствующего задания значений 10 формантных параметров.

Целью настоящего исследования является получение эталонных оценок значений перечисленных формантных параметров для основных аллофонов русской речи.

Для исследования комбинаторных аллофонов согласных и гласных фонем использовался речевой материал, состоящий из 90 трехсложных псевдослов, в котором каждая из согласных фонем сочеталась с каждой из гласных. Их список приведен в табл. 2.1. Для исследования позиционных аллофонов согласных фонем использовались 36 односложных псевдослов, в которых каждый согласный встречается в начале и в конце слова. Их список приведен в табл. 2.2. Весь речевой материал был начитан эталонным диктором-мужчиной полным стилем, пословно, с установкой на равновыделенное произнесение слогов. Дополнительно для исследования позиционных аллофонов гласных фонем одна из строк табл. 2.1 была начитана с ударением на первой, второй и последней гласной.

Таким образом, сравнительно небольшой по объему речевой материал охватывает основное многообразие комбинаторных и позиционных аллофонов, а их пословное произнесение диктором обеспечивает однотипные просодические и дикторские условия акустической реализации аллофонов. Аналогичный речевой материал, начитанный другими (неэталонными) дикторами, использовался в качестве контрольного.

Полученные записи акустических сигналов речи использовались для съемки осциллограмм и спектрограмм. Осциллограммы речевого сигнала снимались с помощью шлейфного осциллографа Н-І02. Спектрографические исследования проводились с использованием сонографа фирмы К А У, а также отечественного звукового спектрографа СК-4-3. По осциллограммам и сонограммам (динамическим спектрограммам) измерялись значения перечисленных выше 10 формантных параметров на квазистационарных участках гласных и согласных фонем, измерялась длительность фонем, а также длительность переходов от одного квазистационарного участка к другому.

Измерения частот 1,2 и 3 ротовых формант проводились по сонограммам. Перед началом измерений осуществлялась ручная сегментация сонограммы и экстраполяция значений формантных частот на неозвученных участках. В задачу сегментации входило нахождение следующих характерных точек: начала и конца гласных и согласных звуков, центров квазистационарных участков гласных и согласных звуков, начала переходов формантных частот от гласного к смычке согласного и конца перехода от смычки согласного к гласному. При экстраполяции значений формантных частот предполагалось, что на участке смычки согласного формантные частоты существенно не изменяются. Такое предположение вполне допустимо для используемых в эксперименте звукосочетаний, где каждый согласный окружен одинаковыми гласными. Во время смычки активные органы, участвующие в образовании согласного, неподвижны, а одинаковое гласное окружение делает ненужным перестройку артикуляторов, участвующих в образовании гласных звуков. В результате, формантные частоты на участке смычки изменяются незначительно и могут быть взяты равными их значению в самом конце смычки, т.е. в начале ее раскрытия. Исключение составляют мягкие согласные, в образовании которых дополнительно участвует еще один артикулятор (тело языка), который, двигаясь более медленно, чем смыкающий артикулятор, может к началу смычки не дойти до положения цели своего движения. В результате формантная частота в начале смычки может отличаться от ее значения в конце смычки.

Артикуляторно-командное представление фонем

Приведенное в разделе I.I описание фонем в виде набора артикуляторных признаков тесно связано с набором команд, поступающих на отдельные органы артикуляции человека в процессе акустической реализации фонем. При этом признаки места образования определяют фактически координаты целей движения активных органов под действием управляющих команд, а признаки способа образования - характерные изменения состояний одного или группы активных органов без существенного их перемещения в пространстве.

Чтобы перейти от артикуляторных признаков фонем к набору артикуляторных команд, составим перечень активных органов артикуляции. Относительно независимыми активными органами речеобразования (см. рис. I.I) являются следующие артикуляторы:

1. Тело языка

2. Кончик языка

3. Боровинки языка

4. Губы

5. Небная занавеска

6. Нижняя челюсть

7. Голосовые связки

8. Легкие

Каждый из активных артикуляторов снабжен группой мышц, которые, сокращаясь под действием нервных импульсов, перемещают основную массу артикуляторов в необходимое положение.

Все активные артикуляторы разделяются на группы, обладающие одной или двумя степенями свободы. К первой группе относятся артикуляторы, совершающие только один тип движения: боковинки языка (опускание), небная занавеска (смыкание), нижняя челюсть (опускание), легкие - сжатие. Ко второй группе относятся артикуляторы, имеющие два относительно независимых типа движения: тело языка (подъем, продвижение вперед), губы (смыкание, продвижение вперед), кончик языка (движение к альвеолам или к зубам), голосовые связки (смыкание, натяжение).

Описанные типы движения активных артикуляторов совершаются под действием командных сигналов, обозначаемых соответственно.

Перечисленные командные сигналы вырабатываются в процессе речеобразования по фонемной последовательности сообщения. При этом в русском языке команды 7 , Ту, /у, fy, К , К у, Б, Н , С используются для отображения фонемного состава сообщения, а команды С/ и /I - для отображения его просодических характеристик. Команда управления движением нижней челюсти Ч в русском языке, в отличие от некоторых других языков (например, английского), не играет существенной роли в образовании фонем.

Необходимость дальнейшего расширения числа команд управления связана с известным принципом слоговой организации речи [l2j . В соответствии с этим принципом речевой поток разбивается на последовательность открытых слогов типа СГ, в которых команда на реализацию согласного подается одновременно с командой на реализацию гласного. При реализации гласных используются активные артикуляторы 7" и Г . При этом артикулятор Т имеет два типа движения (подъем, продвижение вперед), а артикулятор Г - один тип (продвижение вперед). Команды на реализацию гласного обозначим соответственно

Формантная модель .внутрислоговой коартикуляции

Явление коартикуляции существует благодаря одновременной и независимой работе двух каналов управления - канала гласных и канала согласных фонем. Эффект коартикуляции проявляется в возникновении комбинаторных оттенков фонем. Как уже указывалось, в пределах слога особенности артикуляции согласных фонем определяются не только типом согласной, но и типом гласной фонемы, входящей в слог. Конфигурацию речевого тракта при образовании гласных звуков определяют артикуляторные параметры Ту i Ц t Г . В процессе речеобразования изменения параметров Т/ , Tyr\ Г образуют в этом пространстве непрерывную "линию гласных", определяемую последовательностью гласных фонем сообщения. Одновременно с "линией гласных" в процессе речеобразования артикуляторы Т/, Ту ( Б\ К К образуют "линию согласных".

Взаимодействие артикуляторных линий гласных и согласных приводит на акустическом уровне к зависимости формантних параметров согласных от окружающих гласных. Наибольшим изменениям подвергается частота второй голосовой форманты. На участке согласного она характеризует собственную частоту резонатора, находящегося за сужением [78J . Параметры этого резонатора, а следовательно, и резонансные частоты, зависят от его длины, определяемой местом смычки согласного, и от конфигурации резонатора, определяемой предыдущей и последующей гласными.

Математическое описание акустических эффектов коартикуляции приведем на примере частоты второй форманты.

Динамический формантний портрет фонемы

Динамический формантный портрет фонемы задает поведение комплекса формантних параметров на конечном временном интервале. Как уже указывалось, полное формантное описание включает 10 параметров, Формантное описание целесообразно разделить на группы частотных параметров Ft , Ft % з , F ? , амплитудных 4/ » Ан » А9 AQ И дополнительных В9/ Fo .

На рис. 5.1 представлен обобщенный формантный портрет согласной фонемы в контексте ГСГ.

Частотные формантные параметры ( F - параметры) задаются тремя характеристиками: Р - собственное значение формантной частоты, о - коэффициент коартикуляции, f - длительность формантного перехода.

Амплитудные параметры ( А - параметры) задаются двумя характеристиками: Р - значение амплитуды, Т - длительность перехода.

Формантные характеристики фонемы задаются на пяти последовательных сегментах. Из них выделяются: начальный - подготовительный сегмент, 1,2,3 - основные сегменты; конечный - завершающий сегмент.

Основные сегменты описываются полным набором значений формантних характеристик и значением параметра длительности 7".

Подготовительный сегмент имеет нулевую длительность и описывается набором характеристик частотных параметров, а характеристики амплитудных параметров отсутствуют. Завершающий сегмент также имеет нулевую длительность и описывается значениями Т для частотных параметров и амплитудного параметра Ар. Остальные параметры отсутствуют.

Значения формантных характеристик находятся путем экспериментального анализа реализаций фонем в естественной речи. Минимальные требования к экспериментальному материалу следующие:

- каждый согласный должен встречаться перед каждой гласной, после каждой гласной, а также до и после паузы;

- весь материал должен быть начитан одним и тем же диктором.

Формантные параметры и их характеристики получаются на основе исследования сонограмм (спектрограмм) и осциллограмм речевого сигнала.

В процессе экспериментального исследования осуществляются операции выделения фонемных сегментов, нормирования измеренных формантных параметров, определения собственных значений и коэффициента коартикуляции, измерения длительности формантных переходов.

Опишем кратко методику осуществления перечисленных операций.

Выделение фонемных сегментов. Выделение сегментов согласной фонемы проводится в слогах ГСГ. Подготовительный и завершающий сегменты совпадают, соответственно, с левой и правой границей фонемы. Начало первого сегмента всегда совпадает с началом перехода амплитудного параметра Ар, Первый сегмент длится до тех пор, пока на любом из параметров не начнется новое по направлению движение. Указанный момент является началом следующего, 2-го сегмента, а концом его также является начало нового по направлению движения любого из параметров. То же самое можно сказать и о 3-ем сегменте.

Похожие диссертации на Исследование и разработка методов автоматического синтеза речи по фонемному тексту