Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Модель голосообразования и анализ речевого сигнала в норме и при патологии Квасов Алексей Николаевич

Модель голосообразования и анализ речевого сигнала в норме и при патологии
<
Модель голосообразования и анализ речевого сигнала в норме и при патологии Модель голосообразования и анализ речевого сигнала в норме и при патологии Модель голосообразования и анализ речевого сигнала в норме и при патологии Модель голосообразования и анализ речевого сигнала в норме и при патологии Модель голосообразования и анализ речевого сигнала в норме и при патологии Модель голосообразования и анализ речевого сигнала в норме и при патологии Модель голосообразования и анализ речевого сигнала в норме и при патологии Модель голосообразования и анализ речевого сигнала в норме и при патологии Модель голосообразования и анализ речевого сигнала в норме и при патологии Модель голосообразования и анализ речевого сигнала в норме и при патологии Модель голосообразования и анализ речевого сигнала в норме и при патологии Модель голосообразования и анализ речевого сигнала в норме и при патологии
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Квасов Алексей Николаевич. Модель голосообразования и анализ речевого сигнала в норме и при патологии : диссертация ... кандидата технических наук : 05.13.18 / Квасов Алексей Николаевич; [Место защиты: Том. гос. ун-т систем упр. и радиоэлектроники (ТУСУР) РАН].- Томск, 2007.- 119 с.: ил. РГБ ОД, 61 07-5/5147

Содержание к диссертации

Введение

Глава 1. Особенности речеобразования 18

1.1. Формирование звучной речи в организме человека 18

1.2. Параметры систем речеобразования в зависимости от пола и строения организма 22

1.3. Влияние органов речевого аппарата на параметры голоса 27

1.4. Формирование звуков устной речи 29

1.5. Динамика речеобразования при слитной речи 32

1.6. Акустические схемы процесса голосообразования 33

1.7. Существующие подходы к учету характеристик голоса, связанных с полом диктора 36

Выводы по первой главе: 38

Глава 2. Влияние особенностей речеобразования на формантную структуру 39

2.1. Модели речеобразующего тракта 39

2.2. Модели образования вокализованных звуков речи 45

2.3. Сравнение моделей образования вокализованных звуков речи 45

2.4. Влияние длины речевого тракта на формантную структуру сигнала...54

2.5. Влияние Морганиева желудочка на формантную структуру сигнала..56

2.6. Влияние площади сечений речеобразующего тракта на формантную структуру 59

2.7. Распространение опухоли при раке гортани 60

2.8. Образования в просвете гортани 62

Выводы по второй главе: 64

Глава 3. Влияние особенностей речеобразования на частоту основного тона 67

3.1. Обзор моделей голосовых складок 67

3.2. Модель голосовых складок для патологической речи 68

3.3. Влияние массы голосовых складок на речевой сигнал для нормальной речи 73

3.4. Влияние на речевой сигнал неравномерности масс голосовых складок при патологической речи 78

Выводы по третьей главе: 81

Глава 4. Иследование модели и алгоритмов 83

4.1. Описание программного комплекса 83

4.2. Результат анализа речевых сигналов онкологических больных с распространением раковой опухоли на одну голосовую складку до операции 85

4.3. Алгоритм оценки эффективности лечения опухолей гортани по речевому сигналу 90

Выводы по четвертой главе: 92

Заключение 93

Список использованных источников 97

Приложение 1 107

Приложение 2 108

Приложение 3 109

Введение к работе

В современном мире проявляется все больший интерес к речевым технологиям, в частности, к идентификации личности по голосу [12]. Это объясняется, с одной стороны, появлением высокопроизводительных вычислительных систем на базе персональных компьютеров, с другой стороны, высокой потребностью систем аутентификации в разных областях жизнедеятельности человека в связи с широким распространением вычислительной техники. Задача распознавания речи решается уже довольно продолжительное время. Но то, что эта задача очень долго оставалась на стадии начальных исследований, уже говорит о нетривиальности требующихся подходов [2]. Во многом это связано со сложностью самих процессов речеобразования и речевосприятия.

Исследование процессов речеобразования и речевосприятия имеет достаточно продолжительную историю. Наиболее полно во второй половине прошлого века эти исследования были представлены в монографиях Сапожкова М.А., Фанта Г., Фланагана Дж., Сорокина В.Н. [37, 56, 58, 62]. Вначале работы носили в основном теоретический характер, при этом модели пытались строить на аналогах электрических цепей с сосредоточенными параметрами [37].

Интерес к данной проблеме с новой силой вспыхнул с появлением вычислительной техники. В 50-60-е годы, окрыленные высокими темпами научно-технического прогресса, многие полагали, что с компьютером можно будет общаться исключительно «естественным» образом уже через 10-15 лет. Впоследствии эра «бесклавиатурного» общения была отодвинута к концу 80-х годов, потом 90-х. Конечно, в настоящее время имеется некоторый прогресс, и рынок проявляет все возрастающий интерес к этой технологии. Программы и системы, обладающие средствами речевого ввода информации, получают все большее распространение, но их качество остается невысоким.

5 Проблема оказалась весьма сложной и обладающей свойством разветвляться в другие области знаний: статистическую радиотехнику, лингвистику, психоакустику, анатомию и многие другие [2].

Звуковая речь рассматривается как генерируемое человеком звуковое сообщение, которое может быть зарегистрировано, сохранено, обработано и воспроизведено заново при помощи приборов и алгоритмов. Из сообщения извлекается и оценивается полезная для получателя информация. Например, при оценке интонаций рассматриваются просодические нюансы речи, при распознавании речи задача сводится к извлечению из речи текста и т.д. [2].

Идеологически система распознавания речи состоит из двух частей. Они могут быть неявно выделены в самостоятельные блоки или подпрограммы. Какая-то из них может существовать в упрощенном до крайности виде, но в любой реализации всегда есть эти части [2]. В литературе можно встретить разные варианты названия этих составных частей. Условно их можно назвать акустической и лингвистической. Последняя часть, впрочем, лингвистической названа не строго. В общем случае она может включать в себя фонетическую, фонологическую, морфологическую, лексическую, синтаксическую и семантическую модели языка, как это предложено считать в [46]. Или, наоборот, представлять собой простой коррелятор.

Акустическая модель отвечает за представление речевого сигнала, вернее, за его преобразование (из традиционного временного процесса) в некоторую форму, в которой в более явном виде присутствует информация о содержании речевого сообщения. Лингвистическая модель интерпретирует информацию, получаемую от акустической модели, и отвечает за представление результата распознавания потребителю (в роли которого может выступать не только человек, но и техническая система, управляемая речью).

Аналитическая группа Allied Business Intelligence заявила о том, что средства распознавания речи будут-играть все большую роль в интернете. Прежде всего, эта технология находит применение в системах доступа в сеть, как при традиционном, так и при беспроводном способе подключения. Голосовые порталы - новый сегмент индустрии распознавания речи -значительно облегчают этот доступ как мобильным, так и стационарным пользователям [6].

Решения, основанные на технологии распознавания речи, уже применяются в мобильных телефонах, интерактивном телевидении и даже встраиваются в автомобильные панели управления. Лидерами исследований в этой области являются IBM, AT&T, Lucent и Philips. Системы распознавания речи будут использовать и аудиовизуальные технологии. Например, камеры, расположенные перед сидением водителя, смогут распознавать его речь по движению губ, и тогда посторонние шумы или разговоры пассажиров не будут создавать помех. Еще в этом десятилетии корпорация IBM надеется создать машину, способную распознавать разговорную речь на двадцати языках, а также понимать различные диалекты, акценты и контексты, что позволит безукоризненно переводить юридические и медицинские документы и даже свидетельские показания в зале суда. Проект рассчитан до конца 2010 года.

Актуальность темы диссертации. Построение речевых диалоговых систем, компактное кодирование речи, медицинские приложения, распознавание и синтез речи, идентификация диктора по голосу требуют детального знания структуры речевого сигнала и механизмов его образования. Особенно это актуально в задачах идентификации диктора по голосу, ранней диагностики заболеваний органов речеобразования, постановке певческого голоса и др. Задача определения влияния процесса речеобразования на образование звуков, как для нормальной речи, так и в случае образования опухолей в области гортани, на сегодняшний день

7 остается актуальной и решенной неполностью, особенно для открытого множества дикторов. При этом _ необходимо принимать во внимание особенности строения речевого аппарата, связанные с полом диктора, возрастом, его телосложением и состоянием здоровья. Основным недостатком существующих систем является упор на статистические данные без учета особенностей речеобразования, связанных с анатомией и физиологией человека. Точность результата работы подобных систем напрямую зависит от полноты и адекватности используемых баз данных голосов, ведение которых является очень трудоемким и дорогостоящим процессом. Еще одна проблема - локализация, адаптация подобных систем для других языков, в частности, для русского.

Необходимо отметить, что до сих пор не установлена связь между параметрами анатомии речеобразующей системы, ее динамикой и параметрами голоса. Большой вклад в развитие данной области внесли ученые Г. Фант, Дж. Фланаган, М.А. Сапожков, В.Н. Сорокин, В.И. Галунов, Б.М. Лобанов, Т.К. Винцюк, Л.В. Златоустова, А.В. Аграновский, Н.Г. Загоруйко, Ю.А. Косарев, А.Л. Ронжин, М.В. Хитров, С.Л. Коваль, В.Г. Михайлов, В.П. Бондаренко, Л.Н. Балацкая.

Учет особенностей анатомии человека, связанных с полом диктора, существенно повышает точность работы систем распознавания речи и определения личности диктора, используется при сортировке телефонных звонков, поиске образцов речи в базах данных, существенно сокращая время получения результата. Исследование влияния опухоли в области гортани позволяет отслеживать динамику болезни при реабилитации больных, упрощает задачу ранней диагностики опухолей гортани по речевому сигналу. Наиболее распространенный на сегодняшний день зеркальный осмотр дает долю ошибок от 30%) до 50%. Использование томографии на ранних стадиях не позволяет выявить изменений тканей и является дорогостоящей процедурой. Между тем, на ранних стадиях заболевания отмечается

8
изменение голоса пациента, связанное с изменениями параметров речевого
аппарата. ..- -

Таким образом, задача исследования особенностей формирования гласных звуков на уровне гортани для нормальной речи и при патологиях, в зависимости от особенностей системы речеобразования человека, является актуальной.

Цель работы и задачи исследования. Основной целью диссертационной работы является выявление влияния параметров системы речеобразования на формирование звуков на уровне гортани в норме и при патологии.

Для достижения поставленной цели необходимо решить следующие задачи:

  1. провести анализ системы речеобразования человека: исследовать строение системы речеобразования, выявить механизмы функционирования и взаимодействия органов речевого аппарата в процессе образования звучной речи, а также определить их параметры;

  2. исследовать структуру речевого сигнала, выявить характеристические параметры, связанные с полом диктора или опухолью гортани;

  3. разработать математическую модель голосообразования на уровне гортани при патологиях;

  4. разработать численные методы определения отклонений речевого сигнала при патологиях;

  5. разработать алгоритмическое и программное обеспечение, реализующее модель и алгоритмы;

  6. исследовать разработанные модели и алгоритмы.

Методы исследования. Для решения задач, сформулированных в работе, использовались методы системного анализа, цифровой обработки

9 сигналов, вычислительной математики, теории цепей, фонетики,

психоакустики. -

Научная новизна результатов, полученных в работе, состоит в следующем:

  1. разработана модель образования голоса на участке гортани, отличающаяся от известных изменяемыми параметрами каждой из голосовых складок в отдельности;

  2. определено влияние особенностей анатомии в норме и при патологии на характеристики голоса, представленное в виде зависимостей;

  3. сформулированы требования к анализу речевого сигнала при лечении и речевой реабилитации больных заболеваниями гортани.

Тезисы, выносимые на защиту.

  1. модель образования звуков при условии несимметричности параметров голосовых складок;

  2. зависимости параметров вокализованных звуков от особенностей строения речевого аппарата для речи в норме и при патологии и методики их определения;

  3. алгоритм оценки эффективности лечения опухолей гортани путем анализа речевого сигнала.

Практическая ценность работы. Разработанные модель и алгоритмы позволяют:

  1. создавать программное обеспечение для детального анализа речевого сигнала;

  2. формировать описание речевого сигнала для его распознавания, идентификации диктора и кодирования речи в цифровых системах связи;

  3. разрабатывать программное обеспечение для диагностики изменений в речеобразующей системе человека.

Внедрение результатов. Разработанный программный комплекс используется в научно-исследовательской и медицинской деятельности ГУ

10 НИИ онкологии ТНЦ РАМН, ООО «НПФ «Информационные системы безопасности», ООО «ЛМЭ «Биоток», а также в учебном процессе ТУСУРа по дисциплине «Вычислительная математика».

Личный вклад. Автором разработана модель речеобразования при несимметричных характеристиках голосовых складок. Проведены исследования влияния изменения параметров речеобразующего тракта на голос человека, разработан алгоритм и осуществлена программная реализация модулей для оценки эффективности лечения опухолей гортани. Постановка задачи осуществлялась совместно с руководителем - д.т.н., проф. В.П. Бондаренко.

Апробация работы. Основные результаты по теме диссертационной работы отражены в 9 публикациях (в том числе 5 статьях, из них 3 в журналах, рекомендованных ВАК).

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы из 92 наименований и 3 приложений. Общий объем работы составляет 109 страниц, в том числе 35 рисунков и 35 таблиц.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснованы актуальность и научная новизна исследования, определены цель работы и основные задачи, которые необходимо решить для ее достижения, дана общая характеристика исследования, сформулированы основные положения, выносимые на защиту.

В первой главе проводится анализ анатомического строения речеобразующего тракта и механизмов взаимодействия его составляющих в процессе формирования звучной речи, а также определение диапазонов допустимых значений их параметров.

В результате анализа определено, что строение мужского и женского речевых аппаратов имеет существенные различия, такие как длина

речеобразующего тракта, размеры гортани, а также параметры голосовых
складок. -. -

Приведены акустические схемы для мужской и женской речи в норме и при патологиях.

Рассмотрены основные существующие подходы к учету характеристик голоса, связанных с полом диктора: 1) на основе метода двух формант; 2) на основе скрытых Марковских моделей; 3) на основе смешанных Гауссовских моделей. В результате был сделан вывод, что ни один подход не принимает во внимание особенности речеобразования, связанные с анатомией и физиологией человека, а ориентируется на статистические данные.

На основе проанализированных данных сделана постановка задачи, которая заключается в построении моделей речеобразования для нормальной и патологической речи и определении зависимостей между параметрами голоса и особенностями анатомии речеобразующего тракта.

Во второй главе рассмотрено влияние параметров речеобразующего тракта на характеристики голоса.

Были рассмотрены следующие подходы к построению математической модели речеобразующего тракта:

  1. волновая модель Келли-Локбаума;

  2. модель на основе уравнения Вебстера;

  3. модель на основе длинных линий, или четырехполюсников. Описана модель формирования формантной структуры на основе

известных данных о площадях сечений речеобразующего тракта для различных звуков.

Сопоставлены основные модели образования вокализованных звуков речи:

1. модель, основанная на миоэластической теории фонации, в которой голосовые складки раскрываются под действием давления в трахее и смыкаются под действием сил Бернулли;

  1. модель, основанная на нейрохроноксической теории Рауля Юссона, в которой на движение голосовых складок не влияет давление, как в трахее, так и в ротовой полости;

  2. модель Фанта, в которой постулируется независимость источника возбуждения от параметров речевого тракта.

С использованием каждой из трех перечисленных моделей образования вокализованных звуков речи были найдены частоты первых двух формант для звуков /А/, /Е/, /И/, /О/, /У/, с длиной речеобразующего тракта, соответствующей среднему значению для мужского организма - 17 см, и 14,5 см для женского. Полученный результат сравнивался с известными данными о частотах первых двух формант для мужчин и женщин. В результате сравнения было установлено, что наименьшее расхождение имеют значения, полученные с помощью модели движения голосовых складок за счет разности давлений. Следовательно, эта модель является наиболее адекватной процессам образования звучной речи и может быть использована для решения поставленных задач.

Анализ влияния изменения длины речеобразующего тракта на параметры голоса показал, что уменьшение длины речеобразующего тракта приводит к существенному росту частот формант, что объясняет наличие более высоких частот формант в женском голосе по сравнению с мужским, и подтверждается известными данными по частотам формант.

Была проведена оценка чувствительности для частот формант к изменению длины РОТ. В результате установлено, что наиболее чувствительными к изменению длины РОТ являются частоты верхних формант.

Изменение длины Морганиева желудочка практически не оказывает никакого влияния на частоты первых двух формант и наиболее сильно сказывается на частоте третьей форманты, за исключением звука /И/, где наиболее сильно изменяется частота четвертой форманты.

При исключении Морганиева желудочка из речеобразующего тракта исчезла третья форманта для всех звуков, кроме /И/, из чего можно сделать вывод, что Морганиев желудочек отвечает за формирование третьей форманты в гласных звуках /А/, /Е/, /О/, /У/.

Пропорциональное изменение площади поперечного сечения для всего речеобразующего тракта не оказывает никакого влияния на частоты формант.

Пропорциональное увеличение площади поперечного сечения Морганиева желудочка приводит к незначительному росту частот четвертой и третьей формант и уменьшению первой и второй.

Был проведен анализ 43-х историй болезни, предоставленных НИИ онкологии ТНЦ СО РАМН, с диагнозом рак гортани, в результате чего была составлена таблица частоты распространения опухоли на органы гортани. В результате установлено, что преимущественно опухоли подвержена одна голосовая складка (67,4%), также большое внимание следует уделить распространению опухоли на стенки гортани в области голосовых складок и Морганиева желудочка.

Появление посторонних образований в просвете гортани в области голосовых складок и Морганиева желудочка наибольшим образом сказывается на увеличении частоты третьей форманты пропорционально росту размера образования.

В третьей главе приведен обзор моделей голосовых складок, разработана модель образования гласных звуков на уровне гортани для речи при патологии, описано влияние изменения массы голосовых складок на речевой сигнал для нормальной и патологической речи.

Были рассмотрены следующие модели голосовых складок:

  1. одномассовая модель (J.L. Flanagan, L.L. Landgraf, 1968);

  2. одномассовая модель с имитацией второй массы (Federico Avanzini, Paavo Alku, Matti Karjalainen, 2001);

  3. двухмассовая модель (К. Ishizaka, J.L. Flanagan, 1972);

  1. трехмассовая модель (В.Н. Story, I.R. Titze, 1995);

  2. шестнадцатимассовая модель (I.R-Titze, 1973).

Анализ моделей голосовых складок показал, что для исследования влияния массы голосовых складок на речевой сигнал наиболее подходит одномассовая модель. Достоинством данной модели является простота реализации при учете большинства изменяемых параметров, низкая вычислительная сложность. Основным недостатком перечисленных моделей по сравнению с одномассовой является трудоемкость обнаружения областей устойчивых колебаний. Вместе с тем, постановка задачи требует того, чтобы области колебаний были обширны, поскольку необходимо варьировать параметры модели в широких пределах.

В связи с тем, что для речи в норме параметры обеих складок одинаковы и их движения синхронны, в моделях голосовых складок обе голосовые складки заменяются одной эквивалентной с массой, равной сумме масс обеих складок.

В случае, когда параметры складок различны (например, при раке гортани), приведенные модели голосовых складок становятся неприемлемы. При моделировании голосовых складок с различными параметрами возникает необходимость моделировать каждую складку в отдельности.

Приведена модель образования вокализованных звуков при патологии.

В ходе исследования влияния на речевой сигнал изменения массы голосовых складок для нормальной и патологической речи не удалось выявить какой-либо взаимосвязи между изменением массы складок и величины относительных интенсивностей гармоник частоты основного тона.

Для нормальной речи было установлено, что при увеличении массы голосовых складок частота основного тона уменьшается, что объясняет более низкую частоту основного тона у мужчин по сравнению с женской, поскольку мужские голосовые складки в большинстве случаев тяжелее женских, и подтверждается известными данными по частоте основного тока.

При речи с патологией, в связи с распространением опухоли на часть голосовой складки, масса складки, участвующая в процессе речеобразования, уменьшается, так как пораженная часть становится неподвижной.

Построена зависимость частоты основного тона от массы активной части одной голосовой складки. Из полученных данных видно, что с ростом площади поражения и, как следствие, уменьшением массы активной части голосовой складки, частота основного тона увеличивается.

Анализ траектории движения голосовых складок с различными массами показал, что они двигаются в разной фазе. Токи через голосовые складки также имеют разную фазу и отличаются по форме.

В четвертой главе представлен алгоритм и программная реализация оценки отклонения параметров речевого сигнала и эффективности проведения лечения при раке гортани. Обоснована возможность применения разработанных моделей в медицинских исследованиях при получении параметров речевого сигнала. Это позволяет определить изменения органов речеобразования, характерных для рака гортани различных стадий, а также при ранней диагностике рака гортани.

Использование разработанных программных модулей может послужить основой методик диагностики наличия заболеваний, которые вызывают изменения на уровне гортани (в том числе рака гортани), а также программ, позволяющих производить контроль качества проводимого лечения при лучевой и химиотерапии. На сегодняшний день методы, при помощи которых производится оценка размеров опухоли либо требуют дополнительного дорогостоящего оборудования, либо не могут применяться слишком часто, например, рентген или томография, либо недостаточно точны, например, зеркальная ларингоскопия, дающая процент ошибок от 30% до 50%.

Приведены результаты анализа записей голосов онкологических больных с распространением раковой опухоли на одну голосовую складку до

проведения операции. Не удалось установить какую-либо взаимосвязь между развитием заболевания и относительными-максимумами интенсивностеи гармоник, однако отмечается значительное увеличение разброса соседних значений относительных максимумов интенсивностеи частоты основного тона с ростом тяжести заболевания.

При этом происходит значительное увеличение частоты основного тона, что соответствует данным, полученным в результате моделирования.

Представлено описание программного комплекса по исследованию речевого сигнала и составляющих его программно реализованных модулей, объединенных в семь блоков.

Блок создания файлов для обработки речевого сигнала предназначен для расчета весовых функций, а также формирования набора масок.

Блок предварительной обработки речевого сигнала предназначен для выполнения свертки речевого сигнала с весовыми функциями системы фильтров.

Блок выделения параметров речевого сигнала предназначен для вычисления массива значений интенсивностеи и мгновенных частот основного тона.

Блок выделения вокализованных участков речевого сигнала осуществляет одновременную маскировку речевого сигнала, сегментацию речевого сигнала по наличию голосового источника.

Блок выделения параметров вокализованных сегментов речевых сигналов предназначен для определения номеров каналов и вычисления величины девиации частоты основного тона.

Блок визуализации параметров речевого сигнала позволяет сохранять полученные графики как в автоматическом, так и в автоматизированном режиме.

Блок анализа отклонений параметров речевого сигнала содержит следующие модули:

  1. модуль для выделения средней частоты основного тона;

  2. модуль для вычисления среднего .-отклонения первых трех относительных интенсивностей гармоник частоты основного тона;

  3. модуль для анализа исторических данных, позволяющий оценивать динамику протекания заболевания и проводить оценку эффективности лечения.

В заключении приведены основные научные и практические результаты диссертационной работы.

  1. Разработана модель голосообразования при различных параметрах голосовых складок.

  2. Установлены основные зависимости между параметрами анатомии и параметрами голоса, в том числе зависящие от пола диктора.

  3. Разработан алгоритм анализа отклонений речевого сигнала для создания систем диагностики и более эффективного лечения заболеваний речеобразующих органов, в том числе рака гортани.

  4. Создано алгоритмическое и программное обеспечение по исследованию речевых сигналов.

Параметры систем речеобразования в зависимости от пола и строения организма

Легкие. «При спокойном вдохе и выдохе через легкие проходит сравнительно небольшой объем воздуха. Это дыхательный объем (ДО), который у взрослого человека составляет примерно 500 мл. При этом акт вдоха проходит несколько быстрее, чем акт выдоха. Обычно за 1 минуту совершается 12-16 дыхательных циклов. Такой тип дыхания обычно называется «эйпноэ», или «хорошее дыхание». При форсированном (глубоком) вдохе человек может дополнительно вдохнуть еще определенный объем воздуха. Это резервный объем вдоха (РОвд) - максимальный объем воздуха, который способен вдохнуть человек после -спокойного вдоха. Величина резервного объема вдоха составляет у взрослого человека примерно 1,8-2,0 л. После спокойного выдоха человек может при форсированном выдохе дополнительно выдохнуть еще определенный объем воздуха. Это резервный объем выдоха (РОвыд), величина которого составляет в среднем 1,2-1,4 л. Объем воздуха, который остается в легких после максимального выдоха и в легких мертвого человека, - остаточный объем легких. Величина остаточного объема составляет 1,2-1,5 л. У аборигенов высокогорья из-за бочкообразной грудной клетки сохраняются более высокие величины этого показателя, благодаря чему удается сохранить в организме необходимое содержание СОг, достаточное для регуляции дыхания в этих условиях. Различают следующие емкости легких:

Общая емкость легких (ОЕЛ) - объем воздуха, находящегося в легких после максимального вдоха - все четыре объема; Жизненная емкость легких (ЖЕЛ) включает в себя дыхательный объем, резервный объем вдоха, резервный объем выдоха. ЖЕЛ - это объем воздуха, выдохнутого из легких после максимального вдоха при максимальном выдохе. ЖЕЛ = ОЕЛ - остаточный объем легких. ЖЕЛ составляет у мужчин 3,5-5,0 л, у женщин - 3,0-4,0 л; Емкость вдоха равна сумме дыхательного объема и резервного объема вдоха, составляет в среднем 2,0-2,5 л; Функциональная остаточная емкость (ФОЕ) - объем воздуха в легких после спокойного выдоха. В легких при спокойном вдохе и выдохе постоянно содержится примерно 2500 мл воздуха, заполняющего альвеолы и нижние дыхательные пути. Благодаря этому газовый состав альвеолярного воздуха сохраняется на постоянном уровне» [59].

В процессе речеобразования используется порядка 10-15 % объема легких [37]. Трахея. Гортань переходит в трахею на границе VI-VII шейных позвонков, у мужчин этот уровень ниже, у женщин -выше. Начавшись в области нижних отделов шеи, трахея продолжается вниз как шейная часть, затем переходит в грудную полость, где составляет грудную часть трахеи. На своем пути она занимает срединное положение, располагаясь впереди пищевода и в грудной полости - позади крупных сосудов. На уровне IV грудного позвонка трахея делится на главные правый и левый бронхи. Длина трахеи может достигать 17 см. Площадь сечения трахеи лежит в пределах от 2 до 3 см2 [30, 37]. По данным [21, 40], средняя длина трахеи составляет 9-13 см, а диаметр - 15-18 мм.

Трахея (trachea) - цилиндрическая трубка, состоящая из 16-20 гиалиновых хрящевых колец подковообразной формы. Физиологические особенности позволяют трахее менять свою форму и, как следствие, длину и объем [37].

У новорожденного длина трахеи составляет 3,2-4,5 см. Ширина просвета в средней части - около 0,8 см. Перепончатая стенка трахеи относительно широкая, хрящи трахеи развиты слабо, тонкие, мягкие. В пожилом и старческом возрасте (после 60-70 лет) хрящи трахеи становятся плотными, хрупкими, при давлении легко ломаются.

После рождения трахея быстро растет в течение первых 6 месяцев, затем рост ее замедляется и вновь ускоряется в период полового созревания и в юношеском возрасте (12-22 года). К 3-4 годам жизни ребенка ширина просвета трахеи увеличивается в 2 раза. Трахея у ребенка 10-12 лет вдвое длиннее, чем у новорожденного, а к 20-25 годам длина ее утраивается.

У мужчин в среднем размеры трахеи больше, чем у женщин [75]. Верхний предел диаметра трахеи для мужчин - 25-27 мм, для женщин - 21-23 мм. Нижний предел для мужчин - 13 мм, для женщин - 10 мм, ширина трахеи у женщин в среднем меньше на 10%, длина трахеи меньше на 6-12% [74]. Таким образом, разница в длине трахеи в среднем приблизительно равна 10 мм. Как видно из приведенных данных, диапазоны размеров трахеи для мужчин и женщин очень сильно перекрываются. В некоторых случаях принято считать, что длина трахеи не зависит от пола [92].

Голосовые складки. У мужчин голосовые складки имеют большую длину. Длина голосовых складок у мужчин - 20-24 мм, поэтому голос низкий; у женщин - 18-20 мм, и голос более высокий [30, 37, 56, 61]. Но бывают исключения - например, тенор - длина складок - 15-17 мм, число звуковых колебаний - 580 в с, или баритон - 18-21 мм - 426 в с. [37]. Это, в свою очередь, приводит к тому, что голосовые складки имеют различные резонансные частоты во время произнесения звуков. У мужчин в среднем они составляют 91-145 Гц, у женщин - 115-145 Гц. Также существенно различается добротность голосовых складок - 2,1-5,1 у мужчин и 2,6-7,1 у женщин [37]. Ширина голосовых складок мужчин больше женских и равна 2,5-3 мм у женщин и 3-3,5 мм у мужчин [37].

Гортань. Гортань занимает срединное положение в передней области шеи и образует едва заметное (у женщин) или сильно выступающее вперед (у мужчин) возвышение - выступ гортани. Это объясняется тем, что рост гортани у мальчиков идет несколько быстрее, чем у девочек. После 6-7 лет гортань у мальчиков крупнее, чем у девочек того же возраста, но до половой зрелости гортань мужчины несущественно отличается по размеру от женской [75]. В 10-12 лет у мальчиков становится заметным выступ гортани [30]. У кастратов, т.е. оскопленных, гортань приостанавливается в своем развитии, и они сохраняют на всю жизнь детский голос. Этот факт указывает на близкую связь между половой сферой и голосовым аппаратом, в связи с чем гортань может являться решающим фактором для определения пола диктора по голосу. Половые отличия гортани в раннем возрасте не наблюдаются. В зрелом возрасте у мужчин размеры гортани в среднем на 1/3 больше, чем у женщин [ЗО, 37]. Хрящи женской гортани также имеют меньшую толщину. В период полового созревания у юношей гортань растет сильнее и образует острый угол - кадык, складки тянутся и становятся длиннее, голос ниже. Щитовидный хрящ, гиалиновый, непарный, самый большой из хрящей гортани, состоит из двух четырехугольных пластинок, соединенных друг с другом спереди под углом 90 (у мужчин) и 120 (у женщин) [30].

Гортань новорожденного имеет сравнительно большие размеры; она короткая, широкая, воронкообразная, располагается выше (на уровне II-IV позвонков), чем у взрослого. К 7 годам нижний край гортани находится на уровне верхнего края VI шейного позвонка. У взрослого человека гортань располагается на уровне от IV до VI-VII шейных позвонков [22]. Размеры мужской и женской гортани приведены в табл. 1.1. [84].

Модели образования вокализованных звуков речи

Вокализованные участки речи могут состоять из последовательности различных звуков. Однако наибольшее значение имеют гласные звуки, так как они обладают наибольшей интенсивностью и информативностью, а также более детально изучены. Основными их характеристиками являются частоты и интенсивности формант. Однако для них возможно появление ложных формант. Наиболее распространенными моделями образования гласных звуков являются следующие: модель, основанная на миоэластической теории фонации, в которой голосовые складки раскрываются под действием давления в трахее и смыкаются под действием сил Бернулли; модель, основанная на нейрохроноксической теории Рауля Юссона, в которой на движение голосовых складок не влияет давление как в трахее, так и в ротовой полости; модель Фанта, в которой постулируется независимость источника возбуждения от параметров речевого тракта. Рассмотрим подробнее данные теории. Миоэластическая (мышечно-механическая) теория фонации. Эта теория впервые была сформулирована в 1741 году Феррейном. Он считал, что фонация - это результат вибрации голосовых складок в вертикальном направлении под действием воздушной струи на выдохе. Его концепция была подтверждена в XIX веке немецкими физиологами Л. Мюллером (1839) и Лермойером (1886), которые проводили опыты на трупах.

Существенно эти положения были развиты в работах Эвальда (1898). Ученый создал оригинальную модель гортани, названную им «свирелью». Она состояла из двух эластических подушечек с косым сечением нижней поверхности, обращенной к воздушной струе. Эти эластические подушечки совершали последовательные движения - расходились и сходились, но уже в горизонтальной плоскости.

Согласно миоэластической теории, главной движущей силой, обеспечивающей расхождение голосовых складок, служит давление воздушной струи, которое нарастает при смыкании голосовых складок и прорывает голосовую щель, тогда как вторая фаза - смыкание голосовых складок - является следствием собственной эластичности сокращенных мышечных волокон [23, 25, 63, 66]. Энергия колебаний голосовых складок зависит от соотношения давления воздуха и упругих, эластических свойств тканей голосовых складок. Таким образом, основными факторами голосообразования являются следующие: подскладочное давление воздуха; тонус внутренних мышц гортани (действие массы, длины и натяжения голосовой мышцы).

В момент голосообразования между сомкнутыми голосовыми складками, напряжением их мышц и подскладочным давлением устанавливается тесное взаимодействие: давление столба воздуха в трахее тем сильнее, чем большее сопротивление оказывают складки. Сложная система дыхательных мышц рефлекторно поддерживает воздушное давление на определенном уровне, необходимом для произнесения того или иного звука. Голосовые складки не находятся в полной зависимости от величины воздушного давления; они своей активной деятельностью регулируют тонус мышц органов дыхания при постоянном контроле со стороны ЦНС. Как только возникает необходимость в изменении величины подскладочного давления, кора головного мозга «принимает срочные меры», изменяя тонус внутренних мышц гортани и голосовых складок, повышая или понижая частоту колебаний последних. Этот процесс регулируется сложным рефлекторным путем по принципу обратной связи при участии слухового анализатора.

Благодаря этому же механизму при речи и пении обеспечивается возможность длительного (от 25 до 40 с и более) использования голоса без повторных вдохов. По данным некоторых авторов [25], в процессе голосообразования принимает участие и гладкая мускулатура трахеи и бронхов. Миоэластическая теория голосообразования получила широкое распространение. Ее отражение можно найти в трудах Н.И. Жинкина, JITL Дмитриева, С.Л. Таптаповой, Е.С. Алмазовой и др. Однако миоэластическая теория не может объяснить некоторые встречающиеся в практике факты. Так, например, при усталости голоса у певцов наблюдается гипотония голосовых складок (недостаточность закрытия голосовой щели) и увеличение амплитуды их движений. С точки зрения законов аэродинамики, лежащих в основе миоэластическои теории, следовало бы ожидать сужения голосового объема певца. Подобного, однако, не наблюдается, а только лишь изменяется тембр голоса.

Нейрохроноксическая теория фонации. Данную теорию создал французский ученый Р. Юссон в 1950 году. С ее помощью он попытался объяснить факты, которые невозможно было объяснить с помощью миоэлатической теории. Юссон был незаурядным исследователем, обладавшим солидным практическим опытом и фундаментальной научной подготовкой. Будучи одновременно физиком, математиком, медиком и обученным певцом (баритон), он заведовал лабораторией фонологии в Сорбонне.

На основе экспериментальных данных Р. Юссон установил, что «дрожание» голосовых складок представляет собой активные движения голосовых мышц под действием поступающих в них импульсов из коры головного мозга по нижнегортанному нерву. Ученый считал, что открытие голосовой щели - не пассивное движение, как это трактуется в миоэластическои теории, а активный ответ на посылаемые сюда двигательные импульсы. Таким образом, воздушная струя, образующаяся во время выдоха, является не движущей силой колебательных движений голосовых складок, а материалом, веществом, из которого генерируется звук. Экспериментальные наблюдения Р. Юссона подтверждают положение, согласно которому голосовые складки периодически сокращаются и прерывают воздушный поток, образуя звуковые колебания.

Модель голосовых складок для патологической речи

На первой стадии заболевания сохраняется нормальная подвижность голосовых складок. На второй стадии происходит заражение соседних участков и ухудшение подвижности. Далее происходит полная фиксация голосовых складок. Причем рак гортани наиболее часто развивается в среднем отделе и преимущественно поражает переднюю и среднюю треть голосовой складки.

При этом зараженная складка начинает увеличиваться в размерах и массе. Меняются свойства ткани - упругость, эластичность и т.д. Могут образовываться наросты. Происходит изменение слизистого покрова голосовой складки, его вязкости.

Нарушается работа механизма речеобразования. Изменяется способ взаимодействия складок друг с другом и воздушным потоком, что в существенной степени отражается на речевом сигнале [3,14].

Модель голосовых складок в норме В случае, когда параметры складок различны, как это происходит при раке гортани, стандартные модели голосовых складок становятся неприемлемы. При моделировании голосовых складок с различными параметрами возникает необходимость моделировать каждую складку в отдельности (рис. 3.3.).

Модель голосовых складок при патологии Таким образом, модель голосовых складок существенно усложняется. Наиболее подходящей моделью голосовых складок на роль базовой является одномассовая модель. Она сохраняет все основные и необходимые в рамках поставленной .задачи, свойства голосовых складок и является при этом намного проще в расчетах своих аналогов.

Модель речеобразования примет вид, показанный на рис. 3.4. В качестве основы была взята модель голосообразующего тракта для нормальной речи, разработанная Коцубинским В.П., совместно с Бондаренко В. П. [37].

Здесь: Сл - емкость, представляющая эквивалентный объем легких; Lm, Gm, Rm, Cm - элементы четырехполюсника - электрического эквивалента трахеи; в модели используется одномассовая модель голосовых складок, представленная переменными элементами Ls и Rs; соединение элементов GM, См, LM представляет собой электрический эквивалент Морганиева желудочка; речеобразующий тракт представлен в виде последовательного соединения четырехполюсников Z0, GO, R0, СО - L4, GA, R4, С4; Е -эквивалент атмосферного давления. Элементы моделей первой и второй голосовых складок соединены параллельно, поскольку, давление воздуха, напряжение по электрической аналогии, должно распределяться одинаково на обе голосовые складки.

Поток воздуха, ток по электрической аналогии, течет по каждой складке в отдельности и больший ток должен иметь возможность течь по пути наименьшего сопротивления, тогда как ток на входе

Для исследования влияния массы голосовых складок на речевой сигнал наиболее подходит одномассовая модель, поскольку она является наиболее простой, обладающей всеми необходимыми параметрами, наиболее хорошо изученной. Самым главным недостатком перечисленных моделей по сравнению с одномассовой является трудность обнаружения областей устойчивых колебаний, тогда как постановка задачи требует того, чтобы области колебаний были обширны, поскольку необходимо варьировать параметры модели в широких пределах.

Для исследования наиболее подходит звук /А/, поскольку его первая форманта наиболее удалена от ЧОТ. Следовательно, ее влияние на ЧОТ будет минимальным. Для определения адекватности модели необходимо знать диапазон реальных значений интенсивностеи гармоник речевого сигнала, для чего было проанализировано 20 голосов для звука /А/.

Таким образом, не удалось установить какую-либо взаимосвязь между увеличением массы голосовых складок и изменением значений относительных максимумов интенсивностеи гармоник. Полученные данные для интенсивностеи гармоник близки к реальным значениям (табл. 3.6.).

Влияние изменения массы голосовых складок на частоту основного тона (ЧОТ) для нормальной речи представлено в табл. 3.8. Здесь ЧОТср 77 среднее значение частоты основного тона, ЧОТтіп и ЧОТтах -минимальное и максимальное значения соответственно.

Движение голосовой складки: в норме - слева, при патологии справа (цветом показано распространение опухоли) При поражении голосовой складки пораженная ткань становится тяжелой и грубой (ороговелой) .и--перестает участвовать в процессе речеобразования. Таким образом, масса складки, участвующая в процессе речеобразования, уменьшается, что ведет к увеличению ЧОТ.

Результат анализа речевых сигналов онкологических больных с распространением раковой опухоли на одну голосовую складку до операции

Поскольку в данной работе рассматривается распространение опухоли на одну голосовую складку .и.не принимается, во внимание распространение опухоли в другие отделы, и стандартная TNM классификация рака гортани не включает информацию о размере опухоли, стандартная классификация в рамках поставленной задачи является неполной. Было введено понятие оценки тяжести заболевания, определяемое площадью поражения голосовой складки и продолжительностью болезни на основании данных историй болезни.

Не удалось установить какую-либо взаимосвязь между развитием заболеваний и изменением значений максимумов относительных интенсивностей гармоник частоты основного тона. Однако отмечается увеличение разницы их соседних значений, именуемое в дальнейшем девиацией.

С помощью разработанного программного комплекса были получены отклонения соседних значений интенсивностеи первой и второй гармоник основного тона. Средние значения для речи в норме составили - 0,003 для первой гармоники, 0,004 - для второй. Данные, полученные для речи при патологии, представлены в таблице 4.4.

Отклонение интенсивностей гармоник ЧОТ для слога /АО/ при патологии Значения, полученные для речи при патологии, представлены в табл. 4.4. Девиация интенсивностей гармоник для речи при патологии существенно выше, чем для речи в норме, и продолжает увеличиваться с прогрессированием заболевания. Таким образом, изменения органов гортани при патологии оказывают существенное влияние на девиацию интенсивностей гармоник частоты основного тона.

Как показывает моделирование, увеличение средней частоты основного тона при опухоли голосовых складок указывает на уменьшение массы голосовой складки, участвующей в процессе образования вокализованных звуков.

Проведен анализ образцов речевых сигналов онкологических больных с распространением раковой опухоли на одну голосовую складку до проведения операции. В результате не удалось установить какую-либо взаимосвязь между развитием заболевания и изменением значений максимумов относительных интенсивностей гармоник основного тона. Однако отмечается увеличение разброса соседних значений интенсивностей гармоник ЧОТ. Также с ростом тяжести заболевания отмечается существенное увеличение частоты основного тона.

На основании проведенного анализа предложен алгоритм оценки эффективности лечения опухолей гортани по речевому сигналу с помощью оценки изменения средней частоты основного тона и среднего разброса соседних значений относительных интенсивностей гармоник частоты основного тона и осуществлена его программная реализация.

Данная работа является законченным научным исследованием. В соответствии с целью диссертационной работы сделано следующее. Рассмотрена анатомия органов речеобразования мужчин и женщин и механизмов их взаимодействия при формировании нормальной речи, а также при опухолях гортани. Определены границы допустимых значений параметров мужского и женского речевых аппаратов и их основные различия - длина речеобразующего тракта, размеры гортани, а также параметры голосовых складок - размеры и, как следствие, масса, которые могут являться причиной различия мужского и женского голосов. На основании этих отличий поставлена задача для моделирования с целью выявления влияния на речевой сигнал параметров речевого аппарата, связанных с полом диктора.

На основании анализа историй болезни определена частота распространения опухолей на органы и отделы гортани для пациентов с диагнозом рак гортани. Выявлены наиболее распространенные изменения речеобразующего тракта на уровне гортани при патологии - распространение опухоли на одну голосовую складку и область Морганиева желудочка. На основании полученных данных сформулирована задача для моделирования влияния наиболее распространенных изменений речеобразующего тракта при раке гортани на характеристики голоса с целью получения критериев оценки динамики и эффективности лечения заболевания, которые также могут быть использованы в задачах ранней диагностики рака гортани по голосу.

Рассмотрен ряд подходов к моделированию речеобразующего тракта, а также основные существующие подходы определения пола диктора по голосу. Обосновано преимущество использования подхода, при котором движение голосовых складок обеспечивается разностью давлений в трахее и Морганиевом желудочке, по сравнению с миоэластической и нейрохроноксической теориями фонации. -.. - Впервые проведен полный анализ влияния основных отличий речеобразующего тракта, связанных с полом диктора (длина речеобразующего тракта, размеры гортани) на речевой сигнал. Были сделаны следующие выводы.

Уменьшение длины речеобразующего тракта приводит к существенному росту частот первых четырех формант, что подтверждается известными данными о частотах формант для мужчин и женщин. Наиболее чувствительными к изменению длины РОТ являются частоты верхних формант. Изменение длины Морганиева желудочка практически не оказывает никакого влияния на частоты первых двух формант и наиболее сильно сказывается на частоте третьей форманты, за исключением звука /И/, где наиболее сильно изменяется частота четвертой форманты. При исключении Морганиева желудочка из речеобразующего тракта исчезает третья форманта для всех звуков, кроме /И/, из чего можно сделать вывод, что Морганиев желудочек отвечает за формирование третьей форманты в гласных звуках /А/, /Е/, /О/, /У/. Пропорциональное изменение площади поперечного сечения для всего речеобразующего тракта не оказывает никакого влияния на частоты формант. Пропорциональное увеличение площади поперечного сечения Морганиева желудочка приводит к незначительному росту частот четвертой и третьей формант и уменьшению первой и второй.

Анализ влияния основных изменений речеобразующего тракта в связи с раком гортани - появление посторонних образований в области голосовых складок и Морганиева желудочка - показал, что эти изменения наибольшим образом сказываются на увеличении частоты третьей форманты пропорционально росту размера образования. Проведен обзор моделей голосовых складок, обоснован выбор одномассовой модели для исследования влияния массы голосовых складок на речевой сигнал. Рассмотрены проблемы моделирования голосовой щели в случае несимметричности голосовых складок, при распространении опухоли на голосовые складки.

Впервые разработана модель речеобразования, позволяющая моделировать опухоли голосовых складок, и проведен анализ влияния несимметричности голосовых складок на характеристики частоты основного тона.

Похожие диссертации на Модель голосообразования и анализ речевого сигнала в норме и при патологии