Аудиовизуальные речевые интерфейсы в ассистивных информационных технологиях Карпов, Алексей Анатольевич

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Карпов, Алексей Анатольевич. Аудиовизуальные речевые интерфейсы в ассистивных информационных технологиях : диссертация ... доктора технических наук : 05.13.11 / Карпов Алексей Анатольевич; [Место защиты: С.-Петерб. ин-т информатики и автоматизации РАН].- Санкт-Петербург, 2013.- 325 с.: ил. РГБ ОД, 71 14-5/117

Содержание к диссертации

Введение

Глава 1. Аналитический обзор ассистивных технологий и человеко машинных интерфейсов 28

1.1. Анализ проблеми постановка задачи 28

1.2. Систематизация ассистивных информационных средств и технологий 34

1.3. Этапы развития человеко-машинных интерфейсов 50

1.4. Концептуальная модель универсальной ассистивной информационной технологии с аудиовизуальными интерфейсами 54

1.5. Выводы по главе 1 61

Глава 2. Модели и методы распознавания аудиовизуальной русской речи 64

2.1. Анализ проблем автоматического распознавания речи 64

2.2. Обзор подходов и способов многомодального распознавания речи... 67

2.3. База данных аудиовизуальной русской речи 72

2.4. Автоматическая система распознавания аудиовизуальной русской речи 79

2.4.1. Архитектура многомодального распознавателя речи 79

2.4.2. Параметрическое представление звучащей речи 81

2.4.3. Параметрическое представление визуальной речи 84

2.4.4. Методы моделирования аудиовизуальных модальностей речи

2.5. Показатели оценки систем распознавания речи 98

2.6. Экспериментальные исследования и анализ результатов 105

2.7. Выводы по главе 2 117

Глава 3. Компьютерная система синтеза аудиовизуальной русской речи по тексту 119

3.1. Анализ моделей и методов синтеза аудиовизуальной речи 119

3.2. Архитектура синтезатора аудиовизуальной русской речи 124

3.3 Компьютерный синтез звучащей и видимой речи 126

3.4. Метод моделирования асинхронности аудиовизуальных модальностей речи 135

3.5. Экспериментальные исследования и анализ результатов 146

3.6. Выводы по главе 3 156

Глава 4. Универсальный интерфейс и система синтеза аудиовизуальной речи и элементов русского жестового языка 159

4.1. Анализ специфики и характеристик русского жестового языка глухих людей 159

4.1.1. Характеристика разговорного жестового языка 161

4.1.2. Область применения и специфика дактильной речи

4.2. Информационные ресурсы и словари русского жестового языка 171

4.3. Компьютерный синтезатор русского жестового языка по тексту 175

4.3.1. Основные требования к системе синтеза жестовой и дактильной речи 175

4.3.2. Формализация и представление машинного словаря языка жестов 177

4.3.3. Машинный синтез элементов русского языка жестов посредством жестового аватара 183

4.4.4. Многомодальная система синтеза аудиовизуальной речи и жестов 186

4.5. Выводы по главе 4 196

Глава 5. Многомодальный человеко-машинный интерфейс и система для бесконтактной работы с компьютером 199

5.1 Анализ способов и интерфейсов бесконтактного взаимодействия с компьютером 199 5.2. Ассистивная многомодальная система для бесконтактной работы с

компьютером 203

5.2.1. Бесконтактный человеко-машинный интерфейс 203

5.2.2. Архитектура ассистивной многомодальной системы 205

5.2.3. Распознавание речевых команд пользователя 206

5.2.4. Видеоанализ движений головы пользователя 210

5.2.5. Метод синхронизации и объединения аудио- и видеомодальностей 219

5.3. Экспериментальные исследования и анализ результатов 222

5.3.1. Методика количественной оценки указательных человеко-машинных интерфейсов 222

5.3.2. Анализ и сравнение производительности бесконтактного человеко-машинного взаимодействия 225

5.4. Выводы по главе 5 235

Глава 6. Многомодальные человеко-машинные интерфейсы в ассистивном интеллектуальном пространстве 237

6.1. Анализ моделей и прототипов ассистивных интеллектуальных пространств 237

6.2. Методы и алгоритмы обработки аудиовизуальной информации в модели интеллектуального пространства 246

6.2.1. База данных акустических событий 248

6.2.2. Методы распознавания аудиоинформации и речи 251

6.2.3. Методы анализа видеоинформации в модели 254

6.3. Экспериментальные исследования и анализ результатов 259

6.4. Программно-аппаратный комплекс универсальной ассистивной информационной технологии 262

6.5. Выводы по главе 6 266

Заключение 268

Список сокращений и условных обозначений 271

Словарь терминов 273

Список литературы

Этапы развития человеко-машинных интерфейсов
Автоматическая система распознавания аудиовизуальной русской речи
Компьютерный синтез звучащей и видимой речи
Компьютерный синтезатор русского жестового языка по тексту

Введение к работе

Актуальность темы диссертации. Как в России, так и во всем мире очень многие люди ограничены в своих возможностях в связи с дисфункциями слуха, зрения, речеобразования, опорно-двигательного аппарата, когнитивными нарушениями. Для помощи, социальной и профессиональной реабилитации людей с инвалидностью, а также пожилых людей в мире существуют специальные государственные программы, наиболее развитые из которых действуют в Японии, США, Израиле, Великобритании, Германии, Франции, скандинавских странах (например, е-Accessibility и e-Inclusion). В последние годы высшее руководство России также обращает внимание на проблемы жизни инвалидов. В мае 2012 года Президентом РФ была ратифицирована «Конвенция о правах инвалидов», принятая ранее Генеральной Ассамблеей ООН, ключевой пункт которой состоит в том, чтобы создать условия для полноценной интеграции инвалидов в жизнь общества на всех уровнях. Недавно в России был дан старт государственной программе «Доступная среда», рассчитанной до 2015 года, в рамках которой предполагается настройка под нужды инвалидов правил работы социальных, информационных и прочих государственных служб, а также обеспечение информационной и компьютерной доступности для людей с ограниченными возможностями, внедрение новых способов взаимодействия и продвижение новых товаров и услуг, использующих специальные органы и средства управления, доступные конкретным группам инвалидов. Кроме того, 30 декабря 2012 года Президент РФ подписал поправки к закону «О социальной защите инвалидов в РФ», существенно повышающие статус русского жестового языка глухих у нас в стране, который теперь является официальным языком общения людей при наличии нарушений слуха или речи, в том числе в сферах устного использования государственного языка РФ.

Современное общество прикладывает значительные усилия по реализации различных информационно-коммуникационных технологий (ИКТ) для обеспечения общедоступности информации, сервисов и услуг для людей с инвалидностью. Такие средства получили название «ассистивные технологии» (англ. «assistive technology»), т.е. помогающие (вспомогательные) людям с ограниченными возможностями здоровья и индивидуальными особенностями. Этот термин неоднократно упоминается в «Конвенции о правах инвалидов» ООН, «Европейской социальной хартии», паспорте программы «Доступная среда», проектах ЮНЕСКО и документах, учитывающих международное и российское законодательство.

Ассистивные средства и технологии могут быть самого разного характера (программные, электрические, механические, оптические и т.д.) и назначения: инвалидные кресла-коляски, протезы для конечностей, трости, слуховые аппараты, оптические очки, телевизионные субтитры, роботы-помощники и роботы телеприсутствия, лифты-подъемники для колясок, звуковые сигналы светофоров, собаки-поводыри с соответствующим снаряжением, а также пандусы, направляющие на дорогах, и многое другое. В данной диссертации разрабатываются и исследуются ассистивные информационные технологии - специальное программное и/или аппаратное обеспечения, которое повышает доступность информации и средств коммуникации для людей с ограниченными возможностями здоровья.

По данным Минздрава, в России насчитывается около 14 млн людей с инвалидностью (а это 10% населения страны), из которых около 700 тыс. детей-инвалидов, и каждый год порядка 1 млн человек впервые признаются инвалидами,

что обусловлено целым комплексом причин (экологическими, техногенными, медицинскими, психологическими и др.). Однако в России современные научные работы, посвященные исследованию человеко-машинных интерфейсов и способов общения, направлены, в основном, на создание вычислительных средств, оборудованных большим количеством различных датчиков и сенсоров, а также сложных систем управления. Широко применяемые в настоящее время графические и текстовые интерфейсы ориентированы на опытных пользователей, и в исследованиях практически не затрагиваются вопросы человеко-машинной коммуникации для лиц с ограниченными возможностями.

Проблема, рассматриваемая в диссертации, заключается в наличии несоответствия требований различных групп потенциальных пользователей, особенно людей с разными видами нарушений, и возможностей, предоставляемых существующими и перспективными человеко-машинными интерфейсами для доступа к информационно-коммуникационным системам, сервисам и технологиям. Данное несоответствие порождает научно-техническую проблему потребности разработки и применения методологического, математического, программного и информационного обеспечения многомодальных интерфейсов (в том числе, речевых, жесто-вых, аудиовизуальных) пользователя для предоставления людям с ограниченными возможностями доступа к электронной информации (мультимедийному контенту Интернета, электронным библиотекам, образовательным ресурсам, государственным услугам и т.д.) для их интеграции в информационное общество.

Связь с государственными и международными программами. Основные результаты диссертационной работы получены в ходе поисковых НИР по госконтрактам с Минобрнауки РФ в рамках ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2013 годы» (ГК 11.519.11.4025 «Разработка математического и программного обеспечения ассистивного многомодального интеллектуального пространства», ГК 11.519.11.4020 «Разработка методов и моделей автоматической обработки речевых сигналов в интеллектуальных информационно-коммуникационных системах») и ФЦП «Научные и научно-педагогические кадры инновационной России на 2009-2013 годы» (ГК П2579 «Разработка методов, моделей и алгоритмов для автоматического распознавания аудиовизуальной русской речи», ГК П2360 «Разработка методов человеко-машинного взаимодействия и многомодальных пользовательских интерфейсов для интеллектуальных информационных систем»). Работа также выполнена в рамках следующих российских проектов: гранты Президента РФ 02.120.11.64898-МК «Разработка компьютерной многомодальной системы для аудиовизуального синтеза разговорной русской речи и жестового языка глухих» (2010-2011 гг.) и МК-1880.2012.8 «Разработка автоматической системы распознавания аудиовизуальной русской речи с применением высокоскоростной видеокамеры» (2012-2013 гг.), грант международного фонда «Научный потенциал» N 201 «Многомодальная ассистивная система на базе технологий распознавания русской речи и машинного зрения» (2010 г.), проектов фондов РФФИ N 07-07-00073-а, 08-08-00128-а, 08-07-90002-Бел_а, 09-07-91220-СТа и РГНФ N 12-04-12062-в, а также грантов Комитета по науке и высшей школе (КНВШ) Правительства Санкт-Петербурга и Санкт-Петербургского научного центра (СПбНЦ) РАН. Исследования также производились в рамках международных проектов Евросоюза: EU FP6 Network of Excellence SIMILAR IST-2002-507609 (2003-2007 гг.), INTAS N 04-77-7404 и 05-1000007-426 (2006-2008 гг.).

Целью диссертационной работы является повышение эффективности и универсальности способов человеко-машинного взаимодействия на основе речевых и многомодальных интерфейсов пользователя в ассистивных информационно-коммуникационных технологиях. Для достижения цели в диссертационной работе поставлены и решены следующие задачи:

Анализ основных направлений исследований и проблем в области ассистивных средств и технологий для помощи людям с ограниченными возможностями и обеспечения универсального информационного доступа посредством организации аудиовизуальных человеко-машинных интерфейсов.
Создание концептуальной модели универсальной ассистивной информационной технологии с аудиовизуальными интерфейсами пользователя.
Создание метода объединения аудио- и видеоинформации для многомодального распознавания речи.
Создание метода моделирования асинхронности аудиовизуальных речевых модальностей, естественной для речеобразования человека, для компьютерного синтезатора аудиовизуальной русской речи по тексту.
Создание способа для бесконтактной работы с компьютером при помощи движений головы и голосовых команд, а также многомодальной системы, объединяющей средства автоматического распознавания голосовых команд и машинного зрения для видеоотслеживания движений головы пользователя.
Разработка метода и системы автоматического распознавания и классификации голосовых сообщений пользователя и неречевых акустических событий в модели ассистивного интеллектуального пространства.
Разработка автоматической системы аудиовизуального распознавания русской речи с применением методов и средств анализа речи и чтения по губам говорящего для повышения точности и надежности анализа русской речи.
Разработка компьютерной системы аудиовизуального синтеза русской речи с применением методов и средств аудиосинтеза речи по входному тексту и видеосинтеза артикуляции губ виртуальной модели головы человека.
Разработка универсального пользовательского интерфейса вывода информации и компьютерной системы синтеза аудиовизуальной русской речи и жестово-го языка глухих.

Объект исследования. Математическое, программное и информационное обеспечение компьютерного распознавания и синтеза речи и жестов на акустическом и визуальном уровнях, а также способы речевого и многомодального общения и интерфейсы человеко-машинного взаимодействия.

Предмет исследования. Способы, принципы, модели, методы, алгоритмы и системотехнические решения для распознавания и синтеза аудио- и видеоинформации (речи, жестов, и т.д.) для организации многомодальных интерфейсов пользователя в ассистивных информационных технологиях.

Методы исследования. Методы цифровой обработки сигналов, искусственного интеллекта, распознавания образов, вероятностного моделирования, статистического анализа, автоматической обработки текстов, когнитивных исследований, объектно-ориентированного проектирования и программирования.

Научная новизна. Разработана совокупность оригинальных способов, моделей, методов, алгоритмов и программных систем распознавания и синтеза аудиовизуальной речи и жестов, а также организации многомодальных человеко-машинных интерфейсов в ассистивных технологиях, в том числе:

1) Предложена концептуальная модель универсальной ассистивной инфор
мационной технологий с аудиовизуальными пользовательскими интерфейсами на
основе многомодального распознавания русской речи, компьютерного синтеза
аудиовизуальной русской речи и элементов русского жестового языка, бескон
тактного человеко-машинного взаимодействия.

Предложен метод объединения аудио- и видеоинформации в процессе распознавания речи, отличающийся применением асинхронных вероятностных моделей с индивидуальными весами информативности речевых модальностей.
Разработан способ и многомодальный человеко-машинный интерфейс для бесконтактной работы с компьютером посредством движений головы пользователя и голосовых команд, а также компьютерная система, отличающаяся объединением методов, алгоритмов и программных средств автоматического распознавания русскоязычных голосовых команд/речи и машинного зрения для отслеживания набора естественных реперных точек на лице человека с целью управления перемещением указателя мыши на экране.
Разработан метод распознавания и классификации типов голосовых сообщений пользователя и неречевых акустических событий, предназначенный для анализа и оценки информации об акустической обстановке (ситуации) в ассистив-ном интеллектуальном пространстве.
Разработана система аудиовизуального распознавания русской речи, отличающаяся интеграцией моделей, методов и программных средств анализа и распознавания речи и чтения речи по губам говорящего для повышения точности и надежности анализа русской речи и предназначенная для организации бесконтактного ввода информации в речевых интерфейсах.
Разработана и исследована компьютерная система аудиовизуального синтеза русской речи по произвольному русскоязычному тексту, отличающаяся интеграцией виртуальных моделей, методов и программных средств аудиосинтеза речи и видеосинтеза мимики и артикуляции губ модели головы человека с применением метода моделирования асинхронности аудиовизуальных модальностей речи для улучшения разборчивости и естественности синтезируемой речи, предназначенная для организации вывода информации в речевых интерфейсах.
Разработан универсальный многомодальный интерфейс вывода информации и компьютерная система для аудиовизуального синтеза русского языка жестов и речи по тексту, объединяющая бимодальную виртуальную "говорящую голову" для синтеза речи и трехмерную модель тела и рук человека для видеосинтеза динамических жестов, и предназначенная для вывода текстовых данных посредством речи, жестового языка и артикуляции губ аватара.

Обоснованность научных положений и выводов обеспечивается за счет анализа состояния исследований в данной области, согласованности теоретических выводов с результатами экспериментальной проверки моделей и методов, а также апробации основных положений диссертации в печатных работах и докладах на ведущих международных научных конференциях. Новизна технических решений подтверждается полученными патентами и свидетельствами об официальной регистрации программного обеспечения ЭВМ и баз данных в Роспатенте.

Положения, выносимые на защиту:

1) Концептуальная модель универсальной ассистивной информационной технологии с аудиовизуальными пользовательскими интерфейсами на основе мно-

гомодального распознавания речи, синтеза аудиовизуальной речи и элементов русского жестового языка, бесконтактного человеко-машинного взаимодействия.

Метод объединения аудио- и видеоинформации в процессе многомодального распознавания речи, отличающийся применением асинхронных вероятностных моделей с индивидуальными весами информативности модальностей речи в моделях, позволяет при распознавании учитывать временное рассогласование (асинхронность) потоков соответствующих единиц звучащей и видимой речи, характерное для речеобразования.
Система аудиовизуального распознавания русской речи, объединяющая модели, методы и программные средства анализа аудиосигнала и автоматического чтения речи по губам говорящего, повышает точность распознавания русской речи и робастность к шумам в диалоговых системах с речевым интерфейсом.
Универсальный многомодальный интерфейс и система аудиовизуального синтеза элементов русского жестового языка и речи по тексту, объединяющая "говорящую голову", обеспечивающую синтез русской речи, и виртуальную модель человека ("жестовый аватар"), выполняющую видеосинтез динамических жестов, обеспечивает аудиовизуальный вывод текстовой информации посредством генерации речи, артикуляции губ аватара и элементов русского жестового языка как для обычных пользователей, так и для глухих и незрячих людей.
Многомодальный человеко-машинный интерфейс и система для бесконтактной работы с компьютером, отличающаяся интегрированием методов, алгоритмов и программных средств автоматического распознавания речи и машинного зрения, обеспечивает управление графическим интерфейсом компьютера без использования рук посредством голосовых команд и движений головы оператора.

Практическая ценность работы. Математическое, программное и информационное обеспечение ЭВМ, разработанное в диссертационной работе, предназначено для повышения эффективности и расширения возможностей человеко-машинных интерфейсов для организации взаимодействия с различными группами пользователей, включая людей с ограниченными возможностями здоровья. Созданный программный комплекс ассистивных информационных технологий и систем (в том числе многомодальная система аудиовизуального распознавания русской речи, система компьютерного синтеза аудиовизуальной русской речи и элементов русского жестового языка, многомодальная система для бесконтактной работы с компьютером, прототип ассистивного интеллектуального пространства) предназначен для организации универсальных человеко-машинных интерфейсов для доступа потенциальных пользователей к информации, а также помощи, информационной поддержки и реабилитации людей с ограниченными возможностями. Разработанные и используемые ассистивные информационные технологии дают возможность людям с различными видами нарушений интегрироваться в динамично развивающееся информационное общество, предоставляя возможность пользователям выбирать доступные им способы взаимодействия, компенсируя недоступные интерфейсы альтернативными коммуникативными каналами, что улучшает качество их жизни, а также делая их более независимыми от помощи со стороны других лиц. Также они могут применяться людьми без ограничений по здоровью как в обычных, так и нестандартных условиях (например, в невесомости), когда физические возможности человека ограничены окружающей средой.

Реализация результатов работы. Разработанное математическое и программное обеспечение, технические и технологические решения были использова-

ны в ходе выполнения НИОКР по госконтрактам с Минобрнауки РФ (в 2009-2013 гг.), а также в рамках договоров с Санкт-Петербургским государственным университетом (СПбГУ), Западночешским университетом г. Плзень (Чехия), Богазичи университетом г. Стамбул (Турция), работ, выполненных по заказам Правительства Санкт-Петербурга (Администрации Василеостровского района), корпорации LG Electronics R&D Russia, ОАО «Концерн «Океанприбор», ООО «Кварцприбор-М», а также в рамках учебных курсов на кафедрах Санкт-Петербургского государственного политехнического университета (СПбГПУ) и Санкт-Петербургского государственного университета аэрокосмического приборостроения (СПбГУАП).

Апробация результатов работы. Результаты диссертационного исследования представлялись в докладах на ведущих научных конференциях и конгрессах, в частности: международных конференциях INTERSPEECH (Флоренция, Италия 2011; Макухари, Япония 2010; Брайтон, Великобритания 2009; Питтсбург, США 2006); 20-й международной конференции по распознаванию образов ICPR (Стамбул, Турция, 2010); международных конференциях по человеко-машинному взаимодействию HCI International (Лас Вегас, США 2013; Орландо, США 2011; Сан Диего, США 2009); Европейских конференциях по обработке сигналов EUSIPCO (Лозанна, Швейцария 2008; Флоренция, Италия 2006); 11-й IEEE международной конференции по обработке сигналов ICSP (Пекин, Китай 2012); 17-м международном фонетическом конгрессе ICPhS (Гонконг 2011); 19-м международном акустическом конгрессе ICA (Мадрид, Испания 2007); 8-й международной конференции по языковым ресурсам и оцениванию LREC (Стамбул, Турция, 2012); 3-й международной конференции по речевым технологиях для малоресурсных языков SLTU (Кейптаун, ЮАР 2012); международных конференциях «Текст, Речь и Диалог» TSD (Брно, Чехия 2008, 2010); международных конференциях «Речь и Компьютер» SPECOM (Санкт-Петербург 2009, 2006; Москва 2007); международных семинарах по многомодальным интерфейсам eNTERFACE (Плзень, Чехия 2011; Амстердам, Голландия 2010; Орсе, Франция 2008; Стамбул, Турция 2007); международных конференциях по компьютерной графике и зрению Графикой (Санкт-Петербург 2010; Москва 2011); международных конференциях «Распознавание образов и анализ изображений» РОАИ (Санкт-Петербург 2010; Нижний Новгород 2008); 10-й международной конференции NEW2AN/ruSMART (Санкт-Петербург, 2010); 5-й Всероссийской научно-практической конференция «Перспективные системы и задачи управления» (Домбай, 2010); 5-й международной конференции по нейронным сетям и искусственному интеллекту ICNNAI (Минск, Беларусь 2008); международной конференции «Искусственный Интеллект» (Кацивели, Украина 2009); международной конференции «Интеллектуальные и многопроцессорные системы» (Дивноморское 2008); 20-й сессии российского акустического общества (Москва, 2008); Санкт-Петербургской международной конференции «Региональная информатика» (Санкт-Петербург 2008).

За научные результаты, полученные в ходе диссертационного исследования, соискателем получен ряд персональных наград и премий, в частности: Медаль РАН для молодых ученых за лучшую научную работу в области информатики, вычислительной техники и автоматизации по итогам 2011 г.; дипломы победителя конкурса грантов Президента РФ для государственной поддержки молодых российских ученых в 2012-2013 и 2010-2011 гг., победителя конкурса грантов Санкт-Петербурга для молодых кандидатов наук и молодых ученых от КНВШ Правительства Санкт-Петербурга в 2004-2012 гг., конкурса научных работ и проектов

Комиссии по научной молодежи при Президиуме СПбНЦ РАН в 2009 г.; диплом лауреата программы «Выдающиеся ученые. Кандидаты и доктора наук РАН» Фонда содействия отечественной науке в 2008-2009 гг.

Публикации. По материалам диссертации опубликовано свыше 130 печатных работ, включая 9 публикаций в международных рецензируемых журналах, индексируемых в базах данных Web of Science и Scopus, 24 публикации в ведущих научных журналах из перечня ВАК Минобрнауки РФ, 2 монографии, 1 глава в зарубежной книге, 1 учебное пособие, также получен 1 патент и 10 свидетельств о государственной регистрации программ для ЭВМ и баз данных в Роспатенте.

Структура и объем работы. Диссертация содержит введение, шесть глав, заключение, список литературы (230 наименований), два приложения. Основной материал изложен на 270 страницах, включая 20 таблиц и 84 рисунка.

Этапы развития человеко-машинных интерфейсов

В настоящее время мировое сообщество уделяет значительное внимание проблемам инвалидов с дисфункциями отдельных органов или чувств. Миллионы людей страдают от нарушений в работе сенсорных систем (зрения, слуха, обоняния, осязания), голосового аппарата, верхних и нижних конечностей, когнитивных нарушений. Кроме того население всех стран Европы (включая и Россию), особенно крупных городов, быстро стареет; по прогнозам, в 2050 году будет только два работающих человека на одного пенсионера вместо четырех в настоящее время. Необходимая опека и поддержка людей с инвалидностью и недееспособных пожилых людей будет постепенно обеспечиваться интеллектуальными информационными технологиями, а не только опекающими их людьми. Для помощи людям с ограниченными возможностями здоровья и индивидуальными особенностями, а также для их социальной и профессиональной реабилитации в Европейском Союзе (ЕС), например, существуют специальные государственные программы, среди которых отдельно можно выделить программы в области информационных технологий, такие как e-Inclusion и e-Accessibility. Программа e-Inclusion направлена на создание информационных ресурсов для помощи инвалидам, баз данных социальной направленности, а также разработку новых ассистивных технологий во многих сферах, включая транспорт, коммуникации и т.д. Программа e-Accessibility обеспечивает информационную и компьютерную доступность людям с ограниченными возможностями, внедрение новых способов взаимодействия и продвижение новых товаров и услуг, использующих специальные органы и средства управления, доступные конкретным группам инвалидов.

В последние годы высшее руководство России также обращает внимание на проблемы жизни инвалидов. В мае 2012 года Президентом РФ была ратифицирована «Конвенция о правах инвалидов», принятая ранее Генеральной Ассамблеей ООН, ключевой пункт которой состоит в том, чтобы создать условия для полноценной интеграции инвалидов в жизнь общества на всех уровнях. Недавно в России был дан старт государственной программе «Доступная среда», рассчитанной до 2015 года, в рамках которой предполагается настройка под нужды инвалидов правил работы социальных, информационных и прочих государственных служб. Кроме того, 30 декабря 2012 года Президент РФ подписал важные поправки к закону «О социальной защите инвалидов в РФ», существенно повышающие статус русского жестового языка глухих у нас в стране, который теперь является официальным языком общения людей при наличии нарушений слуха или речи, в том числе в сферах устного использования государственного языка РФ.

Очевидно, что существенные ограничения по здоровью могут появиться у человека в течение жизни или присутствовать с самого рождения, при этом может носить постоянный или временный характер. Категории нарушений включают, но, не ограничиваясь этим, физические, сенсорные, когнитивные нарушения, нарушения в развитии. Согласно общепринятым понятиям, а также российскому ГОСТР 51079-2006 [16] «человек с инвалидностью (инвалид)» определяется как лицо, которое имеет нарушение здоровья со стойким расстройством функций организма, обусловленное заболеваниями, последствиями травм или дефектами, приводящее к ограничению жизнедеятельности и вызывающее необходимость его социальной защиты.

Особое значение в современном мире придается равноправию людей с ограниченными возможностями с другими членами общества в их полноценном доступе к информации. А в данной области центральное место занимает компьютерная техника, благодаря которой обеспечивается доступ к мировым новостям, электронным библиотекам, образовательным ресурсам и учебникам, базам данных различных областей знаний, государственным услугам, мультимедийному контенту глобальной сети Интернет. Информационные технологии уже сделали значительный шаг навстречу людям с ограниченными возможностями, например, разрабатываются говорящие книги для слабовидящих, системы распознавания речи для тех, кто не может печатать, системы тактильного взаимодействия с компьютером (сенсорный экран) [180], системы синтеза и анализа жестовой речи [96] и т.д.

Подобные системы и средства получили название «ассистивные технологии» ("Assistive Technology"), т.е. помогающие (вспомогательные) людям с ограниченными возможностями здоровья и индивидуальными особенностями. Термин «ассистивные технологии» неоднократно употребляется в «Конвенции о правах инвалидов» ООН (Организации Объединенных Наций) [92], «Европейской социальной хартии», паспорте российской государственной программы «Доступная среда» [63], проектах ЮНЕСКО и документах, учитывающих международное и российское законодательство [57].

Согласно определению ЮНЕСКО «ассистивные/вспомогательные технологии» — устройства, продукты, оборудование, программное обеспечение или услуги, направленные на усиление, поддержку или улучшение функциональных возможностей людей с ограниченными возможностями здоровья [24]. Иногда в Интернете и в специальной литературе наряду с «ассистивными технологиями/средствами» и «вспомогательными технологиями/средствами» встречается также термин «специальные информационные технологии» [85], но он не всегда отражает данную прикладную область и цель этого класса информационных технологий.

При этом следует понимать, что ассистивные средства и технологии могут быть самого разного характера (программные, электронные, механические, оптические, биологические и т.д.) и предназначения; это и инвалидные кресла-коляски, протезы, слуховые аппараты, оптические очки, телевизионные субтитры, роботы-помощники и роботы телеприсутствия, лифты-подъемники для колясок, звуковые сигналы светофоров, собаки-поводыри с соответствующим снаряжением, а также пандусы и направляющие на дорогах, и многое другое.

В данной диссертационной работе разрабатывается и исследуется класс «ассистивных информационных технологий» (термин, предложенный автором) -т.е. специального программного или аппаратного обеспечения, которое повышает доступность информации и средств коммуникации для людей с ограниченными возможностями.

На рисунке 1 показана общая диаграмма основных направлений применения информационно-коммуникационных технологий (ИКТ) для помощи и реабилитации инвалидов [46]. Можно выделить пять технологических групп устройств и программного обеспечения для реабилитации инвалидов:

Другим важным направлением применения ассистивных технологий является расширение доступа людей с инвалидностью (особенно детей) к образованию, их полноценную интеграцию в общеобразовательную среду (так называемое инклюзивное образование, e-Inclusion). При этом для ассистивных ИКТ в сфере образования отводятся три основные роли [24]:

Автоматическая система распознавания аудиовизуальной русской речи

Алгоритм кластеризации достаточно требователен к вычислительным ресурсам, поэтому порог вычисляется только для первого кадра и далее сохраняет свое значение. Когда порог применяется для получения бинарного изображения (маски), получаем результат, представленный на рисунке 22а. Этот объект достаточно хорошо соответствует внешним контурам губ, но не всегда четко определяет внутренние контуры губ. Проблема связана со сложностью обнаружения языка и темных мест внутри губ. Во время дальнейшей обработки основные вычисления связаны с поиском внутренних контуров губ внутри изображения, ограниченного внешними контурами. Алгоритм использует линию, которая соединяет центры верхней и нижней губ, ищутся локальные минимумы, которые представляют внутренние границы губ на этой линии. Имея значение яркости внутренней границы, можно определить порог яркости для внутренней области рта. Итоговая форма внутренней части губ, полученная как бинарное изображение, изображена на рисунке 22г. Однако в этом изображении присутствует достаточно сильный шум, некоторые части отсутствуют, а некоторые избыточны. Необходимо восстановить всю форму губ, для этого используется активная модель губ, которая состоит из 32 точек и управляется РСА параметрами. Эта модель может деформироваться для описания любой возможной конфигурации формы губ. Для "натягивания" этой модели на реальные изображения губ, был отобран обучающий набор из 200 изображений региона губ для 10 различных дикторов [113, 115]. Внутренний и внешний контуры были размечены экспертом на каждом обучающем изображении, а затем были выбраны 16 точек для каждого контура. Точки внутреннего контура губ нормализуется по размеру (ширине) внешних контуров губ, а затем эти точки центрируются по линии, соединяющей углы внешнего контура губ. На имеющемся бинарном изображении локализуются 32 точки из модели как показано на рисунке 22д. Затем модель сглаживается и восстанавливается изображение формы губ, показанное на рисунке 22е. Кроме описанной обработки решается также проблема, когда после применения порога имеем несколько разрозненных объектов на бинарном изображении. Искомый объект должен быть самым большим объектом в обрабатываемой области, но иногда губы разделены на несколько изолированных объектов, как это показано на рисунке 22а. Поэтому если выбирается просто наибольший объект, то можно потерять некоторые части верхней губы, как показано на рисунке 226. Таким образом, используется модель губ из предыдущего кадра для определения того, какие части принадлежат интересующему графическому объекту, а какие заднему фону, как это показано на рисунке 22в. Такая обработка позволяет восстановить изображение верхней части губ. бинарного объекта, г) область внутри рта, д) нахождение контрольных точек по модели, е) восстановленная форма губ

Первая часть вектора параметров вычисляется непосредственно из обнаруженного контура губ. Были выбраны 4 признака для описания абсолютного размера губ: высота и ширина внешнего и внутреннего контуров губ. Данные 4 параметра были выбраны, так как их легко нормализовать по всем видеозаписям, чтобы нивелировать зависимость от смены диктора. Итоговый вектор признаков содержит набор визуальных параметров [114], описывающих геометрическую форму губ диктора при говорении.

Одной из основных проблем при машинном распознавании аудиовизуальной речи является реализация правильного способа синхронизации и объединения информации от аудио- и видеомодальностей речи. Суть проблемы состоит в естественном рассогласовании двух речевых модальностей (обсуждается детальнее в Главе 3 диссертации), т.е. потоки соответствующих фонем и визем в естественной речи не являются полностью синхронными, хотя в значительной степени перекрываются. Такой феномен вызван естественными ограничениями в динамике процесса речеобразования, инерционностью человеческих органов артикуляции и эффектом коартикуляции (взаимовлияние и взаимопроникновение соседних элементов разговорной речи), который по-разному проявляется на акустическом и визуальном компонентах речи, что и вызывает определенную асинхронность между ними [106].

В ходе исследований были разработаны два типа моделей аудиовизуальных сигналов в многомодальной системе распознавания речи:

Синхронная модель распознавания речи, реализующая ранний подход к объединению модальностей (на уровне признакового описания), и основанная на статистическом аппарате многопоточных скрытых марковских моделей (МПСММ) [175]. 2) Асинхронная модель бимодального распознавания речи, реализующая поздний подход к объединению модальностей (на уровне результатов классификации или состояний модели), и основанная на аппарате сдвоенных скрытых марковских моделей (ССММ) [183].

В обеих моделях акустические и визуальные признаки речи разносятся по двум разным потокам, но объединение происходит различными способами на уровне состояний соответствующих скрытых марковских моделей. Последняя модель позволяет до определенной степени учитывать естественные для речи временные расхождения соответствующих акустических и визуальных признаков речи, возникающие из-за инерционности движения органов речеобразования и феномена коартикуляции звуков речи.

Для учета естественной для речеобразования временной асинхронности потоков соответствующих акустических и визуальных признаков речи были предложены сдвоенные скрытые марковские модели (ССММ, Coupled Hidden Markov Model) [183]. На рисунке 23 показана топология модели аудиовизуальной единицы речи (пара фонема/визема) с несколькими состояниями для каждого потока векторов признаков. Кругами обозначены состояния ССММ, являющиеся скрытыми для наблюдения, а квадратами - смеси нормальных распределений векторов наблюдений в состояниях. Сдвоенная скрытая марковская модель представляет собой набор параллельных СММ, по одной на каждый информационный поток (модальность), состояния модели в некоторый момент времени t для каждой СММ зависят от скрытых состояний в момент времени t-1 всех параллельных СММ. Таким образом, общее состояние ССММ определяется совокупностью состояний двух параллельных СММ. Преимущество такой топологии состоит в том, что она позволяет нескольким потокам векторов признаков независимо переходить по состояниям модели, что дает возможность моделировать допустимые временные расхождения в аудио- и видеоданных. В топологии ССММ аудиовизуальных единиц речи применяются по три состояния на каждый параллельный поток векторов признаков, при этом считается, что первые состояния соответствуют динамическому переходу от предыдущей речевой единицы, третьи - переходу к последующей единице, а вторые состояния объединенной модели (самые длительные) соответствуют стационарному (центральному) участку речевой единицы.

В русской речи можно выделить несколько десятков различных фонем (разные фонетисты выделяют 40-50 фонем, в данном исследовании используются 48, включая акустическую паузу), поэтому и ССММ в распознавателе речи насчитывается столько же. Различимых единиц видимой русской речи (визем) намного меньше - 10-12 (в зависимости от артикуляции диктора, в данном исследовании используются 10). Поэтому применяется связывание (tying) распределений векторов наблюдений визуальных компонент в состояниях разных ССММ. На рисунке 24 показаны связи параметров (распределения векторов наблюдений) визуальных моделей в рамках одного класса виземы при наличии нескольких акустических моделей (например, одна визема «V7» для двух фонем /б/ и /м/). Таким образом, общее количество ССММ в системе равняется числу распознаваемых фонем, но для ряда моделей их параметры являются общими, что упрощает и улучшает процесс обучения моделей в условиях ограниченных обучающих данных.

В работе [112] был предложен весьма простой способ преобразования топологии сдвоенной СММ в эквивалентную лево-правую двухпоточную СММ модель (см. рисунок 25), которая сохраняет все свойства первой. Результирующая СММ содержит все комбинации параллельных состояний исходной ССММ. В ССММ оба потока независимы и распределения векторов наблюдений в состояниях вычисляются отдельно друг от друга, в двухпоточной СММ два распределения векторов наблюдений (для аудио- и видеокомпонент) ассоциированы с каждым состоянием. В топологии ССММ используется по 3

Компьютерный синтез звучащей и видимой речи

Синхронизация показа визем с синтезированным речевым сигналом в разрабатываемой системе осуществляется на основе информации о позиции моментов начала и конца каждого аллофона в текущем речевом потоке. На визуальном уровне необходимо задать три участка, суммарная длительность которых равна реальной длительности звучания каждого аллофона ta: начальный переход tb, стационарный участок tm и конечный переход t/. На рисунке 39 схематично представлен динамический процесс отображения стационарных участков и переходов одного из параметров визем - степени раскрытия губ диктора. Динамическое визуальное отображение звучания /-го аллофона складывается из изображений последовательности кадров начального, стационарного и конечного участков. При этом длительность полного перехода от (/-1)-го аллофона к /-му - te — складывается из участков конечного и начального переходов.

Длительность каждого аллофона и каждой виземы определяется синтезатором речи на основе длительности образа (эталона) каждого аллофона в базе данных и задаваемого пользователем темпа синтезируемой речи. Таблица 7 показывает усредненные значения относительных (%) и абсолютных (мс) длительностей аллофонов при различных темпах синтезированной речи: медленный, средний и быстрый [53].

Предложенные контекстно-зависимые правила синхронизации были реализованы в методе моделирования асинхронности аудиовизуальных речевых модальностей, используемом в системе синтеза "говорящая голова".

Для тестирования и оценивания разработанной "говорящей головы" был проведен ряд когнитивных экспериментов с потенциальными пользователями, которые состояли из двух основных взаимосвязанных частей [38, 148]: 1) Анализ и оценка различных моделей синхронизации модальностей бимодального синтезатора речи, направленная на оценку естественности синтезированной речи. 2) Анализ и оценка разборчивости речи (как одномодальной, так и многомодальной) в условиях различных акустических шумов. При этом аудио- и видеосигналы (стимулы) трех различных типов использовались при проведении когнитивных экспериментов: 1) Акустическая синтезированная речь. 2) Аудиовизуальная речь, синтезированная системой "говорящая голова". 3) Предварительно записанная речь реального человека (этот же диктор использовался для создания синтетического голоса).

Для проведения эксперимента из собранного мультимедийного корпуса русской речи были выбраны 20 фонетически-сбалансированных фраз, которые впоследствии предъявлялись добровольцам-участникам эксперимента (информантам) в произвольном порядке. Каждая фраза состояла из 4-6 слитно-произнесенных слов, которые всем хорошо известны, но при этом не образуют семантических связей между собой, т.е. все фразы целиком являются бессмысленными или имеют лишь частичный смысл. Это было сделано для того, чтобы во время тестов информанты обходились без априорных семантических знаний, а ориентировались только на свои органы чувств: слух и зрение.

На первом этапе тестирования каждого из информантов просили прослушать синтезированную речевую фразу, после чего они должны были записать воспринятую ими на слух последовательность слов. Затем субъекты должны были воспринять эту же фразу, но сказанную полнофункциональной системой "говорящая голова". На этом же этапе информанты должны были также оценить естественность синтеза (подобие реальному) и качество синхронизации аудиовизуальных сигналов по 5-балльной шкале (MOS - mean opinion score) для четырех методов синхронизации (или моделирования асинхронности) аудиовизуальных речевых модальностей:

На этом этапе исследования информанты должны были протестировать аудиовизуальный синтез речи с четырьмя методами синхронизации и оценить качество и естественность (подобность межчеловеческому общению) синхронизации аудиовизуальных сигналов (синхронны или не синхронны) синтезированной речи, используя 5-балльную шкалу (Mean Opinion Score - MOS; высшая оценка "5" означает, что модальности отлично синхронизированы). Информанты также должны быть записать последовательность слов, которую они распознали. И на последнем этапе тестирования тестерам предлагали прослушать ту же самую записанную фразу, произнесенную реальным голосом.

Такой цикл с различными фразами повторялся 20 раз для каждого испытуемого. Нужно отметить также, что в чистый акустический сигнал добавлялся аддитивный шум (белый шум, либо шум толпы, когда одновременно говорят много людей) с изменяющейся интенсивностью (отношение сигнал/шум варьировалось от 5 до 25дБ). Всего к экспериментам были привлечены 10 добровольцев от 20 до 35 лет с нормальным слухом и зрением, до начала тестов информантам предоставлялось некоторое время для адаптации к синтезированному голосу и виртуальной модели головы. Тестовая сессия для каждого человека продолжалась в среднем 30 минут. В общей сложности было получено 800 пользовательских оценок по естественности синтеза и 600 по разборчивости речи.

Рисунок 40 показывает распределения пользовательских оценок четырех методов синхронизации (по 5-балльной шкале), усредненные по всем тестовым фразам для каждого из 10 тестеров. Следует заметить, что информантов просили выставлять разные оценки только если они замечают разницу между ними. Некоторые тестеры не использовали оценки "5" или "2" вовсе. Было выяснено, что все субъекты идентифицировали рассинхронизацию аудио- и визуальной речи для метода А150В; два человека из 10 не ощутили разницу в синхронизации для базового метода, предложенного асинхронного метода и В150А; 2 других информанта не отличили В150А и асинхронный метод. Остальные люди высказались, что они определяют разницу во всех 4-х методах синхронизации.

Компьютерный синтезатор русского жестового языка по тексту

На рисунке 67 показан фрагмент выполнения сценария по бесконтактной работе с программой Microsoft Internet Explorer для нахождения некоторой информации в Интернете (последовательность команд «Левая», «Вниз» и «Левая»), копирования фрагмента этой страницы в буфер (команды «Нажать левую», выделение головой, «Отпустить левую» и «Копировать»), открытие редактора Microsoft Word (команды «Пуск» и «Левая»), а также вставка информации из буфера в окно текстового редактора (команда «Вставить»).

Аудиосигнал, непрерывно захватываемый микрофоном веб-камеры, обрабатывается распознавателем речи. Процесс распознавания речи запускается встроенным блоком определения границ речи (Voice Activity Detector - VAD), который обнаруживает наличие речеподобного сигнала в звуковом потоке, отличного от тишины или постоянного фонового шума. Процесс распознавания заканчивается после получения наилучшей гипотезы распознавания команды из автоматической системы.

На рисунке 67 черный круг означает, что распознанная команда (например, «Нажать левую») является многомодальной (см. таблицу 12, колонка ММ), а белый круг означает одномодальную речевую команду (например, «Копировать» или «Вставить»). Модуль автоматического распознавания речи работает в режиме реального времени (фактор скорости SF 0,1 RT (realime), так как используется малый словарь распознавания, таким образом, существуют лишь минимальные задержки распознавания после окончания произнесения команды, коими можно пренебречь.

Для синхронизации сигналов модальностей в системе реализован специальный механизм: текущее положение курсора сохраняется в буфере в момент определения начала речи пользователя (срабатывания метода определения границ речи VAD при превышении значения энергии сегмента аудиосигнала заданного порога), так как в процессе произнесения речевой команды курсор может сместиться из-за непроизвольных перемещений головы. Кроме того, речевое намерение формируется в сознании пользователя в соответствии с целью и ситуацией непосредственно до того как вербально произносится команда. По окончании процесса распознавания речевой команды выдается сигнал для объединения информации и последующей отсылки сообщения для выполнения действия в ОС. Таким образом, именно подсистема автоматического распознавания речи осуществляет синхронизацию модальностей в системе (рисунок 67).

Подсистема компьютерного зрения способна обрабатывать видеопоток со скоростью 12-25 кадров в секунду (зависит от типа веб-камеры и мощности процессора), однако для скорости обработки аудиосигнала производительность компьютера не столько критична и аудиосигнал обрабатывается по сегментам, следующим с частотой 100 Гц. В момент детекции начала речеподобного звукового сигнала системой извлекаются последние сохраненные координаты головы пользователя в кадре (соответственно и координаты курсора мыши), соответствующие звуковому сегменту до начала произнесения речевой команды. Таким образом, требуемая задержка речевой команды относительно координат курсора мыши в многомодальной команде составляет до 100 мс.

Для объединения информации, поступающей от двух модальностей системы, используется фреймовый метод. При этом поля семантического фрейма заполняются данными по мере их поступления, а по окончании процесса распознавания выдается сигнал для выполнения многомодальной команды. Поля используемого фрейма следующие: 1) код распознанной речевой команды; 2) тип речевой команды (много- или одномодальная); 3) абсцисса М положения курсора мыши на экране; 4) ордината М положения курсора. В том случае если распознанная команда является многомодальной (см. таблицу 12), то она объединяется в одну команду с сохраненными координатами курсора и автоматически посылается сообщение ("Message") ОС Microsoft Windows соответствующему виртуальному устройству мыши о выполнении нужного действия. Если же команда является одномодальной, то координаты курсора не учитываются и посылается соответствующее сообщение виртуальному устройству клавиатуры. Движения головы сами по себе не могут подавать команд управления графическим пользовательским интерфейсом, но они могут использоваться, например, для создания изображений в графических редакторах.

С разработанной ассистивной многомодальной системой был проведен ряд когнитивных экспериментов и исследований по бесконтактному человеко-машинному взаимодействию. Как известно, когнитивная наука (от лат. "cognitio", т.е. «познание») — междисциплинарное научное направление, объединяющее теорию познания, когнитивную психологию, нейрофизиологию, когнитивную лингвистику и теорию искусственного интеллекта. В когнитивной науке совместно используются компьютерные модели, взятые из теории искусственного интеллекта, и экспериментальные методы, взятые из психологии и физиологии высшей нервной деятельности. Когнитивные исследования в последние годы имеют очень важное значение в оценке и развитии речевых технологий и пользовательских интерфейсов.

Одним из экспериментов, проведенных посредством бесконтактного человеко-машинного интерфейса, была оценка скорости и производительности работы пользователей с системой ICANDO при указании на объекты графического пользовательского интерфейса. Для оценки скорости ввода информации была использована методология международного стандарта ISO 9241-9:2000 "Requirements for non-keyboard input devices" («Требования к неклавитаурным устройствам ввода информации») [142], которая базируется на экспериментах и законах, разработанных в середине 20 века американским психологом-когнитивистом П. Фиттсом (Paul Morris Fitts), и впоследствии развитых другими учеными [202].

Данная методика состоит в следующем. Пользователи при помощи предоставленного им устройства указательного ввода, должны насколько возможно быстро отметить на экране набор целей-объектов (последовательно кликнуть на них, выдавая голосовую команду «Левая» для виртуального нажатия левой кнопки мыши), последовательно появляющихся по круговой схеме на экране. При этом порядок целей задается программой таким образом, чтобы пользователь последовательно выделял наиболее удаленно расположенные друг от друга объекты, совершая движения указателем в различных направлениях [197]. При этом вычисляется индекс сложности задачи ID ("index of difficulty"), измеряемый в битах, в соответствии с формулой Шэннона [108]: где D — расстояние между центрами целей (диаметр окружности), W— диаметр круглой цели в экранных пикселях. Согласно закону Фиттса, время движения МТ между целями линейно зависит от индекса сложности ID задания. Однако координаты точки, где происходит выделение цели (клик), зависят как от фактического расстояния между точками кликов, так и от фактического диаметра самих целей (т.е., чем меньше цель, тем сложнее попасть по ее центру).

Аудиовизуальные речевые интерфейсы в ассистивных информационных технологиях Карпов, Алексей Анатольевич

Этапы развития человеко-машинных интерфейсов

Автоматическая система распознавания аудиовизуальной русской речи

Компьютерный синтез звучащей и видимой речи

Компьютерный синтезатор русского жестового языка по тексту

Похожие диссертации на Аудиовизуальные речевые интерфейсы в ассистивных информационных технологиях