Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Структурно-аппроксимационные методы распознавания речевых образов и их применение в тренажно-моделирующих системах Синецкий Роман Михайлович

Структурно-аппроксимационные методы распознавания речевых образов и их применение в тренажно-моделирующих системах
<
Структурно-аппроксимационные методы распознавания речевых образов и их применение в тренажно-моделирующих системах Структурно-аппроксимационные методы распознавания речевых образов и их применение в тренажно-моделирующих системах Структурно-аппроксимационные методы распознавания речевых образов и их применение в тренажно-моделирующих системах Структурно-аппроксимационные методы распознавания речевых образов и их применение в тренажно-моделирующих системах Структурно-аппроксимационные методы распознавания речевых образов и их применение в тренажно-моделирующих системах Структурно-аппроксимационные методы распознавания речевых образов и их применение в тренажно-моделирующих системах Структурно-аппроксимационные методы распознавания речевых образов и их применение в тренажно-моделирующих системах Структурно-аппроксимационные методы распознавания речевых образов и их применение в тренажно-моделирующих системах Структурно-аппроксимационные методы распознавания речевых образов и их применение в тренажно-моделирующих системах Структурно-аппроксимационные методы распознавания речевых образов и их применение в тренажно-моделирующих системах Структурно-аппроксимационные методы распознавания речевых образов и их применение в тренажно-моделирующих системах Структурно-аппроксимационные методы распознавания речевых образов и их применение в тренажно-моделирующих системах
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Синецкий Роман Михайлович. Структурно-аппроксимационные методы распознавания речевых образов и их применение в тренажно-моделирующих системах : диссертация ... кандидата технических наук : 05.13.01 / Синецкий Роман Михайлович; [Место защиты: ГНУ "Южный федеральный университет"].- Ростов-на-Дону, 2009.- 190 с.: ил.

Содержание к диссертации

Введение

1. Анализ проблемы речевого управления тренировкой в тренажно-моделирующих системах 9

1.1. Характеристика процессов управления сценариями тренировок 9

1.2. Модели использования командно-речевых интерпретаторов в тренажно-моделирующих системах 14

1.3. Анализ современного состояния компьютерных речевых технологий и формирование требований к командно-речевым интерпретаторам в составе тренажно-моделирующих систем 21

1.4. Анализ современных методов распознавания речевых образов 28

1.5. Задача разработки инструментов и технологий построения эталонных речевых образов командно-речевых интерпретаторов 47

1.6. Выводы 50

2. Разработка математических моделей и метода структурной аппроксимации и распознавания речевых образов 54

2.1. Предварительные замечания 54

2.2. Структурная детерминированность речеобразующих процессов 56

2.3. Определение структурных моделей речевых образов 62

2.4. Математическая постановка задачи синтеза аппроксимационной модели .73

2.5. Оптимизационная схема решения задачи синтеза аппроксимационной модели 75

2.6. Синтез аппроксимационных структурных моделей при параметрических представлениях спектров 77

2.7. Функционально-логическая модель командно-речевого интерпретатора 85

2.8. Методика построения эталонных моделей речевых образов 92

2.9. Выводы .98

3. Разработка, численная реализация и исследование алгоритмов обработки речевых сигналов в командно-речевом интерпретаторе 101

3.1. Характеристика задач исследования 101

3.2. Численные соотношения, используемые в алгоритмах цифровой обработки речевых сигналов 106

3.3. Алгоритм определения временных границ речевого сигнала 109

3.4. Алгоритмы формирования речевых образов 117

3.5. Разработка и исследование алгоритмов сегментации речевых образов 131

3.6. Комплексная оценка надежности и вычислительной эффективности командно-речевого интерпретатора 147

3.7. Выводы 159

4. Программная реализация командно-речевого интерпретатора и его применение в составе тренажерных систем 163

4.1. Программная реализация командно-речевого интерпретатора 163

4.2. Программная реализация методики настройки эталонов голосовых команд 174

4.3. Технологические приемы повышения надежности распознавания речевых сигналов 183

4.4. Применение командно-речевого интерпретатора в составе тренажерных систем 191

4.5. Выводы 195

Заключение 197

Список литературы 200

Введение к работе

Проблема речевого взаимодействия «человек-машина» рассматривалась различными исследователями еще с середины XX века. За более чем 60 лет исследований были достигнуты определенные успехи в этой области, предпринимались попытки создания систем распознавания слитной речи и изолированных слов. Однако, обобщая накопленный опыт, можно сказать, что задача в целом все еще далека от своего решения, речевое общение на естественном разговорном языке не стало, как планировалось, обычным способом взаимодействия с машиной. Вместе с тем, имеются примеры эффективного применения систем распознавания изолированных слов (или словосочетаний - голосовых команд) для решения частных задач в некоторых прикладных областях [1, 2, 3, 4, 5, 6].

Одними из таких перспективных областей применения речевых технологий являются обучающие и тренажерные системы. Однако о применении голосового управления в составе тренажерных систем можно найти лишь краткие упоминания или информационные сообщения [7, 8, 9, 10]. Возможно, это связано с тем, что практически все передовые тренажерные системы являются закрытыми военными разработками и какие-либо обширные исследования в данном направлении, как правило, не публикуются. Можно утверждать, что эта область исследований является недостаточно изученной и освещенной.

Задача голосового управления в составе тренажерных комплексов заключается в построении такой системы распознавания речевых команд, которая с достаточной надежностью распознавания и требуемым быстродействием обеспечивает распознавание команды, поданной оператором в микрофон, ее интерпретацию и трансляцию в управляющие сигналы тренажерной системы.

Речевое управление имеет определенные преимущества перед другими способами управления [11]: освобождаются руки оператора для выполнения другой работы; оператор не должен занимать фиксированную позицию; не имеют значения условия освещения, механической вибрации и так далее. Вместе с тем, имеются и недостатки: речевой сигнал (PC) подвержен шумовым помехам; применение речевого управления затруднено в условиях, когда речевой канал используется для выполнения другой работы (например, для радиосвязи с другими операторами).

Кроме того, если оценивать целесообразность голосового управления по времени взаимодействия, отсчитываемого от момента, когда пользователь приступает к выполнению задачи, и до момента, когда он получает ответ, то речевой ввод не всегда обеспечивает меньшее время взаимодействия по сравнению с другими видами управления. Его применение отдельно от других органов управления не дает положительного эффекта, а скорее наоборот, ухудшает оперативность. Поэтому голосовое управление должно функционировать совместно с существующими органами, стать дополнительным каналом ввода информации. Функционируя совместно, все каналы ввода информации позволяют устранить недостатки друг друга и повысить общую эффективность управления.

Применение голосового управления в составе тренажерных комплексов представляется целесообразным для следующих систем:

— системы контроля и управления тренировкой, в составе которой функции голосового управления предназначены для повышения удобства и оперативности управления системами тренажера со стороны инструкторов и руководителей тренировки;

— системы моделирования объекта, в составе которой функции голосового управления используются в обучающем процессе (например, обучение командира надводного корабля отдаче нужных команд в определенных ситуациях, управление техническими системами тренажера со стороны обучаемого).

В рамках данной работы рассматривается применение голосового управления в составе систем контроля и управления тренировкой тренажно-моделирующих систем (ТМС).

В последнее время в разработке систем распознавания речи появилась тенденция к созданию программных библиотек распознавания голосовых команд (в иностранной литературе называемых «Speech Recognition SDK»), добавляющих возможности голосового управления в использующие их программные комплексы. Такую библиотеку можно назвать командно-речевым интерпретатором (КРИ). Как правило, библиотеки КРИ специфичны и ориентированы на конкретную область приложений, но имеют наилучшие показатели надежности распознавания и возможность встраивания. Существуют библиотеки для систем телефонии, автоматических справочных, управления технологическим оборудованием и других приложений, однако, упоминания о применении КРИ в составе тренажерных систем в отечественной и зарубежной литературе встречаются крайне редко. В рамках диссертационной работы рассматривается разработка такой библиотеки для тренажерных систем и ее внедрение в составе конкретных тренажеров.

В данной работе для распознавания речевых образов (РО) предлагается использование схемы метода структурной аппроксимации одномерных временных образов, обладающей достаточной конструктивностью для построения на ее основе алгоритмов распознавания РО, а также небольшими вычислительными затратами в реализации и невысокими требованиями априорной информации для настройки. Ранее этот метод успешно применялся для оценивания параметров электрофизиологических сигналов (электрокардиограмм, сфигмограмм и др.), но для распознавания PC применяется впервые.

Целью данной диссертационной работы является разработка комплекса структурно-аппроксимационных алгоритмов синтеза и распознавания речевых образов и реализация на этой основе командно-речевого интерпретатора для управления сценариями тренировок в тренажно-моделирующих системах.

Для достижения указанной цели в диссертационной работе решаются следующие основные задачи исследования:

1. Анализ процессов формирования и реализации сценариев проведения тренировки и выработка требований к КРИ в составе ТМС. 2. Разработка и исследование комплекса алгоритмов цифровой обработки PC, предназначенных для синтеза и распознавания структурных РО.

3. Разработка функциональной модели КРИ для численной реализации схемы метода структурной аппроксимации и распознавания РО в составе пультов управления ТМС.

4. Разработка методики и соответствующих инструментальных средств формирования эталонных РО с учетом специфики ТМС.

5. Экспериментальные исследования эффективности применения КРИ в составе пультов контроля и управления ТМС.  

Модели использования командно-речевых интерпретаторов в тренажно-моделирующих системах

Управление в графических интерфейсах, подобных приведенному на рис. 1.2, осуществляется при помощи манипулятора «мышь» и клавиатуры. Это удобный и эффективный способ взаимодействия «человек-ЭВМ», однако не лишенный некоторых недостатков: часть форматов может быть скрыта под другими форматами (как видим на рисунке), при этом для того, чтобы получить доступ к органам управления на скрытом формате, необходимо «вытянуть» его над другими форматами; некоторые команды могут быть поданы через разветвленную систему меню, при большой вложенности которой может потребоваться длительное время для того, чтобы отыскать в меню нужный пункт; управляя процессом тренировки, инструктор не может, не прерывая процесс управления, покинуть свое рабочее место, чтобы, например, что-либо показать обучаемому.

Применение голосового управления совместно с графическим интерфейсом позволяет устранить эти недостатки. К примеру, подача голосовой команды вызова определенного формата легче и быстрее поиска этого формата в меню форматов системы. Если оснастить ПКУ переносными микротелефонными гарнитурами, то инструктор получит возможность подавать голосовые команды, отходя от ПКУ и не прерывая при этом процесса тренировки.

Для реализации функций голосового управления ПКУ можно оснастить командно-речевым интерпретатором, осуществляющим преобразование голосовой фразы в управляющую команду. Например, в составе команд ПКУ присутствуют такие команды, как запуск и останов тренировки. Можно ввести в состав словаря команд КРИ голосовые фразы «Пуск тренировки» и «Стоп тренировки», получив которые с микрофона, КРИ преобразует их в соответствующие команды ПКУ.

Таким образом, можно сказать, что инструктор тренажера получает новый канал ввода управляющих команд в дополнение к существующим - клавиатуре и мыши (см. рис. 1.3). Задача КРИ заключается в том, чтобы принимать голосовые команды с микрофона и транслировать их в управляющие сигналы. Если бы КРИ обладал 100-процентным показателем надежности распознавания (безошибочным), то проблема была бы решена полностью. Однако опыт практического использования систем распознавания речи в различных приложениях показывает, что ни одна система не имеет такого показателя надежности. Поэтому полностью возложить на КРИ функцию автоматического распознавания и трансляции голосовых команд в сигналы управления не представляется возможным. Есть два пути решения данной проблемы: 1) Совершенствовать алгоритмы распознавания PC с целью повышения показателя надежности КРИ. Исследования в данном направлении затрагивают вопросы анализа PC, параметрического представления РО, выделения границ PC, его сегментации, формирования эталонов, сравнения РО с эталонами и т. д. Однако, как показывает опыт, добиться 100-процентной надежности распознавания не удавалось, сколько бы не совершенствовались алгоритмы и методы распознавания PC [2, 3, 14]. 2) Предложить некоторые технологические приемы, обеспечивающие нормальное функционирование тренажера даже при неправильном распознавании голосовых команд. Второй путь подразумевает использование таких приемов, как подтверждение поданной команды, выбор из списка наиболее вероятных команд, повторение распознанной команды, контекстное разделение голосовых команд. Все эти приемы, не влияя на надежность распознавания алгоритмов, заложенных в основе КРИ, позволяют повысить надежность системы в целом. Необходимо заметить, что оба эти направления исследований не противоречат друг другу, их можно и необходимо решать параллельно, и они составляют предмет исследований настоящей диссертационной работы. Рассмотрим несколько примеров применения КРИ в составе ПКУ ТМС различных тренажеров. Пример 1. Применение КРИ в тренажерах, моделирующих действия экипажа. Рассмотрим применение КРИ в составе ПКУ тренажера, моделирующего нештатные и аварийные ситуации и функции систем обеспечения живучести подводных лодок (тренажер «Борьба за живучесть»), предназначенного для тренировок экипажа в указанных ситуациях [15]. В реальной обстановке подаваемые по селекторной (или другой) связи голосовые команды могут задействовать большую часть экипажа и количество различных смысловых команд может достигать нескольких сотен. Проведение занятий на тренажере осуществляется небольшими по численности группами из состава экипажа, каждая из которых проходит обучение согласно графику. Для непосредственных участников тренировки создается реалистичная картина, важная часть которой — создание видимости действий другой части экипажа. При этом инструктор подает те же команды, что и в реальных условиях, но часть из них выполняется непосредственно участниками тренировки, а другая (возможно большая) часть должна транслироваться в сигналы управления, подаваемые на исполнительные механизмы или моделирующие компоненты ТМС. Процесс трансляции этих команд состоит в выборе инструктором (при помощи манипулятора «мышь») нужной команды из списка, выводимого на экран монитора. Технологически такая процедура недостаточно удобна, поскольку размерность списка может быть велика, что приводит к лишним затратам времени на поиск требуемой команды в списке и, как следствие, к нарушению темпа тренировки.

Структурная детерминированность речеобразующих процессов

Из вышеизложенного следует, что наиболее предпочтительной для применения в ТМС является полуавтоматическая технология настройки КРИ. Для контроля выделения границ PC и его сегментации требуется специалист с начальной подготовкой в области цифровой обработки PC. Как правило, обслуживающий персонал тренажера — специалисты в своей специфической области, для которой создан тренажер. В некоторых случаях возможно наличие в штате сотрудника с необходимой подготовкой. Но даже если такого сотрудника нет, тренажерные системы при эксплуатации всегда сопровождаются организацией-разработчиком (как показано в п. 1.1), поэтому функцию настройки эталонов голосовых команд можно возложить на эту организацию. При этом технология настройки эталонов голосовых команд должна предусматривать возможность удаленной настройки эталонов, когда эксплуатирующая организация записывает необходимые PC, затем отправляет их сопровождающей организации, которая эти сигналы обрабатывает и предоставляет готовые эталоны голосовых команд.

Рассмотрены основные аспекты процессов голосового управления тренировкой в тренажно-моделирующих системах (ТМС) и выделены следующие особенности: а) Управление тренировкой осуществляется при помощи ЭВМ, имею щих стандартные устройства ввода-вывода информации (монитор, клавиатура, мышь), также в составе пультов контроля и управления (ПКУ) имеются средст ва голосового взаимодействия (микрофон, наушники). б) На ПКУ имеется постоянный штат из нескольких инструкторов, что позволяет использовать в составе ТМС дикторозависимые системы распознава ния голосовых команд с настройкой на каждого инструктора. в) Управление осуществляется посредством форматов (каждый формат представляет собой модель на экране монитора одной из панелей управления моделируемого объекта). Команды моделирующей системе тренажера могут подаваться как с использованием стандартных устройств ввода, так и посредст вом КРИ. Актуальность применения голосового управления в составе ПКУ ТМС показана на нескольких примерах, иллюстрирующих эффективность голосового управления за счет следующих факторов: а) устранения ограничений графических компьютерных интерфейсов (перекрытие элементов управления друг другом, поиск нужного пункта в меню большого размера и вложенности, много движений мыши); б) обеспечения возможности управления тренировкой, отходя от рабоче го места оператора; в) повышения оперативности управления тренировкой, удобства управ ления. На примерах показано, что применение голосового управления в составе ПКУ ТМС позволяет сделать прогресс управления тренировкой более оперативным и удобным для инструктора, что способствует поддержанию нормального темпа и режима тренировки. 2. Проведена сравнительная характеристика наиболее распространенных на рынке коммерческих систем распознавания речи и сформулированы требо вания к КРИ в составе ТМС. Показано, что ни одна из систем в полной мере не удовлетворяет особенностям и требованиям ТМС, в частности: а) завышенные в рекламных целях параметры надежности распознава ния некоторых систем; б) ряд систем не поддерживает распознавание русского языка; в) высокая стоимость приемлемых по параметрам систем; г) внедрение системы распознавания может потребовать присутствия разработчика на объекте внедрения, а некоторые тренажеры являются закры тыми военными разработками; д) большинство существующих систем предназначены либо для широ кого применения и требуют доработки для внедрения в ТМС, либо для специ фических областей, отличных от ТМС. Существующая ситуация на рынке систем распознавания голосовых команд вызывает необходимость разработки специализированных систем, предназначенных для применения в составе ТМС и удовлетворяющих ах спег и-фике. 3. Рассмотрены наиболее распространенные методы распознавания ре чевых образов (РО), выделены их достоинства и недостатки применимо к ре шению задачи голосового управления в ТМС. Предложено использовать в ка честве основы функциональной модели КРИ схему метода структурной аппроксимации и распознавания одномерных временных образов, во-первых, имеющую конструктивный, легко реализуемый алгоритм, во-вторых, учитывающую естественные структурно-детерминированные свойства речевых сигналов, в-третьих, не требующую больших объемов априорной информации для настройки эталонных образов, в-четвертых, позволяющую производить эту настройку с участием оператора, что способствует получению более качественных эталонов. Метод успешно применялся ранее для оценивания параметров электрофизиологических сигналов (электрокардиограмм, сфигмограмм и др.), но для распознавания речевых сигналов (PC) применяется впервые.

Алгоритм определения временных границ речевого сигнала

Показано, что в рамках проблемы распознавания речевых образов (РО) можно принять рабочую гипотезу (допущение) о структурной детерминированности речеобразующих акустических процессов. Это допущение предполагает, что речеобразующий процесс (РО-процесс) является многофазным и все его реализации могут быть идентифицированы одной единственной последовательностью идентификаторов фаз, с которыми связываются отдельные фонемы или их сочетания. Структурно-детерминированный процесс (СД-процесс), соответствующий некоторой речевой фразе, рассматривается как источник структурных РО, которые, как и сам процесс, обладают квазирегулярными свойствами. Такое представление РО-процессов позволяет применять схему метода структурной аппроксимации одномерных временных образов для распознавания РО. Для использования ее в качестве модели командно-речевого интерпретатора (КРИ) необходимо разработать функциональную схему, оперирующую с математическими моделями структурных РО, которые содержат фонетическую информацию, необходимую для их распознавания. Для разработки такой модели и последующей алгоритмической и практической реализации КРИ необходимо решить ряд задач, сформулированных в разделе 2.1, содержание которых отражено также в приводимых ниже выводах. 2. На основе понятий и формализмов структурной теории образов введено понятие структурного РО, представленного в виде конфигурации c (Si —im) синтезируемой из речевого сигнала, в котором каждая образующая (элемент РО) порождается соответствующей фазой СД-процесса. Введенные формализмы позволяют перейти к точным определениям математических моделей РО и сформулировать их свойства. В качестве математических моделей РО предложено использовать конфигурации с, построенные из операторов F — дискретного преобразования Фурье, применяемых к отрезкам дис-кретизированного речевого сигнала х{п) на конечных интервалах времени г, то есть образующие РО определены как g = F[x(n)]T, а их числовые признаки — как спектральные функции XT{f). Такой выбор определения образующих обусловлен следующими факторами: — во-первых, спектр PC представляется наиболее информативной его характеристикой, содержащей фонетическую информацию, необходимую для восприятия и распознавания; — во-вторых, в теории цифровой обработки сигналов разработан ряд эффективных методов спектрального анализа, которые можно использовать для синтеза РО. 3. Для реализации схемы структурной аппроксимации и распознавания РО введены определения математических моделей РО: идеальной с, деформированной с и аппроксимационной с, которые являются основными объектами синтеза в этой схеме. Для введенных моделей сформулирована математическая постановка задачи синтеза аппроксимационной модели в форме задачи векторной оптимизации и определены два вида критерия качества получаемой модели, значения которых можно использовать для последующего распознавания РО. Главный результат, полученный в этой части работы, состоит в переходе от концептуальной постановки задачи синтеза абстрактной модели с к математической постановке задачи синтеза конкретной (заданной в аналитической форме) модели с, что позволяет перейти к разработке алгоритма синтеза, включающего соответствующие численные процедуры обработки PC. 4. Для синтеза оптимальной в смысле предложенных критериев качества аппроксимационной модели РО предложено использовать вычислительную процедуру динамического программирования. Для реализагщи этой процедуры получены рекуррентные соотношения Беллмана, определяющие схему вычислений. На их основе разработана спецификагщя алгоритма, позволяющая выполнить программную реализацию процедуры синтеза оптимальной аппроксима-ционной модели РО. 5. Предложены два способа (формы) параметрического представления спектров (спектры являются числовыми характеристиками элементов моделей РО), позволяющие сделать процедуру синтеза аппроксимационной модели РО более эффективной в вычислительном отношении — сократить объем памяти, требуемый для представления моделей РО, и время вычислений. Для предложенных форм параметрического представления спектров получены соответствующие «модифицированные» соотношения Беллмана. Оценка эффективности предложенных форм параметрического представления составляют предмет отдельных исследований в следующей главе работы. 6. Предложена методика полуавтоматического формирования эталонных структурных речевых образов, позволяющая выполнять настройку эталонов КРИ для заданного списка голосовых команд. Особенностью методики является привлечение оператора для решения не поддающейся полной формализации задачи идеальной сегментации РО (нахождения существенного разбиения, соответствующего фонетической структуре РО-процесса). Достоинством методики является возможность повысить показатель надежности КРИ за счет повышения надежности распознавания плохо различимых РО путем переопределения структуры эталонов.

Программная реализация командно-речевого интерпретатора

В данном разделе представлена программная реализация КРИ в составе ПКУ тренажера. Программное обеспечение (ПО) тренажера представляет собой множество взаимодействующих модулей, один из которых является управляющим, а другие реализуют различные органы управления моделируемого тренажером объекта. Наиболее целесообразно реализовать КРИ в виде динамически загружаемой библиотеки (DLL) [16], вызов которой возможен из любого модуля ПКУ. При запуске основного модуля ПКУ библиотека КРИ загружается в память ЭВМ ПКУ, инициализируется и запускается. В процессе работы тренажера КРИ в любой момент может быть остановлен или запущен вновь, при завершении работы ПКУ библиотека КРИ деинициализируется и выгружается. В общем виде схема использования КРИ в составе ПО тренажера приведена на рис. 4.1.

Взаимодействие ПО тренажера с библиотекой основано на функциональном интерфейсе [16]. При компиляции программных модулей ПКУ, в них объявляются точки вызова функций внутри библиотеки КРИ и описываются необходимые для вызова этих функций параметры. При помощи одних функций осуществляется управление библиотекой (запуск/остановка КРИ, инициализация, выбор диктора и т.д.), при помощи других передается в ПКУ информация о распознанных командах, третьих - обращение к базе данных эталонов голосовых команд, есть и другие дополнительные функции.

Для записи речевых сигналов, их дискретизации и преобразования к виду, пригодному для обработки ЭВМ, предполагается использование стандартной звуковой карты, имеющей в своем составе АЦП с возможностью подключения к нему микрофона (использование КРИ на ЭВМ без звуковой карты недопустимо). Управление звуковой картой осуществляется при помощи системных функций ОС Windows [16].

Совокупность параметров входящих в КРИ алгоритмов обработки и распознавания PC, а также параметров системных функций ОС для настройки считывания PC с микрофона образуют «конфигурацию» КРИ. При инициализации КРИ конфигурация загружается из файла на внешнем носителе в оперативную память и используется при дальнейшем функционировании библиотеки. Описание параметров дикторов, форматов и эталонов голосовых команд составляют базу данных (БД) эталонов. Содержимое БД также хранится во внешнем файле и загружается в память при инициализации КРИ.

Получение файлов БД эталонов и конфигурации является результатом функционирования технологии формирования эталонов и настройки КРИ, для реализации которой в составе КРИ имеются инструментальные средства настройки КРИ. Эти инструментальные средства представляют собой программный комплекс, интерактивно взаимодействующий с оператором, выполняющим операции по настройке КРИ, и реализующий функции по изменению параметров конфигурации, ведению справочников дикторов, форматов и формированию эталонов голосовых команд для каждого диктора.

Функционально-логическая схема библиотеки КРИ приведена на рис. 4.2. Как видно из рисунка, библиотека представляет собой совокупность взаимодействующих структур данных в памяти и процессов обработки данных. На схеме обозначены следующее структуры данных: 1) Буфер 1 — двойной буфер, который звуковая карта заполняет отсчетами цифрового сигнала, полученного оцифровкой речевого сигнала, снимаемого с микрофона. Как уже было отмечено, КРИ использует звуковую карту ЭВМ для записи PC с микрофона. В состав большинства звуковых карт входит АЦП, к входу которого может подключаться микрофон. Управление звуковой картой осуществляется при помощи системных функций мультимедиа операционной системы (ОС) Windows. Для КРИ звуковая карта под управлением ОС выступает как программно-аппаратная система, функционирующая следующим образом. Для получения от звуковой карты цифрового сигнала (ЦС) в памяти выделяется двойной буфер (состоящий из двух буферов - 1 .А и 1 .Б) для хранения отсчетов сигнала, который записывается в звуковом формате (WAVE) [122]. Адрес буфера 1.А передается АЦП через системные функции ОС. Другими функциями ОС АЦП включается в работу и самостоятельно через механизм прямого доступа к памяти [16] (не требуя ресурсов ЦП ЭВМ) заполняет буфер отсчетами ЦС, полученного оцифровкой сигнала с микрофона. О заполнении буфера целиком сигнализирует специальный семафор, который должен отслеживаться библиотекой. По получению сигнала этого семафора библиотека передает АЦП адрес буфера 1.Б для дальнейшего заполнения и обрабатывает буфер 1.А. Таким образом, два буфера постоянно меняются, обеспечивая непрерывное получение данных с АЦП. 2) Буфер 2 хранит цифровой сигнал, полученный преобразованием данных в звуковом формате из буфера 1 в цифровой сигнал в виде, пригодном для работы входящих в состав КРИ алгоритмов обработки PC. Буфер 2 представляет собой очередь из массивов равной длины. Каждый массив хранит PC с количеством отсчетов равным количеству отсчетов в половине буфера 1 (т.е. в массиве 1 .А или 1 .Б). При добавлении нового массива в буфер 2, он помещается в конец очереди, извлечение массивов для обработки производится последовательно с начала очереди. Необходимость в буфере 2 вызвана тем, что процесс обработки и распознавания PC может занять продолжительное (по машинным меркам) время - порядка 10-80 мс. Использование буфера 2 гарантирует, что полученные в течение этого времени отсчеты ЦС с АЦП не будут потеряны. 3) Конфигурация КРИ представляет собой структуру данных в памяти, хранящую набор параметров алгоритмов, входящих в состав КРИ (например, размер окна поиска пика мощности спектра, нижняя и верхняя границы поиска, вид критерия аппроксимации) и необходимых для функционирования КРИ параметров настройки аппаратного обеспечения ЭВМ (таких, как частота дискретизации сигнала, размер буфера для записи сигнала АЦП). Полный список параметров конфигурации КРИ приведен в таблице Д. 1 приложения Д. При инициализации библиотеки параметры конфигурации считываются из внешнего файла в структуру данных и используются в процессе функционирования библиотеки.

Похожие диссертации на Структурно-аппроксимационные методы распознавания речевых образов и их применение в тренажно-моделирующих системах