Построение математического обеспечения систем распознавания речи на основе нелинейных методов сравнения образов Туркин Виктор Николаевич

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Туркин Виктор Николаевич. Построение математического обеспечения систем распознавания речи на основе нелинейных методов сравнения образов : ил РГБ ОД 61:85-5/4708

Содержание к диссертации

Введение

ГЛАВА I. Системы распознавания речевых образов и их применение 12

1.1. Системы распознавания изолированных речевых команд 13

1.2. Системы автоматического распознавания слитной речи 35

1.3. Проблемы использования автоматического речевого ввода в системах диспетчерского управления 39

1.3.1. Использование речевых интерфейсов в системах управления воздушным движением и бортовых системах самолетов 39

1.3.2. Использование речевого управления в диспетчерском тренажере 43

1.3.3. Применение систем автоматического речевого взаимодействия в системах оперативного диспетчерского управления энергосистемами 47

Глава 2 Построение алгоритмов распознавания речевых образов на основе нелинейных методов сравнения 51

2.1. Постановка задачи распознавания дискретной речи 51

2.2. Алгоритм распознавания дискретной речи 55

2.3. Сравнительная оценка объемов вычисления мер сходства методами ДП и ГС 57

2.4. Построение алгоритма распознавания слитной речи с использованием метода градиентного спуска 6I

2.5. Построение алгоритмов обнаружения ключевых слов в потоке слитной речи ^3

2.6. Распознавание речевых образов с использованием ассоциативного кодирования признаков 70

Глава 3. Математическое обеспечение комплекса для исследования и проектирования систем распознавания речевых образов. Результаты экспериментов 75

3.1. Структура и математическое обеспечение комплекса для исследования и проектирования систем распознавания речи 78

3.1,1. Состав и функциональное назначение программных модулей комплекса 81

3.2. Экспериментальные исследования алгоритмов обработки речевых сигналов и вычисления мер сходства образов 37

3.2.1. Определение начала/конца образов 87

3.2.2. Исследование влияния сглаживания признаков на надежность распознавания 90

3.2.3. Исследование влияния компрессии речевых образов

на надежность распознавания 9^

3.2.4. Сравнение некоторых алгоритмов распознавания образов 96

3.2.5. Исследование различных вариантов нормировки признаков речевого сигнала 99

3.2.6. Исследование влияния выбора метрики в пространстве признаков на надежность распознавания -^

3.2.7. Исследование влияния понижения размерности пространства признаков методом главных компонент на надежность распознавания

3.2.8. Экспериментальное исследование алгоритмов распознавания с использованием ассоциативного кодирования признаков 10&

Глава 4. Практическая реализация систем распознавания речевых команд 109

4.1. Система распознавания дискретной речи 109

4.2. Экспершлентальная система распознавания слитной речи 116

4.2.1. Распознавание трехзначных чисел 117

4.2.2. Распознавание языка диспетчера АС УВД 123

4.3. Экспершлентальная система обнаружения ключевых слов в слитном потоке речи 127

Основные результаты и вьщщ 131

Список литературы

Проблемы использования автоматического речевого ввода в системах диспетчерского управления
Сравнительная оценка объемов вычисления мер сходства методами ДП и ГС
Состав и функциональное назначение программных модулей комплекса
Экспершлентальная система распознавания слитной речи

Проблемы использования автоматического речевого ввода в системах диспетчерского управления

Как показывает анализ литературы (J52-I60J, одним из наиболее распространенных на Западе применений систем автоматического речевого взаимодействия является сфера управления полетами самолетов. Это объясняется прежде всего следующим.

Системы управления воздушным движением являются сложными человеко-машинными системами, где к человеку, являющемуся основным звеном таких систем, предъявляются высокие требования по обеспечению безошибочной работы, В условиях все растущей плотности движения самолетов нагрузка на диспетчеров становится близкой к предельной, и поэтому в настоящее время критерием проектирования средств УВД является уменьшение нагрузки на диспетчера в результате автоматизации тех процессов, которые эту нагрузку обуславливают [46, 47] . Речевое общение с ЭВМ уменьшает нагрузку на диспетчера - [44-47,50] в то же время позволяет повысить надежность деятельности диспетчера за счет того, что ему нет необходимости отвлекать взгляд от слежения за объектом управления-летательным аппаратом (ЛА), Исследованиями показано также, что при подаче команд голосом оператор обычно делает значительно меньше ошибок, чем при использовании ручного командного управления с помощью кнопок и клавишей [ібі] ,

Основными доводами использования систем распознавания и синтеза речи в УВД являются следующие: - увеличение пропускной способности диспетчера; - большая скорость ввода; - большая надежность ввода; - меньшая утомляемость оператора за счет отсутствия "ручной" перекодировки информации; - отсутствие необходимости предварительного обучения диспетчера функциям оператора ЭВМ; - большая оперативность управления; - отсутствие ограничений на условия освещения; - возможность синтаксического и семантического контроля переда-ваемых на борт сообщений; - снижение нагрузки на диспетчера за счет передачи на борт синтезируемой стандартной информации; - возможность объективного контроля физиологического состояния диспетчера и пилота по анализу радиообмена; - возможность разгрузки зрительного канала восприятия; - возможность получения прямого доступа к ЭВМ, территориально удаленным пользователем с помощью обычного телефонного аппарата; - значительное сокращение стоимости и сроков обучения, с одновременным улучшением качества обучения, при использовании автоматического речевого ввода-вывода в диспетчерских тренажерах.

С 1973 года по заказу САА (Управление гражданской авиации Великобритании) отделение эргономики и прикладной психологии университета flsbot- a. было привлечено к исследованиям по проблеме уменьшения нагрузки на диспетчеров УВД. Конечной целью в совместимости человек-машина в службе УВД, существенно облегчающей работу диспетчера, признана говорящая и слушающая ЭВМ [162] .

В Национальном экспериментальном центре авиационной техники (Атлантик-сити, штат Нью-Джерси) Федерального управления гражданской авиации разрабатываются методы ввода информации в вычислительные системы в речевой форме 1бз] . В центрах с интенсивным воздушным движением оператор вводит большую массу данных через клавиатуру. В среднем каждые 5 с. ему приходится нажимать одну из клавиш. Ввод информации в речевой форме снижает отвлечение внимания операторов от экранов радиолокационных индикаторов и облегчает ввод информации,

Сравнительная оценка объемов вычисления мер сходства методами ДП и ГС

Оценим объем вычислений, необходимый для распознавания дискретной речи методом ДП.

Цри вычислении меры сходства из соотношения (I.I6) основные вычислительные затраты связаны с вычислением метрики (х }в[) Так, при средней длительности эталонов и образов L и объеме словаря эталонов Р в процессе однократного распознавания не-обходимо вычислять метрику U Р раз. При 1-{оО} Р=ноо потребу-ется вычислить метрику 10 раз. Очевидно, что такую задачу на ЭВМ среднего класса в реальном масштабе времени решить невозможно. Поэтому для сокращения объема вычислений применяют различные окна, т.е. накладывают на фазовые траектории дополнительные граничные условия с 00 я (2-2« где Q - область, в которой осуществляется оптимизация, являющаяся лишь частью фазового пространства ). Кроме сокращения объемов вычислений, ограничения (2,24) отражают природу задачи, так как при этом не рассматриваются многие явно недопустимые варианты деформаций временных осей образов.

Наиболее часто применяемыми окнами являются окна, приведенные на рис.2.1. Введем . - коэффициент оокращения количества вычислений метрики за счет ограничения (2,24), Тогда для окон Qt)fJjQb (рис.2.1) он будет равен соответственно 0,5, 0.41, 0.33.

Следующим возможным методом сокращения количества вычислений является частичное отсеивание конкурирующих по результатам вычисления меры сходства на некотором начальном участке эталонов. Так как вычисление меры сходства осуществляется по слоям, го в (j, -ом слое в качестве предварительной оценки меры сходства можно взять

Тогда на основе некоторого критерия, например, % ъ Д„ где &о - экспериментально подобранный порог, можно отсеять часть эталонов, либо просто оставить только определенное количество конкурентов с минимальными оценками сходства. Если ввести 8 средний коэффициент сокращения числа конкурирующих эталонов в процессе однократного распознавания и у - коэффициент сокращения за счет неполного сравнения эталонов с образом, то количество вычислений метрики составит R oL(r+p-p d}P (2.26) Так при = 1/3 -.//3 f »/я j /,=100, Р=лоо в .процессе однократного вычисления мер сходства эталонов с образом необходимо вычислить метрику 2.2х105 раз.

Отсюда следует, что несмотря на сокращение объема вычислений почти на порядокІ по сравнению с первоначальным вариантом, решение задачи распознавания речи методом ДП в реальном времени является сложной проблемой. Особенно сложно использовать метрики в пространстве признаков, требующие сложных арифметических операций (деления,умножения), таких, как, например, метрика Маха-лонобиса или Итакуры. Поэтому в реальных системах в настоящее время используют простейшие метрики, зачастую неадэкватные измеряемым признакам сигнала, либо стремятся упростить систему признаков (например, бинарные признаки типа знака производной по времени и частоте от спектра), с тем, чтобы воспользоваться метрикой Хемминга, что приводит к потерям в надежности распознавания.

Оценим объем вычислений, необходимых для распознавания на основе алгоритма (2.21). Если при вычислении =1(г ) гкможет принимать «- значений, то количество вычислений метрики в процессе однократного распознавания в соответствии с формулой (2.26) будет

Таким образом, метод градиентного спуска требует почти в 50 раз меньше вычислений, по сравнению с методом ДП. В то же время использование рассмотренного алгоритма не гарантирует нахождения глобального экстремума упрощения функционала [І8), так как известно, что метод градиентного спуска оказывается чувст-вительным к локальным экстремумам. Экспериментальные исследования показали, что на качество распознавания оказывают влияние случайные скачки акустических параметров, связанные с нестабильностью работы устройства предварительной обработки речевого

- 61 сигнала, а также точность определения начала и конца образов. Это объясняется тем, что при неправильном определении начала и конца образов или наличии случайных выбросов параметров существует большая вероятность отклонения от оптимальной фазовой траектории, что может приводить к завышенным оценкам сходства и, соответственно, к ошибкам распознавания. В последующих главах будут рассмотрены возможные методы устранения перечисленных недостатков метода ГС.

Состав и функциональное назначение программных модулей комплекса

Весь комплекс программ можно разбить по функциональному назначению на группы модулей: - модули, задающие конфигурацию комплекса программ, для исполнения некоторого требуемого набора функций; - модули обслуживания наборов данных на дисках и модули ввода/вывода данных на внешние устройства (АЦПУ, дисплей и пр.); - модули ввода речевых образов с устройств предварительной обработки сигнала; - модули обработки речевых сигналов; - модули вычисления оценок сходства образов с помощью различных алгоритмов; - модули распознавания; - модули автоматической обработки данных экспериментов.

Модули, задающие конфигурацию системы (монитор), предоставляют пользователю два основных режима: режим создания каталогов данных на магнитном диске и режим проведения экспериментов.

В режиме создания каталогов пользователь задает номера устройств ввода речевых образов, имена каталогов на магнитных дисках, идентификаторы диктора, номера версий и идентификаторы образов и т.п. Речевые образы при этом вводятся и записываются на внешний накопитель без какой-либо обработки.

Режим проведения экспериментов позволяет осуществить об работку как образов, находящихся в каталогах, так и образов в режиме ввода в реальном времени, либо в совместном режиме. Кроме того, перед началом проведения экспериментов пользователь, в режиме диалога указывает необходимую конфигурацию исполняющих программ.

Модули предварительной обработки речевых сигналов исполняют следующие функции: - нормировку признаков; - определение начала и конца образов; - компрессию речевых сигналов; - сокращение размерности пространства признаков в соответствии с заданными требованиями.

При нормировке признаков преследуются две основные цели: - приведение признаков к единому масштабу измерений, т.е. переход к безразмерным параметрам; - согласование необходимой точности измерений и разрядности представления чисел в ЭВМ.

В настоящее время в адаптивных системах распознавания, построенных с использованием алгоритмов нелинейного сравнения образов, основанных на количественных оценках сходства, предпочитают использовать однородные признаки, такие, как значения энергии на выходе гребенки фильтров, бинарные признаки, отражающие изменение формы спектра. Такие признаки не требуют выполнения первого типа нормировки. Напротив, признаки типа количества нулей сигнала в различных полосах спектра, используемые наряду со спектральными параметрами, неоднородны как по размерности, так и по диапазону изменения их численных значений. Такие признаки в основном используются в неадаптивных системах распознавания, основанных на эвристических алгоритмах, так как эти параметры менее зависимы от дикторских особенностей в силу способа их измерения. Для того, чтобы их использовать в системах распознавания, использующих количественные оценки сходства образов, их обязательно нужно нормировать. В настоящее время в составе МО имеются программы нормировки на собственные дисперсии каждого признака и на максимальные значения признаков на некоторой выборке, программы нормировки каждого вектора признаков к I.

Так как программы распознавания обычно используют только команды целочисленной арифметики, то нормировку удобно осуществлять путем умножения признаков на целочисленные коэффициенты. Такой способ нормировки открывает дополнительные удобства для исследования информативности используемого набора признаков, так как простое обнуление коэффициента исключает из рассмотрения соответствующий признак. На этом принципе построены программы исследования информативности наборов признаков, реализующие, в частности, алгоритмы исчерпывающего перебора комбинаций признаков, позволяющие выявить наиболее информативные комбинации признаков и понизить размерность исходного пространства признаков.

Важную роль в системах распознавания речи играет надежное определение начала и конца образов. Заметим, что какой бы метод определения начала/конца образов не применялся в системе, он обязательно основан на использовании некоторых пороговых значений каких-нибудь параметров. Поэтому в составе ПО имеются программы, позволяющие вычислять оптимальные пороги параметров определения начала/конца образов.

Экспершлентальная система распознавания слитной речи

Основой разработанной экспериментальной системы слитной речи являются те же технические средства, что и системы распознавания изолированных речевых команд. Более того, в состав программного обеспечения ее полностью входит базовое обеспечение, но, в ошнивот системы распознавания изолированных слов, проблемное ПО существенно сложнее и имеет более жесткую проблемную ориентацию.

Стратегия распознавания слитной речи обычно существенно зависит от проблемно-ориентированного языка задачи. Как было показано во второй главе, в отсутствии ограничений на порядок следования слов во фразах задача распознавания слитной речи становится практически неразрешимой. Такими ограничениями являются семантика языка рассматриваемой задачи, прагматика (если система распознавания должна следить за динамикой контекста) [40 - 42] и синтаксис с теми ограничениями, которые допускает предметная область и конкретное применение распознающей системы. В исполь зовании знаний высших уровней при распознавании слитной речи можно выделить две основных стратегии. Первая предусматривает управление процессом распознавания "сверху вниз", осуществляя выдвижение гипотез о возможных последовательностях лексических единиц, и требует оценки выдвигаемых гипотез на более низких уровнях, а по результатам оценки конкурирующих гипотез принимается решение по наилучшей оценке. Вторая, наоборот, предполагает оценку всех произвольных цепочек слов-эталонов на низших уровнях и осуществляет отсеивание недопустимых, с точки зрения высших уровней знаний,цепочек.

Задача распознавания многозначных чисел является довольно сложной и, в то же время, актуальной. До сих пор не существует практических систем, которые достаточно успешно решали бы ее. При построении систем распознавания слитной речи и систем ограниченного понимания речи практически всегда как часть общей задачи встает проблема распознавания чисел, которую приходится решать особым способом, либо требовать, чтобы числа произносились по одной цифре, так как неразумно на каждое из IOOO трехзначных чисел создавать отдельный эталон. В то же время любое число от 0 до 999 можно рассматривать как слитную фразу, составленную из одного, двух или трех слов (0,1,...,10,11,..., 20,...,90,100,...,900). Таким образом, для распознавания 1000 слов можно хранить всего 37 эталонов слов. Данный словарь накладывает достаточно жесткие ограничения на порядок следования слов во фразах, а именно, несмотря на то, что согласно (2.39) возможно 47989 комбинаций эталонов слов, допустимыми являются только 1000.

Все возможные варианты произнесения трехзначных чисел можно представить в виде синтаксического графа, показанного на рис.4.2. Сплошными линиями обозначены дуги, проход через которые порождает одно из 37 слов, дискретными - пустые дуги, не порождающие слов. Тогда любой проход по графу из истока в сток порождает одно из 1000 возможных чисел. В памяти ЭВМ граф представлен в виде списковой структуры, показанной на рис.4.3. В первой ячейке каждого поля указано количество дуг, выходящих из узла графа, а в каждой последующей паре ячеек - указатель на последующий узел графа и номер слова из словаря эталонов.

Структура экспериментальной системы распознавания слитной речи представлена на рис.4.4. Процесс распознавания начинается с выдвижения гипотез блоком выдвижения гипотез."Гипотезатор" обращается к графу представления синтаксиса и проверяет, является ли очередной узел графа конечным, если нет, то осуществляется выборка количества продолжений (дуг) в данном узле, а затем начинается проверка гипотез возможных эталонов слов, соответствующих выходящим из узла дугам. Цри этом выбирается адрес текущего вектора признаков образа и начинается вычисление оценки сходства текущего эталона с частью входного образа.в соответствии с алгоритмом (2.32 - 2.38) и уравнениями 6 таблицы 3.1. Заметим, что при этом решается задача со свободным вторым концом, в то время как левый конец считается закрепленным. На основании вычисленной оценки сходства принимается "локальная" гипотеза о том, что очередной допустимый эталон является частью входного образа, а в каталог локальных гипотез заносится оценка меры сходства, номер эталона и номер вектора образа, соответствующий предполагаемому концу эталона. После этого проводится анализ возможности принятия "глобальной" гипотезы о том, что текущий эталон является последним во входной фразе.

Построение математического обеспечения систем распознавания речи на основе нелинейных методов сравнения образов Туркин Виктор Николаевич

Проблемы использования автоматического речевого ввода в системах диспетчерского управления

Сравнительная оценка объемов вычисления мер сходства методами ДП и ГС

Состав и функциональное назначение программных модулей комплекса

Экспершлентальная система распознавания слитной речи

Похожие диссертации на Построение математического обеспечения систем распознавания речи на основе нелинейных методов сравнения образов