Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Методы, алгоритмы и устройства распознавания речи в ассоциативной осцилляторной среде Парамонов Павел Александрович

Методы, алгоритмы и устройства распознавания речи в ассоциативной осцилляторной среде
<
Методы, алгоритмы и устройства распознавания речи в ассоциативной осцилляторной среде Методы, алгоритмы и устройства распознавания речи в ассоциативной осцилляторной среде Методы, алгоритмы и устройства распознавания речи в ассоциативной осцилляторной среде Методы, алгоритмы и устройства распознавания речи в ассоциативной осцилляторной среде Методы, алгоритмы и устройства распознавания речи в ассоциативной осцилляторной среде Методы, алгоритмы и устройства распознавания речи в ассоциативной осцилляторной среде Методы, алгоритмы и устройства распознавания речи в ассоциативной осцилляторной среде Методы, алгоритмы и устройства распознавания речи в ассоциативной осцилляторной среде Методы, алгоритмы и устройства распознавания речи в ассоциативной осцилляторной среде Методы, алгоритмы и устройства распознавания речи в ассоциативной осцилляторной среде Методы, алгоритмы и устройства распознавания речи в ассоциативной осцилляторной среде Методы, алгоритмы и устройства распознавания речи в ассоциативной осцилляторной среде
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Парамонов Павел Александрович. Методы, алгоритмы и устройства распознавания речи в ассоциативной осцилляторной среде: диссертация ... кандидата технических наук: 05.13.05 / Парамонов Павел Александрович;[Место защиты: Московский энергетический институт].- Москва, 2014.- 139 с.

Содержание к диссертации

Введение

Глава 1 Обзор методов распознавания речи и ассоциативных сред 13

1.1. Речевой сигнал и его описание. 13

1.2. Общая структура системы автоматического распознавания речи 17

1.2.1. Построение блока выделения признаков. Выбор метода выделения признаков 18

1.2.2. Способы построения блока распознавания. Выбор метода распознавания 22

1.3. Выбор типа ассоциативной среды для реализации блока

распознавания речи 27

Выводы 30

Глава 2 Предварительная обработка речевого сигнала 31

2.1. Нормализация входного сигнала 31

2.2. Выделение участков с речью 33

2.2.1. Нахождение кратковременной энергии и частоты проходов через ноль. 33

2.2.2. Метод выделения участков с речью на основе распределения локальных экстремумов 35

2.3. Выделение признаков речевого сигнала 42

2.3.1. Акустическая модель образования речи 42

2.3.2. Мел-кепстральные коэффициенты 43

2.4. Векторное квантование 48

Выводы 52

Глава 3 Методы распознавания речи в ассоциативной осцилляторной среде 54

3.1. Метод скрытых марковских моделей в распознавании речи 54

3.2. Разработка блока распознавания на элементах ассоциативной осцилляторной среды 62

3.3. Модификация алгоритма распознавания и разработка реализации на элементах ассоциативной осцилляторной среды 73

3.4. Метод распознавания без учета порядка следования звуков в речи 78

Выводы 81

Глава 4 Моделирование распознавания речи в ассоциативной осцилляторной среде. Оценка результатов 83

4.1. Описание программного комплекса 83

4.2. Формирование экспериментальной речевой базы 90

4.3. Моделирование распознавания русских слов и оценка результатов 96

Выводы 102

Глава 5 Аппаратная реализация блока распознавания речи на ПЛИС 104

5.1. Аппаратная реализация метода распознавания без учета порядка звуков 104

5.2. Обзор типов программируемых пользователем микросхем. 116

5.3. Упаковка разработанной аппаратной реализации в ПЛИС. Анализ аппаратных затрат и выбор ПЛИС для аппаратной реализации блока распознавания 119

Выводы 120

Заключение 121

Список литературы 123

Построение блока выделения признаков. Выбор метода выделения признаков

Вопросы человеко-машинного взаимодействия являются одними из важнейших при создании новых компьютеров. Наиболее эффективными средствами взаимодействия человека с машиной были бы те, которые являются естественными для него: через визуальные образы и речь. Создание речевых интерфейсов могло бы найти применение в системах самого различного назначения [1]: голосовое управление для людей с ограниченными возможностями, надежное управление боевыми машинами, «понимающими» только голос командира, автоответчики, обрабатывающие в автоматическом режиме сотни тысяч звонков в сутки (например, в системе продажи авиабилетов) и т.д. При этом, речевой интерфейс должен включать в себя два компонента: систему автоматического распознавания речи для приема речевого сигнала и преобразования его в текст или команду, и систему синтеза речи, выполняющего противоположную функцию – конвертацию сообщения от машины в речь.

Однако, не смотря на стремительно возрастающие вычислительные мощности, создание систем распознавания речи остается чрезвычайно сложной проблемой. Это обуславливается как ее междисциплинарным характером (необходимо обладать знаниями в филологии, лингвистике, цифровой обработке сигналов, акустике, статистике, распознавании образов и т.д.), так и высокой вычислительной сложностью разработанных алгоритмов. Последнее накладывает существенные ограничения на системы автоматического распознавания речи – на объем обрабатываемого словаря, скорость получения ответа и его точность. Нельзя также не упомянуть о том, что возможности дальнейшего увеличения быстродействия ЭВМ за счет совершенствования интегральной технологии рано или поздно будут исчерпаны, а все возрастающая разница между быстродействиями памяти и процессора только усугубляет проблему. Существуют области применения систем автоматического распознавания речи, где описанные проблемы проявляются особенно остро из-за жестко ограниченных вычислительных ресурсов, например, на мобильных устройствах [2]. Производители мобильных телефонов и планшетов нашли выход в переносе ресурсоемких вычислений с устройств пользователей на серверы в облаке, где, фактически, и производится распознавание. Пользовательское приложение только отправляет туда речевые запросы и принимает ответы, используя подключение к интернету. По этой схеме успешно работают системы Siri от Apple и Google Voice Search от Google [3, 4]. Однако, для такой реализация необходимы определенные условия, например, непрерывный доступ к интернету, которые в ряде случаев недостижимы, и требуется создать компактное и надежное самостоятельное устройство, эксплуатирующее только доступные «на месте» вычислительные мощности. Описанные трудности возникают при создании интеллектуальных устройств как в военной сфере, так и в гражданской. Примером таких устройств может служить робот REX, разработанный израильским концерном Israel Aerospace Industries [5]. REX предназначен для транспортировки боеприпасов, продуктов питания и другой амуниции, что позволяет разгрузить солдата. При этом робот способен следовать за ведущим его человеком, а управляется он полностью голосовыми командами. Другим примером активного использования технологий распознавания речи в боевых комплексах является внедрение модулей голосового управления (или прямого голосового ввода – Direct Voice Control) в кокпиты современных истребителей, таких, как Eurofighter Typhoon1, Dassault Rafale2, JAS 39 Gripen [6]. Это позволило значительно разгрузить пилота для того, чтобы он мог сосредоточиться только на выполнении задания. В невоенной сфере распознавание речи широко внедряется в автомобилестроении (например, BMW, Ford), когда часть функционала машины, для которого content/blogs.dir/1/files/2012/08/Fox_Three_nr_1.pdf ошибка распознавания не приведет к аварийным ситуациям (климат-контроль, навигация, мультимедиа и проч.), контролируется с помощью голоса 3 . Как и в случае применения голосового управления в военных самолетах, эта технология дала возможность снять часть нагрузки с водителя, чтобы он мог сосредоточить внимание только на дороге. Наконец, необходимо отметить актуальность реализации речевого интерфейса для людей с ограниченными физическими возможностями, например, в инвалидных креслах [7].

Все описанные выше примеры объединяет необходимость создания компактного, надежного, самостоятельного и максимально быстродействующего устройства. Над решением обозначенной задачи работает множество специалистов. Можно выделить следующие направления исследований и разработок в области повышения быстродействия и реализации самостоятельных модулей распознавания речи:

1. Внедрение аппаратной поддержки алгоритмов предварительной обработки и выделения признаков (например, реализация в ПЛИС блока нахождения мел-кепстральных коэффициентов) [8, 9];

2. Аппаратная реализация алгоритмов распознавания. Последнее направление представлено множеством работ. При этом заметна общая тенденция в разработках аппаратных реализаций блока распознавания: во-первых, в качестве микросхем используются программируемая пользователем логика (ПЛИС) из-за их доступности и универсальности, во-вторых, все они сфокусированы на введении аппаратной поддержки алгоритмов скрытых марковских моделей – алгоритма прямого хода и алгоритма Витерби. В качестве предпосылки для этого указывается высокая вычислительная сложность обозначенных алгоритмов. Для решения этой проблемы в [10] предлагается построение систолической матрицы для выполнения вычислений по алгоритмам прямого хода и Витерби; разработанная структура описана на языке VHDL и размещена в ПЛИС 3 URL: http://www.bmw.com/com/en/insights/technology/technology_guide/articles/voice_control_system.html фирмы Xilinx. В [11] рассмотрена аппаратная поддержка алгоритма Витерби для решения задачи обнаружения и сопровождения движущихся объектов. Предложен вычислительный элемент (в терминологии авторов – «узел СММ») для нахождения значения частичной вероятности по Витерби для каждого состояния на каждом временном шаге. В [12] предложено введение аппаратной поддержки для вычисления гауссиана в непрерывной СММ, входящей в комплекс распознавания слитной речи. Реализация в ПЛИС фирмы Xilinx позволила выполнять распознавания в режиме реального времени. Другие варианты добавления аппаратной поддержки и применения для этого ПЛИС можно найти в [13, 14, 15, 16, 17]. Однако во всех разработанных на сегодняшний день решениях используются традиционные способы реализации арифметики с плавающей точкой, что влечет существенные аппаратные затраты и накладывает ограничения на быстродействие

Метод выделения участков с речью на основе распределения локальных экстремумов

Речь - это исторически сложившаяся форма общения людей посредством языковых конструкций, создаваемых на основе определенных правил [22, 23]. Если в качестве проводящей среды для передачи информации (общения) используется воздух, то получается устная речь -звуковое колебание, которое характеризуется частотой и амплитудой. Речь является носителем информации, используемый человеком для передачи сообщений - сигналом. По физической природе это акустический сигнал, непрерывно изменяющийся во времени. Желая подчеркнуть природу этого сигнала и отличить его от сигналов других типов, в технической литературе речь называют речевым сигналом. Далее термины «речь», «речевой сигнал» и «устная речь» будут употребляться как синонимы, за исключением случаев, когда нужно будет выделить смысл отдельного термина.

Большинство сигналов (речевых в том числе) имеют аналоговую природу, поэтому для обработки их на цифровых компьютерах они преобразовываются в дискретные сигналы посредством аналого-цифрового преобразования (АЦП). С помощью этой процедуры получают набор отсчетов s [п] - снятых в моменты At п мгновенных значений непрерывного сигнала, которые уже лишены физической природы, а их максимальное и минимальное значение задается разрядностью АЦП. Например, если разрядность АЦП равна 2 байтам, то все значения в отсчетах укладываются в промежуток 216-1,216-1 -1 При этом важнейшим параметром преобразования является частота дискретизации, определяющая, сколько мгновенных значений непрерывного сигнала (отсчетов) будет сохранено за одну секунду. Частота дискретизации - величина, обратная шагу дискретизации At. По теореме Котельникова, из дискретного сигнала можно восстановить без потерь только такой аналоговый сигнал, верхняя частота fh спектра которого вдвое меньше частоты дискретизации fs: Л 2-Д. (1.1)

ДПФ позволяет перейти из временной области в частотную, т.е. разложить s [п на набор гармоник и найти зависимость амплитуды (энергии) гармоники от ее частоты. На рисунке 1 представлен участок речевого сигнала с гласным звуком «а» во временной области. При этом для того, чтобы абстрагироваться от разрядности АЦП, отсчеты оцифрованного сигнала принято изображать в относительных величинах: либо в долях от максимального значения (для 2 байт это БЩ216-1), либо в децибелах. В данной работе используется первый способ представления. Для нахождения ДПФ был выделен участок размером N=1024 отсчета; результат представлен на рисунке 2. При этом по горизонтали откладывается частота гармоник, а по вертикали - S[m , что является амплитудой гармоники. 53

Рис. 1. Участок речи с гласным звуком «а». Речь является нестационарным сигналом, т.е. его характеристики изменяются во времени. Можно наглядно изобразить эти изменения, построив графики модулей ДПФ для идущих подряд фрагментов (фреймов) речевого сигнала. Получившееся изображение называется спектрограммой (рисунок 3.б). На рисунках 2 и 3 видно, что наибольшее количество энергии несут частоты до 8 КГц. Поэтому при оцифровке речевого сигнала типичным выбором частоты дискретизации является 16 КГц. Рис. 2. ДПФ для участка речевого сигнала с гласным звуком «а».

Осциллограмма слова «Вперед» и его спектрограмма. Как слова в письменной речи образуются из конечного набора символов – алфавита языка, так и устная речь при всей ее вариативности включает в себя ограниченный набор звуковых «букв». Минимальной смыслоразличимой единицей речи является фонема [22, 23, 25]. В русском языке 42 фонемы, из которых 6 гласных и 36 согласных. Дальнейшей единой классификации фонем, к сожалению, не существует, поэтому на рисунке 4 приведен один из совмещенных вариантов, содержащий пересекающиеся классы, например, звонкие (voiced) и фрикативные, глухие (unvoiced) и выделяют три этапа: выделение признаков, обучение и распознавание (рис. 5). На первом этапе из исходного сигнала получают вектор признаков – сжатое описанию речевого сигнала, в котором присутствует только значащая для распознавания информация. Для этого используются методы, работающие как в частотной области (мел-кепстральные коэффициенты, коэффициенты линейного предсказания), так и во временной (например, на кратковременном значении энергии), при этом проблема представления речи не решена до конца и исследования ведутся в том числе и авторами данной работы [27, 28]. Последовательность векторов признаков длиной T называют акустической или наблюдаемой последовательностью = (1,2,…,). С помощью этой последовательности человек передает цепочку слов = (1,2,…,) . Сама задача распознавания речи ставится следующим образом: необходимо отыскать цепочку слов , которая соответствует акустической последовательности [26, 29, 30]. Рис. 5. Общая схема системы автоматического распознавания речи. Для решения этой задачи на этапе обучения составляется модель Я, которая способна порождать все возможные последовательности О для всех возможных W. Пусть функция h(W,X) возвращает все возможные О только для заданной W Тогда распознаванием будет нахождение такой цепочки слов W , которая, согласно модели Я , породит акустическую последовательность, наиболее близкую к рассматриваемой О

Задача блока выделения признаков - составить цепочку векторов признаков О = (р1,о2, ...,0?). исходного сигнала. Как было отмечено выше, речь - нестационарный сигнал. Однако, из-за инертности речевого тракта в пределах достаточно короткого промежутка времени от 10 до 40 мс его характеристики не меняются, т.е. его можно считать стационарным [29, 30, 34, 35]. Поэтому блок выделения признаков сканирует входной сигнал кратковременным скользящим окном, в пределах которого и составляется один вектор признаков (рис. 6). Эти окна могут пересекаться.

Модификация алгоритма распознавания и разработка реализации на элементах ассоциативной осцилляторной среды

Марковский процесс, описанный выше, можно назвать наблюдаемым, поскольку его последовательность состояний = 1, 2, …, , фактически, эквивалентна выходной последовательности (точнее каждое состояние сопоставлено с точно определяемым наблюдаемым событием). Эту модель можно усложнить, разделив состояния и наблюдаемые события таким образом, что появление события в каждом состоянии также будет носить вероятностный характер. Получится двойной стохастический процесс со скрытым слоем – случайной последовательностью состояний, и внешним слоем наблюдаемых случайных выходных значений. Такая модель называется скрытой марковской моделью (СММ). Говорят, что СММ порождает или излучает наблюдаемую последовательность. Пример СММ с двумя состояниями и двумя наблюдаемыми значениями изображен на рисунке 25.

Для СММ, помимо множества состояний / , необходимо ввести конечное множество наблюдаемых значений С (алфавит). В процессе работы СММ излучает цепочку наблюдаемых значений О = о1,о2, ...,от, ot Є С. Таким образом, дискретная скрытая марковская модель определяется с помощью:

Применение СММ в распознавании речи основано на построении стохастических моделей фонем, слов и целых фраз. Выбор конкретного языкового объекта зависит от задач, которые должна решать разрабатываемая система распознавания речи. Роль наблюдаемой последовательности исполняет цепочка векторов признаков. Если вектор признаков представляет собой непрерывную величину (например, набор мел-кепстральных коэффициентов), то для ее моделирования используется смесь гауссовых плотностей вероятности. В данной работе полученные мел-кепстральные коэффициенты квантуются, что позволяет применять дискретные одномерные bt(ck).

Можно выделить следующие подходы к составлению СММ (они могут как быть взаимоисключающими, так и взаимодополняющими) [26, 29, 46]: количество состояний СММ соответствует числу фонем в моделируем слове (слоге, фразе и т.п.) либо среднему числу наблюдений в реализации моделируемого слова (слога, фразы); фонемы моделируются с помощью трех состояний - начального, среднего и конечного (рис. 26). Это связано с тем, что речевой тракт не может менять свои характеристики мгновенно и при переходе от фонеме к фонеме происходит его «переключение» через промежуточные состояния; известно, что фонемы звучат по-разному в окружении разных фонем. Этот эффект называется коартикуляцией. В зависимости от того, будет ли учитываться или игнорироваться это явление, существует два типа моделей фонем: монофоны - коартикуляция игнорируется, составляются модели отдельно стоящих фонем. Этот подход имеет огромный плюс: фонем в языке совсем немного (например, 42 в русском языке), и из них можно составить любые слова, так что распознавание будет сводится к определению цепочки произнесенных фонем, и словарь такой системы, фактически, неограничен. Есть, однако и большой минус: такая модель имеет низкую точность; трифоны - коартикуляция учитывается путем составления отдельных моделей для фонем в окружении других фонем. Рассмотрим слово «назад»: используя Международный Фонетический Алфавит6, его можно описать как "n-a-z-a". Здесь фонема /а/ встречается дважды, но из-за коартикуляции для нее потребуется составить две отдельные модели: "n-a+z" и "z-a+t". Это гораздо более сложный подход, но и точность распознавания у него выше, чем при использовании монофонов; оставляют отдельные СММ для каждого слова из словаря и при распознавании выбирают «наиболее подходящую». Такой подход подойдет для распознавания отдельно стоящих слов. составляют одну СММ, склеивая СММ для слов через промежуточные состояния (например, тишину), согласно грамматике языка. Это необходимо для распознавания слитной речи. URL: http://ru.wikipedia.org/wiki/Международный_фонетический_алфавит Для применения скрытых марковских моделей в распознавании речи необходимо решить следующие три задачи [30, 46]: 1. Задача оценки - дана модель Я и выходная последовательность О. Найти вероятность Р(0Я), то есть определить вероятность того, что модель Я сгенерировала последовательность О. 2. Задача декодирования - дана модель Я и выходная последовательность О. Найти наиболее вероятную последовательность состояний Q, которая могла породить О. 3. Задача обучения - дана модель Л и обучающая последовательность О Подобрать параметры модели Я таким образом, чтобы максимизировать вероятность Р(0Я). Применение СММ для распознавания изолированных слов основывается на вычислении функции прямого распространения вероятности at(j, которая определяется как вероятность наблюдения последовательности @t — (i 2 — t), находясь в состоянии у в момент времени t на модели

Видно, что вычисление at(j происходит рекурсивно. Для повышения эффективности рекурсию можно преобразовать в цикл (рис. 27). Дойдя до конца наблюдаемой последовательности, т.е. до t = Т, нужно сложить aT(j для всех состояний, получив вероятность наблюдения последовательности О = (о1( о2,..., от) для данной СММ Я: m Р(0Х) = aTj (3.9) 7=1 Рис. 27. Блок-схема алгоритма прямого хода. Этой вероятностью можно воспользоваться при распознавании изолированных слов: каждое слово моделируется СММ Хк , а при распознавании слова необходимо выбрать ту СММ, которая с наибольшей вероятностью способна породить наблюдаемую последовательности О: w = argmaxP(0Afc) (3 10) к . При обучении СММ необходимо оценить ее параметры Я = А, В, и) так, чтобы максимизировать вероятность наблюдения обучающей последовательности Р(0\Х). Для этого необходимо решить две задачи: инициализация - выбор начальных значений всех параметров модели Я = (А,В,п); обновление параметров модели - найти новые параметры модели Я = Л,Я,тг так, что Р{0\1) Р{0\Х). В данной работе в качестве начальных значений используется среднее число появлений символа ст в обучающей выборке. Переоценка параметров СММ выполняется по алгоритму Баума-Велша [30, 46]. Для решения задачи декодирования используется алгоритм Витерби [30, 46], который работает так же, как алгоритм прямого хода, только вместо накопления вероятности прямого распространения ati , движутся по максимуму: Vt(j) = тах _!(0 atj b;(ot) (3.11) Когда будет достигнуто последнее наблюдаемое значение в цепочке, восстанавливается вся последовательность состояний, начиная с конца. Как было указано в первой главе, аппарат скрытых марковских моделей был выбран для реализации блока распознавания. Главным алгоритмом в этом подходе является алгоритм прямого хода. Далее будет описана его реализация на элементах ассоциативной осцилляторной среде.

Моделирование распознавания русских слов и оценка результатов

При разработке систем распознавания очень важную роль играет экспериментальный материал, на котором проверяются и исследуются предложенные идеи. В области распознавания речи этот материал называется речевым корпусом (speech corpus) или речевой базой. Примерами таких корпусов для английского языка являются базы TIMIT и ATIS [29, 66]. Среди русских баз стоит отметить БОКР10.

Хотя корпуса устной речи впервые стали создавать для проведения фонетических исследований языка, широкая потребность в них возникла в значительной степени благодаря разработкам в области автоматического распознавания речи. К сожалению, не существует универсальных речевых баз, которые подошли бы для любой задачи в области распознавания речи или фонетических исследований. Структура и состав речевого корпуса определяются задачами, которые ставятся перед системой распознавания, использующей этот корпус. Примером диаметрально противоположных по назначению САРР могут служить системы с автоматической верификацией диктора и дикторонезависимые системы распознавания [67]. Первые предполагают жесткую привязку к акустическим параметрам речи

URL: http://bokrcorpora.narod.ru/index.html конкретных дикторов, поэтому речевой корпус для такой системы обычно содержит многократное произнесение фраз небольшим количеством целевых дикторов (не более 100). Для систем второго типа лучше подходят корпусы, содержащие однократное произнесение фраз и текстов большим количеством дикторов [29, 66]. Помимо состава дикторов, круг решаемых САРР задач определяет вид и речевого объекта. В речевом корпусе для систем голосового управления целесообразно собрать множество примеров произнесения заявленных для распознавания команд. В корпусах, предназначенных для систем распознавания слитной речи, репрезентативность звуков языка должна быть максимально возможной, поэтому в них, как правило, представлены тексты различного характера, например, зачитанные отрывки из художественной литературы. Учитывая, что создание речевого корпуса требует значительных финансовых и трудовых затрат, требуется предварительная тщательная проработка всех связанных с этим вопросов.

Как указано в [66], при создании речевого корпуса необходимо решить четыре группы вопросов: технические, содержательные, структурные и инструментальные (исполнительские). Технические вопросы связаны с выбором программно-аппаратных средств записи речевого материала, а также с организацией необходимых условий записи, например, исключение фонового шума. Содержательные вопросы касаются состава речевой базы [29, 66]: 1. Выбор дикторов (количество, пол, возраст, диалектные различия и т.д.); 2. Подбор текстового материала (специализированный/репрезентативный, тип произносимых речевых образцов (слова, отдельные предложения, тексты, образцы спонтанной речи), фонетически сбалансированный/ не сбалансированный, тип балансировки, статистическая представительность звуковых единиц и т.п.); 3. Распределение текстового материала по дикторам, включая количество подходов для каждого диктора; 4. Распределение речевого материала на тренировочную и тестовую части; 5. Выбор типов информации, ассоциированной с каждым звуковым файлом (орфографическая запись, фонемная запись / фонетическая транскрипция реального произнесения, акустико-фонетическая разметка звукового сигнала, прочие типы аннотаций и комментариев).

Структурные вопросы определяют способ организации информации, содержащейся в корпусе (структура директорий и файлов, создание протоколов и т.д.). К инструментальным относятся вопросы, возникающие в связи с автоматизацией и стандартизацией разных этапов создания речевого корпуса. Необходимо предусмотреть инструменты, облегчающие процессы транскрибирования и структурирования записанного материала, которые, как правило, невозможно полностью автоматизировать. Для этого создают специальные программы, работающие по методу суфлера (prompt-method) [66], который позволяет непосредственно в процессе записи создавать звуковые файлы, соответствующие отдельным объектам речевого корпуса.

Как было отмечено выше, структуру и состав речевой базы определят круг задач, решаемый разрабатываемой системой распознавания речи. В данной работе при разработке САРР стояла задача исследовать предложенные методы распознавания речи и их реализации в АОС. Это исследование можно провести на решении задачи распознавания голосовых команд. При такой специализации разрабатываемого программного комплекса достигаются две цели. Во-первых, устройство распознавание голосовых команд – центральный компонент системы голосового управления, актуальность разработки которой обозначена во введении данной работы. Во-вторых, расширение задачи до распознавания слитной и спонтанной речи привело бы к неоправданному усложнению программного комплекса, вызванному необходимостью интеграции СММ с лингвистической и другими моделями языка. Также специализация на распознавании голосовых команд позволила опустить процедуру помечания и транскрибирования речи при создании базы.

Для проведения исследований в рамках выполнения диссертационной работы была составлена собственная речевая база. Это было необходимо по следующим причинам. Во-первых, вследствие специфики разрабатываемой САРР и задач, которые она решает, найти идеально подходящую по структуре и составу базу невозможно; наиболее распространены корпуса с высокой вариативностью звуков речи, что подошло бы для обучения и тестирования систем распознавания спонтанной речи. Во-вторых, бесплатных корпусов просто не существует. Наконец, для наглядности и устранения возможных лингвистических сложностей, наиболее предпочтителен был бы корпус именно русского языка.

Похожие диссертации на Методы, алгоритмы и устройства распознавания речи в ассоциативной осцилляторной среде