Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Исследование и разработка методов распознавания голосовых команд Гладышев Константин Константинович

Данная диссертационная работа должна поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Гладышев Константин Константинович. Исследование и разработка методов распознавания голосовых команд : автореферат дис. ... кандидата технических наук : 05.13.01 / Гладышев Константин Константинович; [Место защиты: С.-Петерб. гос. ун-т телекоммуникаций им. М.А. Бонч-Бруевича].- Санкт-Петербург, 2009.- 16 с.: ил. РГБ ОД, 9 09-6/1375

Введение к работе

Актуальность темы. В настоящее время по мере роста объемов информации компьютерная техника все больше и больше проникает в человеческую жизнь. Происходит совершенствование интерфейса человек-компьютер. Изобретаются новые способы отображения информации, модернизируются устройства ввода, продолжаются поиски такого интерфейса, который устроил бы всех. На эту роль сейчас претендует интерфейс речевой. Собственно говоря, это как раз то, к чему человечество всегда стремилось в общении с компьютером.

Работы в этом направлении велись еще в то время, когда о графическом интерфейсе никто даже и не помышлял. За сравнительно короткий период был выработан исчерпывающий теоретический базис, и практические достижения обуславливались только производительностью компьютерной техники. В 60-70х годах были созданы устройства, способные распознавать десяток речевых команд.

Существенный вклад в развитие систем распознавания речи (СРР) внесли советские и российские ученые В.Н. Трунин-Донской, Т.К. Винцюк, Н.Г. Загоруйко, Ю.А. Косарев, Л.Л. Мясников, зарубежные ученые Д.Д. Маркел, А.Х. Грей, Б. Гоулд, Г. Фант и др. Множество современных идей при создании систем распознавания речи взято из области цифровой обработки сигналов. Большой вклад в теоретическом и практическом планах внесли А.А, Пирогов, В.Н. Трунин-Донской, А.А. Ланнэ, Л. Рабинер, Р. Шафер, Д. Макхоул и др.

Современные разработки, как правило, основываются на бионической модели восприятия речи человеком. Такие системы являются иерархическими, детерминированными, с обучением и состоят из нескольких взаимосвязанных уровней. Выделяются акустическая (получение первичных признаков речевых сигналов) и лингвистическая (работа со словарями) составляющие.

Системы распознавания слитной речи строятся на базе вероятностных моделей грамматики языка. На словарях объемом до 5000 слов достоверность распознавания целых фраз составляет более 95%, что считается достаточным для обеспечения успешного речевого ввода текста на ПК.

Для задачи голосового управления различными устройствами необходимо распознавание отдельных речевых команд. Как правило, такой способ управления требует высокой надежности (99% точности распознавания). Зачастую команды произносятся в условиях повышенной зашумленности, например на производстве. Современные разработки в лабораторных условиях достигают 90% точности на словарях до 100 команд и требуют обучающие выборки больших объемов (10 и более вариантов произнесения каждого слова разными дикторами).

Таким образом, проблема построения эффективных алгоритмов распознавания речевых команд является актуальной.

Целью диссертационной работы является повышение надежности систем распознавания речевых команд.

Для достижения поставленной цели необходимо в ходе выполнения теоретических и экспериментальных исследований решить следующие задачи:

  1. провести обзор моделей систем распознавания речи. Проанализировать структуру их модулей, методов формирования первичных признаков речевых сигналов (PC), методов поиска по словарям эталонов;

  2. разработать математическую модель системы распознавания речевых команд, использующую линейные спектральные корни (ЛСК) в качестве

акустических признаков PC и нелинейное временное выравнивание для поиска по словарям эталонов;

  1. разработать программный комплекс для проведения исследований и тестирования моделей распознавания;

  2. определить критерий, позволяющий оценивать качество распознавания команд по ограниченным словарям;

  3. выбрать оптимальные параметры модели расчета ЛСК для PC;

  4. разработать методику оценки качества словаря эталонов;

  5. осуществить проверку предложенных методов распознавания речевых команд в дикторонезависимом режиме.

Научная новизна заключается в использовании ряда методик, позволяющих повысить надежность систем распознавания речевых команд. Определен критерий, позволяющий оценивать качество распознавания и выявлять неправильно распознанные или отсутствующие в словаре команды. Предложена методика оценки качества сформированного словаря эталонов: автоматически выявляются схожие элементы словаря, для которых может быть вьтолнена ошибочная классификация входного распознаваемого сигнала.

Методы исследования. Решение указанных задач осуществлено на основе теории цифровой обработки сигналов, программирования, методов математической статистики и теории вероятностей.

В качестве инструмента для исследований автором разработан программный комплекс, позволяющий анализировать речевые сигналы, работать с базами данных словарей, производить различные математические расчеты и получать табличное и графическое представление результатов.

Основные положения, выносимые на защиту:

  1. Критерий для реализации автоматического распознавания речевых команд, позволяющий, кроме того, оценить качество работы системы распознавания.

  2. Методика оценки качества сформированного словаря эталонов, позволяющая увеличить надежность процедуры распознавания.

  3. Математическая модель системы распознавания речевых команд, функционирующая в режиме реального времени на словарях средних объемов.

Практическая ценность. Результаты работы могут быть использованы при построении систем голосового управления различными процессами и устройствами.

Результаты внедрения. Результаты научных исследований и практические разработки используются «Центром речевых технологий» Санкт-Петербурга.

Апробация работы. Основные положения, выводы и практические результаты диссертационной работы обсуждались:

Научная конференция «Вычислительные и информационные технологии в науке, технике и образовании» / ПТУ, Павлодар (Казахстан), 2006.

Научная сессия «IX Невские чтения» / НИЯК, СПб, 2007.

IV Всероссийская межвузовская конференция молодых ученых / ИТМО, СПб, 2009.

По теме диссертационной работы опубликовано 7 печатных работ (в том числе одно свидетельство об официальной регистрации программы для ЭВМ), из них 3 работы опубликованы в перечне изданий, рекомендуемых ВАК.

Объем и структура диссертации. Диссертационная работа включает введение, четыре главы, заключение, список литературы и приложения. Вся работа изложена на 183 страницах текста, включающих в себя 15 страниц приложений, 70 рисунков, 12 таблиц. Количество библиографических ссылок - 46.

Похожие диссертации на Исследование и разработка методов распознавания голосовых команд