Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Принципы построения системы распознавания речи в базисе Уолша Коркмазский, Филипп Ефимович

Данная диссертационная работа должна поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Коркмазский, Филипп Ефимович. Принципы построения системы распознавания речи в базисе Уолша : автореферат дис. ... кандидата технических наук : 05.13.11 / АН СССР. ВЦ.- Москва, 1990.- 16 с.: ил. РГБ ОД, 9 90-8/35-4

Введение к работе

Актуальность проблемы. Создание систем распознавания речи приобретает в последнее время особо ванное значение ввиду расширения сфер применения вычислительных систем и увеличения числа пользователей этих систем. Поскольку речь является наиболее естественной и привычной формой общения человека, введение речевого канала связи человек-ЭШ позволяет увеличить число пользователей ЗВЇІ, значительно улучшает эргономические . показатели вычислительных систем.

В настоящее время одним из главных препятствий на пути широкого распространешія устройств распознавания речи является их относительно высокая стоимость. Высокая стоимость этих устройств несоизмерима с их довольно огршшченными возможностями. Поэтому следует признать актуальным резєние двух задач: упрощение архитектуры существующих устройств распознавания речи и существенное улучшение их основных функциональних параметров.Архитектура современных устройств распознавания речи характеризуется наличием различных специализированных устройств. Алгоритмы, реализуемые эти-:*,;: специализированными устройствами, являются обычно довольно трудоемкими и в большинстве случаев не могут быть реализованы на современных микропроцессорах. С другой стороны, развитие современ -ных вычислительных средств на микропроцессорной основе, в частности персональных ЭВМ, требует развития таких подходов к обработке речи, которые бы не нуждались вгиспользовшвга сложных и дорого -стоящих специализированных вычислительных устройств. В первую очередь, это относится к проблемам реализации в реальном масштабе времени цифрового спектрального анализа и процедуры нелинейного согласования во времени речевых сигналов. Цифровой спектральный анализ в большинстве систем распознавания речи строится или пу -тем реализации цифровых фильтроз, или с помощью быстрого преобра* зованкгя Оурье (БПЭ). Основная вычислительная нагрузка как в алгоритме БІК, так и в алгоритмах цифровых фильтров приходится на операцию умножения. С другой стороны, существует ряд ортогональных преобразований, которые,во-первых, не использует операцию умножения, а во-вторых, не требуют обработки в комплексной плоскости.

Важнейшим представителем этого класса преобразований является преобразование Уолта.-Существуют различные варианты преобразо-

1-100/у

вания Уолша, для реализации которых могут быть использованы соответствующие алгоритмы быстрого преобразования Уолша (БПУ). Обычно алгоритмы БПУ требуют выполнения NCogAN действительных сложений (вычитаний), что является приемлемым для реализации этих алгоритмов в реальном масштабе времени на современных быстродействующих микро-ЭВМ.

Большинство систем распознавания речи, в которых использовались функции Уолша для описания речевых сигналов, давали до сих пор хорошие результаты только по скорости получения спектрального описания речевых сигналов. Однако, объем распознаваемого словаря в этих системах был небольшой и составлял, в лучшем случае, несколько десятков слов. Уровень ошибок распознавания был также неудовлетворительным.

Цель работы - сравнительное исследование эффективности применения для распознавания речи различных вариантов преобразбва-ния Уолша; существенное улучшение параметров системы распознавания речи в базисе Уолша за счет оптимизации первичного описания речевых сигналов и совершенствования процедур обучения и распознавания . "

Задачи исследования:

  1. Сравнительное исследование различных вариантов преобразования Уолша с точки зрения получаемых < их помощью параметров системы распознавания речи: достоверности распознавания речевых сигналов, времени на получение энергетического спектра Уолша и необходимых для реализации преобразования Уолша ресурсов памяти.

  2. Исследование эффективности применения обобщенного преобразования Уолша для описания речевых сигналов.

> 3. Изучение целесообразности применения принципов векторного квантования для кодирования речевых сигналов в базисе Уолша.

  1. Разработка быстродействующей процедуры для нелинейного согласования во времени речевых сигналов и их эталонов.

  2. Исследование методов оптимизации принятия решений при представлении речевых сигналов несколькими группами эталонов.

  3. Исследование эффективности дифференциации параметрического описания речи в различных классах речевых сигналов.

7. Разработка промышленной системы распознавания речи в базисе Уолша.

Методы исследования. Для решения поставленных задач использовались методы цифровой обработки сигналов, теория распознавания образов, статистические методы обработки информации, клас -терный анализ, сведения из теории дискретной оптимизации и методы планирования эксперимента. При разработке промышленной системы распознавания речк использовались также эвристические методы, . а при непосредственном создании программного обеспечения для этой системы привлекались методы структурного программирования.

Научная новизна. Научная новизна работы состоит в следующем:

доказана возможность'использования преобразования Уолша для первичного представления речевых сигналов в задачах распознавания словарей объемом в несколько сотен слов; показана возмож -ность программной реализация в реальном масштабе времени преобразования Уолша применительно к задаче вычисления энергетического спектра речевых сигналов;

исследована эффективность применения обобщенного преобразования Уолша для первичного описания речевых сигналов в системе распознавания речи; сформулированы и доказаны теоремы, дающие теоретическую оценку производительности различных алгоритмов быстрого обобщенного преобразования Уолша;

показана эффективность применения принципов векторного квантования для кодирования речевых сигналов, представленных энергетическими спектрами в базисе Уолша; преложена процедура выбора начальных значений кодовых векторов, оптимизирующая выполнение процедуры векторного квантирования - алгоритма к-средних»

разработан метод апостериорных коэффициентов информативности, оптимизирующий процесс принятия решений при представлений речевых сигналов несколькими группами эталонов; применение этого метода позволяет повысить достоверность распознавания речевых сигналов;

доказана эффективность дифференциации параметрического описания речи в различных классах речевых' сигналов; для решения задачи оптимизации дифференцированного описания речи разработан специальный алгоритм дискретной оптимизации ( Л-алгоритм);

на основе предложенных подходов разработана промышленная система распознавания речи; для компенсации вариабельности речевых сигналов, связанной с различием громкости гслосов разных дик-

торов и изменением расстояния диктора до микрофона, для этой системы разработаны алгоритмы программного управления коэффициентом усиления; на основе предложенной модели упрощенного фонетического описания речевых- сигналов разработан метод повышения быстродейсг.вия алгоритмов распознавания;

-. разработал специализированный язык описания фраз; использование этого языка предоставляет пользователям системы речевого ввода дополнительные возможности по повышению достоверности и уменьшению времени распознавшая речевых сигналов.

Практическая ценность. Ка основе принципов, изложенных в диссертационной работе, было разработано промышленное устройство распознавания речи. Особенности архитектуры данного устройства -в первую очередь, отсутствие спецпроцессоров для цифрового спектрального анализа и динамического программирования, могут быть трансформированы при^разработке других устройств распознавания речи. Использование быстродействующих алгоритмов цифрового спектрального анализа на основе преобразования Уолша и метода квази-опткмальноК сегментации речевых сигналов может быть полезным при разработке микропроцессорных систем распознавания рзчи.

Реализация тгезультатов. Диссертационная работа выполнялась в секторе автоматического распознавания речи ВЦ АН СССР и в Специальном конструкторско-технологическо,м бюро вычислительной техники Черновицкого производственного объединения "Электронмо" Кинприбора СССР в рамках НИР "Разработка алгоритма функционирования системы речевого ввода технологической информации" (№ гос. регистрации 01.82.0071866) и ОКР "Модуль анализа речевых сигналов ПС 7801" (№ гос.регистрации 01.84.004II50). В результате проведения отих работ было разработано промышленное устройство распознавания речи - модуль" анализа речевых сигналов ПС 7Є0І. Данное устройство предназначено для использования в АСУ технологическими процессами.

Апробация работы. Основные положения диссертационной работы докладывались и обсуждались на:

Всесоюзной научно-технической коифорсндаг "Проблемы иатс-матического, программного и информационного обеспечения АСУ технологическими процессами" (Черновцы, 1979 г.);

Всесоюзной конференции "Теория адаптивных систем и ее применения" (Ленинград, 1983 г.);

Всесоюзной школе-сшикаре "Автоматическое рапознавание слуховых образов APC0-I3" (Новосибирск, I9B4 г.);

Всесоюзном семинаре "Автоматическое распознавание слуховых образов APC0-I4" (Каунас, 1936 г.);

Всесоюзной научно-технической конференции "Опыт разработки и внедрения технических к программных средств СМ ЭВМ и АСЗТ-ПС (Северодонецк, 1986 г.);

XI Международном конгрессе фонетических наук (Таллина, 1987 г.);

семинаре сектора автоматического распознавания речи ВЦ АН СССР (Москва, 1990 г.).

Публикации. По материалам диссертации опубликовано 10 ра -бот, ь1 том числе, один научно-технический отчет.

Структура и объем работы. Диссертация состоит из введения, четырех глав и заключения, изложенных на 156 страницах машинописного текста; содержит 22 рисунка, 8 таблиц, список литературы, состояний из 127 наименований, и 3 приложения.

Похожие диссертации на Принципы построения системы распознавания речи в базисе Уолша