Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Методы построения двухуровневой дикторонезависимой системы распознавания изолированных слоев Малеев, Олег Геннадьевич

Данная диссертационная работа должна поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Малеев, Олег Геннадьевич. Методы построения двухуровневой дикторонезависимой системы распознавания изолированных слоев : автореферат дис. ... кандидата технических наук : 05.13.14 / Балтийский техн. ун-т.- Санкт-Петербург, 1997.- 23 с.: ил. РГБ ОД, 9 98-1/838-X

Введение к работе

Актуальность темы диссертации

Применение систем распознавания речи позволяет реализовать наиболее удобное взаимодействие человека с технической системой. Управление с помощью голоса может оказаться особенно полезным, если руки оператора заняты, при воздействии на оператора ускорений, при проведении работ в экстремальных условиях, когда важна скорость реакции и т.д.

Для многих задач необходимо применение дикторонезависимьк систем распознавания изолированных слов (команд). Это вопросно-ответные системы, системы с неизвестным заранее диктором, приложения компьютерной телефонии. Разработка таких устройств осложняется рядом теоретических и практических проблем, связанных со значительной вариабельностью параметров речевого сигнала в зависимости от диктора.

Актуальной остается проблема улучшения характеристик существующих и создание новых речевых систем. Необходимость и своевременность проведения научно-исследовательских работ в данном направлении обуславливается объективными требованиями совершенствования человеко-машинного интерфейса в условиях быстрого расширения областей применения автоматических технических систем.

Необходимым условием для широкого использования речевых технологий является повышение вероятности правильного решения и увеличение быстродействия систем дикторонезависимого распознавания речи. Повышение быстродействия систем распознавания речи особенно важно при работе с большими словарями, т.к. при традиционном подходе время анализа речевого сигнала пропорционально числу слов в словаре.

Одним из перспективных подходов к улучшению характеристик систем распознавания является применение двухуровневой обработки с использованием различных методов анализа речевого сигнала на первом и втором уровнях, однако вопросы построения таких систем изучены недостаточно.

В настоящее время распространенным является сегментный метод анализа речевого сигнала, который предполагает вычисление набора признаков на интервалах длительностью 5-20 мс. Для про-

ведения распознавания по полученной последовательности векторов признаков необходимо применять ресурсоемкие методы для снижения влияния изменений темпа речи.

Другим направлением является выявление и анализ признаков, характеризующих все слово в целом. Такие признаки называют це-лословными. В этом случае анализируемый речевой сигнал характеризуется вектором значений целословных признаков, что позволяет снизить время сравнения с эталонами.

Для повышения эффективности систем распознавания речи целесообразно исследовать возможность объединения целословного и сегментного методов, а также разработать методы использования информации о слове в целом в системах распознавания речи, методы организации взаимодействия отдельных блоков двухуровневой системы распознавания речи.

Целесообразность построения двухуровневой системы распознавания с использованием целословного и сегментного анализа подтверждается психофизическими экспериментами слуховой системы человека, которые показали, что человек наряду с сегментной использует некоторую целословную информацию о речевом сигнале.

Работа выполнена на кафедре Систем автоматического управления Балтийского государственного технического университета в соответствии с программой ^Университеты России".

Цапь работы: Совершенствование характеристик систем распознавания изолированных слов на основе применения двухуровневой обработки речевых сигналов.

Основные задачи исследований:

  1. Обоснование целесообразности применения двухуровневой обработки речевого сигнала с использованием блоков целословного и сегментного анализа.

  2. Выбор метода проведения целословного анализа речевого сигнала на основе применения робастной статистики для дикторонезависимых систем распознавания изолированных слов.

  1. Выбор рациональной организации межуровневого взаимодействия целословного и сегментного блоков.

  2. Разработка рабочего места исследователя речевых систем и экспериментальной дикторонезависимой системы распознавания изолированных слов.

Метода исследования: При выполнении работы использовались методы теории распознавания образов, математической статистики, теории планирования эксперимента и теории вероятностей.

Для выполнения поставленных задач применялись методы экспериментального исследования с использованием аппаратно-программного комплекса на базе персональной ЭВМ и специально разработанных программных средств.

Основныэ результаты работы:

  1. Алгоритм целословного анализа, построенный на основе применения методов робастной статистики, позволяет увеличить вероятность правильного решения в блоке целословного анализа. Для цифрового словаря вероятность правильного решения блока ЦА составила 0.994.

  2. Метод двухуровневой обработки речевого сигнала с переспросом, позволяющий сократить время анализа речевого сигнала и повысить вероятность правильного распознавания в системе. Для цифрового словаря достигнуто снижение числа неправильных решений в 1.5 раза (от 7.7% до 5.1%) и уменьшение времени анализа речевого сигнала в среднем в 2 раза.

  3. Алгоритм принятия решений для двухуровневой системы распознавания с переспросом, учитывающий распределения расстояний от анализируемого речевого сигнала до эталонов целословного и сегментного блоков.

  4. Рабочее место исследователя речевых систем, позволяющее производить настройку алгоритмов распознавания на конкретный словарь пользователя и экспериментальная дикторо-независимая система распознавания изолированных слов, обеспечивающая управление ЭВМ с помощью речевых команд.

Научная новизна исследования:

Предложен и реализован метод двухуровневой обработки речевых сигналов с применением целословного и сегментного анализа и механизма переспроса. На основании проведенного сравнительного анализа вариантов межуровневого взаимодействия блоков установлено, что целесообразной организацией двухуровневой обработки речевого сигнала является последовательное соединение целословного и сегментного блоков с применением механизма переспроса.

Предложена система целословных признаков для дикторонеза-висимого распознавания речевого сигнала.

Разработан алгоритм целословного анализа с использованием робастных оценок и построенных на их основе нелинейных функций расстояния, что обеспечивает повышение вероятности правильного распознавания и устойчивости целословного анализа к отклонениям значений параметров речевого сигнала. Предложен алгоритм определения наиболее вероятных альтернатив с подстройкой параметров решающего правила.

Разработан алгоритм принятия решений с использованием информации, поступающей от целословного и сегментного блоков.

- Проведен теоретический анализ работы двухуровневой системы распознавания, позволяющий определить характеристики системы по параметрам отдельных блоков. .

Предложен и реализован метод динамического ввода речевого сигнала в ЭВМ.

Разработана методика построения дикторонезависимых систем распознавания изолированных слов для малых словарей.

Достоверность научных положений и выводов определяется достаточным объемом теоретических и экспериментальных исследований, выполненных с использованием средств вычислительной техники. Оценка надежности результатов экспериментальных исследований производилась с достоверностью 0,95-0,99.

Практамеская ценность диссертационной работы:

Предложенный метод двухуровневой обработки речевого сигнала позволяет увеличить быстродействие и вероятность правильного распознавания для дикторонезависимых систем распознавания изолированных слов.

Предлагаемые в работе методы и алгоритмы организации двухуровневой обработки речевого сигнала доведены до уровня программного обеспечения, готового к практическому использованию.

Разработано рабочее место исследователя речевых систем, позволяющее производить анализ и настройку алгоритмов распознавания для конкретного словаря.

Разработана дикторонезависимая система распознавания изолированных слов, функционирующая в многозадачных средах, позволяющая обеспечить управление с помощью речевых команд стандартных и специализированных приложений.

Результаты внедрения

Основные положения диссертационной работы и разработанная дикторонезависимая система распознавания изолированных слов использованы в НИР "Методы и средства речевого общения с компьютером". Полученные результаты отражены в отчетах по НИР БГТУ УЗ-72-2095, У4-03-3527, У4-03-3509 за 1994,1995,1996 гг. Результаты диссертационной работы применяются при проведении исследовательских работ по развитию перспективных систем управления в Центральном конструкторском бюро морской техники "Рубин". Предложенная в работе структура двухуровневой системы распознавания и разработанные программные продукты использованы в Центре цифровой Обработки Сигналов Государственного Университета Телекоммуникаций. Материалы диссертации применяются в учебном процессе факультета СУ БГТУ. Внедрение результатов работы подтверждено соответствующими документами.

Апробация работы

Основные положения и результаты диссертационной работы докладывались и обсуждались на международном семинаре SPECOM'96 International Workshop "Speech and Computer",Санкт-

Петербург, 1996; ІІІ-ей , IV-ой, V-ой Санкт-Петербургских Международных Конференциях "Региональная информатика", г. Санкт-Петербург, 1994, 1995, 1996 гг. соответственно; на второй межведомственной научно-технической конференции "Проблемные вопросы сбора, обработки и передачи информации в сложных радиотехнических системах", г.Пушкин, 1995.; а также в Центре Цифровой Обработки Сигналов Государственного Университета Телекоммуникаций.

Публикации

По материалам диссертации опубликовано 10 печатных работ, в том числе, подана заявка о выдаче патента Российской Федерации на изобретение "Способ дикторонезависимого распознавания изолированных речевых команд" гос. регистрации 97101846.

Объем и структура диссертации