Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Автоматизированная система анализа неструктурированной речевой информации с применением лингвистических знаний Смирнов Валентин Александрович

Автоматизированная система анализа неструктурированной речевой информации с применением лингвистических знаний
<
Автоматизированная система анализа неструктурированной речевой информации с применением лингвистических знаний Автоматизированная система анализа неструктурированной речевой информации с применением лингвистических знаний Автоматизированная система анализа неструктурированной речевой информации с применением лингвистических знаний Автоматизированная система анализа неструктурированной речевой информации с применением лингвистических знаний Автоматизированная система анализа неструктурированной речевой информации с применением лингвистических знаний Автоматизированная система анализа неструктурированной речевой информации с применением лингвистических знаний Автоматизированная система анализа неструктурированной речевой информации с применением лингвистических знаний Автоматизированная система анализа неструктурированной речевой информации с применением лингвистических знаний Автоматизированная система анализа неструктурированной речевой информации с применением лингвистических знаний Автоматизированная система анализа неструктурированной речевой информации с применением лингвистических знаний Автоматизированная система анализа неструктурированной речевой информации с применением лингвистических знаний Автоматизированная система анализа неструктурированной речевой информации с применением лингвистических знаний Автоматизированная система анализа неструктурированной речевой информации с применением лингвистических знаний Автоматизированная система анализа неструктурированной речевой информации с применением лингвистических знаний Автоматизированная система анализа неструктурированной речевой информации с применением лингвистических знаний
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Смирнов Валентин Александрович. Автоматизированная система анализа неструктурированной речевой информации с применением лингвистических знаний: диссертация ... кандидата Технических наук: 05.13.11 / Смирнов Валентин Александрович;[Место защиты: Институт проблем управления им.В. А.Трапезникова Российской академии наук].- Москва, 2016.- 175 с.

Содержание к диссертации

Введение

Глава 1. Современные тенденции в области разработки и применения систем автоматического анализа речевой информации 18

1.1. Исследование моделей, методов и алгоритмов, используемых при построении современных систем автоматизированного анализа неструктурированной речевой информации 18

1.2. Сферы применения системы анализа неструктурированной речевой информации 22

1.2.1. Система неструктурированной речевой информации в обеспечении безопасности различных сфер 22

1.2.2. Повышение качества информационно-сервисного обслуживания клиентов по телефону 23

1.3. Подходы к обнаружению ключевых слов в потоке речи 25

1.3.1. Фонетический поиск 26

1.3.2. Поиск при помощи распознавания слитной речи 26

1.3.3. Словный поиск 29

1.4. Подходы к определению ложных срабатываний 31

Выводы к главе 1 33

Глава 2. Состав системы анализа неструктрированной речевой информации и функция лингвистики в модулях системы 34

2.1. Система анализа неструктурированной речевой информации: состав и взаимосвязи модулей 34

2.2. Модуль вычисления акустических признаков 36

2.2.1. Описание структуры модуля 36

2.2.2. Спектральное представление речевого сигнала. 36

2.2.3. Кепстральные коэффициенты и роль лингвистики в модуле 38

2.2.4. Выводы и вектор развития 41

2.3. Лингвистический процессор 43

2.3.1. Назначение лингвистического процессора 43

2.3.2. Существующие подходы к анализу естественного языка 43

2.3.3. Роль лингвистики в модуле 45

2.3.4. Выводы и вектор развития 46

2.4. Акустическое моделирование 47

2.4.1. Назначение модуля 47

2.4.2. Роль фонетического строя языка при акустическом моделировании 48

2.4.3. Структура скрытых Марковских моделей 50

2.4.4. Основные этапы создания акустических моделей 53

2.4.5. Оценка параметров скрытых Марковских моделей и преобразование Баума-Уэлша 54

2.4.6. Роль лингвистики в модуле 59

2.4.7. Применение знаний о классификации звуков речи

при кластеризации статистических моделей 59

2.4.8. Выводы и вектор развития 63

2.5. Модуль декодирования 65

2.5.1. Назначение модуля 65

2.5.2. Базовые структуры для распознавания 65

2.5.3. Принципы декодирования 67

2.5.4. Выводы и вектор развития 71

2.6. Модуль верификации 73

2.6.1. Назначение 73

2.6.2. Определение слов не из словаря при помощи нейронных сетей 73

2.6.3. Роль лингвистики в верификаторе 79

2.6.4. Выводы и вектор развития 80

Выводы к Главе 2 80

3. Разработка методов и алгоритмов применения лингвистических знаний для повышения эффективности модулей системы анализа неструктурированной речевой информации 83

3.1. Лингвистический процессор, основанный на знаниях 83

3.1.1. Состав лингвистического процессора 83

3.1.2. Применение морфологической информации для простановки ударения, контекстный анализ для разрешения омонимии 84

3.1.3. Выводы 94

3.2. Акустическое моделирование на базе лингвистики 94

3.2.1. Значимость инвентаря монофонов 94

3.2.2. Результаты экспериментальных исследований 96

3.2.3. Выводы 99

3.3. Модуль декодирования 99

3.3.1. Специализированные фонетические сети и особые единицы моделирования в системе анализа неструктурированной речевой информации 100

3.3.3. Выводы 104

3.4. Модуль верификации 105

Выводы к Главе 3 107

4. Система анализа неструктурированной речевой информации ANALYZE: архитектура, программная реализация и практические результаты 109

4.1. Общее описание и принцип работы системы 109

4.2. Архитектура системы: состав и взаимодействие модулей

4.2.1. Сервер поиска по ключевым словам 110

4.2.2. Терминал 112

4.2.3. Хранилище данных 112

4.2.4. Требования к обрабатываемым звуковым данным и оборудованию

4.3. Ключевые параметры наукоемких модулей системы 113

4.4. Описание человеко-машинного интерфейса 116

4.5. Описание взаимодействия наукоемких компонент Сервера речевой аналитики 119

4.6. Интеграции разработанной системы ANALYZE в комплексные информационно-аналитические и управляющие системы 121

4.7. Опыт практического применения системы ANALYZE

4.7.1. Контроль качества обслуживания в колл-центре 123

4.7.2. Анализ частотности упоминания событий в СМИ 123

4.7.3. Автоматизация клиентского обслуживания 124

4.7.4. Категоризация обращений граждан 124

Выводы к Главе 4 125

Заключение 126

Основные научные и практические результаты 128

Общий список литературы 130

Введение к работе

Актуальность темы

На сегодняшний день человечество накопило большой арсенал средств сбора и хранения информации. Разработаны совершенные системы хранения данных, реализованы автоматизированные средства сбора данных практически из всех источников, актуальных в современном информационном обществе. Можно без преувеличения сказать, что на сегодняшний день большая часть повседневной деятельности человека, организаций и общества в целом уже сохраняется в электронном виде. Аудиоданные записываются ежедневно в количестве, превышающем миллионы часов. В этих данных содержится ценная информация: о фокусе внимания в сообщениях информационных агентств, о потенциальных внешнеэкономических угрозах, о социальных трендах, о рисках разглашения конфиденциальной информации, о пожеланиях клиентов, о качестве работы операторов центров массового обслуживания и т.п. Очевидно, что ручная обработка такого объема данных – это невыполнимая задача. Поэтому столь актуально и важно использование автоматизированных систем анализа неструктурированной речевой информации (то есть информации, представленной в виде множества оцифрованных аудиоданных, не содержащих текстовой расшифровки или указания наличия в данных определенных ключевых слов), благодаря которым государственные организации, аналитические агентства, бизнес и общество в целом получают принципиально новые возможности по исследованию и контролю ситуации, оперативному принятию управленческих решений и дальнейшему планированию своей деятельности. Перечисленные сферы применения подобных систем позволяют отнести их к таким приоритетным направлениям развития науки, технологий и техники в Российской Федерации, как: «Безопасность и противодействие терроризму», а также «Информационно-коммуникационные технологии». Государственная поддержка импортозамещения в области разработки отечественного программного обеспечения, уникального в мире своим научно-технологическим содержанием, дополнительно подчеркивает актуальность заявленной автором темы диссертационной работы.

Современные технологии распознавания речи, лежащие в основе систем анализа неструктурированной речевой информации, базируется на методах и алгоритмах, лишь опосредованно связанных с лингвистикой, – используются, например, скрытые Марковские модели, искусственные нейронные сети, алгоритм Витерби и Баума-Уэлша. В качестве примера подобных систем можно привести Nexidia, CallMiner, Google, Siri, Yandex. При этом лингвистические знания (под лингвистическими знаниями в настоящей работе понимаются экспертные, не извлекаемые автоматически из речевого материала знания о характерных свойствах языковых единиц на разных уровнях, включая фонетический, лексический, морфологический и синтаксический, и об отношениях между данными единицами) зачастую отходят на второй план или игнорируются. Например, недостаточное внимание уделяется источникам и следствиям вариативности фонем в спонтанной речи (фонетика); различным типам омонимии (лексика), часть-речной принадлежности слов (морфология), допустимым сочетаниям частей речи в предложении (синтаксис). Внедрение в систему речевой аналитики подобной информации в форме методов и особых структур данных может повысить качество распознавания речи, что определяет особую

актуальность исследованиям роли лингвистических знаний при

автоматизированном анализе неструктурированной речевой информации.

Цель диссертационной работы состоит в исследовании методов, моделей, алгоритмов и программных средств автоматизированных систем анализа неструктурированной речевой информации и определении места лингвистических знаний и методов как инструмента для улучшения существующих алгоритмов; в том числе при создании принципиально новых методов и алгоритмов, основанных на лингвистических знаниях, в программной реализации целостного программного комплекса речевой аналитики и в его интеграции в архитектуру информационно-аналитических и управляющих систем.

Для достижения данной цели были поставлены и решены следующие задачи:

  1. Исследованы современные методы, алгоритмы и модели распознавания речи, лежащие в основе систем анализа неструктурированной речевой информации;

  2. Разработан программный комплекс речевой аналитики. Спроектирован новый человеко-машинный интерфейс, повышающий эффективность обработки речевых данных в вычислительных системах, комплексах и компьютерных и телефонных сетях;

  3. Разработаны новые методы и алгоритмы, повышающие качество распознавания речи, и встроены в систему речевой аналитики, в том числе:

разработан лингвистический процессор, основанный на лингвистических знаниях, и внедрен в систему речевой аналитики с целью автоматизации получения транскрипций при работе модулей обучения акустических моделей, декодирования и верификации;

реализован метод транскрипционного моделирования для генерации вариантов транскрипций и встроен в модуль декодирования;

исследованы лингвистические ограничения как признаки, определяющие достоверность результата распознавания, и реализован метод вычисления этих признаков, внедренный в модуль верификации результатов распознавания;

4. Исследован фонетический строй русской речи, выявлены известные модели
звуков, не используемые в современных системах распознавания речи, и
внедрены в модуль акустического моделирования с целью повышения
качества распознавания речи.

Результаты, выносимые на защиту

  1. Определен оптимальный компонентный состав системы речевой аналитики путем исследования современных методов распознавания речи и разработана новая автоматизированная система анализа неструктурированной речевой информации;

  2. Обеспечено повышение качества распознавания речи путем исследования взаимовлияния звуков речи и включения дополнительных особых моделей звуков в инвентарь фонетических единиц, используемых при акустическом моделировании;

  3. Разработан оригинальный метод транскрипционного моделирования, основанный на лингвистических знаниях о вариативности звуков в спонтанной речи, и встроен в модуль декодирования;

  1. Улучшен известный метод верификации результатов распознавания на базе искусственных нейронных сетей путем внедрения в модуль верификации уникального набора признаков, основанных на применении лингвистических ограничений, и обеспечено повышение качества верификации;

  2. Встроен в систему речевой аналитики лингвистический процессор, основанный на описании морфологических характеристик слов, и автоматизирован этап транскрибирования при работе модулей акустического модулирования, декодирования и верификации;

  3. Спроектирован человеко-машинный интерфейс системы речевой аналитики;

  4. Реализована интеграция системы речевой аналитики в архитектуру информационно-аналитических и управляющих комплексов.

Научная новизна

Все результаты выполненной работы являются новыми; впервые исследованы и разработаны следующие научные проблемы:

  1. Роль лингвистики в каждом компоненте системы речевой аналитики и выявлены зоны для улучшения работы каждого из модулей;

  2. Применение расширенного алфавита фонетических единиц при акустическом моделировании;

  3. Новый метод транскрипционного моделирования при декодировании речи;

  4. Усовершенствование метода верификации результатов распознавания на базе нейронных сетей путем внедрения в модуль верификации лингвистических признаков.

Объект и предмет исследования. Математическое, программное и
информационное обеспечение системы автоматизированного анализа

неструктурированной речевой информации с применением лингвистических знаний.

Применение лингвистических знаний с целью повышения качества работы автоматизированной системы анализа неструктурированной речевой информации.

Методология и методы исследования

К основным методам исследования, применяемым в настоящей работе,
относятся: скрытые Марковские модели, искусственные нейронные сети,
акустическое моделирование, методы прикладной лингвистики, методы

экспертного анализа данных и знаний, компьютерные технологии распознавания речи, методы теории вероятностей и математического моделирования, методы цифровой обработки сигналов, методы теории и практики человеко-машинного взаимодействия.

Также используются следующие подходы:

  1. Моделирование работы алгоритмов при помощи различных программных средств, включая как программные средства, разработанные автором, так и общедоступное свободно распространяемое программное обеспечение с открытым исходным кодом, с использованием специально созданных автором баз данных;

  2. Практическая апробация известных методов и оригинальных алгоритмов, разработанных автором, в проектах для заказчиков.

Обоснованность и достоверность результатов

Научные положения и выводы диссертации обоснованы с использованием
теории вероятностей и математической статистики, комбинированным

применением скрытых Марковских моделей и искусственных нейронных сетей, теоретических основ программирования, методов прикладной лингвистики, а также проверены экспериментально и подтверждены испытаниями на научно-исследовательском стенде ИПУ РАН, внедрениями в ряде коммерческих компаний и в высших учебных заведениях.

Практическая значимость работы заключается в широком спектре сфер практического применения полученных результатов:

- реализован полноценный программный комплекс, пригодный для
использования в задачах аналитики больших объемов речевых данных в
коммерческой и государственной сфере при массовом обслуживании населения
(финансовые, медицинские, телекоммуникационные и социальные услуги);

- наличие подобной системы позволит на качественно новом уровне решать
задачу обеспечения безопасности населения или бизнеса (в рамках работы отделов
внутреннего контроля или служб национальной безопасности, систем оперативно-
розыскных мероприятий);

- детальное исследование методов, алгоритмов и структур данных,
необходимых для распознавания речи, делает работу ценной для учебного
процесса в ВУЗах и заслуживающей быть в основе образовательных курсов. С
учетом глубокой проработки связи лингвистических и статистических подходов,
такие курсы могут быть междисциплинарными.

Реализация результатов работы. Исследованные методы и алгоритмы, лежащие в основе автоматизированных систем анализа неструктурированной речевой информации, и концепция человеко-машинного интерфейса применены при создании программного обеспечения ANALYZE компании Speech Drive. Алгоритм транскрипционного моделирования, лингвистически мотивированные признаки, предложенные для модуля верификации, а также особый инвентарь фонетических единиц русской речи были использованы в ходе выполнения НИОКР «Речевой тренажер» в ИПУ РАН. Реализованные результаты работы используются в следующих компаниях и учебных заведениях: ООО «Новавокс», ООО «Сарапульские системы», ООО НТЦ «Протей», Казанский (Приволжский) Федеральный Университет, Северо-Восточный Федеральный университет.

Апробация результатов работы. Результаты диссертационного

исследования представлялись в докладах на ведущих научных конференциях и семинарах, в частности:

  1. 58-я научно-техническая конференция профессорско-преподавательского состава, научных сотрудников и аспирантов, СПбГУТ, 2006, Санкт-Петербург.

  2. 11-th International Conference «Speech and Computer» SPECOM'2006, Санкт-Петербург.

  3. 12-th International Conference «Speech and Computer» SPECOM'2007, Москва.

  4. VI International Scientific and Practical Conference Internet and Society (INSO-2013), Кутаиси.

  1. Шестая Всероссийская мультиконференция по проблемам управления (МКПУ-2013, Дивноморское), 30 сентября – 5 октября 2013 г. с. Дивноморское, Геленджик.

  2. Третий международный научно-технический семинар "Современные проблемы прикладной математики, информатики, автоматизации и управления" (г. Севастополь, 9-13 сентября, 2013 г.)

Результаты работы докладывались на кафедре ИУ-3 МГТУ им. Баумана, на научном семинаре лаборатории №17 ИПУ РАН, на заседании Международной Академии Связи (ITU), в Научно-образовательном центре "Исследование проблем инфокоммуникационных технологий и протоколов" при СПбГУТ им. Проф. М.А.Бонч-Бруевича.

Публикации. По материалам диссертации опубликовано 17 научных работ, включая 5 публикаций в ведущих научных журналах из перечня ВАК Минобрнауки РФ, 1 патент РФ на изобретение и 1 свидетельство о регистрации программы ЭВМ.

Связь с государственными и международными программами. Основные результаты диссертационной работы получены в ходе поисковых НИР в соответствии с плановой тематикой работ ИПУ РАН.

Структура и объем работы. Диссертация содержит введение, четыре главы, заключение, список литературы (92 наименования), три приложения. Основной материал изложен на 129 стр., включая 9 таблиц и 21 рисунок. Приложения размещены на 46 страницах.

Система неструктурированной речевой информации в обеспечении безопасности различных сфер

Когда речь идет о безопасности страны или бизнеса, на первый план выходит анализ рисков. Чем более полон этот анализ, тем меньше вероятность возникновения критической ситуации. В масштабах государства риск-менеджментом занимаются специально выделенные отделы в ряде организаций, общее количество сотрудников в которых может превышать несколько десятков тысяч человек. Среди них важное место занимают аналитики — люди, формирующие комплексную картину относительно угроз национальной безопасности. Арсенал средств, доступных этим людям, можно смело назвать первоклассным: лучшие вычислительные центры, системы прогнозирования, мониторинг всех объектов оборонного значения в режиме реального времени и т. п. Помимо прочего, в их арсенал входит и система АНРИ, которая позволяет им: - в автоматическом и полуавтоматическом режиме анализировать медиапотоки на разных языках (например, получать оперативный доступ ко всем записям всех теле- и радиоканалов США с упоминанием фамилии «Путин» или отслеживать все упоминания нашей страны на канале Аль-Джазира); - в случае необходимости проведения оперативной работы обеспечить одновременный мониторинг каналов стационарной и подвижной сети связи на предмет упоминания специфических слов определенными объектами наблюдения (например, отследить, чьи имена называет наблюдаемый объект, ведет ли он подозрительные переговоры).

В масштабах бизнеса системы АНРИ позволяют упростить отслеживание таких критических ситуаций, как: - Преступный сговор (например, если внешний злоумышленник договаривается с работником компании о противоправном действии, скажем, об оформлении сделки по подложным документам) - Разглашение (когда работник, обладающий доступом к конфиденциальной информации, передает ее внешнему сообщнику, скажем, данные о состоянии бизнеса клиента компании или о состоянии счета третьих лиц. - Нелояльный работник (например, если работник, недовольный своим работодателем, уводит клиентов к конкуренту или раскрывает информацию, наносящую удар по репутации компании).

В то время как обеспечение безопасности является пусть и важным, но все же достаточно закрытым процессом, в котором многие варианты применения современных технологий и даже сами технологии часто скрыты от посторонних глаз, повышение качества обслуживания — это яркий пример применения системы АНРИ, понятный и доступный каждому. Данная сфера применения распространена в тех государственных учреждениях и коммерческих организациях, эффективность которых напрямую зависит от того, как построено телефонное обслуживание клиентов. В основном это, конечно, большие организации, так как именно в них явно выражена проблема масштаба: в крупный банк или социальную службу, к примеру, ежедневно может поступать несколько десятков тысяч звонков, каждый из которых имеет значение и может оказывать серьезное влияние на работу организации в целом. Чем помогает система АНРИ при обработке данного потока звонков?

Во-первых, система АНРИ позволяет определить, насколько качественно сотрудник обслужил клиента: произнес ли он все полагающиеся фразы скрипта, не ругался ли он, завершился ли разговор стандартно. А записи наиболее эффективных сотрудников можно затем использовать при обучении начинающих или «отстающих» коллег.

Во-вторых, благодаря системе АНРИ становится возможной классификация всех звонков на категории (жалобы, запросы технической поддержки, вопросы по конкретным товарам и услугам, конкурентная ситуация и т. п.), что позволяет в режиме реального времени отслеживать тренды, понять, не случилось ли чего-то критического и вовремя принять корректирующие меры. Например, если из отчета речевой аналитики следует, что резко возросло количество звонков по технической поддержке, это может означать, что новый продукт/услуга содержит существенные изъяны, которые не будут учтены при его производстве.

В-третьих, система позволяет оперативно искать во всем потоке записанной информации наиболее нужные в данный конкретный момент фрагменты — например, отыскать всю историю переговоров по крупной сделке или свести воедино разговоры по определенному запросу в социальную службу. Очень часто такая информация хранится разрозненно, и система АНРИ позволяет на порядок сократить время, необходимое для ее поиска.

Отметим, что обеспечиваемое системой АНРИ повышение уровня безопасности и качества обслуживания влечет за собой существенное сокращение расходов, как за счет более быстрого реагирования на критическую ситуацию, так и за счет планомерной работы по повышению эффективности взаимодействия с контрагентами организации. Само по себе сокращение расходов самоцелью не является, но часто используется как внушительный аргумент в пользу внедрения систем подобного класса, так как сроки окупаемости вложений максимально коротки.

Для осуществления анализа неструктурированной речевой информации необходима технология распознавания речи, которая позволяет определить наличие в речевом сигнале ключевых слов и частотные характеристики разных слов или тем. В настоящий момент существует три подхода к поиску ключевых слов в потоке речи: фонетических поиск, подход, основанный на распознавании слитной речи, и поиск по словным моделям. Все три разновидности поиска используют схожие базовые структуры данных, при этом каждая из них обладает своими собственными индивидуальными отличиями.

Кепстральные коэффициенты и роль лингвистики в модуле

Существует несколько методов кластеризации [6, 16]: «по энтропии» (когда в единый кластер объединяются наиболее частотный трифон с наиболее редким трифоном), «основанный на данных» (когда в один кластер объединяются трифоны, чьи распределения наименьшим образом друг от друга отличаются) и метод классификации по дереву регрессии (от английского Classification and Regression Trees, или CART). Именно последний метод получил наибольшее распространение в современных системах распознавания речи. Преимущество данного метода в том, что он успешно объединяет лингвистические знания о фонетическом строе языка и математический метод минимизации среднеквадратической ошибки.

Суть метода CART состоит в том, чтобы разбить N векторов в M-мерном пространстве признаков на группы путем последовательного применения к кластеризуемым данным «функций-вопросов». Причем сами вопросы не затрагивают M признаков, описывающих вектор. Вопросы задаются относительно других характеристик, которые могут быть сопоставлены этим векторам. В случае со звуками речи, M признаков — это MFCC или PLP векторы, а характеристики, относительно которых задаются вопросы, это такие признаки фонем, как место образования (губной, переднеязычный, заднеязычный), способ образования (смычный, щелевой), звонкость и проч.

Алгоритм CART позволяет для каждой фонемы определить оптимальную последовательность вопросов в порядке убывания путем выявления на каждом этапе ветвления такого вопроса, для которого значение среднеквадратической ошибки минимально. На выходе алгоритм выдает дерево регрессии, в котором в качестве листов выступают итоговые кластеры, используемые в дальнейшем при акустическом моделировании. Вкратце, алгоритм CART можно описать следующей последовательностью действий: 1. вычисляется исходное значение суммарной среднеквадратической ошибки (среднеквадратическое отклонение точки от среднего в M-мерном пространстве признаков) и взвешенной среднеквадратической ошибки на всех векторах, входящих в обучающую базу. Суммарная ошибка вычисляется как сумма среднеквадратических отклонений всех векторов, взвешенная ошибка — это суммарная ошибка, деленная на количество векторов;

Далее в цикле для всех вопросов выполняются пункты 2 и 3: 2. задаем вопрос, тем самым разбивая дерево на две «ветки»: 2.1. задаем вопрос (например, «является ли правый контекст согласным») и ищем векторы, характеристики которых соответствуют положительному ответу на заданный вопрос («левая ветка»); 2.2. считаем по найденным векторам суммарную ошибку и взвешенную. При этом взвешивание происходит по количеству всех векторов, а не по количеству векторов, для которых ответ на вопрос положительный; 2.3. задаем тот же вопрос, ищем векторы, характеристики которых соответствуют отрицательному ответу на вопрос («правая ветка»); 2.4. считаем по найденным векторам суммарную ошибку и взвешенную. При этом взвешивание происходит по количеству всех векторов, а не по количеству векторов, для которых ответ на вопрос отрицательный; 3. Вычисляем критерий разбиения, по которому и производится оптимизация. Для этого вычисляем разность исходной взвешенной ошибки и суммы взвешенной ошибки на левой ветке и взвешенной ошибки на правой ветке. 4. После того как критерий разбиения вычислен для каждого вопроса, мы выбираем вопрос с наибольшим значением критерия. Именно он соответствует наилучшему разбиению. 5. Дальнейшее разбиение веток происходит по тому же принципу, при этом на вход подаются уже только те векторы, которые располагаются в данной ветке дерева. Цель каждого разбиения состоит в том, чтобы максимально уменьшить значение ошибки. 6. Итоговое дерево вопросов сохраняется, и в соответствии с ним формируются результирующие кластеры, которые затем передаются Модулю акустического моделирования.

На Рис. 8 приведен пример дерева регрессии для фонемы «а». В результате кластеризации мы получили классифицирующее дерево регрессии, листья которого являются кластерами, используемыми при дальнейшем акустическом моделировании. Левая ветка соответствует положительному ответу на вопрос, правая ветка соответствует отрицательному ответу на вопрос. Заштрихованный узел является терминальным (который не удалось разбить на две ветки по причине невыполнения критерия останова: либо вопрос не сокращает среднеквадратическую ошибку, либо отсутствует достаточное количество реализаций). Данные терминальные узлы и есть кластеры, в совокупности составляющие акустическую модель.

Применение морфологической информации для простановки ударения, контекстный анализ для разрешения омонимии

Верификатор – это сугубо статистический алгоритм, качество которого главным образом зависит от подобранных данных для обучения и от экстенсивных экспериментов по подбору оптимальных параметров. При этом ключевым фактором успешной работы верификатора являются признаки, используемые при классификации. Именно при формировании вектора признаков, используемых при обучении верификатора, важна роль лингвистических знаний. В настоящий момент в число признаков обычно входят признаки, являющиеся вторичным результатом работы модуля декодирования (например, «среднее значения дисперсии», максимальное акустическое log-подобие). При этом среди данных признаков редко встречаются признаки, отражающие лингвистические ограничения.

В настоящем разделе был рассмотрен Модуль верификации как компонент системы автоматического анализа неструктурированной речевой информации. Дано описание различных способов определения достоверности результата работы модуля декодирования и определен наиболее выигрышный вариант (основанный на нейронных сетях). При этом отмечено, что при создании подобных верификаторов лингвистические признаки практически не внедряются в систему – используются стандартные чисто акустические признаки, которые вычисляются во время декодирования. Поскольку верификатор оказывает существенное влияние на итоговые качественные характеристики системы АНРИ, необходимо усилить его классифицирующую силу внедрением в него уникальных, ранее не использованных и не описанных признаков, опирающихся на лингвистические знания, например о законах сочетаемости разных категорий звуков или других ограничений различных уровней языка.

В настоящей главе были рассмотрены ключевые модули автоматизированной системы анализа неструктурированной речевой информации: модуль цифровой обработки сигналов, модуль акустического моделирования, лингвистический процессор, модуль декодирования и модуль верификации. Для каждого модуля исследована роль лингвистических знаний в его современном состоянии. Для модуля цифровой обработки сигналов лингвистические знания уже, по сути, встроены в базовый алгоритм, являющийся общепринятым в большинстве современных систем АНРИ. С точки зрения использования лингвистики в данном модуле недостатков не выявлено.

Для модуля акустического моделирования выявлена высокая значимость инвентаря монофонов, а также зачастую недостаточное внимание экспертов к этому аспекту моделирования речи. Следует предложить улучшенный инвентарь акустических единиц и убедиться в том, что он приведет к повышению качества работы целостной системы.

С точки зрения использования лингвистического процессора в системах распознавания речи выявлено, что большая часть систем построена на использовании статического лексикона, что препятствует повышению уровня автоматизации и гибкости процесса транскрибирования. Это в свою очередь снижает качество акустического моделирования (невозможность учета синтаксиса при транскрибировании фраз в обучающей базе данных) и не позволяет корректно транскрибировать фразы при поиске (отсутствие корректного моделирования транскрипций на стыках слов, разрешение омонимии и др.). Принято решение о необходимости полноценно модуля обработки текста с целью устранить перечисленные недостатки.

Единственным слабым местом модуля декодирования, которое можно улучшить с применением лингвистики, является учет вариативности произнесения слов в потоке речи. Предполагается разработать и внедрить в модуль декодирования алгоритм, который позволит учесть данные вариации и повысить тем самым процент обнаружения слов. В рамках изучения модуля верификации определено, что при всей своей статистической проработанности и доказанной эффективности данный модуль в большинстве случаев имеет дело только с типовыми признаками, рассчитываемыми в процессе работы декодера. Следует детально проработать возможность использования лингвистических признаков в процессе подготовки данных для обучения верификатора. В целом выявлен целый ряд зон, в рамках которых применение лингвистических знаний может привести к улучшению показателей работы системы АНРИ.

Ключевые параметры наукоемких модулей системы

На подготовительном этапе заранее созданная база данных звуковых файлов подается на вход модулю вычисления акустических признаков, аудиосигнал преобразуется в последовательности из 39 MFC-признаков. Одновременно текстовые аннотации к звуковым файлам подаются на вход Лингвистическому процессору и преобразуются в последовательность монофонов. Формируется пара «матрица MFC-признаков, транскрипция», которая затем подается на вход модулю акустического моделирования (модулю обучения акустической модели). В качестве средства моделирования используется ПО с открытым исходным кодом Sphinx. В рамках данной работы используется непрерывная акустическая модель, в которой 5 состояний и 16 гауссовых компонент в смеси. Обучение проходит на 50 часах данных телефонного качества.

Также на подготовительном этапе происходит обучение верификатора. Для этого с использованием обученной акустической модели производится декодирование специальной базы данных длительностью 10 часов, в которой имеется разметка на ключевые слова (всего около 3000 разных ключевых слов в потоке речи). В процессе декодирования вычисляются признаки для верификации включая лингвистически мотивированные. Используется декодер разработки ООО «Спич Драйв». Итоговый вектор из 174 признаков подается на вход модулю обучения верификатора – ИНС. Обучение проходит в среде Matlab, используется сеть, описанная в разделе 2.4.

На этапе индексации Лингвистический процессор формирует возможные варианты произнесения искомых ключевых слов и фраз. Далее для искомого слова динамически формируются модели филлеров и полученные структуры данных объединяются в общую фонетическую сеть, описанную в разделе 2.4. Параллельно звуковой поток обрабатывается модулем вычисления акустических признаков, Применяется окно обработки длительностью 24 мсек с перекрытием 50%. Далее вычисляется Mel-спектр на частотах от 300 до 3400 Гц, и по энергиям в полосах вычисляются 13 MFCC-коэффициентов, 1-я и 2-я производные. После этого векторы признаков разделяются на отрезки длиной 500-1500 мсек . Каждый такой отрезок подается на вход декодера. Длины окон и параметры перекрытия определяются исходя из звукового состава искомых слов. Декодер анализирует параметризованный речевой поток и принимает решение о наличии или отсутствии в нем ключевых слов. Декодирование выполняется по методу эстафетной передачи, встроенному в декодер производства ООО «Спич Драйв». Одновременно генерируется вектор признаков для верификатора и передаются в данный модуль для вычисления уровня уверенности в результате распознавания. На завершающем этапе, в случае если вычисленный верификатором уровень уверенности выше порогового, результаты распознавания привязываются к звуковому потоку и сохраняются в специальном индексном файле с указанием временных координат слова в файле и соответствующего уровня уверенности.

Рис. 18 показывает основные этапы работы системы при обработке речевых данных: модули цифровой обработки сигналов, лингвистический процессор, модуль декодирования и верификатор выстраиваются в цепочку и позволяют сформировать индексный файл, содержащий информацию о координате искомых ключевых слов или фраз в исходном аудиофайле.

При проектировании человеко-машинного интерфейса системы были учтены требования простоты использования и целостности сценариев взаимодействия. Благодаря богатой обратной связи, полученной от партнеров и клиентов, в интерфейс включены все необходимые для эффективного анализа функции и элементы. Настройки доступны в 1-2 клика, отчетность выводится на экран в режиме реального времени, панель навигации по результатам обработки поискового запроса обеспечивает удобные возможности сортировки и выбор разных режимов прослушивания. На Рис. 19 приводится пример основной рабочей зоны интерфейса ПО «ANALYZE». Более подробное описание интерфейса приведено в Приложении 2.