Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Автоматизированная система экспертного анализа в задачах верификации диктора Булгакова Елена Владимировна

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Булгакова Елена Владимировна. Автоматизированная система экспертного анализа в задачах верификации диктора: диссертация ... кандидата Технических наук: 05.13.01 / Булгакова Елена Владимировна;[Место защиты: ФГАОУВО Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики], 2016.- 122 с.

Введение к работе

Актуальность темы исследования. В современном обществе отмечается рост числа преступлений в сфере экстремизма, незаконного оборота наркотиков, похищения людей. Увеличение количества уголовных дел, связанных с расследованием подобного рода преступлений, ведет к росту экспертных исследований. Нередко преступники, совершая противоправные действия, используют различные средства голосовой связи и передачи речевой информации. В связи с этим возрастает роль и значение проведения фоноскопических исследований, а также разработка и внедрение в экспертную практику более совершенных методов, алгоритмов и систем анализа речевых сигналов.

Актуальность исследования подтверждается многочисленными
публикациями в таких международных журналах, как IEEE
Transactions on Information Forensics and Security, Expert Systems with
Applications, Information Fusion, IET Biometrics, и докладами по
данной тематике на ведущих международных конференциях: ICASSP,
Interspeech, SPECOM. Следует отметить, что в России

основополагающие работы в области экспертного распознавания
диктора принадлежат Р.К. Потаповой (Московский государственный
лингвистический университет), Н.Б. Кураченковой, Е.И. Галяшиной
(Московский государственный юридический университет им. О.Е.
Кутафина), М.В. Хитиной (Московский государственный

лингвистический университет), А.Ш. Каганову, С.Л. Ковалю (ООО «ЦРТ»), Н.С. Смирновой (ООО «ЦРТ»). За рубежом исследованием данной проблематики занимались H. Hollien, Ph. Rose, F. Nolan, E. Eriksson, L.G. Kersta, H.J. Kunzel и др. ученые. Проведение конкурсов NIST HASR (Human Assisted Speaker Recognition) различных годов национальным институтом стандартов и технологий США (National Institute of Standards and Technology, NIST) также свидетельствует о важности решения данной проблемы.

Речевой сигнал содержит различную информацию, в том числе индивидуальные голосовые характеристики, позволяющие узнать человека по голосу и, как следствие, решить задачу распознавания диктора. Данная задача включает верификацию диктора, в случае если необходимо дать бинарный ответ о тождестве либо различии голосов дикторов на эталонной и тестовой фонограммах, и идентификацию дикторов, в случае если требуется из множества эталонных записей

определить голос, тождественный голосу диктора на тестовой фонограмме.

В процессе проведения фоноскопических исследований с целью
распознавания диктора обычно применяются различные экспертные
методы, совместное использование которых позволяет повысить
точность итогового решения эксперта. При проведении

фоноскопической экспертизы на основе данных методов

предъявляются высокие требования к уровню квалификации
экспертов. Другим ограничительным фактором применения данных
методов является их значительная трудоемкость. Проведение типовой
фоноскопической экспертизы на основе максимально детального
исследования образцов речи может занимать до нескольких дней.
Перечисленные выше факторы препятствуют более широкому
внедрению данных методов в экспертную практику. Кроме того,
нередко эксперт сталкивается с ситуациями проведения

фоноскопической экспертизы в условиях временных ограничений.

Таким образом, существует необходимость дальнейшей автоматизации процессов подготовки данных и принятия решения при проведении фоноскопических исследований с целью повышения эффективности экспертных исследований за счет повышения их точности и снижения трудоемкости.

В диссертации решаются перечисленные выше проблемы повышения точности верификации диктора в рамках проведения фоноскопической экспертизы и автоматизации «ручного» труда эксперта.

Степень разработанности темы исследования.

Значительный вклад в развитие технологий экспертного распознавания диктора внесли как отечественные (Р.К. Потапова, Н.Б. Кураченкова, Е.И. Галяшина, А.Ш. Каганов, С.Л. Коваль, Н.С. Смирнова), так и зарубежные ученые (H. Hollien, F. Nolan, E. Eriksson, L.G. Kersta). Однако несмотря на проведение многочисленных исследований в данной области, в настоящее время не представлены экспертные системы, которые в полной мере удовлетворяют требованиям, предъявляемым к решению практических задач верификации диктора.

Целью исследования является разработка и реализация автоматизированной системы экспертного анализа в задачах верификации дикторов.

Для достижения данной цели были поставлены и решены

следующие задачи:

  1. Исследование современных подходов к решению задачи верификации дикторов в отечественной и зарубежной экспертной практике.

  2. Исследование методов и алгоритмов извлечения используемых в экспертной практике мелодических признаков речи и признаков, обладающих наибольшей дискриминационной способностью при верификации дикторов.

  3. Разработка алгоритма верификации дикторов на основе сравнения статистик длительностей фонем с целью снижения трудоемкости и повышения точности верификации дикторов.

  4. Разработка схемы комбинирования алгоритмов верификации дикторов на основе статистик длительностей фонем, значений формант и значений мелодических признаков с целью снижения ошибки верификационного решения.

  5. Подготовка речевых баз данных для оценки параметров алгоритмов и тестирования системы верификации дикторов.

  6. Проведение экспериментальных исследований для оценки эффективности разработанной системы верификации дикторов.

Объектом исследования являются системы верификации диктора.

Предметом исследования являются алгоритмы верификации диктора при проведении экспертного анализа фонограмм.

Научная новизна

  1. Предложен алгоритм отбора мелодических признаков, а также признаков на основе статистик длительностей фонем, обладающих наибольшей дискриминационной способностью при верификации дикторов.

  2. Разработан алгоритм верификации дикторов на основе сравнения статистик длительностей фонем, отличающийся низкой трудоемкостью за счет автоматизации процесса извлечения признаков и повышенной точностью за счет высокой дискриминационной способности сегментных длительностных признаков речи.

  3. Разработана схема объединения алгоритмов верификации дикторов на основе статистик длительностей фонем, значений формант, а также значений мелодических признаков, позволяющая

повысить точность верификации диктора за счет комбинирования слабо коррелированных классификаторов.

Практическая значимость работы.

Результаты, полученные в ходе выполнения диссертационного исследования, используются на практике для решения задачи верификации дикторов в рамках выполнения фоноскопической экспертизы.

Методы исследования. Методы системного анализа,

распознавания дикторов, цифровой обработки сигналов, теории вероятности и математической статистики.

Положения, выносимые на защиту.

  1. Алгоритм отбора мелодических признаков речи и признаков на основе статистик длительностей фонем, обладающих наибольшей дискриминационной способностью при верификации дикторов.

  2. Алгоритм верификации дикторов на основе сравнения статистик длительностей фонем, отличающийся низкой трудоемкостью за счет автоматизации процесса извлечения признаков и повышенной точностью за счет высокой дискриминационной способности сегментных длительностных признаков речи.

  3. Схема объединения алгоритмов верификации дикторов на основе статистик длительностей фонем, значений формант, а также значений мелодических признаков, позволяющая повысить точность верификации диктора за счет комбинирования слабо коррелированных классификаторов.

Внедрение результатов работы. Результаты диссертационного исследования внедрены при выполнении следующих завершенных научно-исследовательских и опытно-конструкторских работ: НИР «Совершенствование экспертных методов исследования речевых сигналов» (в/ч 68240, 2015), ОКР «Разработка АПК по идентификации лиц, говорящих на иностранных языках (цыганском, таджикском и др.)» (ФСКН, 2005-2013). Также результаты работы были внедрены в изделие «Икар Лаб: комплекс криминалистического исследования фонограмм речи», разработанное в компании ООО “ЦРТ”.

Результаты работы внедрены в учебный процесс на кафедре речевых информационных систем Университета ИТМО в дисциплине «Распознавание дикторов», а также при выполнении НИР №713554, этап 5 «Исследование алгоритмов и программных средств многомодальной биометрии, включая определение физических и

поведенческих характеристик человека, распознавание личности по биометрическим признакам различной модальности».

Достоверность научных положений, выводов и

практических рекомендаций, полученных в рамках данной диссертационной работы, подтверждается корректным обоснованием постановок задач, точной формулировкой критериев, компьютерным моделированием, результатами экспериментальных исследований, нашедших отражение в достаточном количестве публикаций в научных журналах, в том числе из списка ВАК и Scopus, а также представлением основных положений на ведущих международных и отечественных конференциях.

Апробация результатов исследования. Результаты

исследования представлялись для обсуждения на следующих научно-методических конференциях: «XLIII-XLV научные и учебно-методические конференции НИУ ИТМО» (Санкт-Петербург, 2014-2016), «III Всероссийский конгресс молодых ученых» (Санкт-Петербург, 2014), «17th International Conference on Speech and Computer SPECOM 2015» (Афины, Греция), «18th International Conference on Speech and Computer SPECOM 2016» (Будапешт, Венгрия). За научные результаты, достигнутые в процессе выполнения исследования, соискателем был получен диплом победителя конкурса грантов правительства Санкт-Петербурга для аспирантов в 2014 году.

Личный вклад автора состоит в выполнении основного объема
приведённых в диссертационной работе теоретических и

экспериментальных исследований. Автором лично проведен анализ
современных подходов к решению задачи экспертного распознавания
диктора по голосу и речи, произведен выбор наиболее

информативных длительностных и мелодических признаков,

разработан и реализован алгоритм сравнения статистик длительностей фонем, разработана схема объединения алгоритмов верификации дикторов. Подготовка ключевых публикаций проводилась совместно с соавторами, при этом вклад автора был основным.

Публикации. По теме диссертации было опубликовано 9 научных работ, в том числе 2 статьи опубликованы в изданиях из базы данных Scopus, 3 статьи опубликованы в журналах из перечня ВАК.

Объем и структура диссертации. Диссертационная работа состоит из введения, четырех глав, заключения и списка литературы.