Инкорпорирование речевых компонентов в лингвистические обучающие системы Ордин Михаил Юрьевич

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Ордин Михаил Юрьевич. Инкорпорирование речевых компонентов в лингвистические обучающие системы : диссертация ... кандидата филологических наук : 10.02.21.- Москва, 2005.- 216 с.: ил. РГБ ОД, 61 06-10/945

Содержание к диссертации

Введение

Глава I. Теоретические основы разработки фонетической обучающей системы

1.1 Современные алгоритмы автоматического распознавания речи применительно к фонетическим обучающим системам

1.1.1 Алгоритмы анализа речевых сигналов применительно к разработке речевых компонентов

1.1.2 Методы автоматического обнаружения фонетических и фонологических ошибок

1.1.3 Устойчивость автоматического распознавания иноязычной (интерферированной) речи

1.1.4 Методики автоматической оценки произношения и произнесений обучающегося

1.2 Обзор существующих обучающих систем и принципы 58

разработки фонетического обучающего программного обеспечения

1.2.1 История развития обучающего программного обеспечения фонетического профиля

1.2.2 Адекватная целям обучения реализация обратной связи как основное требование к лингвистическим обучающим системам

1.2.3 Классификация обучающих программ фонетического профиля

1.2.4 Принципы и этапы разработки обучающего программного обеспечения

1.3 Лингвистическая интерференция 83

1.3.1 Феномен и виды лингвистической интерференции 83

1.3.2 Артикуляторный механизм и модели речепроизводства 93

1.3.3 Программная реализация динамической модели артикуляции

Выводы 116

Глава II. Опыт создания обучающей фонетической системы на основе акустико-перцептивного исследования межъязыковой интерференции

II. 1 Экспериментальное исследование русско-английской интерференции, проведенное на основе современных речевых технологий

II. 1.1 Задачи экспериментального исследования интерференции

И. 1.2 Подготовка и проведение акустического экперимента 121

II. 1.3 Результаты акустического эксперимента 126

II. 1.4 Аудиторский эксперимент 133

II. 1.5 Интерпретация результатов 149

II.2 Практические аспекты разработки фонетической обучающей системы

ІІ.2.1 Моделирование 153

II.2.2 Выбор парадигмы программирования 159

II.2.3 Инкорпорирование существующих компонентов Microsoft SAPI

II.2.4 Разработка специальных речевых компонентов для инкорпорирования в обучающие лингвистические системы фонетического профиля

Выводы 171

Алгоритмы анализа речевых сигналов применительно к разработке речевых компонентов
Адекватная целям обучения реализация обратной связи как основное требование к лингвистическим обучающим системам
Задачи экспериментального исследования интерференции
Практические аспекты разработки фонетической обучающей системы

Введение к работе

В наше время информационные технологии проникают практически в каждую сферу жизнедеятельности человека, в том числе в область обучения иностранным языкам. Одним из наиболее наукоемких и перспективных направлений в информационных технологиях являются речевые технологии. Полученные в этом направлении результаты используются повсеместно: в коммуникационной отрасли (телефония, IP-телефония, телекоммуникационные приложения), при разработке специального программного обеспечения (идентификаторы и верификаторы личности по голосу), в компьютерных приложениях распознавания речи, при разработке обучающего программного обеспечения и т.д. Развитие речевых технологий связано с успехами в компьютерных науках, в проектировании аппаратных средств и в анализе речи, акустической фонетике [Потапова, 1999 а].

Разработка обучающих программ - одна из наиболее востребованных и в то же время наименее разработанных областей компьютерной лингводидактики. Проблематика создания компьютерных обучающих систем фонетического профиля на базе речевых технологий изучена в меньшей степени по сравнению с проблематикой построения систем обучения другим аспектам иноязычной речи, несмотря на богатый материал и широкие возможности, предлагаемые сторонними разработчиками и системными программистами тем, кто решит заняться построением обучающей фонетической системы.

Обучающее программное обеспечение, предназначенное для повышения фонетической компетенции, без сомнения, нуждается в инкорпорировании речевых компонентов, которые могли бы реализовывать такие функции, как оценка и коррекция речевой реализации обучающимся [Потапова, 1998; 1999 а]. Подобные возможности, предоставляемые пользователям, позволят обучающимся в автономном режиме приобретать соответствующую фонетическую

компетенцию.

Компьютерные обучающие системы появились во многом как альтернатива традиционным методам обучения [Потапова 2002: 10-70]. Интеграция звука, голосового ввода, текста, видео, анимации позволила разработать интерактивную обучающую среду и обучающие средства, улучшающие традиционные методы обучения иностранным языкам. Первые обучающие системы использовались как правило в качестве средства контроля и впоследствии как инструмент диагностики [Потапова, 1991; Ботвенко, 2005: 14-18]. Появление интеллектуальных систем с подстройкой под обучающегося позволило использовать ЭВМ для повышения мотивации обучающегося и для индивидуализации обучения [Потапова, 1990; 2002: 33-61; Кедрова, 2000]. Однако общий вклад компьютерных средств обучения в современном учебном процессе не так значителен по сравнению с более традиционными техническими средствами обучения.

Можно выделить целый ряд причин, объясняющих сложившуюся ситуацию. Во-первых, отсутствие общепринятой теоретической базы, унифицированной системы взглядов и представлений о том, как должны использоваться компьютерные средства обучения и что они должны предлагать, отсутствие методологии разработки и оценки обучающего программного обеспечения. Во-вторых, недостаточная квалификация преподавателей для использования компьютерных средств обучения. В-третьих, недоказанность экономической и академической выгоды от внедрения новых информационных технологий в учебный процесс.

Данное диссертационное исследование посвящено исследованию проблематики создания обучающей лингвистической системы фонетического профиля с элементами акустической обратной связи и применения современного компьютерного инструментария в целях проведения лингвоконтрастивного

анализа звучащей речи, определения основополагающих характеристик фонетической русско-английской интерференции методами корпусной и контрастивной лингвистики, а также перцептивной и экспериментальной фонетики*.

Основная цель работы заключается в анализе потенциальной возможности применения новейших достижений в области речевых технологий для разработки фонетической обучающей системы с элементами акустической обратной связи и в создании прототипа основного программного модуля, реализующего распознавание интерферированной речи и осуществляющего оценку конкретных произнесений и произношения говорящего в целом, а также в создании банка ошибок автоматического распознавания речи, вызванных явлением межъязыковой интерференции.

Лингвоконтрастивное исследование звучащей речи на базе современных речевых технологий актуально в связи с необходимостью широкого внедрения в лингводидактику новых информационных технологий и лингвистических обучающих систем с речевым вводом и обратной связью [Potapova, 2003] и недостаточной изученностью проблематики создания компьютерных обучающих систем фонетического профиля. Как показало проведенное исследование, существующее обучающее программное обеспечение фонетического профиля не отвечает современным требованиям, предъявляемым к средствам обучения, и не использует весь потенциал новых информационных технологий. Обратная связь с обучающимся отсутствует или реализована с помощью визуализации речевого сигнала, непонятной пользователю без специальной профессиональной подготовки [Потапова 2002: 429; 1993]. Вычислительная мощность современных компьютеров и достижения в области прикладной лингвистики, когнитивных

* Данное исследование поддерживалось Министерством Образования РФ в 2001-2004 годах, номер гранта ГРНТИ 14.01.29 (научный руководитель проекта - Потапова Р.К.) и грантом Американского Акустического Общества, номер гранта RX0-1210(14)-XX-04 (научный руководитель проекта - Потапова Р.К.)

наук, педагогической психологии и методики позволяет снабдить компьютерные обучающие системы модулем формирования рекомендаций по исправлению произношения как интегральной характеристики речи обучающегося [Potapova 2003]. Современное обучающее программное обеспечение, рассмотренное в данном исследовании, не включает блок формирования рекомендаций и реализует обратную связь без учета новых достижений в акустической и перцептивной фонетике.

Кроме того, в работе решается актуальная задача повышения устойчивости систем автоматического распознавания устной речи применительно к межъязыковой интерференции на фонетическом уровне. Решение этой задачи необходимо в связи с широким внедрением элементов распознавания речи в системы, используемые не только носителями языка, но и иностранцами (например, справочные системы, терминалы автоматического заказа билетов, продуктов, бронирования гостиниц и т.д.), то есть теми, чья устная речь будет отличаться от аутентичной. Устойчивость работы всей системы зависит от устойчивости модуля распознавания речи к межъязыковой фонетической интерференции.

Научная новизна диссертации заключается в том, что в исследовании впервые собрана база данных - звуковых сегментов интерферированной русско-английской речи, содержащая наиболее трудные для автоматического распознавания кластеры фонемных реализаций. Впервые выделены оптимальные алгоритмы для автоматического распознавания интерферированной речи в лингвистических обучающих системах фонетического профиля, ибо никогда ранее не предпринималась попытка анализа алгоритмов автоматического распознавания речи с целью выделения оптимальных подходов к созданию лингвистических обучающих систем фонетического профиля. В исследовании впервые применяются методы корпусной лингвистики для построения базы

данных фонетических ошибок, допущенных при продуцировании речи человеком и при автоматическом распознавании интерферированной речи компьютером. Впервые разработана и применена методика классификации ошибок автоматического распознавания звучащей речи с учетом определяющих факторов: межъязыковой интерференции на фонетическом уровне и технических причин (искажения сигнала в каналах передачи, реверберация и акустика помещения, шумы, неточности алгоритма и т.д.). Впервые разработанные речевые компоненты на основе речевых интерфейсов прикладного программирования SAPI адаптированы для создания фонетических обучающих систем.

Основная гипотеза исследования формулируется следующим образом: Изучающий иностранный язык в процессе говорения склонен переносить некоторые характерные особенности звукового строя родного языка в систему изучаемого языка. Этот процесс называется лингвистической фонетической интерференцией и проявляется в наличии иноязычного акцента в речи обучающегося [Potapova, 1999 b; Potapov 2003 a; b]. Отклонения от аутентичного произношения могут быть определены как набор специфических признаков иноязычного акцента, каждый признак выражается посредством акустических коррелятов, которые измеряются с помощью компьютерного анализа речевого сигнала на основе известных алгоритмов. Следовательно, признаки иноязычного акцента могут быть выявлены путем применения современных речевых технологий, например, технологий распознавания звучащей речи, поэтому технологии распознавания речи могут применяться при разработке лингвистической обучающей системы фонетического профиля в целях обнаружения и коррекции фонетических ошибок в речи обучающегося.

Любая система автоматического распознавания звучащей речи ошибается при распознавании интерферированной речи. Некоторые ошибки распознавания определяются наличием интерференции и нарушением звуковой системы языка,

другие - несовершенством аппаратного обеспечения, ошибками алгоритмов распознавания звучащей речи, и искажениями речевого сигнала, вызванными внешними факторами, например, реверберацией.

Применение существующей системы распознавания речи ViaVoice, методов корпусной лингвистики, перцептивной экспериментальной фонетики и новых достижений в речевых науках и технологиях позволило создать банк ошибок распознавания, определяемых межъязыковой интерференцией на фонетическом уровне, и создать прототип компьютерной обучающей фонетической системы.

Круг проблем, встающих перед разработчиком речевых компонентов для обучающих системы фонетического профиля, можно определить как задачу автоматического обнаружения, спецификации и коррекции ошибок в речи обучающихся (пользователей), а также разработки блока формирования рекомендаций пользователям по исправлению этих ошибок [Потапова, Ордин, 2003; Potapova, Ordin, 2003; 2004].

Поставленные проблемы требуют решения следующих конкретных задач:

проанализировать современные алгоритмы распознавания речи;
определить модель речепроизводства, наиболее подходящую для компьютерной реализации;
рассмотреть и выделить достоинства и недостатки существующего обучающего программного обеспечения фонетического профиля;
выделить наиболее частотные ошибки при автоматическом распознавании интерферированной речи и выявить, вызваны они работой алгоритма или фонетико-фонологическими ошибками говорящего вследствие переноса особенностей родного произношения на систему иностранного изучаемого языка;
разработать модель обучающей фонетической системы и

11 работоспособный прототип базового модуля, реализующего распознавание речи и элементы акустической обратной связи.

Поставленные задачи определили структуру работы.

Работа состоит из введения, двух глав, заключения и приложений.

В первой главе содержится аналитическое исследование современных алгоритмов, реализующих базовый метод распознавания речи. Данная работа выполнена на материале анализа литературы по проблеме распознавания речи.

Далее рассматривается феномен межъязыковой интерференции, приводятся примеры интерференции различных типов, анализируются факторы, обуславливающие лингвистическую интерференцию на фонетическо-фонологическом уровне. Рассматриваются артикуляторный и перцептивный механизмы, модели речепроизводства и речевосприятия, вопросы программной реализации артикуляторных моделей.

Также первая глава содержит обзор существующих обучающих систем фонетического профиля и принципы разработки фонетического обучающего программного обеспечения, включая методологические, технологические и технические аспекты.

Во второй главе рассматриваются практические вопросы применения современных достижений в области речевых технологий для проектирования различных модулей обучающей системы, содержится описание экспериментального исследования русскоязычной интерференции, проведенное на базе современных речевых технологий, описывается методика, выбор испытуемых, материал, инструментарий эксперимента. Делается вывод о перспективности использования существующих механизмов распознавания речи в целях их дальнейшей адаптации и применения при разработке компьютерных лингвистических обучающих систем фонетического профиля.

Кроме того, во второй главе рассматриваются практические аспекты

разработки компьютерной обучающей системы фонетического профиля: вопросы моделирования обучающего программного обеспечения на различных уровнях абстракции; вопросы связывания различных модулей в единое целое (включая методы инкорпорирования речевых элементов в систему); вопросы выбора парадигмы программирования; структура и интерфейсы речевых компонентов SAPI 5.1 и SAPI 4.0, а также вопросы, затрагивающие их инкорпорирование в приложения, написанные на различных языках программирования.

Заключение содержит обобщение основных теоретических положений по затронутой в работе проблематике, представляет наиболее значительные выводы, полученные при анализе экспериментальных данных, а также рекомендации по разработке полной версии обучающей системы; намечает перспективы дальнейшей работы в данном направлении.

Список литературы содержит ссылки на 101 источник.

В Приложении содержится пользовательская документация и техническое описание прототипа обучающей системы, полный исходный программный код всех разработанных модулей прототипа обучающей системы; таблица, которая приводит обзор современных систем автоматического распознавания устной речи, предназначенных для выполнения различных целей и использующих различные алгоритмы и вычленяемые параметры речевого сигнала; таблица, содержащая информацию касательно современных обучающих систем для повышения фонетической компетенции обучающегося.

Методика исследования включает: Анализ специальной литературы по проблеме автоматического распознавания речи и повышения робастности автоматического распознавания интерферированной звучащей речи [Teixeira et al., 1997; Transcoso et al., 1999; Witt, Young, 1995; Junqua, 2000; Janqua, Haton, 1996; Humphries, Woodland, 1997; Huang et al., 2001; Jurafsky, Martin, 2000; и т.д.];

Анализ специальной литературы по проблеме межъязыковой интерференции на фонетическом уровне [Browman, Goldstein, 1992; 1993; Potapov, 2003 a; b; Чистович et al. 1976; Венцов, Касевич, 2003; и т.д.];

Критический анализ существующих обучающих систем фонетического профиля;

Проведение многоэтапного эксперимента с целью создания банка ошибок автоматического распознавания звучащей речи, вызванных межъязыковой интерференцией на фонетическом уровне:

Подбор испытуемых (дикторов, носителей русского языка со знанием английского языка);

Подбор экспериментального материала;

Подстройка системы автоматического распознавания речи ViaVoice к решению поставленных в исследовании задач;

Распознавание вводимой в систему автоматического распознавания речи звучащей речи дикторов в реальном времени;

Анализ распознанных текстов и сравнение полученных текстов с оригиналом, выделение регулярно повторяющихся ошибок распознавания;

Подбор аудиторов (профессиональных фонетистов со знанием английского языка и опытом участия в перцептивно-слуховых экспериментах);

Проведение аудиторского эксперимента с целью определить наиболее частотные фонетико-фонологические ошибки в речи испытуемых;

Сравнение двух наборов частотных ошибок - ошибок распознавания и фонетико-фонологических ошибок, выделенных аудиторами. В случае совпадения ошибки распознавания и фонетической ошибки, выносилось предположение о том, что данная ошибка распознавания

определяется межъязыковой интерференцией на фонетическом уровне;

Классификация ошибок распознавания, вызванных межъязыковой фонетической интерференцией;

Верификация экспериментальных данных с помощью независимо разработанного модуля, реализующего распознавание речи. По необходимости коррекция банка ошибок распознавания, вызываемых фонетической межъязыковой интерференцией.

Моделирование компьютерной фонетической обучающей системы с учетом экспериментальных данных;

Адаптация речевых компонентов для разработки обучающей фонетической системы;

Разработка прототипа модуля обучающей системы, реализующего базовый метод распознавания речи.

На защиту выносятся следующие положения:

Существующие на сегодняшний день и свободно распространяемые речевые компоненты могут быть частично адаптированы к решению задачи разработки лингвистического обучающего программного обеспечения фонетического профиля с элементами акустической обратной связи.

Не все фонетико-фонологические ошибки обучающегося, вызванные интерференцией, ведут к некорректному автоматическому распознаванию речи, если используются существующие на сегодняшний день и свободно распространяемые речевые компоненты.
При применении существующих и свободно распространяемых речевых компонентов необходимо сконцентрировать внимание на коррекции тех фонетико-фонологических ошибок в речи обучающегося, которые вызывают «ошибки» распознавания системой.

При разработке компьютерной обучающей системы, способной оптимально обнаружить фонетико-фонологические ошибки в речи обучающегося, целесообразно создание специальных речевых компонентов.
Экспериментальный подход, примененный к формированию банка данных-ошибок» распознавания, обусловленных межъязыковой фонетической интерференцией, представляется наиболее соотносимым с решением поставленной в исследовании задачи разработки лингвистической обучающей системы фонетического профиля.

Достоверность полученных сведений определена представительной
выборкой информантов, высокой квалификацией информантов, принявших
участие в аудиторском эксперименте, независимой верификацией результатов с
использованием самостоятельно разработанного инструментария,

методологической базой и применявшимся математическим статистическим аппаратом.

В эксперименте приняли участие 42 диктора - носители русского языка со знанием английского языка - и 6 аудиторов - профессиональные фонетисты с опытом экспериментальной работы и участия в перцептивных экспериментах.

Результаты эксперимента подверглись верификации с применением разработанного программного модуля, реализующего базовый метод распознавания речи, и разработанного на той же технологической основе, которая использовалась при создании основного экспериментального инструмента -системы распознавания устной речи ViaVoice.

Результаты исследования были апробированы на международных конференциях SPECOM-2003, SPECOM-2004, SPECOM-2005, тринадцатой и пятнадцатой сессиях Российского Акустического Общества, на конференции Информатизация и информационная безопасность правоохранительных органов 2004, на кафедре прикладной и экспериментальной лингвистики Московского

16 государственного лингвистического университета, и в итоговых отчетах, представленных в Министерство образования и науки РФ и Американское акустическое общество.

Теоретическая значимость данного диссертационного исследования определяется тем, что полученные результаты являются значительным вкладом в теорию изучения феномена межъязыковой интерференции на фонетическом уровне, в дальнейшее развитие теории человеко-машинной коммуникации и искусственного интеллекта. В диссертации получают дальнейшую разработку и расширяют область применения методы корпусной и контрастивной лингвистики. В работе предлагается анализ алгоритмов автоматического распознавания речи с учетом фактора межъязыковой интерференции.

Более того, предложен новый подход к вопросу изучения механизмов речевосприятия и речепроизводства, с позиции разработчика обучающей лингвистической системы фонетического профиля.

Разработанный метод адаптации существующих речевых компонентов к инкорпорированию в обучающее фонетическое программное обеспечение применим к разноплановым компонентам.

Практическую ценность работы составляют полученные в ходе экспериментального и аналитического исследования результаты:

Банк данных наиболее частотных ошибок автоматического распознавания речи, обусловленных русско-английской фонетической интерференцией, который позволит существенно повысить устойчивость систем распознавания речи к межъязыковой интерференции и построить автоматический верификатор родного языка диктора (русского языка), говорящего на английском языке.

Метод адаптации существующих речевых компонентов к решению задачи разработки обучающего фонетического программного обеспечения,

значительно повышающего эффективность учебного процесса.

Банк современных алгоритмов и алгоритмических подходов (последнее десятилетие XX - начало XXI века) применительно к системам автоматического распознавания звучащей речи и повышения их устойчивости к межъязыковой интерференции на фонетическом уровне.

Прототип основного модуля компьютерной лингвистической обучающей системы фонетического профиля, реализующий базовый метод распознавания речи.

Результаты представленного исследования также актуальны при решении задач криминалистической фонетики, а именно при определении родного языка говорящего в целях идентификации и верификации говорящего по голосу.

Алгоритмы анализа речевых сигналов применительно к разработке речевых компонентов

Информатизация образования - процесс неизбежный и необходимый для решения новых возникших перед системой образования задач. Во-первых, в современном обществе информация имеет тенденцию к быстрому устареванию, а объем данных - к экспонентному росту. Следовательно, необходимо решить задачу увеличения скорости доставки информации и качества сортировки данных [Потапова 2002]. Во-вторых, требуется повысить эффективность усвоения материала, так как обучающемуся необходимо овладеть большим объемом материала в более сжатые сроки, чтобы приобрести компетенцию в какой-либо сфере. Эти задачи и определяют необходимость внедрения новых информационных технологий в образование .

Представленная работа посвящена решению задач разработки лингвистической обучающей системы фонетического профиля. Одним из основных способов решения задачи оптимизации процесса приобретения фонетической компетенции является использование новейших достижений в области речевых технологий в обучающих лингвистических системах.

Лингвистические обучающие системы фонетического профиля можно разделить на две группы: 1. Обучающие системы, направленные на то, чтобы помочь обучающемуся повысить профессиональную компетенцию в области науки о языке и ее практических приложений. В качестве примера можно привести программный продукт Sprachlabor (разработчик AVS Technologies Inc.), который актуален при изучении вопросов акустики речи, речевого сигнала, речепроизводства и речевосприятия, артикуляторной фонетики. Вместе с тем данный продукт не охватывает такие разделы, как фонологическая типология, ритмическая организация речи, акцентуация и т.д. 2. Обучающие системы фонетического профиля, направленные на совершенствование речевой компетенции (корректирование произношения как интегральной характеристики речи говорящего). В данном исследовании рассматриваются вопросы разработки речевых компонентов для инкорпорирования в лингвистические обучающие системы фонетического профиля, направленные на совершенствование речевой компетенции.

К речевым компонентам компьютерных лингвистических обучающих систем фонетического профиля, используемым для проверки, оценки и коррекции иноязычного произношения, предъявляются следующие требования [Потапова, Ордин 2003; Potapova, Ordin 2003]: 1. обнаружить и локализовать допущенную обучающимся фонетическую или фонологическую ошибку; 2. определить, насколько конкретная речевая реализация обучающегося отличается от аутентичной модели произнесения, заложенной в систему; 3. объяснить допущенную ошибку; 4. сформировать практические рекомендации по исправлению допущенной ошибки. Таким образом, разработчик речевых компонентов для подобной обучающей системы должен решить три стоящие перед ним задачи [Потапова, Ордин 2003]. 1) Во-первых, необходимо выделить фонологические ошибки (ошибки, препятствующие коммуникации и ведущие к изменению смысла высказывания) и наиболее часто встречающиеся фонетические ошибки, которые не препятствуют пониманию, но явным образом формируют набор отклонений от нормы, называемый иноязычным акцентом. 2) Во-вторых, необходимо определить методики измерения ошибок и оценки конкретного произнесения обучающегося. 3) В-третьих, система должна не только определить наличие ошибок в речи пользователя, но и сформулировать инструкции и рекомендации по их исправлению. Частичное решение этих задач сводится к адаптации существующих алгоритмов распознавания слуховых образов для применения в обучающих системах и к выбору модели репрезентации знания об артикуляции и перцепции сегментов речи при разработке блока интеллектуальной системы, формулирующей рекомендации для коррекции произнесений (отдельных девиаций от нормы) и произношения (интегральной характеристики речи говорящего) обучающегося.

Автоматическое распознавание речи - междисциплинарная область, в которой работают специалисты различного профиля: инженеры, программисты, лингвисты, математики и многие другие. Как правило, подходы к решению этой задачи обусловлены как требованиями к разрабатываемому продукту, так и компетенцией разработчиков. На требования к продукту влияют доступные средства разработки, аппаратные средства, которые будут реализовывать алгоритмы распознавания, сфера применения продукта и т.д.

Адекватная целям обучения реализация обратной связи как основное требование к лингвистическим обучающим системам

К сожалению, анализ обучающих фонетических систем показал, что далеко не все предлагаемые программы отвечают педагогическим и методическим требованиям. Согласно [Murray, Barnes 1998], это происходит оттого, что многие разработчики больше ориентируются на технологические новшества, а не на требования процесса обучения, не на методико-педагогические и психологические критерии.

Ведущий российский специалист в области лингвистического обучающего программного обеспечения Потапова Р.К. выделила ряд лингвистических требований к компьютерным фонетическим обучающим системам [Потапова 2002: 430-446; Potapova, Shigina: 18-36]. Основным требованием к подобным программным решением является адекватная обратная связь с пользователем-обучающимся, реализуемая посредством инкорпорируемых в систему речевых компонентов (в том случае, если требуется безакцентное произношение, требования будут несколько иные, нежели в том случае, когда в ходе фонетического тренинга необходимо повысить разборчивость речи).

Термин «обратная связь» в методической литературе понимается достаточно широко, от предоставления коррективной информации обучающемуся до имплицитных высказываний об академических успехах студента, повышающих его мотивацию в процессе обучения [Ambra et.al. 2003]. Далее в нашей работе мы будем рассматривать обратную связь как внешнюю эксплицитно выраженную информацию о конкретных речевых реализациях пользователя, выраженную в графическом, аудио или текстовом формате, а также сформулированные в корректирующем модуле системы индивидуальные инструкции, направленные на улучшение произносительной стороны речи каждого конкретного пользователя.

Согласно проанализированным обзорам, техническим описаниям и отзывам касательно многих фонетических обучающих систем, большинство из них проводит акустический анализ введенного сигнала и мгновенно выводят обучающемуся в качестве обратной связи спектрограмму и осциллограмму его речевой реализации и эталонной речевой реализации. Мы вынуждены отметить, что кроме оперативности такой вид обратной связи не совсем адекватен требованиям процесса обучения.

Во-первых, подобная реализация обратной связи подразумевает то, что обучающийся должен воспроизвести речевой сигнал с такими же значениями акустических параметров, какие присущи хранящемуся эталону. Однако исследования в области экспериментальной фонетики показали, значения одних и тех же параметров при реализации одной и той же последовательности фонем могут значительно различаться [Goldstein, Fowler 2002: 32-40; Stevens 1972; 1989]. Более того, согласно квантовой теории речевосприятия, слуховой аппарат человека может оказаться восприимчивым к незначительным изменениям какого-либо параметра в заданном контексте, и в то же время игнорировать значительные изменения другого параметра в аналогичном контексте. При смене контекста параметры первой группы могут потерять свою значимость, а параметры второй - приобрести различительную силу [Stevens 1972; 1989].

Во-вторых, обратная связь в виде спектрограммы подразумевает наличие у студента специального образования в области прикладной фонетики и опыта, достаточного для самостоятельной интерпретации ответа системы. Кроме того, даже для опытных специалистов декодирование спектрограммы в целях извлечения информации, релевантной для улучшения произнесения, может оказаться нетривиальной задачей, потому что прямое соответствие между артикуляторными жестами и акустической структурой отсутствует.

Наконец, в-третьих, акустический сигнал, вводимый пользователем через микрофон, подвергается значительным искажениям, что отражается на структуре акустических параметров. Искажения вносятся за счет акустики помещения, в котором происходит тренинг (например, реверберации), искажений сигнала в каналах передачи информации, и из-за несовершенства используемого аппаратного обеспечения (не стоит ожидать точных корректных расчетов, если машина оснащена звуковой картой типа Sound Blaster Live, являющейся стандартом де-факто при сборке бытовых компьютеров, используемых в фонетических кабинетах учебных заведениий).

Как следствие, студенты предпринимают несистематические, случайные, беспорядочные и неуправляемые попытки воспроизвести высказывание с заданными значениями акустических параметров, однако результат от такого тренинга может оказаться противоположным ожидаемому [Chapelle 1998; Pennington 1999].

Что касается представления формы речевой волны (осциллограммы) в качестве обратной связи, например, в программах Mr. Higgins и Pronunciation, то все вышесказанное про спектрограмму относится в еще большей степени к анализу осциллограммы. При использовании упомянутых программ обучающемуся предлагается прочитать лимерики, отдельные звуки, фразы, скороговорки и добиться совпадения формы речевой волны с образцом. Все недостатки, касающиеся вывода спектрограммы в качестве обратной связи, умножаются в несколько раз при использовании с этой целью речевой волны, ибо она отличается еще большей по сравнению со спектрограммой вариативностью и гораздо меньшей информативностью [Потапова 2002: 422-430].

Вывод спектрограммы и осциллограммы присутствует даже в фонетических обучающих системах, оснащенных другими формами обратной связи. В категорию таких продуктов попадают серийные программы Talk to Me и Tell me More, оснащенные различными информативными видами обратной связи, однако эффектные визуализации пользовательских реализаций используются для того, чтобы поразить пользователя. Стоит иметь в виду, что информативность таких форм обратной связи сомнительна, а негативный эффект - отвлечение внимания на красочную изменяющуюся картинку -заметно ощутим.

В связи с вышесодержащейся критикой следует упомянуть систему WinPitchLTL, разработанную двумя фонетистами. В отличие от готовых обучающих программ, эта система представляет собой среду разработки обучающего фонетического программного обеспечения. Среда разработки предлагает разработчику использовать кривую основного тона, кривую интенсивности, осциллограмму и спектрограмму. Однако в систему входит средство для обработки текста и инструменты редактирования, что позволяет разработчику и преподавателю добавлять текст и выделять релевантные ключи и сегменты спектрограммы, осциллограммы, кривых интенсивности и частоты основного тона. Это позволяет сделать визуализацию акустических параметров информативной для обучающегося. Однако нам необходимо заметить, что эффективность данной среды разработки обучающих фонетических курсов полностью обусловлена наличием квалифицированного преподавателя-фонетиста, который предварительно расставил бы все необходимые обучающемуся акценты и разъясняет предоставляемую информацию пользователю. Данное обстоятельство, без сомнение, значительно ограничивает возможную область применения продукта WinPitchLTL.

В некоторых компьютерных фонетических обучающих системах интонационные контуры (кривые частоты основного тона) и кривые интенсивности используются для работы над супрасегментной стороной звучащей речи. Декодирование кривой основного тона просто и интуитивно понятно, в отличие от декодирования спектрограммы или осциллограммы. Примером системы, использующей эти кривые, является BetterAccentTutor. Цель этой системы - работа над акцентуацией, ритмом и интонационным оформлением высказываний на английском языке. Работа с системой строится следующим образом: обучающийся прослушивает образец, произнесенный носителем языка, повторяет его и немедленно получает графическую репрезентацию эталонной и своей реализации, модуль обратной связи работает в двух режимах: интонация выводится на экран как контур частоты основного тона, а слоговая интенсивность и ритмическая структура - в виде ступенчатой шкалы со ступенями разной длинны (отображение длительности ударных и безударных слогов) и высоты (отображение энергии на слоге). К сожалению, программа BetterAccentTutor исключает работу над произношением на сегментном уровне.

Задачи экспериментального исследования интерференции

В рамках работы над диссертацией было проведено экспериментальное исследование, посвященное разработке проблемы применения современного компьютерного инструментария в целях проведения лингвоконтрастивного анализа звучащей речи и определения основополагающих характеристик фонетической русско-английской интерференции методами корпусной лингвистики в целях дальнейшей разработки речевых компонентов для инкорпорирования в лингвистические обучающие системы. Исследование также проводилось в рамках проекта по инкорпорированию речевых технологий в обучающие фонетические лингвистические системы. Первичная цель исследования состояла в формировании базы данных наиболее частотных ошибок автоматического распознавания интерферированной англоязычной речи.

Данное лингвоконтрастивное исследование звучащей речи на базе современных речевых технологий необходимо в связи с необходимостью компьютеризации обучения иностранным языкам [Потапова 2002] и внедрения в учебный процесс новых мультимедийных информационных технологий и лингвистических обучающих систем с акустической обратной связью [Потапова 2003]. Актуальность экспериментального изучения особенностей русско-английской интерференции также объясняется необходимостью повышения помехоустойчивости автоматического распознавания интерферированной речи и адаптации алгоритмов автоматического распознавания речи для разработки компонентов лингвистических обучающих систем фонетического профиля с элементами речевого ввода.

Основная цель инкорпорирования речевых компонентов в обучающие программы — обеспечить обратную связь с пользователем - обучающимся, которая в условиях дистанционного или самостоятельного обучения сможет заменить или дублировать обратную связь с преподавателем. Фонетические обучающие системы, например, несомненно, выиграют при инкорпорировании в них новых речевых компонентов, спроектированных с учетом новых достижений в области речевых технологий. Было предпринято несколько попыток построения систем с речевыми компонентами [Potapova, Ordin 2004; Petrushin 2002].

Экспериментальное исследование выявило потенциальную возможность проектирования речевых компонентов на базе существующих разработок компаний IBM и Phillips. Также результатом исследования явилась база данных типичных ошибок при автоматическом распознавании интерферированной речи.

В рамках эксперимента современные речевые технологии, в частности, система автоматического распознавания устной слитной речи в реальном времени ViaVoice, были впервые использованы для изучения акустической и перцептивной модификации сегментных характеристик в условиях межъязыковой интерференции. Экспериментальное исследование проводилось по следующей методике: Подбор дикторов-испытуемых - носителей русского языка со средним уровнем владения английским языком на профессиональном уровне. Подбор экспериментального материала. Адаптация системы автоматического распознавания устной слитной речи в реальном времени ViaVoice к решению задач, поставленных в исследовании. Подбор аудиторов-испытуемых с опытом участия в аудиторских экспериментах и профессиональным знанием фонетической стороны речи английского языка. Проведение многоэтапного эксперимента, Статистическая обработка и классификация полученных данных.

В ходе исследования, на основе полученных результатов и анализа литературы по теме русско-английской интерференции на сегментном уровне, были получены необходимые данные для составления базы данных наиболее типичных случаев межъязыковой фонетической интерференции применительно к англоязычной речи носителей русского языка.

Общее количество испытуемых, принявших участие в эксперименте, составило 42 человека. Испытуемые были отобраны из числа студентов второго и третьего курса МГЛУ, обучавшихся на факультете ГПН по специальности прикладная лингвистика. На момент проведения эксперимента испытуемые профессионально изучали английский язык на уровне высшей школы минимум 2,5 года.

Среди испытуемых были и такие, чья речь носила легкую регионально диалектную окраску, однако при предварительной беседе и в ходе проведения эксперимента в речи на русском языке были замечены лишь единичные случаи. Согласно субъективной аудиторской оценке, в иноязычной речи таких дикторов не наблюдались случаи интерференции, вызванные особенностями региональных диалектов. Поэтому данный фактор был игнорирован при обработке результатов экспериментального исследования.

В качестве экспериментального материала были отобраны тексты в публицистическом стиле (газетная статья, общий объем - 498 слов, научно-публицистический текст, общий объем - 332 слова, и художественный текст, изложенный в разговорном стиле, общий объем - 337 слов). Отбор материала проводился с учетом рекомендаций разработчиков используемого программного инструментария - системы автоматического распознавания устной речи в реальном времени. Как было заявлено в прилагаемом к комплекту программного обеспечения сопровождающем материале, система была оптимальным образом настроена на работу с текстами в публицистическом стиле. Это и явилось детерминантом при отборе материала.

Программным инструментом для проведения исследования явилась система автоматического распознавания слитной речи в реальном времени ViaVoice, установленная на компьютер со следующими параметрами: РШ 600MHz, 64 Mb RAM, Creative Sound Blaster Live! 128. Для ввода речи в компьютер использовался обычный микрофон, входивший в комплект поставки лицензионной версии ViaVoice, присоединенный через линейный вход. Запись велась не в звукоизоляционной комнате, а в обычных условиях, в которых проводятся занятия или проходят самостоятельная работа студента над фонетическим материалом. Единственное накладываемое ограничение -запрет на разговоры во время проведения эксперимента среди других участников. Таким образом, на вход машины подавался только один речевой сигнал, не смешанный с другими речевыми или речеподобными сигналами. Следовательно, никаких особых акустических условий при проведении эксперимента не создавалось, и ситуация была приближена к реальной.

При проведении эксперимента использовалась версия ViaVoice 98. Новейшая версия и издание данного инструментария - IBM ViaVoice Pro USB Edition 10.0 является программно-аппаратным комплексом, включающим следующие программные компоненты: компонент автоматического распознавания слитной речи в реальном времени, компонент проверки орфографии, компонент предоставления пользователю наиболее вероятных лексических единиц в случае проблемного распознавания, компонент распознавания команд и блок выполнения пользовательских команд при коммуникации с операционной системой, расширяемый посредством макросов словарь лексических единиц и целых блоков повторяющихся текстовых фрагментов и т.д.; и аппаратные компоненты (микрофон с шумоподавлением для подключения к компьютеру по интерфейсу USB, наушники).

Практические аспекты разработки фонетической обучающей системы

Данный параграф представляет опыт разработки прототипа лингвистической обучающей системы фонетического профиля с элементами акустической обратной связи. Готовый прототип обучающей системы представлен вместе с данным исследованием в Приложении. Разработка любого сложного программного продукта требует интеграции усилий специалистов различного профиля. Работа над проектом создания предлагаемой обучающей системы не является исключением и также представляет собой масштабный проект, при реализации которого необходима интеграция усилий многих специалистов на протяжении длительного времени.

Для того, чтобы создать качественное программное обеспечение, используя самую совершенную в области создания прикладных программ (приложений) на сегодняшний момент парадигму программирования -объектно-ориентированное программирование - необходимо разработать прочное архитектурное основание будущей системы. Центральным элементом деятельности, ведущей к созданию качественного комплексного приложения, является моделирование. Модели позволяют выявить и наглядно продемонстрировать желаемую структуру и поведение системы, они также необходимы для визуализации и управления архитектурой системы [Буч и др. 2000]. Модели также помогают добиться лучшего понимания создаваемого продукта, что зачастую приводит к его упрощению.

К основным целям моделирования программного обеспечения относятся: визуализация, то есть отражение системы в текущем или желаемом состоянии; определение структуры или поведения системы; получение шаблона, позволяющего сконструировать систему; документирование принимаемых решений, используя различные модели, построенные на различных этапах разработки системы.

Моделирование - это устоявшаяся и повсеместно используемая инженерная методика создания наглядных и упрощенных представлений реальности, то есть моделей [Буч и др. 2000: 26-34]. Модели репрезентируют систему на разных уровнях абстракции. Модель включает только значимые на определенном уровне абстракции и влияющие на результат элементы. Каждая модель является семантически замкнутой абстракцией [Буч и др. 2000: 30-31].

Модель программного решения может быть структурной, подчеркивающей организацию системы, и поведенческой, отражающей ее динамику [Скотт 2002]. При моделировании программного обеспечения необходимо придерживаться следующих принципов: Выбор модели оказывает решающее влияние на выбор парадигмы программирования и на то, какой подход будет использован при воплощении модели в виде программного продукта. Например, разработчик идеологии и структурной части базы данных или базы знаний будет основное внимание уделять моделям «сущность» - «связь», где поведение инкапсулировано в триггерах и хранимых процедурах; структурный аналитик сконцентрируется на моделях, в центре которых находятся алгоритмы и передачи данных от одного процесса к другому; результатом труда разработчика, пользующегося объектно-ориентированным методом, будет система, архитектура которой основана на множестве классов и образцах взаимодействия, определяющих, как эти классы действуют совместно.

Поэтому первый принцип гласит, что при моделировании необходимо сразу соотносить тип модели, репрезентирующей систему, и метод программирования, который планируется применить. Следовательно, необходимо определиться с базовой парадигмой программирования до того, как начнется этап развития и построение моделей разрабатываемой компьютерной системы.

Второй принцип формулируется следующим образом - каждая модель может быть воплощена с различной степенью абстракции. Иногда простая и быстро созданная модель пользовательского интерфейса - самый подходящий вариант. В других случаях, наоборот, приходится работать на уровне битов, например, при спецификации межсистемных интерфейсов. В любом случае, уровень детализации следует выбирать в зависимости от того, кто и с какой целью использует модель. С точки зрения аналитика и конечного пользователя модель должна дать ответить на вопрос, что делает система, а с точки зрения разработчика - на вопросы как эта система функционирует. Поэтому уровень детализации моделей одной и той же системы будет разным. Следовательно, необходимо иметь возможность рассматривать систему на разных уровнях детализации в разное время.

Из второго принципа моделирования следует третий: нельзя ограничиваться созданием только одной модели. Наилучший подход при разработке сложного программного обеспечения - использование совокупности независимых моделей. Четвертый принцип моделирования программного обеспечения: упрощение реальности без существенных потерь. Модель - упрощенное представление реальности, поэтому модель тем лучше, чем она ближе к реальности. Ахиллесова пята структурного анализа - несоответствие принятой в нем модели и модели системного проекта. В том случае, если этот разрыв не будет устранен, то поведение созданной системы с течением времени все больше станет отличаться от задуманного. При объектно-ориентированном подходе можно объединить все почти независимые представления о системе (независимые модели) в единое семантическое целое [Буч и др. 2000; Фаулер 2003].

Объектно-ориентированное программное обеспечение можно рассматривать как приложение, разработанное на основе определенного проектного подхода, то есть моделирование - очень важная часть процесса разработки. Проектный подход включает объектно-ориентированную декомпозицию и специализированные диаграммы, которые описывают логические и физические модули разрабатываемой системы. Хорошо продуманный объектно-ориентированный проект позволяет проследить соответствие между требованиями и проектированием программного кода [Тамре 2003: 187-211].

Этот подход зарекомендовал себя при разработке программного обеспечения любой сложности, поэтому при разработке фонетической обучающей системы мы сочли целесообразным работать именно в этой парадигме программирования.

В целях достижения взаимопонимания между участниками проекта модели прототипа обучающей фонетической системы строились, используя унифицированный язык UML 1.4 (Unified Modeling Language). Данный язык позволяет строить легко читаемые архитектурные, структурные, динамические и т.д. модели различного уровня абстракции. Программисту, который непосредственно пишет код, необходима модель с высоким уровнем детализации. Методисту лингводидактического профиля, участвующему в проекте, также необходимо уметь «читать» модель, но на очень абстрактном, с точки зрения программиста, уровне. Язык, который удовлетворяет всем необходимым требованиям, - UML. Более того, являясь де-факто стандартом, он позволяет легко присоединяться к работе над проектом новым участникам, которым не приходится затрачивать излишних усилий для того, чтобы разобраться в деталях.

Инкорпорирование речевых компонентов в лингвистические обучающие системы Ордин Михаил Юрьевич

Алгоритмы анализа речевых сигналов применительно к разработке речевых компонентов

Адекватная целям обучения реализация обратной связи как основное требование к лингвистическим обучающим системам

Задачи экспериментального исследования интерференции

Практические аспекты разработки фонетической обучающей системы

Похожие диссертации на Инкорпорирование речевых компонентов в лингвистические обучающие системы