Разрешение синтаксической неоднозначности предложений с определительным придаточным в русском языке Драгой Ольга Викторовна

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Драгой Ольга Викторовна. Разрешение синтаксической неоднозначности предложений с определительным придаточным в русском языке : диссертация ... кандидата филологических наук : 10.02.19 Москва, 2007 233 с., Библиогр.: с. 192-205 РГБ ОД, 61:07-10/1705

Содержание к диссертации

Введение

Глава 1. Языковая неоднозначность 12

1.1. Неоднозначность восприятия и языка 12

1.2. Источники языковой неоднозначности 14

1.3. Разрешение неоднозначности в системах автоматического анализа 17

1.4. Разрешение неоднозначности человеком 21

Глава 2. Анализ неоднозначных предложений с определительным придаточным 28

2.1. Универсальные принципы анализа 29

2.1.1. Модификации модели Заблуждения 29

2.1.1.1. Принцип Относительной релевантности 30

2.1.1.2. Конструал 31

2.1.2. Двухфакторная модель 33

2.1.2.1. Английский и испанский языки 35

2.1.2.2. Японский язык 35

2.1.2.3. Нидерландский язык 37

2.1.2.4. Сила Близости к предикату. 38

2.1.3. Референциальная связанность 40

2.1.4. Теория Просодической сегментации 44

2.1.5. Универсальные принципы и трехчленная ИГ 47

2.1.5.1. Принцип Позднего закрытия 47

2.1.5.2. Активация референтов 49

2.1.5.3. Просодическая сегментация 49

2.2. Частноязыковые стратегии анализа 50

2.2.1. Частотность лексем 51

2.2.2. Лингвистический тюнинг 52

2.2.3. Настройка на одушевленность 55

2.2.4. Частноязыковой анализ и трехчленная ИГ 56

2.3. Индивидуальные стратегии анализа 58

2.3.1. Понятие рабочей памяти 58

2.3.2. Рабочая память и разрешение неоднозначности 60

2.3.3. Объем памяти и трехчленная ИГ 63

2.4. Выводы 63

Глава 3. Анализ предложений с двучленной ИГ в русском языке 65

3.1. Влияние универсальных принципов 66

3.1.1. Гипотеза Конструала 66

3.1.1.1. Ассоциация и структура ИГ. 66

3.1.1.2. Интерпретация и влияние контекста 68

3.1.2. Просодическая сегментация 69

3.1.2.1. Эффект длины придаточного 70

3.1.2.2. Антигравитация или Информативность? 71

3.2. Род - частноязыковой или универсальный фактор? 72

3.2.1. Грамматический род 72

3.2.2. Концептуальный род 73

3.3. Влияние объема рабочей памяти 75

3.4. Выводы 77

Глава 4. Экспериментальное исследование: анализ предложений с трехчленной ИГ в русском языке 79

4.1. Универсальные принципы и этапы анализа 79

4.1.1. Методики исследования 80

4.1.1.1. Чтение с саморегулировкой скорости 81

4.1.1.2. Опросник 82

4.12. Эксперимент 1: Чтение с саморегулировкой скорости 83

4.1.2.1. Введение 84

4.1.2.2. Метод 86

4.1.2.3. Обработка данных и результаты 89

4.1.2.4. Обсуждение 91

4.1.3. Эксперимент 2: Опросник «Общее предпочтение» 94

4.1.3.1. Введение 94

4.1.3.2. Метод 95

4.1.3.3. Результаты 98

4.1.3.4. Вторичный анализ 99

4.1.3.5. Обсуждение 101

4.1.4. Выводы 103

4.2. Частноязыковая настройка 104

4.2.1. Методики исследования 105

4.2.1.1. Понимание vs. порождение 106

4.2.1.2. Эксперимент vs. естественный дискурс 108

4.2.2. Корпусное исследование 108

4.2.2.1. Введение 109

4.2.2.2. Метод 109

4.2.2.3. Результаты 112

4.2.2.4. Обсуждение . 114

4.2.3. Эксперимент 3: Заканчивание предложений 118

4.2.3.1. Введение 118

4.2.3.2. Метод 119

4.2.3.3. Результаты 121

4.2.3.4. Обсуждение 123

4.2.4. Выводы 125

4.3. Индивидуальные стратегии: влияние объема рабочей памяти 126

4.3.1. Методики исследования 128

4.3.1.1. Измерение объема рабочей памяти 128

4.3.1.2. Воспроизведение предложений 129

4.3.2. Эксперимент 4: Опросник «Рабочая память» 131

4.3.2.1. Введение 131

4.3.2.2. Метод 133

4.3.2.3. Результаты 135

4.3.2.4. Обсуждение 137

4.3.3. Эксперимент 5: Воспроизведение предложений 140

4.3.3.1. Введение 141

4.3.3.2. Метод 143

4.3.3.3. Результаты 145

4.3.3.4. Обсуждение 149

4.3.4. Выводы 151

Глава 5. Общее обсуждение 153

5.1. Универсальные принципы анализа 155

5.1.1. Общие стратегии анализа 156

5.1.2. Универсальные факторы 159

5.1.2.1. Двухфакторная модель 159

5.1.2.2. Гипотеза Референциальной связанности 164

5.1.2.3. Теория Просодической сегментации 169

5.2. Частноязыковая настройка 172

5.3. Индивидуальные стратегии 175

5.4. Почему в русском языке преобладает раннее закрытие? 177

Заключение 182

Библиография 192

Приложения 206

Приложение 1 206

Приложение 2 207

Приложение 3 208

Приложение 4 211

Приложение 5 217

Приложение 6 218

Приложение? 220

Приложение 8 222

Приложение 9 224

Приложение 10 228

Приложение 11 229

Приложение 12 231

Разрешение неоднозначности в системах автоматического анализа
Рабочая память и разрешение неоднозначности
Обсуждение
Двухфакторная модель

Введение к работе

Реферируемая работа посвящена проблематике понимания неоднозначных предложений с определительным придаточным Диссертация представляет собой психолингвистическое исследование, проведенное на материале русского языка и направленное на выявление механизмов разрешения синтаксической неоднозначности

Объектом изучения являются сложноподчиненные предложения русского языка с определительным придаточным, которое модифицирует одно из трех существительных, входящих в состав сложной именной группы

(1) Теракты изменили философию системы безопасности, которая раньше требовала от пилотов выполнения приказов террористов посадить самолет в любом аэропорту, а затем начать переговоры [Хикматов Тимур Броня по-американски Авиакомпании потратятся на безопасность // Известия, 2002 10 27]

Подобные предложения потенциально неоднозначны - при совпадении рода и числа существительных придаточное которая раньше требовала от пилотов выполнения приказов террористов может относиться к любому из трех имен философия, система или безопасность, а все предложение имеет три интерпретации

выполнения приказов террористов требовала философия,

выполнения приказов террористов требовала система,

выполнения приказов террористов требовала безопасность

Очевидно, в данном случае неоднозначность возникает из-за невозможности установить референциальные отношения в предложении вне более широкого контекста Рассматривая предложение изолированно, можно по-разному построить синтаксические связи между его частями, и поэтому оно синтаксически неоднозначно Тем не менее, в условиях реальной коммуникации мы успешно преодолеваем эту неоднозначность

Выбор объекта изучения продиктован целью работы выяснить, какие механизмы лежат в основе анализа неоднозначных предложений Ключевым для общей теории анализа предложения является вопрос универсален или нет ментальный механизм, осуществляющий анализ Дело в том, что понимание большинства предложений определяется грамматикой конкретного языка, например, правилами согласования, порядком слов и так далее Однако действие универсального механизма анализа можно обнаружить, если «отключить» грамматику Именно это происходит в синтаксически неоднозначных предложениях типа (1) только на основании знания грамматики русского языка невозможно определить вершину придаточного Вопрос о том, как происходит выбор вершины,, изначально решался в рамках теории универсального анализа утверждалось,\что

синтаксически неоднозначные предложения интерпретируются носителями разных языков в соответствии с одной и той же стратегией Однако революционная работа [Cuetos, Mitchell 1988]¹ предоставила новые возможности для развития психолингвистической теории И неоднозначные предложения с определительным придаточным сыграли в этом решающую роль на их материале было обнаружено, что носители разных языков используют не одну и ту же, а разные стратегии Универсальность анализа подверглась сомнению, и возникла идея о том, что ментальный механизм понимания предложения имеет частноязыковую природу Впоследствии, в дополнение к двум указанным точкам зрения (универсальной и частноязыковой), была высказана третья выбор стратегии анализа также зависит от индивидуальных характеристик носителя языка

В соответствии с целью исследования были определены конкретные задачи.

Систематически изложить экспериментальные свидетельства в пользу универсальных, частноязыковых и индивидуальных стратегий анализа неоднозначных предложений с определительным придаточным
Проанализировать предложенные гипотезы о механизмах разрешения неоднозначности и определить, какие из них требуют дальнейшей проверки
Протестировать экспериментально влияние факторов универсальной, частноязыковой и индивидуальной природы на разрешение неоднозначности в русском языке на материале предложений типа (1)
Предложить объяснение полученным экспериментальным данным
Построить модель анализа неоднозначных предложений типа (1) в русском языке
Предложить обобщения более высокого уровня, касающиеся не только понимания неоднозначных предложений с определительным придаточным, но и механизмов анализа предложения вообще.

Для того чтобы смоделировать процесс разрешения неоднозначности, мы использовали метод психолингвистического эксперимента Во-первых, этот метод приближен к естественному процессу аналюа языковых выражений Во-вторых, он дает возможность манипулировать отдельными факторами, влияние которых изучается В-третьих, будучи подкрепленным математическим аппаратом, экспериментальный метод позволяет определить статистическую значимость исследуемых факторов и наличие взаимодействия между ними

Материал, использованный в работе, был собран в ходе пяти экспериментов, проведенных на общей выборке 344 русскоговорящих испытуемых, и одного корпусного исследования с привлечением Национального корпуса русского языка (www )

Cuetos, F, Mitchell, D С Cross-linguistic differences in parsing Restrictions on the use of the Late Closure strategy in Spanish II Cognition, 1988,30 73-105

5 Научная новизна диссертации проявляется в выборе как объекта исследования, так и метода Проблематика анализа неоднозначных предложений с определительным придаточным может исследоваться на материале конструкций, содержащих две или три потенциальных вершины придаточного Значительная часть имеющихся экспериментальных данных получена на материале первого типа конструкций - с двучленной именной группой Однако использование трех имен позволяет обнаружить действие факторов, эффект которых маскируется в двучленной конструкции Настоящая работа впервые обсуждает понимание неоднозначных предложений с трехчленной именной группой на материале русского языка Кроме того, в немногочисленных языках, где исследовались такие предложения, тестировались только гипотезы, выдвинутые в рамках теории универсального анализа Частноязыковые и индивидуальные стратегии никогда ранее подвергались проверке на материале трехчленных конструкций Таким образом, настоящая работа представляет собой первое последовательное изучение всех трех аспектов анализа применительно к разрешению данного типа неоднозначности Что касается метода исследования, то использование психолингвистического эксперимента для проверки гипотез об устройстве и функционировании языка является редкостью в отечественной лингвистике, что придает содержательным сторонам и формату диссертации новаторский характер

Актуальность работы также может быть рассмотрена с содержательной и методологической точек зрения Во-первых, факторы, которые регулируют понимание предложеїшй естественного языка, и их взаимодействие являются предметом разворачивающейся непосредственно в настоящее время дискуссии Если двадцать лет назад универсальный подход к анализу был, по сути, единственным обсуждаемым в литературе, то в последнее время альтернативные точки зрения также подкрепляются экспериментальными доказательствами в недавней публикации [Swets et al 2007]² показано, что эффект индивидуальных различий в объеме рабочей памяти не только действительно существует, но и превосходит эффект частноязыковых стратегий Отметим также, что конференция, целиком посвященная вопросам анализа предложения, - Annual CUNY Conference on Human Sentence Processing - традиционно является центральной встречей мирового психолингвистического сообщества Другая сторона актуальности диссертации связана с тенденциями в российской лингвистике Несколько лет назад начался процесс ее интеграции в когнитивную науку - область междисциплинарных исследований познания, в которой языковые операции рассматриваются как имеющие когнитивный характер Уже дважды состоялась Конференция по Когнитивной Науке (в 2004 году в Казани и в 2006 году в Санкт-Петербурге) Начиная с 2002 года на базе

² Swets, В , Desmet, Т, Hamrick, D Z , Ferreira, F The role of working memory in syntactic ambiguity resolution A psychometric approach //Journal ofExperimental Psychology General, 2007, 136 (1) 64-81

филологического и психологического факультетов МГУ им MB Ломоносова регулярно проводится Московский Семинар по Когнитивной Науке. В 2004 году была учреждена Российская Ассоциация Когнитивных Исследований В этом контексте диссертация, выполненная на стыке лингвистики и психологии, основных составляющих когнитивной науки, является своевременной

Теоретическая значимость исследования состоит в том, что его результаты имеют значение для теории разрешения синтаксической неоднозначности и анализа предложения вообще Полученные данные о влиянии и взаимодействии факторов универсальной, частноязыковой и индивидуальной природы на механизмы понимания неоднозначных предложений с определительным придаточным проливают свет на то, как происходит анализ подобных конструкций в русском языке В сочетании с известными результатами, полученными на материале других языков, мы обсуждаем обобщенную теорию разрешения этого типа неоднозначности А поскольку предложения типа (1) позволяют «отключать» частноязыковую грамматику и исследовать ментальные механизмы понимания, полученный в работе результат также важен для общей теории анализа предложения

Практическое значение исследования связано, прежде всего, с возможностью использования обнаруженных закономерностей разрешения неоднозначности в разработке систем автоматической обработки текстов естественного языка Синтаксическая неоднозначность часто встречается в текстах, и автоматизированные процедуры, в отличие от носителя языка, не могут обеспечить надежного ее разрешения По крайней мере, универсальные и частно-языковые стратегии анализа могут быть успешно алгоритмизированы Кроме того, настоящая работа может оказаться полезной для будущих российских психолингвистов, поскольку она детально обсуждает и демонстрирует применение ряда базовых экспериментальных методик, некоторые из которых никогда ранее не фигурировали в отечественных исследованиях

Апробация работы Основные положения работы были представлены в докладах на Международной конференции Диалог'2006 «Компьютерная лингвистика и интеллектуальные технологии» (Наро-Фоминск, май-июнь 2006 г), на 2-й Конференции по Когнитивной Науке (Санкт-Петербург, июнь 2006 г), на 13-й Ежегодной Конференции «Architectures and Mechanisms for Language Processing» (Турку. Финляндия, август 2007 г ) Результаты исследования обсуждалась на кафедре теоретической и прикладной лингвистики МГУ им М В Ломоносова и отражены в публикациях

Структура работы. Диссертация состоит дз введения, пяти глав, заключения, библиографии и приложений Во Введении обсуждаются объект, цели и задачи исследования, использованный метод и материал, а также значимость работы. В Главе 1 речь идет о явлении языковой неоднозначности, ее источниках и

7 междисциплинарных областях, в рамках которых она изучается Глава 2 посвящена теоретическим вопросам разрешения неоднозначности предложений с определительным придаточным и содержит аналитический обзор релевантных психолингвистических моделей с привлечением экспериментальных свидетельств разных языков В Главе 3 рассматриваются экспериментальные исследования синтаксической неоднозначности на материале русских двучленных конструкций Глава 4 является центральной в диссертации она содержит описание трех блоков экспериментов, в которых было протестировано влияние факторов универсальной, частноязыковой и индивидуальной природы на анализ русских неоднозначных предложений с определительным придаточным и трехчленной именной группой В Главе 5 мы обсуждаем результаты всех проведенных нами экспериментов и предлагаем модель разрешения неоднозначности исследованного типа Заключение подводит итоги диссертационной работы Библиография включает 150 наименований отечественных и зарубежных работ Приложения состоят из опросных листов, использованных в экспериментах, а также таблиц, рисунков и комментариев, поясняющих результаты исследования

Разрешение неоднозначности в системах автоматического анализа

Изначально проблема неоднозначности рассматривалась, главным образом, в стилистике. При этом, как отмечает Л.Н. Иорданская (Иорданская, 1967), обсуждались лишь наиболее явные случаи неоднозначности: главным образом, лексической. Интерес к интенсивному исследованию данной проблематики возрос в 1960-х годах и был связан с задачей автоматической обработки текстов естественного языка (Иорданская, 1967; Гладкий, 1985; Дрейзин, 1988). Выяснилось, что в текстах гораздо больше неоднозначных предложений, чем может показаться на первый взгляд.

В отличие от носителя языка, компьютерным системам пока не доступны здравый смысл, знания о мире и широкий контекст коммуникации. Поэтому разработка проблемы неоднозначности в настоящее время не только не потеряла актуальности, а получила статус едва ли не самой сложной из задач, которые стоят перед текстовым анализатором. Даже если в систему автоматической обработки текстов интегрированы тщательно разработанные словари и грамматики, ее анализирующие модули на любом этапе постоянно сталкиваются с необходимостью выбора одного из вариантов анализа - на уровне и морфологии, и синтаксиса, и семантики. Причем это релевантно как для действительно неоднозначного фрагмента текста, так и для мнимой неоднозначности, которая возникает из-за несовершенства действующих в системе правил. Тем более, что резкой границы между двумя этими типами неоднозначности нет. Так, неоднозначность короткого сегмента текста может получить разрешение в более широком контексте, и наоборот, недвусмысленное высказывание

(6) может оказаться неоднозначным при расширении, как в

(7) (Богуславский и др., 2003).

(6) Я ждал его.

(7) Я ждал его вчера.

Частичное разрешение неоднозначности в автоматическом режиме возможно, и любая существующая в настоящее время система анализа естественного языка располагает рядом средств, направленных на сокращение неоднозначности в ходе обработки текстов. Диапазон этих средств широк: от простого игнорирования редких лексических единиц или синтаксических конструкций до использования масштабных статистических процедур, основанных на частотности встречаемости отдельных языковых элементов (Богуславский и др., 2003). Наиболее перспективными при разработке автоматических процедур разрешения неоднозначности в настоящее время представляются два таких подхода: основанного на правилах и статистического. С одной стороны, алгоритмы учитывают лексическую и грамматическую информацию о естественном языке, сформулированную в виде правил. С другой стороны, значительный прогресс уже достигнут и в разработке статистических систем разрешения неоднозначности, основанных на оценке вероятности того или иного анализа. Оба подхода, однако, имеют недостатки. Многие случаи неоднозначности нельзя разрешить с использованием правил в принципе, так как для них существенны экстралингвистические знания, не извлекаемые непосредственно из текста. А максимальный уровень эффективности статистических методов - 75% - не достаточен для многих практических приложений.

Попытка построить комбинированный алгоритм синтаксического анализа для русского языка, сочетающий в себе и правила, и статистическую информацию, была предпринята при создании лингвистического процессора ЭТАП-3 (Апресян и др., 1989; Апресян и др., 1992). Результатом блока синтаксического анализа является построение дерева зависимостей для исходного предложения, в котором каждый узел соответствует одному слову предложения, а все ветви помечены именами синтаксических отношений. Из множества минимальных поддеревьев (два узла, связанных синтаксическими отношениями) строится полное дерево. При этом изначально помечаются все возможные синтаксические связи и стоятся все возможные деревья - с использованием имеющейся лингвистической информации и материала обрабатываемого предложения. Затем происходит разрешение неоднозначности. Для этого используется система различных фильтров, с помощью которых исключаются лишние синтаксические связи. Одним из фильтров, в частности, является статистический блок (Чардин, 2001), который приписывает веса всем возможным минимальным поддеревьям, а также цепочкам минимальных поддеревьев длиной в три слова на основании частоты встречаемости фрагментов такого вида в корпусе русских текстов с синтаксической разметкой (Boguslavsky et al., 2000; Богуславский и др., 2002). Значения весов для любых связей заведомо меньше единицы, так как за единицу принимается вся совокупность встречаемостей конкретных конфигураций в корпусе. В то же время значение положительного приоритета связи, полученное после применения регулярных правил, целочисленное и всегда не меньше единицы. Поэтому при конфликте между эвристической и статистической стратегиями предпочтение отдается результатам работы эвристических правил, созданных экспертами-лингвистами. Гибридная стратегия, использующая и правила, и статистическую информацию при анализе текстов в системе ЭТАП-3, уже бьша опробирована в практических приложениях: для выбора переводных эквивалентов словосочетаний (Streiter et al., 2000) и для построения оптимальной синтаксической структуры предложения (Йомдин и др., 2001; Iomdin et al., 2002).

Однако приходится признать, что в настоящий момент «полностью автоматизированные процедуры, даже самые эффективные, не могут обеспечить надежного разрешения лингвистической неоднозначности» (Йомдин и др., 2005). Пока в качестве альтернативного решения используется процедура интерактивного разрешения неоднозначности, предусматривающая вовлечение человека-эксперта в обработку текста в ключевые моменты интерпретации (Boguslavsky et al., 2005). Если предложение является лексически и/или синтаксически неоднозначным, система предлагает пользователю выбор между альтернативными интерпретациями. При этом именно синтаксическая неоднозначность сопряжена с дополнительными проблемами. В некоторых случаях это достаточно просто. Например, несложным правилом можно эффективно разрешать неоднозначность составляющих, преобразуя неоднозначное предложение (8) в два однозначных: (8а) и (86), которые и предлагаются на выбор пользователю. (8) Петя приехал из командировки в Москву. (8а) Петя приехал в Москву. (86) Петя приехал из Москвы.

Зачастую же наивный носитель языка, который легко различает лексические значения, не готов к ответу на синтаксические вопросы. Поэтому наглядное представление запроса системы к человеку является отдельной задачей. В настоящее время ведутся исследования, направленные на усовершенствование средств, дающих возможность пользоваться модулем разрешения синтаксической неоднозначности рядовому пользователю, то есть на разработку наглядного эквивалента использующихся лингвистических формализмов. Видимо, разработать универсальные правила наглядного представления произвольных типов синтаксической неоднозначности все-таки невозможно. Поэтому в ближайшие планы входит изучение того, какие запросы наиболее понятны пользователю, и определение наиболее частотных типов синтаксической неоднозначности, для которых стоит составлять специальные правила наглядного представления (Богуславский и др., 2005).

Таким образом, разработка модуля, обеспечивающего разрешение языковой неоднозначности - и особенно синтаксической неоднозначности -пока далека от завершения. Как отмечают сами разработчики систем, такое положение дел с разрешением неоднозначности имеет универсальный характер и не зависит ни от использованной в анализаторе лингвистической модели, ни от приложения, где применяется анализатор (Йомдин и др., 2005; Oepen et al., 2000). Последняя встреча Международной конференции «Диалог 2007», тематической доминантой которой как раз стала языковая неоднозначность, показала, что, несмотря на достигнутые успехи, проблема остается пока не решенной комплексно.

Алгоритмы разрешения неоднозначности, лежащие в основе разработанных систем, формулируются профессиональными лингвистами и отражают как их специальные знания о языке, так и их языковую интуицию. Однако отражают ли эти алгоритмы реальное речевое поведение наивных носителей язьжа? Например, если говорить о статистическом подходе к разрешению неоднозначности, то веских аргументов в пользу того, что в процессе понимания предложений человек действительно ориентируется на вероятность определенного типа анализа, не существует. Несомненно, автоматические системы и не заявляются как реализующие те же процедуры, что и человек. Речь идет только о достижении результата, максимально приближенного к тому, который имеет место при реальной речевой деятельности. И как показывает опыт таких разработок, результат автоматического анализа сильно уступает результату естественного анализа, производимого человеком. Поэтому разработчики автоматических систем все-таки вынуждены вовлекать или лингвистов-экспертов, или наивных пользователей для оптимизации выбора одной из интерпретаций неоднозначных языковых выражений. Однако к проблеме можно подойти с другой стороны: попытаться понять, как в действительности осуществляется разрешение неоднозначности человеком. Именно этим занимаются последние полвека исследователи-психолингвисты.

Рабочая память и разрешение неоднозначности

Понятие РП интегрировано в большинство теорий анализа предложения. Именно на нем основывается психологическая реальность принципа Позднего закрытия в моделях последовательного синтаксического анализа (Frazier, 1978): РП имеет фиксированный объем, который и ограничивает возможности анализа, поэтому каждая последующая составляющая присоединяется непосредственно к предыдущей. Модели параллельного анализа также рассматривают РП как ограничение, влияющее на количество информации, которое может поддерживаться в активном состоянии: от этого зависит, какая из нескольких возможных интерпретаций получает преимущество (Gibson, 1998). В вычислительных моделях анализа предложений (Lewis et al., 2006; Van Dyke, 2007) центральное место занимает такое свойство РП, как ретроактивная интерференция: если два слова в предложении разделяют семантические, синтаксические или референциальные характеристики, то последнее слово интерферирует с первым, снижая его активацию.

По сути, во всех перечисленных моделях эксплуатируется один и тот же принцип: при ограниченных ресурсах памяти, которыми располагает носитель языка, наиболее активна и доступна последняя поступившая информация. Поскольку ресурсы испытуемых с малым объемом РП (РПмал) ограничены больше, чем у испытуемых с большим объемом РП (РПбол), то резонно ожидать, что первые будут демонстрировать больший процент позднего закрытия в предложениях с определительным придаточным. Однако экспериментальные данные свидетельствуют об обратном.

В работе Mendelsohn & Pearlmutter, 1999 на материале английского языка исследовалось, как испьпуемые с разным объемом РП интерпретируют неоднозначные предложения с определительным придаточным, Модифицирующим Двучленную ИГ. Испытуемые С РПбол не продемонстрировали значимых предпочтений в выборе вершины придаточного, что вполне согласуется с тем, что у них для закрытия доступны оба имени сложной ИГ. Неожиданный результат заключался в том, что испытуемые с РПмал в 64% случаев предпочли раннее закрытие. Впоследствии тот же результат был воспроизведен на материале русского (Yanovich & Fedorova, 2005) и нидерландского языков (Swets et al., 2007). Кроме того, в работе Swets et al., 2004 показано, что англоговорящие испытуемые со средними показателями объема РП предпочтения к какому-либо типу закрытия не обнаружили, а испытуемые с РПбол проявляют тенденцию интерпретировать неоднозначные предложения в пользу позднего закрытия.

Для объяснения полученных результатов был выдвинут ряд гипотез (Swets et al., 2007). Во-первых, в соответствии с Двухфакторной моделью и первоначальной версией гипотезы Референциальной связанности1 И1 соответствует наиболее выделенному референту из всех имен сложной ИГ, так как является аргументом главного предиката. Таким образом, предполагалось, что люди с невысокими показателями РП фокусируются самом выделенном имени - И1, в то время как испытуемые с РПбол способны поддерживать в активном состоянии и менее выделенные имена, поэтому могут отнести придаточное к любому из имен сложной ИГ. Однако эта гипотеза не объясняла выявленной в ряде экспериментов тенденции испытуемых с РПбол выбирать позднее закрытие. С другой стороны, было предложено, что испытуемые с РПбол чувствительны к следующему дискурсивному принципу: единожды модифицированное имя редко получает дальнейшую модификацию (Thornton et al., 1999). С этой точки зрения первое имя сложной ИГ, уже модифицированное вторьм, реже должно становиться вершиной придаточного, что и наблюдается при РПбол- Но эта гипотеза не объясняет, почему испытуемые с РПмал значимо чаще выбирают дискурсивно неудачную интерпретацию, а не ведут себя случайным образом. Третья, отличная от двух первых, гипотеза заключалась в том, что испытуемые с разным объемом РП по-разному членят языковой материал при чтении «про себя». Люди с РПбол, склонные к более крупному членению, часто объединяют сложную ИГ и определительное придаточное, не делая паузы между ними, что в соответствии с теорией Просодической сегментации1 благоприятствует позднему закрытию. Малый объем РП, наоборот, связан с тенденцией объединять слова в небольшие группы, поэтому между сложной ИГ и придаточным возникает пауза, благоприятствующая раннему закрытию.

Свете и коллеги (Swets et al., 2007) протестировали указанные гипотезы на материале английского и нидерландского языков. Испытуемым предъявлялись пофразово предложения, расчлененные, как показано в (42). (42) The father; of the surgeonj / whoj/j made a fool of himself at the party / was greatly embarrassed.

Отец хирурга, который свалял дурака на вечеринке, был сильно сконфужен. Предполагалось, что- такое предъявление задает членение, характерное для испытуемых с РПмал, то есть заставляет испытуемых с любым объемом РП делать паузу между ИГ и придаточным. И действительно, результаты показали, что при указанном формате предъявления материала общий процент раннего закрытия значимо повышается и в английском, и в нидерландском языках. Таким образом, было получено свидетельство в пользу того, что различие в предпочтениях испытуемых с РПмал и РПбол связано с разным членением языкового материала и расстановкой пауз.

Обсуждение

Итак, прежде всего, мы обнаружили, что в корпусе русских текстов раннее закрытие является самым частотным. Оно превосходит и позднее, и среднее закрытие. Если рассматривать корпус как отражение общеязыкового распределения частотности того или иного типа закрытия, можно утверждать, что вообще в русском язьже предложения, содержащие трехчленную ИГ, с ранним закрытием превалируют над предложениями со средним и поздним.

Следовательно, гипотеза Лингвистического тюнинга предсказывает, что если носитель русского языка встречается с неоднозначным предложением, содержащим трехчленную ИГ и определительное придаточное, он проинтерпретирует его в соответствии с самой частотной конструкцией в русском языке, то есть с большей вероятностью предпочтет раннее закрытие. А выбор среднего и позднего закрытия одинаково вероятен и должен происходить реже по сравнению с ранним. Для проверки этого предсказания требуются данные экспериментального исследования.

Мы запланировали сравнить корпусное распределение закрытия с результатами Эксперимента 3, процедура которого ближе к процессу порождения по сравнению, например, с опросником, где изучается исключительно понимание. Однако сходство между результатами корпусного исследования и опросника «Общее предпочтение» (Эксперимент 2) настольно сильное, что мы можем сделать выводы о воздействии предшествующего языкового опыта даже на чистый процесс понимания. Напомним, в Эксперименте 2, опроснике с неоднозначными предложениями, мы получили следующее распределение интерпретаций: раннее закрытие - 42%, среднее -28%, позднее - 30% случаев. Эти результаты практически идентичны данным корпуса: 44% - 28% - 28%, и статистический анализ действительно подтверждает в обоих случаях, что раннее закрытие значимо отличается от среднего и позднего закрытий, которые, в свою очередь, не различаются между собой. Таким образом, соответствие корпусных данных и результатов Эксперимента 2 свидетельствует в пользу гипотезы Лингвистического тюнинга. Поскольку распределение, обнаруженное в корпусе, совпадает с экспериментальным, это означает, что носители русского языка действительно могут использовать стратегию обращения к своему прошлому лингвистическому опыту при разрешении синтаксической неоднозначности в предложениях с определительным придаточным и трехчленной ИГ.

Однако в корпусном исследовании мы обратились не только к проверке настройки на частотность синтаксических конструкций. Вероятностный подход в широком смысле подразумевает, что разрешение неоднозначности основано на учете частотности того или иного анализа в прошлом языковом опыте, то есть предполагает, что именно анализ «по аналогии» с большой вероятностью будет применен в новой языковой ситуации. При этом остается открытым вопрос, анализ какого уровня мы рассматриваем. Так, расширенный вариант гипотезы Лингвистического тюнинга включает необходимость учитывать лексические характеристики потенциальных вершин придаточного - в частности, их одушевленность. С этим была связана вторая задача нашего корпусного исследования: определить, как соотносится наблюдаемое распределение закрытия с одушевленностью/неодушевленностью имен сложной ИГ.

В результате мы обнаружили, что если в состав сложной ИГ входит одушевленное имя, то оно в большинстве случаев и является вершиной придаточного. Это продемонстрировано на Рис. 9: в любой позиции одушевленные вершины имеют преимущество над неодушевленными. Казалось бы, гипотеза Лингвистического тюнинга в ее расширенном варианте предсказывает, что то же должно происходить и при понимании: помимо настройки относить придаточное к И1, существует настройка относить придаточное к одушевленному имени.

Однако обратим внимание на последний столбец в Табл. 3. В нем указано количество найденных в корпусе контекстов с данным типом ИГ. Оказывается, что конструкции ННН представляют большинство найденных в корпусе предложений с трехчленной ИГ и определительным придаточным (329 из 584 -56%). Если перейти от процентной шкалы к количественной, становится очевидно, что одушевленные имена вообще немногочисленны. Для иллюстрации переведем процентную шкалу Рис. 9 в количественную:

Из Рис. 10, который представляет картину, обратную Рис. 9, следует, что в любой позиции неодушевленные имена количественно превалируют над одушевленными. Поскольку гипотеза Лингвистического тюнинга опирается на понятие языкового опыта, то именно общее количественное преимущество, а не процентное соотношение внутри каждого типа контекста должно определять понимание неоднозначных предложений. Следовательно, в эксперименте действительно ожидается настройка на раннее закрытие, но она дополняется настройкой на неодушевленность: неодушевленные имена должны становиться чаще вершинами, чем одушевленные. И это является действительным предсказанием гипотезы Лингвистического тюнинга относительно результатов Эксперимента 3, где мы будем контролировать фактор одушевленности имен сложной ИГ.

Тем не менее, статистический анализ показал, что именно одушевленность имени связана с тем, является оно вершиной или нет. Это объясняется тем, что при анализе учитывается процентное отношение значений переменной, а не их точное количественное выражение. И действительно, рассмотрим Табл. 3. В случае, когда одно из имен является одушевленным (ОНИ, НОН, ННО), придаточное в большинстве случаев относится именно к нему. Если в конструкции имеется несколько одушевленных имен (ООО, ООН, ОНО, НОО), то вершиной чаще является то из них, которое расположено ближе к вершине предикации (для ООО, ООН, ОНО - это И1, для НОО - И2). Наконец, если одушевленного имени нет вообще (НИН), раннее закрытие превалирует. На основании этих наблюдений распределение закрытия во всех сочетаниях имен можно описать следующим образом: вершиной придаточного является одушевленное имя; при наличии нескольких одушевленных имен - то из них, которое расположено ближе к вершине предикации; при отсутствии одушевленных имен - И1.

Этот результат дает возможность по-иному взглянуть на фактор одушевленности по сравнению с тем, который представлен в гипотезе Лингвистического тюнинга. Одушевленность все-таки может рассматриваться как фактор, «притягивающий» закрытие, но не из-за того, что одушевленные имена - более частотные вершины в корпусе (как мы показали, это не так). Возможно, одушевленные имена более выделены, чем неодушевленные, и соотносятся с центральными для дискурса референтами. Логично, что центральные референты чаще подвергаются спецификации, и поэтому одушевленные имена чаще являются вершинами придаточного. Именно это мы обнаружили в корпусе для каждого из возможных сочетаний имен. Аналогично, тот же закон может действовать и при понимании: слушающий или читающий ожидает, что спецификации подвергается более выделенное в дискурсе имя, и чаще относит придаточное к одушевленным именам.

Таким образом, мы располагаем двумя гипотезами. Первая, являясь расширенным вариантом гипотезы Лингвистического тюнинга, предсказывает в эксперименте настойку на неодушевленность в силу количественного преобладания неодушевленных имен в корпусе и, соответственно, большего количества неодушевленных вершин. Вторая гипотеза рассматривает одушевленность/неодушевленность не как настроечный фактор, а как дискурсивный принцип, действующий и при порождении, и при понимании. Обозначенные гипотезы делают разные предсказания для Эксперимента 3: в соответствии с первой мы ожидаем, что неодушевленные имена будут «притягивать» закрытие, вторая утверждает обратное: одушевленные имена будут «притягивать» закрытие. Оговоримся, что обнаруженное в корпусе преимущество одушевленных имен уже свидетельствует в пользу дискурсивной гипотезы. Однако выборка найденных контекстов не сбалансирована (так, контекст ООО насчитывает всего 4 случая, а ННО - 138), поэтому данных корпуса, строго говоря, не достаточно для подтверждения дискурсивной гипотезы. Ее проверку на сбалансированном материале мы осуществили в Эксперименте 3.

Двухфакторная модель

Большинство работ, посвященных исследованию предложений с определительным придаточным и трехчленной ИГ (Gibson et al., 1996; Gibson et al., 1999; Miyamoto et al., 1999; Walter & Hemforth, 1998a, b; Wijnen, 1998; Wijnen et al., 1999), выполнено в рамках Двухфакторной модели Гибсона (Gibson et al., 1996). Двухфакторная модель утверждает, что анализ таких конструкций является результатом взаимодействия двух универсальных факторов, действующих в противоположных направлениях: принципа Позднего закрытия и фактора, благоприятствующего раннему закрытию - Близости к предикату. Таким образом модель объясняет U-образную форму предпочтений испытуемых: один фактор благоприятствует выбору ИЗ в качестве вершины придаточного, а другой - выбору И1, в то время как И2 не попадает под действие ни одного, ни другого фактора, поэтому среднее закрытие неизменно оказывается наименее предпочтительным. При этом постулируется, что при трехчленных ИГ из-за увеличения расстояния между И1 и придаточным сила фактора Близости к предикату уменьшается независимо от того, какой из факторов - Близость к предикату или Позднее закрытие - доминирует в двучленных конструкциях. Таким образом, даже если в двучленной ИГ наблюдалось преимущество раннего закрытия (как, например, в испанском и немецком языках), оно сменяется преимуществом позднего закрытия в трехчленной ИГ.

Двухфакторная модель была разработана именно в таком виде с целью объяснить экспериментально полученное в английском, испанском, японском и немецком языках распределение предпочтений, которое имело вид ИЗ И1 И2. Единственное исключение, обнаруженное в нидерландском языке, где в двух экспериментах распределение представлено как И1 ИЗ И2 (Wijnen, 1998), не получило широкого освещения и не обсуждалось в литературе как прямое противоречие Двухфакторной модели. Скорее, это рассматривалось как маргинальный результат: когда, наконец, в третьем нидерландском эксперименте было обнаружено распределение ИЗ И1 И2, те же авторы заявили, что и в нидерландском найдено подтверждение Двухфакторной модели (Wijnen et al., 1999). Поскольку в результате проведенного нами исследования оказалось, что в четырех из пяти экспериментов обнаружено преимущество раннего закрытия в трехчленных конструкциях, вопрос о неадекватности Двухфакторной модели эмпирическим данным требует серьезного обсуждения.

Дело в том, что в отношении русского языка Двухфакторная модель предсказывала то же самое распределение предпочтений, как и в испанском языке. Для объяснения выбора закрытия в конкретном языке авторы модели -Гибсон и коллеги (Gibson et al., 1996) - обратились к понятию среднего расстояния между предикатом и его аргументами, которое и определяет силу фактора Близости к предикату. В языках с относительно свободным порядком слов, в которых наряду с базовым порядком SVO допускается и порядок VOS, субъект может быть удален от предиката. Чтобы поддержать синтаксические отношения между единицами, линейно находящимися на расстоянии друг от друга, сила фактора Близости к предикату, как предполагают Гибсон и коллеги, должна быть велика. К таким языкам относятся и испанский, и русский. И действительно, в предложениях с определительным придаточным и двучленной ИГ преимущество раннего закрытия было неоднократно показано для испанского языка (Cuetos & Mitchell, 1988; Carreiras & Clifton, 1993; Igoa et al., 1998; Fernandez, 2000). Это же подтвержается и материалом русского языка: в восьми из десяти экспериментов, описанных в Главе 3, испытуемые чаще выбирали в качестве вершины придаточного первое из двух имен сложной ИГ (Sekerina, 2003; Sekerina & Fedorova 2004; Sekerina & Pugach, 2004; Yanovich & Fedorova 2005; Юдина, 2006).

Однако Двухфакторная модель утверждает, что в таких языках, как испанский и русский, только в двучленных конструкциях раннее закрытие будет превалировать над поздним. Длинная же, трехчленная, ИГ будет способствовать относительному усилению принципа Позднего закрытия. Это и в самом деле было обнаружено испанском (Gibson et al., 1996). Но результаты наших Экспериментов 1, 2, 3 и 5 опровергают универсальность предпочтения ИЗ-вершин и показывают, что фактор (или факторы), благоприятствующие раннему закрытию, может быть определяющим для разрешения неоднозначности и при длинной ИГ.

Итак, важным результатом проведенного нами исследования является то, что в четырех из пяти экспериментов и в Корпусном исследовании мы обнаружили преимущество раннего закрытия не только над средним, но и над поздним. В Эксперименте 1, выполненном по методике чтения с саморегулировкой скорости, общее распределение предпочтений испытуемых имеет вид И1 ИЗ И2. В Эксперименте 2 (опросник), Эксперименте 3 (заканчивание предложений), Эксперименте 5 (воспроизведение предложений) и в Корпусном исследовании - И1 ИЗ=И2, когда среднее и позднее закрытия между собой не различаются и оба уступают раннему. Таким образом, русскоговорящие испытуемые продемонстрировали стабильное преимущество раннего закрытия как на ранних, так и поздних этапах понимания, при порождении, а также на материале неоднозначных и однозначных предложений с определительным придаточным и трехчленной ИГ. Разнообразие использованных методик и единообразие полученного результата свидетельствуют в пользу устойчивости этого эффекта. Важно, что преимущество раннего закрытия наблюдается в русском языке не только на поздних этапах анализа, как в нидерландских экспериментах (Wijnen, 1998) - в этом случае его можно было бы объяснить принципом Относительной релевантности: принцип Позднего закрытия доминирует на ранних этапах анализа, но может уступать фактору, благоприятствующему раннему закрытию, на последующих этапах. Результаты нашего Эксперимента 1, в котором исследовались ранние этапы понимания, говорят, что это не верно. Преимущество раннего закрытия в русских трехчленных конструкциях носит последовательный характер и проявляется на всех этапах анализа.

Явное преобладание раннего закрытия, а также снижение и без того небольшой силы принципа Позднего закрытия по мере перехода анализа от ранних к поздним этапам тесно связано с формой полученного распределения предпочтений испытуемых. Только в двух наших экспериментах она являлась U-образной: в Экспериментах 1 и 4. В остальных же экспериментах и в Корпусном исследовании распределение предпочтений испытуемых носило L-образную форму: раннее закрытие доминировало над двумя остальными, которые между собой не различались. Эти данные снова не вполне соответствуют уже известным результатам, полученным на материале других языков, в которых распределение всегда имело U-образную форму.

Если бы мы не получили в двух экспериментах U-образное распределение, можно бьшо бы утверждать, что только тенденция к раннему закрытию определяет предпочтения испытуемых - отсюда возникает L-образная форма. Однако, во-первых, мы увидели, что на ранних этапах анализа позднее закрытие все-таки имеет преимущество над средним. В процессе непосредственного чтения предложений со средним закрытием (Эксперимент 1) увеличение нагрузки на анализатор не снижается, как в случае раннего и позднего закрытий, и среднее закрытие, сопровождающееся удлинением времени реакции, продолжает значимо отличаться от раннего и позднего. Это свидетельствует о наибольшей трудоемкости обработки среднего закрытия. О том, что проблема несоответствия более ожидаемых типов закрытия (позднего и раннего) реальному (среднему) все-таки разрешается, говорят данные опосредованных измерений: испытуемые выбирали среднее закрытие в неоднозначных предложениях и преамбулах (28% - опросник «Общее предпочтение», 19% - опросник «Рабочая память», 18% - заканчивание предложений) и сохранили его в 88% однозначных предложений при воспроизведении. То есть среднее закрытие в принципе является грамматичным для носителей русского языка, хоть и наиболее непредпочтительным из трех возможных. Кроме Эксперимента 1, об этом свидетельствует и Эксперимент 4: длина придаточного и объем РП влияют на интерпретацию трехчленных конструкций точно так же, как и в случае двучленных, затрагивая соотношение только крайних имен сложной ИГ - первого и последнего. Иными словами, при манипуляции фактором длины придаточного и сбалансированности выборки испытуемых по объему РП, среднее закрытие не участвует в процессах формирования предпочтений в разных условиях, и его процентное выражение неизменно остается на одном и том же - сниженном - уровне.

Разрешение синтаксической неоднозначности предложений с определительным придаточным в русском языке Драгой Ольга Викторовна

Разрешение неоднозначности в системах автоматического анализа

Рабочая память и разрешение неоднозначности

Обсуждение

Двухфакторная модель

Похожие диссертации на Разрешение синтаксической неоднозначности предложений с определительным придаточным в русском языке