Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Атрибуция "Романа с кокаином": лингвостатистическое исследование Синелева Анастасия Васильевна

Атрибуция
<
Атрибуция Атрибуция Атрибуция Атрибуция Атрибуция
>

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Синелева Анастасия Васильевна. Атрибуция "Романа с кокаином": лингвостатистическое исследование : диссертация ... кандидата филологических наук : 10.02.21.- Санкт-Петербург, 2001.- 330 с.: ил. РГБ ОД, 61 02-10/31-5

Содержание к диссертации

Введение

Глава 1. Атрибуция как филологическая проблема

1.1. История вопроса атрибуции литературных произведений 12

1.2. Атрибуция и стилистика 31

Глава 2. Методы атрибуции художественных текстов

2.1. Филологические методы атрибуции 43

2.2. Лингвоматематические методы и аспекты атрибуционного анализа 51

2.3. Атрибуция художественных текстов методами теории распознавания образов

Глава 3. Атрибуция романа М.Агеева «Роман с кокаином»

3.1. История вопроса 74

3.2. Формирование атрибуционной гипотезы 83

3.3. Формирование априорных классов и определение координат эталонов априорных классов .121

3.4. Отбор информативных параметров и определение координат объектов 166

3.5. Процедура атрибуции и интерпретация результатов 185

Заключение 195

Литература

Атрибуция и стилистика

Исследования в области истории литературы не раз ставили перед читателями, издателями, учеными вопрос об авторстве того или иного произведения. Анонимные и псевдонимные произведения, относящиеся к разным временным периодам, имеют различные предпосылки возникновения и существования: древнерусская литература в большинстве случаев не называет автора в силу социально-общественной формации того времени и отсутствия печатного производства; борьба общественно-политических направлений и, следовательно, литературных школ в XIX веке часто сопровождалась появлением анонимных и псевдонимных критических статей, публицистических очерков; в послереволюционный период литература находилась под сильным воздействием государственной идеологии, многим приходилось пользоваться псевдонимами или полностью скрывать свое имя из-за идейно-политической позиции. Поэтому при атрибуции необходимо учитывать, что «проблема авторства наполняется разным содержанием применительно к художественной практике разных эпох» (Виноградов, 1961, с.39). Анонимность древнерусской литературы В.В.Виноградов называет «специфической чертой древней словесности» (Виноградов, 1961, с.46). Этот вопрос впервые был разработан М.И.Сухомлиновым, который писал: «Отсутствие авторских имен в древнерусских произведениях привело к тому, что позднейшие их собиратели принуждены были догадываться об авторах, а иногда определять их наудачу» (цит.по: Виноградов, 1961, с.47). По мнению А.С.Орлова, «художественная литература средневековья представляла собой особый «условный» вид творчества» (цит.по: Виноградов, 1961, с.53). Как известно, личная авторская подпись под древнерусскими произведениями обычно не ставилась, что, безусловно, усложняет атрибуцию текстов, поэтому проблема определения автора часто решается в «отрицательном смысле» (там же, с.54), т.е. в смысле доказательства непринадлежности атрибутируемого произведения какому-либо ранее названному без достаточно веской аргументации автору.

В.В.Виноградов отмечает, что из произведений древнерусской литературы особенно нуждаются в установлении авторства те, с которыми «соединяются представления о новых, самобытно творческих течениях в русском литературном развитии» (Виноградов, 1961, с. 53) . В первую очередь это относится к «Слову о полку Игореве». Загадка автора «Слова» волнует ученых на протяжении многих десятилетий, и в настоящее время существует несколько точек зрения относительно имени создателя этого произведения. Некоторые исследователи считают, что автор принадлежал к высшему свету тогдашнего общества, с другой стороны, существует мнение, что вообще никакой князь не мог написать «Слово». Высказываются гипотезы о киевском, новгородском, галицко-волынском, черниговском происхождении автора. При выдвижении той или иной атрибуционнои гипотезы исследователи приводят аргументы в основном документально-исторического характера или проводят смысловой анализ произведения, доказательств на уровне текстологических данных, как правило, немного. О стилистическом анализе «Слова» можно говорить лишь в узком значении, заключающемся в основном в наблюдении за частотностью некоторых лексических единиц (грецизмов, тюркизмов и др. иноязычной лексики, отдельных форм слов, так называемых «ключевых слов» с учетом разницы в лексическом значении, повторяющихся метафор) , так как «понятие индивидуального авторского стиля неприменимо к древнерусской литературе» (Виноградов, 1961, с.56), что делает невозможным абсолютное решение проблемы атрибуции «Слова о полку Игореве». Некоторые гипотезы, возможно, наиболее близки к истине, но подтвердить их бывает значительно сложнее, чем опровергнуть.

В 1967 году Н.В.Шарлемань высказал предположение, что автором «Слова» является сам князь Игорь. В 1985 году (когда отмечалось 800-летие «Слова») выходит роман-эссе «Память», где В.А.Чивилихин, развивая теорию княжеского происхождения автора, пытается доказать авторство князя Игоря, считая основным аргументом, подтверждающим эту гипотезу, частое употребление автором слова «братие», которое возможно только при обращении князя к князю (цит.по: Дмитриев, 1986). Л.А.Дмитриев ставит под сомнение это предположение, отмечая, что текстологических данных на основе анализа частоты употребления некоторых слов («князь», «брат», сокол», «господин») недостаточно для подтверждения княжеского происхождения автора (Дмитриев, 1986) . В 198 4 году В.В.Медведев высказывает предположение, что автором «Слова» является киевский князь Святослав Всеволодович (цит. по: Дмитриев, 1986). Основным аргументом в пользу своей гипотезы исследователь считает отношение автора к языческим богам. Однако Д.С.Лихачев ставит под сомнение правильность этого предположения, он пишет, что «...автор «Слова» христианин. Языческие представления для него обладают ценностью, тогда как христианство для него еще не связано с поэзией» (цит.по: Дмитриев, 1986). Д.С.Лихачев считает, что гениальный древнерусский автор, добившийся художественного совершенства формы «Слова», опираясь на достижения древнегреческой культуры (параллели с образами и идеями «Иллиады», близость литературных приемов в описании битв, влияния сил природы), может быть профессиональным поэтом, приближенным князя Игоря (Лихачев, 1985). В 198 5 году выходит книга Л.Е.Махновца «Про автора «Слова о полку Игореве», в которой высказывается предположение, что автором является галицкий князь Владимир Ярославич. Гипотезу о княжеском происхождении автора Л.Е.Махновец доказывает, опираясь на «ключевое слово»: обращение к князьям «брат» и особенно форму «братие». Присутствующие в тексте тюркизмы объясняются пребыванием Владимира на Черниговщине, грецизмы знанием автором греческого языка, т.к. князь был обладателем большой библиотеки. Л.А.Дмитриев подвергает сомнению гипотезу Л.Е.Махновца, мотивируя это тем, что летописные сведения о князе Галицком не имеют неопровержимый характер, приводит данные «Словаря-справочника «Слова», в котором приведена частотность «ключевых слов» («брат» - 9, «братие» - 9) , отмечает, что многие грамматические формы и отдельные слова, словесные конструкции, метафоры и эпитеты находят параллели в самых разнообразных памятниках древнерусской письменности (Дмитриев, 1991).

Лингвоматематические методы и аспекты атрибуционного анализа

В ходе исследования филологическая гипотеза становилась статистической гипотезой и проверялась разными критериями согласия. Проверка гипотезы начиналась с определения критической области, попадание в которую имеет вероятность, равную установленному уровню значимости (0,05). Для установления существенности или несущественности расхождения частот одного и того же языкового явления, наблюдаемого в сопоставляемых текстах, использовался критерий хи-квадрат. Далее сравнивались речевые параллели, выявленные в анализируемых текстах, а синонимичные конструкции, дифференцирующие авторскую речь, называются признаками авторской речи. При сравнении долей покрытия текста нейтральными словами (отношения суммы частот определенной совокупности слов к длине текста) применялась формула квадратичного отклонения средней доли двух сравниваемых совокупностей. Затем определяется коэффициент спаянности текста (отношение числа предложений с сочинительными союзами к общему количеству предложений) и сравниваются средние коэффициенты спаянности. В работе представлено сочетание филологических методов, при помощи которых исследовался содержательный аспект текста, и формально-статистических, дающих представление о количественных характеристиках текста, установлена связь между -результатами, полученными разными методами. Методика апробирована на публицистических и художественных текстах конца XIX - начала XX века. Результаты исследований доказывают эффективность комплексного метода атрибуции, основанного на двуаспектном изучении текста.

Т.А.Якубайтис и А.Н.Скляревич предложили проводить атрибуцию текстов определенной типологии (научно-технический или физико-математический, поэтический или драматический и т.д.) по числу повторений какой-то части речи (Якубайтис, Скляревич, 1980) . Вероятности принадлежности текста к определенному типу определялись по формуле k-мерного нормального распределения, где к -количество анализируемых признаков. Для определения силы статистической связи была проведена оценка коэффициентов корреляции между значениями частот определенных частей речи. Авторы считают, что атрибуционные возможности методики зависят от количества исследуемых признаков и их выбора: с увеличением количества параметров повышается достоверность атрибуции, хотя значительно возрастает трудоемкость подсчетов. Поэтому в работе было предложено исследование элементов с «наибольшими атрибуционными возможностями», в число которых попали существительные и глаголы как передающие основное содержание текста; при этом предполагается, что элементы, не входящие в анализируемый комплекс, не сказываются на типе текста. Результаты исследований показали, что ядро системы частей речи составляют существительные и глаголы, с которыми наблюдается наибольшее количество сильных связей других частей речи, что в любой системе присутствуют центральные и периферийные связи (с точки зрения идентификации типа текста) и что достоверность атрибуции типов текста увеличивается с ростом числа анализируемых признаков.

И.П.Севбо разработала метод графического исследования синтаксических структур (Севбо, 1981), представляемых в виде деревьев зависимостей (графов), где слова изображаются точками (узлами графа) и соединяются друг с другом дугами в соответствии с их синтаксическими связями. Узлы и дуги графа не несут никакой семантической и морфологической информации, рисунки деревьев показывают только зависимость слов друг от друга и порядок следования - некоторые общие тенденции синтаксического построения фраз, отражающие особенности авторских стилей. После выбора параметров, характеризующих «синтаксический почерк писателя» (количество простых предложений в составе сложного, длина предложения, количество уровней в графе, средняя ширина ветвления у вершины, максимальное количество перемен направления пути в графе, максимальная протяженность дуги, количество однородных групп в предложении) считались выборочное среднее, выборочная дисперсия, доверительный интервал для каждого из параметров и определялось количество попаданий выбранных 7 параметров конкретной синтаксической структуры в соответствующие доверительные интервалы для каждого из распознаваемых авторов (максимальное количество попаданий у наиболее вероятного автора структуры). Затем сравнивались полученные числовые значения параметров синтаксической конструкции с соответствующими значениями выборочных средних известного автора и определялась величина, характеризующая степень близости анонимного автора.

Эксперименты показали, что по 50-и фразам, взятым подряд из текста, только на основании изучения их синтаксических структур, удалось угадать автора из двух возможных с вероятностью 75%, но с увеличением числа предполагаемых авторов метод работал хуже. При использовании этого метода предполагается, что в предложении есть «абсолютно независимое слово» сказуемое, которое считается корнем связного (не содержащего циклов) графа, тогда как «сказуемое главный член двусоставного предложения, грамматически зависящий от подлежащего» (Грамматика русского языка, 1954, с.386). Это предположение затрудняет анализ односоставных номинативных предложений и двусоставных неполных предложений без сказуемого. Кроме этого, существует проблема изображения составных сказуемых, однородных членов предложения, проблема разграничения фразеологизмов и устойчивых сочетаний слов (в работе оговариваются конструкции, считающиеся одним словом). Согласно графическому изображению синтаксически и лексически несвободные конструкции занимают разные синтаксические позиции, т.к. каждое слово соответствует вершине графа, тогда как в предложении они занимают одну позицию, т.е. ни один параметр графа не может дать информацию о количестве синтаксических позиций в предложении. Синтаксический уровень языка обладает высокими стилеразличающими возможностями, все параметры, описывающие конструкции и позиции, должны входить в признаковое пространство.

Атрибуция художественных текстов методами теории распознавания образов

Выбор исходного набора параметров - первичных признаков, получаемых в результате наблюдения объекта, связанных с ним непосредственной связью, или производных, полученных в результате преобразования первичных и связанных с объектом опосредованной связью, является одним из основных этапов атрибуции методами теории распознавания образов (Марусенко, 1994, с.67, потому что любой метод классификации «субъективен и относителен в том смысле, что результаты анализа целиком определяются теми признаками, которые положены в его основу» (Тулдава, 1981, С.138)

В самом общем случае параметр - это величина, сохраняющая одно и то же значение при данных условиях эксперимента (Пиотровский, 1977, с.19). В лингвистике признаком (параметром, характеристикой) считают «материализацию» логического понятия свойства на уровне наблюдения (Тулдава, 1987, с.34). Лингвистический параметр - это «особое представление структурных черт языка», «квант информации о языковой структуре, который в экстремальном случае может представлять для пользователя самостоятельный интерес, но, как правило, выступает в сочетании с другими квантами (параметрами)» (Караулов, 1981, с... 51). Лингвистические параметры могут объединяться в нечеткие (в силу природы языкового знака) подмножества, «понятие лингвистической переменной лежит в области приближенных рассуждений» (Заде, 1976, с.19).

Под квантификацией в лингвистике понимается количественное представление качественных явлений.

Различают «наименование признака» (Р) и «значение признака» (Y) объекта (X), рассматривая значение признака как функцию «Благодаря так называемому принципу обобщения большая часть математического аппарата . . . может быть приспособлена к лингвистическим переменным» (Заде, 1976, с.11). Под обобщением надо понимать некоторое численное значение признака, являющееся количественной характеристикой изучаемого лингвистического явления. Основными являются такие характеристики, как частота функционирования лингвистических единиц, средняя частота и отклонение от средней частоты в пределах исследуемой языковой подсистемы.

В функциональной стилистике накоплен значительный материал по параметризации стилей. Все существующие параметры имеют априорно равное право на существование (с точки зрения лингвистической обоснованности) в системе описания стиля (Марусенко, 199Q, с.67). В каждом конкретном случае количество параметров, как правило, различно и колеблется от 5-10 признаков до нескольких десятков (Ермоленко, 1988; Мартыненко, 1983; Севбо, 1977; Хетсо, 1989), что объясняется подходом исследователя к понятию стиля, методом атрибуции, особенностями исследуемых текстов, связанных с жанром, композицией, временем написания, а также оценкой степени значимости тех или иных параметров, полученной в процессе лингвистического анализа.

В теории распознавания образов принимается допущение о том, что представление объектов с помощью N-мерного пространства является достаточно полным в отношении содержания информации об общих свойствах, -которые служат характеристиками классов. Для того чтобы на практике определить, является ли выбранное пространство изображений достаточно полным, приходится основываться на интуиции. Выбор тех или иных исходных параметров должен быть обоснованным, поэтому при формировании параметрического пространства необходимо учитывать следующее: 1) выбор параметров следует осуществлять с учетом опыта предыдущих стилистических исследований; 2) выбор параметров должен учитывать результаты лингвистического анализа изучаемого текста; 3) все переходные случаи должны быть определены, т.е. языковые единицы должны иметь четкие критерии отбора, чтобы подмножества, объединяющие языковые единицы, характеризующие один признак объекта, были четкими; 4) анализируя индивидуальное словесное творчество, необходимо выявлять и исследовать параметры, отражающие связь языковых категорий с логико-психологическими категориями мышления конкретного автора.

В зависимости от времени написания анонимного или псевдонимного текста набор исходных лингвистических параметров должен изменяться, так как языковая система находится в непрерывном процессе развития, и, следовательно, язык художественной литературы не может оставаться неизменным, что в свою очередь находит отражение в отборе и сочетании языковых единиц в произведениях, написанных одним автором в разные годы.

Наиболее полный набор исходных параметров, которые, учитывая опыт предыдущих исследований, были предварительно подвергнуты терминологической унификации, что значительно снизило их количество, представлен в работе М.А.Марусенко (Марусенко, 1990) . В данной работе используется большинство параметров из предложенного набора. Дополнения составляют параметры, необходимость введения которых определена сопоставительным лингвистическим анализом текстов В.Набокова и М.Агеева.

Формирование априорных классов и определение координат эталонов априорных классов

Общие уточнения к анализу языковых единиц на синтаксическом уровне: - не расчленяются синтаксически несвободные сочетания (количественно-именные, местоименно-именные, глагольно-именные, глагольно-инфинитивные) и синтаксически несвободные конструкции, возникающие в речи, занимающие одну синтаксическую позицию в предложении, «...а лицо его после этого не только не морщилось, но всегда делалось таким, будто в него вошло что-то светлое» (Агеев , с. 226) - синтаксически несвободное глагольно-именное словосочетание выполняет в предложении функцию сказуемого (выделено курсивом). «На следующий день, однако, когда был урок немецкого языка... (Агеев, синтаксически несвободное (речевое) словосочетание выполняет в предложении функцию несогласованного определения (выделено курсивом). не расчленяются фразеологически несвободные сочетания, метафоры, занимающие одну синтаксическую позицию. «Уже нельзя было лечь на подоконник с фальшивыми нитями мраморных жил...» (Агеев, с.265) словосочетание-метафора выполняет в предложении функцию несогласованного определения (выделено курсивом).

Критерии отбора параметров в пределах исследуемых текстов следующие (в качестве примеров приводятся предложения, входящие в выборки из текстов В.Набокова и М.Агеева, проанализированные по исходному набору параметров):

А1 - одним словом считаем аналитическую форму будущего времени: «...Клейман, повернув нам спину, расстегнув сюртук, заложив руки в карманы и качаясь и шаркая так, словно подходил к даме, с которой будет сейчас вальсировать, пошел по мраморной лестнице...» (Агеев, с.218); аналитические формы степеней сравнения имен прилагательных, наречий, слов категории состояния: «Душевней всех была комната Дарвина...» (Набоков, с.195), «...пошатнулся; и уже не смог отклониться от пяти-шести кулаков, летавших вокруг его головы, но самый опасный из них ему все же удалось пропустить через плечо...» (Набоков, с.239), «он не приехал из Парижа на похороны отца, боясь пуще всего мертвецов, гробов, венков и ответственности...» (Набоков, с.54); наречия, пишущиеся через дефис: «...который полого спускался и, образовав долину, чуть-чуть поднимался опять, до поясницы маленького Лужина» (Набоков,с.7), и раздельно: «...и делал замечания по поводу штрафов, навлекаемых приходом за полночь или неношением по вечерам академического плаща» (Набоков, с.194); двойные, парные и составные союзы: «Цвета полосатой курточки, купленной когда-то у Дрюса, Мартын теперь не смел носить, так как они отвечали спортивной форме определенного училища...» (Набоков, с.192), «Он живо себе представлял дрожащий белый день, пустоту черной гильотины и неуклюжую возню на помосте, где палачи тискают голоплечего толстяка, меж тем как в толпе добродушный господин поднимает под локотки любопытную, но низкорослую гражданку» (Набоков, с.197); составные и парные предлоги; составные частицы, междометия, звукоподражания, пишущиеся через дефис: «...а весной исчез вместе с Валентиновым - опять за границу» (Набоков, с.44), «Папиросы он так и не получил...» (Набоков, с.135). В конструкциях с числительными, написанными через дефис, каждое числительное считается как отдельное слово: «Он любил танцевать с незнакомой дамой, любил пустой, целомудренный разговор, сквозь который прислушиваешься к тому чудному, невнятному, что происходит в тебе и в ней, что будет длиться еще два-три такта...» (Набоков, с.210). А2 - графемой считаем букву.

A3 - лексемы, имеющие пометы (Ожегов, 1981; Словарь русского языка в 4-х т., 1999) бран., презр., пренебр., прост., разг., унич., шутл., считаем разговорными: «И то, что такой старой старухе надобно понимать, что она только срамит меня своей одеждой, - и то, что незачем ей было шляться в гимназию с конвертом, - и то, что она заставила меня лгать, лишила возможности пригласить к себе товарищей» (Агеев, с.183); срамить (разг.), (Ожегов, 1981, с.676), надобно (устар.), (там же, с.331), разговорный оттенок с учетом контекста, шляться (прост.), (там же, с.798).

А4 - лексемы, имеющие пометы высок., книжн., офиц. (Ожегов, 1981; Словарь русского языка в 4-х т., 1999), считаем книжными: «Все близится к благополучному и справедливому концу, которого столь жаждет благородная душа Иванова...» (Агеев, с.290), столь(книжн.) (Ожегов, 1981, с.684), жаждать(высок.) (там же, с.168) - с учетом контекста. Лексемы с пометой устар. рассматриваются с учетом контекста (см. пример, приведенный выше).

А5 - группу знаменательных частей речи составляют имена существительные, прилагательные, числительные, местоимения, глаголы, причастия, деепричастия, наречия, слова категории состояния.