Разработка модели и метода структурирования текста с целью его идентификации Панкратова Анна Зурабовна

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Панкратова Анна Зурабовна. Разработка модели и метода структурирования текста с целью его идентификации : диссертация ... кандидата технических наук : 05.13.17.- Нижний Новгород, 2002.- 204 с.: ил. РГБ ОД, 61 03-5/922-5

Содержание к диссертации

Введение

Глава I. Автоматизация анализа структуры текста: обзор современного состояния 14

1.1. Текст и перспективы его автоматического анализа 14

1.2. Лексика как структурное образование 20

1.3. Синтаксические модели предложения 26

1.4.Анализ структурной организации текста 33

1.5. Постановка задачи 42

Выводы 4 2

Глава II. Разработка модели и метода структурирования текста 43

2.1. Системность языка и текста 43

2.2. Ранговые распределения в тексте и системах различной природы 47

2.3. Модель структуры текста 61

Выводы 77

Глава III. Идентификация текстов по "информационному портрету" 78

3.1. Понятие стиля литературного произведения и возможности его изучения 78

3.2. Метод изучения стиля, основанный на применении автором сочетаний грамматических форм 82

3.3. Информационный портрет текста и возможность его атрибуции 85

3.4. Построение информационного портрета 92

3.5. Сравнение информационных "портретов" и идентификация текстов 94

Выводы 119

Заключение 120

Библиографический список 121

Работы автора 131

Приложения 133

Приложение 1. Модифицированный ранговый закон распределения букв русского и английского алфавита 134

Приложение 2. Модифицированный ранговый закон распределения слов из словаря Э.А. Штейнфельдт 137

Приложение 3. Сравнительный анализ текстов А.С. Пушкина, А.П. Чехова, А. Куприна 139

Приложение 4. Сравнительный анализ текстов художественного, научного и публицистического стиля 170

Приложение 5. Идентификация текстов 191

Приложение 6. Алгоритм статистической обработки текста 199

Приложение 7. Акт о внедрении результатов кандидатской диссертации в учебный процесс НГЛУ 203

Текст и перспективы его автоматического анализа
Ранговые распределения в тексте и системах различной природы
Информационный портрет текста и возможность его атрибуции
Сравнение информационных "портретов" и идентификация текстов

Текст и перспективы его автоматического анализа

Существует множество определений текста. В большинстве из них в качестве основных признаков отмечаются целостность, связность, организованность по цели и смыслу, а также подчеркивается коммуникативная направленность текста. Например: текст - "это последовательность осмысленных высказываний, передающих информацию, объединенных общей темой, обладающая свойствами связности и цельности" [79], или "сложное образование, которое одновременно включает в себя языковые, логические, речевые, мыслительные, стилистические, экспрессивные и другие компоненты" [4 9]. Выделенные свойства текста рассматриваются во взаимообусловленности и взаимозависимости, смысловое единство текста обеспечивается логико-смысловыми и структурными средствами связи.

В зависимости от аспекта исследования текста и применяемых методов, перечисленные свойства текста могут получать различные интерпретации. При статистическом исследовании текста он может рассматриваться как совокупность неоднородных объектов, каждый из которых встречается с определенной частотой. С позиций системного подхода текст, являясь целостным образованием, принадлежит к классу внутренних систем, к которым можно применить процедуры членения и др. Как отмечает И.Р. Гальперин, в лингвистической литературе системность текста только нащупывается. В таком объекте как текст есть свои ограничения, которые по-разному накладываются на разные типы текста. В текстах одних типов эти ограничения могут быть представлены в виде определенных более или менее строгих правил, в других типах они настолько размыты, что с трудом поддаются регламентации [24,13].

Таким образом, "текст является средоточием организованного, упорядоченного, запрограммированного и врывающегося случайного, незапрограммированного, возникающего в процессе его создания" [24, с.4]. В общей теории языкознания уделяется недостаточное внимание описанию некоторых системных фактов языка, когда эти факты рассматриваются в их функционировании - т.е. в тексте. Текст имеет двойственную природу -он одновременно и детерминирован и размыт. Двойственная природа текста определяет необходимость найти некоторые закономерности организации текста.

Исходным положением в анализе текста является признание его некоторой сущностью, имеющей самодовлеющий характер, но подчиняющийся общим закономерностям построения речевого произведения в его завершенности. Как отмечает Г. В. Колшанский, "для любого речевого акта остается в силе прежде всего всеобщий закон, на основе которого строится данное высказывание, а именно закон структурной организации этого высказывания" [43] . Таким образом, текст является некоторым завершенным сообщением, обладающим своим содержанием, организованным по некоторой модели одной из существующих в языке форм сообщений и характеризующееся своими признаками. Как и всякая модель, модель текста не охватывает все признаки текста как объекта исследования, она допускает возможные вариации этих признаков в каждой конкретной форме реализации. Поэтому, по замечанию И.Р. Гальперина, "чтобы проникнуть в закономерности текста, существенно необходимо увидеть упорядоченность в кажущейся неупорядоченности, подвергнуть анализу явления в их глубинных связях и тем самым найти системность этих явлений" [24, с. 2 6] . Данная задача не может быть решена только с помощью лингвистических методов. Требуются методы, которые давали бы возможность представить язык (текст) как некоторую формальную систему эксплицитно, т.е. в явном виде выражающую его структурные особенности [8,11,12].

Возможность решения этих задач обусловлена тем, что текст включает в себя определенный инвентарь языковых элементов, определенным образом сочетающихся в нем в соответствии с грамматикой языка. Текст одновременно реализует и формирует систему языка [2,3] .

При анализе текста на естественном языке необходимо учитывать, что за каждым текстом скрывается несколько формальных структур, которые можно разделить на три уровня.

Первый уровень - поверхностная синтаксическая структура. Каждое предложение текста при анализе рассматривается изолированно от других. Проводится разбор предложения - т.е. выделение подлежащего, сказуемого, определения, дополнения, обстоятельства и т.п.

Второй уровень - глубинная синтаксическая структура. В каждом тексте существуют не зависящие от особенностей языка глубинные структуры, которые определяют адекватное отображение описываемой ситуации.

Третий уровень - семантическая структура. На этом уровне для анализа привлекаются дополнительные данные, связанные с наличием у лексических единиц языка определенных значений, которые известны носителю языка и хранятся в его памяти. В семантических структурах также можно выделить поверхностный и глубинный уровни, в чем-то похожие на соответствующие уровни в синтаксических структурах. Поверхностный семантический уровень тесно связан с глубинной синтаксической структурой, а глубинный семантический уровень как бы отрывается от нее, передавая смысл для целого класса однотипных или взаимосвязанных ситуаций.

Прагматическими структурами могут быть названы структуры наиболее глубокого уровня, которые возникают при анализе предложений. Прагматические структуры устанавливают связь между предложениями в тексте, связывают текст в единое целое, а также побуждают к выполнению тех или иных действий в реальном мире. Возникают межфразовые связи, позволяющие понять текст как единое целое.

Таким образом, для автоматизации обработки текста и выявления закономерностей его построения, необходимо изучение его структуры на морфологическом, лексическом, синтаксическом и сверхфразовом уровне (рис.1.2)

Результаты автоматической обработки морфологической структуры текста позволяют получить распределение в тексте морфологических классов и подклассов слов, а затем эти данные используются для исследования синтаксической структуры предложений или более крупных единиц текста - сверхфразовых единств (специальным образом организованная закрытая цепочка предложений, представляющих собой единое высказывание).

Ранговые распределения в тексте и системах различной природы

Каждый текст реализует какое-то ограниченное число разных языковых элементов, обладающих определенной численной характеристикой - частотой. Поэтому язык и речь обладают свойствами вероятностных систем, а значит, подчиняются вероятностным законам.

Первоначально основная идея вероятностно-статистического моделирования состояла в том, что текст рассматривался как случайный процесс, а его единицы (буквы, слова и т.д.) - как случайные события. Каждый случайный процесс является результатом действия некоторой производящей системы. Для текста такой системой является система языка. Появление какой-либо лингвистической единицы предполагает выполнение некоторого комплекса условий, при котором осуществляется или не осуществляется данное лингвистическое событие. При моделировании текста комплекс условий определяется в зависимости от поставленной задачи.

Наиболее простой вероятностно-статистической моделью текста, при которой текст рассматривается как реализация случайного процесса является частотный словарь. Но, по замечанию Р.Г. Пиотровского, частотные словари являются упрощенной и грубой моделью текста [71].

Как отмечает П.М. Алексеев, данные частотного словаря не всегда позволяют судить о связи между количественным или качественным выражением лингвистического признака и его частотой, поскольку нужно анализировать весь ряд частот этого признака на большом и разнообразном материале [2].

Другая вероятностно-статистическая модель текста основана на изучении распределений в тексте тех или иных единиц. Одним из таких законов является закон рангового распределения. Под распределением понимается ряд значений того или иного признака и частот значений этого признака. В более строгих терминах признаку соответствует случайная величина, а частоте - ее вероятность. Правило, связывающее значения и их вероятности называется законом распределения.

Одним из примеров распределения количественного признака по частоте является распределение длины лексической единицы в тексте или словаре этого текста. Объектом является словоупотребление текста или словоформа словаря текста, а признаком - длина словоупотребления или словоформы, измеряемая в буквах.

Анализ распределений позволяет выявить системно-количественные характеристики многозначности лексики в различных языках - характер распределения лексических единиц в словаре по количеству присущих им значений, а также изучить количественные аспекты соотношения и взаимозависимости синонимии, полисемии и антонимии в различных языках и др. [63].

Распределения в более общей форме представляют количественную организацию текста и его словаря. Но при сравнении эмпирических рядов частот с теоретическими законами (например, Пуассона, Гаусса и др.), выяснилось, что многие распределения не подчиняются этим законам [10].

Рассмотрим текст, понимаемый как список вхождения словоформ. Каждой словоформа соответствует некоторое слово.

1. Совокупность всех слов, образующих текст Т назовем словарем V данного текста.

2. Для каждого слова W из словаря V укажем целое число n (W) , равное количеству имеющихся в тексте словоформ, которым соответствует данное слово W.

Величину n (W) назовем встречаемостью слова W в тексте Т.

3. Общая сумма встречаемости слов будет равна количеству словоформ N в тексте Т или объему этого текста.

4 . Упорядочим теперь слова в словаре по убыванию n (W) . Номер слова в таком списке назовем рангом К, а слово ранга К обозначим W . Ранги слов будут принимать значения от 1 до М, где М - общее число слов в словаре.

5. Обозначим частоту слова W как частное Рк= Wk /N. Таким образом, Р обозначает вероятность появления слова ранга К.

6. Для этих вероятностей Ципфом был открыт закон распределения, состоящий в том, что Рк с возрастанием ранга убывают обратно пропорционально рангу

Распределения, подобные распределению Ципфа известны не только в лингвистике. Они существуют в биологии, экономике, социологии, науковедении и др.

Пример 1.

Если Т множество статей по определенной тематике, опубликованных за данный период в некотором множестве журналов V. Тогда для каждого журнала n (W) количество статей в данном журнале по данной тематике. Ранговое распределение характеризует степень близости того или иного журнала данной тематике (закон П. Коупа) [100] .

Пример 2.

Если V коллектив ученых, а Т множество выполненных в коллективе работ, то n (W) - число работ ученого W, и ранговое распределение характеризует распределение ученых по продуктивности (закон А. Лотки)[100]

Пример 3.

Распределение фирм США по числу служащих. Данное распределение показывает, что в условиях конкуренции и рынка любая фирма стремится увеличить доход, сферу влияния и число работников за счет поглощения более мелких фирм.[94]

Пример 4.

В живой природе данный закон описывает распределение в океане обитателей по весовым категориям, а также распределение хищников и их жертв [94] .

Пример 5.

Закон распределения владельцев собственности по числу дохода (закон В. Парето) [100] .

Пример 6.

Распределение слов по частоте встречаемости в речевой деятельности индивида [100].

Таким образом, многие явления, наблюдаемые в различных системах, имеют общую математическую форму, что свидетельствует о существовании единого механизма, участвующего в формировании этих систем и обеспечивающего появление закономерностей типа закона Ципфа.

Информационный портрет текста и возможность его атрибуции

Любая сложная система воплощает в себе некоторую организацию и существует в соответствии с ней. Процесс хранения и преобразования этой организации (структуры) B.C. Тюхтин предлагает определить как структурную информацию [97] . Таким образом, структурная информация выделяет и фиксирует главную характеристику того или иного объекта, его организацию.

Универсальными свойствами или характеристиками систем различного вида являются признаки качественного и количественного различия, разнообразия, соотносительные с признаками тождества, однообразия (однородности) [там же, с.216]. Разнообразие внутри любого класса системных объектов может относиться к компонентам, связям, свойствам, уровням, этапам изменения и развития системы.

Для измерения сложности организации сравниваемых систем применяется количество информации: "величина разнообразия (и следовательно, количество информации) может быть принята за приближенное выражение степени или хотя бы уровня организованности сравниваемых систем" [там же, с.228].

Таким образом, в системах любого типа существует понятие информации как свойства, отражающего признак ее внутренней организации, все характеристики системы или сравниваемых систем, содержащих в себе моменты разнообразия и сложности можно оценить с помощью меры количества информации.

Количество информации можно определить, используя положение о том, что оно равно количеству устраняемой неопределенности в результате того или иного опыта. Неопределенность описывается через число возможных исходов опыта и вероятностей этих исходов, а устранение неопределенности выступает в виде последовательности шагов выбора (ограничения) из всего набора (разнообразия) возможных исходов.

Текст литературного произведения является сложной системой. Тот или иной текст, циркулирующий в системе человеческой коммуникации, обладает определенным смыслом, инвариантным относительно способов кодирования. Как отмечает Ю.А. Шрейдер, "сложная система имеет семиотическую (т.е. полноценно языковую) природу информационных связей между ее подсистемами" [113] .

При данном подходе необходимо понимание системы текста как целостности, определяемой некоторой организующей общностью этого целого. Для изучения целостности необходимо разбить ее на элементы и интерпретировать структуру системы на языке отношений между полученными элементами - т.е. выделить некоторые классы и отношения между ними. При этом "уровень сложности системы определяется характером информационного взаимодействия ее частей [Там же,с.118].

Смысл фразы или слова в тексте конкретизируется в контексте - в зависимости от окружающих его слов, т.е. в определенной знаковой ситуации, при этом смысл может искажаться в другой знаковой ситуации. Знаковая ситуация может быть текстом, предложением, парой слов или одним словом.

В языке для определенного слова (класса слов) предусмотрен класс знаковых ситуаций, в которых это слово (класс) может употребляться (окрестности). Данное понятие сходно с понятием среды обитания в биологии: любое животное (вид) имеет набор возможных сред обитания, аналогичные окрестностям, а конкретная среда обитания - является аналогом знаковой ситуации.

В настоящей работе в отличие от предыдущих методов, статистическая зависимость между классами описывается не посредством условных вероятностей, а с помощью взаимной информации.

Данный метод опирается на вероятностный подход к основным понятиям теории информации, получившим свое развитие в работах А.Н. Колмогорова. Основой данного подхода является понятие количества взаимной информации одного объекта относительно другого.

Предлагается алгоритм статистической обработки текста, который позволяет построить своеобразный "портрет" его структуры и осуществить идентификацию и классификацию соответствующих "портретов".

Алгоритм инвариантен по отношению к родовому и национальному происхождению языка, породившему данный текст и тем более к особенностям стиля автора, и, поэтому, индивидуальные особенности языка обнаруживаются в виде особенностей соответствующего "портрета" текста.

При этом выдвигается следующая гипотеза: наименьшее значение взаимной информации наблюдается между парами одинаковых классов.

Информационный "портрет" структуры текста строится на множестве всех возможных комбинаций из двух грамматических классов слов, находящихся рядом друг с другом в предложении. Каждую комбинацию из двух классов можно изобразить точкой в декартовой системе координат. Таким образом, каждой комбинации двух классов ставится в соответствие количественная мера взаимной информации между ними.

В качестве оценки вероятностей берется относительная частота появления в тексте соответствующих событий.

Пары классов, образующих данную комбинацию, выбираются из одного и того же предложения, поскольку предложение представляет собой априорно известную структурную единицу языка, которую не следует разрушать при анализе текста.

В результате обработки "портретов", соответствующих текстам разных авторов, можно получить описание структуры текстов с помощью графа, каждая дуга которого имеет свой вес, равный мере взаимной информации между классами и тем самым описать стиль и осуществить атрибуцию.

Таким образом, для построения информационного портрета первоначально нужно выбрать систему грамматических классов - т.е. осуществить классификацию слов или других языковых единиц.

Алгоритм классификации должен разбивать множество языковых единиц текста на непересекающиеся подмножества, например, можно разбить буквы на гласные и согласные, слова на части речи и т.д.

Сравнение информационных "портретов" и идентификация текстов

При выборе произведений, использованных для апробации вышеописанной методики, учитывались следующие условия:

1. объем исследуемого произведения должен быть достаточно большим, чтобы получить достоверность и устойчивость результатов;

2. атрибуция произведения должна быть общепринятой в литературе;

3. произведения одного автора не должны иметь большой временной разрыв или отличаться по жанру.

Исходя из этих условий, были отобраны несколько произведений А.С. Пушкина ("Повести Белкина), рассказы А.П. Чехова, рассказы А. Куприна. Из каждого произведения были взяты выборки определенного объема: первоначально рассматривались выборки объемом около 1000 слов, затем объем выборок увеличивался до 3000 слов.

В текстах этих выборок был произведен грамматический анализ слов - разбиение всего множества слов на 8 следующих классов: имя существительное, глагол, имя прилагательное, местоимение, наречие, числительное, причастие и класс служебных частей речи (предлоги, союзы, частицы). Затем текст каждой выборки был переведен в последовательность кодов.

Обработка закодированного текста данных выборок позволила построить для каждой из них

1)матрицу В частот парных встречаемостей классов

2) все возможные связи между единицами можно изобразить в виде матрицы А - строками и столбцами которой являются классы языковых единиц, на пересечении строки и столбца находится взаимная информация между этими классами

На рис.3.1.1-3.3.2 изображены "информационные портреты" текстов произведений А. С. Пушкина, А. П. Чехова и А. Куприна.

Для наглядности общий граф того или иного произведения разбит на два подграфа, т.к. величина взаимной информации между комбинацией классов меняется в зависимости от взаимного расположения классов в паре.

Например, взаимная информация между именем существительным и именем прилагательным равна 0,78, а между именем прилагательным и именем существительным равна +1,48 (А.С. Пушкин "Метель").

Видны значительные отличия в структуре связей и величинах взаимной информации между парами одних и тех же классов для текстов данных авторов.

Условные обозначения: С - имя существительное, П имя прилагательное, Г - глагол, Пр - предлог (служебные части речи), Н - наречие, М - местоимение, Прч - причастие, Ч - числительное

Для удобства сравнения матриц можно каждую из них изобразить в виде вектора Евклидова пространства, координатами которого являются элементы матрицы (см. Приложение 5)

Для сравнения структур текстов можно использовать коэффициент корреляции К, который характеризует угол между векторами в Евклидовом пространстве и среднеквадратическое отклонение С , характеризующее величину расстояния между ними.

Величина коэффициента корреляции К при сравнении текстов одного автора оказалась больше, чем при сравнении текстов разных авторов (табл. 3.3, рис.3.4.) . Это свидетельствует о влиянии на структуру текста индивидуальных особенностей автора. Наличие сильной корреляции между любыми текстами объясняется тем, что в текстах проявляется одна и та же структура языка, при этом каждый автор задает свой функциональный механизм его использования[123,125,127].

Разработка модели и метода структурирования текста с целью его идентификации Панкратова Анна Зурабовна

Текст и перспективы его автоматического анализа

Ранговые распределения в тексте и системах различной природы

Информационный портрет текста и возможность его атрибуции

Сравнение информационных "портретов" и идентификация текстов

Похожие диссертации на Разработка модели и метода структурирования текста с целью его идентификации