Математические модели, методы и алгоритмы построения размеченных корпусов текстов Седов, Алексей Владимирович

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Седов, Алексей Владимирович. Математические модели, методы и алгоритмы построения размеченных корпусов текстов : диссертация ... кандидата технических наук : 05.13.18 / Седов Алексей Владимирович; [Место защиты: Петрозавод. гос. ун-т].- Петрозаводск, 2013.- 113 с.: ил. РГБ ОД, 61 14-5/444

Содержание к диссертации

Введение

Глава 1. Анализ существующих словарей и текстовых корпусов 15

1.1 Понятие корпуса 15

1.2 Типы корпусов 17

1.3 Конструирование и применение корпусов 19

1.3.1. Национальный корпус русского языка 19

1.3.2 Корпус ХАНКО 21

1.3.3. Корпус русского литературного языка 23

1.3.4. Открытый корпус OpenCorpora 24

1.4 Краткое сравнение корпусов 24

1.5 Область применения лингвистических корпусов 26

1.6 Построение корпуса СМАЛТ 29

1.6 1 Морфологическая разметка 30

1.6.2 Синтаксическая разметка 32

1.7 Лингвистический корпус финноязычных текстов газеты «Karjalan sanomat» 36

1.8 Модель построения корпуса с грамматической разметкой 37

1.9 Модель построения корпуса с синтаксической разметкой 40

Глава 2 Автоматизация грамматического и синтаксического разбора 43

2.1 Программа грамматической разметки 43

2 1.1 Этап преформатирования 44

2.1.2 Этап разметки 46

2.2 Программа синтаксической разметки 48

2 2 1 Этап преформатирования 48

2.2 2 Этап разметки 49

2.3 Автоматическая грамматическая разметка 50

2.4 Автоматизированная синтаксическая разметка 52

Глава 3 Структуры данных для хранения и предоставления информации 54

3.1 Использование сети Интернет 54

3.2 Создание web-интерфейса 60

3.3 Отличие локального доступа от доступа через Интернет 69

3 4 Оптимизация структур данных под поиск 70

3.5 Критерий оптимальности по скорости поиска 70

3.6 Оптимизация по объёму хранимой информации 76

3.7 Оптимизация количества информации предоставляемой пользователю 76

3.8 Результаты оптимизации по скорости поиска 77

3.9 Результаты оптимизации по объёму хранимой информации 78

3.10 Количество информации предоставляемой пользователю 79

3.11 Доступ к системе и основные характеристики 80

Глава 4. Применение размеченного корпуса для анализа однородностей 81

4.1 Поиск неоднородных фрагментов на основе методов атрибуции текстов 84

4.2 Метод сильного графа связности для поиска неоднородных фрагментов 86

4.3 Использование наивного байесовского классификатора 87

4.4 Поиск неоднородных фрагментов на основании последовательностей частей речи 89

4.4.1 Алгоритм поиска неоднородности фрагмента текста 89

4.4.2 Пример выявления наиболее информативных признаков 90

4.4.3 Примеры неоднородных фрагментов текстов 91

4.4.4 Применение алгоритма к атрибуции текстов 94

4.5 Использование компонентного анализа для поиска неоднородных фрагментов 96

Заключение 98

Список литературы: 100

Приложения 111

Приложение №1 Список структурных схем синтаксического разбора 111

Приложение №2 Поиск информации через web-ресурс 113

Национальный корпус русского языка
Использование сети Интернет
Доступ к системе и основные характеристики
Использование компонентного анализа для поиска неоднородных фрагментов

Введение к работе

Актуальность темы. Комплексный анализ текстов необходим для решения различных задач семантического анализа. При этом возникает необходимость обработки огромного массива информации. Частично решению данной задачи служат активно создаваемые в настоящее время размеченные корпуса текстов, создание которых стало возможным благодаря современным информационным технологиям и методам математического моделирования.

Существующие корпуса текстов позволяют производить всесторонние исследования не только в рамках развития языка в определённых временных масштабах (год, век, эпоха), но также отображать внешние факторы, такие как эмоциональная окраска использованных языковых структур, языковые элементы, показывающие отношение к окружающему миру и т. п. Корпуса текстов являются богатым источником для лексикографии. С применением современных компьютерных технологий словари могут составляться и пересматриваться гораздо быстрее, чем раньше, фиксируя текущее состояние языка. На основании корпусов создаются практически все современные системы информационного поиска. С их помощью может быть решено множество прикладных задач, таких как: статистическая обработка специальных текстов, создание систем извлечения текстовой информации, извлечение знаний из больших массивов информации, задачи интеллектуального поиска, задачи установления авторства и др.

В настоящее время созданием корпусов занимается большое количество исследователей. В качестве примера можно привести Национальный корпус русского языка (НКРЯ), Хельсинкский аннотированный корпус (ХАНКО), Корпус шведского языка, Корпус итальянского языка, Британский национальный корпус, Банк английского языка и другие. Отличительной особенностью данных корпусов является то, что для их создания привлекается большое количество специалистов, которые зачастую вручную решают задачи разбора и снятия омонимии.

При построении корпусов текстов малой размерности, создаваемых для решения специализированных задач, штат сотрудников может быть сильно ограничен и даже состоять лишь из одного исследователя. При этом решения, используемые для создания больших корпусов текстов, становятся практически неприменимыми. Для таких корпусов требуется создание компьютерной программы, которая частично автоматизировала бы процесс разбора и при этом не была бы ориентирована на конкретный язык и тип разметки.

После создания размеченного корпуса текстов возникает необходимость предоставления специалистам инструмента, позволяющего производить лингвистические исследования. В частности, этот инструмент должен позволять стро-

ить частотный словарь для определённого набора текстов, находить частоты встречаемости словоформ, биграмм, триграмм, осуществлять поиск однокорен-ных слов, неоднородных включений, цитат.

Таким образом, существующие корпуса удовлетворяют не всем современным запросам специалистов, а значит, разработка инструментов для создания новых корпусов и поиска статистических закономерностей текстов является актуальной исследовательской задачей.

Степень разработанности. Имеющиеся корпуса опираются в основном на современный язык и разметку. В настоящем диссертационном исследовании разработана программная среда, которая позволяет создавать мультиязычные размеченные корпуса текстов, сохраняя оригинальное написание слов. Используемые для ее создания математические модели и алгоритмы существенно отличаются от применяемых в ранее созданных корпусах. В настоящее время практически отсутствуют специализированные инструменты глубокого статистического анализа текстов.

Цель диссертационной работы — построение и разработка моделей и методов создания размеченных корпусов текстов и нахождения статистических параметров, присущих как отдельным словам, предложениям, текстам и их частям, так и всему корпусу в целом.

Для достижения поставленной цели необходимо решить следующие задачи:

разработать структуры баз данных, необходимые для хранения грамматической и синтаксической разметок;
создать компьютерные системы поддержки грамматического и синтаксического разборов;
разработать компьютерную систему доступа к разобранным текстам, хранящимся в базах данных;
провести анализ методов разбиения текста/текстов на фрагменты однородности.

Объект исследования — системы создания корпусов текстов, методы извлечения информации из текстов.

Методология и методы исследований. Для решения поставленных задач использовались методы прикладной и математической статистики, методы управления базами данных, а также методы человеко-машинного взаимодействия.

Научная новизна работы заключается в предложенных и исследованных в диссертации структурных моделях текста и анализе методов выявления неоднородных фрагментов текста.

Теоретическая и практическая значимость. Предложенные модели, методы и алгоритмы могут использоваться при создании разнообразных корпусов текстов, а также проведении исследований по анализу структуры языка, извлечению информации из текстов, выделению однородных фрагментов.

Положения, выносимые на защиту:

Предложенные структурные и графовые модели позволяют создавать муль-тиязычные корпуса текстов, а также проводить различные исследования, направленные на выявление особенностей текста.
Разработанные численные методы автоматизируют определения структурных особенностей единиц текста (морфологического и синтаксического разбора).
Разработанные численные методы позволяют определить вид данных в объединённом хранилище, который обеспечивает минимальное время доступа в зависимости от вида требуемой информации.
Разработанные численные методы позволяют на основании статистических характеристик выявлять фрагменты неоднородности. Полученные фрагменты могут быть полезны для решения задач поиска плагиата, задач атрибуции и распознавания.
Разработанный программный комплекс, реализованный в ИС СМАЛТ, содержит предложенные модели и численные методы и предназначен для создания информационных корпусов, предоставления статистической информации о них, а также проведения исследований по анализу однородности как корпуса в целом, так и отдельных его фрагментов.

Степень достоверности. Степень достоверности результатов выполненных исследований подтверждается на примере проведения анализа однородностеи в текстах XIX века, текстах Ф. М. Достоевского и В. И. Даля.

Апробация работы. Результаты работы были представлены и обсуждались на следующих конференциях:

1. VI Международной научно-практической конференции «Информационная
среда вуза XXI века»,

26-30 сентября 2012 г., Финляндия, Куопио;

2. Международной конференции «Компьютерные технологии и математиче
ские методы в исторических исследованиях»,

11-16 июля 2011 г., Петрозаводск;

3. XI Всероссийской научной конференции «Электронные библиотеки: Пер
спективные методы и технологии, электронные коллекции»,

17-21 сентября 2009 г., Петрозаводск;

4. XL международной научной конференции аспирантов и студентов «Про
цессы управления и устойчивость» Control Processes and Stability (CPS'09),
6-9 апреля 2009 г., Санкт-Петербург.

Разработанный программный комплекс был апробирован при создании корпуса русских публицистических текстов второй половины XIX века и корпуса финноязычных газетных статей «Карьялан Саномат». Проект был поддержан грантами российского гуманитарного научного фонда № 05-04-12418в «Исследовательские базы данных «Грамматический словарь русского языка XIX века» (рук. Рогов А. А.), № 08-04-12105в «Синтаксически размеченный корпус текстов XIX века» (рук. Рогов А. А.).

Публикации. По материалам диссертации опубликовано 10 работ [1-10], в том числе 2 статьи в изданиях, рекомендованных ВАК [1,2].

Личный вклад автора. Содержание диссертации и основные положения, выносимые на защиту, отражают персональный вклад автора в опубликованные работы. Подготовка к публикации полученных результатов проводилась совместно с соавторами, причем вклад диссертанта был значительным. Все представленные в диссертации результаты получены лично автором.

Структура и объём диссертации. Диссертация состоит из введения, четырёх глав, заключения, библиографического списка использованной литературы (100 наименований), имеет объём 110 страниц машинописного текста, включая 3 страницы приложений, содержит 22 рисунка и 6 таблиц.

Национальный корпус русского языка

«Национальный корпус русского языка» является наиболее известным русскоязычным корпусом. Он включает в себя тексты, суммарным объемом превышающие 500 млн. словоупотреблений. НКРЯ создавался в рамках целого ряда проектов, в его создании участвуют специалисты из многих научных центров России [30]. Авторы характеризуют НКРЯ следующим образом: «Национальный корпус русского языка - это бесплатный, доступный любому пользователю сайт, созданный группой ученых из Института русского языка им. В. В. Виноградова при поддержке компании Яндекс. Корпус создан в 2003 году, постоянно пополняется и развивается, предоставляя пользователям новые возможности.

Национальный корпус русского языка представляет русский язык в наиболее полном виде: во всём многообразии жанров, стилей, территориальных и социальных вариантов и содержит все типы письменных и устных текстов, представленных в русском языке. В Корпусе собраны художественные тексты разных жанров от Фонвизина до Улицкой, поэзия с конца 18 века, публицистика XX-XXI веков (особенно широко представлена публицистика последних 40 лет), научная литература всех направлений (точные, естественные и гуманитарные науки), официально-деловые тексты: заявления, служебные записки, инструкции, тексты бытовых жанров: мемуары, дневниковые записи, личная переписка, фрагменты интернет-чатов, записи устной разговорной речи, а также записи устной речи из фильмов, диалектные тексты и др.»[31]

Корпус снабжен грамматической (собственно морфологической), синтаксической, семантической и акцентной разметкой. Кроме того, в корпусе присутствует так называемая метатекстовая разметка, при которой для каждого текста задаётся набор определённых параметров: автор, название, жанровая принадлежность, время создания и пр. Как уже говорилось, НКРЯ, помимо основного, содержит 10 специализированных полкорпусов, предоставляющих широкие возможности работы с текстами. В их перечень входят:

Глубоко аннотированный (синтаксический) корпус (ГАК). Синтаксическая структура предложения представляется в виде дерева синтаксических зависимостей: в узлах дерева стоят слова, входящие в состав предложения, а ветви помечены именами синтаксических отношений.

Газетный корпус (корпус современных СМИ). Он включает материалы как печатных, так и электронных СМИ (РИА "Новости", РБК, "Новый регион") периода 2000-х годов.

Корпус параллельных текстов. В нём содержатся сопоставленные переводы русских текстов на другие языки и наоборот, когда иноязычному тексту сопоставлен его перевод на русский язык.

Корпус диалектных текстов. В него включены записи диалектной речи из различных регионов России орфографическими средствами, приближенными к стандартной орфографии.

Корпус поэтических текстов. Он охватывает период от XVIII века до современности. В нём используется специальная стиховедческая разметка, с помощью которой можно отыскать тексты, написанные определенным размером.

Обучающий корпус русского языка. Небольшой по объёму корпус, ориентированный (как по составу текстов, так и по грамматическому анализу) на преподавание русского языка в школе.

Корпус устной речи. В нём содержатся записи частной и публичной устной речи с магнитофонных носителей.

Акцентологический корпус. Он построен на основе собрания текстов со специальной акцентологической разметкой и позволяет проследить историю русского ударения. в Мультимедийный русский корпус (МУРКО). Содержит различные фрагменты кинофильмов 1930—2000-х годов в виде параллельных видеоряда, аудиоряда и текстовой расшифровки звучащей речи, а также наблюдаемых в кадре жестов.

Исторический корпус. Состоит из церковно-славянских текстов, корпуса древнерусских текстов, корпуса среднерусских текстов и корпуса берестяных грамот.

Использование сети Интернет

Всемирная сеть Интернет давно и достаточно активно используется в научной среде как средство коммуникации и неограниченного доступа к информационным ресурсам. Появилось большое количество журналов, публикующих результаты научных исследований и трудов во всемирной сети. Порою такие журналы попросту могут не иметь печатного варианта. Существуют web-ресурсы различных научных сообществ, высших учебных заведений, тематические страницы по разным научным дисциплинам. В современном мире наличие данного ресурса стало скорее необходимой особенностью, нежели желательным дополнением. Конечно, нельзя говорить о полной замене традиционных публикаций электронными, но по степени доступности и простоты поиска преимущество электронных публикаций очевидно. Так же представление результатов исследований во всемирной сети облегчает ознакомление с информацией людей, которые не имеют тесных контактов с исследователями, поскольку современные системы поиска позволяют группировать и ранжировать информацию по определённой тематике. С другой стороны, несмотря на открытость и доступность информации, возникают проблемы связанные с неполным представлением научного исследования в Интернет. Часто можно встретить ресурсы содержащие выводы и результаты, при этом информация, связанная с постановкой гипотезы и правилами отбора исходных данных (и самими данными) является достаточно размытой. Существует и обратная ситуация. Когда достаточно подробно описана исходная гипотеза, а результаты являются спорными. Поэтому специалистам, занимающимся сходными проблемами, будут полезны ресурсы, которые не просто позволяют ознакомиться с исследованиями, но и, в идеале, провести эксперименты с целью проверки выводов автора. Сейчас активно создаются виртуальные лаборатории, где не только студенты, но и все заинтересованные люди могут проводить различные эксперименты, ставить опыты, выбирая модели и параметры экспериментов по своему усмотрению, либо по заданию преподавателя. Это возможно ещё и потому, что современный уровень прикладной математики и техники позволяет моделировать многие процессы и явления, происходящие в природе и в обществе. Более того, в последние годы приобретают популярность виртуальные кафедры и виртуальные университеты. Определенная часть образования принимает дистанционную форму. Таким образом, эра простого представления научного знания в Интернет, например, в виде простого предоставления данных, проходит. Происходит переход на совершенно новый технологический уровень.

Можно привести еще несколько доводов в пользу представления результатов научных исследований в сети Интернет [49-51]. Во-первых, в настоящее время происходит, по крайней мере, в нашей стране, переход науки на прагматический уровень, то есть результатом научной деятельности должны являться реальные приложения, необходимые для общества. В такой ситуации представление через Интернет научного исследования помогает всесторонне продемонстрировать продукт научной мысли, посредством различных сервисов всемирной паутины донести идеи до потенциальных заказчиков и заинтересованных лиц. Следовательно, Интернет выступает в роли маркетингового агента исследователя, формирует его лицо. Во-вторых, представление результатов научного труда в Интернет, например, в виде Web-сайта, выполняет функцию систематизации исследования. Продумывая структуру сайта, исследователь невольно классифицирует и систематизирует накопленный научный материал, подвергает его объективной дополнительной обработке. Ученому становиться проще провести грань между познанным и непознанным. С этой точки зрения Интернет становится равноправным, наравне с публикациями в журналах, докладами на конференциях, критерием оценки деятельности ученого. Кроме того, средства Интернет позволяют организовывать тематические форумы, в которых в результате дискуссий можно выработать перспективные направления исследования, оценить его эффект, то есть всесторонне проанализировать научный труд. Безусловно, при таком подходе электронные публикации приобретают новые возможности по сравнению с классическими статьями и монографиями. При этом электронные публикации становятся ориентированными в большей степени на исследователей, чем на широкую аудиторию. По этой причине электронные и бумажные публикации должны служить разным целям и взаимодополнять друг друга.

Современный уровень развития Интернет-технологий позволяет образованному человеку, не являющемуся специалистом по программированию, практически самостоятельно разрабатывать web-сайты, начиная от дизайна и структуры и заканчивая установкой вспомогательных утилит. Не случайно в серьезных университетах многих стран одним из требований при приеме на работу является владение современными web-технологиями.

Поэтому, опираясь на вышеизложенное, помимо локального доступа было начато создание web-pecypca для предоставления доступа к корпусам. Были проведены предварительные исследования, в том числе рассмотрены проблемы, возникавшие в крупных корпусах [52,53]. В результате было решено, что ресурс должен содержать список публикаций, список авторов, предоставлять возможность просмотра информации о корпусе, а также предоставлять возможность поиска интересующей информации в корпусе с возможностью выбора необходимого набора текстов (подкорпуса).

В процессе работы над созданием и наполнением корпусов, обнаружилось, что зачастую исследователи не имели возможности находится рядом, самостоятельно выкладывать и обрабатывать тексты, исправлять ошибки и замечания в разборах в режиме реального времени. Для этого им требовалось высылать исправления в централизованное хранилище, откуда обновленные разметки предоставлялись пользователям. Поэтому было решено добавить возможность исправления грамматического и синтаксического разборов через Интернет. Доступ к исправлению получали только зарегистрированные пользователи. Это было сделано для того, чтобы быть уверенным, что все разборы осуществляются по определённой схеме. На ресурсе можно выбрать разобранные тексты из списка, тем самым сформировав собственный подкорпус, либо использовать все имеющиеся разобранные тексты. И на основании выбранных текстов осуществлять поиск необходимой информации. Сами тексты можно тут же просмотреть, нажав на соответствующую ссылку.

По выбранному подкорпусу можно осуществлять несколько видов поиска: поиск по точной форме, где пользователь вводит искомое слово в нужной форме; поиск по начальной форме, где пользователь запрашивает все словоупотребления данного слова, поиск по грамматическим признакам. Для этого пользователю предоставляются все параметры, использованные при разборе. В результате чего, пользователь может сформировать признаки слов, которые он ищет и на основе этих признаков осуществить поиск. Также предоставляется возможность поиска синтаксических конструкций. По рекомендации филологов, при поиске было решено использовать современное написание слов, поскольку написание на языке XIX века может быть неизвестно, либо несколько написаний могут соответствовать одному современному. Дополнительные виды поиска, такие как частотный словарь, алфавитный словарь было решено, временно, не включать в основную систему поиска. Но при желании пользователь может получить необходимые данные.

Количество исследователей, вовлеченных в создание информационной системы, в частности специалистов-филологов, было невелико. Поэтому для увеличения размеров словаря, а также количества текстов в базе, было решено использовать и другие имеющиеся базы данных, такие как Словарь «Даля», корпус «Атрибуция» [54]. Имеющийся в нашем распоряжении словарь «Даля» выполнен на базе СУБЛ «Oracle». Наборы моп сшогических параметров по которым производились разборы, также несколько отличаются друг от друга. Поэтому после осуществления преобразования данных из одной базы в другую, тексты были отправлены на проверку специалистам. Так как большинство правил перевода работало без ошибок, проверка результатов занимала значительно меньше времени, нежели новые разборы. Вопрос, связанный с большим временем обработки информации, а также с выбором СУБД был решен в пользу СУБД «Interbase». Поскольку на данном этапе данная СУБД является бесплатной, разбор и большинство программ настроено и работает с ней. Для решения вопроса скорости обработки и предоставления информации было решено попробовать разные модели структур данных, ориентированные на предоставление информации.

Основной проблемой, являлось отображение знаков препинания. Отображение набора слов в предложении без них не давало полного и правильного восприятия контекста. А поскольку на этапе проектирования данные о знаках препинания не собирались - для грамматического разбора в этом не было необходимости, а синтаксические конструкции не включали в себя эту информацию, то в базе данных не содержится информация о знаках препинания. Но для сохранения оригинальных авторских знаков, переводов строк, символов было решено получать данную информацию непосредственно из текстов. Поэтому для каждого слова в корпусе было добавлено дополнительный параметр - позиция слова в тексте. Таким образом, после получения и обработки запроса, программа обращается к файлам, хранящим тексты, производит считывание с определённой позиции и синхронизирует написание слова в файле и информацию, содержащуюся в базе. Теоретически, данный механизм обращения к файловым данным на сервере позволяет отображать не только текстовую, но и графическую и даже звуковую информацию (вместо слова выводить значок, по клику на который будет воспроизводиться звук). Этот же механизм используется для вывода контекста для слов.

Доступ к системе и основные характеристики

Доступ к системе осуществляется посредством сети Интернет. Адрес сайта: http://smalt.karelia.ru/corpus. В приложении №2 представлен дизайн сайта и основные моменты его работы.

На данном этапе, на сайте, на обозрение пользователям представлено 80 текстов, количество различных слов 194092, количество слов в словаре 48320. Скорость получения ответа зависит от нескольких параметров. Для высокоскоростной линии ответ приходит за одну-две секунды, если же осуществлять доступ к словарю из университета, то утром это порядка 3-5 секунд, днём и вечером - секунд 5-7. Также различаются скорости при выводе контекстов. Если текст небольшой, или предложение находится в начале текста, то контекст выводится сразу. Для больших текстов задержка может составлять порядка 2-3 секунд.

В современном мире возникает множество задач, связанных с текстовой информацией. Одними из наиболее важных являются задачи обнаружения плагиата и выявления автора произведения. Данные задачи рассматриваются не только специалистами-филологами, математиками, специалистами информационных систем, но и преподавателями, а также научным сообществом в целом. Перед ними возникают задачи поиска недобросовестных студентов и исследователей, нахождения авторов не только литературных, но и заказных статей и «террористических» лозунгов. Долгое время для атрибуции текстов использовались филологические и историко-документальные методы исследований, что зачастую вело к субъективному отбору текстов, пропуску мельчайших значимых деталей и подведению результата к заранее заданному, желаемому результату. Математико-статистические методы стали использоваться лишь в конце XIX века. Изначально исследовались «оригинальные» слова, взаимное расположение «определяющих» и «определяемых» слов. Считалось, что они могут выдать стиль автора. Ещё одним способом нахождения «авторского» стиля считалось использование как раз не значимых, служебных частей речи, так как они не зависели от тематики написанного произведения и ставились автором произвольно. Данный метод был предложен Н. А. Морозовым и лег в основу различных исследований лексики писателей. Результаты данных исследований воспринимались, прежде всего, как вспомогательные. При этом основными методами по-прежнему оставались историко-документальные.

В 60-70 годах XX века использование математических методов стало приобретать популярность, что позволило накапливать различные данные о свойствах языка и развивать научный аппарат атрибуции текстов [65]. Появились работы, посвященные применению методов статистики к грамматике и лексике.

В 1987 году Ю. Тулдава обобщил опыт лингвистических исследований [66] и сформулировал основные принципы изучения лексики: принцип системности и вероятностно-статистический характер организации лексики. При этом была высказана идея о взаимосвязи между лексическими признаками. Это послужило отправной точкой для разработки математического аппарата оценки связей между параметрами.

Стоит упомянуть исследования по атрибуции текстов, проводимые французским учёным Д. Лаббе. Он предложил в 2001 году формулу вычисления «межтекстового расстояния», основанную на анализе лексического состава двух текстов и определении меры близости. Результаты его исследований показали серьёзные недостатки методологического и статистико-вероятностного характера, связанные с недостоверностью результатов атрибуции, осуществленной на основе анализа одного лишь лексического уровня. Для атрибуции текстов изучение только лексического состава текста не достаточно и должно быть дополнено данными и о других языковых уровнях, таких как синтаксическая и семантическая структуры анализируемого текста.

Исследования, посвященные структурному изучению текстов на синтаксическом уровне, в отечественной лингвистике проводились в работах И. П. Севбо и Г. Я. Мартыненко. Ими, в основном, рассматривались методы, основанные на анализе графов синтаксических связей. Рассматриваемые диагностические параметры были связаны с характеристиками предложения, хотя для фиксации авторского стиля требуется анализ всего текста.

Применение компьютерной обработки данных для анализа текстовой информации началось в конце 70-х годов XX века и продолжается до настоящего времени. В работах норвежского филолога Г. Хетсо была предложена одна из первых методик установления авторства, основанная на анализе текста при помощи автоматизированного получения частотных словарей. Идеи, предложенные данным учёным, были поддержаны и развиты в работах связанных с определением авторства различных произведений [67,68].

К сожалению, применение автоматизированного поиска индивидуальных особенностей автора влечёт использование преимущественно лексического уровня языка. При этом синтаксический уровень зачастую не используется, а методы компьютерной обработки данных и анализа информации упрощают методологические основы исследований. Это делает методы атрибуции текста менее эффективными.

В настоящее время существует большое количество текстов, которые содержат неоднородные включения. Это студенческие и псевдонаучные работы, скомпилированные из разных источников, а также тексты, подвергшиеся существенному редактированию. Зачастую данные тексты выдаются как собственные, уникальные, написанные непосредственно самим автором. Поэтому возникают задачи отделения фрагментов, написанных самостоятельно, от скопированных [69] фрагментов, а также нахождения автора, или первоисточника [70]. Кроме того, существует задача поиска в литературном тексте фрагментов с разной эмоциональной окраской [71-73].

Задача определения плагиата во многом схожа с задачей атрибуции текста: в данном случае требуется определить написал ли автор «оригинальный» текст, либо скопировал его (то есть текст принадлежит другому автору). На данный момент наиболее эффективным методом обнаружения плагиата является нахождение источника, из которого был взят текст. Существует множество способов изменения текста, таких как перестановка слов, изменение структур предложения, искажение смысла и другие, которые позволяют скрыть факт плагиата. В этой связи возникает дополнительная задача определения сходства текстовых документов. Решение данной задачи позволит улучшить качество работы поисковых запросов, уменьшая требуемые базы данных, группировать тексты по тематике, фильтровать поисковый и почтовый спам.

Одной из основных проблем современных систем обнаружения плагиата [74-78] являются большие объемы обрабатываемых данных. Если по каким либо причинам первоисточник, который использовался при написании текста, не вошёл в поисковые базы, то система может принять фрагмент данного текста как уникальный. Алгоритмы, успешно работающие для решения одних задач, оказываются неэффективными и бесполезными для решения других задач. Зачастую сама предметная область накладывает дополнительные ограничения. Так, например, в юрислингвистике для определения авторства текста изучают его стилистические особенности, категоричность высказываний, использование оценочной лексики. Очевидно, данный подход будет бесполезен при работе с текстами на различных языках.

Поскольку плагиат - это не просто копирование, а копирование с модификацией, то нельзя использовать лишь базы, необходимо ещё применение дополнительных методов, основанных на семантическом анализе текстов.

Методы, которые позволяют выявлять неоднородные фрагменты в тексте, и тем самым указывать на возможность плагиата без привязки к базам данных, являются актуальными и своевременными.

Использование компонентного анализа для поиска неоднородных фрагментов

В качестве развития метода, описанного в предыдущем пункте, было решено производить выделение фрагментов в тексте не на основе значений статистики х2 Для последовательности определённых признаков, а на основе их линейной комбинации.

Для вычисления коэффициентов из текста подряд выбирались фрагменты заранее заданной длины. Для каждого фрагмента и оставшегося текста производилось вычисление статистики х2 Для все возможных комбинаций признаков. Результаты записывались в матрицу Р, по столбцам которой записывались признаки, а в строках - значения статистики для данного признака для фрагмента. Для данной матрицы вычислялись значения собственных чисел и координаты собственных векторов.

При помощи матрицы координат собственных векторов производилось преобразование матрицы Р. Это позволяло найти линейные комбинации признаков, приносящих максимальный вклад в абсолютное значение статистики X2. Значения линейных комбинаций для каждого фрагмента брались в качестве координат данного фрагмента в пространстве признаков, выделяемых для текста.

На основании данных координат визуально определялись фрагменты, отличающиеся от остальных (Рис. 23).

Точки с координатами линейных комбинаций для последовательностей из 3-х и 4-х частей речи. Для аналитического нахождения фрагментов, подозрительных на неоднородность, можно построить сферу, охватывающую 95% всех возможных точек. Точки, не попавшие внутрь сферы, определяются как подозрительные на неоднородность и предоставляются пользователю для дополнительного изучения. Данный метод является в большей степени подсказкой для нахождения неоднородных фрагментов, нежели критерием для разделения текста.

В работе представлены различные модели структур данных, используемых при создании корпусов текстов. На их основании были проведены исследования и выбраны структуры, позволяющие оптимально с точки зрения скорости и времени доступа хранить информацию.

Разработанные структуры данных могут быть применены для создания произвольных корпусов, в том числе для малораспространённых языков.

Наличие возможности использования оригинальной графики позволяет исследователям применять данные модели для исследования связей между исходным текстом и современной графикой.

Размеченные корпуса могут быть использованы при научных изысканиях в области истории, грамматики, лексикографии, а также при изучении соответствующих курсов студентами филологических специальностей. Кроме того, он может быть востребован специалистами по литературе XIX века.

В диссертационном исследовании рассмотрена и решена задача автоматизирования грамматического и синтаксического разбора на основании информации, уже имеющейся в корпусе.

В работе рассмотрены и предложены различные методы разбиения текста на фрагменты однородности.

Предложенные методы и алгоритмы реализованы в программном комплексе СМАЛТ, предназначенном для создания мультиязычных корпусов текстов и нахождения различной статистической информации в них. Апробация данного программного комплекса выполнялась при создании корпусов русских публицистических текстов второй половины XIX века и корпуса финноязычных газетных статей «Карьялан Саномат».

Работа имеет законченный характер. Основными перспективными направлениями её развития являются: разработка методов, позволяющих улучшить снятие омонимии; добавление семантического разбора и анализа; добавление методов, позволяющих классифицировать жанр и общую тематику произведений; добавление методов, позволяющих выискивать плагиат и заимствование из других источников; добавление методов выделяющих эмоциональную окраску.

Математические модели, методы и алгоритмы построения размеченных корпусов текстов Седов, Алексей Владимирович

Национальный корпус русского языка

Использование сети Интернет

Доступ к системе и основные характеристики

Использование компонентного анализа для поиска неоднородных фрагментов

Похожие диссертации на Математические модели, методы и алгоритмы построения размеченных корпусов текстов