Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Разработка и исследование метода и алгоритмов семантического сравнения научных текстов Бермудес Сото Хосе Грегорио

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Бермудес Сото Хосе Грегорио. Разработка и исследование метода и алгоритмов семантического сравнения научных текстов: диссертация ... кандидата Технических наук: 05.25.05 / Бермудес Сото Хосе Грегорио;[Место защиты: ФГАОУ ВО «Южный федеральный университет»], 2018

Содержание к диссертации

Введение

Глава 1. Обзор существующих подходов и методов к обработке научных текстов на естественном языке. Постановка задачи исследования 15

1.1 Обзор используемых семантических интерпретаций текстов, характеристик и грамматических атрибутов языка научных текстов, лингвистический феномен анафоры 15

1.1.1 Анализ используемой структуры языка 15

1.1.2 Используемые особенности русского языка 18

1.1.3 Используемые определения понятий: лингвистическое явление анафоры 20

1.1.4 Формирование определений значимого текстового пассажа и смысла научного текста 21

1.2 Анализ существующих подходов к обработке научных текстов на естественном языке 24

1.3 Обзор существующих методов построения структурных элементов схемы существующего подхода к обработке научных текстов на естественном языке 30

1.3.1 Используемые методы сегментации текстов 30

1.3.2 Известные методы разрешения анафор 37

1.3.3 Используемые методы сравнения текстов 41

1.4 Постановка задачи диссертационного исследования 47

Выводы по главе 49

Глава 2. Формирование подхода и метода семантического сравнения научных текстов 52

2.1 Новый подход и метод обработки текстов для текстового сравнения 52

2.2 Разработка методики сегментации на значимых текстовых пассажах для последующего сравнения 57

2.3 Разработка методики сравнения текстов на основе сегментов текстовых пассажей с учетом семантических классов и оценка семантического сравнения 62

Выводы по главе 71

Глава 3. Разработка алгоритма семантического сравнения научных текстовых документов 72

3.1 Разработка алгоритма нового метода сравнения научных текстов 72

3.2 Разработка алгоритма сегментации текстов на значимых пассажах 74

3.3 Разработка алгоритма сравнения текстов, основанного на значимых пассажах с учетом семантических классов 82

Выводы по главе 87

Глава 4. Проведение экспериментального исследования и оценка полученных результатов 88

4.1 Результаты эксперимента предлагаемой методики сегментации. 88

4.2 Результаты эксперимента предлагаемого метода сравнения . 92

Выводы по главе 96

Заключение 98

Список использованных источников 102

Приложение А. Программный код 111

Приложение Б. Листы данных с записями результатов экспериментов 141

Приложение В. Свидетельство о регистрации программы .162

Приложение Г. Акты внедрения результатов работы 163

Введение к работе

Актуальность темы исследования.

В связи с возрастающейпотребностью в обработке текстовой информации на естественном языке тема диссертационного исследованияявляется актуальной. К задачам обработки текстовой информации на естественном языке относятся: информационный поиск, сравнение текстов, проверка на плагиат, вопросно-ответные системы, машинный перевод, извлечение информации, автоматизированное аннотирование и реферирование, диалоговые системы, анализ и синтез текста и другие.

Задачи обработки текстовой информации характеризуются разным набором входных данных и требуемой формой их представления, целевым результатом и предлагаемыми подходами. Полученные в данной области результаты и их практическая реализация показывают, что некоторые из этих задач требуют дальнейших исследований. Одной из таких задач является сравнение текстов, а именно задача выявления семантической близости двух на естественном языке.

Проблема автоматической обработки естественного языка при выявлении семантической близости заключается в том, что различные языки имеют различные семантические и грамматические особенности, а существующие алгоритмы успешно используются только для обработки одного отдельно взятого языка. Преодоление этой проблемы требует создания средств построения смысловых конструкций естественного языка, что на данный момент является не решенной задачей.

Для машинной обработки текстов на естественном языке необходимо, прежде всего, решить задачу создания средств преобразования языка (например русского, испанского, английского и т.д.) в формализованный, подобный языку программирования. Общие принципы создания средств для систем обработки текстов включают следующие компоненты: фрагментация или разделение, морфологический анализ, синтаксический и семантический анализ, из которых выход одного компонента является входом для следующего.

Существующие достижения в области обработки текстов на естественном языке включают: метод синтактико-семантических шаблонов (Чубинидзе К.А.), подход к автоматизации систем смысловой обработки текстов(Сбойчаков К.О.),метод концептуального анализа текстов в системах автоматической обработки научно-технической информации (Козачук М.В.) и др. Стоит отметить, что существующие подходы и методы не рассматривают в качестве критерия сравнения текстов их смысл, под которым в диссертационном исследовании в отличие от известных понимается текстовый пассаж, который не содержит анафорических связей, ассоциирующихся со словами другого текстового пассажа, содержащий по крайней мере один глагол, тип и категория которого выражает действие.

На основе предложенного выше определения смысла в диссертации сформулирован подход сравнения научных текстов, на базе которого разработаны метод и алгоритмы семантического сравнения научных текстов. Данные метод и алгоритмы могут быть использованы в приложениях автоматизированного обнаружения плагиата для повышения его эффективности.

Цель работы заключается в формулировке подхода сравнения научных текстов, а также разработке и исследовании метода и алгоритмов семантического сравнения на его основе, которые позволяют извлекать текстовые сегменты с полным смыслом и обнаруживать семантическое сходство.

Для достижения поставленной цели решаются следующие задачи:

  1. Сформулировать определения значимого текстового пассажа и смысла научного текста;

  2. На основе сформированных определений разработать подход сравнения научных текстов;

  3. Реализация сформулированного подхода сравнения научных текстов в виде метода, состоящего из:

  1. Методики сегментации текстов на естественном языке, которая гарантирует извлечение значимых текстовых фрагментов, сохраняющих смысл текста;

  2. Методики автоматизированного сравнения двух текстов на естественном языке, которая обнаруживает семантическое сходство, независимо от используемых слов;

  1. Разработка алгоритмов сегментации и сравнения, позволяющих оценивать сходство научных текстов и реализующих предложенные методики.

  2. Проведение экспериментальных исследований методик сегментации и сравнения текстов на естественном языке и оценка их по критерию выявления совпадений с человеческими мнениями.

Объектом исследования является информационная технология интерпретации текстов на естественном языке в части методов семантического, синтаксического и прагматического анализа текстовой информации.

Предметом исследования являются алгоритмы семантико-синтаксической обработки научных текстов на русском языке и методы автоматической обработки текста.

Научная новизна диссертационной работы:

В диссертации получены следующие новые научные и практические результаты:

  1. Введено определение понятия значимого текстового пассажа как формального представления самостоятельной части текста посредством идентификации глаголов и анафорических связей.

  2. Предложено формальное представление смысла научного текста в виде текстового пассажа, которое в отличие от известных подразумевает, что пассаж не содержит анафорических связей, ассоциирующихся со словами другого текстового пассажа, и содержащий по крайней мере один глагол, тип и категория которого выражает действие.

  1. Предложен подход к формализации процедуры сравнения научных текстов, отличающийся от известных сравнением значимых текстовых пассажей, состоящих из элементов смысла.

  2. Предложен метод формального сравнения научных текстов, отличающийся от известных введением сегментации по семантическимкритериям с учётом синонимов, что позволяет автоматизировано обнаружитьсемантическое сходство между двумя сравниваемыми текстами, и учитывать приэтом как морфологическую структуру текста, так и его лексико-семантическоесодержание.

  3. Предложена методика формализованной сегментации текста,отличающаяся от известных использованием семантического критерия, чтопозволяет автоматизировано извлекать значимые текстовые фрагменты,сохраняющие смысл текста.

  4. Предложена методика формализованного сравнения научных текстов,отличающаяся от известных комбинацией предложенного формального исуществующего семантического представления, а также сопоставлениемсинонимов, что позволяет обнаруживать семантическое сходство, независимо отиспользуемых слов.

Основные положения, выносимые на защиту:

  1. Формализованное представление смысла, идентифицированного какглагол и анафорические связи, в виде значимого текстового пассажа;

  2. Подход к формализации процесса семантического сравнения научныхтекстов наестественном языке как сравнение их формального представления ввиде значимых текстовых пассажей;

  3. Метод семантического сравнения научных текстов как их формальныхпредставлений в виде значимых текстовых пассажей;

  4. Методика формализованной сегментации текстов на значимые текстовыепассажи, сохраняющие смысл текста;

  1. Методика семантического сравнения научных текстов на основе ихформального представления в виде совокупности значимых текстовых пассажей;

  2. Оценка семантического сравнения научных текстов, критерииправильности и глубины вычисления семантической близости значимыхтекстовых пассажей.

Соответствие специальности. Тематика работы соответствует паспортуспециальности 05.25.05 – Информационные системы и процессы:

п.1. Методы и модели описания, оценки, оптимизации информационных процессов и информационных ресурсов, а также средства анализа и выявления закономерностей в информационных потоках.Когнитивные модели информационных систем, ориентированных на человеко-машинное взаимодействие.

п.4. Лингвистическое обеспечение информационных систем и процессов.Методы и средства проектирования словарей данных, словарей индексированияи поиска информации, тезаурусов и иных лексических комплексов. Методысемантического, синтаксического и прагматического анализа текстовойинформации с целью ее формализации для представления в базах данных иорганизации интерфейсов информационных систем с пользователями.Формат внешнего и внутреннего представления данных, коммуникативные ииные форматы данных и документов.

Практическая значимость работы заключается в том, что подход, метод,методики и алгоритмы, разработанные автором для извлечения значительныхпассажей и сравнения текстов, позволили повысить стабильность распознаванияплагиата вне зависимости от процента замены слов и улучшить на 40%обнаружение подобия по сравнению с существующими системами при заменеболее 50% слов исходного текста.

Использование результатов. Основные теоретические и практические
результаты диссертационной работы использованы в организациях:
Национальный политехнический экспериментальный университет

национальных вооружённых Боливарианских сил (УНЕФА – UNEFA); Национальный центр по совершенствованию преподавания науки (СЕНАМЕК – CENAMEC), и Кафедра системного анализа и телекоммуникацийИнститута компьютерных технологий и информационной безопасности Федерального государственного автономного образовательного учреждения высшего образования «Южный Федеральный Университет», что подтверждается актами о внедрении.

Обоснованность и достоверность полученных результатов подтверждается строгостью математических выкладок, использованием методов компьютерной лингвистики, теории вероятностей, теории графов, теории информационного поиска и современных технологий программирования, теории интеллектуальных систем, морфологического анализа, семантико-синтаксического и статистического анализа, разработкой действующей программы и результатами экспериментов.

Апробация результатов работы. Основные результаты, полученные в ходе работы, докладывались и обсуждались:

21-22 мая 2015 г. Международная конференция «Инновационные технологии и дидактика в обучении» (InnovativeTechnologiesandDidacticsinTeaching– ITDT 2015), Мадрид. Испания. Выступление с докладом.

16-18 декабря 2015 г. ХIII Всероссийская Научная конференция молодых ученных аспирантов и студентов «Информационные технологии, системный анализ и управление» (ИТСАиУ– 2015), г. Таганрог. Россия. Выступление с докладом.

3-4 мая 2016 г. Международная конференция «Инновационные технологии и дидактика в обучении» (InnovativeTechnologiesandDidacticsinTeaching– ITDT 2016), Тенерифе. Испания. Выступление с докладом.

5-7 сентября 2016 г. VII Международная научно-техническая конференция «Технологии разработки информационных систем» (ТРИС – 2016), г. Геленджик. Россия. Выступление с докладом.

16-19 ноября 2016 г. ХIV Всероссийская Научная конференция молодых ученых аспирантов и студентов «Информационные технологии, системный анализ и управление» (ИТСАиУ– 2016), г. Таганрог. Россия. Выступление с докладом.

2-3 мая 2017 г. Международная конференция «Инновационные технологии и дидактика в обучении» (InnovativeTechnologiesandDidacticsinTeaching– ITDT 2017), Берлин. Германия. Выступление с докладом.

4-5 сентября 2017 г. VIII Международная научно-техническая конференция «Технологии разработки информационных систем» (ТРИС – 2017), г. Геленджик. Россия. Выступление с докладом.

23-27 апреля 2018 г. Международная конференция «Инновационные технологии и дидактика в обучении» (Informationinnovativetechnologies– I2T 2018), Прага. Чешской Республики. Выступление с докладом.

Публикации. По материалам диссертации автором опубликовано 14 печатных работ, в том числе четыре статьи в изданиях из списка, рекомендованного ВАК, в которых отражены основные результаты диссертационного исследования, также получено свидетельство об официальной регистрации программы для ЭВМ № 2018614861 от 18.04.2018 г.

Структура и объем диссертационнойработы. Диссертация состоит из введения, четыре главы и заключения. Основной текст изложен на 110 страниц, содержит 32 рисунка, 4 таблицы, список литературы включает 76 наименований. В приложениях содержатся: программный код, листы данных Excel с записями результатов, полученных в ходе экспериментов; свидетельство о государственной регистрации программы для ЭВМ№ 2018614861 от 18.04.2018 г.; акты внедрения результатов работы.

Анализ используемой структуры языка

Несмотря на требование в различных предметных областях, семантический анализ текста является одной из самых сложных проблем обработки естественного языка и компьютерной лингвистики. Наиболее затруднительным является попытка «научить» компьютер интерпретировать смысл, который автор текста хочет передать своим читателям. Поскольку естественный язык, в отличие от формальных языков, проявляется во многих аспектах. Это вызывает много трудностей для понимания текста [16].

В работе будут использоваться следующие основные понятия и термины языкознания: слово, лексема, грамматическое значение, грамматическая форма, грамматическая категория, антонимы, синонимы, полисемия, словосочетание, текст и другие, приведены в работах ряда авторов: А.М. Прохорова [17], Н.М. Шанского, В.В. Иванова [18], В.Н. Ярцева [19] и др.

Изложением любого естественного языка является текст – речевое образование с его языковой «плотью», построением и смыслом [11, 20]. Уровни обработки текстов – уровни, на которых выполняются определённые задачи автоматической обработки текстов для их анализа и синтеза [11].

Любой естественный язык не является хаотичным явлением, а напротив, язык – это система, которая имеет свою определённую иерархию. То есть язык – это структурированное явление и как система он может образовывать единство своих элементов.

Элементами языка согласно иерархии являются:

A. Звуки или фонемы, которые обладают перцептивной и сигнификативной функциями;

Б. Морфемы – минимально значимые далее неделимые единицы языка;

B. Слова, обладающие номинативной функцией;

Г. Предложения, служащие для коммуникации;

Д. Текст, или сложное синтаксическое целое.

Для исследования особый интерес представляют такие элементы структуры, как слова (лексический уровень языка), предложения (синтаксический уровень языка) и, собственно, сам текст.

Слово – наиболее конкретная единица языка. Язык как орудие общения – это прежде всего «словесное орудие», это «язык слов» [21]. Главная функция слова – номинативная, то есть слова называют явления окружающей нас действительности. Само по себе слово не коммуникативно, однако, именно из слов строятся предложения для реализации акта коммуникации.

Семантическое значение слова – значение, определяющее смысл, в том числе в зависимости от сочетания с другими словами [11].

Смысл – внутреннее содержание, значение чего-то, постигаемое разумом.

Слова могут иметь разные значения, в зависимости от других факторов, грамматической категории и контекста, то есть области, о которой идет речь. Не изолируя слова от их контекста и оценивая их в своей грамматической категории, гарантируется, что сегмент имеет некоторую целостность. Анализ смысла находится на уровне семантического анализа. На лексическом уровне слова вступают в различные типы отношений (омонимия, полисемия, антонимия, синонимия и т. д.). Рассмотрим подробнее два уровня – синонимия и антонимия.

Классическое определение синонима – это слова, различные по звучанию, но сходные по значению. Однако, по мнению многих лингвистов (Будагов Р. А. [22], Реформатский А. А. [21]), такое определение является, если не ошибочным, то не вполне точным. Это происходит потому, что слова называют не конкретные предметы, а понятия, о чем говорил В. Гумбольдт [23].

Антонимы бывают однокорневые: трудно – нетрудно, хороший – нехороший, и разнокорневые: трудно – легко, хороший – плохой. Антонимами могут быть слова любой части речи, однако для появления антонимий необходимо признак качества в слове: холодный – горячий (холод – жара), светлый – темный (светать – темнеть). Наличие признака качества и определяет наличие или отсутствие у слова антонима, например, у таких слов, как стол, доска, шесть антонимов быть не может.

Рассмотрим синтаксический уровень языка. Синтаксис изучает, с одной стороны, правила связывания слов и форм слов, а с другой стороны, те единства, в составе которых эти правила реализуются [24]. Единицами синтаксиса являются словосочетания и предложения. Между этими уровнями есть зависимость: словосочетания являются материалом для построения предложений, однако предложение можно разделить не только на словосочетания, но и на члены предложения и на синтагмы.

Семантическое поле – самая большая смысловая парадигма, объединяющая слова различных частей речи, значения которых имеют один общий семантический признак.

Семантический класс – это концептуализация значений, которые могут быть созданы вручную или полуавтоматически, разных уровней абстракции и сосредоточены на разных областях. При анализе “WordNet” можно сказать, что он состоит из ряда синсетов (synsets), связанных друг с другом различными семантическими отношениями. Каждый из этих синсетов представляет собой концепцию и содержит набор слов, которые относятся к этой концепции, и поэтому являются синонимами.

Предложение – основная единица связной речи, характеризуемая определенными смысловыми и структурными признаками.

Текстовый сегмент – определённый набор букв, слов или фраз, которые являются частью текста, то есть любой отрезок речи, характеризующийся относительной семантической независимостью и полученный в результате сегментации текста.

Текстовой пассаж – отдельная часть текста, обладающая какой-то цельностью.

Любой произвольный текстовый сегмент или произвольный текстовый пассаж не обязательно имеет полный смысл.

Используемые методы сравнения текстов

На практике сравнение двух текстов для определения текстового сходства имеет место только в системах и приложениях. Таким образом, известные методы подчёркивают в вычислении текстовое сходство между запросом и документом, или просто сравнение между двумя сегментами.

В этом смысле наиболее широко изучены и проанализированы методы информационного поиска (ИП), от сокращения на английском языке IR от «Information Retrieval» или ISR от «InformationSearchandRetrieval». Таким образом, независимо от того факта, что это исследование охватывает текстовое сравнение двух текстов, его можно отнести и к этой группе методов. Методы автоматизированного поиска информации попадают в поле обработки естественного языка, которое в свою очередь расположено в области информатики, искусственного интеллекта и лингвистики, в частности компьютерной лингвистики.

Исследование [53], свидетельствует о том, что для того, чтобы измерить степень семантического сходства между этими текстами, они должны быть представлены не терминами, выраженными одинаковыми словами, а терминами, выраженными разными словами. Тогда найти сходство в этом типе представления помогают автоматические переводы, для которых используется инструмент PanLex, который позволяет создавать статистический словарь. Если перевод возможен, это означает, что термин эквивалентен термину в тексте, выраженному, другими словами.

Другой способ подойти к этой задаче – это рассмотреть её как проблему QuestionAnswering, где один из текстов является вопросом, а другой ответом. Это суть работы [55], где предлагается модель, которая измеряет степень сходства в функции, если ответ действительно отвечает на вопрос. Особо следует упомянуть процедуру, указанную в работе [56], где возникает сравнение фрагментов текста на близость и строятся семантические схемы предложений, учитывающие семантический критерий сравнения. В этом смысле автор объясняет, что: «Пусть sq и st семантические схемы фрагментов текстов q и t соответственно. Тогда критерий близости данных семантических схем определим следующим образом где: символ обозначает операцию установления близости, a D - множество значений критерия близости. Если (sq,st) = 1, то имеет место полная близость, если (sq, st) = 0, близость отсутствует».

В большинстве задач в момент обработки текстов выполняется некий тип текстового сравнения, в котором слова сравниваются с другими словами и/или предложения с другими предложениями.

Базовые критерии сравнения близости. В них считают частоту встречаемости слов в тексте, сравнивают относительно эталона (запроса). где р - число совпадающих слов в запросе и фрагменте текста, q - число слов в запросе. Считается, что два слова одинаковы, если их начальные формы совпадают.

Семантические подходы. В этих подходах сравнивают предложения и не только считают частоту слов в тексте, сравнивая относительно эталона (запроса), а также рассматривают отношения между фразами, участвующими в сравнении. Например, семантический критерий сравнения на близость, указан в работе [56]:

«.. где: m – число совпадающих элементов смысла в запросе и фрагменте текста, n – общее число элементов смысла в запросе».

В целом, подходы, описанные выше, имеют характеристики, которые позволяют выделить три группы. Первая из них считает частоту встречаемости n-грамм символов, слов и некоторых лексических отношений, таких как синонимы и гиперонимы. Кроме того, многие из этих подходов подчеркивают представление естественного языка, чтобы затем использовать алгоритмы сходства между строками, такими как: коэффициент подобия Жаккара, который вычисляет количество уникальных терминов совместно используемых между двумя текстами [57]; косинусное подобие [58], который измеряет угол между векторами обеих коллекций слов в тексте; расстояние Левенштейна [59], которое состоит из минимального количества необходимых операций для трансформации одной цепочки характеристик в другую.

Текстовое семантическое сходство имеет своей целью уловить момент, когда смысл двух текстов аналогичен. Это понятие шире, чем нахождения степени) текстуального подобия. Как и в случае вышеупомянутых алгоритмов, измеряется только количество лексических компонентов, которые разделяют оба текста, то есть, которые не измеряют сходство двух текстов относительно значения, которое должно быть выражено.

Вторая группа характеристик рассмотрена так же в исследованиях: Leacock&Chodorow [60], Lesk [61], Wu&Palmer [62], Resnik [63], Lin [64], и Jiang&Conrath [65]. Это меры подобия слов, предлагаемых инструментом NLTK на языке программирования Python.

В этом случае определяется семантическое сходство между двумя текстами как максимальное значение, полученное между парами слов.

Третья группа рассматривает меры на основе Corpus, с использованием показателей, предлагаемых при текстовом семантическом сходстве [66]. Используется взаимная информация (PMI) [67] для вычисления подобия между парами слов, и латентно-семантического анализа (ЛСА) [68]. Методы информационного поиска рассматривают различные подходы относительно решения проблемы выявления документов, соответствующих запросу или информационной потребности пользователя. В целом, концепция релевантности информации как для поиска, так и для определения сходства документов, основана на её количественной оценке.

Для того, чтобы определить упомянутую релевантность, системы поиска информации непосредственно применяют ряд функций, которые называются меры сходства, которые количественно оценивают релевантность между документом и запросом. По сути, эти меры основываются на количестве терминов, которые совместно встречаются как в документе, так и в запросе.

Мера сходства позволяет определить сходство между двумя сегментами текста (будь это целый документ или пассаж сам по себе) и запрос, или в нашем случае между двумя текстовыми пассажами. Традиционно эти меры основываются, главным образом, на терминах, существующих в обоих текстах и в запросе, и также на дискриминационном значении каждого термина.

В других методах, в которых используют текстовые пассажи в качестве единицы обработки, вычисление сходства между текстовыми пассажами такое же, но появления терминов заменяются пассажами для того, чтобы затем вычислить сходство между запросом и документом в соответствии со сходством всех текстовых пассажей. К тому же, во многих из них нет прямого обозначения модели, которая вычисляет форму сегментации документа на текстовые пассажи и использованную меру сходства.

Подход данного исследования иной. В первую очередь необходимо помнить, что значимые текстовые пассажи – это полные единицы со свойственным значением, чей размер определяется собственной редакцией документа. И что значимые текстовые пассажи представляются в схемах для сравнения. С другой стороны, настоящая модель включает сравнения в соответствии с семантическими классами, а не только в соответствии с точным совпадением слов.

Разработка алгоритма сегментации текстов на значимых пассажах

Рассмотрим подзадачу извлечения фрагментов текста с особым смыслом, которые называются «значимые текстовые пассажи». Предложена методика сегментации, которая гарантирует извлечение значимых текстовых пассажей.

В данном исследовании рассматривается извлечение «текстовых пассажей», значимых отдельно от данного текста, для решения задачи сравнения текстов на естественном языке.

Как указано в главе 2, в этом исследовании словами, которые составляют анафорические связи являются некоторым местоимениями и наречиями с грамматической функцией анафорической связи. В тоже время глаголы типа А учитываются в спрягаемой форме, которые выражают действие. Порядок действий:

1. Разделить текст на слова (токенизация);

2. Разметить каждое слово, согласно его грамматической роли (POSagging);

3. Включить слово в сегмент текста;

4. Если слово == глагол A, то: глаг-A = истиной и вернуться к шагу 3;

5. Если глаг-A == истиной и слово == знаки «.» или «;», то: знаки = истиной и вернуться к шагу 3;

6. Если глаг-A == истиной и знаки = истиной и слово == анафора, то: знаки = ложью и вернуться к шагу 3;

7. Если глаг-A == истиной и знаки == истиной и слово анафора, то: конец сегмента, глаг-A = ложью и знаки = ложью;

8. Если слово является последним, то остановиться, иначе вернуться к шагу 3.

Рассмотрим пример применения методики, полезный для понимания. Пусть текст на входе следующий, покажем сегментацию:

Вход: «Концепция системы. Это больше, чем понятие; это миропонимание, которое дает представление о том, как именно необходимо постигать свойства окружающего мира. Наше понимание концепции системы оставляет след на всех наших действиях и мыслях; внутри определения системы можно понять суть того предмета, который описывается данным определением.»

После применения шагов 1 и 2 каждое слово имеет по крайней мере одну грамматическую функцию, как указано в следующем списке «tagged.gr»: сущ. – имя существительное, прил. – имя прилагательное, числ. – имя числительное, местоим. сущ. – местоимение существительное, местоим. прил. – местоимение прилагательное, глаг. – глагол (может быть типа «А» или «В» (другие наклонения), нареч. – наречие, предлог – предлог, союз – союз, частица – частица, и межд. – междометие, тогда следует:

[( Концепция , сущ. ), ( системы , сущ. ), ( . ), ( Это , местоим. сущ. ), ( больше , нареч. ), ( , ,), ( чем , местоим. сущ. ), ( понятие , сущ. ), ( ; ,), ( это , местоим. сущ. ), ( миропонимание , сущ. ), ( , ), ( которое , местоим. сущ. ), ( дает , глаг-A. ), ( представление , сущ. ), ( о , предлог ), ( том , местоим. сущ. ), ( , ), ( как , нареч. ), ( именно , частица ), ( необходимо , нареч. ), ( постигать , глаг-B. ), ( свойства , сущ. ), ( окружающего , прил. ), ( мира , сущ. ), ( . ), ( Наше , местоим. прил. ), ( понимание , сущ. ), ( концепции , сущ. ), ( системы , сущ. ), ( оставляет , глаг-A. ), ( след , предикатив ), ( на , предлог ), ( всех , местоим. прил. ), ( наших , местоим. прил. ), ( действиях , сущ. ), ( и , союз ), ( мыслях , сущ. ), ( ; ), ( внутри , предлог ), ( определения , сущ. ), ( системы , сущ. ), ( можно , нареч. ), ( понять , глаг-B. ), ( суть , сущ. ), ( того , местоим. прил. ), ( предмета , сущ. ), ( , ), ( который , местоим. сущ. ), ( описывается , глаг-A. ), ( данным , местоим. прил. ), ( определением , сущ. ), ( . )]

Примечание: как уже отмечалось, некоторые слова имеют более одной грамматической функции, в данном случае, нас интересует только, если слово имеет функцию глагола типа «A» или анафорической связи.

После применения шагов от 3 до 8, для первой итерации, получим следующее:

1: {Концепция системы. Это больше, чем понятие; это миропонимание, которое дает представление о том, как именно необходимо постигать свойства окружающего мира.}

Следует обратить внимание, что в случае сегментации произвольных пассажей по критерию остановки согласно знакам препинания, текст был бы разделен на две или три части.

В процессе применения шагов от 3 до 8, вводятся слова в сегмент до выполнения условий. Во-первых, чтобы вошел глагол типа «А», в данном случае «дает», во-вторых, чтобы вошли все слова, которые являются анафорическими связями, находящимися после глагола типа «А», в данном случае: «том» и «как», и наконец, чтобы вошел знак препинания типа «.» или «;», в этом случае точка после слова «мира».

Затем повторяется шаги от 3 до 8 ещё два раза, и получаются остальные текстовые пассажи.

2: {Наше понимание концепции системы оставляет след на всех наших действиях и мыслях;}

3: {внутри определения системы можно понять суть того предмета, который описывается данным определением.} Преимуществом этой методики является то, что такой подход обеспечивает в каждом сегменте высокую степень лексической сплочённости. Это важное свойство текста, так как текстовые блоки, которые связаны анафорическими отношениями, обычно представляют собой сегмент, который включает в себя полный смысл, при этом сегменты не являются слишком длинными. Кроме того, хотя знаки препинания используются для обозначения пределов сегмента, сами по себе знаки не являются критерием остановки.

Описания алгоритмов (подробности):

Разделение текст на слова – В данной работе, для предварительной сегментации мы используем токенизатор Python (NLTK – NaturalLenguageToolkit – это opensource библиотека методов для обработки естественного языка), которая потом проверяется вручную. На рисунке 3.4 показан пример токениза-ции в Python

Сначала мы запускаем Python 3.5 и перед нами возникает интерпретатор, куда мы должны вводить команды. Посмотрим автоматическую токенизацию с помощью NLTK. Для этого нам нужно создан скрипт питона «russianTokens.py» и заранее создан текстовый файл text.txt в личной папке пользователя. Операция объясняется в блок-схеме на рисунке 3.5.

Разметить каждое слово – Конечно существуют много решений в разных утилитах, но в данной работе используются NLTK. Мы постарались решить задачу, используя доступные нам данные, для которых можно использовать национальный корпус русского языка или русский Викисловарь – многофункциональный словарь и тезаурус. В частности, был использован метод, описанный в работе [72] с вариантом для примера, который объясняется ниже:

В качестве корпуса был использован небольшой словарь со словами примера, где gr – грамматические категории. Первая категория – это часть речи:

сущ. : имя существительное;

прил. : имя прилагательное;

числ. : имя числительное;

глаг-А. : глагол;

глаг-В. : глагол; нареч. : наречие;

предикатив : предикатив;

вводное : вводное;

местоим. сущ. : местоимение существительное;

местоим. прил. : местоимение прилагательное;

местоим. нареч. : местоимение наречное;

местоим. предик. : местоимение предикатив;

предлог : предлог;

союз : союз;

частица : частица;

межд. : междометие.

Результаты эксперимента предлагаемого метода сравнения

Проведём исследование по сравнению некоторых из рассмотренных выше методов с предлагаемым в данной работе методом и анализом, сделанным экспертами. В частности, сравнивается предлагаемый метод со следующими методами и програмами:

1. Известные три методы сравнения текстов, основанные на коэффициенте подобия Джакарда; Косинусное подобие; и расстояние Левенштейна. Указанные методы реализованы в виде единого программного обеспечения имеющего свободный онлайн доступ. При этом результантом данной программы являются степень сходства текстов для каждого из алгоритмов [76].

2. Программа обнаружения плагиата ЮФУ, которая называется «Антиплагиат», которая предположительно основана на методе поиска анализа скрытой семантики и на других собственных алгоритмах, принадлежащих разработчикам программного обеспечения.

3. Метод вычисления близости текстовых фрагментов для поиска информации, который указан в работе [56], который называется «Фсемантик».

Для проведения эксперимента были выбраны четыреста (400) текстов, то есть: 1) сто (100) оригинальных (подлинных) текстов, содержащих введения научных статей из сборника, упомянутых в предыдущем эксперименте; 2) сто (100) текстов, содержащих плагиат (модифицированный), полученные из модификации оригиналов, которые были получены путем замены в оригинальном тексте некоторых слов на синонимы и фразы; 3) сто (100) текстов, противоположных оригиналам, которые были написаны умышленно, путем замены в оригинальном тексте некоторых слов на антонимы и фразы с противоположным значением; и 4) сто (100) текстов интерпретаций из подлинных текстов, написанных умышленно в ответ на вопрос об общем содержании текста.

Для алгоритмов сходства между цепочками текста были сравнены триста текстов (трех типов) по отношению к сотам текстам-оригиналам, включая сравнение с самим текстом для оценки контроля. Получены результаты в виде процентного сходства между данными текстами. Для каждого текста, для системы определения плагиата «Анти-плагиат», сначала был дан текст-оригинал с тем, чтобы убедиться, что указанные системы имеют оригинальный текст среди своих баз данных, затем были даны три оставшихся текста, эти системы дают процент оригинальности загруженного текста по отношению к совпадениям их сегментов с оригинальными текстами. Если процент оригинальности высок, сходство с текстом-оригиналом – низкая и наоборот. Для описанного в [56] и предложенного метода в данной работе, были реализованы текстовые сравнения с текстом-оригиналом и с другими текстами, результатом является сходство, выраженное в процентах.

Для метода, предложенного в этой работе, была проведена консультация со ста студентами из области информационных технологий, которым были даны слова и фразы из текста-оригинала вместе со списком из пяти возможных синонимов и не более двух антонимов или фраз с противоположным значением. Студентам было предложено присвоить степень сходства указанных слов по шкале от 1 до 10. Слова принадлежат одному и тому же семантическому классу, который были выбраны из WordNet для русского языка. Для антонимов или фраз с противоположным значением было предложено выразить вынести своё решение, учитываются те из них, которые набрали более 60%. Промежуточные результаты, полученные для каждого слова семантического класса, считались степенью сходства.

Каждый из четыреста (400) респондентов провели анализ четырёх текстов. Респондентам было указано, что текст номер один – это текст-оригинал для сравнения с тремя остальными. Их попросили глубоко изучить каждый текст с целью получения ответов на вопросы о сходстве и возможности плагиата, – все по отношению к значению, выраженному в эталонном тексте. Эта задача была выполнена с использованием технологической платформы вебсайта: https://toloka.yandex.ru/.

Варианты ответов были представлены в количественной шкале Лайкерта. Количественные результаты были преобразованы в качественные в процентной шкале, для сравнения их с результатами анализируемых методов, беря за образец результаты анализа экспертов. Указанные выше результаты и их сравнение с использованными методами и предложенным методом представлены и проанализированы ниже (рисунке 4.4).

Что касается уровня сходства, то в среднем 91% указали, что сто текстов плагиата по отношению к оригиналам похожи или очень похожи. 83% указали, что сто текстов были значительно противоположны или полностью противоположны оригиналам. В то время как 75% подтвердили, что сто ответов были схож или схожи в малой степени, что переводится в проценты подобия таким образом: модифицированные тексты = 76%; Противоположные тексты = 78%; а ответы на тексты = 59%.

Вышеупомянутые результаты сравниваются с результатами других методов, указанных на графике средних результатов расчета подобия (Рисунок 4.4). На рисунке оранжевым цветом представлен эталон, голубым – предлагаемый алгоритм, вишневый – ф семантик, синим – Антиплагиат, зеленым – коэффициент Даккара, красным – косинусное подобие, а синим кобальтовым – расстояние Левенштейна.

Из результатов, представленных на рисунке 4.4 следует что, в среднем, предложенный метод для трех типов текстов имеет наиболее приближенное значение к мнениям экспертов, в том числе и для противоположных текстов, в то время как другие методы дают отдалённые результаты или не определяют сходства. Предложенный метод в случае модифицированных текстов, приближается к эталону на 6% больше, чем расстояние Левенштейна, на 16% больше, чем косинусное подобие, и на 30% больше, чем остальные методы.

В таблице 4.2. представлены результаты сравнения работы предложенного метода с известными. Из таблицы следует, что предлагаемый метод позволяет получить более высокую степень близости.

Особого упоминания заслуживают результаты, полученные и представленные для алгоритма расстояния Левенштейна, который имеет свою особенность. Если тексты вводятся с какими-то изменениями порядка абзацев по отношению к фрагментам, результаты уменьшаются от 20% до 40% в зависимости от сделанных изменений. В то время как другие алгоритмы и методы сохраняют тот же самый процент. Это происходит в связи с тем, что алгоритм расстояния Левенштейна – это минимальное количество операций, требуемых для трансформации одной цепочки характеристик на другую, и, при изменении порядка абзацев, увеличивается количество операций. Но изменение порядка абзацев одного текста не меняет его значения и тем более не могут замаскировать плагиат, в связи с этим, этот алгоритм неэффективен для целей сравнения.

Важно упомянуть, что в случае противоположных текстов эксперты указывают на противоположное значение по отношению к оригиналу. Предлагаемый метод определяет сходство с отрицательным значением, в то время как сравниваемые методы обнаруживают только сходство. В случае приложений системы обнаружения текстовых заимствований компании «Антиплгиат» с учетом замены слов по алгоритму шинглов, проведено сравнение между предлагаемым методом и онлайн-приложением «Ан-типлгиат», используя 100 текстов с различными уровнями замены слов. Результаты показаны на рисунке 4.5. На рисунке зеленым цветом представлен предлагаемый метод, а красным – приложение «Антиплгиат».