Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Комплекс нейросетевых и вероятностных методов для математического моделирования синтаксической структуры предложения Рыбка Роман Борисович

Комплекс нейросетевых и вероятностных методов для математического моделирования синтаксической структуры предложения
<
Комплекс нейросетевых и вероятностных методов для математического моделирования синтаксической структуры предложения Комплекс нейросетевых и вероятностных методов для математического моделирования синтаксической структуры предложения Комплекс нейросетевых и вероятностных методов для математического моделирования синтаксической структуры предложения Комплекс нейросетевых и вероятностных методов для математического моделирования синтаксической структуры предложения Комплекс нейросетевых и вероятностных методов для математического моделирования синтаксической структуры предложения Комплекс нейросетевых и вероятностных методов для математического моделирования синтаксической структуры предложения Комплекс нейросетевых и вероятностных методов для математического моделирования синтаксической структуры предложения Комплекс нейросетевых и вероятностных методов для математического моделирования синтаксической структуры предложения Комплекс нейросетевых и вероятностных методов для математического моделирования синтаксической структуры предложения Комплекс нейросетевых и вероятностных методов для математического моделирования синтаксической структуры предложения Комплекс нейросетевых и вероятностных методов для математического моделирования синтаксической структуры предложения Комплекс нейросетевых и вероятностных методов для математического моделирования синтаксической структуры предложения Комплекс нейросетевых и вероятностных методов для математического моделирования синтаксической структуры предложения Комплекс нейросетевых и вероятностных методов для математического моделирования синтаксической структуры предложения Комплекс нейросетевых и вероятностных методов для математического моделирования синтаксической структуры предложения
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Рыбка Роман Борисович. Комплекс нейросетевых и вероятностных методов для математического моделирования синтаксической структуры предложения: диссертация ... кандидата Технических наук: 05.13.18 / Рыбка Роман Борисович;[Место защиты: ФГАОУВО Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики], 2016.- 102 с.

Содержание к диссертации

Введение

Глава 1. Обзор методов для моделирования синтаксической структуры предложения и математическая формализация процедуры синтаксического разбора 11

1.1. Методы моделирования при анализе текстов 11

1.2. Нейросетевые методы и средства машинного обучения в рамках DDM подхода

1.2.1. Многослойный персептрон (Multilayer Perceptron – MLP) 15

1.2.2. Машина опорных векторов (Support Vector Machine – SVM) 17

1.2.3. Вероятностные сети (Probability Neural Network) 18

1.2.4. Модульные сети (Modulars Network) 18

1.2.5. Сети LSTM 19

1.2.6. Нейронные сети RAAM и SRN 20

1.2.7. Нейронная сеть Кохонена (SOM) 23

1.2.8. Сети растущего нейронного дерева. 23

1.2.9. Анализ с использованием вероятностных КС грамматик 24

1.2.10. Линейные модели на основе метода градиентного спуска (Stochastic Gradient Descent) 30

1.2.11. Методы выбора класса при анализе методами независимых экспертов

1.3. Математическая формализация лингвистической процедуры синтаксического разбора 32

1.4. Выводы к главе 1 37

Глава 2. STRONG Исследование вероятностных и нейросетевых методов для решения задачи

установления синтаксических отношений и формирования дерева разбора STRONG 38

2.1. Исследование применения формальных нейронных сетей для установления синтаксических отношений по морфологическим признакам. 38

2.2. Исследование применения реалистичных моделей спайковых сетей для установления синтаксических отношений 43

2.2.1. Моделирование спайковой нейронной сети 44

2.3. Исследование применения вероятностной контекстно-свободной грамматики для формирования дерева синтаксического разбора 47

2.3.1. Создание КС-грамматики 47

2.3.2. Определение вероятностей для правил грамматики 50

2.3.3. Построение разборщика предложений в заданной грамматике

2.4. Апробация метода построения дерева синтаксического разбора на основе вероятностных КС-грамматик 55

2.5. Выводы к главе 2 56

Глава 3. Выбор параметров для формирования дерева синтаксического разбора с минимальной неоднозначностью 57

3.1. Используемые средства и методы 57

3.1.1. Метод оценки неоднозначности в определении синтаксического отношения с выделенным набором признаков 59

3.1.2. Численный метод оценки достижимой точности синтаксического разбора

3.2. Выделение набора признаков для определения синтаксических отношений с минимальной неоднозначностью 62

3.3. Оценка процедуры синтаксического разбора на основе списков объектов, составленных с использованием НК, и процедуры нормализации. 65

3.4. Выводы к главе 3 66

Глава 4 Разработка метода математического моделирования синтаксической структуры предложения и алгоритма проверки адекватности математической модели синтаксической структуры предложения русского языка 67

4.1. Экстракция высокоуровневых признаков слов (потенциальных СинтО и корня) предложения по исходным морфологическим признакам 67

4.2. Установление синтаксических отношений в предложениях НК на основе выбранного в главе 3 набора параметров

4.2.1. Подход на основе перебора комбинаций пар слов предложения 69

4.2.2. Подход на основе инкрементальной схемы разбора

4.3. Метод математического моделирования синтаксической структуры предложения 78

4.4. Проверка адекватности созданной математической модели 79

4.4.1. Алгоритм проверки адекватности математической модели 79

4.4.2. Программное обеспечение для проверки адекватности математической

модели синтаксической структуры предложения 81

4.5. Результаты проверки адекватности модели синтаксической структуры предложения русского языка 84

4.6. Выводы к главе 4 85

Заключение 86

Список сокращений и условных обозначений 87

Литература 88

Введение к работе

Актуальность темы исследования. Классическим подходом к анализу физических объектов и явлений является математическое моделирование происходящих с ними процессов. В то же время существует ряд практически важных областей, для которых не удается в полной мере построить строгую математическую теорию. В таких случаях актуальным является развитие таких моделей из данных, т.е. на основе знаний, добываемых из анализа этих данных. В диссертационной работе решается задача разработки методов математического моделирования синтаксической структуры предложения естественного языка. При этом используется метод моделирования на основе данных (Data Driven Modeling - DDM), когда конкретные тексты, подаваемые на вход, рассматриваются как явления, для анализа которых применяются методы искусственного интеллекта (Computational intelligence).

В случае определения синтаксической структуры предложения лингвистами в основе лежат правила естественного языка, для которых также не удается построить строгую математическую теорию. Поэтому представляется обоснованным применение указанного выше метода DDM, в частности на основе нейронных сетей. В диссертации в качестве источника данных для построения модели используется база «СинТагРус» из Национального Корпуса Русского Языка (НК), созданная в лаборатории компьютерной лингвистики ИППИ РАН им. А.А.Харкевича. Базу примеров из СинТагРус можно рассматривать как пространство пар слов, для которых определены на основе экспертного знания лингвистов о правилах русского языка синтаксические отношения между словами с маркировками: самого отношения; слов, образующих отношения; и дополнительных признаков предложения. В диссертационной работе на этом пространстве в результате применения нейросетевых методов фактически создается мера, которую можно использовать для оценки синтаксической близости. Поэтому возможно применение вероятностных методов для устранения возникающих неоднозначностей при синтаксическом разборе.

Актуальность темы исследований: разработка комплекса нейросетевых и вероятностных методов для математического моделирования синтаксической структуры русского языка, определяется тем, что решение этой задачи даст возможность создавать эффективные программные средства для автоматизации работы с большими наборами текстовой информации на русском языке. При этом типичными востребованными прикладными задачами являются: автоматизация аннотирования текстов, анализ контента бизнес-информации, сентимент-анализ, анализ эмотивности текста, выявление угроз в социальных сетях явлений. Таким образом, метод моделирования синтаксической структуры предложения и синтаксического разборщика на его основе являются важным дополнением арсенала средств Big Data для анализа текстов.

Предметом исследования является комплекс математических методов и алгоритмов для математического моделирования синтаксической структуры предложения естественного языка на основе DDM.

Цель диссертационной работы: разработка метода математического моделирования синтаксической структуры предложения русского языка для поведения автоматического синтаксического разбора предложений на основе DDM.

Основные задачи исследования:

формализация процедуры синтаксического разбора для разработки математического метода моделирования синтаксической структуры предложения на основе DDM;

подбор топологий и алгоритмов нейронных сетей, методов машинного обучения для установления синтаксических отношений между словами в предложении;

разработка методики параметризации слов предложения для установления синтаксических отношений с минимальной неоднозначностью с оценкой достижимой точности синтаксического разбора;

разработка математического метода моделирования синтаксической структуры предложения на базе DDM и создание на его основе модели синтаксической структуры предложения русского языка;

разработка алгоритма проверки адекватности и его применение к созданной математической модели синтаксической структуры предложения с использованием размеченного набора предложений из СинТагРус.

Методы исследований. Для решения поставленных в диссертационной работе задач применяются математические методы анализа и искусственного интеллекта: комплексный анализ с использованием комбинаций нейронных сетей различных топологий и вероятностных алгоритмов, таких как многослойные персептроны и вероятностные нейронные сети; классификаторов на основе машин опорных векторов, сети растущего нейронного дерева; спайковые нейронные сети; вероятностные контекстно-свободные грамматики; модели смешений методов экспертов.

Научная новизна исследования. Предложен новый метод
математического моделирования на основе DDM подхода, включающий
нейросетевые модели экстракции высокоуровневых признаков слов
предложения и установления синтаксических отношений, вероятностный метод
снижения неоднозначности синтаксического разбора. В рамках метода
моделирования предложен подход к выбору параметризации слов предложения
с использованием комбинаций морфологических признаков

и экстрагированных на их основе высокоуровневых признаков синтаксических отношений.

Теоретическая и практическая значимости. В работе представлены результаты исследований, демонстрирующих, что разработанный метод математического моделирования позволяет осуществлять построение модели синтаксической структуры предложения при наличии корпуса размеченных предложений с однозначной морфо-синтаксической разметкой. Созданный

экспериментальный образец программной реализации (ЭОПК) разработанного метода позволяет осуществлять синтаксический разбор предложения русского языка. ЭОПК может быть применим в рамках систем аннотирования, анализа эмотивности/тональности текстов, выделение кластеров тем в текстах и др.

Положения, выносимые на защиту.

  1. Метод математического моделирования синтаксической структуры предложения русского языка на основе DDM, который содержит: нейросетевые модели экстракции высокоуровневых признаков слов предложения и установления синтаксических отношений, вероятностный метод снижения неоднозначности синтаксического разбора.

  2. Алгоритм и результаты проверки адекватности математической модели синтаксической структуры предложения русского языка на основе верификации на наборе размеченных данных СинТагРус.

Достоверность и обоснованность полученных результатов,

полученных в диссертации, основаны на корректном использовании математических методов; достаточном объеме экспериментальных данных; сопоставлении с данными из литературных источников; большом объеме собранного, обработанного и исследованного экспериментального материала по анализу исследуемых математических методов; апробации основных положений на международных и научно-практических конференциях; сопоставлении и валидации разработанной модели синтаксической структуры предложения русского языка с эталонными корпусными структурами «СинТагРус», составленными экспертами, и использованными в качестве базы размеченных данных для DDM.

Внедрение:

На основе результатов работы создан компьютерный практикум «Нейросетевая классификация синтаксических отношений на основе результатов кластеризации исходных данных», который внедрен в бакалаврском курсе МЭСИ «Распределенный анализ данных».

Отдельные программные разработки, выполненные в рамках диссертационной работы, использовались в рамках выполнения проектов ФГБУ НИЦ «Курчатовский институт» и ФГУП НИИ «Восход» с оформлением двух свидетельств о государственной регистрации программы для ЭВМ:

Ильин В.А., Рыбка Р.Б., Кукин К.А., Боос Е.Г, Сбоев А.Г., Твердохлебов Н.В. Свидетельство о государственной регистрации программы для ЭВМ «Нейрокомпьютерный интерфейс (NCI) 1.0» (№ 2012618133);

Сбоев А.Г., Кукин К.А., Рыбка Р.Б., Фомин П.Н. Свидетельство о государственной регистрации программы для ЭВМ «Программа кластеризации на основе алгоритма растущего нейронного дерева, адаптированная для работы в грид-сети» (№ 2012615272). Апробация работы. Основные положения диссертационной работы

докладывались и обсуждались на:

международных конференциях: «Artificial Intelligence and Natural
Language FRUCT» (Санкт-Петербург, 2015), «Computer Simulation in

Physics and beyond» (Москва, 2015); «Проблемы компьютерной лингвистики» (Воронеж, 2015); «Big Data and Advanced Computing» (Санкт-Петербург, 2014); «Современные информационные технологии и ИТ-образование» (Москва, 2013); «Ценности и интересы современного общества» (Москва, 2013);

научно-практических конференциях: «Современные информационные технологии в управлении и образовании» (Москва, 2010-2016); «Актуальные проблемы системной и программной инженерии» (Москва, 2011);

научных семинарах в: КФУ (руководитель: Соловьев В.Д., Казань, 10 июля 2015), НИЦ «Курчатовский институт» (руководитель: Ильин В.А., Москва, 24 июля 2014), НИУ ИТМО (руководитель: Бухановский А.В, Санкт-Петербург, 18 декабря 2013), НИИЯФ МГУ (руководитель: Доленко С.А., Москва, 23 ноября 2015), ОИЯИ ЛИТ (руководитель: Кореньков В.В., Дубна, 2 декабря 2015), Курчатовском комплексе НБИКС-технологий (Кашкаров П.К, 17 декабря 2015, 14 апреля 2016). Личный вклад автора. В опубликованных в соавторстве публикациях, в

которых представлены результаты диссертации, соискателю принадлежат: формулировки и доказательства результатов, относящихся к формализации лингвистической процедуры синтаксического разбора; разработке метода параметризации слов предложения и оценки точности определения синтаксической структуры; исследование по выбору топологий нейронных сетей на основе литературного обзора; вычислительные эксперименты, связанные с настройкой и тестированием и выбором топологий нейросетевых моделей для определения синтаксических отношений на основе выбранной параметризации; анализ вероятностных методов устранения неоднозначности синтаксического разбора для построения синтаксической структуры; разработка прототипа комплекса программ для автоматического синтаксического разбора предложений русского языка.

Публикации. Основные результаты диссертационной работы опубликованы в 9 работах, из которых 6 работ опубликованы в рецензируемых изданиях, рекомендуемых ВАК(6 - из перечня ВАК, из них 2 - Scopus и 1 -Scopus/Web of science, и получено 3 свидетельства о государственной регистрации программы для ЭВМ.

Структура и объем работы. Диссертация состоит из Введения, 4 глав, разбитых на параграфы, Заключения, 2 приложений, Библиографического списка литературы, включающего 93 наименований.

Многослойный персептрон (Multilayer Perceptron – MLP)

Классификатор на базе «машины опорных векторов» (SVM) решает задачи бинарной классификации входных объектов X = {хъх2,..,хп} путем построения гиперплоскости, разделяющей объекты на 2 класса. Разделяющая гиперплоскость описывается уравнением (1.4)[62] /(x) = wTx + b, (1.4) где х - входной объект, w - параметры модели, Ъ - порог. Для повышения разделимости объектов используется нелинейное преобразование пространства входных признаков в пространство их образов более высокой размерности с использованием ядра К(х,xt), і = 1,2,..,N, где N - количество входных примеров. Данный алгоритм успешно применяют для решения задач: chunking [62], POSagging [71], поверхностного семантического анализа [76], а также NER [90], с различными функциями ядра, например в виде функции Гаусса (1.5)[25] или линейной функции(І.І). (1.5) 2 ZA-Xfc xik) G(jc;jc,.) = exp 2ст. k=i где х- вектор значений /-го нейрона сети, erf- дисперсия,Р - размер входного вектора. К числу достоинств классификаторов на основе SVM можно отнести тот факт, что разделяющая гиперплоскость строится алгоритмом по числу опорных векторов без дополнительных настроек. Недостатком алгоритма является большое время обучения ввиду его вычислительной сложности.

Вероятностные НС (PNN) – это сети с учителем, решающие задачи классификации на несколько классов. Режим обучения сводится к переводу значений из обучающего множества тренировочных примеров в коэффициенты для элементов скрытого слоя. Число последних, в свою очередь, совпадает с количеством тренировочных примеров в выборке. Число элементов входного слоя нейронов равно размеру вектора входного объекта (образа), а количество нейронов в выходном слое – количеству классов. Для нейронов скрытого слоя используется функция Гаусса(1.5).

Модульные сети – это нейронные сети, состоящие из нескольких независимых нейронных сетей (подсистем), обрабатывающих различные входные сигналы независимо друг от друга. Выходные сигналы этих подсистем интегрируются отдельным модулем, который определяет: каким образом формируется выходной сигнал и на каком множестве примеров следует обучать конкретную подсистему. Используются функции активации других сетей, наиболее часто используется комбинация нескольких сетей MLP. К недостаткам можно отнести сложную топологию сети и затрудняются процессы настройки и обучения. Достоинством является возможность повысить эффективность системы в целом, за счет специализированного обучения конкретной подсистемы. 1.2.5. Сети LSTM

В работах [30, 36, 40, 50, 92] продемонстрирована возможность использования сетей LSTM для предсказания этапов синтаксического разбора и построения модели синтаксического разборщика. LSTM относятся к классу рекуррентных сетей (RNN). В общем случае рекуррентная сеть на каждом шаге по времени считывает вектор xt и вычисляет новое скрытое состояние ht на основе предыдущего состояния ht_± и входа xt с использованием логистической функции, например тангенциальной.

Хотя RNN и могут обрабатывать длинные последовательности входных объектов, их обучение затруднительно, т.к. повторное применение логистической функции на каждом шаге приводит к затуханию в сигнале ошибки во времени.

В сетях на основе LSTM эта проблема решается добавлением дополнительного элемента - ячейки памяти ct, значение которой - это результат линейной комбинации ht_t и xt. Ячейка LSTM обрабатывает вход с трех различных каналов, которые контролируют: а) какую долю текущего входного примера сохранить в ячейке памяти (it) и б) какую долю предыдущей памяти в ячейке забыть (ft). Обновление значения в ячейке памяти после получения входа xt вычисляется следующим образом [30]: it = (Wixxt + Wixht_! + Wicct + bO ft = a(Wfxxt + Wmht-i + WfcCt-! + bf ) ct = ft ct_i + it tanh (Wcxxt + Wchht.i + bc ) , Где a - это логистическая функция, например сигмоидальная, - произведение Адамара. Значение ht на каждом шаге контролируется третьим каналом ot[30]: Ot = (T(W0XXt + Wohht.! + WocCt.! + b0) ht = ot tanh (ct) Для увеличения емкости и производительности сети на основе LSTM могут быть использованы последовательно несколько LSTM слоев [73]. Такая архитектура называется Stack LSTM. При этом в зависимости от решаемой задачи и архитектуры сети слой LSTM может выдавать значения, как на каждый входной пример, так и на всю входную последовательность.

В работах [66, 82] описано применение сетей данного типа к решению задачи синтаксического разбора. При этом процесс разделяется на 2 этапа: 1) Непосредственно синтаксический разбор («Парсинг»). 2) Декодирование результатов «парсинга». «Парсинг» осуществляется средствами сети SRN, а декодирование результатов, т.е. постройка дерева синтаксического разбора – это задача сети RAAM. Целью сети RAAM [75] является кодирование символьных структур средствами нейронных сетей в численный вид. Символьные структуры представляют собой деревья фиксированной валентности (см. Рис. 1.1).

Исследование применения реалистичных моделей спайковых сетей для установления синтаксических отношений

Для решения задачи установления синтаксических отношений на основе морфологических признаков слов на основе спайковой нейронной сети был разработан алгоритм «с учителем», согласно которому необходимо: провести моделирование спайковой нейронной сети; сформировать выборки для обучения нейросети; перевести исходные данные в формат сигналов для спайковой сети, т.е. определить схему кодирования сигнала; провести обучение сети; сопоставить отклики сети на входящий сигнал с целью получения результата распознавания, т.е. определить схему декодирования сигнала.

В качестве исходных данных используются вектора морфологических признаков пар слов, содержащиеся в текстах СинТагРус НК. 2.2.1. Моделирование спайковой нейронной сети

Для моделирования сети использовался симулятор спайковых сетей NEST4, поддерживаемый мировым сообществом и распространяемый под лицензией GNU в исходных кодах. NEST позволяет проводить моделирование больших спайковых сетей (108 нейронов и 1012 синапсов) на суперкомпьютерах с поддержкой MPI и OpenMP [57]. Компонентами, используемой спайковой сети, являются: нейроны leaky integrate-and-fire (LIAF) [21]; синапс без механизма внутренней пластичности. Уравнение динамики мембранного потенциала нейрона, типа leaky integrate-and-fire имеет вид (2.2)[21]: dv resting ,Isyn( t) dt Tm CТ, (2.2) Здесь v ,Cm - мембранный потенциал и электрическая емкость. В отсутствие синаптического тока потенциал на мембране за время Тm релаксирует к потенциалу v stin . Когда v достигает порога v th, происходит генерация импульса (спайка). В течение времени рефрактерности r f после спайка значение мембранного потенциала имеет постоянное значение vreset. Модель синапса определяется уравнением (2.3) синаптического тока I (t), который входит в уравнение нейрона (2.2). Важными параметрами модели синапса являются: Модель синаптической пластичности, которая определяет динамику синаптического веса в зависимости от активности пресинаптических и постсинаптических нейронов. Форма постсинаптического сигнала. 4 Сайт сообщества, поддерживающего развитие нейосимулятора NEST. The Neural Simulation Technology Initiative: URL: http://www.nest-initiative.org/Software:About_NEST В данной работе используется синапс с синаптическим весом W-, который изменяется в соответствии с процедурой обучения всей сети (см. приложение А), и формой постсинаптического сигнала a(t) [21]:

Здесь S ,ts ,t ,TS - множество синапсов, входящих в данный нейрон; время возникновения спайка на пресинаптическом нейроне; задержка на распространение спайка от нейрона к нейрону, временная константа затухания постсинаптического тока. Щ) - функция Хевисайда. Таким образом, используемая в работе система уравнений, описывающая функционирование нейрона, описана в формуле(2.4)[22]:

Нейронная сеть состоит из 30 нейронов и 5610 синапсов. Подача импульса входного сигнала на нейрон происходит по трем синапсам с разными коэффициентами TS . Это необходимо для большей устойчивости сети и лучшей ее обучаемости. Схема фрагмента сети представлена на рисунке 2.2.

В левой части рисунка прямоугольниками обозначены входы, которые соединены с нейронами (обозначены кружками). Выходной сигнал нейрона подается на другие нейроны, кроме него самого. Прямоугольниками в правой части представлены выходы. Под каждой связью, понимается 3 синапса, за исключением связей поступающих на прямоугольники в правой части. Рисунок 2.2 – Часть моделируемой нейронной сети На рисунке 2.2 представлена сеть из 5 нейронов, в работе использовалась сеть из 30 нейронов.

Результаты экспериментов показали, что сеть способна различать классы. Лучшие результаты классификации получены при одинаковом количестве примеров 1-го и 2-го классов, с количеством эпох обучения равным 10, когда первые 15 нейронов отвечали за класс – СинтО, а последние 15 – за класс не СинтО. Схемы кодирования\декодирования сигналов и описание процесса обучения спайковой сети представлены в приложении А.

Таким образом, по результатам применения спайковой были разработаны: алгоритм на основе спайковой сети для определения синтаксических отношений и методы кодирования вектора значений во времена подачи спайков на нейронную сеть и обратного декодирования [20]. Средняя точность распознавания синтаксических отношений равнялась 93%.

В результате проведенного в разделах 2.1, 2.2 и 2.3 исследований применения нейросетевых моделей: как формальных, так и реалистичных, для установления синтаксических отношений на базе морфологических признаков двух слов выбраны топологии сетей: MLP, PNN, а также классификатор на основе SVM.

Для построения дерева синтаксического разбора предложения необходимо после установления синтаксических отношений между словами сформировать возможные разборы в формате НК и по их оценке выбрать наиболее вероятный вариант. В связи с этим для построения возможных деревьев синтаксического разбора исследовался метод на основе КС-грамматики с установлением вероятности ее правил.

Выделение набора признаков для определения синтаксических отношений с минимальной неоднозначностью

Для проверки адекватности модели по предложенному алгоритму разработан экспериментальный образец программного комплекса (ЭОПК) для подготовки подвыборок, обучения и тестирования моделей синтаксической структуры, а также для расчета указанных выше критериев точности (их средних значений и среднеквадр. отклонений). Алгоритм работы ЭОПК соответствуют алгоритму, представленному в разделе 4.4.1 При построении ЭОПК системы синтаксического разбора на основе разработанного метода моделирования синтаксической структуры реализована следующая процедура синтаксического разбора отдельного предложения, которая выполняется на шаге 3 «тестирование модели» [18]: 1. морфологический анализ в формате НК со снятием неоднозначности с использованием метода SVM; 2. определение высокоуровневых признаков слов предложения средствами MLP, SVM, PNN; 3. инициализация левого, среднего, правого списков для инкрементальной схемы разбора; 4. формирование вектора на основе заданной признаковой модели (см. главу 3) и информации в трех списках; 5. определение действия и синтаксического отношения на основе модели SVM с линейным ядром и стратегии one-vs-all; 6. перенос слов между списками в соответствии с определенным действием; 7. переход к п. 4. Процедура повторяется до отсутствия слов в правом списке, либо при наличии повторяющихся состояний разбора. В рамках ЭОПК реализован метод морфологического разбора [4] с анализом морфологической неоднозначности и конвертацией в формат НК (по мотивам работы [74]) . Реализация такого метода необходима, т.к. для русского языка не существует открытого морфологического анализатора, способного осуществлять морфологический разбор в формате НК. В основу метода морфологического разбора взят открытый морфологический разборщик Mystem5 и метод классификации SVM. Точность разработанного метода морф. разбора оценивалась на 10% предложений СинТагРус. Первоначально все его предложения были разобраны с помощью Mystem и переведены в формат морфологических тегов НК. Полный однозначный набор морфологических признаков слова обозначим как тег. Предварительно была проведена оценка мощности морф. анализатора Mystem в задачу определения морфологических признаков в формате НК. При этом неоднозначные Mystem разборы разделялись на несколько тегов в формате НК. Затем сравнивались Mystem теги, преобразованные в формат НК, и теги из размеченных образцовых предложений используемого корпуса. Оценка полноты всех возможных тегов из Mystem показала, что система дает правильные параметры для 94% слов из предложений СинТагРус. Сравнение с однозначно определенными разборами (т.е. когда слову соответствует только 1 тег) показало всего 47% совпадений, поэтому нуждается в улучшении результата.

В результате работы Mystem все возможные морфологические особенности слов ставятся в список вместе с весами, рассчитанными на основе их частоты совместного встречания. Был реализован дополнительный классификатор морфологических тегов на основе SVM для выбора тега из неоднозначных вариантов разбора, однозначно совпадающих с разбором из примеров образцовых предложений. Все предложения представляются в виде последовательности слов {w±... w2j, где каждое слово является вектором с некоторыми характеристиками (см. далее). Знаки препинания также учитываются как отдельные слова и заменяются общим тегом "PUNC". Последовательная обработка включает алгоритм обработки предложения справа налево, то есть с конца предложения. На каждом /-ом шаге

Морфологический парсер Mystem от Yandex: https://tech.yandex.ru/mystem/ для описания слова используется вся информация о словах, уже разобранных ранее. Так генерируется вектор для каждого слова. Вектор включает в себя характеристики ближайших соседей в окне с размером W=8. Используется восемь слов с индексов: і-3,і-2,і-1, і, і+1,і+2,і+3,і+4, где і - это слово, которое анализируется на /-ом шаге, для которого определяется тег в формате НК. Вектор признаков включает в себя следующую информацию для каждого слова: все словоформы из окна W; морфологически характеристики для слов из W, которые были проанализированы на предыдущих шагах; классы неоднозначности для всех слов из W (+ их биграмм и триграмм). Класс неоднозначности - это множество всех возможных тегов для слова. Мы представляем его в виде строки конкатенации тегов в одну строку. возможные теги для каждого слова; отдельные морфологические признаки для разобранных слов в окне W.

Для каждой морфологической характеристики создан бинарный классификатор на основе SVM, выходом которого для каждого объекта является значение от -1 до 1. Из всех возможных тегов Mystem, приведенных в формат НК, выбирается тот, для которого значение Т, рассчитанное по формуле 4.1 [74], максимально.

Метод математического моделирования синтаксической структуры предложения

Для решения задачи установления синтаксических отношений на основе морфологических признаков слов на основе спайковой нейронной сети был разработан алгоритм «с учителем», согласно которому необходимо: провести моделирование спайковой нейронной сети; сформировать выборки для обучения нейросети; перевести исходные данные в формат сигналов для спайковой сети, т.е. определить схему кодирования сигнала; провести обучение сети; сопоставить отклики сети на входящий сигнал с целью получения результата распознавания, т.е. определить схему декодирования сигнала.

В качестве исходных данных используются вектора морфологических признаков пар слов, содержащиеся в текстах СинТагРус НК. 2.2.1. Моделирование спайковой нейронной сети

Для моделирования сети использовался симулятор спайковых сетей NEST4, поддерживаемый мировым сообществом и распространяемый под лицензией GNU в исходных кодах. NEST позволяет проводить моделирование больших спайковых сетей (108 нейронов и 1012 синапсов) на суперкомпьютерах с поддержкой MPI и OpenMP [57].

Компонентами, используемой спайковой сети, являются: нейроны leaky integrate-and-fire (LIAF) [21]; синапс без механизма внутренней пластичности. Уравнение динамики мембранного потенциала нейрона, типа leaky integrate-and-fire имеет вид (2.2)[21]: dv resting ,Isyn( t) dt Tm CТ, (2.2)

Здесь v ,Cm - мембранный потенциал и электрическая емкость. В отсутствие синаптического тока потенциал на мембране за время Тm релаксирует к потенциалу v stin . Когда v достигает порога v th, происходит генерация импульса (спайка). В течение времени рефрактерности r f после спайка значение мембранного потенциала имеет постоянное значение vreset. Модель синапса определяется уравнением (2.3) синаптического тока I (t), который входит в уравнение нейрона (2.2). Важными параметрами модели синапса являются: Модель синаптической пластичности, которая определяет динамику синаптического веса в зависимости от активности пресинаптических и постсинаптических нейронов. Форма постсинаптического сигнала. 4 Сайт сообщества, поддерживающего развитие нейосимулятора NEST. The Neural Simulation Technology Initiative: URL: http://www.nest-initiative.org/Software:About_NEST В данной работе используется синапс с синаптическим весом W-, который изменяется в соответствии с процедурой обучения всей сети (см. приложение А), и формой постсинаптического сигнала a(t) [21]: Isyn(t)= Wj (tsp d ) j S tsp (2 3) \a(t)=Le T H(t) [ s Здесь S ,ts ,t ,TS - множество синапсов, входящих в данный нейрон; время возникновения спайка на пресинаптическом нейроне; задержка на распространение спайка от нейрона к нейрону, временная константа затухания постсинаптического тока. Щ) - функция Хевисайда. Таким образом, используемая в работе система уравнений, описывающая функционирование нейрона, описана в формуле(2.4)[22]: Г \dv vresting -v , hyn(t) dt тт Cm J S tsp / -- , (2.4) \a(t) = —e TH(t) Нейронная сеть состоит из 30 нейронов и 5610 синапсов. Подача импульса входного сигнала на нейрон происходит по трем синапсам с разными коэффициентами TS . Это необходимо для большей устойчивости сети и лучшей ее обучаемости. Схема фрагмента сети представлена на рисунке 2.2. В левой части рисунка прямоугольниками обозначены входы, которые соединены с нейронами (обозначены кружками). Выходной сигнал нейрона подается на другие нейроны, кроме него самого. Прямоугольниками в правой части представлены выходы. Под каждой связью, понимается 3 синапса, за исключением связей поступающих на прямоугольники в правой части. Рисунок 2.2 – Часть моделируемой нейронной сети На рисунке 2.2 представлена сеть из 5 нейронов, в работе использовалась сеть из 30 нейронов.

Результаты экспериментов показали, что сеть способна различать классы. Лучшие результаты классификации получены при одинаковом количестве примеров 1-го и 2-го классов, с количеством эпох обучения равным 10, когда первые 15 нейронов отвечали за класс – СинтО, а последние 15 – за класс не СинтО. Схемы кодирования\декодирования сигналов и описание процесса обучения спайковой сети представлены в приложении А.

Таким образом, по результатам применения спайковой были разработаны: алгоритм на основе спайковой сети для определения синтаксических отношений и методы кодирования вектора значений во времена подачи спайков на нейронную сеть и обратного декодирования [20]. Средняя точность распознавания синтаксических отношений равнялась 93%.

В результате проведенного в разделах 2.1, 2.2 и 2.3 исследований применения нейросетевых моделей: как формальных, так и реалистичных, для установления синтаксических отношений на базе морфологических признаков двух слов выбраны топологии сетей: MLP, PNN, а также классификатор на основе SVM.

Для построения дерева синтаксического разбора предложения необходимо после установления синтаксических отношений между словами сформировать возможные разборы в формате НК и по их оценке выбрать наиболее вероятный вариант. В связи с этим для построения возможных деревьев синтаксического разбора исследовался метод на основе КС-грамматики с установлением вероятности ее правил.