Разработка алгоритмических и программных средств извлечения знаний из исследовательских отчетов систем большой размерности Сорочинская, Наталия Константиновна

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Сорочинская, Наталия Константиновна. Разработка алгоритмических и программных средств извлечения знаний из исследовательских отчетов систем большой размерности : диссертация ... кандидата технических наук : 05.13.11 / Сорочинская Наталия Константиновна; [Место защиты: Моск. гос. техн. ун-т радиотехники, электроники и автоматики].- Москва, 2011.- 165 с.: ил. РГБ ОД, 61 11-5/3159

Содержание к диссертации

Введение

ГЛАВА 1 Современные методы проектирования и реализации средств автоматизированного извлечения знаний 11

1.1 Особенности организации ввода/вывода данных для системы большой размерности 11

1.1.1 Области применения систем большой размерности. Методы анализа систем большой размерности 11

1.1.2 Определение системы большой размерности

1.1.2.1 Факторы, влияющие на сложность системы 24

1.1.2.2 Организации ввода/вывода, верификации и обработки данных для семантической сети системы большой размерности 26

1.1.2.2.1 Семантическая сеть для хранения естественно-языковой информации системы большой размерности 26

1.1.2 Поиск данных в информационных системах (Data Mining) 29

1.1.2.2 Основные минусы DM для работы с системами большой размерности 40

1.3 Структуры программного комплекса системы большой размерности..41

Выводы по главе 45

ГЛАВА 2 Описание использованных и разработанных расчетных методик и алгоритмов моделирования 46

2.1 Разработка и исследование методов автоматизированной обработки естественно-языковой информации 46

2.2 Составление тезауруса синонимов з

2.2.1 Соответствие и однородность 48

2.2.2 Тезаурус синонимов 50

2.3 Общие понятия системного анализа 53

2.3.1 Задачи идентификации и реконструкции 58

2.3.2 Задача идентификации систем 58

2.3.3 Коэффициент идентифицируемости 59

2.3.4 Единственный выбор из реконструктивного семейства 60

2.3.5 Процедуры соединения 62

2.3.6 Базовая процедура соединения 65

2.3.7 Итеративная процедура соединения 66

2.3.8 Задача реконструкции 69

2.4 Использование матрицы значений на неполных информационных системах редуцирования признаков 80

2.4.1 Неполная информационная система. Определение 81

2.4.3 Матрицы значений, базирующиеся на алгоритме редукции признака

2.4.4 Адаптация алгоритма для работы с экспериментальными данными

Выводы по главе 90

ГЛАВА 3 Реализация и исследование модуля автоматизированного анализа исследовательских отчетов программного комплекса для системы большой размерности 91

3.1 Задачи программного средства 91

3.2 Архитектура модуля 92

3.3 Модуль автоматизированного анализа отчетов 93

3.5 Экспериментальные данные 98

3.5.1 Решение задач идентификации и реконструкции с неизвестными подсистемами 99

3.5.2 Решение задач идентификации и реконструкции с неполными данными 103

3.5.3 Обработка отчетов о грузоперевозках 108

3.6 Общий алгоритм работы модуля обработки естественно-языковых отчетов системы большой размерности 112

Выводы по главе 114

Заключение 116

Список литературы

Области применения систем большой размерности. Методы анализа систем большой размерности
Тезаурус синонимов
Модуль автоматизированного анализа отчетов
Решение задач идентификации и реконструкции с неполными данными

Введение к работе

Актуальность темы. На современном этапе развития науки и техники все чаще возникают междисциплинарные проблемы, и для их решения привлекается большое число специалистов из различных областей. Это обуславливает потребность развития новых методов работы с сложными системами и системами большой размерности.

При разработке компьютерной дедуктивной системы синтеза и исследования описаний сложных явлений, выявилась необходимость разработки нового модуля автоматизированного анализа отчетов пользователя, позволяющего автоматически извлекать знания из систем большой размерности (СБР).

Исследования проблемы извлечения знаний из больших баз данных сосредоточены на развитии новых алгоритмов или усовершенствовании скорости или точности существующих: концепция Фаяда, нечеткие DM, концепция Рейнартса.

Современные программные продукты, предназначенные для извлечения знаний, не подходят для решения вопросов, требующих привлечения большого числа узких специалистов. В первую очередь это вызвано сложностью в их освоении; требованиями к предварительной подготовке данных и большим количеством нерелевантных результатов. Практическая значимость подходов к решению проблем извлечения знаний, необходимость использования новых методов извлечения информации обуславливают актуальность данного диссертационного исследования.

В диссертационной работе показаны основные методы автоматизированного извлечения знаний из систем большой размерности.

Объектом исследования являются системы большой размерности.

Предметом исследования является математическое обеспечение

извлечения знаний из исследовательских отчетов на естественном языке.

Цели и задачи исследования

Целью данной работы является исследование и разработка моделей, методов и программных средств автоматизированного извлечения знаний из печатных исследовательских отчетов для системы большой размерности (МАЛО). Для достижения указанной цели в работе решаются следующие задачи:

разработать требования к инструментам извлечения знаний из систем большой размерности;

разработать средства автоматизированного извлечения знаний из естественно-языковых отчетов;

провести экспериментальную апробацию предложенных алгоритмов и разработанных программных решений для системы большой размерности.

Основными теоретическими результатами работы, выносимыми на защиту и определяющими научную новизну работы, являются:

Методика анализа естественно-языковых печатных отчетов, включает в себя: автоматизированный выбор синонимов, идентификацию системы (анализ наличия системы в отчетах) и реконструкцию системы (анализ зависимостей между элементами системы), использование матрицы значений на неполных информационных системах из отчетов (с целью упрощения систем).
Впервые был предложен алгоритм анализа естественно-языковых отчетов, который применяется для извлечения знаний в том числе и на неполных наборах данных.
Модуль автоматизированного анализа естественно-языковых печатных исследовательских отчетов системы большой размерности, созданный на основе предложенной методики. Он позволяет получить упрощенную модель системы (если таковая содержится в отчетах), выявить структурные связи между элементами системы и обнаружить

менее важные (наиболее слабо связанные с другими) элементы, упростить систему.

Практическая значимость подтверждается возможностью построения упрощенной модели представления знаний, содержащихся в исследовательских отчетах. На примере показано:

как проводить анализ наличия системы знаний (идентификацию системы);

как делать анализ взаимосвязей внутри системы (реконструкцию системы);

как производить упрощение системы за счет сокращения наиболее слабо влияющих на поведение системы элементов (редукцию признаков).

Научная значимость результатов исследования заключается в совершенствовании методов обработки экспериментальных естественноязыковых данных с целью выявления параметрически инвариантных связей между ними на основе методов системологии.

Спроектированный модуль позволяет:

Выявлять подсистемы знаний из естественно-языковых печатных отчетов исследователей, проанализировать возможность объединения их в обобщенную систему и объединять их в систему.
На основе знаний из подсистем выявлять взаимосвязи между компонентами объединенной системы.
Проводить редукцию признаков в случае неполной системы (в случае если известны не все значения параметров системы).

Благодаря использованию системного подхода, созданный модуль универсален, т.е. его можно использовать для анализа целого ряда системных задач в разных областях знаний (биологии, экологии, медицине, и т.д.), где используются системы больших размерностей.

Апробация работы. Основные научные выводы и результаты работы докладывались на следующих конференциях: «Научно-техническая конференция МИРЭА» 56, 57 и 58 и Международной научно-технической

конференции Intermatic-2009. Материалы работы были опубликованы в 8-й печатных работах (тезисы и материалы международных и российских конференций). Три статьи опубликованы в журналах, рекомендованных ВАК. Имеется 2 акта внедрения результатов исследования в работу компании ООО "Форинтранс" и в работу кафедры МОВС МИРЭА.

Структура и объем работы: Диссертация, объемом в 119 страниц, состоит из введения, трех глав, заключения, списка использованной литературы из 129 наименований, двух приложений.

Области применения систем большой размерности. Методы анализа систем большой размерности

Методы квантификации характеризуют и определяют количество источников неоднозначности данных, возникающих в модели из-за нехватки информации о параметрах и физической природе модели, а также из-за отсутствия информации о случайных процессах. Примеры неточностей: геометрическая идеализация, нечеткие параметры, статистическое представление флуктуации полимасштаба. Отличительная черта полимасштабных моделей - наличие отношений между математическими моделями разных масштабов, числовые параметры которых определены в разных мерах. Необходимы методы для исследования возможности преобразования этих мер с целью проведения математического анализа. Исследования должны производиться в каждом из масштабов с заданной неоднозначностью. Показатели неточности вкупе с индикаторами ошибок необходимы при выборе нужного масштаба в адаптивных методах. Также нужны новые методы для оценки параметрической неоднозначности. Существующий метод Монте-Карло в вычислительном отношении слишком сложен для полимасштабных моделей. Взятые вместе методы квантификации и оценки погрешности являются средством получения информации о решениях и оценкой надежности этих решений.

Области, открытые для исследования: Диагностика качества отображения различных масштабов в полимасштабных моделях. Развитие и объединение индикаторов неточности для адаптации с индикаторами ошибок на разных масштабах (нужно для определения степени надежности прогнозов). Развитие и объединение вычислительной и геометрической статистики, теории информации, методов сжатия данных и методов редукции для обмена информацией на разных масштабах.

Объединение подхода Баесиана и других подходов иерархического моделирования, классификации на разных масштабах и ассимиляции данных. Методы инверсии и оптимизации Методы инверсии и оптимизации подбирают параметры модели и механизмы управления при которых поведение модели отвечает поставленной цели. Процесс нахождения таких параметров с помощью стандартных подходов требователен и в отношении памяти и центрального процессора. В полимасштабных задачах требования возрастают, так как в таких задач существует большое количество параметров, каждый из которых может иметь большой диапазон значений. Все инверсивные методы и методы оптимизации пользуются уравнениями состояния, и в процессе нахождения аппроксимации эти уравнения вычисляются несколько раз. Поэтому фундаментальная потребность этих методов - наличие быстрого решателя

Цель данных методов - упрощение модели за счет увеличения масштаба либо за счет сокращения степеней свободы. Уменьшение размерности производится по трем причинам: для уменьшения вычислительных требований при моделировании системы, для идентификации основных компонентов системы влияющих на её поведение, для упрощения процесса анализа. Примеры методов уменьшения размерности: метод моделирования поверхности отклика, статистические методы (анализ важности компонентов, ортогональное разложение, моделирование отклика) и методы динамических систем.

Области, открытые для исследования: Методы моделирования зависимостей между переменными (с использованием статистических данных о переменных вместо значений переменных).

Методы исследование изменений элементов модели и структурных изменений на разных масштабах. Простая система может находиться в двух состояниях: в состоянии работоспособности и в состоянии отказа. При отказе какого-либо элемента простая система либо полностью прекращает выполнение своей функции, либо продолжает ее выполнение в полном объеме, если отказавший элемент резервирован. Сложная система при отказе отдельных элементов и даже целых подсистем не всегда теряет работоспособность, зачастую только снижаются характеристики ее эффективности. Это свойство сложных систем обусловлено их функциональной избыточностью и, в свою очередь, затрудняет формулировку понятия "отказ" системы.

Тезаурус синонимов

Как уже было сказано в главе 1, инструментарий СБР должен иметь возможность автоматически анализировать естественно-языковые данные, хранящиеся в семантической сети СБР. В нашей СБР хранится два вида естественно-языковой информации: описания исследуемых областей; отчеты по результатам экспериментов, оформленные в терминах ЕЯ по определенным правилам.

Последний из них можно автоматически обрабатывать с помощью предлагаемого в работе модуля. В связи с тем, что с СБР работает большое число специалистов, именно данный вид естественно-языковой информации часто обладает следующими особенностями, мешающими систематизации и требующими решения:

Различное толкование терминов. Так слово "Корпус", в зависимости от контекста, может означать соединение (объединение) войск в армиях 18 века, составляемое на время боевых действий для решения определенных задач [101], либо шрифт, кегль которого равен 10 п. [102] и т.д.

Данная проблема решается с помощью классификации документов, в которых встречаются термины, и экспертной обработки терминов. Этот вопрос не является предметом данного диссертационного исследования. О подходах к решению этого вопроса написано в работе [30]. Языковая проблема (возникает в случае наличия информации на различных языках). В нашем программном комплексе СБР предполагается использование информации написанной только на русском языке.

Большой объем документов (в системе может храниться до нескольких миллионов документов). Решается с помощью автоматизированного анализа документов.

Слабая концентрация информации. Для расчета концентрации мы предлагаем следующую формулу: отношение объема всей информации (всех слов), к объему информации, необходимой для анализа (необходимые слова, все их экземпляры), умноженное на среднее время, необходимое человеку для распознавания отдельного слова.

Концентрация считается слабой, если полученное значение превышает 10% от расчетного времени работы конкретного специалиста над конкретным проектом. Для решения указанной проблемы необходимо предварительно обрабатывать тексты с целью выявления значимых для исследования лексем.

Несогласованность документов (как правило, в сложных системах информация несогласованна, нет единой нормы оформления отчетов, единого языка описаний и т.д.). При программировании самая частая ошибка - несогласованность описаний глобальных переменных, например, глобальные переменные X и Y обозначают текущее положение курсора, а в модуле эти же переменные используются для определения параметров прямоугольника. В результате программа выдает неверные результаты.

Эта проблема у нас решается с помощью автоматизированного поиска лексем синонимов и выявления смысловых выражений. Тезаурус синонимов проходит проверку специалиста (см. подробнее в разделе 2.2.2). 2.2 Составление тезауруса синонимов 2.2.1 Соответствие и однородность

Для выделения синонимов из текста и составления тезауруса синонимов нами применяется подход, основанный на использовании понятий однородность и соответствие [71,72]. Этот подход подробно рассмотрен в статьях [73, 74]. В этих работах поиск синонимов применяется для задачи автоматической категоризации текстов, у нас же он используется для расширения списка смысловых выражений и дополнения матрицы значений, получаемой из смысловых выражений. Для выявления синонимов оцениваются соответствие и однородность каждого понятия. Затем с помощью операций нечетких отношений формируется матрица подобия определений. Далее оператор-специалист выполняет валидацию синонимов.

В работе [75] соответствие и однородность вводятся, как коэффициенты, влияющие на точность системы классификации. Они определяются с помощью функцию энтропии [76], которая до того использовалась, в области связи для измерения шума. Нами используется определение данных понятий, предложенное в работе [75]:

Однородность - степень концентрации понятий в документе, принадлежащем определенной категории, в противоположность принадлежности понятий нескольким категориям.

Соответствие - концентрация понятий в документах, принадлежащих нескольким категориям, но не большинству из них.

Соответствие иногда измеряется в терминах ICF (обратная частота соответствия): где dy является частотой понятия j в категории і, щ является вероятностью того, что понятие j находится в категории і, и п - число категорий. При этом определение должно быть значимым для категории, т.е. должна поддерживаться однородность. Однородность понятия j в категории і может быть измерена как: п jt=i tfkJ_ (2) % п 2Х к=\ где qkj является вероятностью, что понятие j есть в документе к І-ОЙ категории, tfkj - частота определения j в документе к, и п - число категорий.

В работе [75] соответствие и однородность применяются для выбора синонимов из лингвистических документов. Первый шаг выбора важных синонимов - выбор слов, соответствие которых (значение ICF) выше определенного порогового значения. Мы будем называть набор существенных определений — ICF-набор определений. Исключаются определения, которые распространены во многих категориях. На втором шаге рассматривается каждое определение в ICF-наборе, чтобы определить существенно ли оно в одной и более категориях. Определение будет отклонено, если оно не встречается в большинстве документов данной категории. Определения, однородность которых (Ujj) в категории превосходит пороговое значение, называется U-определением. Определение пороговых значений - это задача поиска компромиссных решений. Эти два пороговых значения (ICF и Ujj) могут повлиять на число входных определений и назначаются специалистом. Если определение-кандидат является существенным, то его значение соответствия больше порогового значения соответствия, а его значение однородности — меньше чем назначенное пороговое значение. Повышение порогового значения соответствия приводит к уменьшению размерности входных данных и увеличению скорости обработки, но это может привести к уменьшению размерности расширенного набора определений и, соответственно, уменьшению количества систем, поскольку отбрасываются и существенные определения. С другой стороны, более низкое пороговое значение однородности приведет к выбору общих терминов, что приведет к понижению релевантности результатов поиска синонимов. По нашему мнению, выбор пороговых значений для однородности и соответствия необходимо определять в каждой конкретной задаче. Однако, в работе [75] предлагается оптимизировать пороговые параметры с помощью генетического алгоритма [77] или при помощи алгоритма поиска строки [78]. Показано, что этот процесс — времяёмкий, так как для проверки различных комбинаций,пороговых параметров должна оцениваться неоднократно степень точности.

Тезаурус синонимов

Поскольку, если Xе) = 0, тоДс) = 0, вероятностное информационное расстояние оказывается определено всегда. Это, однако, не метрическое рас-стояние, так как оно асимметрично, более того, D( f, f) может быть не определено для некоторых f и hf (когда f(c) 0 и f (с) = 0 для некоторого с С).

При применении вероятностного расстояния к порождающей системе с поведением уравнение (16) приобретает следующий вид: Для возможиостных систем информационное расстояние рассчитывается по формуле D(f,»f) = -\-\logJc(hf l)ldl , (18) log2cJ0 c(f,l) представляющей собой аналог вероятностного информационного расстояния (16) для U - нечеткости.

Далее в этом разделе, после соответствующего описания свойств реконструктивных гипотез, будет описано применение информационных расстояний для сравнения этих гипотез.

Реконструктивная гипотеза для заданной обобщенной системы с поведением представляет собой набор ее подсистем. Если обобщенная система состоит из п переменных, то число ее подсистем, содержащих, по крайней мере, одну переменную равно 2" - 1, а общее число наборов таких подсистем, содержащих не менее одной подсистемы, равно 2((2Лп)_1) -1. С ростом п это число растет очень быстро. Однако без потери общности его можно существенно уменьшить, если рассматривать только неизбыточные наборы подсистем.

Для многих системных исследований очень перспективным является другой способ сокращения числа реконструктивных гипотез. Он состоит в исключении наборов подсистем, не содержащих всех переменных обобщенной системы. Это требование, обычно называемое условием покрытия, формально выглядит так: \Jks = s, к где S — множество переменных из подсистем реконструктивной гипотезы, a S — множество переменных обобщенной системы. Это условие объясняется необходимостью использовать в реконструктивной гипотезе информацию обо всех переменных обобщенной системы для того, чтобы реконструкция была логически возможна. Поскольку вопрос о включении или исключении выборочных переменных из обобщенной системы решается в результате анализа маски [83], выполнение условия покрытия общности не нарушает.

Далее под реконструктивной гипотезой будут пониматься только такие наборы подсистем заданной обобщенной системы, которые удовлетворяют и требованию неизбыточности, и условию покрытия. Таким образом, реконструктивная гипотеза — это структурированная система с поведением, сравнимая с обобщенной системой с поведением. Однако иногда бывает нужно работать со всеми наборами подсистем, которые удовлетворяют только требованию неизбыточности. Будем такие наборы подсистем называть обобщенными реконструктивными гипотезами. Понятно, что для данной обобщенной системы с поведением множество ее реконструктивных гипотез является подмножеством множества ее обобщенных реконструктивных гипотез. Любая реконструктивная гипотеза (равно как и любая обобщенная реконструктивная гипотеза) полностью описывается: 1) семейством подмножеств входящих в нее переменных, 2) функциями поведения, соответствующими отдельным подмножествам переменных. Если опустить свойство 2, то свойство 1 определяет класс инвариантности реконструктивных гипотез, отличающихся друг от друга только функциями поведения их элементов. Этот класс инвариантности для того, чтобы отличать его от отдельных реконструктивных гипотез класса, будем называть структурой. Напомним, что каждая отдельная реконструктивная гипотеза представляет собой конкретную структурированную систему. Таким образом, структура — это свойство структурированной системы, инвариантное относительно изменения функций поведения.

Будем для удобства представлять все множества переменных одной мощности, скажем мощности п, общим множеством структур, скажем множеством Gm определенным на множестве Nn положительных целых чисел. Формально для любого п Є N Gn = {GjGjC: Р( Nn ), Gj удовлетворяет условиям неизбыточности и покрытия}. В этом формальном определении через Gt обозначены элементы G„, являющиеся наиболее общими структурами, рассматриваемыми при решении задачи реконструкции; индекс і идентифицирует структуры из Gn и обычно і є NGn- Множество Gn тривиально интерпретируется на языке любого множества переменных S, такого, что \S\ = п, заданием взаимно однозначного отображения переменных из S на целые из Nn. Будем для удобства структуры из множеств Gn называть G-структурами.

Из некоторых соображений удобно расширить множество Gn до множества G+n всех обобщенных реконструктивных гипотез. Формально для любого n N G+n={GjGj с Р( Nn ),Gj удовлетворяет условию неизбыточности}. Несмотря на то, что далее в этой главе основное внимание будет уделяться множествам Gn, все результаты относительно Gn могут быть легко обобщены и на множества G+n.

Если множество Gn для некоторого определенного п получает конкретную интерпретацию в контексте некой обобщенной системы с поведением с п переменными, то структуры в Gn представляют собой однозначные представления реконструктивных гипотез, связанных с этой обобщенной системой. Это непосредственно следует из того факта, что функции поведения, соответствующие любым подмножествам переменных, определяются однозначно как соответствующие проекции обобщенной функции поведения. Следовательно, реконструктивные гипотезы могут изучаться в виде абстрактных структур. Данная структура из Gn становится конкретной реконструктивной гипотезой, когда интерпретируется в контексте сравнимой с ней определенной обобщенной системы с поведением (то есть системы с п переменными).

Решение задач идентификации и реконструкции с неполными данными

Так в случае отсутствия данных о подсистеме 1 и в случае отсутствия данных о подсистеме 2 реконструктивный анализ правильно вывел наиболее слабую зависимость между переменными Vi и V?, а случаи с отсутствием данных о подсистемах 1 и 3 указал в качестве самой сильной связи связь V2 V3. Результаты, наиболее приближенные к эталонным, дала подсистема, в которой отсутствовала связь V V2, что логично, так как эта связь в системе со всеми наблюдаемыми подсистемами была наиболее слабой. Вывод: исследование идентификации и реконструкции при неполных данных о подсистемах имеет смысл использовать только в случае, когда изначально известно, что не наблюдались самые слабые связи. Тогда принятие решения о целесообразности анализа ложится на плечи специалиста, анализирующего отчеты.

Далее рассмотрим решение задач идентификации и реконструкции для трех подсистем с неполными данными с двумя переменными каждая. Данные в подсистемах являются неполными (все три вида взаимосвязи наблюдались, но не все состояния известны). В эксперименте значение вероят 104 ности для ненаблюдаемого состояния переменных принимается в три раза меньше самой низкой вероятности наблюдаемых состояний. Было рассмотрено два принципиально разных случая неполноты второго рода: в одной из подсистем не наблюдалось состояние с самой низкой вероятностью появления; в одной из подсистем не наблюдалось состояние с самой высокой вероятностью появления.

Оба случая рассматривались для каждой подсистемы, чтобы понять наличие зависимости от степени важности подсистемы. Также были проведены измерения, в которых не было известно по одному состоянию в каждой подсистеме, и по два состояния в каждой системе. в подсистемах 1 и 2 не наблюдалось одно из 4-х состояний, в подсистеме 3 не наблюдалось 2 из четырех состояний; в подсистемах 1, 2 и 3 не наблюдалось два из 4-х состояний; в подсистеме 1 не наблюдалось состояние с самой низкой ве роятностью появления; в подсистеме 2 не наблюдалось состояние с самой низкой ве роятностью появления; в подсистеме 3 не наблюдалось состояние с самой низкой ве роятностью появления; в подсистеме 1 не наблюдалось состояние с самой высокой ве роятностью появления.

В подсистеме 1 не наблюдалось состояние с самой низкой вероятностью появления. В подсистеме 2 не наблюдалось состояние с самой низкой вероятностью появления. В подсистеме 3 не наблюдалось состояние с самой низкой вероятностью появ-ттоттттст

В подсистеме 1 не наблюдалось состояние с самой высокой вероятностью появления. В подсистеме 2 не наблюдалось состояние с самой высокой вероятностью появления. В подсистеме 3 не наблюдалось состояние с самой высокой вероятностью появления.

Как видно из сводной таблицы 3.66, данные не соответствуют эталонным. Величина ошибки в случае, когда не наблюдалось состояние с самой низкой вероятностью появления: в подсистеме 1: 0.0128985 Д 0.07212674; в подсистеме 2: 0.0108185 Д 0.04164291; в подсистеме 3: 0.0086080КДО.07309014. Величина ошибки в случае, когда не наблюдалось состояние с самой высокой вероятностью появления:

В подсистеме 1 не наблюдалось состояние с самой низкой вероятностью появления. 0.0447453 0.0169351 0.0061304 В подсистеме 2 не наблюдалось состояние с самой низкой вероятностью появления. 0.0043686 0.0024646 0.0445559 В подсистеме 3 не наблюдалось состояние с самой низкой вероятностью появления. 0.0108185 0.0354995 0.0098551 В подсистеме 1 не наблюдалось состояние с самой высокой вероятностью появления. 0.2497428 0.132533 0.1229915 В подсистеме 2 не наблюдалось состояние с самой высокой вероятностью появления. 0.0284978 0.01438524 0.0007513 В подсистеме 3 не наблюдалось состояние с самой высокой вероятностью появления. 0.0281265 0.0062494 0.03981714 Неизвестно по одному состоянию в каждой подсистеме 0.0390324 0.00041104 0.00617476 Неизвестно по два состояния в каждой подсистеме 0.0343165 0.02165841 0.0877279 Все данные известны 0.0298336 0.04410751 0.08294524 Величина ошибки в случае, когда: неизвестно по одному состоянию в каждой подсистеме: 0.0091988 Д 0.07677048; неизвестно по два состояния в каждой подсистеме: 0.004483 Д 0.0224491. При отсутствии большего количества данных о состоянии подсистем, интервал ошибки наибольший, что не противоречит интуитивной логике.

Из эксперимента понятно, что в случае, когда мы имеем неполные данные результаты реконструкции непрогнозируемые и не совпадают с эталонными. Поэтому, необходимо дополнять систему данными за счет поиска синонимов. В случае недостатка данных целесообразно применять матрицы значений на неполных информационных системах редуцирования признаков.

В эксперименте были обработаны отчеты аналитического отдела компании, занимающейся международными перевозками. Пример отчета показан на рис. 3.5.

На первом этапе из отчетов выделяются смысловые выражения: автоматически отбираются предложения содержащие важные лексемы и слова из словаря омонимов. Словарь омонимов содержит пары слов вида "растет-снижается", "увеличивается-уменьшается". Из смысловых предложений формируются таблицы, представляющие структурированные системы. Так фрагмент отчета из рисунка 3.5 преобразуется к виду, представленному в таблице

При прохождении автотранспорта г. Москва-г. Штутгарт, отмечается долгий простой на границе, что ведет к уменьшению количества рейсов за месяц. С увеличением времени простоя увеличиваются штрафные санкции за опоздание на обратную загрузку.

Считаем эффективным отказаться компании от рейсов маршрута №11 и переставить собственные фуры на более выгодный маршрут №7. Так как, количество рейсов для переставленных единиц автотранспорта возрастет, а заработная плата водителей уменьшится, то повышение стоимости рейса будет финансово оправдано.

Области применения систем большой размерности. Методы анализа систем большой размерности

Тезаурус синонимов

Тезаурус синонимов

Решение задач идентификации и реконструкции с неполными данными

Похожие диссертации на Разработка алгоритмических и программных средств извлечения знаний из исследовательских отчетов систем большой размерности