Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Исследование представления терминологии в лингвистическом обеспечении САПР на основе интеграции нечетких онтологий и логического вывода Мошкин Вадим Сергеевич

Исследование представления терминологии в лингвистическом обеспечении САПР на основе интеграции нечетких онтологий и логического вывода
<
Исследование представления терминологии в лингвистическом обеспечении САПР на основе интеграции нечетких онтологий и логического вывода Исследование представления терминологии в лингвистическом обеспечении САПР на основе интеграции нечетких онтологий и логического вывода Исследование представления терминологии в лингвистическом обеспечении САПР на основе интеграции нечетких онтологий и логического вывода Исследование представления терминологии в лингвистическом обеспечении САПР на основе интеграции нечетких онтологий и логического вывода Исследование представления терминологии в лингвистическом обеспечении САПР на основе интеграции нечетких онтологий и логического вывода Исследование представления терминологии в лингвистическом обеспечении САПР на основе интеграции нечетких онтологий и логического вывода Исследование представления терминологии в лингвистическом обеспечении САПР на основе интеграции нечетких онтологий и логического вывода Исследование представления терминологии в лингвистическом обеспечении САПР на основе интеграции нечетких онтологий и логического вывода Исследование представления терминологии в лингвистическом обеспечении САПР на основе интеграции нечетких онтологий и логического вывода Исследование представления терминологии в лингвистическом обеспечении САПР на основе интеграции нечетких онтологий и логического вывода Исследование представления терминологии в лингвистическом обеспечении САПР на основе интеграции нечетких онтологий и логического вывода Исследование представления терминологии в лингвистическом обеспечении САПР на основе интеграции нечетких онтологий и логического вывода Исследование представления терминологии в лингвистическом обеспечении САПР на основе интеграции нечетких онтологий и логического вывода Исследование представления терминологии в лингвистическом обеспечении САПР на основе интеграции нечетких онтологий и логического вывода Исследование представления терминологии в лингвистическом обеспечении САПР на основе интеграции нечетких онтологий и логического вывода
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Мошкин Вадим Сергеевич. Исследование представления терминологии в лингвистическом обеспечении САПР на основе интеграции нечетких онтологий и логического вывода: диссертация ... кандидата Технических наук: 05.13.12 / Мошкин Вадим Сергеевич;[Место защиты: ФГБОУ ВПО Ульяновский государственный технический университет], 2017

Содержание к диссертации

Введение

Глава 1 Анализ современного состояния методов и систем в интеллектуальных САПР 19

1.1 Проектирование сложных технических систем 19

1.2 Лингвистическое обеспечение САПР 21

1.3 Современные тенденции интеллектуализации САПР 22

1.4 Экспертные системы, как элемент интеллектуальной САПР 24

1.4.1 Средства представления терминологии в интеллектуальных САПР 26

1.4.2 Логический вывод в интеллектуальных САПР 28

1.4.3 Нечеткость в логическом выводе знаний 28

1.4.4 Анализ существующих систем, реализующих алгоритм НЛВ 32

1.5 Нечеткие онтологии 36

1.5.1 Методика построения нечеткой онтологии из разных источников 37

1.5.2 Расширение OWL с помощью FuzzyOWL 39

1.5.3 Свойства-аннотации OWL 39

1.5.4 Формальная модель нечеткой онтологии FuzzyOWL 40

1.6 Методики извлечения терминов в задачах расширения ядра онтологии 43

1.7 Постановка задачи исследования 52

Глава 2 Методы и алгоритмы интеграции онтологического анализа и логического

2.1 Выбор класса модели онтологии для САПР 55

2.2 Формальная модель онтологии ПрО 57

2.3 Алгоритм интеграции онтологии и логического вывода 59

2.4 Использование прецедентов в процессе логического вывода 66

2.5 Формальная модель системы вывода, основанной на анализе прецедентов

2.6 Алгоритмы расширения онтологии 71

2.6.2 Алгоритм вложенных связей 76

Глава 3 Реализация интеллектуальной программной системы логического вывода на основе онтологии для интеллектуальной САПР 80

3.1 Выбор инструментов инженерии онтологии объекта проектирования 80

3.2 Диаграмма вариантов использования разработанной системы 83

3.3 Подсистема онтологически-ориентированного логического вывода на основе нечеткой онтологии 85

3.3.1 Описание проекта интеллектуальной компоненты САПР 86

3.3.3 Реализация алгоритма интеграции 88

3.4 Подсистема автоматизированного расширения ядра онтологии 94

3.4.1 Базовый функционал системы 94

3.4.2 Реализация базы данных 95

3.4.3 Схема информационного обеспечения 96

3.4.4 Диаграмма состояний 96

3.4.5 Схема работы 99

Глава 4 Анализ адекватности разработанных моделей и методов на основе вычислительных экспериментов и практики применения 104

4.1 План проведения экспериментов 104

4.2 Эксперименты по интеграции онтологического анализа и логического вывода в задачах автоматизированного проектирования 106

4.2.1 Онтология ЛВС 107

4.3 Сравнение методик логического вывода на основе четких и нечетких онтологий 111

4.4 Проведение экспериментов по логическому выводу с элементами интерактивного обучения 112

4.5 Анализ эффективности семантической оценки терминологичности 114

4.5.1 Онтология «Станки с ЧПУ» 115

4.5.2 Метрики оценки результатов 117

4.5.3 Результаты вычислительных экспериментов извлечения терминов из

4.5.4 Использование результатов работы предложенных алгоритмов при проведении отраслевой подготовки специалистов по мультиязычной

4.6 Применение АС поддержки проектирования в деятельности АО

«Авиастар-СП» 133

4.6.1 Характеристики объекта автоматизации 135

4.6.2 Направления применения разработанной системы 138

Заключение 143

Библиографический список 145

Введение к работе

Актуальность темы

В настоящее время постоянный рост требований к эффективности и
качеству лингвистического и информационного обеспечения

автоматизированного проектирования технических систем в условиях слабой формализации поставленных задач, особенно на ранних этапах проектирования, предполагает необходимость системного решения ряда научных задач:

необходимость унификации процесса автоматизированной обработки терминологии в лингвистическом обеспечении при решении проектных задач различного рода;

необходимость разработки семантического базиса анализа представления терминологии в рамках решения задач автоматизированного проектирования;

отсутствие интегративных концептуальных моделей, использующих различные подходы представления знаний о предметной области в форме тезауруса;

необходимость одновременного использования разноаспектных описаний особенностей рассматриваемой предметной области;

необходимость решения проблемы учета опыта решения схожих проектных задач;

необходимость адаптации и расширения лингвистического и информационного обеспечения проектной деятельности вследствие изменения особенностей ПрО;

необходимость решения проблемы учета нечеткости в рассуждениях проектировщика.

Поэтому актуальной является тема диссертации, посвященная разработке методов и средств представления терминологии в лингвистическом обеспечении САПР на основе интеграции нечетких онтологий и логического вывода в задачах автоматизированного проектирования.

Цель диссертационной работы

Целью диссертации является разработка и реализация эффективных моделей и алгоритмов представления терминологии в лингвистическом обеспечении САПР на основе интеграции нечетких онтологий и логического вывода, обеспечивающих снижение количества ошибок проектировщика.

Объектом исследования является лингвистическое обеспечение автоматизированного проектирования технических систем. В качестве примера исследованы процессы проектирования автоматизированной системы поточной линии сборки самолета, включающие ЛВС, линии станков с ЧПУ.

Задачи исследования

В соответствии с целью работы актуальными являются следующие задачи диссертационного исследования:

провести сравнительный анализ современных средств представления терминологии в лингвистическом обеспечении интеллектуальных САПР;

разработать онтологически-ориентированную систему извлечения
терминологии из проектных документов с использованием сформированного ядра
предметной онтологии;

провести сравнительный анализ современных интеллектуальных методов логического вывода в САПР, выявить их возможности и ограничения в плане решения задач автоматизированного проектирования;

рассмотреть возможность применения методов онтологического анализа для решения задач оценки состояния сложного технического объекта рассматриваемой предметной области с целью поддержки принятия проектных решений на экспертном уровне;

исследовать возможность интеграции методов теории нечетких систем и онтологического анализа состояния сложной технической системы;

разработать онтологическую модель представления набора продукций и алгоритм логического вывода рекомендаций на экспертном уровне в задачах автоматизированного проектирования;

разработать алгоритм расширения процедурной составляющей базы знаний интеллектуальной САПР с использованием механизма прецедентов;

разработать алгоритм расширения декларативного описания ПрО с использованием сформированного ядра онтологии интеллектуальной САПР посредством извлечения терминологии из проектных документов;

разработать автоматизированную систему (АС) поддержки проектирования, реализующую алгоритм интеграции механизмов логического вывода и онтологического представления экспертных знаний с элементами нечеткости, а также использующей механизм учета прецедентов с целью расширения ядра онтологии;

провести вычислительные эксперименты, позволяющие оценить эффективность предложенных моделей и алгоритмов в процессе проведения концептуального проектирования сложных технических систем;

внедрить результаты исследований в практику процесса проектирования технических систем предприятий региона.

При решении задачи оценки эффективности предложенных моделей и алгоритмов необходима адаптация условий проведения экспериментов под специфику решаемых задач.

Методы исследования

В диссертационной работе применяются методы онтологического анализа, дескрипционной логики, теории нечетких систем, а также объектно-ориентированного программирования при построении программного комплекса.

Научная новизна

Научная новизна результатов исследования заключается в следующем: 1. Предложена онтологически-ориентированная методика извлечения терминологии из проектных документов, отличающаяся от известных

совместным использованием статистических методов, лингвистических шаблонов и базового ядра предметной онтологии;

  1. Разработан алгоритм расширения онтологического представления терминологии предметной области технической системы, отличающийся от известных построением вложенных связей термина-кандидата, извлеченного из проектного документа, до опорного класса базового ядра онтологии;

  2. Разработан алгоритм расширения процедурной составляющей базы знаний интеллектуальной САПР, отличающийся от известных использованием в качестве прецедента совокупности SWRL-правил и правил решения задачи проектирования;

  3. Предложен метод интеграции нечеткого логического вывода и нечеткого онтологического представления терминологии предметной области технической системы, отличающийся от известных использованием иерархического нечеткого вывода и модели онтологии класса FuzzyOWL;

  4. Разработана программная система поддержки проектирования, отличающаяся наличием специальной компоненты интеллектуальной САПР для представления терминологии лингвистического обеспечения.

Теоретическая значимость работы

Теоретическая значимость работы заключается в разработке и реализации
новых эффективных моделей и алгоритмов представления терминологии в
лингвистическом обеспечении САПР на основе интеграции нечетких онтологий и
логического вывода, обеспечивающих снижение количества ошибок

проектировщика.

Практическая значимость работы

Разработанная интеллектуальная компонента САПР, реализующая

предложенные модели и алгоритмы, была использована в рамках проекта разработки проектной документации Автоматизированной системы управления (АСУ) поточной линии сборки АО «Авиастар-СП». Также данная компонента используется при построении универсальной базы знаний учебного центра «Юнитех» агентства переводов «Юнитранс».

Основания для выполнения работы

Результаты диссертационной работы использовались в ряде НИОКР, выполненных в Ульяновском государственном техническом университете, направленных на решение научно-технических задач. К наиболее важным результатам следует отнести:

  1. Участие в выполнении гранта РФФИ №13-01-00324 «Исследование формальных методов грануляции слабоструктурированных информационных ресурсов на основе онтологии предметной области».

  2. Участие в выполнении гранта РФФИ №15-41-02413 «Интеллектуальный анализ временных рядов на основе нечетких онтологий, извлекаемых из Интернет-ресурсов».

  3. Участие в выполнении гранта РФФИ № 16-47-730742 «Интеграция

онтологических моделей и проектных диаграмм при концептуальном проектировании сложных информационных систем».

  1. Участие в реализации гранта по программе УМНИК в области информационных технологий при поддержке Фонда содействия развитию малых форм предприятий в научно-технической сфере.

  2. Участие в реализации государственного задания № 2014/232 на выполнение государственных работ в сфере научной деятельности Минобрнауки России по проекту «Разработка нового подхода к интеллектуальному анализу слабоструктурированных информационных ресурсов».

Достоверность результатов диссертационной работы

Достоверность научных положений, выводов и рекомендаций подтверждена
результатами вычислительных экспериментов, а также результатами

использования материалов диссертации в работе компаний ООО «Юнитранс» и АО «Авиастар – СП».

Основные положения, выносимые на защиту

  1. Онтологически-ориентированная методика извлечения терминологии из проектных документов с использованием базового ядра предметной онтологии;

  2. Алгоритм расширения онтологического представления терминологии предметной области технической системы с использованием базового ядра онтологии интеллектуальной САПР посредством извлечения терминологии из проектных документов;

  3. Алгоритм расширения процедурной составляющей базы знаний интеллектуальной САПР с использованием механизма прецедентов;

  4. Метод интеграции нечеткого логического вывода и нечеткого онтологического представления терминологии предметной области технической системы;

  5. Программная система поддержки проектирования, являющаяся компонентой интеллектуальной САПР для представления терминологии лингвистического обеспечения.

Апробация работы

Основные положения и результаты диссертационной работы докладывались, обсуждались и получили одобрение на следующих конференциях, семинарах и симпозиумах: VII и VIII Международных научно-практических конференциях «Интегрированные модели и мягкие вычисления в искусственном интеллекте» (г. Коломна, 2013, 2015 гг.); I Международной Поспеловской летней школе-семинаре для студентов, магистрантов и аспирантов «Методы и технологии гибридного и синергетического искусственного интеллекта» (г. Светлогорск, 2014 г.); II Международном Поспеловском симпозиуме «Гибридные и синергетические интеллектуальные системы» (г. Светлогорск, 2014 г.); VI Всероссийской научно-практической конференции «Нечеткие системы и мягкие вычисления» (г. Санкт-Петербург, 2014 г.); XIV национальной конференции по искусственному интеллекту с международным участием «КИИ-2014» (г. Казань, 2014 г.); V, VI и

VII Международных научно-технических конференциях «Открытые

семантические технологии проектирования интеллектуальных систем» (г. Минск, 2015, 2016, 2017 гг.); I Международной научной конференции «Интеллектуальные информационные технологии в технике и на производстве» (г. Сочи, 2016 г.), XV национальной конференции по искусственному интеллекту с международным участием «КИИ-2016» (г. Смоленск, 2016 г).

Научные публикации

По результатам работы было опубликовано 35 статей, 10 из которых в журналах из перечня ВАК, а также 1 статья в издании, индексируемом в Scopus. Получены 3 свидетельства о государственной регистрации программ для ЭВМ.

Личный вклад

Все результаты, составляющие содержание диссертации, получены автором самостоятельно. Подготовка к публикации некоторых результатов проводилась совместно с соавторами, причем вклад соискателя был определяющим.

Структура и объем диссертации

Диссертация состоит из введения, четырех глав, заключения, списка

использованной литературы и приложений. Основное содержание работы

изложено на 190 страницах, включая 44 рисунка и 15 таблиц. Список
использованных источников состоит из 141 наименования.

Анализ существующих систем, реализующих алгоритм НЛВ

Согласно ГОСТ 22487-77 [76], «лингвистическое обеспечение САПР (ЛО САПР) представляет собой совокупность языков проектирования, включая термины и определения, правила формализации естественного языка, методы сжатия и развертывания текстов, необходимых для выполнения автоматизированного проектирования».

С одной стороны, с помощью ЛО САПР осуществляется непосредственное взаимодействие проектировщика с программными средствами поддержки проектирования, с другой - ЛО объединяет совокупность языковых средств для описания объектов проектирования, позволяя создавать единый терминологический базис, на основе которого разворачиваются все информационные потоки, циркулирующие между субъектами проектирования. ЛО САПР образуют следующие языки: языки управления. Они служат для формирования соответствующих команд управления различным технологическим оборудованием, устройствами документирования и другими вспомогательными устройствами, используемыми в процессе автоматизированного проектирования; языки программирования. Они необходимы непосредственно для разработки САПР; языки проектирования. Данный набор языков ориентирован в первую очередь на проектировщиков и предназначен для эксплуатации САПР. Языки проектирования в свою очередь включают входные, выходные и промежуточные языки.

Входные языки необходимы для задания исходной информации: описания объектов, описания заданий и процессов. Описание объекта предполагает описание его структуры, свойств, характеристик, взаимодействия между частями объектов, с надсистемой и окружающей средой.

Описание процесса включает в себя описание начальных характеристик процесса, особенностей его выполнения, а также результатов.

Язык описания задания предназначен для идентификации заданий, описания их характеристик и указания последовательности выполнения проектных процедур. Входные языки характеризуются большим разнообразием, однако узкой проблемной ориентацией и изменчивостью при адаптации САПР.

Промежуточные и внутренние языки используются для представления информации на конкретных стадиях проектирования в САПР [44].

Данный набор языков является универсальным, но при этом неудобным при непосредственном использовании проектировщиком. С другой стороны, для встраивания в САПР нового входного языка необходима разработка некого конвертера данного языка в промежуточный, что предполагает рост временных и трудозатрат.

В связи с этим актуальной является задача унификации терминологического пространства проектной деятельности посредством объединения входных и промежуточных форм представления терминологии в ЛО САПР с целью упрощения процесса взаимодействия субъектов и объектов проектной деятельности.

Слабая формализация поставленных задач на начальных этапах проектирования СТС, а также нечеткость описания проблемной области предполагают появление дополнительных трудностей для проектировщиков, решение задач которыми все чаще требует поддержки принятия решений со стороны автоматизированных систем, способных моделировать человеческие рассуждения. В связи с этим, в настоящее время актуальной является задача разработки интеллектуальных САПР.

Согласно [127, 71], интеллектуальные САПР представляют собой системы автоматизированного проектирования, в которых для повышения эффективности решения проектных задач применяются технологии искусственного интеллекта. В первую очередь это связано с использованием новых методов хранения проектной терминологии, возможностью расширения и обучения декларативной и процедурной составляющей баз знаний, используемых при решении проектных задач, а также с реализацией различных интеллектуальных стратегий поиска проектных решений.

Главными целями интеллектуализации современных САПР являются: 1. Сокращение сроков проектирования. 2. Повышение эффективности и качества проектирования на всех его этапах. В настоящее время существует две стратегии интеллектуализации САПР: внешняя и внутренняя. Внутренняя стратегия заключается в разработке алгоритмов и методов решения конкретных проектных задач. Внешняя стратегия предполагает разработку интеллектуальных средств управления как всем процессом проектирования, так и отдельных его этапов с возможностью экспертной поддержки в точках принятия решений.

Основными направлениями интеллектуализации САПР являются: Использование методов и алгоритмов формализации условий проектных задач, а также трудноформализуемых проектных процедур. Использование гибридных моделей хранения проектной терминологии, а также разработка инструментальных средств работы с ней. Работа с базами проектной терминологией, обеспечивающих учет опыта решения проектных задач. Разработка технологий интеграции САПР с внешними пакетами прикладных программ, посредством унификации моделей представления хранимых знаний. Разработка модулей САПР, решающих задачу помощи проектировщику в принятии проектных решений посредством применения методов анализа и синтеза экспертных знаний [21]. Все эти направления предполагают непосредственное применение методов и алгоритмов искусственного интеллекта.

Использование прецедентов в процессе логического вывода

В работах, посвященных лингвистическому подходу к извлечению терминологии [7, 72, 99], утверждается, что для извлечения терминологии достаточно морфо-синтаксической информации.

Существует две формы реализации лингвистического подхода к извлечению терминологии из текстов: Морфологический анализ текста, включающий: определение частей речи слов в словосочетаниях и соответствующих им морфологических признаков; приведение слов к начальной форме (лемматизация); определение лексико-грамматических классов в тексте. Извлечение терминологии в соответствии с заданными лексико грамматическим классами.

В целях повышения качества извлечения терминологии в алгоритм могут добавляться дополнительные методы. Например, для отсечения определенных словоупотреблений, которые не могут являться ни термином, ни частью термина, можно использовать стоп-лист, состоящий из таких словоупотреблений. Чаще всего стоп-лист составляется экспертом на основе частотного словаря, построенного автоматически для релевантной предметной области [52].

Предварительно полученная терминологическая информация (в т.ч. глоссарии терминов, словари, контрастные корпусы, тезаурусы в САПР и др.) может использоваться в качестве образца и быть полезной как в процессе извлечения терминологии, так и в процессе фильтрации [33].

Разработанный лингвистический метод включает отбор слов и словосочетаний согласно лексико-грамматическим шаблонам, выделенным экспертом в результате анализа предметной области. Рассматриваются следующие шаблоны: N, N+N, N+N+N, A+N, A+A+N (N - существительное, А -прилагательное) и другие. Отбор предваряется морфологическим анализом текста, в результате которого выясняется информация о каждом словоупотреблении в тексте.

Суть использованного лингвистического метода заключается в рассмотрении всех анализируемых в данном тексте слов и словосочетаний и принятии решения об отнесении их к выделенным экспертом лексико-грамматическим классам. Каждый лексико-грамматический класс рассматривается в результате обхода с исключением. Каждые М слов (М - количество слов в лексико-грамматическом классе) проверяются по маске лексико-грамматического класса. Если комбинация слов удовлетворяет маске, то каждое из них помечается как использованное, что обеспечивает вхождение слова только в один лексико-грамматический класс, в то время как словосочетание относится к соответствующему лексико-грамматическому классу. Классы рассматриваются, начиная с классов с большим количеством словоупотреблений, заканчивая классами с меньшим их количеством [53].

Рассмотрим основные статистические методы извлечения терминологии. Frequency fv где Д, - частота биграммы ху. Применение метода Frequency [9] предполагает вычисление абсолютных частот всех двусловий в анализируемом тексте. Предполагается, что наиболее часто встречаемые в тексте двусловия семантически характеризуют текст, поэтому их можно отнести к классу терминов для данной предметной области. В силу своей простоты данный метод входит в число наиболее значимых методов извлечения терминологии [9, 17], при этом является базовой частью для более сложных статистических методов, основанных на встречаемости слова в рассматриваемом тексте или корпусе. Среди недостатков метода выделяется отсутствие учёта связи между словами, таким образом, метод может срабатывать неверно при анализе двусловий, относящихся к общеупотребительной лексике и, как следствие, не имеющих отношения к предметной области (тематике) рассматриваемого текста или корпуса. где fx , fy - частота x, у соответственно; n - количество биграмм в корпусе.

Метод T-score [63] основан на методе Frequency и предназначен для исправления его недостатка, связанного с отсутствием учёта связей между словами в двусловии. Таким образом, метод представляет собой численную оценку взаимосвязи двух слов. Эту оценку следует понимать, как выражение степени доверия, с которой можно утверждать, что именно эти два слова, употреблённые вместе, представляют собой термин. Однако недостатком данного метода является то, что он основан на несвойственных естественному языку нормально распределённых вероятностях.

T-score приближает биноминальное распределение дискретной случайной величины к распределению, близкому к нормальному распределению непрерывной случайной величины. При этом за нулевую гипотезу принимается гипотеза о независимости. Следовательно, данный метод имеет недостатки, связанные с допущением о нормальном распределении [11].

T-score представляет собой модифицированное ранжирование двусловий по частоте как самого двусловия, так и составляющих это двусловие одиночных слов. Очевидна прямая зависимость величины от частоты двусловия в коллекции. К сожалению, преимущества данной величины сводятся только к коррекции результатов для наиболее частотных двусловий [132].

Подсистема онтологически-ориентированного логического вывода на основе нечеткой онтологии

Аналогична и модель решения задачи: решением является объект вспомогательного класса «Рекомендации» разработанной онтологии, который в качестве вывода в процессе работы алгоритма выдает лингвистическое значение свойства типа данных (DatatypeProperty) «имеетОписание» выбранного объекта класса «Рекомендации».

В ходе исследования разработана модификация алгоритма логического вывода с использованием прецедентов для задач автоматизированного проектирования.

Для внесения в базу знаний начального набора прецедентов может использоваться универсальный редактор OWL-онтологии Protg 4.x. Данная программная система предполагает возможность представления знаний в форме: нечетких онтологий (с использованием Fuzzy OWL Plugin); SWRL-правил; набора прецедентов в OWL-формате.

Для обработки прецедентов в OWL-формате в настоящее время используется java-фреймворк jColibri. Данный набор библиотек является бесплатным и свободно распространяемым. Корректный анализ прецедентов посредством использования фреймворка jColibri предполагает необходимость создания в OWL-онтологии трех базовых классов: CBR-CASE - класс, содержащий экземпляры прецедентов; CBR-DESCRIPTION - класс, описывающий ограничения, накладываемые на прецеденты; CBR-INDEX - хранит структуру прецедента, т.е. классы-потомки и их экземпляры, участвующие в процессе поиска подходящего прецедента.

Главное особенностью модифицированного алгоритма вывода рекомендаций (рис. 2.7) является проведение параллельного и независимого логического вывода результатов анализа на основании базы правил и базы прецедентов [113].

Схема модифицированного алгоритма логического вывода с использованием базы прецедентов Таким образом, пользователь получает возможность принятия решений как с учетом анализа закономерностей конкретной области, так и на основании опыта пользователей, уже сталкивавшихся с подобными задачами. Помимо этого, наличие базы прецедентов позволяет внести элемент обучаемости данного алгоритма. Пополнение базы прецедентов

Главным преимуществом алгоритма формирования базы прецедентов, схема которого представлена на рисунке 2.8, является возможность проектировщика по выбору решения, который оказался верным при решении подобной задачи [36]. Проектное решение, полученное в результате логического вывода на основе базы продукционных правил и выбранное проектировщиком в качестве правильного, будет занесено в базу прецедентов с исходными условиями задачи. В результате данного действия, при решении аналогичной задачи в следующий раз проектировщик получит эту рекомендацию в качестве априорной, т.е. полученной на основе анализа опыта решения подобной задачи.

Рассматриваемая в данной работе задача извлечения терминологии из текста по предметной области связана с задачей пополнения и поддержки лингвистического обеспечения САПР. Лингвистическое обеспечение САПР представляется совокупностью языков, используемых при автоматизированном проектировании, терминов и определений, правил формализации естественного языка, а также методов сжатия и развертывания текстов (ГОСТ 22487-77) [82]. В задаче проектирования процесса производства продукции часто возникает потребность в документации, релевантной процессу производства готовой продукции и эксплуатации средств производства. Такая документация составляется, как правило, на основе некоторого глоссария, тезауруса и т.д. предметной области. Любая предметная область, в свою очередь, может быть иметь характерную терминологию, понимание которой доступно узкому кругу специалистов [118].

В то же время в процессе проектирования всего жизненного цикла производства сложного продукта возникает потребность в унификации используемой терминологии с целью обеспечения связности процесса производства. Эта задача усложняется участием в процессе специалистов разных компетенций и уровней подготовки, а также различными форматами используемой документации.

Таким образом, терминология предметной области в составе лингвистического обеспечения САПР имеет большое значение в процессе проектирования, т.к. она обеспечивает проект словарной базой и является основной для проектной и сопутствующей документации. Здесь возникает задача извлечения терминологии из текста по предметной области. Извлечение терминологии из текстов по предметной области имеет целью формирование аппарата терминов и понятий, формирующих лингвистическое обеспечение САПР, в виде словарей, тезаурусов и т.д.

Получение адекватного результата вывода рекомендации экспертной системы интеллектуальной САПР напрямую зависит от правильности и полноты представления предметной области в разработанной онтологии. И чем шире область, тем больше времени и сил экспертов требуется на ее разработку. В связи с этим в настоящее время одной из наиболее актуальных задач в рамках решения проблемы интеграции различных форматов представления знаний является максимальная автоматизация процесса построения онтологии конкретной предметной области.

Тезаурусный алгоритм Тезаурусный алгоритм извлечения терминологии на множестве слов конкретного текста с использованием ядра OWL-онтологии вычисляет значения степень семантической близости входных словосочетаний к терминам ПрО. Предлагаемый алгоритм позволяет выделить из массива поступающих однословий/многословий только те термины и сочетания, которые относятся к данной предметной области.

Степень семантической близости входного сочетания слов к терминам ПрО кот может иметь значение от 0 до 1: чем ближе полученное значение к 1, тем с большей долей уверенности данное одно-/многословие является термином.

Тезаурусный алгоритм предполагает непосредственный поиск вхождений лемм поступающих на вход слов и их сочетаний среди терминов, определенных в онтологии. Для этого в онтологии для каждого класса необходимо определить свойство «имеетЛемму», которое имеет строковое значение, полученное путем лемматизации (приведения к начальной форме) имени объекта с помощью программы Mystem компании Яндекс по соответствующим морфологическим признакам термина.

Использование результатов работы предложенных алгоритмов при проведении отраслевой подготовки специалистов по мультиязычной

Полная таблица результатов проведенных экспериментов по логическому выводу рекомендации на основе интеграции нечеткой онтологии и набора SWRL-правил представлена в Приложении Д.

Как видно из результатов проведенных экспериментов, благодаря включению нечеткости в описание предметной области, значительно снижаются риски потери возможных результатов работы блока логического вывода, увеличивается гибкость процесса вывода, а пользователю предоставляется гораздо широкий выбор вариантов, которые при этом упорядочены по мере их релевантности с точки зрения совокупности экспертных знаний, заложенных в онтологии и наборе правил.

Как видно из результатов, с каждой следующей партией экспериментов вывод правильного решения на основе прецедентов становится чаще, так как система проходит обучение, благодаря внесению верных решений в CBR-базу. Несмотря на то, что включение нечеткости в описание предметной области значительно снижает риски потери возможных результатов работы блока логического вывода и увеличивает гибкость процесса вывода, наличие большого количества вариантов решения задачи не дает пользователю в полной мере положиться на какой-либо из предложенных вариантов [140, 109].

В этом случае методика, позволяющая пользователю получать конкретное решение, основанное на практическом опыте предыдущих пользователей, решавших в прошлом аналогичную задачу (CBR), является альтернативой, восполняющей недостатки алгоритма, базирующего на интеграции FuzzyOWL и SWRL.

Таким образом, предложенная в данной работе методология построения нечетких онтологий с точки зрения организационного процесса в условиях сложной предметной области и наличия нескольких экспертов, описывающих её в терминах OWL, позволяет: существенно сократить временные издержки построения онтологии; избежать противоречий в интерпретации и формализации того или иного элемента предметной области; снизить субъективную составляющую оценки понятий ПрО отдельным экспертом, исходя из его компетентности в данной конкретной подобласти рассматриваемой области.

Все это возможно реализовать с помощью задания степени принадлежности всем определяемым объектам и отношениям, т.е. посредством внесения нечеткости в разрабатываемую онтологию.

Рассмотренная методология построения нечетких онтологий FuzzyOWL позволяет значительно расширить возможности использования онтологий в процессах получения новых знаний из уже определенных в ней, еще больше приблизить формализованное представление знаний о ПрО к естественному для человека варианту их представления и восприятия.

Описанный в работе модифицированный алгоритм интеграции онтологической и продукционной форм хранения и представления знаний, благодаря введению нечеткости в элементы онтологии, снижает риски потери возможных результатов работы блока логического вывода основанной на данной базе знаний экспертной системе, а также увеличивает гибкость процесса вывода рекомендации, предоставляя пользователю более широкий выбор вариантов, упорядоченных по степени их релевантности.

Для оценки эффективности алгоритма автоматизированного обучения онтологии посредством извлечения знаний из текстов предметной области были проведены эксперименты по формированию базы знаний «Юнитех» одноименного учебного центра.

Учебный центр «Юнитех» — это платформа дистанционного взаимодействия студентов и преподавателей переводческих факультетов вузов, переводчиков, инженеров и работодателей. В настоящее время базой знаний данного переводческого учебного центра пользуется 20 ВУЗов по всей России.

База знаний «Юнитех» — это база элементарных знаний о наиболее распространенных технических объектах (механизмах, устройствах, системах и т.п.), которые являются общими для разных отраслей промышленности. Описание каждого объекта включает определение, назначение, конструкцию, принцип действия, правила эксплуатации и технического обслуживания, примеры взаимодействия с другими объектами.

В базе знаний объединены и описаны объекты, элементарные знания о которых имеются у опытных переводчиков и отсутствуют у начинающих. Цель построения базы знаний заключается в предоставлении студентам переводческих факультетов возможности изучения элементарных свойств наиболее распространенных технических объектов в таком минимальном объеме, который будет давать максимально полезный эффект в условиях отраслевой неопределенности.

Таким образом, формируемая в результате проведения экспериментов по проверке эффективности разработанного алгоритма расширения онтологии за счет извлечения терминологии база знаний используется в учебных целях для дальнейшего точного перевода с учетом области применения терминологии.

В рамках решения задачи анализа разработанных алгоритмов расширения ядра онтологии посредством извлечения терминологии из текста на основе семантической метрики «термин/ не термин» экспертами в выбранной области была разработана базовая OWL-онтология на основе руководства по эксплуатации токарно-фрезерного станка с числовым программным управлением (ЧПУ) [55].

Разработанная OWL-онтология имеет иерархическую организацию и включает в себя 318 классов, каждому из которых соответствует одноименный объект, и 17 свойств классов. На данный момент онтология имеет 4 уровня иерархии, что позволяет максимально конкретизировать термины предметной области, используемой при решении поставленной задачи. Фрагмент данной онтологии представлен на рисунке 4.3.