Математическое моделирование физико-технических объектов на основе структурной и параметрической адаптации искусственных нейронных сетей Тархов Дмитрий Альбертович

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Тархов Дмитрий Альбертович. Математическое моделирование физико-технических объектов на основе структурной и параметрической адаптации искусственных нейронных сетей : дис. ... д-ра техн. наук : 05.13.18 СПб., 2005 335 с. РГБ ОД, 71:07-5/106

Содержание к диссертации

Введение

Глава 1. Анализ состояния предметной области и постановка задач диссертации 20

1.1. Линейные модели 21

1.2. Нелинейная регрессия 30

1.3. Статические нейронные сети 33

1.4. Динамические нейронные сети 45

1.5. Построение модели по уравнениям и данным 63

1.6. Методы оптимизации 66

1.7. Осцилляторные модели нейронных сетей 72

1.8. Нейросетевой эмулятор Essence 73

1.9. Выводы по главе 74

Глава 2. Структурные алгоритмы построения статических и динамических нейронных сетей 75

2.1. Построение статической нейронной сети прямого распространения по статической выборке 76

2.2. Кластерный анализ. Сети Кохонена и Гроссберга 88

2.3 Сети с радиальными базисными функциями (RBF-сети) 94

2.4. Многослойный персептрон с временными задержками и связанные с ним нейросетевые архитектуры 103

2.5. Динамическая кластеризация и сети Кохонена 111

2.6. RBF-сети с временными задержками 120

2.7. Рекуррентные сети 133

2.8. Выводы по главе 153

Глава 3. Построение нейросетевой модели по уравнениям и данным ... 154

3.1. Обыкновенные дифференциальные уравнения 154

3.2. Решение краевых задач для уравнения Лапласа на плоскости с помощью RBF - сетей 163

3.3. Нейросетевые подходы к решению краевых задач в составных областях 173

3.4. Применение нейронных сетей к задачам с переменной границей 184

3.5. Генетические алгоритмы декомпозиции задач математической физики с помощью нейронных сетей 194

3.6. Некоторые подходы к решению систем дифференциальных уравнений с частными производными и других задач моделирования 206

3.7. Выводы по главе 214

Глава 4. Итерационные методы обучения нейронных сетей 215

4.1. Метод Ньютона как реализация приближений с быстрой сходимостью 216

4.2. Некоторые методы глобальной оптимизации 226

4.3. Распределённое обучение нейронных сетей 233

4.4. Обучение нейронных сетей по распределённым данным и обучение распределённых нейронных сетей 253

4.5. Выводы по главе 263

Глава 5. Осцилляторные нейросетевые моделбесконечной размерности 264

5.1. Теорема о выпрямлении траекторий на бесконечномерном торе265

5.2. Приводимость линейной системы с нечётными почти периодическими коэффициентами 267

5.3. Решение аналитического уравнения с почти периодическими коэффициентами 269

5.4. Общая схема метода Колмогорова. Основные определения 271

5.5. Разрешимость гомологического уравнения 278

5.6. Условия сходимости метода Колмогорова 281

5.7. Выводы по главе 286

Глава 6. Нейросетевой эмулятор Essence 287

6.1. Основные функциональные возможности пакета Essence 1.2 288

6.2. Описание интерфейса Essence 1.2 290

6.3. Определение характеристик температуры воздуха для региона Западной Сибири с помощью пакета Essence 298

6.4. Разграничение региона Западной Сибири по зонам с помощью пакета Essence 310

6.5. Выводы по главе 318

Заключение 319

Литература

Статические нейронные сети
Кластерный анализ. Сети Кохонена и Гроссберга
Решение краевых задач для уравнения Лапласа на плоскости с помощью RBF - сетей
Некоторые методы глобальной оптимизации

Введение к работе

Актуальность темы. В настоящее время нейросетевая технология является одной из наиболее динамично развивающихся областей искусственного интеллекта. Она успешно применяется в различных областях науки и техники, таких как распознавание образов, в системах диагностики сложных технических объектов (например, двигателя), экология и науки об окружающей среде (прогнозы погоды и различных катаклизмов), построение математических моделей, описывающих климатические характеристики, биомедицинские приложения (диагностика различных заболеваний, неинвазивное измерение уровня сахара в крови, идентификация личности), системы управления, геология (прогнозирование наличия полезных ископаемых) и т.д. На данный момент как в России, так и за рубежом, накоплен богатый опыт применения отдельных типов нейронных сетей к различным задачам. Созрела необходимость создания единой методологии разработки алгоритмов конструирования и обучения различного вида нейронных сетей применительно к решению широкого класса задач моделирования физико-технических объектов. Такая методология должна:

• Позволять исследователю сконструировать с помощью известных принципов или выбрать из имеющихся метод и алгоритм решения практически любой реальной задачи математического моделирования с помощью нейронных сетей, если другие подходы к задачам такого рода неизвестны или известны, но не устраивают по тем или иным причинам. Особенно актуальной, в частности, является задача построения простой модели сложного объекта по малой выборке с последующим уточнением модели по мере накопления новых данных в процессе функционирования объенкта.

• Продемонстрировать свою работоспособность на достаточно широком классе практически интересных задач

• Предоставить общие подходы к изучению условий сходимости конструируемых алгоритмов и к ускорению такой сходимости и повышению устойчивости соответствующих процессов

В настоящее время такой методологии не существует, хотя многие глубокие исследования отдельных задач создают хорошие предпосылки для её возникновения.

В последние годы появился интерес к применениям нейронных сетей к частному виду таких задач - задачам математической физики. Это вызвано трудностями решения классическими методами многих практических задач (нелинейность моделей, сложность геометрии и т.д.). Неточность в задании параметров системы, начальных и краевых условий приводит к необходимости построения модели, которая слабо меняется при небольшом изменении этих данных. Нейросетевые модели обычно обладают такой устойчивостью. Недостатком существующих работ в данной области является то, что уравнение удовлетворяется в фиксированном наборе точек, а поведение между этими точками не учитывается. Большинство работ сводит поиск решения в классе нейронных сетей к подбору линейно входящих параметров, что нивелирует достоинства нейросетевого подхода. Ещё одним существенным недостатком является отсутствие развитых алгоритмов подбора структуры сети, что вынуждает исследователей выбирать эту структуру априори не опираясь на информацию об особенностях приближённого решения, проявляющихся в процессе вычислений.

Следующий круг вопросов связан с исследованием сходимости разработанных алгоритмов обучения. Определение условий и скорости сходимости стандартных алгоритмов обучения нейронных сетей в литературе практически не обсуждается, хотя соответствующие оценки сразу следуют из общих результатов для рассматриваемых алгоритмов. Анализ условий сходимости разработанных в диссертации алгоритмов существенно более сложен. Первая сложность заключается в изменении размерности пространства при итерациях, т.е. приходится рассматривать итерационный процесс в последовательности пространств, вложенных друг в друга. Вторая сложность связана с сочетанием шагов методов второго порядка и методов первого порядка, причём рассмотрение переменных функционалов может привести к замене неравенства Липшица оценкой Гёльдера с переменным показателем. Третья сложность связана с возможной заменой обратного оператора приближённым обратным с оценкой, меняющейся от шага к шагу. Отсутствие общих теорем о сходимости итерационных процессов такого рода не позволяет исследовать алгоритмы, разработанные с помощью обсуждающейся в диссертации методики.

Более актуальная для практики проблема заключается в большой ресурсоёмкости алгоритмов обучения нейронных сетей и большом времени обучения соответственно. Для решения этой проблемы возможны два пути.

Во-первых, интерес представляют такие модификации алгоритмов глобальной оптимизации, которые работоспособны в пространстве, размерность которого составляет сотни и тысячи, в отличие от существующих алгоритмов, которые работоспособны до размерности 20-30.

Во-вторых, требуется так модифицировать алгоритмы обучения, чтобы они достаточно эффективно работали в распределённой среде (Интернет). Более того, желательно реализовать распределённые варианты алгоритмов в виде соответствующих программных продуктов.

Хотя исходной целью изучения работы нейронных сетей было моделирование работы человеческого мозга, наиболее употребительные виды нейронных сетей оказались не вполне подходящими для решения данной задачи. Для моделирования этих процессов применяются и другие типы сетей, например, в виде системы из нескольких связанных осцилляторов, совершающих квазипериодические колебания. Такие модели обладают рядом недостатков. Во-первых, реальное количество нейронов составляет миллиарды, поэтому остаётся неизвестным, не создаёт ли переход к такой большой системе принципиально новых качественных особенностей поведения. Во-вторых, интересно изучить особенности поведения многоуровневых систем, когда один блок нейронов, сильно связанных между собой, связан с другим блоком нейронов существенно слабее.

С прикладной точки зрения изучение этих вопросов весьма актуально. Первый круг возможных приложений - расшифровка мысленных команд по слабым электромагнитным колебаниям мозга и создание на этой основе новых человеко-машинных интерфейсов. Второй - лечение различных заболеваний с помощью слабых электромагнитных колебаний с отслеживанием результатов воздействия. Третий - бионические приложения, т.е. создание ведущих себя подобно мозгу интеллектуальных колебательных систем. Для реализации подобных систем нужно построить соответствующую теорию колебаний систем с бесконечным числом степеней свободы.

Цель работы. Диссертация посвящена созданию целостной методологии математического моделирования физико-технических объектов с помощью нейронных сетей. Такая методология строится на основе сочетания структурной и параметрической адаптации.

Достижение этой цели связано с выполнением следующих этапов исследования:

1. Единообразное и удобное для применения разрабатываемых методов математическое описание широкого класса нейронных сетей известных архитектур и конструирование на этой основе сетей новых типов.

2. Создание методологии конструирования и обучения нейронных сетей, применимой к упомянутым выше нейронным сетям и различным задачам математического моделирования физико-технических объектов и построение на этой основе ряда новых алгоритмов. При этом модели должны допускать развитие в процессе сбора новой информации об объекте и методы развития моделей должны входить в методологию.

3. Проверка применимости созданной методологии и построенных с её помощью алгоритмов на широком круге задач поиска приближённых решений обыкновенных дифференциальных уравнений и дифференциальных уравнений с частными производными.

4. Создание теоретических основ для анализа условий сходимости разработанных алгоритмов обучения нейронных сетей и разработка методов ускорения и повышения устойчивости работы входящих в них процедур локальной и глобальной оптимизации, в том числе на основе создания распределённых вариантов таких алгоритмов.

5. Создание теоретических основ для анализа почти периодических колебаний бесконечномерных систем взаимосвязанных осцилляторов.

6. Создание нейроэмулятора, позволяющего изучать работу алгоритмов обучения нейронных сетей и применять их к практическим задачам.

Методы исследования. Основой для создания и исследования разработанных алгоритмов является функциональный анализ, теория дифференциальных уравнений, метод группового учёта аргументов (МГУА) и эволюционное моделирование.

Научная новизна.

1. Создана не существовавшая ранее методология конструирования и обучения нейронных сетей в задачах математического моделирования физических явлений в технических объектах на основе сочетания структурной и параметрической адаптации.

Обсуждаются варианты реализации каждого этапа разработанной методологии, как известные так и новые и особенности их выбора в зависимости от решаемой задачи моделирования. В качестве примеров на основе данной методологии разработано несколько десятков новых методов и алгоритмов.

2. Определены новые виды нейронных сетей - вложенные нейронные сети и модификация RBF-сетей, включающая функции метода конечных элементов с указанием областей их возможного применения и особенностей обучения.

3. На основе разработанных в диссертации общих принципов созданы новые методы решения классических и неклассических задач математической физики.

4. Впервые определены многослойные дифференциальные нейронные модели и аналогичные модели с частными производными, а также рассмотрены особенности их построения и использования.

5. Доказаны новые теоремы о сходимости итерационных алгоритмов, обобщающих метод Ньютона и применяемых к обучению нейронных сетей.

6. Разработаны новые методы ускорения и повышения устойчивости работы входящих в упомянутые выше методы и алгоритмы процедур локальной и глобальной оптимизации, в том числе на основе реализации их в глобальных сетях (Интернет).

7. Впервые определены осцилляторные нейросетевые модели бесконечной размерности и разработаны методы их изучения. Введены определения и доказана теорема о сходимости метода последовательных замен, что позволяет получать теоремы об устойчивости почти периодических колебаний таких систем в качестве частных случаев.

Практическая значимость.

Разработанная автором методология математического моделирования на основе структурной и параметрической адаптации искусственных нейронных сетей позволяет специалисту в предметной области без особых усилий по программированию построить и исследовать математическую модель интересующего его физического или технического объекта. В качестве конкретных приложений можно указать следующие выполненные работы:

1. Разработанные автором методы применения нейронных сетей к задачам математической физики проиллюстрированы на примере моделирования и определения оптимальной формы поверочной камеры калибратора переменного давления

2. Разработанные автором методы применены к исследованию процессов теплообмена в системе «сосуды-ткани».

3. Под руководством автора создан нейроэмулятор Essence на JAVA 2, реализующий разработанные автором алгоритмы и позволяющий решать практические задачи построения нейросетевых моделей.

4. С помощью нейроэмулятора Essence было проведено указанное ниже исследование климатических характеристик.

Внедрение результатов работы.

С помощью разработанных в диссертации методов и алгоритмов в ГОУВПО «Тюменский государственный нефтегазовый университет» успешно проводились исследования условий эксплуатации (климатических характеристик) техники в регионе Западной Сибири, что позволило найти скрытые зависимости в разнородных зашумленных данных большого объёма.

На базе нейроэмулятора Essence в ООО «ГазЭнергоСервис» было создано специализированное программное обеспечение для моделирования и исследования температурного режима в Западной Сибири, что позволило спроектировать экономически целесообразный набор средств предпускового прогрева двигателя для землеройной техники в данном регионе.

Апробация работы. Основные результаты работы докладывались на следующих научных форумах:

• Второй научно-технический семинар «Современные системы контроля и управления электрических станций и подстанций (АСУ ТП) на базе микропроцессорной техники» в 2001 году,

• Международная конференци «Датчики и системы» в 2002 году,

• Международная конференция по мягким вычислениям и измерениям - SCM 2003, Санкт-Петербург, СПбГЭТУ «ЛЭТИ»,

• VI Всероссийская научно-техническая конференция «Нейроинформатика-2004», Москва, МИФИ,

• 5-я международная научно-техническая конференция «Компьютерное моделирование 2004» СПб.,

• Международная конференция по мягким вычислениям и измерениям - SCM 2004, Санкт-Петербург, СПбГЭТУ «ЛЭТИ»,

• 10 международный симпозиум ІМЕКО «ТС7 International Symposium on Advances of Measurement Science» 2004, Санкт-Петербург,

• Международная научно-техническая конференция «Искусственный интеллект. Интеллектуальные и многопроцессорные системы» 2004, Кацивели, Крым,

• VII Всероссийская научно-техническая конференция «Нейроинформатика-2005», Москва, МИФИ,

• Международная научно-техническая конференция «Интеллектуальные и многопроцессорные системы» (ИМС-2005) и научные молодежные школы «Высокопроизводительные вычислительные системы» (ВПВС-2005) и «Нейроинформатика и системы ассоциативной памяти» (Нейро-2005),

• Санкт-Петербургский городской семинар по нейронным сетям 25 ноября 2005 года,

• Научный семинар кафедры «Высшая математика» СПбГПУ (дважды).

На международных научно-технических конференциях «Искусственный интеллект. Интеллектуальные и многопроцессорные системы - 2004» и «Интеллектуальные и многопроцессорные системы -2005» доклады в числе лучших в секции «Нейронные сети и нейросетевые технологии» опубликованы в специальных выпусках журнала Известия ТРТУ.

Созданный под руководством автора с помощью нейроэмулятора Essence "Multi-Layer Perception" Java Bean на международном конкурсе IBA "Beans - 98" (конкурс проводился под эгидой IBM) занял первое место.

На защиту выносятся:

1. Методология применения нейронных сетей для решения задач математического моделирования физико-технических объектов на основе структурной и параметрической адаптации и созданные на её основе методы и алгоритмы.

2. Методы и алгоритмы решения задач математической физики, построенные на основе известных и новых видов нейронных сетей и разработанных автором методов определения их структуры и весов.

3. Теоремы о сходимости итерационных алгоритмов, обобщающих метод Ньютона и применяемых к анализу сходимости разработанных алгоритмов и методы ускорения и повышения устойчивости работы входящих в эти алгоритмы процедур локальной и глобальной оптимизации, в том числе ориентированные на использование в глобальных сетях (Интернет).

4. Осцилляторные нейросетевые модели бесконечной размерности и методы их исследования. Теорема о сходимости метода последовательных замен, что позволяет получать теоремы об устойчивости почти периодических колебаний таких систем в качестве частных случаев

5. Созданный на основе теоретических разработок, изложенных в данной диссертации, и под руководством автора, пакет Essence.

Структура диссертации. Диссертация содержит введение, шесть глав, заключение и список литературы, содержащий 200 источников, изложена на 333 страницах, включая 86 рисунков.

Первая глава диссертации посвящена обзору основных нейросетевых моделей и систематизации их на основе единого формализма. В начале главы формулируются требования к нейросетевым моделям и основные задачи моделирования, к которым прикладываются нейронные сети.

В первом параграфе на примере линейной регрессии приводятся основные виды функционалов ошибки и формулируются подходы к подбору структуры искомой зависимости. В дальнейшем эти результаты будут перенесены на нейронные сети.

Во втором параграфе формулируется задача построения нелинейной регрессии общего вида, частным случаем которой является большинство видов нейронных сетей, и обсуждаются особенности постановки и решения этой задачи в случае, когда выборка пополняется.

В третьем параграфе рассматриваются статические нейронные сети. Под статическими нейронными сетями понимаются сети, в которые явным образом не входит время. Эти конструкции могут применяться и для решения динамических задач, если в качестве входов использовать переменные в разные моменты времени.

Начинается рассмотрение с наиболее употребительного вида таких сетей - многослойного персептрона (многослойной сети прямого распространения). Далее эта конструкция обобщается на сети прямого распространения с частичной структурой связей, которые описаны на языке графов. Этот вид сетей очень удобен для применения различных алгоритмов подбора структуры, ряд из которых описан в данной главе.

Кроме этого, в данной главе описаны и другие виды нейронных сетей -сети Кохонена, связанные с алгоритмами кластеризации, RBF - сети, наиболее подходящие для локальной интерполяции и сети Гроссберга, использующие оба этих вида сетей. В основном обучение сетей трактуется как процедура оптимизации некоторого функционала - в первую очередь это сумма квадратов разностей между тем, что выдаёт сеть и тем, что нам хотелось бы, чтобы она выдавала (например, данные, полученные из опыта). Таким образом, можно применить алгоритмы нелинейной оптимизации, вычислив, при необходимости, градиент минимизируемого функционала и матрицу его вторых производных. Известный алгоритм обратного распространения ошибки возникает из процедуры вычисления этого градиента в соответствии с известной формулой производной сложной функции.

Во второй главе разработана методология и различные методы нахождения структуры нейронной сети на её основе. При этом особое внимание уделяется алгоритмам, сочетающим подбор структуры нейронной сети и её весов.

В первом параграфе второй главы решается задача построения статической нейронной сети прямого распространения по статической выборке. Проведён анализ подходов к определению начальных значений весов сети, метод главных компонент предварительной настройки многослойного персептрона, процедуры добавления и удаления нейрона и слоя сети. На основе этих процедур строится ряд принадлежащих автору алгоритмов построения нейронных сетей. Первым рассмотрен генетический алгоритм определения структуры многослойного персептрона.

Конструкция сети с частичной структурой связей позволяет удобным образом строить генетический алгоритм подбора её архитектуры.

Более перспективным представляется многорядный алгоритм определения структуры сети прямого распространения с частичной структурой связей. Кроме того, в данном параграфе приведён двойной генетический алгоритм построения коллектива нейронных сетей, суть которого состоит в генетическом алгоритме разбиения выборки на кластеры и генетическом алгоритме построения сети для каждого кластера.

Во втором параграфе данной главы рассматриваются разработанные автором алгоритмы определения структуры сетей Кохонена и Гроссберга.

В третьем параграфе второй главы анализируются особенности обучения и конструирования RBF-сетей различных видов, включая новые виды таких сетей, в зависимости от решаемых задач моделирования.

Параграфы 4-6 второй главы посвящены динамическим нейронным сетям без обратных связей. Один из возможных подходов к построению такого рода сети - использовать в качестве входа статической сети входной вектор с разными временными задержками. Если эти задержки использовать не только перед первым, но и перед другими слоями многослойного персептрона, то получается другой вид сети -многослойный персептрон с временными задержками (TDNN) [189]. Если исходить не из многослойного персептрона, а из сети с частичной структурой связей, тогда можно реализовать разного рода динамические алгоритмы подбора структуры сети и различные временные фильтры между слоями. В данных параграфах приведён ряд разработанных автором алгоритмов подобного рода.

Так как многие прикладные модели строятся с использованием дифференциальных уравнений, как обыкновенных, так и в частных производных, задачи, в которых такие уравнения входят, являются удобным полигоном для исследования нейросетевых методов. В третьей главе обсуждаются не только известные задачи решения таких уравнений, но и некоторые более сложные проблемы, которые трудно решить обычными методами. Задача построения робастной математической модели по разнородным данным, включающим как уравнения, так и экспериментальные наблюдения, является весьма актуальной для практики, и её недостаточная изученность вызвана трудностью применения к ней классических методов. Отдельные задачи такого рода рассматривались в монографии [145] и в статьях [39, 40, 198]. В третьей главе продолжается обсуждение этой темы, затронутой статье [39], где рассматривалась задача нахождения функции, для которой в некоторой части области известно уравнение, кроме того, известны (например, в результате измерений) её значения в некотором наборе точек. Указаны новые примеры подобных постановок задач для дифференциальных и некоторых других уравнений и намечена общая методология их решения в рамках нейросетевой парадигмы.

Обучение нейронных сетей обычно сводится к некоторой итерационной процедуре оптимизации нелинейного функционала. Поэтому условия сходимости такого рода процедур представляют большой интерес. Особенно интересными являются проанализированные в четвёртой главе итерационные процессы, обобщающие метод Ньютона в силу своей быстрой сходимости. Стандартный метод Ньютона не совсем удобен в силу двух причин - локальной сходимости и больших вычислительных затрат при решении линеаризованной системы на каждом шаге. Эти причины побуждают рассматривать более сложные подходы, которые в значительном числе задач оказываются более эффективными. Главными особенностями доказанных в диссертации теорем о сходимости итерационных процессов по сравнению с известными результатами является рассмотрение процессов в последовательности пространств, вложенных друг в друга, сочетание шагов методов разных порядков, рассмотрение оценки Гёльдера с переменным показателем и замена обратного оператора приближённым обратным с оценкой, меняющейся от шага к шагу.

Метод Ньютона является локальным, т.е., применяя его к задаче нахождения экстремума функционала ошибки, можно получить только локальный экстремум, который может и не быть глобальным. Для преодоления этих трудностей во втором параграфе четвёртой главы дается краткое рассмотрение нескольких модификаций рассмотренных в диссертации алгоритмов обучения, позволяющих приблизится к глобальному экстремуму. Эти подходы были проверены в задачах обучения нейронных сетей и оказались достаточно эффективными в случае, когда число подбираемых переменных (весов сети) составляет от сотен до нескольких тысяч.

В последних трёх параграфах четвёртой главы разработаны подходы к распределённой реализации рассмотренных в диссертации алгоритмов. В качестве основной области их применения может быть указана типичная для Интернета задача обработки информации в ситуации, когда связи между узлами ненадёжны, а пересылка всех данных в один узел невозможна или нерациональна. Работа с нейронными сетями в такой ситуации возможна в двух вариантах, проанализированных в данной главе: либо единая сеть обучается на многих компьютерах параллельно, либо обучается и работает сеть, отдельные части которой находятся на разных компьютерах.

В связи с этим, в третьем параграфе разработаны методы и алгоритмы распределённого обучения нейронных сетей, в четвёртом - методы и алгоритмы обучения нейронных сетей по распределённым данным и задача построения и обучения распределённых нейронных сетей, т.е. таких сетей, у которых отдельные части находятся на различных компьютерах.

В пятой главе изучаются осцилляторные нейросетевые модели бесконечной размерности. При этом место квазипериодических колебаний занимают почти периодические колебания с бесконечным базисом частот. Создание полноценной теории таких колебаний и интерпретация её результатов с точки зрения биологии - дело будущего. В данной главе обсуждаются только некоторые математические конструкции, которые могут служить основой для разработки такой теории и некоторые результаты в данном направлении.

Нейросетевой эмулятор Essence, описанию которого посвящена шестая глава, разработан EssenceGroup под руководством автора. Текущая версия (Essence 1.2) представляет собой программную среду, написанную на базе платформы Java 2, и предназначенную для разработки и обучения нейронных сетей с целью отыскания скрытых зависимостей в числовых данных. В третьем и четвёртом параграфе данной главы приведены результаты некоторых конкретных прикладных исследований, выполненных с помощью Essence. Эти исследования связаны с построением модели климатических характеристик Западной Сибири. Данная модель использовалась для описания условий работы техники в данном регионе и позволила сделать важные выводы о необходимых конструктивных особенностях, в частности позволила рассчитать необходимую мощность средств тепловой предпусковой подготовки рассматриваемых машин.

Статические нейронные сети

Для реализации вычислений предыдущего параграфа нужно знать конкретный вид функции f. Известно, что для любого конечного набора экспериментальных данных {х„,у„} можно построить многочлен достаточно высокой степени точно удовлетворяющий этим данным, но между точками {х„} поведение этого многочлена обычно очень плохое и процедура подбора его коэффициентов численно неустойчива.

Нейросетевые функции являются более подходящими для задачи моделирования, так как строят искомую функцию f из простых элементов с подбираемыми коэффициентами так, чтобы эта функция выходила на насыщение, т.е. стремилась к конечному пределу при стремлении аргументов к бесконечности. Задачей данного параграфа является рассмотрение с единых позиций и в единообразных обозначениях известных статических нейросетевых архитектур и анализ возможных подходов к построению некоторых новых видов нейронных сетей.

Многослойный персептрон. Данный вид сети является наиболее употребительным и исследованным [13, 26, 27, 49, 51, 54, 56, 57, 82, 100, 112, 121, 128, 136, 144, 160, 164, 168, 189]. У данной сети линейные комбинации координат входа вида (w,x) поступают на вход первого слоя нейронов. Каждый нейрон действует как нелинейная функция, которая называется функцией активации. Линейные комбинации выходов нейронов подаются на следующий слой, а линейные комбинации выходов нейронов последнего слоя образуют выход сети. Часто во все или в некоторые слои добавляется дополнительный нейрон, на выходе которого всегда 1. Смысл его фактически в вычитании среднего значения.

Если функция активации - это sign(x), то выход сети получается кусочно-постоянной функцией. Обычно вместо функции sign(x) используются гладкие функции, что позволяет вычислять производные и далее для обучения сети применять градиентные методы. Обозначим вектор входов 1-го слоя ум, а вектор выходов х,. Тогда сеть описывается рекуррентными соотношениями y, = W,x, , (1.11) х,=Я(У,-,). (1.12)

Здесь х0 = х - вход сети; у, = f(х) - выход сети. При этом W, - матрица весов /-го слоя, а щ - активационная функция, которая действует покоординатно. Обозначим через Z, матрицу й (ум). Заметим, что она является диагональной матрицей с элементами z,, на 1-м месте диагонали. Для определения производных выхода сети по весам нужно проделать вычисления по формуле =W,AWHZ,,...Z„V (1.13)

Вычисления начинаются на последнем слое и движутся к первому, поэтому такая процедура называется обратным функционированием [56]. Подробное обсуждение вычислительной эффективности этой процедуры и её изображение в виде схем приведено в [56].

В литературе по нейронным сетям часто вычисление производных по этому алгоритму совмещают методом градиентного спуска и называют такой гибрид методом обратного распространения ошибки. Подобного рода смешение не позволяет использовать градиент для применения более быстро сходящихся алгоритмов. Аналогичным образом можно вычислить производную по входам сети ЯГ — = W,Z;Wj, ,ZL_,...W0. Это позволяет оценить значимость входов и отбросить дх наименее значимые, если это необходимо [56]. Для некоторых методов оптимизации, типа метода Ньютона [12, 43, 52, 73, 116, 118, 127, 131, 132, 177, 178], требуется вычисление вторых производных. Дифференцируя (1.13) и используя (1.11), (1.12), получаем е2Уі d2ys _ aw, дх, d2ys д\ ччг ч ч0 для ч )=! ч1 для afe b Здесь « w у pq у ГЧ ц pq билинейная диагональная форма, т.е.

Если для оптимизации используется метод нулевого порядка, тогда вычисление градиента не производится. Обычно приходится так поступать, если часть активационных функций или функционал ошибки -недифференцируемые функции, хотя в этом случае вместо производной можно использовать субдифференциал [118, 132].

Помимо линейных отображений, в формуле (1.11) можно использовать квадратичные формы [50]. В матричной записи у, = W/x/ + W/(2)(x/,x/), где W,(2)- векторнозначная квадратичная форма, соответствующая трёхмерной матрице. Для таких сетей легко получить аналог (1.13). Очевидным образом эти формулы обобщаются на случай более высоких р ду р дх степеней [54]: y, = w/0 )(x/»x/.-.x/) и = рщр)(ххх)— . Формула (1.13) остаётся в силе, если заменить матрицу W, суммой р X W/CRXX/ X/ - X ) Однако количество весов такой сети уже при небольших рА У "-. р-\ размерностях становится очень велико и для их формирования лучше применить какой-либо многорядный алгоритм.

Применение многорядного алгоритма МГУА требует рассмотрения сетей более общей структуры. Эта же структура позволяет производить генетические операции на более тонком уровне, манипулируя отдельными связями.

Кластерный анализ. Сети Кохонена и Гроссберга

Представленные в предыдущей главе известные подходы к обучению сетей Кохонена не всегда оказываются удовлетворительными с точки зрения практики. Главная проблема стандартных сетей Кохонена - фиксированное заранее число нейронов и, тем самым, фиксированное число кластеров. В то же время существует достаточно много алгоритмов кластеризации, в процессе работы которых число кластеров подбирается в зависимости от свойств классифицируемой выборки [3, 66, 77]. Представляется весьма целесообразным придать аналогичную возможность сетям Кохонена, чему и посвящен данный параграф.

Определение структуры сети Кохонена. Для определения оптимального числа нейронов в сети Кохонена, как и для определения числа кластеров вообще, можно применить методику МГУА. При этом для построения внешнего критерия применим метод разбиения выборки на две подвыбор-ки. Алгоритм 2.3. Генетический алгоритм определения структуры сети Кохонена. 1. Точки исходной выборки разбиваем попарно, объединяя ближайшие друг к другу. 2. Строим две подвыборки, относя в каждую по одной точке из каждой пары. 3. На первом ряду обучается набор из пар нейронов. 4. Выбираем заданное число лучших пар. 5. Возможны варианты данного шага: a. Можно перебирать их попарные соединения, разделяя выборку на четыре класса с последующим дообучением. b. Можно рассматривать асимметричные варианты, когда нейроны одной пары продолжают обучаться на обоих подмножествах другой пары или добавляются к нейронам другой пары по одному. 6. Определяем некоторый набор сетей Кохонена, различающихся между собой количеством нейронов и начальными весами. 7. К каждой сети из набора применяем заданное число шагов некоторого алгоритма обучения. 8. Вычисляем значение приведённого выше критерия МГУА на каждой сети и отбрасывается заданное число худших сетей (это число может быть нулём). 9. Ко всем или к некоторым сетям из набора применяем операции мутации и транслокации. Мутацию можно реализовать: a. случайным возмущением весов или входного примера, b. удалением нейрона, c. добавлением нейрона со случайными весами, d. объединением двух классов или e. разбиением одного класса на два.

Для сети Кохонена объединению классов соответствует взвешенное (в соответствии с числом элементов выборки, выделяемых данным нейроном) усреднение соответствующих весов, с последующим обучением получившегося нейрона. Разбиение на два класса осуществляется следующим образом - берём кластер, соответствующий данному нейрону, вводим вместо одного нейрона два, возмущая случайно его веса, и обучаем их на этом кластере по обычному правилу.

Для транслокации ещё больше возможностей. Например, можно взять два разных нейрона, сделать несколько шагов обучения на множествах друг друга и продолжить алгоритм обычным образом. Другой подход -разбить входное множество и множество нейронов на два, применить некоторое число шагов процедуры кластеризации отдельно к каждому множеству нейронов на своём множестве входных векторов отдельно, а потом слить вместе и продолжить прерванную процедуру

Вероятность применения мутации и транслокации, вообще говоря, зависит от значения выбранного критерия - чем выше критерий, тем больше эта вероятность. 10. Повторяем пункт 7. 11. Для лучших (по вычисленному критерию) пар сетей проводим операцию скрещивания. Скрещивание осуществляется естественным образом - берём часть нейронов от одной, а часть - от другой сети и вместе продолжаем обучать дальше. 12. Повторяем пункт 7. 13. Повторяем шаги 8-12 до выполнения условий останова. Можно совместить генетический алгоритм кластеризации с генетическим алгоритмом построения нейронной сети (например, одним из приведённых в предыдущем параграфе). В результате палучается следующий алгоритм. Алгоритм 2.4. Двойной генетический алгоритм построения коллектива нейронных сетей. 1. Исходная выборка (x,,j ,),(x2, ),..., , )кластеризуется, при этом кластеры могут пересекаться. 2. На каждом кластере обучается своя нейронная сеть, при этом для подбора её структуры может использоваться некоторый генетический алгоритм (например, приведённый выше). 3. Производятся мутации - добавляются и исключаются переменные и точки кластеров. 4. Происходят транслокации - кластеры обмениваются точками, а сети - входными переменными и соответствующими коэффициентами. 5. Происходит скрещивание - сети, соответствующие двум кластерам объединяются и дообучаются, если это необходимо. 6. К каждой сети относятся те наблюдения, для которых она даёт минимальную ошибку. Если к какой-либо сети относится слишком мало точек, то она исчезает из популяции, а относящиеся к ней точки распределяются снова по тому же принципу между оставшимися сетями. 7. Шаги 2-6 повторяются необходимое число раз. 8. Определяется «область компетентности» каждой сети, т.е. область входных переменных, для которой данная сеть даёт наилучший результат из всех сетей.

Решение краевых задач для уравнения Лапласа на плоскости с помощью RBF - сетей

Целью данного параграфа является распространение нейросетевых методов, изложенных в предыдущем параграфе на одну из самых простых задач теории дифференциальных уравнений с частными производными. Пусть (х,у) - точка на плоскости R2, Q.r 1,- единичный круг, функция д2и д2и и(х,у) - решение задачи Ди = 0 при r \, u = f при г = \, здесь Аи =—-+—- дх ду оператор Лапласа.

Решить аналитически эту задачу можно только в исключительных случаях. С другой стороны, для решения этой задачи можно применить какой-либо численный метод - сеток, конечных элементов, Галёркина и т.п. [58, 145, 171]. Последние два заключаются в поиске приближённого N решения в виде и = сіиі(х У) гДе ui фиксированные функции. Определить коэффициенты с, позволяет минимизация функционала J(u)= (]дм dQ+si\u-f\2dF, при этом структура функций в методе п г конечных элементов подбирается таким образом, чтобы матрица получающейся системы линейных уравнений содержала больше нулей. Заметим, что определяющие уравнения для коэффициентов с, в случае квадратичного функционала будут линейными.

Эта конструкция очень напоминает сети с радиальными базисными функциями. В этом случае функции м(. имеют однотипную структуру и характеризуются набором параметров (весов сети), которые подбираются в процессе обучения, например, на основе минимизации функционала J. При нейросетевом подходе отпадает проблема разбиения (как правило, триангуляции) области, в которой ищется решение.

Рассмотрим конкретные реализации указанного подхода - ищем решение модельной задачи в виде Ф,У) = сіжр\-аІ\{х-хі)2+(у-уі)Ч. (3.2) В качестве минимизируемого функционала выбираем указанный выше функционал J (и) или его дискретный аналог. Действие оператора Лапласа на сумму (3.2) сводится к вычислению его N для каждой из базисных функций: Au = ciAui. При этом точки, в которых «-і вычисляется лапласиан, вообще говоря, отличаются от центров сетей. Они могут выбираться внутри круга Q регулярным образом, например, равномерно. Более целесообразным представляется случайное распределение точек, генерируемое через определенное число эпох обучения (шагов оптимизации), обоснование которого было проведено в предыдущем параграфе и обеспечивает более устойчивый ход обучения и предотвращает «слипание» центров RBF сети. Кроме того, такой подход позволяет контролировать качество обучения с помощью стандартных статистических процедур, так как ошибка на новом множестве точек хорошо характеризует качество приближения к решению задачи.

Возможно и сочетание регулярного и случайного распределения контрольных точек, так, например, для более точной оценки нормальной производной решения на границе оказалось полезным к случайному набору точек добавить некоторый регулярный набор точек, достаточно близких к границе. Аналогичная процедура может использоваться и для точек на границе, хотя численные эксперименты показали, что это не так необходимо для эффективности вычислительного процесса, как в случае тестовых точек внутри области.

Наряду с указанным подходом к обучению сети возможны и иные. Обучение нейронной сети может быть проведено, исходя из решения в некотором наборе точек, полученного каким-либо другим методом: скажем, методом сеток, конечных элементов и т.п. На этом этапе сеть используется обычным образом - для интерполяции. Ещё лучше использовать интерполяцию для задания начального приближения к весам сети, проводя её дальнейшее обучение по предложенной ранее методике.

Некоторые методы глобальной оптимизации

Алгоритмы, которые были описаны в предыдущем параграфе, являются локальными, т.е. позволяют найти только локальный минимум. Так как функция ошибки в большинстве случаев является многоэкстремальной, они обычно не позволяют найти наилучшее решение исходной задачи. Для нахождения такого решения требуется применить процедуру, позволяющую найти глобальный минимум. Упрощает проблему то обстоятельство, что нас интересует не сам глобальный минимум, а точка, в которой ошибка достаточно мала. Опишем несколько подходов к такому глобальному поиску.

Приведём алгоритм, напоминающий имитацию отжига [186], но более простой. На практике он показал себя достаточно эффективным. Идея предлагаемого подхода состоит в том, чтобы условие убывания ошибки заменить на условие E(w M) E(w к)+єк, где єк - некоторая последовательность, сходящаяся к 0. Таким образом, ошибка может немного возрастать, что позволяет последовательности приближений выходить из небольшого локального экстремума.

Алгоритм 4.1. Метод прыгучего шарика. 1. Выбираем начальные значения подбираемых переменных w0, алгоритм локальной оптимизации, его параметры и способ подбора последовательности sk. 1. Делаем шаг алгоритма (например, по антиградиенту). 3. Получившаяся точка принимается, если E(wktl) E(wk)+Ek 4.Модифицируем sk. Например, при (gi,gy,._,) 0 єк уменьшаем, а при (gj g -i) 0 - увеличиваем. Более сложный способ модификации состоит в том, что по углу между градиентами, изменениям размера шага и ошибки делается прогноз дальнейшего движения и исходя из этого прогноза єк модифицируется оптимальным образом.

Очевидно, что метод позволяет преодолевать неглубокие (глубиной менее єк) локальные минимумы и пологие подъёмы, характерные для оврагов. Эффективность метода сильно зависит от удачного закона формирования st. Вывод условий сходимости проводится для каждого базового алгоритма отдельно.

Многие методы глобальной минимизации [56] используют спуск из нескольких точек. Если используется градиентный метод, тогда в каждой такой точке приходится считать градиент минимизируемого функционала, при этом градиент обычно не является оптимальным направлением движения. Для того чтобы использовать имеющуюся информацию более полно можно предложить следующий алгоритм.

Алгоритм 4.2. Метод плотного облака. 1. Выбираем начальные значения подбираемых переменных w0 (например, случайно в заданном множестве), алгоритм локальной оптимизации и его параметры. 2. Генерируется некоторый набор точек распределённых в некоторой достаточно малой окрестности w0. 3. Вычисляется градиент ошибки для каждой точки и сдвиги из каждой точки в направлении каждого градиента - из п точек получается п7 новых. 4. Из получившихся точек выбираем и лучших и шаг 3 повторяем необходимое число раз. Недостаток такого подхода состоит в том, что точки могут «слипнутся». Для решения этой проблемы можно предложить несколько вариантов пункта 4: а) Выбираем п кластеров и за новые точки берём их центры. Недостаток - метод может расходиться. б) Выбрасываем определённую долю худших точек, далее проводим кластеризацию точек облака и далее как в а); в) выбрасываем все точки с возросшей ошибкой, если их остаётся слишком мало - добавляем ещё точек (например случайной генерацией) до того, как их станет п и далее как и раньше. д) за новый центр берём центр лучшего (в смысле средней ошибки) кластера, далее генерируем новое облако.

Можно модифицировать и пункт 3 - вместо градиентного использовать случайный спуск или вместо случайных векторов использовать направление из точек друг на друга.

Следующий метод позволяет применить известный метод многогранника к поверхности, огибающей множество локальных экстремумов, что удобно, если минимизируемый функционал представляет из себя сумму медленно меняющейся и быстро меняющейся функций. Алгоритм 4.3. Модифицированный метод многогранника. 1. Выбираем начальные значения параметров w0 и размер ребра симплекса /. 2. Строим правильный симплекс около этой точки. 3. Вычисляем значение минимизируемого функционала Е в вершинах симплекса. 4. Проводим несколько шагов какого-либо градиентного метода спуска из каждой вершины.