Модели адаптивного поведения на базе эволюционных и нейросетевых методов Мосалов Олег Петрович

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Мосалов Олег Петрович. Модели адаптивного поведения на базе эволюционных и нейросетевых методов : диссертация... кандидата физико-математических наук : 05.13.18 Москва, 2007 110 с. РГБ ОД, 61:07-1/1041

Содержание к диссертации

Введение

Глава 1. Модели адаптивного поведения 12

1.1. Обзор направления исследований «Адаптивное поведение» 12

1.2. Метод обучения с подкреплением. Метод SARSА 16

1.3. Искусственные нейронные сети. Метод обратного распространения ошибки 19

1.4. Основные нейросетевые парадигмы 23

1.5. Эволюционное моделирование 25

1.6. Нейроэволюционный подход 27

1.7. Модели адаптивных автоматов М.Л. Цетлина 29

1.8. Проект «Животное» М.М. Бонгарда 33

1.9. Модели на основе теории функциональных систем 34

Глава 2. Исследование моделей неиросетевых адаптивных критиков ...39

2.1. Нейросетевые адаптивные критики 39

2.2. Процессы обучения в адаптивных критиках 43

2.2.1. Агент на основе Q-критика 43

2.2.2. Агент на основе V-критика 54

2.2.3. Сравнение процессов обучения для метода SARSA и V-критика ...63

2.3. Взаимодействие между обучением и эволюцией 66

2.3.1. Сравнение различных режимов настройки нейронных сетей 66

2.3.2. Эффект Болдуина 74

2.3.3. Специфика работы блока Модель в схеме V-критика 77

2.4. Сопоставление с поведением живых организмов 79

2.5. Выводы по главе 2 81

Глава 3. Приложения эволюционных и неиросетевых методов к задачам медицинской диагностики 83

3.1. Особенности постановки задачи 83

3.2. Метод построения классифицирующей системы 84

3.3. Результаты моделирования 89

3.4. Выводы по главе 3 93

Глава 4. Модели поискового поведения на основе спонтанной активности 94

4.1.0 поисковом поведении 94

4.2. Модель анимата, осуществляющего поисковое поведение 96

4.3. Результаты моделирования 99

4.4. Выводы по главе 4 100

Заключение 101

Список использованных источников

Искусственные нейронные сети. Метод обратного распространения ошибки
Сравнение процессов обучения для метода SARSA и V-критика
Специфика работы блока Модель в схеме V-критика
Метод построения классифицирующей системы

Введение к работе

Актуальность работы

Работа посвящена исследованиям нейросетевых схем управления автономных адаптивных агентов.

Работы по моделям адаптивного поведения были начаты в 1950-1970-х годах, в нашей стране их вели М.Л. Цетлин, М.М. Бонгард, Д.А. Поспелов и другие авторы. В настоящее время за рубежом такие исследования активно ведутся в рамках направления «Адаптивное поведение». Основной подход этого направления – исследование архитектур, принципов и механизмов функционирования искусственных «организмов», которые могут приспосабливаться к переменной внешней среде. Эти организмы называются аниматами (от англ. animal + robot = animat) или агентами.

Направление «Адаптивное поведение» рассматривается как бионический подход к исследованиям искусственного интеллекта. В нем особое внимание уделяется методам самообучения, обеспечивающим автономное существование аниматов. При этом широко используются современные компьютерные методы вычислительного интеллекта (computational intelligence): искусственные нейронные сети, эволюционное моделирование, метод обучения с подкреплением.

В настоящее время активные работы в рамках направления «Адаптивное поведение» ведутся такими зарубежными исследователями, как Ж.-А. Мейер, Р. Пфейфер, С. Нолфи, Р. Брукс, Дж. Эдельман. В нашей стране моделирование адаптивного поведения ведут только немногие группы исследователей под руководством В.А. Непомнящих, А.А. Жданова, А.И. Самарина, Л.А. Станкевича.

Одной из перспективных работ в рамках направления исследований «Адаптивное поведение» является проект «Мозг анимата», который ориентирован на формирование иерархической системы управления анимата, отдельными элементами которой могут выступать нейросетевые блоки, в частности нейросетевые адаптивные критики.

Нейросетевые адаптивные критики являются одним методов теории обучения с подкреплением. Основанные на них системы управления являются достаточно интеллектуальными и способны обеспечивать автономное адаптивное поведение. Их использование возможно как для управления отдельными искусственными организмами, так и в качестве элементов более сложных систем. Известно применение нейросетевых адаптивных критиков при решении ряда задач, однако этот метод все еще недостаточно хорошо изучен и требует дополнительных исследований.

В последнее время активно исследуются нейроэволюционные методы – рассмотрение популяций взаимодействующих между собой и средой агентов на основе нейронных сетей. При этом используются такие биологически инспирированные принципы, как наследственность, изменчивость и естественный отбор.

Методы теории обучения с подкреплением, в том числе нейросетевые адаптивные критики, и нейроэволюционные методы решают одну и ту же задачу – оптимизацию нейронных сетей – различными способами: первые в течение жизни отдельного агента, вторые в процессе эволюции популяции.

Одновременное применение этих двух подходов может заметно увеличить адаптивные способности автономных агентов, функционирующих в переменных, плохо определенных средах. В этой связи необходимо детально исследовать процессы самообучения в системах управления автономных агентов, проанализировать эволюционные процессы в популяциях таких агентов и одновременное их воздействие на адаптивные свойства. Такой анализ необходимо провести на практически важных примерах.

Настоящая работа посвящена решению этих задач. Разрабатываемые и исследованные в диссертации модели могут быть использованы как для описания и понимания механизмов адаптации в живых организмах, так и при разработках искусственных автономных систем.

На основании изложенного тема диссертации является актуальной.

Цель и задачи работы

Целью диссертационной работы является исследование процессов формирования систем управления автономных агентов, способных обеспечить адаптивное поведение в сложной, изменяющейся со временем внешней среде. Для достижения поставленной цели было необходимо решить следующие задачи:

1. Исследование математических моделей систем управления на базе нейросетевых адаптивных критиков и детальное изучение происходящих в них процессов обучения. Анализ адаптивных свойств поведения автономных агентов, которое обеспечивается такими системами управления.

2. Построение и исследование математической модели многоагентной системы автономных адаптивных агентов. Анализ процессов оптимизации систем управления агентов посредством обучения или эволюционной настройки, а также их одновременного использования. Изучение особенностей взаимодействия индивидуального обучения и эволюционной настройки.

3. Разработка методик построения классифицирующих систем на основе исследованных методов путем одновременного применения обучения и эволюционной настройки. Разработка комплекса программ для реализации этих методик.

4. Анализ возможностей применения нейроэволюционных методов на примере задачи классификации типов инсультов.

Научная новизна

1. Выяснено, что на основе нейросетевых адаптивных критиков могут быть построены системы управления, обеспечивающие свойства поведения агентов, аналогичные тем, которые наблюдаются у животных, например, инерционность при смене тактик поведения и игнорирование мелких деталей.

2. Разработана и исследована математическая модель многоагентной системы, в которой адаптация агентов происходит путем обучения и эволюционной настройки. Показано, что совместное применение обучения и эволюционной настройки обеспечивает более эффективную оптимизацию систем управления автономных агентов, нежели обучение или эволюционная настройка в отдельности.

3. Продемонстрировано, что при совместном использовании обучения и эволюционной настройки происходит процесс генетической ассимиляции приобретенных навыков, так называемый эффект Болдуина.

4. Предложена и исследована нейроэволюционная методика построения классифицирующей нейросетевой системы для случая, когда размер обучающей выборки мал и различные классы представлены в ней неравномерно. Показано, что с помощью этой методики может быть построена система классификации типов инсультов, обеспечивающая нулевую ошибку распознавания.

Практическая ценность

1. Разработаны алгоритмы построения нейросетевых систем управления автономных агентов на основании взаимодействия эволюционной настройки и индивидуального обучения.

2. Построена нейросетевая классифицирующая система для распознавания типов инсультов.

Методы исследования:

В работе использовались методы математического моделирования, теории искусственных нейронных сетей, эволюционного моделирования, теории обучения с подкреплением.

На защиту выносятся:

1. Результаты исследований процессов обучения в моделях систем управления агентов на основе нейросетевых адаптивных критиков. Результаты исследования адаптивных свойств автономных агентов, сопоставление этих свойств с простыми адаптивными свойствами живых организмов.

2. Математическая модель многоагентной системы, в которой адаптация агентов происходит путем эволюционной оптимизации и индивидуального обучения. Сопоставительный анализ эффективности трех вариантов настройки систем управления агентов посредством а) обучения, б) эволюционной настройки, в) одновременного использования обучения и эволюционной настройки.

3. Комплекс программ, реализующий методику построения нейроэволюционной классифицирующей системы путем одновременного применения обучения и эволюционной настройки.

4. Классифицирующая система распознавания типов инсульта для случая, когда обучающая выборка имеет малый объем и представители различных классов представлены в ней неравномерно.

Апробация работы и научные публикации

Основные результаты диссертационной работы были доложены и обсуждены на следующих научных конференциях: Artificial Neural Networks: Biological Inspirations – ICANN 2005 (Варшава, 2005), International Joint Conference on Neural Networks – IJCNN 2005 (Монреаль, 2005), The Ninth International Conference on the Simulation of Adaptive Behavior (Рим, 2006), V-VIII Всероссийские научно-технические конференции «Нейроинформатика» (Москва, МИФИ, 2003, 2004, 2005, 2006), II-й Международный научно-практический семинар «Интегрированные модели и мягкие вычисления в искусственном интеллекте» (Коломна, 2003), Международная научно-техническая конференция «Интеллектуальные системы, IEEE AIS’03» (Геленджик, 2003), Всероссийская научная конференция «Методы и средства обработки информации» (Москва, 2003, 2004), XLVI, XLVII научные конференции МФТИ «Современные проблемы фундаментальных и прикладных наук» (Долгопрудный, МФТИ, 2003, 2004), Международная научно-техническая конференция «Искусственный интеллект. Интеллектуальные и многопроцессорные системы» (Кацивели, 2004), Девятая национальная конференция по искусственному интеллекту с международным участием (Тверь, 2004), Казанский городской семинар «Методы моделирования» (Казань, 2004).

Основные результаты диссертации опубликованы в 23 работах, в том числе 2 статьи в рецензируемых журналах из списка изданий, рекомендованных ВАК, 2 статьи в зарубежных научных периодических изданиях, 17 статей в трудах научных конференций (в том числе 4 – в трудах международных конференций), 1 препринт, 1 статья в сборнике.

Структура и объем диссертации

Диссертация изложена на 110 страницах, состоит из введения, четырех глав, заключения и списка использованных источников, насчитывающего 100 наименований.

Искусственные нейронные сети. Метод обратного распространения ошибки

Первые исследования моделей искусственных нейронов и нейронных сетей были проведены У.С. Мак-каллоком и В. Питтсом [36]. Ими была предложена модель так называемого «формального нейрона», схема которого представлена на рис. 1.2. Работа формального нейрона описывается формулой: где {х\, ..., xN} - вектор входных сигналов, Т - порог нейрона, / активационная функция, wx - синаптические веса. На вход нейрона подается вектор сигналов, вычисляется взвешенная сумма этих сигналов, вычитается пороговое значение. Значение активационной функции от полученного результата подается на выход.

Наиболее часто используются следующие типы активационных функций: пороговая (1.13), линейная (1.14), логистическая (1.15).

В какой-то степени функционирование формального нейрона отражает работу реальных нервных клеток. При такой аналогии входы нейрона соответствуют дендритам, суммирование с учетом порога - накоплению необходимого для возбуждения клетки сигнала, активационная функция передаче импульса по аксону. Эта аналогия является грубой и только в самых общих чертах отражает устройство живых нервных клеток, тем не менее, она оказывается полезным инструментом в математическом моделировании.

Одной из первых моделей искусственных нейронных сетей являє гея персептрон Розенблата [37], схема устройства которого показана на рис. 1.3.

Персептрон состоит из элементов трех типов: S-элементы - это сенсорные элементы, на которые подаются некоторые сигналы из внешней среды, А-элементы - это ассоциативные элементы, представляющие собой формальные нейроны, R-элементы - это выходные элементы, представляющие собой сумматоры, которые определяют реакцию нейронной сети на полученные из внешней среды сигналы. Персеи грон может содержать несколько слоев ассоциативных элементов (А-элеменечов), последовательно связанных между собой. Слои ассоциативных элементов называют скрытыми слоями нейронной сети.

Обучение персептрона заключается в определении матрицы синапсов между входным и скрытым слоями и матрицы синапсов между скрытым слоем и выходным слоем (а также матрицы синапсов между скрытыми слоями, если сеть содержит больше одного такого слоя).

Одним из важнейших направлений исследования нейронных сетей является ассоциативная память.

Одно из ведущих направлений исследования нейронных сетей -ассоциативная память. Теория нейроподобной ассоциативной памяти была развита в фундаментальных работах Г.С. Бриндли [38), Д. Маара 39, Т.Кохонена [40,41], Г. Пальма [42,43], Д.Д. Уилшоу 44, В.Л. Дунина-Барковского [45-47], Дж. Хопфида [48,49], С. Лмари 50,51, А.А. Фролова, И.П. Муравьева [52,53] и ряда других авторов.

Различают два вида ассоциативной памяти: автоассоциативную и гетероассоциативную, причем для обоих видов рассматриваются режим записи и режим воспроизведения.

В случае автоассоциативной памяти рассматривается набор эталонных образов {X }, где к= 1,2, ...,п. В режиме записи происходит запоминание векторов Хк, в режиме воспроизведения по искаженному образу X, + АХ (X, один из эталонов, АХ - вектор, задающий искажение) восстанавливается соответствующий эталон Х;.

В случае гетероассоциативной памяти рассматривается набор пар образов {(Xk,Yk)}, где к= 1, 2, ..., п. В режиме записи происходит запоминание отображения X —» Y , в режиме воспроизведения по одному из векторов X, (возможно искаженному) восстанавливается парный ему вектор Y,.

Один из важных и наиболее исследованных способов обучения нейронных сетей - метода обратного распространения ошибок [54] рассмотрен ниже. Более подробное его изложение можно найти в [55,56].

Предполагается, что нейронная сеть имеет многослойную структуру. Нейроны сети представляют собой формальные нейроны с логистической активационной функцией (1.15). Сеть не имеет обратных связей: при вычислении выхода нейронной сети по ее входу сигналы нейронов передаются от слоя к слою, слева направо. Схема такой сети напоминает структуру персептрона Ф. Розенблата (рис. 1.3).

Нейронная сеть реализует функцию гетероассоциативной памяти. Режим воспроизведения тривиален: на вход нейронной сети поступает входной вектор X, и в процессе функционирования формальных нейронов вычисляется выходной вектор Y.

Сравнение процессов обучения для метода SARSA и V-критика

Для проверки эффективности работы процедуры обучения V-критика было проведено ее сравнение с работой метода SARSA. В качестве ряда, задающего курс акций, была взята синусоида X{t) = 0,5 (1 + sin(2?x //20)). При расчете действие е-жадного правила отключалось при t = 10000.

В данном случае (для метода SARSA) рассматривается две возможных ситуации: AX(f) 0 и AX(t) 0, и два возможных действия: u(t\ 1): 0 и u(t+\)=\. Таким образом, матрица Q имеет размерность два на два, а значения ее элементов определяют то, насколько выгодно в данной ситуации принять данное решение.

Полученные результаты таковы: V-критик обучается медленнее SARSA, в результате чего в начале (при t Є [0, 30000]) ресурс, получаемый с помощью SARSA, больше (рис. 2.20). Затем, обучившись, V-критик начинает работать

То, что V-критик работает эффективнее метода SARSA, связано с тем, что он может использовать прогноз, формируемый блоком Модель, для принятия решения, а в методе же SARSA ситуации фиксированы (задаются знаком изменения курса акций на данном такте). На рис. 2.22 показано изменение подкрепления г(і) за период синусоиды (20 тактов) для V-критика (черная кривая) и для метода SARSA (серая кривая). Видно, что V-критик предвидиі начало падения курса, успевает перевести акции в деньги и за счет этого получает большее суммарное подкрепление, чем метод SARSA. V-критик 001 В то же время, понятно, что V-критик мог бы предвидеть не только начало падения, но и начало роста курса акций. Рассмотрим такой алгоритм (оптимальный): переводить капитал в акции, когда прогнозируемое изменение курса положительно и переводить капитал в деньги, когда прогнозируемое изменение курса отрицательно. На рис. 2.23 показано изменение подкрепления r(t) за период синусоиды (20 тактов) для V-критика (черная кривая) и для оптимального алгоритма (серая кривая).

Таким образом, из двух возможных улучшений по сравнению с методом SARSA, которые V-критик мог бы в принципе найти для рассматриваемого модельного ряда (в начале и в конце роста курса акций), в нашем расчете V-критик находит только одно. Это связано с тем, что самообучение путем стохастического поиска с подкреплением (которое и осуществляет V-критик) имеет и свои недостатки: сложно найти решение, использующее все возможности сразу с помощью одной простой конструкции.

Схема эволюции. Рассматривается популяция, состоящая из и агентов, система управления которых построена на основе V-критика (см. п. 2.1.2). Каждый агент имеет ресурс R{t), который изменяется в соответствии с подкреплениями агента: R(t+\) = R(t) + r(t), где r{t) определено в (2.16).

Эволюция происходит в течение ряда поколений, ng= 1,2, ..., /Vg. Продолжительность каждого поколения ng равна Т тактов времени (У длительность жизни агента). В начале каждого поколения начальный ресурс-каждого агента равен нулю, т.е., R(T(ng-l) + 1) = 0.

Начальные веса синапсов обоих нейронных сетей (Модели и Критика) формируют геном агента G={WMO,WCo}- Геном G задается в момент рождения агента и не меняется в течение его жизни. В противоположность этому текущие веса синапсов нейронных сетей WM и W( подстраиваются в течение жизни агента путем обучения, описанного в п. 2.1.2.

В конце каждого поколения определяется агент, имеющий максимальный ресурс Rmax(ne) (лучший агент поколения «g). Этот лучший агент порождает п потомков, которые составляют новое («g+l)-oe поколение. Геномы потомков G отличаются от генома родителя небольшими мутациями.

Более конкретно, в начале каждого нового (wg+l)-ro поколения мы полагаем для каждого агента G,(«g+1) = Gbcs\(ng) + rand,, WoOig+l) = GK+l), (2.25) где Gbest(/7g) - геном лучшего агента предыдущего ng-ro поколения и rand, -это JV(0, г mut), т.е., нормально распределенная случайная величина с нулевым средним и стандартным отклонением Pmut (интенсивность мутаций), которая добавляется к каждому весу.

Таким образом, геном G (начальные веса синапсов, получаемые при рождении) изменяется только посредством эволюции, в то время как текущие веса синапсов W дополнительно к этому подстраиваются посредством обучения, изложенным в п. 2.1.2. При этом в момент рождения агента W = W0 = G.

Специфика работы блока Модель в схеме V-критика

Система управления каждого агента включает в себя нейронную есть Модели, предназначенную для предсказания изменения значения AX(t+\) временного ряда в следующий такт времени /+1. Мы проанализировали работу Модели и обнаружили очень интересную особенность. Нейронная сеть Модели может давать неверные предсказания, однако агент, тем не менее, может использовать эти предсказания для принятия верных решений. Например, рис. 2.31 показывает предсказываемые изменения АА Ж) и реальные изменения АД/+1) стохастического временного ряда в случае чистой эволюции (случай Е). Предсказания нейронной сети Модели достаточно хорошо совпадают по форме с кривой АХ Однако, предсказанные значения AA r(/+l) отличаются примерно в 25 раз от значений АД/+1).

На рис. 2.33 приведен другой пример особенностей предсказания нейронной сети Модели в случае LE (обучение + эволюция). Этот пример показывает, что предсказания нейронной сети Модели могут отличаться от реальных данных не только масштабом, но и знаком.

Хотя предсказания Модели могут быть неверными количественно, мы полагаем, что правильность их формы или правильность после линейных преобразований (например, изменения знака) приводит к тому, что Моделі, является полезной для адаптивного поведения. Эти предсказания эффективно используются системой управления агентов для нахождения оптимальной поведения: стратегия поведения агентов для обоих приведенных примеров работы Модели была подобна стратегии, представленной на рис. 2.30.

По-видимому, наблюдаемое увеличение значений АА г(/+1) нейронной сетью Модели полезно для работы нейронной сети Критика, так как реальные значения AX(t+\) слишком малы (порядка 0,001). Таким образом, нейронная сеть Модели может не только предсказывать значения ЛЛ Ж), но также осуществлять полезные преобразования этих значений.

Эти особенности работы нейронной сети Модели обусловлены доминирующей ролью эволюции над обучением при оптимизации системы управления агентов. На самом деле, из-за малой длительности поколений (Г=200) в нашем моделировании, веса синапсов нейронных сетей изменяются большей частью за счет эволюционных мутаций. Такой процесс делает предпочтительными такие системы управления, которые устойчивы в эволюционном смысле. Кроме того, важно подчеркнуть, что задача, которую «решает» эволюция в настоящей модели, значительно проще, чем та задача, которую решает обучение. Эволюции достаточно обеспечить выбор действий (покупать или продавать), приводящий к награде. А схема обучения предусматривает довольно сложную процедуру прогноза ситуации S, оценки качества прогнозируемых ситуаций, итеративного формирования оценок качества ситуаций V(S) и выбора действия на основе этих оценок. То есть эволюция идет к нужному результату более прямым путем, а так как задача агентов проста, то эволюция в определенной степени «задавливает» довольно сложный механизм обучения. Тем не менее, есть определенная синергия во взаимодействии обучения и эволюции: обучение ускоряет процесс поиска оптимальной стратегии поведения.

Исследуемые агенты имеют две поведенческие тактики (продавать или покупать акции) и выбирают действия, переключаясь между этими тактиками. Можно сопоставить особенности этого поведения с переключением между двумя тактиками при поисковом поведении простейших животных. Например, некоторые виды личинок ручейников используют аналогичные тактики [2]. Личинки живут на речном дне и носят на себе «домик» - трубку из песка и других частиц, которые они собирают па дне водоемов. Личинки строят свои домики из твердых частичек разной величины. Они могут использовать маленькие или большие песчинки. Большие песчинки распределены случайно, но обычно встречаются группами. Используя большие песчинки, личинка может построить домик гораздо быстрее и эффективнее, чем используя маленькие, и, естественно, предпочитает использовать большие частицы. Личинка использует две тактики: 1) тестирование частиц вокруг себя и использование выбранных частиц, 2) поиск нового места для сбора частиц. Исследование поведения личинок обнаруживает инерцию в переключении с первой тактики на вторую [2]. Если личинка находит большую частицу, она продолжает тестировать частицы, пока не найдет несколько маленьких, и только после нескольких неудачных попыток найти новую большую частицу, переходит ко второй тактике. Во время поиска нового места личинка время от времени тестирует частицы, которые попадаются на ее пути. Она может переключиться со второй тактики на первую, если найдет большую частицу; при этом переключении также может проявляться инерция. Таким образом, переключение между тактиками имеет характер случайного поиска с явным эффектом инерции. Процесс инерционного переключения позволяет животному использовать только общие крупномасштабные свойства окружающего мира, и игнорировать мелкие случайные детали.

В наших компьютерных экспериментах поведение агента-брокера, подобное поведению животных с инерционным переключением между двумя тактиками, наблюдалось, когда система управления агента оптимизировалась с помощью чистой эволюции при достаточно большой численности популяции. То есть фактически происходила оптимизация методом случайного поиска в достаточно большой области возможных решений. Рис. 2.34 показывает фрагмент стратегии поведения агента, найденной на ранней стадии эволюции в большой популяции, п = 100. Эта стратегия агеніа подобна описанному выше поведению животных с инерционным переключением между двумя тактиками. Стратегия переключения между и = 0 и и = 1 представляет собой реакцию только на общие изменения в окружающей среде (агент игнорирует мелкие флуктуации в изменении курса акций).

Метод построения классифицирующей системы

Несмотря на свою простоту, поисковое поведение заслуживает анализа по следующим причинам: поисковое поведение низших организмов является прообразом всех других форм поведения, в том числе и интеллектуального поведения высших животных.

В работе [97] исследовались механизмы ориентации самцов тутового шелкопряда в струе феромона самки. Самец воспринимает запах с помощью рецепторов, расположенных на симметричных антеннах. И, казалось бы, что самцу нужно двигаться прямо по градиенту феромона. Но как показало компьютерное моделирование, такая стратегия не соответствует реальному поведению бабочек. Ориентация самцов включает в себя не только повороты в сторону наибольшего раздражения, но и спонтанные, независимые от раздражения зигзаги при движении в струе запаха, а также петли, описываемые самцами, вышедшими за пределы струи. Можно сказать, чго поиск источника запаха включает в себя две чередующиеся «инерционные» тактики: а) устойчивое движение в выбранном направлении, 2) устойчивое повторение поворотов, приводящее к выбору нового направления движения.

Интуитивно понятно, что чередование этих тактик действительно может быть выгодно. Движение насекомых против ветра или по градиенту в ответ на запах феромона или пищи, в принципе, позволяет найти источник запаха. Однако запах в турбулентном потоке воздуха распределен не равномерно, а отдельными «облаками». Насекомое может перестать воспринимать запах, но все же будет некоторое время продолжать движение против ветра, как бы предполагая, что вслед за первым облаком появится и второе. Если новое-облако не встречается, то можно предположить, что насекомое отклонилось от правильного направления, и оно меняет тактику: движется зигзагами поперек ветра. Это помогает вновь найти струю запаха, если насекомое действительно потеряло направление. Разумеется, насекомому не известно заранее, в каком случае оно просто вышло из облака, но движется в правильном направлении, а в каком случае направление потеряно. Однако чередование указанных тактик позволяет в большинстве случаев достигать цели.

Модель чередования указанных двух тактик поиска (устойчивого движения в избранном направлении и выбора/поиска нового направления), была предложена и исследована в работе [97]. Эта модель предлагает систему управления, в которой переключение между тенденциями движения анимата прямо и поворотами направо и налево обеспечивается с помощью нелинейного стохастического процесса (а именно, с помощью логистического отображения). Эта модель качественно соответствует поведению с чередованием указанных двух тактик, однако, используемое в ней логистическое отображение не позволяет в явном виде представить механизм переключения между двумя поисковыми тактиками. В связи с этим в настоящей работе предлагается модель поискового поведения, которая явно включает в себя такой механизм переключения: в каждый момент времени анимат выбирает одно из двух решений: щ - двигаться в выбранном направлении, либо а2 - изменить направление движения случайным образом. Переход от одного типа решения к другому моделируется с помощью определенного автомата (аналогичного автомату с линейной тактикой МЛ. Цетлина [22]). Роль автомата в нашей модели - обеспечение инерционности переключения между указанными типами решений, характерной для поискового поведения животных и, по-видимому, существенной для адаптивного поиска. Для определенности мы считаем, что анимат ищет максимум функции двух переменных, например, максимум распределения пищи.

Модели адаптивного поведения на базе эволюционных и нейросетевых методов Мосалов Олег Петрович

Искусственные нейронные сети. Метод обратного распространения ошибки

Сравнение процессов обучения для метода SARSA и V-критика

Специфика работы блока Модель в схеме V-критика

Метод построения классифицирующей системы

Похожие диссертации на Модели адаптивного поведения на базе эволюционных и нейросетевых методов