Стационарные стратегии в многошаговых играх с задержкой информации Оглоблин, В.Л.

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Оглоблин, В.Л.. Стационарные стратегии в многошаговых играх с задержкой информации : Дис. ... канд. физико-математические науки : 01.01.09.- Москва 2006

Содержание к диссертации

Введение

Глава I. Бесконечношаговая игра с задержкой информации 8 с.

1. Описание задачи "корабль против бомбардировщика" 8 с.

2. Формулировка критерия оптимальности 12с.

3. Применение принципа оптимальности Беллмана к задаче "корабль против бомбардировщика" 20с.

Глава II. Исследование основных функциональных уравнений 23с.

I. Предварительные сведения 23с.

2. Общая формулировка задачи 26с.

3. Сильная квазивыпуклость функций и существование непрерывного предела 29с.

4. Существование стационарной по значению оптимальной стратегии поведения 33с.

5. Существование стационарной стратегии поведения для случая и симметричной задачи 41с.

6. Следствия из теоремы о стационарности 47с.

Глава III. Стационарность оптимальных смешанных стратегий поведения 54с.

1. Проверка условий основных теорем для задачи корабль против бомбардировщика 54с.

2. Решение задачи "корабль против бомбардировщика" ... 59с.

3. Обобщение задачи "корабль против бомбардировщика". 52с.

Глава ІV. Приложение к одной игре с бесконечным числом альтернатив 66с.

1. Описание многошаговой игры 66с.

2. Обоснование и вывод основных функциональных уравнений 69с.

3. Стационарные стратегии поведения 71с.

Литература 75с.

Применение принципа оптимальности Беллмана к задаче "корабль против бомбардировщика"
Существование стационарной по значению оптимальной стратегии поведения
Решение задачи "корабль против бомбардировщика"
Обоснование и вывод основных функциональных уравнений

Введение к работе

Многошаговые игры с задержкой информации у одного или обоих игроков давно привлекают к себе большое внимание. Теория многошаговых игр занимается изучением управления движущимися объектами в условиях конфликта. Многие практически важные задачи, возникающие в технике, экономике и военном деле, формулируются как задачи конфликтного управления динамическими системами. Поэтому на протяжении последних трех десятилетий наблюдается большой интерес к созданию математических моделей, теории и методов решения многошаговых игр. Однако большинство задач, имеющих практическое значение лишь в самых простых случаях доступно решению, даже с использованием возможностей, доставляемых ЭВМ. Поэтому большой интерес вызывает возможность применения аналитических методов для решения даже модельных примеров, как способ понимания существенных взаимосвязей в задачах.

К настоящему времени хорошо исследованы многошаговые игры с полной информацией. Вместе с тем, многие даже самые простые по постановке, многошаговые игры с неполной информацией, с трудом поддаются анализу. Если же учесть, что в целом ряде практических задач полнота информации о текущем значении фазовых координат явление исключительное, то становится ясно, что исследование математических моделей многошаговых игр с неполной информацией, особенно поиски оптимальных в каком-либо смысле решений таких игр, представляет собой действительно актуальную задачу. Систематическое исследование бесконечношаговых игр с неполной информацией начато в середине 60-х годов. Здесь следует отметить работы Л.А.Петросяна Г9-12J , Н.М.Слобожанина [l7-2l] , Т.В.Слободинской [14-16] , И.Н.Врублевской Гз] , а также иностранных авторов Айзекса [I] , Дубинса [4] , Скарфа [133 , Шепли ГІЗ] .

Большинство указанных выше работ посвящено исследованию вопроса существования решения в том или ином виде. Конечно же, очень важно найти способы нахождения оптимальных решений. Получены общие способы решения игр такого класса (см. Г17-21] ), в виде функциональных уравнений, аналогичных уравнениям Беллмана. Однако даже простые функциональные уравнения могут быть решены только в очень редких случаях, даже с использованием больших ЭВМ. Основной целью работы является анализ оптимальных в некотором смысле решений функциональных уравнений Беллмана, применяемых для решения многошаговых игр с неполной информацией на предмет выявления стационарных решений. Существование стационарных оптимальных решений приводит к возможности решения задач в более узком классе допустимых управлении и значительно снижает затраты на их решение, позволяя в конечном счете построить все множество оптимальных управлений.

Первоначально ставится цель - выявить возможность существования оптимальных решений, стационарных по значению для исследуемого класса задач, а затем для специального случая доказывается существование оптимальных марковских решений, что еще более сужает класс допустимых управлений, позволяя находить значение игры и оптимальные стратегии аналитически.

В диссертации теоремы, леммы и формулы нумеруются двумя цифрами. Первая показывает номер главы, а вторая - порядковый номер обозначаемой теоремы, леммы или формулы.

Диссертация состоит из настоящего введения, четырех глав, которые разбиты на пятнадцать параграфов.

Первая глава посвящена бесконечно шаговой игре с задержкой информации, предложенной Айзексом ( П] ) и названной им "корабль против бомбардировщика", частные случаи которой были исследованы другими авторами (см.Г 6] , [13] ).

В §§1-2 описана сама конфликтная ситуация и приведены различные способы ее формализации.

В §3 выписаны функциональные уравнения Беллмана, с помощью которых задачи, поставленные в предыдущих параграфах могут быть решены.

Вторая глава посвящена исследованию свойств решений основных функциональных уравнений.

В §§1-2 описан вид исследуемых функциональных уравнений и приведены предварительные сведения.

В §§3-4 доказана теорема о существовании стационарных по значению оптимальных стратегий поведения, а также ряд вспомогательных результатов.

В §§ 4-6 доказана теорема о существовании стационарной (марковской) оптимальной стратегии поведения и получен ряд следствий.

В третьей главе решается задача, поставленная в первой главе, на основе свойств решений, выявленных во второй главе.

В §§ 1-2 проверяются условия теоремы о существовании стационарных оптимальных стратегий поведения (для частного случая они получены в L 6 ] , С 13 ] ).

В § 3 приводятся различные способы обобщения этой задачи, для которых применима теорема о существовании стационарной по значению стратегии поведения.

Четвертая глава посвящена одной игре с бесконечным числом альтернатив.

В § I приведено описание задачи типа простое преследование на плоскости с возможностью выстрела у преследователя и континуальным числом альтернатив у убегающего.

В § 2 выводятся функциональные уравнения для решения игры и преобразуется к виду уравнений, исследованных во второй главе.

В § 3 приведен конкретный пример игры и получены все оптимальные стратегии поведения.

Основные результаты диссертации заключаются в следующем:

1) Для многошаговых игр и задач дискретного управления, решаемые с помощью функциональных уравнений Беллмана, доказано существование стационарных по значению стратегий поведения, позволяющее упростить решение при поиске оптимальных стратегий на ЭВМ.

2) В частном случае показано существование марковской стратегии поведения и выявлены причины, приводящие к существованию стационарной стратегии поведения.

3) Указан способ получения всего множества оптимальных стратегий поведения на основе существования оптимальной марковской стратегии поведения.

4) Предложен метод использования теоремы о существовании стационарной стратегии поведения, не смотря на некоторые неконструктивные условия.

Основные результаты диссертации опубликованы в работах [5] , Г8] , [II] .

Применение принципа оптимальности Беллмана к задаче "корабль против бомбардировщика"

Допустим, что корабль представляет собой точку на плоскости, над которой на определенной высоте летает бомбардировщик, у которого имеется всего одна бомба. Пусть возможности прицеливания позволяют поразить бомбой любую точку на плоскости, какую пожелает летчик. Нивучесть корабля не будем принимать во внимание, т.е. можно считать, что попадание бомбы в ту же точку,где находится корабль, приводит к его уничтожению. Единственное затруднение бомбардировщика заключается в том, что бомба достигает плоскости, в которой находится корабль через две единицы времени после ее сброса. На корабле момент сброса бомбы неизвестен до самого ее разрыва. Предположим, что преследуемая сторона имеет возможность переместиться на единицу расстояния либо в юго-восточном, либо в юго-западном направлении (оставаться на месте нельзя). В нулевой момент корабль находится в начале координат .

Пусть ьс - вектор (-1,0 , а лт - вектор (+1, - L) . Б момент времени -ЬІ преследуемый должен находиться либо в точке и- , либо в точке v . В момент времени "t 2. - либо в точке 2а, , либо в точке 2 -w , либо в точке u + гг И т.д. ЕСЛИ В момент -Ь убегающий находился в точке ос , то в момент "tfc-vi- он будет находиться в одной из точек ос + ис или х+ гг » а в і + 2. в одной из трех точек

Если бомбардировщик сбросит бомбу в момент t , то она достигнет плоскости в момент "bfc+a. , и бомбардировщик должен целиться в одну из точек и±, Ч2 , U3 Будем считать, что и корабль и бомбардировщик знают путь, пройденный кораблем от ЬЬ до-Ц , т.е. знают все положения, которые занимал корабль в моменты (обладают полной памятью).

Следовательно, у бомбардировщика три точки, подозрительные на пребывание корабля там в момент 4 2 , и корабль действительно в одной из них окажется. Будем считать, что корабль при выборе своего направления движения пользуется вероятностным механизмом: определяет вероятностную меру на множестве всех возможных траекторий, и выбор своей траектории делает вначале, в соответствии с определенной мерой, а потом следует по выбранной траектории .

Поскольку память полная в этой игре, то достаточно рассматривать стратегии поведения, что мы в дальнейшем и сделаем. Довольно неожиданным, но тем не менее верным,является тот факт, что бомбардировщик может поразить корабль с вероятностью,больше одной трети. Если бомбардировщик обязан сбросить бомбу в первые два момента игры, то корабль смог бы добиться вероятности своего выживания 2/3. Если же таких ограничений нет, то вероятность поражения корабля больше 1/3.

Конечно, такое описание задачи не преследует цели скрыть, что фактически корабль может маневрировать лишь в одномерном пространстве, поскольку за каждую единицу времени он обязан перемещаться на юг, но помогает различать разные пути, пройденные кораблем и делает задачу более наглядной.

Опишем формально эту задачу, предполагая, что бомба падает &- единиц времени. Рассматривается процесс наблюдения игроком Р (самолетом, наблюдателем) местоположения игрока Е (убегающего, корабля), двигающегося по прямой в течение времени I . Движение игрока Б описывается следующим образом. Зададим на прямой систему координат Оос так, что в начальный момент времени -Ь=о убегающий находится в точке осО о . В каждый момент t = о, і, 2., ... он может либо увеличить, либо уменьшить на единицу свою координату зсО; в этот момент, т.е. для любых натуральных t и любого целого ос с±} верно равенство:

Состояние информации определяется следующим образом.Пусть к- - Т . Наблюдатель Р в каждый момент времени Ь знает і , С ) 9 аС±), 0:( ..., а: (Ч-u-i), oc(t-fe). Игрок tr в каждый момент времени -Ь знает время -Ь , прошедшее с начала наблюдения, и отрезок реализовавшейся траектории к моменту t , т.е. ct(o), осСіУ, ,.,, ъс С±- &) п ос Ct -й+4Д...,аса Кроме того, ему известно, что к наблюдателю информация о его местоположении поступает с запаздыванием на t единиц времени.

Для определения стратегии убегающего движение игрока Е по прямой нам будет удобно изобразить на плоскости в виде графа G (рис. I). Введем ось времени, направленную вниз, и рассмотрим граф Q . Ребра ориентированного графа Q - суть мировые линии возможных направлений движения убегающего Е . За еди ницу времени убегающий смещается на единицу вдоль оси ct вправо или влево, согласно (I.I), что соответствует реальному движению по оси ос . Путем L , ведущим из Яс в Q - . будем называть последовательность ( а I? 1 о , .. ., Q m_i "), где верхние индексы удовлетворяют условию:

Существование стационарной по значению оптимальной стратегии поведения

Поскольку все величины в правых частях (1.3) для фиксированного пучка постоянны, то любой вектор тх- такой, что, можно отождествить с пучком, т.е. выбор вектора »- и числа с выделяет пучок во множестве всех стратегий поведения, заданных на о с . Поэтому будем считать, что нам задана функция Ч ;СоО= п-ы-ки"Wcsj, где минимум берется по всем стратегиям поведения из пучка, определяемого вектором зс и числом С . Это функция Беллмана. Для определе-нияЧ +1Сэс) (где ос= С СІ, ... , OIVOJSCJ о; » эс; = 1 ), поступим следующим образом: по пучку ее и числу 1 + 1 выделим все пучки , ч такие, что (1.4) Все множество пучков у" і Ч » определяемых в (1.4), число - , а также 5С Q о) - полностью определяет пучок ос (среди у и Lj необходимо учитывать порядок). Действительно, возьмем какую-либо стратегию поведения s , принадлежащую пучку а.. . В силу этой стратегии поведения мы можем сосчитать условные вероятности за V- шагов из вершины ji и обозначить их за ч , аналогично из вершины ± за ч . Полученные вектора и и 7 будут удовлетворять (1.4), поскольку 2» ос.,-», = = зсс[ ) (проверяется непосредственно). И, наоборот, взяв любые и , удовлетворяющие (1.4), любые стратегии поведения из пучков, ими определяемых и поставив стратегию поведения, определяемую по Ц , как стратегию из вершины Q , а по - 22 --из вершины at , получим стратегию поведения из пучка а. . Остается выписать функциональные уравнения: где FC0 = QC ji) і Усе - множество у , удовлетворяющих первому из неравенств (1.4), 1d _ - второму. Правая часть (1.5) нам полностью известна, поскольку по (1.4) мы можем найти "У ( 4і-с ее) мы считаем известной). Та ким образом, зная Ч на симплексе дп= 1 ос Ice ,- о zL ос.--±т , I О j= 4. (J J можно найти ч -цСО для любого сс г А4- . Остается определить начальное Ч . , и все последующие функции Беллмана будут найдены с помощью (1.5). Вполне естественно под ЧЧ понимать значение ф ункции G?Cq )на пучке QL длины -JL , где V - запаздывание (в первой подыгре запаздывание совпадает с длиной игры) Можно принцип Беллмана применить иначе, что и было сделано в работах Г ], Г 6 3 , Сі 53, но нам будет удобно, чтобы функциональные уравнения записывались в виде (1.5), поскольку к такие уравнения возникают при исследовании интересных задач. Некоторые из этих задач будут рассмотрены далее. Уравнения вида (1.5) удобны также для исследования свойств решений, хотя для вычислений они слишком гормоздки. Пусть на некотором выпуклом множестве Tcz . задана функция ru : Т - Р Определение. Функция К: Т- .- называется строго квазивыпуклой, если для всяких t Tf H любого ъ (o,iJ) выполнено неравенство и сильно квазивыпуклой, если это неравенство выполняется в предположении Таким образом, у строго (сильно) квазивыпуклой функции все множества Лебега: L(_ ) { 1 КСО с J- выпуклы, причем у строго квазивыпуклой непрерывной функции точка минимума по-Ь Т единственна, а множество L Ь С с) = і Ь ) lu С-ь ) с при с rvu vfuCt) _ гомеоморфно сфере в &Л , если LCO не со-держит точек с границы Т . А также множество L ЬСсз не содержит в себе отрезков. Для сильно квазивыпуклой непрерывной функции множество Lcco) , где с0 = mX.-v к С-Ь) может содержать больше, чем одну точку, множество LbCc) при С7С0 также гомеоморфно сфере в R- , но оно может содержать в себе отрезки и вообще любые подмножества линейных пространств размерности не более, чем Y —І- . Нетрудно убедиться, что перечисленные выше свойства полностью характеризуют непрерывные строго (сильно) квазивыпуклые функции. Все строго выпуклые функции являются строго квазивыщшгыми (а значит, и сильно квазивыпуклыми), а выпуклые являются сильно квазивыпуклыми. Нам в дальнейшем потребуется утверждение. Лемма 2.1. Пусть фиксированы т± , пгй / ъ. - натуральные числа, i. , g_ - компактные множества, )= -+гп Предполо}ким, что на множестве = х с=. R. rvn- + m-2. за_ даны непрерывные функции [ / ) - L (здесь и в доказательстве этой леммы н =сас,ир : г : и oc: i; ыбт 2. ) Тогда формула JC - n nruoc. {ф. С , y)j (2Л) определяет непрерывную функцию на Sb . При этом, если для неко торых о , 5 о выполнено для любых.

Решение задачи "корабль против бомбардировщика"

Таким образом, получается, что дано одно разбиение на классы У- , а 4 . различаются лишь тем, что одному и тому же 3C F ОНИ могут ставить в соответствие разные классы. 2) пересечение границы ) и множества М -/ асЛ Ч3 СэО = _-: noX v ч с о \ является пустым и для всяких zt зс е_ % пересечение X и М _ не пусто,а , следовательно, не пусто и пересечение X. и х: Существование и выпуклость множества М гарантируется леммами 3 и компактностью множества % Будем говорить, что і, удовлетворяют условиям П, если f удовлетворяют свойствам П I) и П 2).

Определение. Стратегией поведения будем называть правило, которое для любого ос = Ь указывает некоторый набор і и Л у. где у , є У , а оптимальной стратегией поведения для С - оо _ такую стратегию поведения, что она для всякого некоторый набор і И : "V _, причем. Теорема 2.1. Если F и f; удовлетворяют условиям П и I, cU-n CX,,.) о, то при t- э существует оптимальная стратегия поведения, стационарная по значению, т.е. такая, что для каждого ос в нее входящего, FGxO яГ и р (чрf t где \"ео Доказательство. Если М состоит из одной точки at0 , то Ч ,- - я- , поскольку Ф сильно квазивыпукла. Причем в силу (2.5) F сО , так что утверждение теоремы тривиально. Поэтому будем считать, что М состоит более, чем из одной точки. А также будем считать, что i о (если -тГ-= о , то любая оптимальная стратегия будет стационарной по значению). Сначала докажем следующие утверждения.

Лемма 2.4. Если F- - строго квазивыпукла и тГ -о , то для всех г минимум vjpt- LDtJ) по Q: bJ d достигается в одной точке. Доказательство. Допустим, что минимум M?c.Ctx) до зсе достигается в одной точке хГ и докажем, что минимум + достигается в одной точке, т.е. сделаем индукционный переход. Допустим противное: ч\-+і СА ) () гл лл и с+1 с О И Хі і ССг . ОЧЄВИДНО, ЧТО В СИЛУ Неравенства « ч- Сас): , с о /) получаем: М С + ІСЯЦ) iCac ) (поскольку ЧіС- i tc oL ctx x C j M s Поскольку Р - строго квазивыпукла, то где ос - С эс-х -г СС2. J / 2- , с другой стороны из сильной квази-выпуклости Чс-f-i и минимальности 4 - + в точках х± и ocz , получаем i+yCa i+L CSbmo Рс: , NV С І ) " М С -ПЫ-цуЩт.е. минимакс в (2.5) достигается при таком набо-ре и ц (_ )J у G у , что максимум достигается только на КГ;(О, но КГ,/ - сильно квазивыпуклая функция, и, если можно указать точку а- , где Кг (y tSX - у (тх) меньше, чем Чс-/, S.x то достаточно малое перемещение от точки эс к точке Зґ приведет к уменьшению кГг- » при этом, если перемещение выбрать таким малым, что F (С±-Х)э +- t : ) fi + i ( 2 J » то получим противоречие с минимальностью 4Y-+ i_ t=ac по всем ссє Действительно, ь ки. 4 l4-(cc),- Л,:+ =со= АГіГмі с ,,, Остается указать Х . Воспользуемся свойством П.І): по с существует & % такое, что ае vC, І ? j . Проверим, что для найденного схҐ выполняется требуемое неравенство: Доказательство индукционного перехода закончено. Остается проверить базу индукции. Поскольку Ч С =0 - Рсэс ) f и минимум F (..} Достигается в одной точке (т.к. \- - строго квазивыпукла), то у Ф минимум достигается в единственной точке. Таким образом, лемма доказана. Следствие 2.1. Если F строго квазивыпукла и для любого {.-1,2.. ,.., m - v 4 . _=0 \Г , TO rvvLn. l4-it«x) HvuU44.-C at). - 36 Доказательство. Пусть rvtlvuLpc+iCao= гпллх сі О , тогда 0(_Є% сХ fc- Яг этот минимум достигается для обеих функций в одной и той же точке эс и, значит, у L С5Г ") = аГ , тогда для всех -& 1, Чї ) -- х будет оптимальной стратегией, что противоречит допущению Лемма 2.5. Если множества М, Мг » найденные по уравнениям (2.5) для двух различных функций Р±: Я - . и Рг - и одинаковых , совпадают, то оптимальная стратегия для уравнений (2.5) с функцией Fi , будет оптимальной для задачи (2.5) с функцией F г . Лемма 2.5 устанавливает "стратегическую эквивалентность" задач вида (2.5) для различных функций F Доказательство очевидно. Лемма 2.6. Если выполнены условия I и П для задачи (2.5) и для всякого Ц такого, что Мх п/ 1 -f выполнено неравенство rtxL ifa ел) i ПтХп. Чг С -О » ТО тх нцьсэО тллЧ о ДЛЯ любого -с - 1, 2, ь, .. .

Обоснование и вывод основных функциональных уравнений

Следовательно, с каждым ос можно связать зс (точнее целый класс Х ). Получаем многозначное отображение zc o л: Отображение н непрерывно, поскольку TJV непрерывны, а X -сечения выпуклого компакта & . Пршленяя теорему Какутани о не-подвижной точке для многозначных отображений, получаем, что существует є & такой, что 5 "У сразу при всех j є Л1 Стратегия поведения ч:(-а)=.х является стационарной. Если для получившейся оптимальной, среди стационарных, стратегии поведения будут выполнены оставшиеся условия теоремы 2.2, то она будет оптимальной и среди всех стратегий поведения. Если же оставшиеся условия не будут выполнены, то, как нетрудно заметить из доказательства теоремы 2.2, любая оптимальная стратегия поведения не будет стационарной в указанном в условии теоремы 2.2 смысле. Действительно, доказательство фактически такое: в треугольнике Т4 »[ с 6,0 I& є=1 L , сє Ia, l&(: lcijf оптимальные i, с г могут лежать на кривой се »; , где rwirvGCoc .cOsG ср0,е, cc ;J), в треугольникеТг = {с,с) Ібє-л:Й. , на кривой СсО , где rvuLvu Q CpD,(c) - Q Сро, сО, о) , или на прямой І % \ 1е) . С помощью неравенства для Ссс было показано, что существует "полоса отчуж дения" между пересечением С- I pel, pell О Ti_ -= и той же частью кривой а&) , которая лежит BT1S т.е. существует о , такое, что - окрестности кривой и множества 1С. не пересекаются внутри Т± . (Аналогично для Т ). Поскольку для до статочно больших і оптимальные пары обязательно попадут в лю бую, наперед заданную окрестность С-і рої, іро \ \ г , то это приближение может происходить лишь по прямой 1 - 1 - с (вы полнение альтерантивы А2). Откуда в пределе получаем 1-81- Iе I Если допустить, что выполнены неравенства обратного смысла, то нам только пара (&с , c i ) попадает в квадрат [-ipol , ipoll , то значение функции 6 /ре") c4 v) перестанет зависеть от , поскольку 0с - строго квазивыпуклая функция. Соответствующая кривая с(-б) в Ті (и со в Тг. ) попадает в пересечение П-lpoi, Ip l3 Г\Т± С с- і р«И ,1 fc ІЗ2 пТаЗ и, таким образом, при {- » для ,р« будет оптимальной либо пара С вес), с ) , где с" таково, что l"l-ipc 1 и о с ь ) е(чр И,Л) , либо пара (сс),с), где 7 таково, что I с I і р0; и iC)eCot\Po\y Любая из этих пар, вместе с р0 не образует стационарной стратегии поведения. Допущение, что оптимальная стационарная, в нашей терминологии, стратегия поведения не подержит ро ,тоже приводит к противоречию, поскольку для любой оптимальной стратегии поведения s U-D F С ) =- хГ , где супремум береТСЯ ПО Множеству { ОС, Ул-Сэс) , у ,, . }, C Cst)), \ЛХ СЧгсагУ),..! Таким образом, получаем, что теорема 2.2 и следствие 2.4 дают необходимые и достаточные, в некотором смысле, условия. Следовательно, можно снять неконструктивность в условиях теоремы 2.2 или следствия 2.4. Следствие 2.5 может быть использовано аналогично: по заданной функции F 2. ищем оптимальную среди стационарных стратегию поведения, а потом надо построить, по полученному значению лГ , . функцию F± , удовлетворяющую условиям I, П, Ш. Необходимо отметить следующие простые следствия из доказанных выше теорем. Если і, обладают свойством линейности, т.е. в условии П I) функция J4; сXV Л сразу для всех j T и ос±і?сгЄ& перестановочны (или подпадают под условия теоремы Маркова-Какутани (см. Г22J ) о неподвижной точке для семейства непрерывных отображений), то существует стационарная (марковская) стратегия поведения. Действительно, поскольку существует общая неподвижная точка сС = М (по теореме Маркова-Какутани), то стратегия поведения на каждом шаге выбирать точку дс , т.е. u sr является стационарной, а поскольку оЕє- И , то и оптимальной. Если 1 71 2- и задача (2.5) симметрична, то требование линейности f уже является достаточным для существования стани онарной стратегии поведения. Поскольку классы "У J являют-ся сечениями множества $ , то на основании теоремы 2.1 можно сделать заключение о существовании непрерывных отображений и таких, что для всякого сеє Ц выполнено равенство хт-г F Сь[.-СаО\ Следовательно, существуют неподвижные точки хх,- , такие, что У. СэсЛ- acj и PfXjOf" , т.е. зс лежит на границе выпуклого множества И . На основании теоремы Фробениуса о матрицах, состоящих из неотрицательных элементов(поскольку f - -линейные операторы, то они представиш как матрицы, а неотрицательность всех элементов в одной из матриц, соответствующих - 53 -f ( , следует из инвариантности относительно И ), можно J сделать вывод, что либо существует инваринтное подмножество меньшей размерности, содержащееся в М , либо что и, операторы сжатия. Далее, используя симметрию, можно показать, что зс2є 3 Г_ , и это означает существование стационарной стратегии поведения.

Стационарные стратегии в многошаговых играх с задержкой информации Оглоблин, В.Л.

Применение принципа оптимальности Беллмана к задаче "корабль против бомбардировщика"

Существование стационарной по значению оптимальной стратегии поведения

Решение задачи "корабль против бомбардировщика"

Обоснование и вывод основных функциональных уравнений

Похожие диссертации на Стационарные стратегии в многошаговых играх с задержкой информации