Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Неантагонистические дифференциальные игры со случайными моментами выхода игроков из игры Костюнин Сергей Юрьевич

Неантагонистические дифференциальные игры со случайными моментами выхода игроков из игры
<
Неантагонистические дифференциальные игры со случайными моментами выхода игроков из игры Неантагонистические дифференциальные игры со случайными моментами выхода игроков из игры Неантагонистические дифференциальные игры со случайными моментами выхода игроков из игры Неантагонистические дифференциальные игры со случайными моментами выхода игроков из игры Неантагонистические дифференциальные игры со случайными моментами выхода игроков из игры Неантагонистические дифференциальные игры со случайными моментами выхода игроков из игры Неантагонистические дифференциальные игры со случайными моментами выхода игроков из игры Неантагонистические дифференциальные игры со случайными моментами выхода игроков из игры Неантагонистические дифференциальные игры со случайными моментами выхода игроков из игры Неантагонистические дифференциальные игры со случайными моментами выхода игроков из игры Неантагонистические дифференциальные игры со случайными моментами выхода игроков из игры Неантагонистические дифференциальные игры со случайными моментами выхода игроков из игры
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Костюнин Сергей Юрьевич. Неантагонистические дифференциальные игры со случайными моментами выхода игроков из игры: диссертация ... кандидата физико-математических наук: 01.01.09 / Костюнин Сергей Юрьевич;[Место защиты: Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Санкт-Петербургский государственный университет"].- Санкт-Петербург, 2014.- 101 с.

Содержание к диссертации

Введение

Глава 1. Дифференциальные игры со случайной продолжительностью. построение функционала выигрыша 15

1.1. Постановка задачи 15

1.2. Преобразование функционала выигрыша к удобному виду 17

1.2.1. Случай неотрицательной функции плотности выигрыша 17

1.2.2. Общий случай 20

1.3. Пример невыполнения условий представления функционала выиг

рыша в упрощённой форме 23

Глава 2. Дифференциальная игра управления вредными выбросами 29

2.1. Модель игры 29

2.2. Функция выигрыша 32

2.3. Равновесие по Нэшу 34

2.4. Кооперативная игра 42

Глава 3. Дифференциальная игра с различными моментами выхода из игры её участников 49

3.1. Постановка задачи 49

3.2. Моменты окончания, распределённые на конечном промежутке времени 52

3.3. Математическое ожидание выигрыша игроков 53

3.4. Уравнение Гамильтона-Якоби-Беллмана59

3.5. Переход к задаче оптимального управления 69

Глава 4. Дифференциальная игра совместной разработки невозобновляемого ресурса 74

4.1. Модель игры 74

4.2. Решение задачи оптимального управления77

4.3. Построение равновесия по Нэшу 81

4.4. Экспоненциальное распределение моментов окончания разработки 86

Заключение 94

Список литературы 95

Введение к работе

з

Актуальность темы. Теория дифференциальных игр в настоящее время является одним из наиболее бурно развивающихся разделов математической теории игр. Главным образом это связано с тем, что математический аппарат дифференциальных игр позволяет реалистично моделировать конфликтно-управляемые процессы, непрерывно развивающиеся во времени.

Теория дифференциальных игр сформировалась как отдельный раздел математической теории игр в пятидесятых годах двадцатого века. Одними из первых интересные результаты в этой области получили Р. Айзеке, Л. Берковитц, В. Флеминг.

Долгое время исследования были посвящены в основном антагонистическим дифференциальным играм. Значительные успехи в данной области связаны с представителями отечественной научной школы Н. Н. Красовским, Л. А. Петросяном, Л. С. Понтрягиным.

Толчком для развития теории неантагонистических дифференциальных игр послужили задачи конфликтного управления со многими участниками из различных практических областей. В качестве принципа оптимальности в неантагонистических дифференциальных играх чаще всего рассматривается равновесие по Нэшу в программных или позиционных стратегиях. Основные результаты, посвященные исследованию вопроса существования и проблемы построения равновесия по Нэшу, получены в работах А. Ф. Клейменова, А. Ф. Кононенко, СВ. Чистякова.

Для многих математических моделей возникает проблема неопределенности времени существования исследуемого процесса. Такие проблемы особенно характерны для процессов, происходящих в экономике, менеджменте, экологии. Подобные задачи необходимо рассматривать на временном отрезке случайной длительности, т. е. полагать, что момент окончания процесса не задан заранее, а является реализацией некоторой случайной величины.

Впервые задача со случайной продолжительностью в игровой постановке была рассмотрена Л. А. Петросяном и Н. В. Мурзовым в работе «Теоретико-игровые задачи механики». В данной работе исследовалась дифференциальная игра преследования двух лиц, продолжительность которой задавалась некоторой случайной величиной с абсолютно непрерывной функцией распределения. Для заданной таким образом игры авторами было получено уравнение типа Айзекса-Беллмана.

Дифференциальные игры со случайной продолжительностью в общей постановке были введены в совместной работе Л. А. Петросяна и Е. В. Шевкопляс. В работах Е. В. Шевкопляс были продолжены исследования кооперативных дифференциальных игр со случайной продолжительностью, получены важные результаты, относящиеся к проблеме динамической устойчивости кооперативных принципов оптимальности.

В диссертационной работе вводится новый класс дифференциальных игр двух лиц со случайной продолжительностью, в которых продолжительность игры для каждого игрока задается независимыми случайными величинами. Полагается, что после выхода из игры первого по очереди игрока, оставшийся игрок продолжает получать доход, действуя в отсутствии конкуренции. Таким образом, при построении оптимальных (в том или ином смысле) стратегий в дифференциальной игре необходимо учитывать возможный доход игрока после выхода из игры его соперника.

Целью диссертационной работы является изучение дифференциальных игр со случайными моментами выхода из игры ее участников, при этом моменты выхода игроков из игры могут задаваться независимыми случайными величинами.

Методика исследования. Основными методами исследования являются методы теории дифференциальных игр, теории управления и теории вероятностей.

Теоретическая и практическая значимость. Работа носит теоретиче-

ский характер. Полученные результаты могут быть использованы для дальнейшей разработки теории дифференциальных игр со случайной продолжительностью. Также результаты могут быть применены при математическом моделировании конфликтно-управляемых процессов в экономике, менеджменте, экологии и других сферах человеческой деятельности. Рассмотрение таких процессов на интервале времени случайной длительности позволяет наиболее адекватно описывать их в динамике, учитывая, например, выход из строя оборудования (в задачах совместной разработки недр или совместного управления вредными выбросами).

Основные результаты, выносимые на защиту:

  1. Построена формализация дифференциальной игры двух лиц со случайной продолжительностью, в которой продолжительность игры для каждого игрока является случайной величиной, имеющей свою функцию распределения. При некоторых ограничениях проведены преобразования, приводящие функционал выигрыша игрока к стандартному интегральному функционалу.

  2. Для введенного класса дифференциальных игр двух лиц со случайной продолжительностью получена система уравнений Гамильтона-Якоби-Белл-мана и теорема, дающая достаточные условия существования состоятельного позиционного равновесия по Нэшу.

  3. В дифференциальной игре совместной разработки невозобновляемого ресурса, в которой моменты окончания разработки ресурса для игроков являются независимыми случайными величинами, найдено в явном аналитическом виде и исследовано состоятельное позиционное равновесие по Нэшу.

  4. Исследована дифференциальная игра управления вредными выбросами. В условиях случайной продолжительности получены необходимые уело-

вия существования равновесия по Нэшу. Найдено в явном виде и исследовано решение, удовлетворяющее необходимым условиям.

5. На основе игры управления вредными выбросами построена кооперативная дифференциальная игра, в которой найдены вектор Шепли, выбранный в качестве принципа оптимальности, и процедура распределения дележа, гарантирующая динамическую устойчивость вектора Шепли.

Научная новизна работы. Все основные результаты, представленные в диссертации, являются новыми.

Апробация работы. Основные результаты диссертационной работы были представлены на IV - VII Международных конференциях «Теория игр и менеджмент» (Санкт-Петербург, 2010 - 2013), на Всероссийской конференции «Устойчивость и процессы управления» (Санкт-Петербург, 2010), на международной научной конференции «Математика, экономика, менеджмент: 100 лет со дня рождения Л.В. Канторовича» (Санкт-Петербург 2012), на Международной конференции «Constructive Nonsmooth Analysis and Related Topics» (Санкт-Петербург, 2012), на XLI - XLIII международных научных конференциях аспирантов и студентов «Процессы управления и устойчивость» (Санкт-Петербург, 2010 - 2012), а также на семинарах кафедры математической теории игр и статистических решений и центра теории игр факультета Прикладной математики - процессов управления Санкт-Петербургского государственного университета.

Публикации. По материалам диссертации опубликованы работы [1-]. Из них статьи [1, ] опубликованы в журнале, входящем в список ведущих российских рецензируемых научных журналов ВАК РФ. Статьи , ] опубликованы в высокорейтинговых журналах, входящих в базу данных Scopus. Работы [-, , ] опубликованы в материалах конференций.

Работы [1-, -] написаны в соавторстве. В работах [1, , ] диссертантом была предложена постановка задачи в виде дифференциальной игры со случайными моментами выхода игроков из игры, получен упрощенный вид функцио-

налов выигрыша, выведена система уравнений Гамильтона-Якоби-Беллмана. В работах [, , ] диссертанту принадлежат формулировки и доказательства теорем, построение контрпримера, а соавтору - постановка задачи и выбор методов решения. В статье ] диссертантом получены основные результаты, а соавтором предложены для исследования различные функции полезности. В работах [, ] диссертантом предложена математическая модель управления вредными выбросами, получено решение кооперативной версии игры.

Структура и объем. Диссертация изложена на 101 странице, состоит из введения, четырех глав, заключения и списка литературы, включающего 64 наименования.

Преобразование функционала выигрыша к удобному виду

Актуальность темы. Теория дифференциальных игр в настоящее время является одним из наиболее бурно развивающихся разделов математической теории игр. Главным образом это связано с тем, что математический аппарат дифференциальных игр позволяет реалистично моделировать конфликтно-управляемые процессы, непрерывно развивающиеся во времени. Так динамика фазовой переменной, описывающей состояние процесса, задаётся системой дифференциальных уравнений на некотором временном промежутке заданной продолжительности.

Теория дифференциальных игр сформировалась как отдельный раздел математической теории игр в пятидесятых годах двадцатого века. Одними из первых интересные результаты в этой области получили Р. Айзеке [45], Л. Берковитц [35], В. Флеминг [43].

Долгое время исследования были посвящены в основном антагонистическим дифференциальным играм. Значительные успехи в данной области связаны с представителями отечественной научной школы Н. Н. Красов-ским [19,20], Л. А. Петросяном [25], Л. С. Понтрягиным [29].

Толчком для развития теории неантагонистических дифференциальных игр послужили задачи конфликтного управления со многими участниками из различных практических областей. В качестве принципа оптимальности в неантагонистических дифференциальных играх чаще всего рассматривается равновесие по Нэшу в программных или позиционных стратегиях. Основные результаты, посвященные исследованию вопроса существования и проблемы построения равновесия по Нэшу, получены в работах А. Ф. Клейменова [11, 12], А. Ф. Кононенко [14], С. В. Чистякова [31].

Особый интерес представляют также кооперативные дифференциальные игры [9,10,23,26]. В частности, одним из важнейших направлений исследований в данной области является проблема динамической устойчивости (состоя тельности во времени) кооперативного решения. Эта проблема впервые была сформулирована Л. А. Петросяном в 1977 году в работе [22]. Исследованиям проблемы динамической устойчивости посвящены также работы [23,26].

Отметим, что чаще всего дифференциальные игры рассматриваются на конечном временном промежутке (дифференциальные игры с предписанной продолжительностью). Наряду с ними, также рассматриваются и дифференциальные игры с дисконтированием на бесконечном временном промежутке.

Для многих математических моделей возникает проблема неопределённости времени существования исследуемого процесса. Такие проблемы особенно характерны для процессов, происходящих в экономике, менеджменте, экологии. Подобные задачи необходимо рассматривать на временном отрезке случайной длительности, т. е. полагать, что момент окончания процесса не задан заранее, а является реализацией некоторой случайной величины.

Впервые задача со случайной продолжительностью в игровой постановке была рассмотрена Л. А. Петросяном и Н. В. Мурзовым в работе «Теоретико-игровые задачи механики» [25]. В данной работе исследовалась дифференциальная игра преследования двух лиц, продолжительность которой задавалась некоторой случайной величиной с абсолютно непрерывной функцией распределения. Для заданной таким образом игры авторами было получено уравнение типа Айзекса-Беллмана.

Примерно в это же время в работе [64] была рассмотрена задача оптимального управления со случайным моментом окончания, где случайная продолжительность управляемого процесса связывалась со случайным моментом гибели индивидуума. В такой постановке автором решались задачи нахождения оптимального плана потребления ресурса и страхования жизни. Отметим, что задачи теории управления, связанные с оптимальным выбором наёмным работником плана страхования жизни и уровня потребления ресурса, при условии случайной продолжительности его жизни, получили своё дальнейшее развитие в работах [38,58].

Задача управления со случайным моментом остановки в общей форме была сформулирована в работе [36]. Долгое время проблема случайной продолжительности рассматривалась премущественно в работах по теории управления. Среди них отметим работы [44,54].

В качестве целевого функционала в данных работах принято выбирать математическое ожидание интегрального функционала дохода. Одной из интересных проблем в задачах со случайной продолжительностью является проблема построения целевого функционала в упрощённой форме. Отметим, что для её решения в перечисленных выше работах, авторами вводились специальные ограничения на функции полезности и функцию распределения момента окончания.

Дифференциальные игры со случайной продолжительностью в общей постановке были введены в работе Л. А. Петросяна и Е. В. Шевкопляс [27]. В работе рассматривались дифференциальные игры со многими участниками, при этом момент окончания игры не был определён заранее, а представлял собой реализацию некоторой случайной величины с известной функцией распределения. В работах Е. В. Шевкопляс [32,33] были продолжены исследования кооперативных дифференциальных игр со случайной продолжительностью, получены важные результаты, относящиеся к проблеме динамической устойчивости кооперативных принципов оптимальности.

В теории дифференциальных игр со случайной продолжительностью [27,32,33,52] в момент окончания игры все игроки выходили из игры и прекращали свои действия одновременно, тогда как существует множество практических приложений, в которых игроки вынуждены прекращать свои действия независимо друг от друга.

В диссертационной работе вводится новый класс дифференциальных игр двух лиц со случайной продолжительностью, в которых продолжительность игры для каждого игрока задаётся независимой случайной величиной. Полагается, что после выхода из игры первого по очереди игрока, оставшийся игрок продолжает получать доход, действуя в отсутствии конкуренции. Это приводит нас к необходимости учитывать возможный доход игроков после выхода их соперника при построении оптимальных (в том или ином смысле) стратегий в дифференциальной игре.

Также в диссертационной работе исследуется дифференциальная игра разработки невозобновляемого ресурса со случайными моментами выхода из игры её участников. Задачи оптимального потребления ограниченного ресурса, в англоязычной литературе получившие название cake-eating problems, широко распространены в теории оптимального управления благодаря своим многочисленным приложениям. Среди прочих отметим работы, связанные с нахождением оптимального плана добычи ограниченного природного ресурса в условиях неопределённности [41,42].

В детерминированной игровой постановке задача потребления ограниченного ресурса (англ. competitive cake-eating problem) была рассмотрена в работах [40,60]. В работе [52] была рассмотрена дифференциальная игра со случайным моментом окончания, в которой игроки проводили разработку ограниченного ресурса в условиях случайной продолжительности, но в момент окончания игры прекращали разработку одновременно.

В связи с вышеизложенным, целью диссертационной работы является изучение дифференциальных игр со случайными моментами выходами из игры её участников, при этом моменты выхода игроков могут задаваться независимыми случайными величинами.

Научная новизна работы. В работе впервые введён и исследован класс дифференциальных игр двух лиц со случайной продолжительностью, в которых продолжительность игры для каждого игрока задаётся некоторой случайной величиной. С помощью данного класса игр удаётся построить математические модели, в которых игроки, независимо могут выходить из конфликтно-управляемого процесса. Для оставшегося игрока игра переходит в задачу оптимального управления со случайной продолжительностью. Для данного класса игр получено и обосновано уравнение Гамильтона-Якоби-Беллмана, получены достаточные условия существования состоятельного позиционного равновесия по Нэшу.

Равновесие по Нэшу

При этом общий уровень загрязнения P{t) быстро возрастает, и игроки несут существенные расходы на устранение загрязнений. Такие действия игроков можно объяснить, если принять во внимание случайный момент окончания игры. Вероятность её окончания быстро возрастает с течением времени (рисунок 2.1), а, следовательно, игроки при выборе объемов выбросов на момент начала игры «меньше» учитывают вклад мгновенного выигрыша в более поздние моменты времени.

Можно говорить о том, что игроки дисконтируют мгновенный выигрыш в некоторый момент времени вероятностью окончания игры к этому моменту.

Таким образом, дифференциальная игра с упрощённым функционалом выигрыша (2.5) в некотором смысле аналогична дифференциальным играм, в которых дисконтирование в интегральных функционалах выигрыша производится с непостоянной ставкой {англ. non-constant discount rate [47,51]), например, с помощью гиперболических функций дисконтирования {англ. hyperbolic discount functions [57]). Далее рассмотрим еще один частный случай распределения Вейбулла. На этот раз положим параметр 5 = -2. В таком случае функция распределения (2.2) будет иметь вид:

Рисунок 2.3. Функции распределения момента окончания игры при 5 = -2. Можно отметить, что вероятнось окончания игры к определённому моменту времени в случае 5 = 2 возрастает гораздо медленнее, чем в случае 5 = 2. Для распределения (2.10) удаётся вычислить интеграл для определенияТаким образом, найденные равновесные стратегии имеют следующий вид: то игрок г начинает производство на своей территории, в противном случае игрок не начинает производство, так как убыток от устранения увеличивающегося общего уровня загрязнений diP(t) превышает возможный доход от производства Ri(ei(t)).

Предположим, что для игрока і Є N условие (2.12) выполняется. В этом случае его равновесные вредные выбросы изображены на рисунке 2.4.

Рассмотрим кооперативную дифференциальную игру управления вредными выбросами, построенную на основе рассмотренной выше игры в случае экспоненциального распределения момента окончания. Для каждой коалиции игроков S С N введём следующие обозначения:

Также будем полагать выполненным соотношение

Перейдём теперь к определению характеристической функции. Для большой коалиции N будем полагать значение характеристической функции равным максимальному суммарному доходу всех игроков

Для определения значения характеристической функции для промежуточных коалиций S С N, следуя работе [55], будем использовать следующий подход: полагаем, что игроки, объединившиеся в коалицию 5 максимизируют свой суммарный выигрыш, а игроки не входящие в коалицию S придерживаются своих равновесных стратегий (2.13).

В качестве принципа оптимальности в данной неантагонистической дифференциальной игре будем использовать равновесие по Нэшу в программных стратегиях ( [34], [24]).

Будем предполагать, что в рассматриваемой игре существует набор стратегий {e (t) = Q(t,Po),i Є 1,п}, образующий равновесие по Нэшу. Другими словами, полагаем, что для всех і и для всех Vi{t) Є [0; b{] выполнены следующие неравенства

Для нахождения необходимых условий оптимальности будем использовать принцип максимума Понтрягина [30]. Если набор стратегий {e (t) = Q(t,Po),i Є 1,п}, образует равновесие по Нэшу в программных стратегиях, то существует п сопряжённых функций Kiit) : [0; оо) ь- R, і Є N, таких что выполняются следующие соотношения:

В дальнейшем будем опускать аргументы функций для сокращения записи и наряду с обозначениями ei(t), \i(t),A(t) будем использовать Є{, \І,Л{.

Для нахождения максимума гамильтониана (2.6) воспользуемся условиями Куна-Таккера [1]. Рассмотрим функционал

Для оптимальности управления е необходимо выполнение следующих условий:

1. Стационарность: minЬІ(ЄІ) = Li(e ).

2. Дополняющая нежёсткость: Аі(—є ) = 0; А2(е — bi) = 0.

3. Неотрицательность: Xj 0, j = 1,2. Поскольку 1. А2() т 0- Из условий неотрицательности следует А2() 0. Следовательно, по условиям дополняющей нежёсткости (e (t) — ЬІ) = 0. Таким образом, e (t) = ЬІ и, как следует из условий дополняющей нежёстко-сти, А1 = 0. Тогда уравнение (2.8) примет вид А2() = Ai(t). Как будет показано далее, A{(t) 0, что противоречит предположению положительности А2(). Поэтому данное предположение неверно.

2. А2() = 0. В этом случае уравнение (2.8) примет вид

Предположим, что X1(t) j 0. По условию дополняющей нежёст-кости e (t) = 0. В этом случае из уравнения (2.8) получаем X1(t) = — ІЬ{Є Хі + Ai(t) 1. В случае X1(t) = 0 из уравнения (2.8) получаем e (t) = (Ь{Є Хі + Ai(t) 1 ext . Таким образом, справедливо следующее равенство:

Сопряжённые переменные A{(t) находим из уравнения (2.7). Получаем дифференциальное уравнение Ai(t) = d;fi , решение которого имеет вид: Ai(t) = di 0 e Xs ds + с. Задача рассматривается на бесконечном временном промежутке, поэтому условие на A{(t) выглядит следующим образом: lim Ai(t) = 0.

t— оо Рассмотрим далее возможные варианты распределения Вейбулла. Для начала положим параметр 5 = 2. В таком случае функция распределения (2.2) примет вид:

Отметим, что распределение такого вида носит название распределения Рэ-лея. График функций распределения Рэлея для различных парамтров А представлен на рисунке 2.1

A = d (erf( )-1). Получаем, что необходимому условию существования равновесия по Нэшу в программных стратегиях удовлетворяют только управления следующего вида: если это выражение положительно, а в противном случае e (t) = 0. Таким образом, при предположении о существовании равновесия по Нэшу в программных стратегиях выражение (2.9) задает равновесные выбросы для игрока і Є N.

Можно отметить, что, если в начальный момент времени/: = 0 выражение (2.9) положительно, а именно то равновесные вредные выбросы игрока і остаются положительными в любой момент времени t Є [0, оо).

Кроме того, с течением времени оптимальный объём вредных выбросов стремится к своему максимальному значению Ь{ (рисунок 2.2).

Стоит также отметить, что игроки, несущие меньшие расходы на устранение загрязнений, в состоянии равновесия имеют большие вредные выбросы нежели чем игроки, расходы которых больше. То есть, ЄСЛИ(Іі dj, то в этом случае e (t) eUt), Vt Є [0; оо). Это наглядно отражено на рисунке 2.2, где представлены равновесные выбросы игроков, имеющих различную стоимость устранения загрязнений. 20 lW

При этом общий уровень загрязнения P{t) быстро возрастает, и игроки несут существенные расходы на устранение загрязнений. Такие действия игроков можно объяснить, если принять во внимание случайный момент окончания игры. Вероятность её окончания быстро возрастает с течением времени (рисунок 2.1), а, следовательно, игроки при выборе объемов выбросов на момент начала игры «меньше» учитывают вклад мгновенного выигрыша в более поздние моменты времени.

Можно говорить о том, что игроки дисконтируют мгновенный выигрыш в некоторый момент времени вероятностью окончания игры к этому моменту.

Таким образом, дифференциальная игра с упрощённым функционалом выигрыша (2.5) в некотором смысле аналогична дифференциальным играм, в которых дисконтирование в интегральных функционалах выигрыша производится с непостоянной ставкой {англ. non-constant discount rate [47,51]), например, с помощью гиперболических функций дисконтирования {англ. hyperbolic discount functions [57]). Далее рассмотрим еще один частный случай распределения Вейбулла. На этот раз положим параметр 5 = -2. В таком случае функция распределения (2.2) будет иметь вид:

Уравнение Гамильтона-Якоби-Беллмана

Рассмотрим подыгру T(t,x) игры T(to,Xo), которая начинается в некоторый момент времени t Є [о,И- Динамика также описывается уравнением (3.1). Начальные условия имеют вид x(t) = х.

Так как игра к моменту времени t не прекратилась, то случайные моменты выхода игроков из игры имеют другие функции распределения, нежели в момент времени to. Будем обозначать новые функции распределения (и новые функции плотностей распределения) с верхним индексом/:, например F- (т).

Отметим, что, если для некоторого j Є {1,2} выполняется соотношение ujj о;, т. е. функция распределения Fj{t) доопределена и тождественно равна единице на отрезке [бо,-,бо ], то интергал в (3.11) достаточно рассматривать на интервале (t,ujj). Далее полагаем для всех j Є {1,2} справедливо Fj(t) l, Vte [to,u ).

Найдем выражения для функций распределения (т). Функция распределения момента выхода из игры игрока і, і = 1, 2, равна следующей условной вероятности F- (г) = Р{71 т\Т{ t}, то есть вероятности того, что игрок выйдет из игры к моменту времени г при условии, что игра не заканчивается к моменту времени t. Далее получаем

Рассмотрим теперь дифференциальную игру двух лиц Г (to, Жо)5 которая является модификацией игры Г (to, Жо). Динамика в данной игре по прежнему описывается уравнением (3.1), а начальные условия имеют вид ж (to) = XQ.

В отличие от игры Г (to, XQ) В игре Г (to, XQ) не учитывается специфика слу 62

чайного момента окончания. Выигрыш игрокаі, і = 1,2, в подыгре Г(,ж), которая начинается в некоторый момент времени t Є [O,6 J] с начальными условиями x{t) = ж, имеет вид Ki(t,x,uuu2)= / (г)[1- (г)]+Фг(г,Ж(г))/:;-(г)(1- (г))] г.

Игра Г( о,Жо) является дифференциальной игрой двух лиц с предписанной продолжительностью (UJ - to). Для определения состоятельного позиционного равновесия по Нэшу в этой игре воспользуемся следующей теоремой. Теорема 3.2. (Basar, Olsder [34]) Набор стратегий { f (t,x) Є U{,i = 1,2} является состоятельным позиционным равновесием по Нэшу в игре Г(о,Жо); если существуют непрерывно-дифференцируемые функции Vi(t,x) : [to}uj] х Rm \- R} і = 1,2, удовлетворяющие следующей системе дифференциальных уравнений в частных производных

Доказательство. Предположим существование функций Vi(t, х) удовлетворяющих условиям теоремы. В этом случае, как было показано выше, функции Vi(t,x), задаваемые равенством (3.22), удовлетворяют системе дифференциальных уравнений в частных производных (3.15)-(3.16) с аналогичными граничными условиями.

Решение задачи оптимального управления

Продолжительность разработки ресурса для каждой фирмы не задана заранее, а является случайной величиной, имеющей свою функцию распределения. Это может быть связано, например, с износом оборудования, которое каждая фирма использует при добыче ресурса.

Для г-ой фирмы обозначим через F{(t) функцию распределения момента окончания разработки ресурса. Полагаем, что моменты окончания разработки Т{ являются независимыми абсолютно непрерывными случайными величинами, распределёнными на отрезке [0, а;], а их функции распределения известны обоим игрокам. Соответствующие плотности распределения будем обозначать через fi(t).

После того, как один из игроков первым вынужден завершить разработку, оставшийся игрок продолжает добывать ресурс до своего момента окончания.

Для моделирования данного процесса применим подход, предложенный в главе 2. Для этого выполним следующие действия:

1. Предположим, что один из игроков первым прекратил разработку в момент времени t. Для оставшегося игрока дифференциальная игра пехо-дит в задачу оптимального управления со случайным моментом окончания. Предположим, что разработку продолжает игрок і. Построим решение задачи оптимального управления и найдём функцию значения (функцию Беллмана) Wi(t,x).

2. Рассмотрим дифференциальную игру со случайной продолжительностью, в которой продолжительность игры для каждого игрока является независимой случайной величиной. В качестве дополнительной выплаты игроку і, если другой игрок первым прекращает разработку, положим Wi(t,x). В заданной таким образом игре построим состоятельное позиционное равновесие по Нэшу. 4.2. Решение задачи оптимального управления

Рассмотрим задачу оптимального управления G{(t, х) для игрока і = 1,2. Динамика запаса невозобновляемого ресурса задаётся дифференциальным уравнением с начальными условиями:

Получим необходимое условие оптимальности, используя принцип максимума Понтрягина [1, 2, 30]. Для существования управления, удовлетворяющего необходимому условию, сделаем дополнительное предположение: lim х(т) = 0. Таким образом, мы предполагаем, что к гарантированному моменту окончания разработки добывается весь запас ресурса. После того как найдено выражение для функций Беллмана (4.10) в задачах оптимального управления для каждого игрока, перейдём к определению выигрыша игроков в дифференциальной игре совместной разработки невоз-обновляемого ресурса Г(0,Жо). Выигрыш игрока і (3.10) имеет вид:

Соответственно имеют вид (4.11) и (4.12), &F(t) представляет собой функцию распределения случайной величины - момента времени, в который первая по очереди фирма прекращает добычу ресурса. Как уже отмечалось в предыдущей главе, F(t) определяется соотношением (3.7).

Таким образом дифференциальная игра совместной разработки невозоб-новляемого ресурса полностью определена: каждый игрок стремится максимизировать свой функционал выигрыша (4.19), при этом динамика изменения запаса ресурса выражается дифференциальным уравнением (4.1) с начальным значением запаса (4.2).

Этот результат можно интерпретировать следующим образом: второй игрок в состоянии равновесия по Нэшу добывает ресурс с меньшей интенсивностью, стремясь оставить больший запас ресурса к более позднему времени, так как вероятность первым по счёту вынужденно закончить разработку ресурса у второго игрока гораздо выше, чем у первого игрока. Первый же игрок ведёт добычу ресурса с большей интенсивностью, опасаясь рано закончить разработку.

Рассмотрим далее дифференциальную игру разработки невозобновляемо-го ресурса со случайной продолжительностью T(to,Xo), в которой динамика запаса ресурса, как и в игре Г(о,Жо), задаётся дифференциальным уравнением (4.1) с начальным условием (4.2). В отличие от игры Г(о,Жо) в игре Г(о,Жо) ба игрока имеют одинаковый момент выхода из игры равный минимуму из моментов выходов игроков. Таким образом, играГ(о, XQ) является дифференциальной игрой со случайной продолжительностью в общепринятой постановке [27,32,52].

Функционалы выигрыша для игроков в игре Г(о,Жо) нетрудно получить из формулы (4.19), положив C{(t) и D{(t) тождественно равными нулю на отрезке [0, о;]. Обозначим равновесные стратегии в этой игре через v,(t, х); получим эти стратегии аналогичным способом из формулы (4.27):

Сравним равновесные по Нэшу стратегии игроков в игреГ(о, XQ) С равновесными стратегиями в игре T(to,Xo). Как мы отметили ранее, для функции Ci(t), і Є {1,2} выполняется соотношение (4.37). Таким образом, получаем следующее неравенство Отметим, что в ситуации равновесия в игре Г(о,Жо) интенсивность разработки ресурса у каждой фирмы меньше, чем в ситуации равновесия в игре Г(о,Жо)- Ресурс, таким образом, выбирается медленнее. Это можно объяснить тем фактом, что игроки в игре Г(о,Жо) ПРИ выборе интенсивности добычи ресурса дополнительно учитывают свой возможный доход в задаче оптимального управления, если другой игрок прекратит разработку первым. Это приводит к тому, что игроки к моменту времени t,t Є (0, о;) оставляют больший запас ресурса по сравнению с игрой Г (to, Хо), рассчитывая самостоятельно получить доход от его разработки.

Таким образом, модель предложенная в главе 3 позволяет более адекватно описать процесс совместной разработки невозобновляемого ресурса, чем модель, основанная на дифференциальной игре со случайно продолжительностью в общепринятой постановке (с возможной последующей максимизацией дохода в задаче оптимального управления).

Похожие диссертации на Неантагонистические дифференциальные игры со случайными моментами выхода игроков из игры