Синтез оптимальных стратегий в двухшаговых задачах стохастического оптимального управления билинейной моделью с вероятностным критерием Игнатов Алексей Николаевич

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Игнатов Алексей Николаевич. Синтез оптимальных стратегий в двухшаговых задачах стохастического оптимального управления билинейной моделью с вероятностным критерием: диссертация ... кандидата Физико-математических наук: 05.13.01 / Игнатов Алексей Николаевич;[Место защиты: ФГБОУ ВО Московский авиационный институт (национальный исследовательский университет)], 2016.- 135 с.

Содержание к диссертации

Введение

1 Синтез оптимального управления в двухшаговой задаче оптимального капиталовложения с равномерным распределением доходностей 23

1.1. Постановка задачи 24

1.2. Решение задачи на втором шаге 26

1.3. Решение задачи на первом шаге 37

1.4. Пример 51

1.5. Сравнение по структуре управляющего воздействия двухшаговой вероятностной стратегии с одношаговыми стратегиями 52

1.5.1. Поиск оптимальной квантильной стратегии 53

1.5.1.1. Детерминированный эквивалент 53

1.5.1.2. Пример 60

1.5.2. Поиск оптимальной логарифмической стратегии 61

1.5.2.1. Детерминированный эквивалент 61

1.5.2.2. Оптимизация критериальной функции 68

1.5.2.3. Пример 73

1.6. Выводы по главе 1 77

2 Синтез оптимального управления в двухшаговой задаче оптимального капиталовложения с произвольным распределением доходностей 78

2.1. Постановка задачи 78

2.2. Верхняя и нижняя оценки функционала вероятности 83

2.3. Поиск оптимальной стратегии в задаче максимизации нижней оценки функционала вероятности 91

2.3.1. Случай одного рискового актива на каждом шаге 92

2.3.1.1. Аналитический вид нижней оценки 92

2.3.1.2. Сравнение приближенной стратегии с известной позиционной 93

2.3.1.3. Сравнение оптимальных стратегий для различных распределений 94

2.3.2. Случай произвольного числа рисковых активов на каждом

шаге 98 з

2.3.2.1. Сведение аппроксимирующих задач к задачам смешанного целочисленного линейного программирования 98

2.3.2.2. Начальное приближение для поиска стратегии первого шага 100

2.3.2.3. Алгоритмы поиска стратегии первого шага 101

2.3.2.4. Пример 105

2.4. Выводы по главе 2 108

3 Решение задачи корректирования траектории движения космического аппарата 109

3.1. Постановка задачи 109

3.2. Выбор промежутков разбиения 111

3.3. Сведение исходной двухшаговой задачи к набору одношаговых задач 112

3.4. Детерминированный эквивалент 113

3.5. Решение задачи поиска оптимального управления при помощи дискретизации вероятностной меры 115

3.6. Пример 119

3.7. Выводы по главе 3 123

Заключение 124

Список литературы

Сравнение по структуре управляющего воздействия двухшаговой вероятностной стратегии с одношаговыми стратегиями
Детерминированный эквивалент
Начальное приближение для поиска стратегии первого шага
Решение задачи поиска оптимального управления при помощи дискретизации вероятностной меры

Введение к работе

Актуальность работы. В задачах стохастического оптимального управления билинейной моделью функция эволюции системы при фиксированном значении состояния системы содержит скалярное произведение вектора управления и вектора случайных факторов. Такие модели возникают в экономике и технике, например задаче формирования портфеля ценных бумаг и в задаче управления космическим аппаратом.

Задачи оптимального капиталовложения можно разделить по нескольким признакам: критерию оптимальности, возможности ребалансировки портфеля ценных бумаг и количеству ребалансировок, выбираемому закону распределения доходностей финансовых инструментов.

В одношаговых задачах формирования портфеля ценных бумаг, то есть таких задачах, в которых не предполагается ребалансировка портфеля ценных бумаг в некоторый момент инвестиционного горизонта, встречается целый спектр критериев оптимальности. Логарифмический критерий, который обеспечивает максимальную среднюю скорость роста капитала, рассматривается в работах Р. Виксона, В. Зиембы, Дж. Л. Келли, Л. МакЛина, В. Некрасова, Э. Торпа, И. Чжао. Вероятностный критерий, обеспечивающий превышение желаемого порога капитала при ликвидации инвестиционного портфеля с максимальной вероятностью, или вероятностное ограничение на портфель ценных бумаг использовались в работах С. Ахмеда, С. Бенати, X. Ишии, Ю. С. Кана, А. И. Ки-бзуна, Дж. Люэдтке, А. В. Наумова, Дж. Немхаузера, В. И. Норкина, Р. Рицци, Т. Хасуике. VaR-критерий, обеспечивающий максимальный уровень капитала, гарантированный с заданным уровнем надежности, можно встретить в работах Э. Жондо, Ю. С. Кана, А. И. Кибзуна, М. Окса, С.-Х. Пуна, М. Рокингера, Ф. Устри, Л. Эль Гаоуи. CVaR-критерий, который обеспечивает максимальное среднее значение капитала, если капитал инвестора окажется ниже некоторого гарантированного уровня, встречается в работах А. И. Кибзуна, Р. Т. Рокафел-лара, С. Урясева, А. И. Чернобровова. Для формирования портфеля ценных бумаг могут использоваться и другие критерии, которые можно найти, например, в работах А. Адама, Ж.-П. Лорана, СТ. Рачева, СВ. Стоянова, Ф.Дж. Фабоцци, М. Хоукари.

Однако использование одношаговых моделей может привести к «биржевому парадоксу», когда при многократном использовании одношаговой стратегии в среднем капитал инвестора стремится к бесконечности, а вероятность разорения стремится к единице. Использование двухшаговой или многошаговой моделей может позволить избежать данного парадокса, поскольку при использовании таких моделей имеется возможность в некоторый момент времени инвестиционного горизонта ребалансировать портфель ценных бумаг и, таким образом, учесть изменяющуюся ситуацию на рынке.

Учет возможности ребалансировки портфеля ценных бумаг существенно усложняет процесс поиска решения. Поэтому исследователи, использующие

-4-в качестве критерия оптимальности вероятность достижения заданного порога капитала или VaR-критерий, как правило, рассматривают только двухшаговые задачи с одним рисковым активом на каждом шаге. Исследованию таких задач посвящены работы российских авторов: Б. В. Вишнякова, П. В. Григорьева, Ю. С. Кана, А. И. Кибзуна, Е.А. Кузнецова.

Если же использовать критерии, связанные с моментными характеристиками случайных величин, то удается получить результаты для многошаговых задач, в которых предполагается случай более чем одной коррекции инвестиционного портфеля на протяжении инвестиционного горизонта. Такие исследования проводятся большей частью на Западе различными авторами: Т. Боднаром, С. Бойдом, С. Езекиджи, Дж. Калафьоре, Н. Паролей, Дж. Скафом, Э. Чана-коглу, В. ШМИДОМ.

В качестве распределения доходностей различными авторами, как правило, рассматривается нормальное распределение. Для оценки параметров распределения доходностей используют САРМ-теорию, разработанную Ф. Блэком, Дж. Линтнером, В.Ф. Шарпом. Однако, как показано Ю. Фамой и К. Френчем, она имеет ряд недостатков. К тому же на практике доходность в отличие от реализации случайной величины, подчиняющейся нормальному закону, не может оказаться меньше минус единицы. Поэтому в задаче оптимального капиталовложения логичным представляется использование распределения с ограниченным носителем, например, можно использовать равномерное распределение. Б. Р. Бармишем, Ю. С. Каном, А. И. Кибзуном, К. М. Лагоа показано, что равномерное распределение при минимальных предположениях о виде закона распределения оказывается наихудшим по значению критериальной функции для лица, принимающего решения. Кроме того, равномерное распределение не является экзотическим в задаче оптимального капиталовложения и рассматривается, например, Г. Дж. Александером, A.M. Баптистой, А. Меуччи. Однако равномерное распределение также имеет свои недостатки: оптимальное значение критерия может оказаться неоправданно невысоким. Кроме того, плотность равномерного распределения симметрична относительно математического ожидания, что не обязательно может соответствовать реальным задачам. С другой стороны, оптимальный портфель, полученный с использованием равномерного распределения доходностей, можно считать гарантирующим. Отметим также, что в качестве распределения доходностей в работах А. А. Лобанова, А. Меуччи, А. В. Чугунова, А. Н. Ширяева рассматриваются и другие распределения: логнормальное распределение, усеченное нормальное распределение, распределение Парето.

Другая физическая задача, рассматриваемая в диссертации, задача управления космическими аппаратами, также исследовалась во многих работах, например, В. М. Азановым, В. Т Бобронниковым, Ю. С. Каном, А. И. Кибзуном, М. Н. Красилыциковым, В. В. Малышевым, О. П. Нестеренко, А. В. Федоровым. В монографии В. Т. Бобронникова, М. Н. Красилыцикова, В. В. Малышева, О. П. Нестеренко, А. В. Федорова в качестве критерия оптимальности использовалось математическое ожидание от некоторой функции общего вида и предполагался случай произвольного числа коррекций, в то время как в монографии А. И. Ки-

-5-бзуна, В. В. Малышева использовался квантильный критерий и предполагался случай максимум двух коррекций. При этом в обеих монографиях ошибки исполнения корректирующего импульса полагались гауссовскими. В то же время ошибки исполнения коррекций могут носить не гауссов характер. В работе В. М. Азанова, Ю. С. Кана была рассмотрена задача оптимальной двухимпульсной коррекции спутника при помощи двигателя большой тяги с учетом ошибок исполнения импульса, распределенных по равномерному закону, с использованием вероятностного критерия. Для поиска оптимального управления был применен метод динамического программирования.

Рассматривая вопрос о выборе критерия оптимальности, стоит отметить, что, как правило, инвестору интересен некоторый уровень доходности, например 10% годовых, или порог капитала, который требуется достичь, поэтому актуальным является использование вероятности превышения заданного порога капитала в качестве критерия. Кроме того, как отмечено в монографии Л. И. Седова, в каждом конкретном полете необходимо осуществлять коррекцию космического аппарата с вероятностью близкой к единице, то есть лучше использовать вероятностный критерий и в задаче управления космическими аппаратами. Следовательно, для поиска оптимального управления динамикой системы лучше использовать вероятностный критерий, а не, например, среднее значение. Однако при решении задачи управления системой по вероятностному критерию применение метода динамического программирования сопряжено с большими трудностями.

Поэтому актуальной задачей представляется поиск приближенного решения в двухшаговой задаче стохастического оптимального управления билинейной моделью с вероятностным критерием, которое бы оказывалось близким по значению критерия к оптимальному управлению и могло бы быть найдено для любого распределения случайных величин.

Цель и задачи работы. Целью диссертации является разработка алгоритмов решения двухшаговых задач стохастического оптимального управления билинейной моделью функционирования системы с вероятностным критерием.

Для достижения поставленной цели необходимо решить следующие задачи.

Найти оптимальное решение двухшаговой задачи стохастического оптимального управления билинейной моделью функционирования системы с вероятностным критерием в некотором частном случае.
Разработать алгоритмы поиска приближенного решения двухшаговой задачи стохастического оптимального управления билинейной моделью.
Исследовать степень близости приближенного решения и точного.
Разработать численные процедуры, реализующие предложенные алгоритмы поиска приближенного решения.

Методы исследования. В диссертации используются методы системного анализа, теории вероятностей, стохастического оптимального управления, теории оптимизации, математического программирования, математического моделирования.

Достоверность результатов обеспечивается строгостью математиче-

ских постановок и доказательств утверждений, корректным использованием методов системного анализа, подтверждением теоретических результатов численными экспериментами.

Научная новизна. 1. В диссертационной работе впервые получено оптимальное управление на втором шаге и аналитический вид критериальной функции на первом шаге в двухшаговой задаче оптимального капиталовложения с двумя рисковыми активами на каждом шаге при использовании в качестве критерия качества вероятности достижения заданного порога капитала и равномерном распределении доходностей рисковых активов.

Также впервые рассмотрен случай, когда в двухшаговой задаче оптимального капиталовложения на каждом шаге имеется произвольное число рисковых активов с произвольным финитным распределением доходностей, и найдено приближенное решение данной задачи.
Предложен алгоритм решения задачи корректирования скалярного терминального состояния космического аппарата для произвольного распределения помех.

Практическая ценность работы состоит в том, что ее результаты могут служить основой для разработки программно-алгоритмического обеспечения, служащего для составления гарантирующего инвестиционного портфеля и для решения задачи корректирования скалярного терминального состояния космического аппарата.

Соответствие диссертации паспорту научной специальности. В диссертации проведено исследование задач оптимизации, разработаны методы и алгоритмы решения задач оптимизации, которые применены для анализа прикладных объектов (области исследования 1, 4 специальности 05.13.01).

Апробация работы. Результаты диссертации докладывались на научных семинарах кафедры теории вероятностей Московского авиационного института (рук. проф. Кибзун А.И.), на 6-й Традиционной молодежной Школе «Управление, информация и оптимизация» (Россия, Григорчиково, 2014 г.), на 5-й Международной конференции по анализу изображений, социальных сетей и текстов (Россия, Екатеринбург, 2016 г.).

Материалы диссертации представлялись на следующих конференциях: XX Международная научная конференция «Системный анализ, управление и навигация 2015» (Россия, Евпатория, 2015 г.), 13-я Международная конференция «Авиация и космонавтика - 2014» (Россия, Москва, 2014 г.), III Всероссийская научная конференция молодых ученых с международным участием «Теория и практика системного анализа» (Россия, Рыбинск, 2014 г.).

Работа поддержана грантом РНФ 16-11-00062, грантами РФФИ (15-37-20611 мол_а_вед, 15-08-02833 А).

Публикации. По теме диссертационного исследования опубликовано 9 работ, в том числе 4 статьи [1-4] в рецензируемых печатных изданиях, утвержденных ВАК, и 5 прочих публикациях [5-9] в различных журналах, сборниках и материалах конференций, в сборниках тезисов докладов конференций на русском и английском языках.

Структура и объем диссертации. Диссертация содержит введение,

Сравнение по структуре управляющего воздействия двухшаговой вероятностной стратегии с одношаговыми стратегиями

Целью данной главы является поиск оптимальных стратегий первого и второго шага в задаче оптимального капиталовложения по вероятностному критерию для случая двух случайных величин, характеризующие доходности, на каждом шаге. Стоит отметить, что точное решение двухшаговой задачи оптимального капиталовложения с вероятностным критерием получено лишь в [10], после чего на основе функции максимальной вероятности была решена задача с квантильным критерием. Причем решение получено для случая одного безрискового и одного рискового актива на каждом шаге. Также целью данной главы является определение критерия, который бы позволил получить стратегию, близкую к оптимальной стратегии первого шага, получаемой в двухшаговой задаче.

В разделе 1.1 приводится постановка двухшаговой задачи оптимального капиталовложения с двумя рисковыми активами, имеющими равномерное распределение доходностей на каждом шаге, по вероятностному критерию. В разделе 1.2 при помощи метода динамического программирования определяется оптимальная стратегия второго шага. В разделе 1.3 приводится аналитическое выражение функции, оптимизация которой по скалярному параметру, позволяет найти оптимальную стратегию первого шага. В разделе 1.4 для различного набора исходных данных рассчитывается стратегия первого шага и значение вероятностного критерия. В разделе 1.5 находятся оптимальные стратегии для одношаговых задач: для задачи оптимизации логарифмического и квантильного критериев. Проводится сравнение структуры портфеля ценных бумаг (управляющего воздействия). -24-1.1. Постановка задачи

В данном разделе приводится постановка двухшаговой задачи оптимального капиталовложения с двумя рисковыми активами, имеющими равномерное распределение доходностей на каждом шаге, по вероятностному критерию.

Рассмотрим динамическую систему, описываемую соотношением Cj+i = Cj(l + uijXij + u2jX2j),j = 1,2, где U\j и u2j - управляющие воздействия на систему на j-ом шаге, а Xij И[— 1, l + 2rai] и X2j И[—1, l + 2m2] случайные воздействия на систему на j-ом шаге, причем т2 т\ О, С\ - некоторое положительное детерминированное число, j = 1,2. Предположим, что Хц, Х\2, Х2\, Х22 независимы в совокупности, и обозначим Xj = col(Xіj,X2j), j = 1,2. Управляющие воздействия на j-ом шаге щ = col(uij,u2j) при фиксированном (реализовавшемся) значении Cj выбираются из множ;ества U = {(УъУ2)Т -Уі+У2 = 1,Ш 0,у2 0,2/і у2}. Рассмотрим функционал вероятности Р Р(и1,и2(-))= Р{Сз(С2(С1,и1,Х1),и2(С2),Х2) р}, где под записью Т{Сз(С2(Сі,иі,Хі),и2(С2),Х2) ір} понимается, что управление на втором шаге выбирается в зависимости от значения состояния С2, а управление на первом шаге, завися от значения Сі, ищется при фиксированном С\, при этом ищется вероятность того, что состояние Сз преодолеет некоторый порог ір. Поставим задачу Р р(щ,и2(-)) - max , (1.1) где под записью и2(-) ЄІА понимается, что значение функции и2(С2) принадлежит множеству U, а сама эта функция является измеримой.

Если под переменными иц и u2j понимать доли капитала инвестора, вкладываемые В некоторые финансовые Инструменты С ДОХОДНОСТЯМИ X\j и X2j, -25 под Сі - начальный капитал инвестора, под р - желаемый капитал инвестора при ликвидации инвестиционного портфеля, то задача (1.1) представляет собой двухшаговую задачу оптимального капиталовложения по вероятностному критерию с двумя рисковыми активами, второй из которых приоритетнее, чем первый, где С 2 - капитал инвестора после окончания первого торгового периода, а Сз - капитал после второго торгового периода. Экономическая привлекательность второго актива может быть обусловлена, например, тем фактом, что для любой желаемой доходности х вероятность ее превышения первым активом не больше, ЧЄМ ВерОЯТНОСТЬ Превышения ВТОрЫМ, Т.Є. V{Xij х} V{X2j х}. Для решения задачи (1.1) применим алгоритм динамического программирования, так как оператор V(-) является ограниченным, аддитивным и марковским [3]. В соответствии с методом динамического программирования получим рекуррентные соотношения [18] Wf = max M[Wf(C2)], W%{C2)= max M[W (C3)C2], (1.2) (un,U22)&J [l, C3 tp, W?(C3) = (1.3) [0, C3 .

Здесь « (Сг) - оптимальная позиционная стратегия на 2-м шаге, uf - оптимальная стратегия на 1-м шаге, Wf, W iC , W (Cs) - функции Беллмана. В результате решения задачи (1.2)—(1.3) управление, на котором достигается максимум функции М[И/3 (С з)С2], может оказаться неизмеримой функцией, что может привести к неизмеримости функции Wf (Сг). Сформулируем и докажем лемму о существовании измеримой позиционной стратегии, доставляющей максимум функции М[И/3 (С з)С2], при которой функция MfW C )] определена.

Существует измеримая позиционная стратегия на втором шаге, доставляющая максимум функции M.[W (C3)\C2], при которой функция М[И/2,(С2)] определена.

Рассмотрим функцию ФС2(и2, 2) = с2(1 +Мі2Жі2 + «22 22)- Данная функция непрерывна по со1(с2,М2) Є К1 х U для любого х2 Є К1, а также измерима для всех со1(с2,М2) Є К1 х U, множество U и множество возможных значений случайной величины С2 -замкнуты. Поэтому функция —V{$C2(u2,X2) ф) является полунепрерывной снизу по col(c2, «г) [19]. Поскольку случайные векторы Х\ и Х2 независимы, функция — V{QC2(u2,X2) ф) является полунепрерывной снизу по col(c2, и2), множество U является компактным, то согласно [3] функция Р (с2) = inf -Г(ФС2(и2,Х2) ф и2Єи является полунепрерывной снизу и для любого с2 из множества возможных значений случайной величины С2 инфимум достигается при некотором и2 Є U, а также существует измеримая позиционная стратегия на втором шаге, доставляющая максимум функции М[И/3 (С з)С2], при которой функция MfW C )] определена

Детерминированный эквивалент

ЛЕММА 1.16. Критериальная функция Ф0(), определенная согласно (1.72), является вогнутой по на выпуклом множестве , определенном согласно (1.73).

Доказательство леммы тривиально, поскольку целевая функция Ф{і,\) = = ln(i(l + oio + nii + 2i2i)) вогнута по при фиксированном \, а математическое ожидание вогнутой функции оказывается вогнутой функцией і для любого распределения, а не только для равномерного [19]. Поэтому для решения задачи (1.54) можно использовать методы выпуклого программирования [37]. В частности, можно использовать, метод внутренней точки [54,93]. Отметим, что для этого алгоритма требуется, чтобы критериальная функция и ограничения были дважды непрерывно-дифференцируемыми функциями. Однако в критериальной функции, определяемой выражением (1.77), в точках (0,n,2i), (oi,0,2i), (oi,n,0) имеется неопределенность. Поэтому применение этого метода может быть осуществлено не на множестве , а на множестве e = {і : ої + и + 21 = 1, 21 - и 0, и - 0, 01 - 0} , (1.80) где параметр 1/3 0. Отметим, что построенное таким образом множество e является подмножеством множества и [J e = , где

При этом функция Ф0(і) является дважды непрерывно-дифференцируемой на множестве e- Таким образом, решая задачу максимизации критериальной функции (1.77) на множестве (1.80) для различных , мы получаем набор решений, параметризованных параметром . Если для некоторого 0 решение достигается не на границе множества e, то в силу вогнутости критериальной функции максимум на множестве e будет совпадать с максимумом на множестве . Если максимум достигается на границе множества e для всех 0, в силу того, что при устремлении в — 0 множество допустимых стратегий принимает вид (1.81), то есть не является замкнутым, следует проверить значения критериальной функции в точках (0,иц,и2і), (иоі,0,м2і), (щі,иц,0) на граничных плоскостях множества U.

Проверим непрерывность функции Фо(гхі) в этих точках. ЛЕММА 1.17. Критериальная функция Фо(щ) непрерывна в точках (1,0,0), (0,MII,M2I), (woi,0,w2i), принадлежащих множеству допустимых стратегий U. ДОКАЗАТЕЛЬСТВО ЛЕММЫ 1.17. Найдем предел функции (1.77) при м0і — 0+, т.е. Ф0(0+,міі,м2і) = lim Ф0(щ). «01-5-0+ В силу того, что при мої — 0+ согласно (1.77) внутри предела возникает неопре деленность 0 оо для слагаемого m(ttoiOo), то при подсчете предела вос пользуемся правилом Лопиталя из [41]: т («oiM2, , І ч r ln(u0i&o)

В силу того, что при и — 0+ согласно (1.77) внутри предела возникает неопре-деленноств 0/0, то при подсчете предела вновв воспол взуємся правилом Л опитали 2ці Отметим, что в силу структурві множества допустимвіх стратегий из того, что 2\ — 0+, следует и — 0+, а следователвно, и \ = 1 - ц - 2\ — 1 - . Поэтому по правилу Лопиталя получаем lim lim Фо(оі,ц,0+) = ln(i)+ln(0), «01—5-1- МП—S-0+ что совпадает со значением (1.74) Фо(1,0,0) = 1п(і)+1п(0), поэтому функция Фо(і) непрерывна в точке (1,0,0). -71-Для точки (0,0,1) получаем lim lim Ф0(«оі,«п,«2і) = hi(Ci) — 1 «01-5-0+«Ц-5-0+ lim «01 0+ 2u2\V!l2 -щфо In (иоФо) + (2«2im2 + щфо) In (2«2im2 + «oiM = b(Ci) - 1+ ln(2u2im2). Нетрудно получить, что lim lim lim Ф0(«оі,«п,«2і) = hi(Ci) — 1 + ln(2m2). (1-84) «21—5-1- «01—5-0+ «11—5-0+ Сравнивая (1.76) и (1.84), заключаем, что функция Фо(«і) непрерывна в точке (0,0,1). Поэтому поставим вспомогательные оптимизационные задачи: для функции (1.79) на множестве Uo,o — {u\ : «n +M2i = l,u2i - Un 0,«ц - в 0} (1.85) для функции (1.75) на множестве Ue,i = {щ : мої + и2Х = 1, м2і - 0 0, мої - 9 0} (1.86) Опишем последовательность действий, необходимых для нахождения максимума функции (1.72) на множестве (1.73), основываясь на алгоритме внутренней точки из [54,93], для применения которого все необходимые условия в данном случае выполнены. Алгоритм: 1) В СООТВеТСТВИИ С Введенным МНОЖеСТВОМ ІІ0 Ограничения Мої + «11 + «21 = 1 и «01 — в 0 заменяются на ограничение 1 — «и — «21 — 0 0, критериальная функция становится функцией двух переменных «п и «2і; 2) задается значение параметра в = в0, например, можно взять в0 = Ю-5; 3) задается параметр 5, характеризующий допустимую погрешность; -72 л\ (0) (0) (K J ) (к) 4) задаются начальные значения ип , и2{ управляющих воздействии %, w2i, а также вспомогательных переменных к Є К+, /З1-0-1 Є К+; шаг к полагается равным нулю; M«(ifc)) + «(fc)2; 5) вычисляется /I 7 0 7 1, IIP(fc)l2 6) решается система линейных уравнений (Й) Н(и[к\ ) 0 -А(и[к))т О В К I о A(«ifc)) AM1; УФо + Ж Г/ /x(fc)e - KBe -h(u[k)) + k) где К = Ищ{к\К }, Б = diag{/3tw}, e - вектор, состоящий из единиц, / - единичная матрица, h{u\) = (м21 — «и, «и — 0,1 — U\i — «2i — 9)т, Н(щ,/3) = -У2Ф0(мі) - ]/ЗгУ2/ггК), г=1 А(щ) = Vh(ui); 7) вычисляется и (fc+1) и (fc) Аи[к\ «( + ) = к( о+ ( Одк( о, где параметр определяется из условий /3(-fc+1-) 0, к к+1" 0 и pW2 _/,( +i)) + +i)2; 8) если — h(u\ ) + /i(-fc+1-)2 5, то итерационный процесс закончен, решением задачи оптимизации является вектор и\ := и\ , иначе к := к + 1, далее переход к шагу 5). Если для достаточно малого в решение достигается на границе Ue, то ищется максимум из максимума функции (1.79) на множестве (1.85), максимума функции (1.75) на множестве (1.86) и величин (1.76), (1.74). Если полученный максимум больше Фо(г ), то стратегия, соответствующая этому решению, будет оптимальной, в ином случае оптимальная стратегия

Начальное приближение для поиска стратегии первого шага

В данном разделе приводятся алгоритмы максимизации нижней оценки в случае одного рискового актива, а также в случае произвольного числа рисковых активов на каждом шаге.

Найдем оптимальную стратегию в задаче максимизации нижней оценки функционала вероятности. Вначале рассмотрим случай, когда М = 1, то есть рассмотрим случай наличия только одного случайного воздействия на каждом шаге. Потом рассмотрим случай М 1. Найдем аналитический вид нижней оценки при М = 1. 2.3.1.1. Аналитический вид нижней оценки Учитывая вышесказанное, получаем для ип 0 следующее выражение для нижней оценки функционала вероятности: pr uu)=± (Fxil (с + (ЛГ)- ;6-"" ) ) Очевидно, что функция P wl(uoi,un) непрерывна при 0 иц 1. Поэтому, чтобы найти решение задачи (2.19), воспользуемся оптимизацией на сетке [38]. Нанесем равномерную сетку на отрезок 0 ии 1 с шагом Ар и найдем максимальное значение в узлах сетки: точка и\г с максимальным значением функции P wl(uoi,un) - приближенное решение (1 — їі, їі) задачи arg max Plowl(u0i,un). 0 «ц 1 2.3.1.2. Сравнение приближенной стратегии с известной позиционной Сравним получаемое решение с известным, полученным в классе позиционных стратегий для равномерного распределения случайного воздействия с носителем [— 1,А] [10], то есть с плотностью

Пусть начальное состояние С\ = 1, желаемый уровень состояния р = 1,08, детерминированное воздействие Ьо = 0,03, а параметр А равен 2,2 в примере № 1 и 2,3 в примере № 2. Найдем приближенную стратегию первого шага, а также значение Plw(ui,U2 (, s)) нижней оценки функционала вероятности на ней для различного числа промежутков разбиения N. Шаг сетки р выберем равным 0,001. Жирным шрифтом выделим точное решение, полученное в классе позиционных стратегий.

Как следует из таблицы 2.1, оптимальная стратегия на первом шаге в задаче максимизации нижней оценки функционала вероятности практически совпадает с точной стратегией при N 1500. При этом максимум нижней оценки отличается от оптимального значения функционала вероятности в классе позиционных стратегий лишь на несколько десятитысячных уже при N 1000.

Проанализируем структуру оптимального управляющего воздействия, получаемого при помощи соотношений, описанных выше. Для этого рассмотрим несколько распределений Хц\ равномерное распределение, которое обозначим -95 как Х 1, с плотностью вероятности , х Є [тп - л/?у(тп,тп + л/3ап], О, иначе, усеченное нормальное распределение, которое обозначим как Х1[, с плотностью вероятности усеченное смещенное логнормальное распределение, которое обозначим как Xf17 с плотностью вероятности

Выберем -jz = _\f = 0,15, n = 0,3, д/- = 0,3004, с = 0,1086, с = = 0, 2625. В этом случае М[1$] = М[1$] = M[1fJ = 0,15 и T [1fi] = D[1 ] = = D[1fJ = 0,09. Графики плотностей распределений при данных параметрах имеют следующий вид.

Усеченное нормальное распределение _ Усеченное смещенное логнормальное распределение - Равномерное распределение

Графики плотностей Х ,Х ,Х Пусть, как и ранее, ip = 1,08, Ь0 = 0,03, Сі = 1. Найдем оптимальное с точки зрения максимизации нижней оценки управляющее воздействие для различного числа промежутков разбиения N. Шаг сетки р снова выберем равным 0,001.

Как следует из таблицы 2.2, дальнейшее увеличение числа промежутков разбиения N, если N выбрано достаточно большим (N 1000), не позволяет существенно увеличить значение функции P1W1(UQI,UU). При этом структура оптимального управляющего воздействия практически идентична для различных распределений доходности.

Сведение аппроксимирующих задач к задачам смешанного целочисленного линейного программирования

Коэффициенты Pi аналогично разделу 2.3.1.1. можно найти с помощью метода детерминированного эквивалента [19], однако в случае более чем одного случайного воздействия на каждом шаге это сделать затруднительно. Другим способом поиска коэффициентов Pi является оптимизации на ядре вероятностной меры [6]. Можно также решить эту задачу, дискретизовав вероятностную меру [30], после чего свести полученную задачу к задаче смешанного целочисленного программирования, как сделано для квантильного критерия в [27]. Опишем последний вариант решения задачи поиска Pi.

Пусть х2, к = 1,К2 - реализации случайного вектора Х2, сгенерированные согласно плотности или функции распределения случайного вектора Х2. Определим меру этих точек как р\ = 1/К2, к = 1,К2. Составим случайный вектор 2 со значениями х2 и вероятностной мерой, сосредоточенной в этих точках V{ 2 = х2} = р\. Рассмотрим выборочную функцию распределения Fx (x), соответствующую случайному вектору Х2, реализация которой есть F-2 (х) - функция распределения случайного вектора Х2 тогда согласно теореме Гливенко-Кантелли имеет место сходимость почти наверное: (x) —? Fx2(x), при К2 — оо для всех х, где Fx2(x) - функция распределения случайного вектора Х2 [30].

Решение задачи поиска оптимального управления при помощи дискретизации вероятностной меры

Однако на практике аналитическое вычисление значения функции Рг(и2) в некоторой фиксированной точке иг2, то есть вычисление повторного интеграла, может быть сопряжено с определенными трудностями, как например, в случае нормального распределения помех. При этом требуется найти оптимальное значение на открытом интервале функции неизвестной природы, поскольку распределение помех по условию не является заданным. Поэтому решение задачи (3.8) при помощи детерминированного эквивалента может быть осуществлено лишь на небольшом классе распределений помех, например для равномерного распределения помех. Поэтому для поиска решения задачи (3.8) необходим более простой и общий алгоритм.

Решение задачи поиска оптимального управления при помощи дискретизации вероятностной меры В данном разделе при помощи дискретизации вероятностной меры приводится алгоритм поиска управления, приближенного к оптимальному кусочно-постоянному управлению. Проведем некоторые преобразования функции РДигО, s)). Поскольку вероятность произведения двух событий А и В пе больше вероятности вероятности одного из них Р(АВ) Р(В),Р(АВ) Р(А), то имеют место следующие неравенства V(\z2 + tu2-(l + X2)\ ,z2es0) V(z2es0), (3.14) —116— V(\z2 + tu +l (1 +X2) p,z2 Є SJV+I) V(z2 Є SJV+I). (3.15) Учитывая (3.5), (3.7), (3.14), (3.15), получаем N+l P p(M-,s)) = Y, V + tU2 (! + X2) , 2 Є Si) i=0 w J] V(\z2 + и 2(1 + X2) p, z2 Є Si) + аг. i=\ Воспользовавшись методом средних прямоугольников [39] аппроксимируем г-е слагаемое в (3.7), і = 1, N V(\z2 + tu2-(l+X2)\ (p,z2esi) = V(\X1+tui-(l + X2)\ ір,Хг est)&

Отметим, что подобный подход по вычислению вероятности был использован, например в [85], при поиске среднего числа пересечений случайным процессом некоторого заданного уровня. Поскольку +\ по построению выбрано малым, то в дальнейшем будем рассматривать функционал

Для поиска оптимальных стратегий в (3.16) дискретизируем случайную величину Х2. Пусть х%, к = 1, К2 - реализации случайной величины X2l сгенерированные согласно плотности или функции распределения случайной величины Х2 и упорядоченные по возрастанию. Определим меру этих точек как р\ = 1/К2, к = 1, К2. Составим случайную величину Х2 со значениями х\ и вероятностной мерой, сосредоточенной в этих точках V{X2 = х2} = р2.

Предварительно отметим, что в исходной постановке задачи отсутствовали ограничения на значения управления. В то же время, очевидно, что физически в космосе невозможно осуществить управление, например, равное бесконечности, в силу ограниченности ресурсов для осуществления управления, поэтому наложим ограничение на возможные управления иг2 Є [wi0w,wup], где Miow и иир - некоторые действительные числа, причем «iow мир. Подобные ограничения на управление можно встретить, например, в [4]. Таким образом, используя вместо непрерывной случайной величины Х2 ее дискретный аналог Х2, получаем задачи

При фиксированном допустимом управлении щ переменные 5к,г показывают выполнение неравенств zi + zi+l , . . zi + zi+l для реализаций х\: 1 - если неравенства выполняются, 0 - если неравенства не выполняются. Отметим, что задача (3.19)-(3.21) схожа по структуре с решаемой в [36] задачей смешанного целочисленного линейного программирования.

Рассмотрим модификацию задачи поиска оптимального управления, определяемой соотношениями (3.19)-(3.21). В [33] было показано, что у оптимального управления имеется зона нечувствительности к некоторым значениям состояния z2. Навяжем подобную структуру управления и в рассматриваемой нами задаче поиска оптимального кусочно-постоянного управления.

Зафиксируем управление щ = 0. Получим задачу целочисленного линейного программирования Для некоторых г может оказаться, что значения Pi и Д совпадают, в этом случае выберем оптимальное управление равным нулю, поскольку для осуществления такого управления не требуется привлечения ресурсов используется в качестве оптимального управления, а сами компоненты управления находятся при помощи формулы (3.25). Отметим, что управление для промежутков 0 и JV+1 в (3.26) доопределяется при помощи управления на промежутках 1 и N соответственно. = 1,15. Зафиксируем 1 = 0,000177. Решив уравнение (3.5), получаем 1 = — — 3. Проанализируем зависимость оптимального значения критерия ,(,(-, )) от числа промежутков разбиения конечной длины и количества реализаций 2 случайной величины 2. Также подставим стратегию (3.26) в (3.7), чтобы оценить качество полученной аппроксимации.

Как следует из таблицы 3.2, увеличение количества реализаций К2 для больших К2, расмотренных в примере, не сильно влияет на приближенное значение критерия. Поэтому при N 20 рассматривался только случай К2 = = 10000. Увеличение количества промежутков разбиения влияет на точность получаемого решения: чем больше промежутков, тем решение, получаемое при помощи предложенной процедуры, точнее. Отметим, что помимо значения критерия, как точного, так и приближенного, интересен вид самого получаемого управления.

Как следует из рисунка 3.1, получаемое управление имеет зону нечувствительности, которое практически совпадает с зоной нечувствительности для точного решения, полученного в классе позиционных стратегий. Для дальнейшего увеличения точности получаемого решения необходимо еще больше увеличить число N, что однако потребует большего числа времени и мощности компьютера.

Пусть Х\ TZ[—0,5, 0,5], Х2 7Z[—0,5, 0,5], а также t = 1, иар = —u\ow = = 10 и ip = 0,1. Зафиксируем а.\ = 0. Решив уравнение (3.5), получаем z1 = = —0,5. Вновь проанализируем зависимость оптимального значения критерия Ptp(utp(-, s)) от числа промежутков разбиения конечной длины. Отметим, что оптимальное управление в классе позиционных стратегий для заданного набора параметров можно найти в [1]. Максимальное значение вероятности РЦ зІ р} в классе позиционных управлений составляет 0,8159.

Как следует из таблицы 3.3, увеличение количества промежутков разбиения достаточно существенно влияет на точность получаемого решения, причем для N = 150 значение вероятностного критерия на предлагаемом кусочно-постоянном управлении не сильно отличается от значения на оптимальной позиционной стратегии. Вид предлагаемого кусочно-постоянного управления представлен на рисунке 3.2.