Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Оптимальное управление стохастическими квазилинейными системами с информационными ограничениями Румянцев Дмитрий Станиславович

Оптимальное управление стохастическими квазилинейными системами с информационными ограничениями
<
Оптимальное управление стохастическими квазилинейными системами с информационными ограничениями Оптимальное управление стохастическими квазилинейными системами с информационными ограничениями Оптимальное управление стохастическими квазилинейными системами с информационными ограничениями Оптимальное управление стохастическими квазилинейными системами с информационными ограничениями Оптимальное управление стохастическими квазилинейными системами с информационными ограничениями Оптимальное управление стохастическими квазилинейными системами с информационными ограничениями Оптимальное управление стохастическими квазилинейными системами с информационными ограничениями Оптимальное управление стохастическими квазилинейными системами с информационными ограничениями Оптимальное управление стохастическими квазилинейными системами с информационными ограничениями Оптимальное управление стохастическими квазилинейными системами с информационными ограничениями Оптимальное управление стохастическими квазилинейными системами с информационными ограничениями Оптимальное управление стохастическими квазилинейными системами с информационными ограничениями
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Румянцев Дмитрий Станиславович. Оптимальное управление стохастическими квазилинейными системами с информационными ограничениями : диссертация ... кандидата физико-математических наук : 05.13.01 / Румянцев Дмитрий Станиславович; [Место защиты: Моск. гос. авиац. ин-т].- Москва, 2009.- 139 с.: ил. РГБ ОД, 61 09-1/551

Содержание к диссертации

Введение

1 Оптимизация стохастических систем с информационными ограничениями 29

1.1 Постановка задачи оптимального управления стохастическими системами диффузионного типа при наличии информационных ограничений 30

1.2 Достаточные условия оптимальности 33

1.3 Локальные условия оптимальности первого порядка 36

1.4 Техническое описание системы управления 43

1.5 Выводы 49

2 Оптимизация квазилинейных стохастических систем 51

2.1 Постановка задачи 51

2.2 Условия оптимальности 54

2.3 Оптимизация квазилинейных стохастических систем при наличии случайных погрешностей вектора состояния и реализации управления 65

2.4 Обобщение на случай стохастических возмущений матриц коэффициентов линейной системы 67

2.5 Выводы 67

3 Численные методы синтеза стратегий оптимального управления стохастическими системами с информационными ограничениями 69

3.1 Численные методы поиска 70

3.2 Управление скоростью сходимости 75

3.3 Теоремы об улучшении критерия 76

3.4 Квазилинейные задачи с квадратичным критерием 80

3.4.1 Способы решения уравнения (2.23) 83

3.4.2 Алгоритмы численных методов оптимизации стратегии управления 87

3.5 Примеры 89

3.6 Выводы 94

4 Программное обеспечение для расчёта оптимального управления квазилинейными стохастическими системами 95

4.1 Общие сведения о программе 95

4.2 Диалоговый интерфейс 99

4.3 Выводы 101

5 Примеры задач оптимального управления летательными аппаратами 102

5.1 Задача демпфирования колебаний спутника Земли с гравитационной стабилизацией 102

5.2 Задача о стабилизации орбиты искусственного спутника Земли 113

5.3 Выводы 119

Заключение 120

Литература 122

Введение к работе

Диссертационная работа посвящена разработке методов оптимального управления стохастическими системами диффузионного типа в задачах с информационными ограничениями.

Актуальность исследований в этом направлении обуславливается необходимостью наиболее точного описания систем автоматического управления, реалистичным вариантом которого является стохастическое описание, учитывающее воздействие на объект управления случайных факторов, в предположении неполноты информации о состоянии. Предложенные в диссертации условия оптимальности для квазилинейных систем вносят существенный вклад в развитие этого направления теории оптимальных процессов, в частности, позволяют решать задачи управления линейными системами с мультипликативными возмущениями управления и со случайными возмущениями в матрицах уравнений системы.

Целью диссертационной работы является разработка методов синтеза оптимальных стратегий управления стохастическими квазилинейными системами в случае измерения части компонент вектора состояния при наличии ошибок измерения и ошибок реализации управления.

В соответствии с целью исследования были поставлены следующие задачи:

1. получить конструктивные условия оптимальности в задачах синтеза

8 стратегий оптимального управления:

квазилинейными стохастическими системами при измерении части компонент вектора состояния;

линейными стохастическими системами со случайными возмущениями в матрицах системы при измерении части компонент вектора состояния;

квазилинейными стохастическими системами с неточно измеряемым вектором состояния и ошибками реализации управления;

  1. разработать численные методы решения задач п.1;

  2. создать программное обеспечение для реализации численных методов;

  3. провести решение тестовых прикладных задач при различном уровне информированности с применением предложенных теоретических результатов.

Для решения поставленных задач использовался метод функций Ляпунова-Лагранжа, наметившийся еще в ранних работах Хрусталёва М.М. при изучении проблемы оптимального управления частично наблюдаемым диффузионным процессом и получивший дальнейшее развитие в его работах по стохастическим дифференциальным играм с неполной информацией [1, 2]. Этот подход состоит в использовании совокупности функций, аналогичных вектор-функциям Ляпунова в теории устойчивости. Но в изучаемом круге проблем эти

функции играют двоякую роль. С одной стороны, их применение так же, как функций Ляпунова, подменяет проблему изучения поведения траекторий динамической системы изучением поведения этих функций вдоль траекторий системы. С другой - они являются нелинейными нелокальными аналогами классических множителей Лаграыжа, предназначенными для полного снятия ограничений. В связи с такой двойной ролью эти функции были названы вектор-функциями Ляпунова-Лагранжа [1, 2].

Важным результатом применения векторных функций Ляпунова-Лагранжа является снятие всех нелокальных ограничений, в том числе и информационных, доведение условий оптимальности до совокупности уравнений (или неравенств) для этих функций и семейства конечномерных экстремальных задач, решаемых в фиксированный момент времени локально в каждой точке пространства состояний, аналогично тому, как это делается в условиях принципа максимума Понтрягина Л.С. или динамического программирования для классической задачи оптимального управления.

Фундаментом для метода Ляпунова-Лагранжа послужили работы Понтрягина Л.С. [3], Беллмана Р. [4], Кротова В.Ф. [5], Гурмана В.И. [6], в которых встречались те или иные фрагменты метода. Различные аспекты метода исследовались в [7]-[11] и более поздних работах [12]. Близкий методу функций Ляпунова-Лагранжа подход предлагается в [13].

Для описания динамической системы составляется ее математическая модель. Одно из основных требований, предъявляемых к модели, -наиболее точно описать функционирующий технический объект, для которого в реальной ситуации зачастую невозможно получать полную

информацию о динамике системы, возмущениях, действующих на него и т.д. В результате возникает задача оптимизации с информационными ограничениями. Традиционно уделяется большое внимание методам решения задач оптимизации динамических систем, позволяющим определять непрерывное управление либо как функцию от начальных условий и времени (программное управление) [3], либо как функцию времени и текущих фазовых координат системы (синтез управления) [4]. Как уже отмечено, на практике существует обширный класс динамических систем, в которых информация о положении в фазовом пространстве является неполной и ограничена измерительным устройством, которым располагает система. Возможности управления такими системами существенно зависят от той информации, которая может быть получена путем измерения и обработки наблюдений. Поэтому в теории стали развиваться направления, связанные с решением задач оптимизации динамических систем в условиях неопределенности, например: управление пучками траекторий [14]-[27]; управление стохастическими системами [28]-[55]; управление системами с распределёнными параметрами, в том числе, с неполной информацией [5б]-[64]; децентрализованное управление [65]-[72]; управление в антагонистических и коалиционных играх [73]-[78]; управление дискретными системами [6],[79]-[91] и т.д.

Проведем обзор известных методов оптимизации систем управления с точки зрения доступности информации об объекте. Вместе с методами управления стохастическими системами диффузионного типа будем также рассматривать методы управления: детерминированными системами, так как в определённой мере они являются частными случаями стохастических

систем; системами с распределёнными параметрами, поскольку часто управление стохастическими системами сводится к детерминированной задаче управления решением уравнений в частных производных.

При наличии неопределенности в динамической системе есть три пути решения задачи синтеза стратегии управления.

В первом случае отыскивается управление, являющееся функцией наблюдаемых переменных. В этом случае находится структура стратегии управления, которая непосредственно зависит от наблюдаемого сигнала.

Второй путь связан с нахождением оптимального закона управления, который использует оценку состояния динамической системы. Эта оценка делается на основе имеющейся информации путём дополнительного построения фильтров (идентификаторов состояния). Именно она используется при построении управления в работах [93]-[105].

Третий путь является комбинаций первого и второго. В этом случае решается задача совместного отыскания оптимальной стратегии управления и оптимального фильтра, задающего оценку состояния динамической системы.

В данной работе принята постановка задачи, соответствующая первому пути.

Пусть для некоторой математической модели динамической системы с состоянием х Є Rn, управлением и Є im, временем t Є R1 требуется синтезировать стратегию управления и = w(, ж), удовлетворящую цели управления. При этом известно, что наблюдается лишь часть компонент вектора х.

Для задач стохастического оптимального управления традиционным

является поиск минимума математического ожидания функционала [15]. Однако, иногда рассматриваются и другие критерии [106, 107, 108]. Проблеме существования управления с неполной обратной связью посвящены работы [31]-[36]. Различные методы управления стохастическими системами с неполным вектором наблюдения описаны в работах [37]-[46]. Следует выделить работы У. Флеминга [45] и В.В. Семёнова [46], в которых получены необходимые условия оптимальности для стохастических систем с неполной обратной связью общего вида. Характерным в этих подходах является то, что исходная стохастическая задача сводится к детерминированной задаче управления решениями уравнения в частных производных. Эти работы нашли свое развитие в статьях А.В. Пантелеева, А.С. Бортаковского, Е.А. Руденко [17], [18], [50]-[54], [84]-[87], в которых сформулировано несколько вариантов достаточных условий оптимальности.

Вопросам оптимального управления системами с распределёнными параметрами при неполном измерении состояния посвящены работы из обзора [59].

Этот же вариант информированности имеет сходство с задачами построения фильтров в смысле их постановок. Поэтому приведём здесь ещё несколько замечаний, связанных с теорией фильтрации, основу которой, несомненно, заложили Калман и Бьюси [92]. Здесь можно выделить два направления. В подходе Р.Л. Стратоновича [93] основные проблемы, возникающие из стремления повысить точность оценивания, связаны с наличием большой размерности строящихся фильтров. В [94] B.C. Пугачёв обходит эти трудности путем фиксации структуры искомого фильтра и

сосредоточения усилий на поиске ее неизвестных параметров. В работе [95] развивается этот путь в направлении поиска структуры фильтров.

Большое развитие получили методы оптимального управления несколькими взаимосвязанными динамическими системами с децентрализованным управлением. Структура управления таким комплексом систем строится на основе нескольких локальных управляющих устройств , причем каждый локальный регулятор uK(t,xK) управляет только локальным входом и контролирует только локальный выход жк, к, — 1, а. Тем не менее, все эти устройства участвуют в управлении всей системой в целом [65] с вектором состояния х. С точки зрения информированности ситуация состоит в следующем. Для всего комплекса систем весь вектор состояния измеряется полностью, однако стратегия управления должна быть построена в децентрализованном виде, т.е. весь вектор управления и составляется из локальных стратегий uK(t, жк), где хк - локальный вектор состояния к-ой подсистемы, к = 1,а. В этой области имеется большое количество работ. Для анализа структуры системы применяется метод декомпозиции [65, 66]. Качественный анализ синтезированного управления проводится с использованием векторных функций Ляпунова [67, 72]. Поскольку оптимального управления получить не удается, многие останавливаются на поиске субоптимального управления [65]. Поэтому метод возмущений [68], так же как и его обобщение метод агрегирования [69], оказываются полезными в задачах синтеза децентрализованного управления динамическими системами, которые можно агрегировать более простыми структурами. Стоит отметить, что существует очень мало работ по децентрализованному управлению

дискретными системами с неполной информацией [71].

Для дискретных систем управления с полной информацией разработаны многочисленные методы управления [79, 80]. Однако, имеется направление в теории оптимального управления, которое трактует этот вариант управления как синтез кусочно - постоянного управления при полных измерениях вектора состояния непрерывной модели системы в дискретные моменты времени [6]. С точки зрения информированности об объекте это означает, что информация о динамике системы доступна лишь в дискретные моменты времени, а во все оставшиеся моменты информация о системе отсутствует. Кроме того, управление в промежуточные между интервалами измерения время не может быть скорректировано и должно оставаться постоянным на каждом таком подынтервале.

Исследований, посвященных дискретным системам управления с неполной информацией, довольно мало. В качестве примеров работ в этом направлении можно привести [84]-[87], в которых предлагаются достаточные условия оптимальности частично дискретно наблюдаемых диффузионных процессов. Развитие направления, соответствующего этому варианту, проводится в работе [88], в которой стратегия управления базируется на основе дискретных наблюдений в различные моменты времени.

Важной задачей в теории управления стохастическими системами является задача получения численных методов синтеза оптимального управления. Этим вопросам посвящены работы [37]-[39]. Основной принцип, заложенный в этих методах, заключается в том, что, если имеется некоторая стратегия управления, то метод должен позволять

найти такую стратегию, которая будет лучше относительно заданного функционала. Во всех случаях исследователи предлагают рассматривают дискретную аппроксимацию непрерывных систем, в связи с чем возникает эффект неустойчивости итерационных методов [40], а также вопрос об асимптотической сходимости методов последовательных приближений [41].

Другим эффективным методом синтеза является спектральный [42], основанный на алгебраической форме связей между характеристиками системы, позволяющий получать количественные характеристики по матрично-операторным формулам. Для этого направления создано алгоритмическое и программное обеспечение [43], получены достаточные условия оптимальности для систем со случайной структурой при неполной информации [44].

В диссертационной работе помимо общих условий оптимальности в задачах управления стохастическими квазилинейными системами с неполной обратной связью по состоянию представлены условия оптимальности в задачах синтеза стратегий оптимального управления линейными стохастическими системами с неизмеряемыми возмущениями в матрицах системы и информационными ограничениями, а также квазилинейными стохастическими системами при неточном измерении состояния и реализации управления в условиях информационных ограничений. Отметим результаты, достигнутые другими авторами в этом направлении. Существует группа работ, посвященных управлению системами со структурной неопределенностью, в которых удается либо синтезировать оптимальное управление [109] с использованием методов теории оптимального управления системами с распределёнными параметрами, либо

исследовать робастность таких систем [110, 111]. В [112, 113] исследован вариант, когда случайным образом изменяется не структура динамической системы, а лишь отдельные её параметры.

Для более детального обоснования на содержательном уровне научной новизны получаемых условий оптимальности приведем исследуемую в главе 1 постановку задачи управления частично наблюдаемым диффузионным процессом. При этом во введении для простоты изложения не всегда будем оговаривать теоретико-функциональные требования к встречающимся функциям. Эти требования будут строго даны в основном тексте диссертации.

Процесс управления описывается системой уравнений Ито [28]

dxi(t) = fi{t, x(t),u(t, x(t)))dt + gu(t, x(t), u(t, x(t)))dwi(t), x(tQ) — xQ. Здесь t Є T = [to',ti] С R1 - время; x (x\,... ,xn)T - состояние

системы, і — l,n; жо - случайный вектор; wi - стандартный винеровский процесс, I = 1,и; и = (иі,...,ит)т Є U С Rm - вектор управления; (, х) —> u(t, х) : Т х Rn —> U С Rm - управление (стратегия управления процесса). Здесь и далее по дважды встречающимся в произведении функций индексам проводится суммирование.

Предполагается, что динамика плотности вероятности состояния удовлетворяет уравнению Фоккера-Планка-Колмогорова [28]

dp(t х) д д2

—т^— = "д^ШЬ xi и& Х)МЪ х)] + дх-дх^Щ^ Ж'U^' х^р& ж^'

p(t0,x) =ро(х),

где dij = дй gij/2.

Введём функции, описывающие в момент t плотность распределения вероятности t —>- p*(t) = p(t, ) : Т > С% и управление —> u*(t) = u(t,-) : Т -ї V, где Ср - пространство дважды непрерывно дифференцируемых плотностей вероятностей на пространстве Rn, а V - множество, задающее информационные ограничения (подробнее о множестве V см. 1.4). Будем предполагать, что начальное состояние жо определяется плотностью ро — p*(to). Через D обозначим множество процессов управления z = (р*(-), «*())

Ставится задача поиска минимума d = min2 J(z), z Є D и процесса ~z = (р* (-)^0) ^ &> на котором J(z) = d для заданного функционала z J(z) : D -> І21, где

J(z) =/ / /c(, ж, n(, ж)) p(t, x)dxdt + I Fc(x) p(ti, x)dx.

В диссертации рассматриваются задачи оптимизации динамических систем с информационными ограничениями, состоящими в том, что

каждая компонента стратегии щ{Ь, ж), г = 1, m управления может зависеть от своего априори назначаемого набора компонент вектора состояния, в общем случае своего для каждой компоненты.

Сформируем набор функций ua(t, ж), а = 1,пі, п\ < п. Каждая из функций ua(t, ж) представляет собой совокупность всех компонент управления u(t,x) — (ui(t,ж),... ,um(t,x))T, не зависящих от компоненты жа вектора состояния ж Є Rn (подробнее см. 1.4).

Одна из основных идей предложенного в [1, 2] метода Ляпунова-Лаграпжа состоит в замене поставленной задачи с информационными ограничениями другой эквивалентной ей задачей посредством введения

новых дифференциальных связей вида

д

-—ua(t, х) = О, а = 1, пь х Є Rn, дха

задающих информационные ограничения.

В [1, 2] получены условия оптимальности для случая, когда вероятностная мера, задающая распределение вектора состояния процесса, может не иметь плотность. Здесь рассматривается случай, когда эта мера имеет плотность Ср.

Для получения достаточных условий оптимальности вводится класс Ф вектор-функций Ляпунова - Лагранжа (р = (у?0, уз1,..., у"1), где (i, q) -^ q) : Т X С\ -)> Я1, (*, ж, wQ, g) -> (^"(t, ж, a, q) : Т X Rn X Rm X Cp —> і?1, or = l,ni, удовлетворяющих определённым условиям [1, 2].

Строятся конструкции:

#(, ж, м, д) = (&. /і 4- ^- % + /с) g + <Q, Я(*, «(), g) = >?(*, 9)+ / H{t,x,v{x)iq)dx,

G(q) = [ Fc(X)q(x)dx-(p(t1:q), JRn

где - производная Фреше функции уз по переменной q Є Сі2.

Для отыскания оптимального элемента г Є jD, т.е. такого, что J(z) = d доказано утверждение:

Теорема. Если процесс z = (р*(-),и*(-)) Є D удовлетворяет

условиям

a) B(t,u*(t),p*(t)) = mm^v.geca B(t,v,q),

b) Gip*^)) =mmqeC^ G(q),
то он оптимален.

Дадим определение экстремали, как это сделано в [2]. Эстремалыо называется процесс {р*{'), и*{')) Є D, на котором выполняется условие Ь) и условие стационарности в экстремальной задаче а). Далее это определение будет несколько видоизменено, но его содержательный принцип останется тем же.

Характерной чертой представленных в теореме условий оптимальности является то, что операция минимизации по управлению производится локально в каждой точке фазового пространства так же, как и в условиях оптимальности для детерминированных систем [3]-[5]. Необходимые условия, полученные У. Флемингом [45], как и результаты работ [47], [55], не обладают этим свойством. Локальность операции минимизации по управлению позволяет разделить операцию нахождения оптимального управления и операцию поиска вектор-функции ср.

Эти возможности достигаются за счёт того, что в предлагаемой работе, как и в [1, 2], для ограничений информационного типа, представленных в виде дифференциальных связей, вводятся нелинейные функции 1, <>2,..., Пі, играющие роль множителей Лагранжа и имеющие достаточную степень свободы для поиска оптимального управления, удовлетворяющего информационным ограничениям. У. Флеминг в [45] так же, как и его последователи, не вводил функций тина множителей Лагранжа для информационных ограничений. Это приводило к тому, что объективно существующие дифференциальные связи, задающие ограничения, непосредственно входили в формулировки условий оптимальности.

В принципе, свойство локальности операции минимизации по

управлению для ряда практических задач синтеза оптимального управления с неполной обратной связью, естественно, может оказаться не определяющим, и поэтому задача может быть решена средствами работ [17], [18], [45]-[47], [50]-[54], [84]-[87].

Более того, увеличение размерности пространства, в котором проводится операция минимизации по управлению и добавление функций типа Лагранжа, в принципе, может усложнить решение части конкретных практических задач. Однако, если рассматривать предлагаемый подход с точки зрения его приложения к задачам с более сложными ограничениями информационного типа, то это свойство оказывается принципиальным, например, в задаче синтеза децентрализованного управления. Таким образом, в прикладном плане этот подход может оказаться довольно перспективным.

Пусть теперь задача является квазилинейной, т.е. функции /г-(, х, и), gu{t,ж, it), /c(t,a:,u), Fc{x) имеют вид

/i(t, Ж, и) = Ai8(t)xs + Bia(t)ua,

9u(t, x, и) = Gus(t)xs + Fua{t)ua + Cu(t),

fc(t, x, u) = -Dij(t)xiXj + Sai(t)xiUa + -Eaj3(t)uaup,

Считается, что для рассматриваемого здесь процесса плотность вероятности состояния p(t,x) существует и удовлетворяет уравнению Фоккера-Планка-Колмогорова с начальной плотностью p(to, х) — Ро(х). Начальная плотность имеет математическое ожидание то, ковариационную матрицу Ко и считается заданной.

Центральным и одним из основных результатов диссертации является следующая теорема.

Теорема. Для того, чтобы процесс z = (p*(-),u*(-)) Є D был экстремалью, достаточно существования функций га(), K(t), P(i), L{t),

H(t), 7(t), Ai(t), Mij(t), i,j l,n, удовлетворяющих условиям 1)

dm=A»m-BL,

dt dK

= AUK + KAuT + T^KT^T + <,

Au = A - BP} Q=(c + T(m)) (C + T(m))T, T«, - Gils - i^7aPQ

a=l

а также начальные условия для этих уравнений

m(tQ) — то, К (to) = Ко.

Здесь Т^) - матрица размерности п х п, составленная из элементов Xjf,4, (г, s = 1, п), причем, для Т^ ведётся суммирование по всем I.

2)

-^ + 2FsiaFkipMskLaLp — BsaLa\s

— 2~(FslaGkl + FklaCsl)MskLa + 2CslCklMsk + ^EapLaLp = 0, -^- — 2^sk(GsliFkla + GkliFsla)La + 2^skFslaFkipPaiLp + 2^1аРкІрРріЬаМ8к+

+2~{GsuCki + GkuCsi)Msk 2~(FsiaCki + FkiaCsi)PaiMsk — BsaPaiXs + ЛЛ3

—SaiLa + -^EapPaiLp -f -^EapPpiLa — BsaMisLa = 0,

^ + AusiMjs + AusjMis - \Msk(GsliFkia + GknFsla)Paj-

— \Mak{GsljFkla + GkljFsla)Pai + 2~M8kFsiaFklpPaiPpj + 2MskFsiaFkipPajPpi + ~vLf{j &ai-Laj ^aj^ai "r 2 aP a^ PJ ' 2 aP a3 P^* + 2~MskGsliGklj + 2~MskGsljGkli = 0 и условиям при t = t\

7(*i) = , M*i) = , Mi(*i) = Qij-3) Стратегия управления выбирается в виде линейной функции от

состояния системы: иа = — акхк + А*)3 с* — Ij^ij & — 15^- Матрицы Р и L вычисляются по следующим формулам

Р =

я +

і(е + ег)

РГМ + -R + 5 - Я/Г1

L =

^А + ^Т + Я^ш

Лаі = Msk(GsuFkia + GkuFsia), a = 1, m, і = 1, та;

Та = MsJfcя/аСы + PwaCy, a = 1, m;

Bjj = FsiiFkljMsk, г, j = 1, т. 4) Выполнено условие Е + | (в + вт) > 0.

Ненулевые элементы матрицы Н — АН* находятся из системы уравнений

Е+1-(в + вТ)

ВТМ + -R + S- (АН^К'1

= о.

Здесь Л - линейный оператор структуры управления [2], который определён на множестве матриц размеров га X та и принимает значения

на том же множестве. Оператор Л переводит матрицу N с элементами b^j в матрицу Ы с элементами Ь^- = Н^-, если компонента щ стратегии управления не должна зависеть от компоненты Xj , и N^- = 0в противном случае.

Для синтеза оптимального управления с помощью этой теоремы необходимо решить краевую задачу для системы обыкновенных дифференциальных уравнений типа Риккати.

Полученные в диссертации условия оптимальности позволяют решать задачи оптимального управления линейными стохастическими системами со случайными возмущениями в матрицах системы и квазилинейными стохастическими системами с неточно измеряемым вектором состояния и ошибками реализации управления.

Достоверность научных утверждений и выводов, представленных в диссертационной работе, подтверждена строгими математическими доказательствами, численными экспериментами, сравнением полученных результатов с уже существующими.

Апробация работы и публикации. Существенные результаты

диссертации получены в рамках программы "Развитие научного потенциала высшей школы" Министерства Образования РФ (per. N 4549, 2005 г.), а также поддержаны грантом РФФИ (N 06-08-00398). Основные результаты опубликованы в журнале "Известия РАН. Теория и системы управления" [126, 127], а также в [128, 129], обсуждались на между народных конференциях [130]-[134] и научных семинарах Московского авиационного института в 2007 г.

Личный вклад автора. В [126], [130] разработаны достаточные условия оптимальности для квазилинейных стохастических систем при

информационных ограничениях. В [127] созданы численные методы для решения рассмотренных в [126], [130] задач. В [133] проведено обобщение для задач синтеза оптимальных стратегий управления в случае, когда динамическая система управляется неточно и при реализации состояния системы имеются случайные ошибки измерения, также сделано обобщение для задач синтеза оптимальных стратегий управления линейными системами, имеющих в матрицах неизмеряемые возмущения. Показано, что для таких задач могут быть использованы предложенные условия оптимальности. В [127] разработаны численные методы. А в [129], [131], [132], [134] выполнены численные расчёты и синтезировано оптимальное управление для прикладных задач.

Диссертация состоит из введения, пяти глав, заключения и библиографического списка из 134 наименований. Работа изложена на 139 страницах машинописного текста, содержит 14 рисунков и 6 таблиц.

Во введении даётся обзор известных методов оптимального управления динамическими системами с точки зрения доступности информации об объекте, обосновывается научная новизна проведенных исследований и актуальность получения новых результатов, сформулирована цель и задачи диссертационной работы, перечислены полученные в диссертации новые результаты, их практическая ценность, представлены положения, выносимые на защиту и описана структура диссертации.

В первой главе приводится математическая формализация ограничений информационного типа для замкнутых динамических систем. Для представления непрерывных ограничений на процесс управления - наблюдения в виде дифференциальных связей используются

результаты работы [10]. Сформулированы условия оптимальности для стохастических динамических систем диффузионного типа при наличии информационных ограничений. Для удобства изложения представлены результаты работ Хрусталёва М.М. [1, 2], в которых получены условия равновесия по Нэшу в стохастических дифференциальных играх при неполной информированности о состоянии. В случае одного игрока задача преобразуется в задачу оптимального управления.

Во второй главе исследуется задача оптимального управления стохастической квазилинейной системой с квадратичным критерием качества при неполной информации. Сформулированы новые условия оптимальности. Проблема синтеза стратегии управления сводится к решению краевой задачи для системы обыкновенных дифференциальных уравнений типа Риккати.

В третьей главе предлагается несколько схем численных методов поиска стратегий оптимального управления диффузионным стохастическим процессом при наличии информационных ограничений. В случае, когда уравнения управляемой системы линейны или квазилинейны, а критерий качества квадратичен, неформальные элементы методов поиска приобретают форму регулярных вычислительных процедур.

Четвертая глава содержит описание программного комплекса, который на основе одной из разработанных численных схем решает задачу оптимального управления стохастической квазилинейной системой управления с квадратичным критерием качества.

В пятой главе рассматриваются примеры управления различными техническими объектами, для решения которых используются полученные

условия оптимальности. Анализируются случаи различной информированности о состоянии. Продемонстрирована применимость на практике полученных результатов.

Практическая значимость диссертационной работы состоит в концептуальном подходе, позволяющем использовать полученные условия оптимальности для управления сложными техническими объектами. Представленные условия оптимальности позволяют, в частности, решать следующие задачи оптимального управления квазилинейными системами в условиях неполноты информации:

- синтезировать оптимальное управление, в котором каждая
из компонент управления зависит от своего, назначаемого заранее
набора компонент вектора состояния. В работах У. Флеминга [45],
В.В. Семёнова [46], А.В. Пантелеева [50] все компоненты вектора управ
ления зависят от одного и того же набора компонент вектора состояния;

- указанная в предыдущем пункте особенность позволяет решать
задачи оптимального управления многокомпонентными системами
с децентрализованным управлением. В отличие от работ Д. Шильяка [65],
в которых для таких задач строится лишь управление, обеспечивающее
устойчивость, предлагаемые методы позволяют синтезировать оптималь
ное управление;

- решать задачи оптимального управления при наличии
мультипликативных возмущений и ошибок реализации управления;

при синтезе оптимального управления учитывать шумы в матрице управляемой системы и ошибки измерений переменных состояния;

оценивать проигрыш по критерию в результате отказа от измерения

части компонент вектора состояния;

- решать задачи оптимального управления системами, в которых управление осуществляется не с помощью компьютера, а за счёт реакции конструкции системы на изменение переменных состояния. Классический пример такой системы - регулятор Уатта.

Отметим, что в упомянутых работах У. Флеминга, В.В. Семёнова, А.В. Пантелеева, Д. Шильяка конструктивные условия оптимальности получены лишь для линейных систем. Квазилинейные системы с неполной информацией о состоянии ранее не были исследованы.

В качестве области практического использования результатов диссертационной работы можно указать пико- и наноспутники, на которые зачастую невозможно установить дорогостоящие высокоточные системы измерения всего вектора состояния и реализации управления, при этом функционирование системы производится в условиях случайных возмущений и недостаточной информации о состоянии.

Полученные в диссертации результаты могут быть использованы в профильных организациях при разработке и эксплуатации систем управления летательными аппаратами. При этом многие результаты имеют более широкую область применения. Теоретические результаты внедрены в учебный процесс на факультете Прикладной математики МАИ и преподаются студентам старших курсов кафедры Математической кибернетики.

Научные результаты, выносимые на защиту:

1. условия оптимальности, алгоритмы и методы в задачах управления стохастическими квазилинейными динамическими системами

28 при измерении части компонент вектора состояния;

  1. условия оптимальности, алгоритмы и методы в задачах управления квазилинейными стохастическими динамическими системами с информационными ограничениями при случайных погрешностях измерения вектора состояния и управления;

  2. условия оптимальности, алгоритмы и методы в задачах управления линейными динамическими системами с учётом случайных возмущений матрицы системы при измерении части компонент вектора состояния;

  3. принципы построения численных методов синтеза стратегий оптимального управления диффузионными процессами при неполной информации о состоянии;

  4. численные методы синтеза оптимальных стратегий управления для линейных и квазилинейных задач оптимального управления с информационными ограничениями.

Постановка задачи оптимального управления стохастическими системами диффузионного типа при наличии информационных ограничений

Личный вклад автора. В [126], [130] разработаны достаточные условия оптимальности для квазилинейных стохастических систем при информационных ограничениях. В [127] созданы численные методы для решения рассмотренных в [126], [130] задач. В [133] проведено обобщение для задач синтеза оптимальных стратегий управления в случае, когда динамическая система управляется неточно и при реализации состояния системы имеются случайные ошибки измерения, также сделано обобщение для задач синтеза оптимальных стратегий управления линейными системами, имеющих в матрицах неизмеряемые возмущения. Показано, что для таких задач могут быть использованы предложенные условия оптимальности. В [127] разработаны численные методы. А в [129], [131], [132], [134] выполнены численные расчёты и синтезировано оптимальное управление для прикладных задач.

Диссертация состоит из введения, пяти глав, заключения и библиографического списка из 134 наименований. Работа изложена на 139 страницах машинописного текста, содержит 14 рисунков и 6 таблиц.

Во введении даётся обзор известных методов оптимального управления динамическими системами с точки зрения доступности информации об объекте, обосновывается научная новизна проведенных исследований и актуальность получения новых результатов, сформулирована цель и задачи диссертационной работы, перечислены полученные в диссертации новые результаты, их практическая ценность, представлены положения, выносимые на защиту и описана структура диссертации.

В первой главе приводится математическая формализация ограничений информационного типа для замкнутых динамических систем. Для представления непрерывных ограничений на процесс управления - наблюдения в виде дифференциальных связей используются результаты работы [10]. Сформулированы условия оптимальности для стохастических динамических систем диффузионного типа при наличии информационных ограничений. Для удобства изложения представлены результаты работ Хрусталёва М.М. [1, 2], в которых получены условия равновесия по Нэшу в стохастических дифференциальных играх при неполной информированности о состоянии. В случае одного игрока задача преобразуется в задачу оптимального управления.

Во второй главе исследуется задача оптимального управления стохастической квазилинейной системой с квадратичным критерием качества при неполной информации. Сформулированы новые условия оптимальности. Проблема синтеза стратегии управления сводится к решению краевой задачи для системы обыкновенных дифференциальных уравнений типа Риккати.

В третьей главе предлагается несколько схем численных методов поиска стратегий оптимального управления диффузионным стохастическим процессом при наличии информационных ограничений. В случае, когда уравнения управляемой системы линейны или квазилинейны, а критерий качества квадратичен, неформальные элементы методов поиска приобретают форму регулярных вычислительных процедур. Четвертая глава содержит описание программного комплекса, который на основе одной из разработанных численных схем решает задачу оптимального управления стохастической квазилинейной системой управления с квадратичным критерием качества. В пятой главе рассматриваются примеры управления различными техническими объектами, для решения которых используются полученные условия оптимальности. Анализируются случаи различной информированности о состоянии. Продемонстрирована применимость на практике полученных результатов. Практическая значимость диссертационной работы состоит в концептуальном подходе, позволяющем использовать полученные условия оптимальности для управления сложными техническими объектами. Представленные условия оптимальности позволяют, в частности, решать следующие задачи оптимального управления квазилинейными системами в условиях неполноты информации: - синтезировать оптимальное управление, в котором каждая из компонент управления зависит от своего, назначаемого заранее набора компонент вектора состояния. В работах У. Флеминга [45], В.В. Семёнова [46], А.В. Пантелеева [50] все компоненты вектора управ ления зависят от одного и того же набора компонент вектора состояния; - указанная в предыдущем пункте особенность позволяет решать задачи оптимального управления многокомпонентными системами с децентрализованным управлением. В отличие от работ Д. Шильяка [65], в которых для таких задач строится лишь управление, обеспечивающее устойчивость, предлагаемые методы позволяют синтезировать оптималь ное управление.

Оптимизация квазилинейных стохастических систем при наличии случайных погрешностей вектора состояния и реализации управления

Предлагаемые численные методы поиска оптимальных траекторий выступают аналогами широко известной градиентной процедуры в функциональном пространстве для классической задачи оптимального управления, описание которой можно найти, например, в [115]. Идея предложенных методов восходит к алгоритму, описанному Беллманом [116], которая заключается в следующем. Сначала на всем интервале времени функционирования системы Г задаётся управление, удовлетворяющее информационным ограничениям. Его можно выбрать, исходя из каких-либо предположений, или произвольно. Т.о. определяется нулевое приближение управления, которое необходимо уточнять. Далее возможны два пути решения задачи: либо сначала с выбранным управлением построить плотность распределения вероятности p(t,x) процесса, проинтегрировав уравнение ФПК в последовательно возрастающие моменты времени от to до i, а затем решить относительно 0(, х) уравнение (1.31) от t\ до to; либо сначала найти ip(t,x), а потом p(t, х). При известных ф (, х) и p(t, х) получить следующее приближение управления из (1.30), которое будет использовано для вычисления ip(t,x), p(t,x) на следующей итерации. Шаги повторяются до достижения заданной точности по критерию J.

Конечно, интегрирование уравнения ФПК представляет собой отдельную сложную задачу, которая до сих пор в общем виде не решена. Разработаны методы, позволяющие приближённо находить плотность распределения вероятности [117], которая аппроксимируется известными функциями переменных состояния, где используются зависящие от времени неопределённые параметры. В результате вместо уравнения ФПК существующими численными методами решается система обыкновенных дифференциальных уравнений для этих параметров.

В квазилинейном случае, когда нужно получить первые и вторые центральные моменты плотности распределения вероятности (см. 2.2), вместо уравнения ФПК интегрируется совокупность уравнений для математического ожидания и ковариационной матрицы, которая представляет собой задачу Коши [30].

Опишем принципы построения численных методов для систем общего вида. Их частичному обоснованию посвящен раздел 3.3. В разделе 3.4 методы будут конкретизированы для квазилинейных систем.

Основу предлагаемых здесь численных методов составляет теорема 3. Каждый из методов содержит три неформальных процедуры, которые опишем отдельно.

Процедура 1 — решение уравнения для плотности вероятности. Процедура состоит в том, что при заданной стратегии u(t, х) и известном начальном условии р$ = ро(-) находится функция p (t) = p(t, ) как решение уравнения (1.3) с граничным условием (1.4). Функция р(, ) описывает эволюцию во времени плотности вероятности состояния системы х. Решается классическое уравнение ФПК в частных производных с использованием известных приближённых численных методов [117]. При решении уравнения ФПК непосредственно получается плотность р(,ж). При необходимости будем особо выделять "динамическую процедуру 1", когда плотность распределения p(t: х) строится в последовательно возрастающие моменты времени t, начиная от момента to до момента t\ to, например, с помощью процедуры Эйлера или Рунге-Кутты второго порядка (предиктор-корректор) и т.д. Если способ построения плотности p(t, х) не существенен, будем ссылаться просто на процедуру 1.

Процедура 2 — решение сопряжённого уравнения. Предполагает решение при известной стратегии u(t, х) уравнения в частных производных второго порядка (1.31) с граничным условием (1.32), для получения которого, как и в случае процедуры 1, можно использовать любые известные методы. Функция Fc{x) в (1.32) считается заданной. Решение ip(t,x) этого уравнения должно удовлетворять теоретико-функциональным требованиям, оговорённым выше. Здесь также особо будем выделять "динамическую процедуру 2", по, в отличие от предыдущей процедуры, функция ip(t, ) строится при убывающем от t\ к to времени (в обратном времени). Название "сопряжённое уравнение" оправдано тем, что уравнение (1.31) здесь играет ту же роль, что и сопряжённая система в классическом принципе максимума Понтрягина.

Процедура 3 — построение стратегии управления с информационными ограничениями. Выполняется при фиксированном t Є Т, известных плотности распределения p(t,x), функции ift(t,x) и состоит в построении функций ipa(t, , ), а = 1, п\ и вычислении стратегии u(t, х) из условия (1.30). Функции (х,иа) —у фа(1,х,иа) : Rn х Rm —у R играют роль множителей Лагранжа, обеспечивающих выполнение ограничений (1.2), т.е. независимость стратегии u(t, х) от оговорённых компонент вектора х. Очевидно, что функции фа можно выбрать зависящими лишь от компонент стратегии w, содержащихся в векторе иа. Если таких компонент нет, то можно положить фа — 0. К сожалению, в настоящее время регулярные методы реализации процедуры 3 в общем случае отсутствуют. Этот вопрос требует дальнейших исследований.

Квазилинейные задачи с квадратичным критерием

Решение краевой задачи (2.13)-(2.23) в аналитическом виде возможно не всегда, поэтому возникает задача численного интегрирования указанных уравнений, методы решения которой для синтеза стратегий оптимального управления разработаны в главе 3.

В связи с этим появилась необходимость создать программное обеспечение для решения целого класса задач управления квазилинейными стохастическими динамическими системами при информационных ограничениях с квадратичным критерием качества управления, подробная постановка которой дана в 2.1. В такой программе нужно обеспечить с одной стороны ясный и понятный пользователю интерфейс, позволяющий производить как можно меньше ручных операций, а с другой - сделать скорость расчётов максимальной.

Чтобы удовлетворить этим требованиям, в качестве инструмента разработки программного обеспечения была выбрана среда "Делфи 5.0" ("Delphi 5.0"). Использование такой среды позволяет создавать современный пользовательский интерфейс, а также увеличить скорость расчетов по сравнению с общеизвестными математическими пакетами, как "Маткад" ("Mathcad"), "Математика" ("Mathematic") или "Мэпл" ("Maple").

Программа обладает следующими характеристиками: 1. описывает динамический объект и критерий качества управления при помощи матриц и скалярных величин, определяющих систему; 2. задает измеряемые компоненты вектора состояния; 3. синтезирует стратегии управления и моделирует поведение вектора состояния в зависимости от начальных условий; 4. строит графики изменения всех расчётных величин и представляет их в табличном виде; 5. рассчитывает критерий качества управления; 6. позволяет параметризовать задачу, чтобы получать решение одной и той же задачи с разными входными данными; 7. сохраняет результаты численного интегрирования в формате xml, который сегодня является одним из общепринятых способов хранения структурированных данных. Программа называется "SolveControl", написана в среде программирования "Делфи 5.0" ("Delphi 5.0") на языке "Обжект Паскаль" ("Object Pascal"). Предназначена для использования в операционной системе "Виндоус-95" ("Windows-95") и выше. Функциональное назначение Программа реализует расчёт оптимального управления для непрерывных стохастических квазилинейных систем при неполной информации о векторе состояния с квадратичным критерием качества управления. Программа имеет ограничение на память, выделяемый объём которой напрямую зависит от размерности задачи, а также от величины шага интегрирования. Функции, вводимые в качестве начальных данных, - функции, зависящие от времени t. Описание логической структуры Программа реализует алгоритм метода 1/, описанный в 3.4. При этом пользователь может выбрать один из методов интегрирования [121]: явного модифицированного метода Эйлера второго порядка или неявного метода Симпсона четвертого порядка. Для хранения входных данных и полученных результатов, для работы с ними и проведения расчётов создан класс под названием TSolveControl. После ввода начальных данных на экранную форму они передаются в объект класса. В классе реализована процедура Solve, которая включает в себя следующие процедуры: SolveL2R (вычисления слева-направо по оси t для решения уравнений (2.13), (2.14) с начальными условиями (2.15) ), SolveR2L (вычисления справа-налево Каждая решаемая задача является отдельным проектом в программе. Для начала работы необходимо задать начальные данные: размерность векторов состояния и управления, интервал и шаг интегрирования, точность численного метода и др. (рис. 4.2). Далее в главном окне программы пользователь задает все матрицы динамической системы, а также зависимость управления от координат вектора состояния (рис. 4.3). Обозначения всех элементов совпадают с постановкой задачи в главе 2 и для удобства пользователя приведены в справочном файле. Далее можно посчитать одну итерацию численного метода, описанного в главе 3, или провести весь блок вычислений, который будет выполняться до тех пор, пока разница между значения критерия на двух соседних шагах не станет меньше заданного значения. Результаты отображаются в том же окне (рис. 4.4). При этом можно посмотреть зависимость от времени как среза каждой матрицы в узлах сетки для решения уравнений (2.16)-(2.18) с граничными условиями (2.19) ), SolveXU (численная реализация вектора состояния и вектора управления). Также существует процедура Plot, которая строит графики функций. Алгоритм работы программы представлен на блок-схеме (рис. 4.1).

Задача демпфирования колебаний спутника Земли с гравитационной стабилизацией

Здесь рассматриваются примеры задач управления различными летательными аппаратами. В 5.1 это задача демпфирования колебаний спутника Земли с использованием электромагнитных управляющих устройств, а в 5.2 - задача о стабилизации орбиты искусственного спутника Земли, управляемого реактивными двигателями.

В поставленных задачах не учитываются многие существенные факторы, которые нужно принимать во внимание при разработке стратегии управления реальными Л А. Это неточность измерения переменных состояния, аддитивные шумы, связанные с влиянием атмосферы (для низких спутников), неточность принятой математической модели и т.д. Приводимые здесь решения задачи имеют целью продемонстрировать применимость теории к прикладным задачам.

Многие из указанных выше факторов принципиально могут быть учтены в рамках предлагаемой математической теории. Задача демпфирования колебаний спутника Земли с гравитационной стабилизацией Задача оптимального управления космическими спутниками на околоземной орбите достаточно хорошо изучена. Подобные задачи были детально рассмотрены в работах [122, 123] и др. В связи с ростом в последнее время числа запусков нано- и пико-спутников, которые имеют жёсткие ограничения по весу и на которые зачастую нельзя установить устройства, позволяющие получить все полётные характеристики, возникает задача оптимального управления при неполной информации. Угловое движение спутника рассматривается в орбитальной системе координат (г,п,т) с началом в центре масс О (Рис. 5.1). Ось г направлена по радиус-вектору от центра Земли, ось г - по касательной к орбите. Ось п - по нормали к орбите, (жз, 2/з, -) связанная система координат. Для исследования малых колебаний около положения относительного равновесия спутника, движущегося по круговой орбите, достаточно для функции Гамильтона сохранить члены до второго порядка малости включительно. Гамильтониан [123, стр. 50] Во время движения по орбите вокруг Земли искусственные спутники взаимодействуют с магнитным полем Земли. Как отмечено в [124], это взаимодействие обусловливается наличием токовых систем и постоянных магнитов на спутнике, намагничиванием оболочки спутника, возникновением вихревых токов в оболочке и т.п. Поэтому такое взаимодействие можно использовать для стабилизации спутника. Как известно [124], при взаимодействии внешнего магнитного поля напряжённости Н и собственного магнитного поля тела, обладающего магнитным моментом С/, возникает момент сил М, определяемый

Похожие диссертации на Оптимальное управление стохастическими квазилинейными системами с информационными ограничениями