Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Дискретные задачи оптимального управления Ждид Майсам Ахмед

Дискретные задачи оптимального управления
<
Дискретные задачи оптимального управления Дискретные задачи оптимального управления Дискретные задачи оптимального управления Дискретные задачи оптимального управления Дискретные задачи оптимального управления Дискретные задачи оптимального управления Дискретные задачи оптимального управления Дискретные задачи оптимального управления Дискретные задачи оптимального управления Дискретные задачи оптимального управления Дискретные задачи оптимального управления Дискретные задачи оптимального управления Дискретные задачи оптимального управления Дискретные задачи оптимального управления Дискретные задачи оптимального управления
>

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Ждид Майсам Ахмед. Дискретные задачи оптимального управления : диссертация ... кандидата физико-математических наук : 05.13.18.- Тверь, 2002.- 145 с.: ил. РГБ ОД, 61 03-1/616-3

Содержание к диссертации

Введение

Глава I. Необходимые и достаточные условия оптимизации для дискретных задач 5

1. Принцип максимума в дискретной задаче оптимального управления 5

2. Определение сопряженных векторов в дискретной задаче оптимального управления 15

3. Формула приращения функционала 22

4. Метод динамического программирования 26

5. Метод возможных направлений для дискретной задачи оптимального управления 36

Глава II. Математические модели использования и сохранения природных ресурсов в условиях индустриализации 45

1. Модель использования и восстановления ресурсов в условиях индустриализации 45

2. Модель использования и сохранения природных ресурсов с учетом инвестиций 51

3. Билинейная дискретная модель использования природных ресурсов с фазовыми ограничениями 57

4. Задача оптимального управления процессом рыбной ловли, описываемая дискретной моделью 76

Глава III. Задачи оптимального управления процессом рыбной ловли 86

1. Простая линейная модель оптимального использования восстанавливающихся ресурсов 86

2. Модель управления процессом рыбной ловли 94

3. Необходимые условия оптимальности в задаче линейной по управлению 101

4. Задача об использовании возобновляющихся ресурсов со слабой миграцией 116

Литература 127

Определение сопряженных векторов в дискретной задаче оптимального управления

Смысл данной теоремы можно выразить так: экстремум в правой части соотношения (4.9) достигается на оптимальном управлении, под-управление [й]-1 оптимального управления - оптимально и как следствие - подпуть [ж]-1 оптимального пути - оптимален. Дискретное уравнение Беллмана дает точное выражение принципа перехода: улучшая траекторию не ухудшать ее оптимальной части. Эти два принципа, высказанные Беллманом Р. и Айзексом Р., вскрывают суть разрабо-таного ими метода динамического программирования.

Дискретное уравнение Беллмана является достаточным условием оптимальности. Конкретным выражением метода динамического программирования для дискретных управляемых процессов является схема Беллмана, непосредственно использующая рекуррентные соотношения (4.10), (4.11). Схема Беллмана Алгоритм решения задачи (4.1) - (4.4) состоит из трех этапов. I этап (по убывающему индексу к) Для к = q согласно (4.11) Vq{x) = Ф{х), х Gq, [Gq = Xq). (q — 1) шаг: Строим множество Gq-\ С Xq-\ (если для х Xq_i существует и Є Uq l, такое что Рд г(х,и) Є Gq, то х Є G9_i, aitG Dq 1(x) и для каждого х Gq-\ - множество допустимых компонент управлений Dq 1(x).

Далее для каждого х Є Gq-\ находим значение функции Беллмана, используя (4.10): Vq \x) = infu\fll{x,u) + V f4.,{x,u))] (4.13) и uq 1(x)- компоненту оптимального управления в каждой точке х Є Gq-\ на шаге q — 1, на которой достигается эсктремум в (4.13). (q — 2) шаг: Находим множество Gq-i С Xq_2 и для каждого х Є Gq-2 строим множество Dq l(x). х Є Gq-2 Решая задачу минимизации (4.14) для каждого х Є G9_2 определяем значение функции Беллмана Vq 2(x) и йя 2(х) - компоненту оптимального управления в каждой точке х Є Gg_2 на (q — 2) - ом шаге и т. д. для каждого к — q — 3,..., 0.

Решая задачу (4.15), находим V(x) и й(х) для каждого х Є G0. Итак, на 1-ом этапе решения задачи (4.1) - (4.4) для каждого х Є Gk-, к = 0,... ,q — 1 находятся значения функции Беллмана Vk(x) и компоненты оптимального управления йк{х) для каждого х Є Gk, к — 0,. ..,д-

Найденное на I этапе оптимальное управление является синтезом. В отличие от программного управления, которое зависит только от момента времени t (шаг к) и определено только для точек хк, к = 0,..., q - 1, принадлежащих оптимальнойтраектории, синтезирующая функция управления и — й(, х) зависит от t и х для всех точек х Є UjfeI0Gb Таким образом решение уравнения Беллмана равносильно решению проблемы синтеза для задачи (4.1) - (4.4), которая заключается в построении оптимального управления в форме синтеза, т. е. зависящего от состояния системы хк Є Gk на каждом из шагов.

Находится ж0 Є Go - оптимальная точка из условия минимизации функции V(x) на множестве Go и оптимальное значение целевой функции (4.1): I 0=V(x)= inf ИИ. (4.16) III этап (по возрастающему индексу к) Последовательно применяя найденный оптимальный синтез йк(х) и оператор перехода (4.2) с учетом начальной фазовой точки (4.16), находим оптимальную траекторию [х]1 = (ж0, ж1,... ,хя) и соответствующее оптимальное управление [й}1 — (й, й1,..., й4"1). x - найдено на II этапе; и0 = и(х) - найдено на I этапе; х1 = /0(ж,й); й1 = й1 1) - найдено на I этапе;

Заметим, что вообще говоря, оптимальная траектория и соответствующее ей управление могут быть не единственными.

Таким образом, с помощью метода динамического програмирова-ния решение задачи оптимального управления оказалось сведенным к решению серии более простых задач нахождения минимума известных функций.

Пусть найдены функции Vk(x) из (4.10), (4.11) и их области определения Gki а также функции и — ик(х), х Є G ., к = 0, q — 1, на которых достигается нижняя грань (4.10), и пусть х определена согласно (4.17). Тогда оптимальное управление [й]1 и оптимальная траектория [х]1 для задачи (4.1) - (4.4) определяется соотношениями (4.16). (4.17).

Сфрмулируем теорему о существовании функции Беллмана и синтезирующей функции то есть условие при котором дискретное уравнение Беллмана (4.10) вместе с краевым условием (4.11) образуют необходимые и достаточные условия оптимальности.

Пусть в задаче (4.1) - (4.4) множества Х к = 0, ...,q замкнуты, множества Uk, к = 0,... , g - 1 замкнуты и ограничены, функция $1(х,и) полунепрерывна снизу, а функция fk(x,u) непрерывна по совокупности аргументов в области определения, Ф(х) полунепрерывна снизу на множестве Xq. Тогда: 1) множества (7fe, к = 0,..., q замкнуты, множества Dk(x), к — 0,... , q — 1 замкнуты и ограничены равномерно по ж Є Gk , 2) нижняя грань в правой части (4.10) достигается хотя бы при одном и = ик(х) Є Dk{x)\ 3) функция Vk(x) полунепрерывна снизу на Gk-, к = 0,... , д.

Представим минимизируемый функционал в эквивалентном виде. Зададим на каждом из множеств Хг функцию КІ(Х), называемую функ цией Кротова. Пусть К{{х), г = 0, q - непрерывно- дифференцируемые функции. Введем следующие функции: Сформулируем достаточные условия оптимальности в форме Кротова. В пространстве Rn х Rr введем множества D\ і — 0,..., q - 1, точек (х,и) следующим образом: (х,и) Є Dl, если существует допустимый процесс ([ж], [it]) Є D такой, что хг = х, иг = и. Иными словами D%-множество векторов (хг,иг) допустимого процесса на г - ом шаге, г = 0,..., ?-!.

Далее через Gi, і = 0,...,g — 1 обозначим множество всех точек х Є ХІ, для которых существует хотя бы один вектор и Є Ul такой, что (х,и) G D1. Иначе, х Є Gi С ХІ, если существует управление [гі] Є U{x), переводящее с помощью рекуррентных соотношений (4.2) точку 0 Є XG в точку х Є ХІ И затем точку х Є Х,; в некоторую точку xq Є Xq. Тогда G0 = {х Є Х0 : Ї/(Е) }г то есть С0 является множеством допустимых начальных точек ж0, для которых существует допустимый набор управлений [и], переводящий точку ж0 на терминальное множество Xq. Аналогично определяется множество достижимых точек Gq С Xq : Gq = {х Є Xq : С/0(х) ф 0}, - это множество терминальных точек я 3, для которых существует допустимое управление, переводящее точку начального множества в данную точку хч терминального множества Xq.

Метод возможных направлений для дискретной задачи оптимального управления

В пространстве Rn х Rr введем множества D\ і — 0,..., q - 1, точек (х,и) следующим образом: (х,и) Є Dl, если существует допустимый процесс ([ж], [it]) Є D такой, что хг = х, иг = и. Иными словами D%-множество векторов (хг,иг) допустимого процесса на г - ом шаге, г = 0,..., ?-!.

Далее через Gi, і = 0,...,g — 1 обозначим множество всех точек х Є ХІ, для которых существует хотя бы один вектор и Є Ul такой, что (х,и) G D1. Иначе, х Є Gi С ХІ, если существует управление [гі] Є U{x), переводящее с помощью рекуррентных соотношений (4.2) точку 0 Є XG в точку х Є ХІ И затем точку х Є Х,; в некоторую точку xq Є Xq. Тогда G0 = {х Є Х0 : Ї/(Е) }г то есть С0 является множеством допустимых начальных точек ж0, для которых существует допустимый набор управлений [и], переводящий точку ж0 на терминальное множество Xq. Аналогично определяется множество достижимых точек Gq С Xq : Gq = {х Є Xq : С/0(х) ф 0}, - это множество терминальных точек я 3, для которых существует допустимое управление, переводящее точку начального множества в данную точку хч терминального множества Xq.

Пусть на множествах Хг определены непрерывно дифференцируемые функции Ki(x) : Gi — JR, І = 0,... , g, такие, что вместе с последовательностью ([x]k, [u]k) Є D, к = 0,1,... , допустимых процессов, они удовлетворяют следующим трем условиям: тогда последовательность процессов ([я]ь[ч!ь) к = 0,1,... является минимизирующей.

В формулировке теоремы к- это номер элемента минимизирующей последовательности, і- индекс временного шага в наборе векторов состояний и управлений Хк — \Х\к1" J nfc)» Ul — \и1к1 Urn) Хк — (Ж1iXnk)i Хк — \xlki )\) Если ([ж], [и]) - произвольный допустимый процесс в задаче (4.1)-(4.3), то используя представление (4.21), верное для любого допустимого процесса и любого набора функций КІ(Х), і = 0,... , g, легко вычислить разность значений минимизируемой функции:

Формула (4.22) верна для любого допустимого процесса, и последовательность ([zjbMfe)» & = 0,1,... удовлетворяет условиям теоремы. В этом равенстве можно переходить к пределу при к — сю, так как правая часть по условию имеет предел.

Предположим, что функции /,/г,Ф, г = 0,..., q — 1, ограничены снизу в области определения. Заметим, что если начальное множество Х ограничено и замкнуто, множества 17г, г = 0, ...,д — 1 ограничены и замкнуты, множество допустимых процессов D ф 0 и функции /,/І,Ф, г = 0, ...,q — 1 непрерывны по совокупности аргументов в области определения, то по теореме Вейерштрасса решение задачи существует. Действительно, все состояния хх можно рассматривать как некоторые функции набора управлений [и], хг = хг([и}) и начальной точки. Поэтому минимизируемая функция зависит от набора управлений [и] и начального состояния ж0, то есть на замкнутом ограниченном множестве Хо х U(x) достигает своей верхней и нижней грани. В случае существования оптимального процесса теорема о достаточных условиях оптимальности формулируется следующим образом.

В формулировке теоремы присутствуют множества Go,Gq и D1, на которых определяются экстремумы функции. Иногда вместо D1 рассматривают прямое произведение множеств U1 х Х{, так как во многих случаях построить эти множества в явном виде достаточно трудно. Также полезно прямое произведение расширять до некоторого множества с "хорошими свойствами", но затем надо доказать, что найденный экстремум будет принадлежать множеству D1, т. е. проверить построенное решение задачи на допустимость. Если удается построить множество Dl(x) - множество компонент допустимых управлений на г - ом шаге, то замена множества D% на прямое произведение Dl(x) х Хг и х на Go во многих случаях фактически обеспечивает выполнение условия допустимости для найденного решения. Приведенные замечания касаются также множеств GQ и Gq. Если существует хотя бы один набор функций К{(х), г = 0,... ,q удовлетворяющий условиям теоремы 3.1, тогда набор КІ(Х) 4- СІ, І — О,... ,g, где d - произвольные константы, тоже будет удовлетворять условиям теоремы. Поэтому без ограничения общности в теореме 4.5 можем принять

Билинейная дискретная модель использования природных ресурсов с фазовыми ограничениями

В этой главе мы обсудим простую, но общую детерминированную модель восстанавливающихся ресурсов. Пусть х = ( -вещественная переменная, представляющая биомассу данного биологического ресурса в данный момент времени t 0. Фундаментальное уравнение нашей модели имеет вид. = F(x,t)-h(t), (1.1) где F(x, )-заданная функция, описывающая естественный рост ресурса биомассы, (і)-обозначает скорость использования. Первоначальная популяция х(0) считается известной.

Выбирая функцию F(x, і) различными способами, мы получим множество моделей, которые были исследованы другими авторами [], []. Например, функция роста F(x,t) = гх (1 — j ) приводит к модели Ше-фера, которая часто используется в управлении рыбным промыслом. Альтернативная модель рыбного промысла, принадлежащая Беверто-ну и Холту использует функцию роста в виде F(x,t) = д(х)х. Функция F(x,t) = at bxce dx используется в ряде экономических моделей. Наконец, случай F(x, t) = 0 приводит к модели использования невос-станавливющихся ресурсов. Вопрос о выборе критерия при определении оптимальной эксплуатации ресурсов всегда труден. Стандартный экономический критерий состоит в максимизации величины чистого дохода,прибыли. Пусть р цена единицы добываемого ресурса, с-стоимость единицы добычи. Положим Q=P-c, (1.2) где Q(t, ж)-единица чистого дохода, которая зависит от времени t и от количества ресурса х во время t : Базовое предположение, однако, состоит в том, что Q не зависит от скорости использования ресурса h(t). Легко видеть, что это предположение приводит к линейной задаче оптимального управления.

Если 6 = 6(снижения доходов равен: a{t)=exp\- I 8(r)dT\ (1.3) Следовательно, мы можем записать текущую величину чистого дохода, соответствующего заданной политике добычи h(t), t 0 в виде интеграла определенного на фиксированном интервале времени t) обозначает мгновенную учетную ставку во время t, то дисконт-фактор для [О, Т] :

Заметим, что в частности, окончание процесса, то есть момент времени Г может выбираться оптимальным. В этом случае J(h,T).

Требуется определить оптимальную политику добычи-допустимую функцию h (t), которая максимизирует (1.4) в определенном классе допустимых управлений и удовлетворяет дифференциальному уравнению (1.1), а также очевидным ограничениям x(t) 0. (1.5) Под допустимым управлением мы понимаем любую измеримую функцию h(t), определенную при t 0 и удовлетворяющую неравенству: 0 h(t) hmax, t[0,T], (1.6) где hmax = hrnax(x,і)-заданная неотрицательная функция, представляющая максимум усилий по добыче. Задача (1.1)—(1.5) является задачей оптимального управления и исследуется при стандартных предположениях гладкости и единственности решения. Математическая теория оптимального управления применяется для построения решения в модели оптимального рыбного лова, накопления капитала и эксплуатации полезных ископаемых, оптимального восстановления и прореживания леса, в модели, о политике оптимального инвестирования.

Управление h(t) может быть исключено из интеграла (1.4) с помощью замены h(t) = F(x,t) — і, в результате чего мы получаем: I(x) = f{G{x,t) + H{x,t)x}dt, (1.7) to где t0 = О, a ti = Т (В частности Т может быть равно сю). Мы, однако, будем предполагать, что t0 и -произвольные, но конечные: это предположение будет легко ослаблено позднее. Ограничения (1-6) могут быть выражены в форме: A(t,x) x(t) B(t,x), (1.8) где А и .В-заданные функции от t и х. Функции А, В, (7, Я достаточно гладкие. Требуется найти максимум І(х) в классе кусочно-гладких функций ъ удовлетворяющих ограничениям (1.5), (1.8) и значениям в конечных точках:

Эта задача представляет собой так называемый сингулярный случай простейшей задачи вариационного исчисления. Рассмотрим уравнение Эйлера-Лагранжа для поставленной задачи:

Предположим, что функция F(x,t) не зависит от времени явно F(x,t) = /(ее), где /(0) = f(K) = 0 и f"(x) 0. Возьмем конечное значение времени Т, положим, S(t) = 0 и Q(t, х) = 1. Задача состоит в том, чтобы максимизировать общее количество добываемого продукта Y на заданном интервале времени:

Если XQ ж , то оптимальная политика такова: добывать доступный ресурс с максимально доступным темпом, достигая максимального дохода. Если XQ Ж , ТО добыча не должна производиться до тех пор, пока запас ресурса не достигнет уровня х .

Максимальный доход-наиболее популярная общепризнанная стратегия оптимальной восстанавливающихся ресурсов. Она является базой для почти всех существующих международных соглашений в морском рыбном промысле. Тем не менее экономисты критически отзываются об этой концепции из-за ее неспособности учитывать издержки, связанные с добычей. Следующая модель включает такие издержки. Рассмотрим модель Гордона-Шефера рыбного промысла. Пусть теперь функция роста имеет вид: f{x) = rx(l- j. (1.14) Предположим, что константа j -цена и пусть стоимость единицы улова обратно пропорциональна уровню запаса х. (Последнее предположение вытекает из того допущения, что рыбаки производят поиск случайным образом на месте, с равномерно распределенной рыбой). Таким образом Q(t, х) — Q(x) = р , где с = const. (1-15) Оптимальное управление рыбным промыслом должно состоять не в максимизации добываемого продукта, а скорее в максимизации экономической прибыли Q(x)h(x). Это приводит к тому, что величина х определяется выражением:

Модель управления процессом рыбной ловли

Численное решение задачи об оптимизации процесса рыбной ловли получено на ЭВМ в среде программирования Delphi 5. В работе проанализировано влияние параметров задачи на оптимальное решение. Пусть в этой системе время ловли Т достаточно велико (неограничено) и u(t) = 0. Если задать начальные условия, то можно проследить за изменением биомассы мелкой и крупной рыбы при естественном развитии рыбной популяции (результаты 1-4, 9-12, 17-21).

Рассмотрим функцию M(t) = x2(t) + Xi(t).

Поскольку мы можем проследить за изменением функции М(), то есть за естественным развитием биомассы популяции. Поскольку масса крупной рыбы в водоеме гораздо больше массы мелкой, то поведение функции M(t) определяется поведением функции x2(t). Биомасса популяции растет на некотором отрезке времени [0,г0], а далее функция M(t) остается практически постоянной M{t) = M(T0),t Є [то,?1]- Особый интерес представляет изменение скорости роста биомассы популяции M(t), поскольку она имеет смысл скорости восстановления рыбного ресурса. Оказывается, что она достигает своего максимума в точке т Є [0, г0]. При этом М(г) растет на отрезке [0,т], убывает до нуля на полуинтервале (т,т0] и равна нулю для t г0. Таким образом, существует максимальная скорость роста биомассы популяции или максимальная скорость восстановления ресурса. Величина М\ этой скорости зависит лишь от набора параметров популяции П = (r,/3i,/?2, Mi, у2, Т1), то есть при любом изменении параметров, не относящихся к параметрам популяции П = {r,(3\,f32,iii,H2,T) увеличить свою биомассу за год на величину, большую чем М% популяция не может.

Перейдем теперь к анализу управляемой системы. С помощью управления u{t); t Є [0,Т] мы можем изменять количество крупной и мелкой рыбы. Поскольку существует точка фазового пространства, в которой происходит максимальный рост биомассы популяции, то наиболее рационально с помощью управления пытаться как можно быстрее приблизиться к этой точке и, в лучшем случае, попасть в нее. Возможны два случая

В первом случае начальная биомасса популяции ах + сь2 больше ее биомассы в точке фазового пространства (ікГ Мг), которой соответствует максимальный рост биомассы популяции. Поэтому, чтобы приблизится к точке (Мі,Мг) нужно уменьшать биомассу популяции, что наиболее быстро можно сделать, используя максимальное управление щ на некотором отрезке времени [0, г . Но если время отлова не достаточно для уменьшения биомассы, тогда управление будет максимально в течение всего времени ловли. Находясь вблизи точки (Мі, М2), нужно выбрать управление таким, чтобы вблизи этой точки и оставаться, то есть нужно отлавливать всю вновь появляющуюся рыбу. Это целесообразно, поскольку при таких условиях за период отлова появляется максимально возможный в данной популяции прирост массы рыбы и весь этот прирост мы отлавливаем, обеспечивая тем самым себе такие же условия на следующий период. Но время ловли ограничено, поэтому наступает момент времени г2, когда обеспечение себе оптимальных условий на следующий период лова становится не нужным, поскольку время ловли подходит к концу. Поэтому с момента времени т2 включается максимальное управление щ. Таким образом, оптимальное управление в этом случае будет иметь вид:

Аналогично можно рассмотреть второй случай, когда биомасса по 114 пуляции в начальный момент времени меньше биомассы в точке фазового пространства (Мі,М2). В этом случае на некотором отрезке времени [0, ті] нужно положить u(t) = О до тех пор пока фазовая траектория не попадет в точку (Mi,M2). Затем аналогично первому случаю последовательно включаем управление с2, щ. Таким образом, оптимальное управление в этом случае имеет вид:

Когда скорость роста биомассы популяции настолько мала, что времени Т не хватает для увеличения ее до величины М\ + М2, тогда

Величина особого управления с2() вычисляется из условия (3.14). Зависимость численного решения от ограничений пищи и пространства

Исходя из численных расчетов, можно сделать вывод, что ограничения пищи и пространства влияют на точки переключения управления т\ и г2. Как следует из численных результатов, с увеличением ограничения пищи точка т\ смещается вправо, а точка г2-влево, то есть отрезок действия особого управления с2() уменьшается. Обратную картину можно наблюдать с ростом ограничения пространства, когда отрезок [ті,т2] увеличивается. Это связано с тем, что ограничение пищи влияет в основном на скорость роста биомассы популяции (с увеличением ограничения пищи эта скорость уменьшается), а ограничение пространства влияет и на скорость роста биомассы популяции (с увеличением ограничения пространства эта скорость уменьшается) и на максимально возможную биомассу популяции (с увеличением ограничения пространства эта биомасса уменьшается). Точка г зависит и от максимально возможной биомассы популяции, и от скорости роста этой биомассы. С увеличением скорости роста биомассы точка т смещается влево, а с увеличением максимально возможной биомассы-вправо и наоборот. С ростом ограничения пищи происходит уменьшение скорости роста биомассы популяции, поэтому точка г смещается вправо. С ростом ограничения пространства происходит и уменьшение скорости роста биомассы популяции, и уменьшение максимально возможной биомассы популяции, второе, очевидно преобладает над первым и поэтому точка г смещается влево.

Поведение точки г зависит лишь от максимально возможной биомассы популяции, поэтому при увеличении ограничения пищи, которое практически не влияет на это количество, точка т почти не изменяется (незначительно сдвигается влево). А при увеличении ограничения пространства точка т уже довольно значительно сдвигается влево.

Ограничения пищи и пространства влияют также и на величину с2 особого управления. Поскольку при увеличении любого из этих ограничений скорость роста биомассы популяции уменьшается, поэтому уменьшается и особое управление, которое, как было замечено выше выбирается таким, чтобы отлавливать всю появляющуюся за год в точке максимального роста биомассы популяции рыбы.