Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Системный анализ регуляторов типа "предиктор-корректор" Пономарев Антон Александрович

Системный анализ регуляторов типа
<
Системный анализ регуляторов типа Системный анализ регуляторов типа Системный анализ регуляторов типа Системный анализ регуляторов типа Системный анализ регуляторов типа Системный анализ регуляторов типа Системный анализ регуляторов типа Системный анализ регуляторов типа Системный анализ регуляторов типа Системный анализ регуляторов типа Системный анализ регуляторов типа Системный анализ регуляторов типа Системный анализ регуляторов типа Системный анализ регуляторов типа Системный анализ регуляторов типа
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Пономарев Антон Александрович. Системный анализ регуляторов типа "предиктор-корректор": диссертация ... кандидата Физико-математических наук: 05.13.01 / Пономарев Антон Александрович;[Место защиты: ФГБОУ ВО Санкт-Петербургский государственный университет], 2017

Содержание к диссертации

Введение

1 Предварительные сведения 7

1.1 Регулятор «предиктор-корректор» 7

1.1.1 Управляемая система 7

1.1.2 Задача оптимального управления 8

1.1.3 Метод управления «предиктор-корректор» 11

1.1.4 Регулятор с двумя режимами функционирования 11

1.2 Обзор литературы 12

1.2.1 О регуляторе «предиктор-корректор» 12

1.2.2 О существовании оптимального управления 13

1.2.3 О реализации в реальном времени 15

1.2.4 О вычислительном запаздывании 17

1.3 Структура работы 19

2 Анализ нелинейного режима 21

2.1 Оценка области управляемости и выбор горизонта прогноза 21

2.2 Построение явной обратной связи

2.2.1 Понятия и обозначения, связанные с динамическим программированием 27

2.2.2 Вспомогательный результат: непрерывность функции Белл

2.2.3 Шаг 1: оценка близости решения задачи приближенного динамического программирования к оптимальной обрат з

2.2.4 Шаг 2: аппроксимация решения задачи приближенного динамического программирования явной функцией 38

2.2.5 Построение субоптимальной обратной связи в заданной близости от оптимальной 42

3 Анализ квазилинейного режима 45

3.1 Оптимальное управление в линейно-квадратичной задаче 46

3.1.1 Построение оптимального управления без ограничений 46

3.1.2 Оптимальное управление, ограниченное по норме 48

3.2 Реализация регулятора в квазилинейном режиме 51

3.2.1 Свойства линейной обратной связи 59

3.2.2 Приближенное динамическое программирование 62

4 Компенсация вычислительного запаздывания 69

4.1 Анализ линейного приближения 70

4.1.1 Предсказывающее преобразование состояния 70

4.1.2 Функционал Ляпунова — Красовского 72

4.1.3 Устойчивость регулятора с компенсацией запаздывания 74

4.1.4 Робастность регулятора с компенсацией запаздывания 78

4.2 Нелинейный случай 83

4.2.1 Схема компенсации запаздывания 83

4.2.2 Устойчивость нелинейного регулятора с компенсацией запаздывания 89

5 Примеры 92

5.1 Система первого порядка 92

5.2 Система второго порядка 93

Заключение

Введение к работе

Актуальность темы исследования. Историю предикторных методов управления можно отсчитывать с конца 50-х гг. XX в., когда американский ученый и инженер O. Smith разработал метод, названный «предиктором Смита». В статье J. Richalet и др. (1978) был предложен подход к управлению, который называется model predictive control (MPC), а в настоящей работе — метод «предиктор-корректор». Несмотря на далеко не очевидную правомерность данного метода регулирования, его практическое использование с самого начала было весьма успешным, главным образом, в медленных процессах химической промышленности. Сейчас регуляторы типа «предиктор-корректор» распространились и в других областях: в автомобильной промышленности, в управлении морскими объектами и портфелями ценных бумаг, в стабилизации плазмы, в составлении расписаний и т. д.

Вычислительная сложность регуляторов «предиктор-корректор» приводит к проблемам при их реализации в реальном времени. Упрощению алгоритма управления посвящена значительная доля современных публикаций по теме (например, работы P. O. M. Scokaert, B. Kouvaritakis, Y. Wang, S. Boyd, M. Rubagotti и др.). В 2011 г. в статьях A. Bemporad и др. была разработана и доведена до практики эффективная реализация линейного регулятора, а начиная с 2003 г. T. A. Johansen, A. Grancharova, P. T0ndel и др. развивают подход к аналогичной быстрой реализации для некоторых классов нелинейных систем. В общем невыпуклом случае вопросы устойчивости и субоптимальности по-прежнему являются открытыми, поэтому зачастую предлагаемые методы либо неконструктивны, либо основаны на эмпирических соображениях и подтверждаются лишь численными примерами. Этого недостаточно для того, чтобы гарантировать работоспособность регулятора.

Из литературы известны примеры, когда даже при относительно быстрой реализации регулятора в управлении возникает запаздывание, нарушающее устойчивость системы. В таких случаях хорошие результаты дает метод компенсации запаздывания, который позволяет исключить запаздывание из замкнутой системы и упростить синтез и анализ регулятора. Происходя из идеи предиктора Смита, в 70-80-е гг. XX в. метод компенсации был существенно усилен статьями A. Manitius, A. Olbrot, W. H. Kwon, A. E. Pearson, Z. Artstein и др., а в XXI в. его развивают F. Mazenc, M. Jankovic, M. Krstic, I. Karafyllis, В. Л. Харитонов и др. Последние работы в данной области посвящены робастным, адаптивным и нелинейным вариантам компенсации запаздывания. Использование сложных двухуровневых регуляторов «предиктор-корректор» приводит к появлению в

управлении двух запаздываний, но для нелинейных систем с двумя запаздываниями метод компенсации еще не разработан. Неизвестны и оценки границ робастности метода при неизбежно возникающих погрешностях в параметрах.

Цель диссертационного исследования — развитие конструктивного подхода к анализу регуляторов «предиктор-корректор» в контексте их практической реализации в сложных нелинейных системах.

Задачи, решаемые в исследовании:

  1. Развить конструктивные методы системного анализа нелинейных регуляторов «предиктор-корректор».

  2. Построить алгоритм оценки области управляемости нелинейного регулятора «предиктор-корректор».

  3. Предложить алгоритм аппроксимации обратной связи «предиктор-корректор» явной функцией с сохранением устойчивости и достижением заданной степени субоптимальности.

  4. Распространить на нелинейные системы метод компенсации нескольких запаздываний в управлении.

Результаты, выносимые на защиту:

  1. Системный анализ метода «предиктор-корректор» в задачах управления нелинейными разностными системами.

  2. Оценка области управляемости нелинейного регулятора «предиктор-корректор» с гарантированной точностью.

  3. Метод аппроксимации обратной связи нелинейного регулятора кусочно аффинной функцией, сохраняющий свойства устойчивости и субоптимальности.

  4. Компенсация нескольких запаздываний в управлении в нелинейной разностной системе.

5. Программная реализация разработанных алгоритмов.
Методы исследования, используемые в работе:

  1. Теория нелинейных динамических систем дискретного времени.

  2. Методы оптимального управления в линейных и нелинейных системах.

3. Методы теории устойчивости нелинейных систем с запаздыванием.
Научная новизна диссертации заключается в следующем:

1. Развитый в работе подход к системному анализу регулятора «предиктор-корректор» позволяет единообразно, с позиций прямого метода А. М. Ляпунова, изучать такие различные вопросы, как приближение обратной связи и компенсация нескольких запаздываний. В литературе подобный подход не встречался.

  1. Предложенный алгоритм построения оценки области управляемости метода «предиктор-корректор», в отличие от известных альтернатив, гарантирует заданную точность аппроксимации и сходится к точной области управляемости.

  2. Метод аппроксимации обратной связи «предиктор-корректор» кусочно аффинной функцией применим для нелинейных систем с любыми связными компактными ограничениями и гарантирует устойчивость и субоптимальность. Имеющиеся в литературе аналоги предполагают выпуклость ограничений либо не имеют строгого обоснования.

  3. Впервые доказана робастность метода компенсации нескольких запаздываний в управлении и получена оценка допустимых погрешностей в параметрах системы.

  4. Метод компенсации нескольких запаздываний в управлении впервые распространен на нелинейный случай.

Теоретическая значимость работы состоит в развитии методов оценки устойчивости и качества приближенных регуляторов «предиктор-корректор» с компенсацией вычислительного запаздывания.

Практическая значимость полученных результатов заключается в возможности их применения для конструктивного анализа, разработки и настройки регуляторов типа «предиктор-корректор», пригодных для использования в системах управления в режиме реального времени и обладающих желаемыми характеристиками: устойчивостью и субоптимальностью.

Апробация результатов исследования. Результаты докладывались на следующих конференциях:

  1. 41, 42, 44, 45, 46 международные научные конференции аспирантов и студентов «Процессы управления и устойчивость» (CPS) (Санкт-Петербург, 2010-2015).

  2. 3 международная конференция «Устойчивость и процессы управления» (SCP) (Санкт-Петербург, 2015).

  3. 2014 International Conference on Computer Technologies in Physical and Engineering Applications (ICCTPEA) (Санкт-Петербург, 2014).

Публикации. Список публикаций автора по теме диссертации приведен в конце автореферата. Общее количество работ — 12, из них 5 — в изданиях, рекомендованных ВАК РФ.

Структура и объем диссертации. Диссертация состоит из введения, перечня обозначений, 5 глав, заключения и списка литературы, включающего 93 наименования. Объем диссертации — 109 страниц, 5 рисунков.

Метод управления «предиктор-корректор»

Метод управления «предиктор-корректор» также известен в литературе под названиями model predictive control (MPC), receding horizon control (RHC), управление с прогнозирующими моделями, упреждающее управление и т. д. Впервые он был описан в [69] и с тех пор получил широкое распространение и признание. Теории и практике использования регуляторов «предиктор-корректор» посвящены подробные монографии [40; 63; 82]. К достоинствам этого класса регуляторов часто относят робастность [29; 49; 75], близость к оптимальному управлению (субоптимальность) [80] и фундаментальную способность явно учитывать ограничения в процессе вычисления управления.

Обзор коммерческих систем управления типа «предиктор-корректор», доступных в промышленности, можно найти в [79]. Модель системы в них может быть задана в частотной области или в пространстве состояний. Функционал качества может быть линейным или квадратичным, скалярным или векторным с ранжированными по приоритету компонентами. Допускаются жесткие и мягкие ограничения, и т. д. Если в начале своего существования регуляторы «предиктор-корректор» применялись в основном в медленных процессах, например, в химической промышленности, то с развитием вычислительных возможностей стали доступны реализации для быстрых систем — как линейных, так и нелинейных [81]. Сейчас есть примеры использования этих регуляторов, например, в автомобильной промышленности [34], управлении морскими объектами [88], стабилизации плазмы [3; 87; 92], составлении расписаний [46] и т. д.

Несмотря на активное успешное применение, с регуляторами «предиктор-корректор» по-прежнему связан ряд открытых вопросов [42; 65; 72], например: расширение области устойчивости, которая гарантируется терминальным ограничением и терминальным слагаемым [27]; расширение границ свойственной регулятору робастности [28; 37]; разработка адаптивных схем управления «предиктор-корректор», а также схем с оценкой состояния по наблюдениям [73]. Ниже мы подробнее остановимся на других важных проблемах: реализации регулятора в реальном времени и вычислительном запаздывании.

Задача оптимального управления лежит в основе регулятора «предиктор-корректор». Известны примеры таких задач, где есть допустимые управления, но не оптимальное. Вопрос существования оптимального управления, таким образом, представляет значительный интерес в контексте данной работы. Для систем дискретного времени на конечном промежутке этот вопрос решается существенно проще, чем для непрерывных систем. Действительно, функционал качества в этом случае есть функция конечного числа переменных. Достаточно предположить непрерывность этого функционала и компактность допустимых множеств, чтобы показать существование минимума указанной функции. Похожие соображения приводят к следующим результатам.

В [24] рассмотрена задача оптимального управления на конечном проме 14 жутке времени в нелинейной системе дискретного времени с ограничением на управление, но без ограничений на состояние. Получены необходимые и достаточные условия оптимальности, аналогичные принципу максимума Понтряги-на [11]. В частности, доказано, что если ограничения на управление компактны, правая часть системы непрерывна как функция состояния и управления, а весовые функции функционала качества дифференцируемы, то оптимальное управление существует для любого начального состояния, причем оптимальное значение функционала конечно.

Результат [24] был обобщен в [2], где добавлены ограничения на состояние системы. Оказалось, что если множества допустимых управлений и начальных состояний компактны, ограничения на будущие состояния представлены замкнутыми множествами и в системе всегда существует хотя бы одна допустимая последовательность управлений, то всегда существует и оптимальная последовательность.

Дальнейшее развитие условия существования оптимального управления получили в [44], где были рассмотрены ограничения на управление, зависящие от состояния, а также несколько ослаблены предположения о функциях задачи: весовые функции считаются полунепрерывными снизу, а ограничения на управление — полунепрерывными сверху точечно-множественными отображениями состояния системы в компактное множество управлений.

На бесконечном промежутке задача оптимального управления дискретной системой была изучена в [55] в предположениях, аналогичных [44], с дополнительным условием, отражающим специфику бесконечного промежутка времени: должна существовать допустимая управляющая последовательность, доставляющая функционалу качества конечное значение. Доказано, что при этом оптимальное управление также существует.

Эти результаты обуславливают сделанное выше предположение 13 о существовании оптимального управления.

В связи с проблемой существования оптимального управления при наличии ограничений на состояние следует отметить вопрос существования хотя бы одного допустимого управления. Задача нахождения множества начальных состояний, при которых существует допустимое управление, называется в литературе задачей о построении области управляемости. Смежной проблемой является построение области притяжения, которую можно интерпретировать как область управляемости в ноль за бесконечное время. В достаточно общем нелинейном случае практично лишь построение оценки этого множества. Среди методов, используемых для оценивания областей достижимости и управляемости, отметим в линейном случае метод опорных плоскостей [7; 30], а в нелинейном — метод функций Ляпунова, которые часто выбирают в виде форм второй или более высокой степени [12]. Известны оценки эллипсоидами области притяжения переходных траекторий, например, в задаче управления колесным роботом [13; 26]. Существуют, кроме того, и другие методы оценки области притяжения [5], в том числе (в случае линейной системы с выпуклыми ограничениями на состояние) — оценка многогранником [4]. Методы построения многогранной оценки в общем нелинейном случае в литературе не встречаются.

Понятия и обозначения, связанные с динамическим программированием

Напомним: в предыдущей главе была построена явная функция мявн(ж), аппроксимирующая оптимальную обратную связь мопт(0, х) на множестве \%т. При этом построение выполнено в два этапа:

Промежуточная функция итн(х) — это решение приближенной задачи динамического программирования (2.3), которая получается из исходной задачи (1.3) заменой функции Беллмана пт{х) на равномерное кусочно аффинное приближение опТ(ж).

Заметим, что с приближением к нулю метод предыдущей главы перестает работать, т. к. рекомендуемая теоремой 4 сетка для построения функции иявн(х) бесконечно уплотняется.

В настоящей главе рассмотрим регулятор «предиктор-корректор» в некоторой окрестности нуля ц. Имеет место линейное приближение системы (1.1) и квадратичное приближение весовых функций и т в функционале (1.2): х(к + 1) = Ах (к) + Ви(к), (3.1) У(х ,и(-)) = У ( \\х(к + 1, х ,м(-)) Lf+ llM( )llw ) + РК 1 Х и( )) \\м (3.2) к=0 Оптимальный регулятор в линейно-квадратичной задаче, как известно, — линейный, а оптимальное значение функционала — квадратичная функция начального условия. Ниже рассмотрены и охарактеризованы с точки зрения субоптимальности и устойчивости два варианта управления в области д:

1. Линейный регулятор, оптимальный в линейно-квадратичном приближении оптимизационной задачи.

2. Решение задачи приближенного динамического программирования аналогично предыдущей главе, но с квадратичной, а не просто равномерной аппроксимацией функции Беллмана.

В качестве введения сформулируем некоторые известные результаты, касающиеся оптимального управления в линейных системах с квадратичным функционалом качества.

Построение оптимального управления без ограничений Теорема 5. [10] Если положительно определенная матрица Рк является решением уравнения Риккати Pk-i = А РкА — {А Р В + N)(B РкВ) {В РкА + N ) + М с условием Рт = Мт, то оптимальное управление для линейной системы (3.1) с квадратичным функционалом (3.2) без учета ограничений имеет вид линейной обратной свя 47 зи и(к) = Kkx(k), к = 0,1,..., Т — 1, где Kk = —(N + В РкВ) В РкА. Чтобы построить оптимальное управление и оптимальное движение в виде иопт(к,х ) = S{k)x , ж0пт( ,ж ) = R{k)x , можно использовать следующую теорему. Теорема 6. [8; 25] Если существует решение Q системы линейных алгебраических уравнений

Если матрица Q существует, то она определяет матрицу R(l), которая ответственна за отображение х ь- жопт(1, х). Спектр матрицы R(l), таким образом, позволяет судить об устойчивости замкнутой системы: имеет место следующий факт.

Следствие 1. Пусть существует решение Q системы (3.3). Система (3.1), замкнутая регулятором «предиктор-корректор» с функционалом (3.2) без учета ограничений, экспоненциально устойчива тогда и только тогда, когда все собственные числа матрицы

Оптимальное управление, ограниченное по норме Пусть в отсутствие ограничений система (3.1), замкнутая регулятором «предиктор-корректор» без ограничений, экспоненциально устойчива. Предложим способ оценивания области устойчивости при наличии ограничений с помощью прямого метода Ляпунова. Для примера рассмотрим ограничение в виде эллипсоида: % = \и : \\и\\с }, где С — положительно определенная (т х т)-матрица, р 0. Очевидно, что, вообще говоря, не при всяких начальных условиях решение может быть устремлено к 0 при ограниченной величине управления.

Будем использовать метод функций Ляпунова: пусть V — положительно определенная (п х п)-матрица, g — положительное число, х — любой вектор из области {ж Є М.п : \\x\\v #}, х1 — решение х{1) системы (3.1), замкнутой регулятором «предиктор-корректор» с функционалом (3.2), с начальным условием х(0) = х и ограничением и Є аі/. Если величина II 1112 II ОМ2 \\х \\у — \\х \\у (3.4) отрицательно определена при всех х из указанной выше области, то эта область является оценкой снизу требуемой области асимптотической устойчивости. Рассмотрим произвольную положительно определенную матрицу W размером п х п. Поскольку спектр матрицы R(l) в силу устойчивости системы без ограничений лежит внутри единичного круга, уравнение R (l)VR(l) — V = —W относительно матрицы V имеет положительно определенное решение. Далее будем под матрицей V понимать именно такое решение. Допустим, что известна положительная величина (3 такая, что при всех х из области X = {ж Є М.п : \\x\\v /Зр}, где р р, вектор и = S(k)x принадлежит области U = {и Є М.т : \\и\\с р] при всех к = 0,1,..., Т - 1. Например, можно взять Amin(V) /3 = max IISYA;)!! Amax(C) к=0,1,...,Т-1 Очевидно, что в силу линейного характера связи и и х нет необходимости выбирать число /3 зависимым от р.

Когда р = р, приращение (3.4) отрицательно определено при х Є X благодаря тому, что х1 = R(l)x, а матрица V выбрана так, как указано выше. Станем увеличивать число р и потребуем, чтобы величина (3.4) оставалась отрицательной при всех х Є дХ, где дХ = {ж Є М.п : жу = (Зр]. Если х Є дХ, то соответствующая оптимальная последовательность и(к) = S(k)x может быть как допустима, так и нет. В первом случае разность (3.4) отрицательна. Если же S(k)x — не допустимая последовательность, то использоваться в управлении будет последовательность й(к), наилучшая из допустимых.

Оптимальное управление, ограниченное по норме

Следующая лемма дает оценку субоптимальности линейной обратной связи, построенной по линейно-квадратичному приближению оптимизационной задачи.

Пусть радиус R удовлетворяет условию леммы 11 при s = 0, а матрица К = Ко определена равенством (3.6). Тогда обратная связь и = Кх является є-субоптимальной в области $R, т. е. {j[x, Кх), Кх) + onT(f(x, Кх)) (1 + є)сУ0ПТ(х) Ух є SSR, причем LpihfM.fi + 1) + h?i hfM.fi "опт " опт "опт є = Здесь hj\ — константа Липшица функции J QUT, определенная в теореме 3, константа Jf = Jf дана в лемме 10, а Мио — в лемме 11. Доказательство. Из равенства - опт(ж) = [ f (х, и0ПТ(х)), и0ПТ(х)) + У0ПТ[ f(x,u0TlT(x))) следует {j{x,Kx),Kx) + onT(f(x, Кх)) — Уопт(х) = (f(x, Кх), Кх) + + опт(/(ж5 Кх)) — і f (х, иопт(х)), иопт(х)) — У0ПТ[ fix, иопт{х)) \ Оценивая и получаем 1(f(x,Kx),Kx) — і f (х, иопт(х)), иопт(х)) hi(hfMUonT + і) ж опт(/(ж5 Кх)) — У0ПТ[ f(x,uonT(x)) jUh.hfM Wxf j{x,Kx),Kx + onTf(x, Кх)) — опт( ) ( L (L/MMo + l) + h\hfMua \\x\\ = jf ж Є Уопт(х), откуда следует требуемое неравенство. Лемма доказана. Выводом из последних двух лемм является следующая теорема.

Теорема 8. Пусть числа г и R выбраны согласно условиям лемм 12 и 13, матрица К = KQ определена равенством (3.6), а явная обратная связь uWYi{x) построена по алгоритму теоремы 4. Определим регулятор с двумя режимами функционирования

Кх в квазилинейном режиме, явн( ) в нелинейном режиме со следующими правилами переключения между режимами: если регулятор находится в нелинейном режиме, а система входит в шар S3r, то регулятор переходит в квазилинейный режим; если регулятор находится в квазилинейном режиме, а система выходит из шара ё$ц, то регулятор переходит в нелинейный режим. Такой регулятор обладает следующими свойствами: 1. Он стабилизирует нулевое равновесие системы (1.1), причем: в нелинейном режиме функция Беллмана 0ПТ является функцией Ляпунова, гарантирующей устойчивость, и скорость ее убывания вдоль решения дана в лемме 8; в квазилинейном режиме квадратичная функция Ляпунова убывает вдоль решений со скоростью, определенной в лемме 12.

Он является є-субоптимальной обратной связью, причем оценка є дана в леммах 7 и 13. Доказательство. Следует из лемм 12 и 13. Рассмотрим вариант построения обратной связи в квазилинейном режиме с использованием динамического программирования. Для этого в задаче иОПТ(0,х) = argmin (f(x, и), и) + У0ПТ(/(х,и)) заменим функцию Беллмана опт на ее квадратичную аппроксимацию Получим задачу приближенного динамического программирования итн(х) = argmin #"(ж,гі), (3.8) и где (х,и) = f(x,u),u + \\f(x, it)Up . Охарактеризуем обратную связь иДЇШ(х) с точки зрения устойчивости и субоптимальности. Для этого докажем две вспомогательные леммы, аналогичные леммам 10 и 11.

Лемма 14. Существуют такие положительные константы Mj?; MQ&, #" и &, что \JP(x,u) — \\Ах + Ви\\м+Рі — \\и\\%\ М (\\х\\3 + \\и\\3), д (х,и] Мд \\х\\2 + \\и\\2 2В (М + Pi)(Ах + Ви) — 2Nu ди \\и\\ (х,и) #" ж + Доказательство. Докажем для примера первое неравенство: \ (х,и)— \\Ах + _Вмм+р — \\u\\N \i(f(x,u),u) — \\f(x,u)\\M — ы%\ + + \\f(x,u)\\M+p — \\Ах + Ви\\м+Р М(( \\f(x)u)\\ + Н3) + + Атах(М + Pi) /(ж, и) — Ах — Ви\\ х х (/(ж,гі) + \\Ах + Ви\\) MI( LA \\Х\\ + Н3) + Н3) + + М/Атах(М + Pi)(Lf + тах{Л , Ц-ВЦ}) х х (ж2 + м2)(ж + м). Заключаем, что допустимо взять Mjr = Mn(\.Lt + 1) + 4MfXirmx(M)(Lf + max{A , }). Остальные неравенства устанавливаются аналогично. Лемма доказана. Лемма 15. Пусть константы Mj?, MQ , #" и #" определены леммой 14, матрицы К = Ко и Р = Ро определены уравнениями (3.6) и (3.7), а число v таково, что SSV С а1/. Если R min v Amm(AW) \/К(ШЩ 8M,9JT1 + \\К\\ / о 4:Мд ( \\К\\ + Z где N = N + B (М + Р\)В, то при всех ж R имеют место оценки \\иДЇШ(х) — Кх\\ МПдин \\х\\ , \&o r(x)-M2p\ Ms \\xf W11-i- II 111 \ - опт II II где 2(1 + iffll!) м % = м (і + 4 ПІЇТІ і + 2М, II5 (м + Рі)л + опт І дин V II + М„ Атах(АПр( Г) + 4MMs р ( ЗГ)) и-дИН V /і \ ОПТ \ /

Доказательство. Согласно лемме 14 функция #" удовлетворяет условию леммы 9. Следовательно, функция мдин(ж), определенная равенством (3.8), допускает линейное приближение в окрестности нуля, а і опт(ж) квадратичное приближение. При этом указанные приближения являются, соответственно, оптимальным управлением и значением функции Беллмана приближенной линейно-квадратичной задачи Ас + Ви\\м+Рі + — min. Заметим, что и = Кх является решением этой задачи, а жр — ее функцией Беллмана. Лемма доказана.

Следующие леммы аналогичны леммам 7 и 8 предыдущей главы, однако здесь используется не равномерное, а квадратичное приближение функции Беллмана, полученное в лемме 11. Лемма 16. Пусть радиус г = RQ, где RQ удовлетворяет условию леммы 15 при s = О, а матрица Р = PQ определена равенством (3.7). Тогда обратная связь и = итн(х), определенная как решение оптимизационной задачи (3.8), является г -субоптимальной в области SSr, т. е. ( / {х, Мдин( )) , ЧцИн(ж) ) + опт( f{Xi Чцин(ж)) ) (1 + 7г) опт( ) Ух Є SSr. Здесь = Щм,уіпт U( \\к\\3 + мдинр3( JT)) + 1 + м&опт + м опт константа Jf = Jf определена в лемме 10, М опт и Mjn — в лемме 11, а ММдин и М ОПТ - в лемме 15. Доказательство. Из неравенства

Устойчивость регулятора с компенсацией запаздывания

Подведем итог полученным результатам. В главе 2 дан способ построения оценки области управляемости регулятора с терминальным ограничением (теорема 2). Предложенный способ основан на том, что в системе с липшицевой правой частью образ многогранника при фиксированном управлении можно приблизить также многогранником. Это позволяет строить оценку области управляемости в виде многогранного множества, интегрируя систему в конечном множестве точек при убывании времени. Достоинством этого метода является возможность оценить управляемость системы в зависимости от горизонта прогноза. Благодаря этому можно выбирать допустимо малый горизонт прогноза, не нарушающий управляемость. С другой стороны, применимость метода может быть ограничена необходимостью разбиения пространства на большое число ячеек.

Также в главе 2 описан способ построения приближенного решения оптимизационной задачи (1.3) в виде кусочно заданной явной функции иявн(х) в области значений ж, отделенных от нуля (теорема 4). Способ заключается в вычислении оптимального управления в узлах некоторой сетки и интерполировании обратной связи в остальных точках пространства. При этом непрерывная интерполяция, например, линейная, вообще говоря, неприемлема, т. к. оптимальная обратная связь может быть разрывна. Вместо этого даны допустимые границы, в которых может находиться иявн(х). Удовлетворяющая этим ограничениям обратная связь является стабилизирующей и є-субоптимальной. Выбирая достаточно мелкую сетку, можно добиться сколь угодно малой оценки субоптимальности є, а также того, что приращение функции Ляпунова в замкнутой управлением иявн(х) системе не более чем на сколь угодно малую константу больше, чем при использовании точного регулятора «предиктор-корректор». В главе 3 рассмотрена линейно-квадратичная аппроксимация задачи (1.3) в окрестности нулевого положения равновесия. Это необходимо, т. к. метод главы 2 работоспособен только при ж, отделенных от нуля. Оптимальное линейное управление и = Кх, полученное как решение линеаризованной задачи, оказывается первым приближением решения исходной задачи (1.3) при малых х. Оно является стабилизирующим и субоптимальным в окрестности нуля (теорема 8). Его недостаток — в том, что полученная оценка субоптимальности не зависит от окрестности линейного приближения. Как альтернатива линейному управлению, рассмотрен вариант приближенного динамического программирования с квадратичной аппроксимацией функции Беллмана. В этом случае также достигается устойчивость и субоптимальность (теорема 9), причем оценка субоптимальности теперь уменьшается с сокращением окрестности нуля, а скорость убывания функции Ляпунова стремится к ее скорости на движениях системы с точным регулятором. Это позволяет строить регулятор с наперед заданными оценками субоптимальности и скорости убывания функции Ляпунова. С другой стороны, преимуществом линейной обратной связи является ее простота.

В главе 4 в регулятор вводится вычислительное запаздывание. Предлагается рассматривать управление, которое складывается из двух компонент: низкочастотной щ с большим запаздыванием и высокочастотной щ с меньшим запаздыванием. Регулятор щ строит программную траекторию, а щ стабилизирует ее по линейному приближению, подавляя случайные возмущения. Для построения управления используется метод компенсации запаздывания. В системе линейного приближения, для которой метод компенсации уже известен в литературе, получена оценка робастности замкнутой системы по отношению к неточностям в модели, используемой для компенсации запаздывания (теорема 10). В нелинейном случае метод компенсации, интерпретируемый как предсказывающее преобразование состояния, обобщен на системы с несколькими запаздываниями. Это преобразование приводит систему к виду, аффинному по высокочастотному слагаемому it2, которое теперь не содержит запаздывания (теорема 11). Дано достаточное условие существования управления it2, стабилизирующего линейное приближение системы в окрестности программной траектории (теорема 12).

Данная работа касается исключительно теоретического обоснования и анализа регулятора типа «предиктор-корректор». За рамками остаются такие задачи, как, например, оптимизация расхода памяти, затрачиваемой на хранение кусочно заданной обратной связи мявн(ж), а также быстрое ее вычисление. Можно, однако, утверждать, что решение этих вопросов для систем небольшой размерности вполне реалистично (см. обзор литературы).

Следует отметить, что для всех оценок, о которых идет речь в настоящей работе, даны выражения или указан способ их получения. Эти оценки далеки от минимальных. Например, указанная в теореме 4 плотность сетки, по которой строится функция мявн(ж), вероятно, чрезмерна. Тем не менее, благодаря тому, что эта плотность является достаточной, можно вычислить указанную в теореме аппроксимацию по предлагаемой сетке, но затем, исходя из вида функции иявн(х) в конкретной задаче, построить более экономную аппроксимацию. То же касается констант Липшица для функций Беллмана, приведенных в теореме 3. Их цель — обосновать аппроксимацию функции Беллмана с заданной точностью. Когда такая аппроксимация построена, во-первых, ее можно попытаться упростить, а во-вторых, по найденной аппроксимации можно уточнить константы Липшица и далее использовать именно их.