Задача конфликтного управления по принципу обратной связи при запаздывающей информации

Красовский Андрей Николаевич; Куанышев Валерий Таукенович

Аннотация статьи

Рассматривается в игровой постановке задача оптимального управления по принципу обратной связи линейной динамической системой. Особенность рассматриваемой задачи – в неполноте информации о помехах, а также запаздывании поступающей информации о текущих состояниях управляемого объекта. Критерий качества процесса управления задаётся в виде функционала от движения объекта, управляющего воздействия и помехи.

Текст статьи

Введение. Для конфликтно управляемой динамической системы, описываемой обыкновенным векторным линейным уравнением, в игровой постановке, рассматривается задача об оптимальном управлении по принципу обратной связи, при неполной информации о динамической помехе [1-9] и при запаздывающей информации о значениях фазовой переменной, характеризующей текущее состояние системы. Критерий качества процесса управления γ задается в виде функционала от движения объекта и реализаций управляющих воздействий и помех. Задача на минимакс-максимин критерия качества формализуется в виде антагонистической дифференциальной игры двух лиц в классе чистых позиционных стратегий в рамках концепции дифференциальных игр, разработанной в Свердловске (ныне Екатеринбурге) в школе академика Н.Н. Красовского. Цель работы – обоснование понятия запаздывания по времени информации, поступающей в орган управления.

Динамический объект. Рассматривается объект, движение которого описывается обыкновенным векторным дифференциальным уравнением

x=Α(t)x+Β(t)u+C(t)υ, t₀≤ t ≤ ϑ. (1)

Здесь x – n -мерный фазовый вектор управляемого объекта; t – время, моменты времени t₀ и ϑ зафиксированы; u – r-мерный вектор управления, υ – s-мерный вектор помехи, стесненные условиями

u ∈ P, υ ∈ Q,

где P и Q – компакты [9].

Критерий качества. Для процесса, включающего в себя на отрезке времени [t₀, ϑ]:

1. Движение

x[t₀[⋅]ϑ]= {x[t], t₀≤ t ≤ϑ}

2. Реализацию управления

u[t₀[⋅]ϑ) = {u[t] ∈ P, t₀≤ t ≤ ϑ}

3. Реализацию помехи

υ[t₀[⋅]ϑ) = {υ[t] ∈ Q, t₀≤ t ≤ ϑ}

будем рассматривать критерий качества процесса управления [2-6, 9] γ следующего вида

(2)

Здесь x – некоторый фиксированный n-мерный вектор.

В (2) ϕ(t) и ψ(t) суть заданные кусочно-непрерывные функции времени t, ϕ(t)≤α, ψ(t)≤β, , где α>0, β>0 – заданные числа. Содержательно интегральные члены в (2) определяют затраты энергии на выработку управляющих воздействий и помех.

Задача. Рассмотрим задачу для x-объекта (1) о выборе управлений u и помех υ соответственно, минимизирующих и максимизирующих критерий качества γ (2). При этом задача решается при неполной информации о действующих динамических помехах и, что существенно, при запаздывающей по времени t информации о состояниях x [t] объекта (1) в схеме управления по принципу обратной связи [3].

Информационный образ. Текущую информацию при t≥t₀+h, где h>0 величина запаздывания, будем использовать в виде n-мерного вектора x^*[t], где

x^*[t]=x[t-h] , t≥t₀+h. (3)

Величина (3) и будет являться информационным образом для построения оптимальной стратегии

u⁰t,x*,ε, t≥t₀+h,ε>0. (4)

с использованием конструкции экстремального сдвига из работы авторов [4].

До момента времени t₀+h управление u[t₀[⋅]t₀+h)= {u[t]∈P, t₀≤t≤t₀+h} определяется лишь информацией об x₀^*= x^*[t₀]. Начиная с момента времени t₀+h, управление u[t₀+h[⋅]t) = {u[τ]∈P, t0+h≤τ≤t} определяется информацией об x^*[t] (3). При этом, несмотря на содержательный смысл величин x₀^* и x^*[t], вытекающий из (3), не будем требовать, чтобы обязательно выполнялось равенство

x^*[t₀+h]=x₀^*.

При этом при t ∈ [t₀+h, ϑ] предполагается возможным запоминание истории x^*[t₀[⋅]t] = {x^*[τ], t₀+h≤τ≤t} и реализации выработанного управления u[t₀[⋅]t) = {u[τ] ∈ P, t₀<τ≤t}.

Запаздывание информации. Целью работы является обоснование используемого здесь понятия запаздывания информации. Величина h не есть, вообще говоря, только время запаздывания подачи информации о состояниях x[τ] в орган управления U. Величина h – это суммарное время, которое складывается из времени h^* запаздывания подачи информации в ЭВМ в орган управления, из времени h^* на подсчет в ЭВМ значения u[t] управляющего воздействия и из времени h передачи u[t] на x-объект. Итак,

h=h^*+h^*+h.

Используя схему соответствующих конструкций из работ авторов [3-5], получаем, что справедливо следующее утверждение.

Теорема. Оптимальная позиционная стратегия управления (4) для объекта (1) и показателя качества процесса (2) существует. Она строится конструктивно методом экстремального сдвига [4].

Список литературы

Айзекс Р. Дифференциальные игры. – M.: Мир, 1967.
Красовский А.Н. О формализации позиционной дифференциальной игры // Докл. АН СССР. 1981. Т. 257. № 4.
Красовский А.Н., Куанышев В.Т. Обратная связь в задачах позиционного минимаксного управления // Сб. материалов международной конференции «Естествознание, техника, технологии: современные парадигмы и практические разработки». АПНИ, 30.10.2019.
Красовский А.Н., Куанышев В.Т. Метод экстремального сдвига для оптимального управления в позиционной дифференциальной игре // Актуальные исследования. 2019. № 1.
Красовский А.Н. Ладейщиков А.Н. Задача игрового управления при дефиците информации // Математическая теория игр и ее приложения. 2012. Т. 4. Вып. 2.
Красовский Н.Н. Управление динамической системой. Задача на минимум гарантированного результата. – М.: Наука, 1985.
Красовский Н.Н., Субботин А.И. Позиционные дифференциальные игры. – M.: Наука, 1974.
Понтрягин Л.С., Болтянский В.Г., Гамкрелидзе Р.В., Мищенко Е.Ф. Математическая теория оптимальных процессов. – М.:
Физматгиз, 1961.
Krasovskii A.N., Krasovskii N.N. Control Under Lack of Information. Boston: Birkhauzer, 1994.

Задача конфликтного управления по принципу обратной связи при запаздывающей информации

Похожие статьи

Другие статьи из раздела «Математика»