Задача конфликтного управления по принципу обратной связи при запаздывающей информации

Рассматривается в игровой постановке задача оптимального управления по принципу обратной связи линейной динамической системой. Особенность рассматриваемой задачи – в неполноте информации о помехах, а также запаздывании поступающей информации о текущих состояниях управляемого объекта. Критерий качества процесса управления задаётся в виде функционала от движения объекта, управляющего воздействия и помехи.

Аннотация статьи
критерий качества
управление
помеха
запаздывание информации
динамический объект
Ключевые слова

Введение. Для конфликтно управляемой динамической системы, описываемой обыкновенным векторным линейным уравнением, в игровой постановке, рассматривается задача об оптимальном управлении по принципу обратной связи, при неполной информации о динамической помехе [1-9] и при запаздывающей информации о значениях фазовой переменной, характеризующей текущее состояние системы. Критерий качества процесса управления γ  задается в виде функционала от движения объекта и реализаций управляющих воздействий и помех. Задача на минимакс-максимин критерия качества формализуется в виде антагонистической дифференциальной игры двух лиц в классе чистых позиционных стратегий в рамках концепции дифференциальных игр, разработанной в Свердловске (ныне Екатеринбурге) в школе академика Н.Н. Красовского. Цель работы – обоснование понятия запаздывания по времени информации, поступающей в орган управления.

Динамический объект. Рассматривается объект, движение которого описывается обыкновенным векторным дифференциальным уравнением

x=Α(t)x+Β(t)u+C(t)υ, t≤ t ≤ ϑ. (1)

Здесь x  – n  -мерный фазовый вектор управляемого объекта; t – время, моменты времени t0 и ϑ  зафиксированы; u – r-мерный вектор управления, υ – s-мерный вектор помехи, стесненные условиями

u ∈ P,  υ ∈ Q,

где P и Q – компакты [9].

Критерий качества. Для процесса, включающего в себя на отрезке времени [t0, ϑ]:

1. Движение

x[t0[⋅]ϑ]= {x[t], t≤ t ≤ϑ}

2. Реализацию управления

u[t0[⋅]ϑ) = {u[t] ∈ P,  t≤ t ≤ ϑ}

3. Реализацию помехи

υ[t0[⋅]ϑ) = {υ[t] ∈ Q,  t≤ t ≤ ϑ} 

будем рассматривать критерий качества процесса управления [2-6, 9] γ следующего вида

 (2)

Здесь x – некоторый фиксированный n-мерный вектор.

В (2) ϕ(t) и ψ(t) суть заданные кусочно-непрерывные функции времени t, ϕ(t)≤α,  ψ(t)≤β,  , где α>0,  β>0 – заданные числа. Содержательно интегральные члены в (2) определяют затраты энергии на выработку управляющих воздействий и помех.

Задача. Рассмотрим задачу для x-объекта (1) о выборе управлений u и помех υ соответственно, минимизирующих и максимизирующих критерий качества γ (2). При этом задача решается при неполной информации о действующих динамических помехах и, что существенно, при запаздывающей по времени t информации о состояниях x [t] объекта (1) в схеме управления по принципу обратной связи [3].

Информационный образ. Текущую информацию при t≥t0+h, где h>0 величина запаздывания, будем использовать в виде n-мерного вектора x*[t], где

x*[t]=x[t-h] ,  t≥t0+h. (3)

Величина (3) и будет являться информационным образом для построения оптимальной стратегии

 u0t,x*,ε,  t≥t0+h,ε>0. (4)

с использованием конструкции экстремального сдвига из работы авторов [4].

До момента времени t0+h управление u[t0[⋅]t0+h)= {u[t]∈P,  t0≤t≤t0+h} определяется лишь информацией об x0= x*[t0]. Начиная с момента времени t0+h, управление u[t0+h[⋅]t) = {u[τ]∈P,  t0+h≤τ≤t} определяется информацией об x*[t] (3). При этом, несмотря на содержательный смысл величин x0* и x*[t], вытекающий из (3), не будем требовать, чтобы обязательно выполнялось равенство

x*[t0+h]=x0*.

При этом при t ∈ [t0+h, ϑ] предполагается возможным запоминание истории x*[t0[⋅]t] = {x*[τ],  t0+h≤τ≤t} и реализации выработанного управления u[t0[⋅]t) = {u[τ] ∈ P, t0<τ≤t}.

Запаздывание информации. Целью работы является обоснование используемого здесь понятия запаздывания информации. Величина h не есть, вообще говоря, только время запаздывания подачи информации о состояниях x[τ] в орган управления U. Величина h  – это суммарное время, которое складывается из времени h*  запаздывания подачи информации в ЭВМ в орган управления, из времени h*  на подсчет в ЭВМ значения u[t] управляющего воздействия и из времени h передачи u[t] на x-объект. Итак,

h=h*+h*+h.

Используя схему соответствующих конструкций из работ авторов [3-5], получаем, что справедливо следующее утверждение.

Теорема. Оптимальная позиционная стратегия управления (4) для объекта (1) и показателя качества процесса (2) существует. Она строится конструктивно методом экстремального сдвига [4].

Текст статьи
  1. Айзекс Р. Дифференциальные игры. – M.: Мир, 1967.
  2. Красовский А.Н. О формализации позиционной дифференциальной игры // Докл. АН СССР. 1981. Т. 257. № 4.
  3. Красовский А.Н., Куанышев В.Т. Обратная связь в задачах позиционного минимаксного управления // Сб. материалов международной конференции «Естествознание, техника, технологии: современные парадигмы и практические разработки». АПНИ, 30.10.2019.
  4. Красовский А.Н., Куанышев В.Т. Метод экстремального сдвига для оптимального управления в позиционной дифференциальной игре // Актуальные исследования. 2019. № 1.
  5. Красовский А.Н. Ладейщиков А.Н. Задача игрового управления при дефиците информации // Математическая теория игр и ее приложения. 2012. Т. 4. Вып. 2.
  6. Красовский Н.Н. Управление динамической системой. Задача на минимум гарантированного результата. – М.: Наука, 1985.
  7. Красовский Н.Н., Субботин А.И. Позиционные дифференциальные игры. – M.: Наука, 1974.
  8. Понтрягин Л.С., Болтянский В.Г., Гамкрелидзе Р.В., Мищенко Е.Ф. Математическая теория оптимальных процессов. – М.:
    Физматгиз, 1961.
  9. Krasovskii A.N., Krasovskii N.N. Control Under Lack of Information. Boston: Birkhauzer, 1994.
Список литературы