Задача конфликтного управления при запаздывающей неточной информации о текущих состояниях объекта
научный журнал «Актуальные исследования» #6 (9), март '20

Задача конфликтного управления при запаздывающей неточной информации о текущих состояниях объекта

Рассматривается задача оптимального управления по принципу обратной связи конфликтно-управляемой линейной динамической системой. Критерий качества процесса задается в виде функционала от реализаций движения объекта, управляющего воздействия и помехи на заданном отрезке времени управления. Задача решается при неполной информации о действующей динамической помехе и искаженной (неточной) и запаздывающей информации о значениях фазового вектора объекта. Используется метод экстремального сдвига, разработанный в Екатеринбурге.

Аннотация статьи
динамический объект
запаздывание
искажённая информация
экстремальный сдвиг
помеха
управление
Ключевые слова

Введение. Рассматривается в игровой постановке становке задача [1-10] оптимального управления по принципу обратной связи динамической системой, которая описывается векторным линейным дифференциальным уравнением. Особенность рассматриваемой задач – в неполноте информации о помехах, действующих на управляемый объект, а также запаздывании и неточной или искаженной информации о текущих состояниях управляемого объекта. Критерии качества процесса управления задаются в виде функционалов от движения объекта, управляющих воздействий и помех. Такие задачи занимают достаточно большое место среди задач управления в технике, экономике и т.д. Задача на минимакс выбранного критерия качества решается в рамках концепции, разрабатываемой в уральской школе по оптимальному управлению и дифференциальным играм Н.Н. Красовского [7, 8, 10]. Для построения оптимальной стратегии управления, используется метод экстремального сдвига [3, 6, 7, 10], предложенный автором [2].

Управляемый объект. Рассматривается объект, движение которого описывается обыкновенным векторным дифференциальным уравнением

(1)

Здесь x – n-мерный фазовый вектор управляемого объекта; t – время, моменты времени начальный t0 и конечный ϑ зафиксированы; u– r-мерный вектор управления, υ– s-мерный вектор помехи. Точка над буквой обозначает производную по времени.

Вектор управления u и вектор помехи υ стеснены условиями

u∈P, υ∈Q, (2)

где P и Q – ограниченные замкнутые множества векторов, т.е. – компакты. Они определяют ресурсы соответственно управляющего органа U и органа V, вырабатывающего помехи в схеме управления по принципу обратной связи (рис.).


Рис. Схема управления по принципу обратной связи

Движение объекта (1), на отрезке времени [ti, t(i+1)]⊂[t0, ϑ], которое обозначили символом   порождается некоторыми управлениями и помехами    определены также как в работах [2, 3]. При этом в этих работах рассмотрена задача, когда информационным образом является позиция объекта {ti,x[ti]} и используется чистая позиционная стратегия   Здесь же, исходя их содержательного смысла рассматриваемой задачи управления при неполной информации не только о помехе, но и неточной запаздывающей информации о фазовых состояниях объекта, информационный образ, на базе которого будет формироваться стратегия управления, претерпевает существенные изменения. Он и будет играть ключевую роль в существовании оптимального решения рассматриваемой задачи.

Критерий качества процесса управления. Будем рассматривать критерий качества (критерий оптимальности) процесса управления γ следующего вида

 (3)

Здесь x ̃ – некоторый фиксированный n -мерный вектор – цель, к которой мы стремимся привести объект (1), (2) выбором управления u[t] по принципу обратной связи (рис.). В (3) интегральные слагаемые определяют затраты энергии на выработку управляющих воздействий и помех, где ϕ(t) и ψ(t) суть заданные кусочно-непрерывные функции времени
t, ϕ(t)≤α,  ψ(t)≤β, где α>0,  β>0 – заданные числа.

Информационный образ. Будем рассматривать такой случай, когда информация о состояниях x[t] идет с запаздыванием и еще, вообще говоря, с искажением. Текущую информацию при t≥t0+h, где h>0 величина запаздывания, будем использовать в виде n-мерного вектора x* [t], где

(4)

Начальное фазовое состояние x[t0]=x0 объекта также сообщается с искажением. Обозначим

x0*=x0+Δx*0. (5)

Целевое конечное фазовое состояние x ̃ также сообщается с искажением. Обозначим

x ̃^*=x ̃+Δx ̃^*. (6)

При этом величины x0* (5) и x ̃* (6) сообщаются нам заранее. Полагаем, что они известны уже в некоторый момент t ̃0<t_0, который уточним ниже. От момента времени t0 до момента времени t0+h управление  определяется лишь информацией об x0* и x ̃*. Начиная с момента времени t0+h, управление  определяется еще и информацией об x* [t] (1.11). При этом, несмотря на содержательный смысл величин x0* и x* [t], вытекающий из (5), (6), не будем требовать, чтобы обязательно выполнялось равенство

x* [t0+h]=x0*.

Информационным образом (элементом) Υ[t0] в начальный момент времени t=t0 называется пара

Υ[t0]={x0*, x ̃*}. (7)

Информационным образом (элементом) Υ[t] при t≥t0+h назовем совокупность компонент

 
(8)

При этом при t∈[t0+h, ϑ] предполагается возможным запоминание истории  и реализации выработанного управления .

В (8) y ̃[t0 [⋅]t)={y ̃[τ],  t0≤τ<t} – (n+1) - мерная вектор-функция, такая, что  , где n-мерный вектор y складывается из первых n координат вектора y ̃.

Положим

(9)

 (10)

Согласно (9), (10), изменение во времени t переменных y[t]={y1 [t],…,yn [t]} и y ̃(n+1) [t] описывается дифференциальными уравнениями

(11)

(12)

с начальными условиями

y[t0]={0,…,0},  y ̃(n+1) [t0]=0. (13)

Назовем допустимыми в (8) кусочно-непрерывные функции x* [⋅] и в (1.11), (1.12) – измеримые, ограниченные (каждая своей постоянной) функции u[⋅].

Итак, информационные элементы Υ[t] (9) и (10) определяют информационную Υ-систему.

Запаздывание информации. Следуя [5], поясним содержательный смысл запаздывания использования информации. Величина h не есть, вообще говоря, только время запаздывания подачи информации о состояниях x[τ] в орган управления. Величина h – это суммарное время, которое складывается из времени h* запаздывания подачи информации в ЭВМ в органе управления, из времени h* на подсчет в ЭВМ значения u[t] управляющего воздействия и из времени h ̃ передачи u[t] на x-объект. Итак,


При этом полагаем

ti-t(i+1)≥h*,  i=1,…, l-1,

где ti=tiи t(i+1)=t(i+1)u – моменты из разбиения в схеме управления по принципу обратной связи (рис.).

Полагаем, что x0* и x ̃* известны уже при t ̃0=t0-h-h*. По постановке задачи полагаем, что в моменты времени  , по информации {x0*, x ̃*} начинается подсчет величины

и эта величина вычисляется в течение времени  Таким образом, в частности, величина u[t1 ] уже будет сосчитана в момент . Полагаем, что в течение времени  вычисленное значение u[t] хранится в памяти. Затем за время вычисленное значение u[t] преобразуется в усилие u[t],  t0<t≤t1 на x-объект.  Разумеется, практически функция u[t],  t0<t≤t1 полагается кусочно-постоянной с весьма малым шагом , и, стало быть, практически вычисляются лишь значения .

В момент в ЭВМ поступает новая информация

Заметим при этом, что в момент времени τ*1=t1-h+h* функцию y ̃[t0 [⋅]t1] мы полагаем уже известной, т.к., согласно предыдущему, подсчет определяющей ее функции  заканчивается в момент t0, который наступает раньше, чем момент .

По информации Υ[t1] за время  ЭВМ подсчитывает значение , где tи t2 – моменты из разбиения Δ{ti} (1.22), (1.34). Таким образом, вычисление величины u[t2] заканчивается в момент . Затем в течение времени сосчитанное значение u[t],  t1<t≤t2 хранится в памяти, и далее за время сосчитанное значение u[t],  t1<t≤t2 преобразуется в управление u[t] на x-объект.

В момент поступает новая информация

.

При этом в момент τ*2=t2-h+h* функция y ̃[t0 [⋅]t2] полагается уже известной, т.к. подсчет в ЭВМ функции u[t0 [⋅]t2) заканчивается в момент и .

Процесс продолжается по индукции по i. Пусть в момент τ*i=ti-h+h*, i=3,…, l-1 поступила информация

 

При этом предполагаем, что к моменту τ*i функция y ̃[t0 [⋅]ti] уже сосчитана, т.е. уже сосчитана функция u[t0 [⋅]ti). В момент τ*i по информации Υ[ti] (1.37) начинается подсчет величины u[t],  ti<t≤t(i+1), который длится в течение времени  Таким образом, в момент заканчивается подсчет функции . Далее в течение времени сосчитанное значение u[t],  ti≤t<t(i+1) хранится в памяти, и затем за время оно преобразуется в управление u[t] на x-объект. При этом в момент τ*i+1=ti+1-h+h* можно снова начинать считать величину u[t],  ti+1≤t<ti+2. Для этого в момент τ*i+1 необходимо иметь следующую информацию

Такая информация в момент τ*i+1 имеется. В самом деле, величина x* [t0+h[⋅]ti+1] становится известной в этот самый момент τ*i+1, а функция y ̃[t0 [⋅]t(i+1)] становится известной в момент окончания вычисления функции u[t0 [⋅]t(i+1)], т.е. в момент , а с учетом (1.34) имеем .

Оптимальная стратегия. Назовем пару {ti, Υ[ti]}, состоящую из момента времени ti и информационного образа Υ[ti], информационной позицией Υ-системы в схеме управления по принципу обратной связи (рис., при замене  на).

Для построения оптимальной чистой позиционной стратегии управления u0 (⋅)=u0 (t,Y,ε) используется метод экстремального сдвига на сопутствующие точки, изложенный в работах [2-6, 10].

Теорема. Построенная чистая позиционная стратегия управления u0 (⋅)=u0 (t,Y,ε) является оптимальной стратегией для рассматриваемой задачи конфликтного управления для линейной динамической системы (1) с критерием качества процесса управления γ (3).

Доказательство этого утверждения повторяет с понятными изменениями, связанными с заменой информационных образов, конструкции из работ [2-6, 10].

Текст статьи
  1. Айзекс Р. Дифференциальные игры. – M.: Мир, 1967.
  2. Красовский А.Н. О формализации позиционной дифференциальной игры // Докл. АН СССР. 1981. Т. 257. № 4.
  3. Красовский А.Н., Куанышев В.Т. Обратная связь в задачах позиционного минимаксного управления // Сб. материалов международной конференции «Естествознание, техника, технологии: современные парадигмы и практические разработки». АПНИ, 30.10.2019.
  4. Красовский А.Н., Куанышев В.Т. Метод экстремального сдвига для оптимального управления в позиционной дифференциальной игре // Актуальные исследования. 2019. № 1.
  5. Красовский А.Н., Куанышев В.Т. Задача конфликтного управления по принципу обратной связи при запаздывающей информации // Актуальные исследования. 2020. № 3 (6).
  6. Красовский А.Н. Ладейщиков А.Н. Задача игрового управления при дефиците информации // Математическая теория игр и ее приложения. 2012. Т. 4. Вып. 2.
  7. Красовский Н.Н. Управление динамической системой. Задача на минимум гарантированного результата. – М.: Наука, 1985.
  8. Красовский Н.Н., Субботин А.И. Позиционные дифференциальные игры. – M.: Наука, 1974.
  9. Понтрягин Л.С., Болтянский В.Г., Гамкрелидзе Р.В., Мищенко Е.Ф. Математическая теория оптимальных процессов. – М.: Физматгиз, 1961.
  10. Krasovskii A.N., Krasovskii N.N. Control Under Lack of Information. Boston: Birkhauzer, 1994.
Список литературы
Ведется прием статей
Прием материалов
c 16 ноября по 30 ноября
Осталось 2 дня до окончания
Препринт статьи — после оплаты
Справка о публикации
сразу после оплаты
Размещение электронной версии
04 декабря
Загрузка в elibrary
04 декабря
Рассылка печатных экземпляров
09 декабря