Моделирование одной антагонистической позиционной дифференциальной игры

Красовский Андрей Николаевич; Куанышев Валерий Таукенович

Аннотация статьи

Рассматривается задача об оптимальном управлении по принципу обратной связи для конкретной конфликтно-управляемой динамической системы при неполной информации о действующих помехах. Критерий качества процесса управления выбирается в виде функционала, зависящего от движения объекта и реализаций управлений и помех. Для конструирования оптимальных алгоритмов управления используется метод экстремального сдвига. Приводятся результаты численной симуляции процесса.

Текст статьи

Введение. Рассматриваемая задача на минимакс максимин критерия качества, зависящего от движения конкретного механического объекта и реализаций управления и помехи на заданном отрезке времени трактуется как антагонистическая дифференциальная игра двух лиц в рамках концепции екатеринбургской школы по оптимальному управлению Н.Н. Красовского [6, 7, 9]. Работа продолжает исследования авторов [4, 5].

Движение объекта. Рассмотрим точку единичной массы, двигающуюся в горизонтальной плоскости {q₁, q₂} под действием сил u и υ. Тогда уравнение движения в форме второго закона Ньютона имеет вид

q=u+υ, (1)

P={u: ||u||=(u₁²+u₂²)^1/2≤2}, u∈P, (2)

где q – двумерный вектор, u и υ – векторные управляющие воздействия, удовлетворяющие условиям:

Q={υ: ||υ||=(υ₁²+υ₂²)^1/2≤1}, υ∈Q. (3)

Задача. Критерий качества. Рассматривается задача [1-9] об управлениях u и помехах υ, которые соответственно минимизируют-максимизируют величину критерия качества процесса управления [4, 5, 9], заданного в виде функционала

, (4)

где ‹u⋅υ› = u₁⋅υ₁+u₂⋅υ₂, ||q[ϑ]|| = (q₁²[ϑ] + q₂²[ϑ])^1/2, t₀≤t*≤ϑ, t₀=0, ϑ=2.

Приведем систему (1) к нормальному виду

x₁=x₃

x₂=x₄

x₃=u₁+υ₁

x₄=u₂+υ₂.

(5)

Тогда функционал γ (2) примет вид

(6)

В соответствии с известными результатами [3, 4, 7, 9] рассматриваемая дифференциальная игра для системы (5) с функционалом (6) имеет седловую точку {u⁰(⋅), υ⁰(⋅)} и цену ρ₀(t, x). При этом стратегии u⁰(⋅)=u⁰(t, x, ε) и υ⁰(⋅)=υ⁰(t, x, ε), составляющие седловую точку, строятся конструктивно по известной цене игры ρ⁰(t, x). Дифференциальная игра для - объекта (5) с критерием качества γ (6) принимает вид для нелинейного объекта с расширенным фазовым вектором

x={x1,..,x5}

и критерием качества

γ=γ(x[t₀[⋅]ϑ] = {x[t], t₀≤t≤ϑ|}),

где

x₁=x₃

x₂=x₄

x₃=u₁+υ₁

x₄=u₂+υ₂

x5=‹u⋅υ› = u₁υ₁+u₂υ₂.

(7)

Критерий качества γ имеет вид

γ=γ(x[t₀[⋅]ϑ]) = ϕ(x[ϑ])+x₅[ϑ]. (8)

и критерий качества (9) является позиционным функционалом [5].

Используя метод верхних выпуклых оболочек [9], получаем, что цена ρ⁰(t_i, x[t_i]) дифференциальной игры определяется по формуле

ρ⁰(t_i, x[t_i]) = ρ⁰(ti, x[t_i])+x₅[t_i]. (9)

Cогласно [9], имеем

(10)

где

(11)

По известной цене игры ρ⁰(t_i, x[t_i]) будем строить стратегии u⁰(⋅)=u⁰(t, x, ε) и υ0(⋅)=υ₀(t, x, ε) в соответствии с конструкциями экстремального сдвига на сопутствующие точки из работы авторов [4, с. 9].

Пусть реализовалась позиция {t_i, x[t_i]. В данном примере сопутствующие точки [4, с. 10] будем искать следующим приближенным способом. А именно, вместо того, чтобы искать точки, в которых достигается минимум и максимум цены дифференциальной игры ρ⁰(t_i, x[t_i]) в моменты t_i, i=1,...,k в схеме управления по принципу обратной связи ([4], рис. 1) при достаточно малом ε>0 будем просто искать точки пересечения с границей области Κ(ε) ([4], рис. 2) вектора градиента s_u[t_i]=[grad_xρ⁰(t_i, x)]_x[ti] и вектора s_υ[t_i], противоположного градиенту. При этом, было доказано в [9], что оптимальные стратегии
u⁰(⋅) и υ⁰(⋅) от величины x_*5 не зависят.

Имеем

(12)

Таким образом, оптимальная стратегия u⁰(⋅)=u⁰(t, x, ε) есть правило, которое любой возможной позиции {t_*, x_*} ставит в соответствие вектор u⁰={u₁⁰, u₂⁰} ∈ P (2), удовлетворяющий условию

(13)

где

s_u[t]_i= r₀(ϑ-t_i)⋅(x₁[t_i]+x₃[t_i](ϑ-t_i)) / k[t_i],

s_υ[t_i]=r⁰(ϑ-t_i)⋅(x₂[t_i]+x₄(ϑ-t_i)) / k[t_i], y[t_i]=1, (14)

здесь r⁰ – максимизирующее значение для (10), и

k[t_i]=((x1[t_i]+x₃[t_i](ϑ-t_i))²+ (x₂[t_i]+x₄(ϑ-t_i))²)^1/2. (15)

Оптимальная стратегия υ⁰(⋅)=υ⁰(t, x, ε) есть правило, которое любой возможной позиции {t[t_i], x[t_i]} ставит в соответствие вектор υ⁰={υ₁⁰, υ₂⁰} ∈ Q (3), удовлетворяющий условию

(16)

При этом управления u⁰[t_i[⋅]t_i+1) = {u⁰[t] = u⁰[t_i] ∈ P, t_i≤ t≤ t_i+1, i=1,…, k} и υ⁰[t_i[⋅]t_i+1) = {υ⁰[t] = υ⁰[t_i] ∈ Q, t_i ≤ t ≤ t_i+1} определяются следующими формулами:

(17)

(18)

В (17) и (18) t_i∈ Δδ{t_i}, i=1,…, k+1, где Δδ{t_i} разбиение отрезка времени [t₀, ϑ] точками t_i, так что

t_i+1-t_i≤δ. (19)

Численный эксперимент. Приводятся результаты численного эксперимента при следующих исходных данных: t_*=0, x_*1=4.0, x_*2=3.0, x_*3=2.0, x_*4=1.0, ϑ=2.0, δ=0.001. При этих данных цена игры ρ⁰(t_*, x_*)=6.601. На рисунке 1 приведена траектория движения объекта при u(⋅)=u⁰(⋅) и υ(⋅)=υ⁰(⋅). Здесь получили γ≅ρ⁰(t_*, x_*)=6.602. На рисунке 2 – траектория движения при u(⋅)=u⁰(⋅) и υ[t]={υ₁[t]=cosπt, υ₂[t]=sinπt}, t_*≤ t ≤ ϑ, т.е. υ(⋅)≠υ⁰(⋅). Здесь получили γ=6.085<ρ⁰(t_*, x_*)=6.601. На рисунке 3 – траектория движения при υ(⋅)=υ⁰(⋅) и u[t]={u₁[t]=2cosπt, u₂[t]=2sinπt}, t_*≤t≤ϑ, т.е. u(⋅)≠u⁰(⋅). Здесь получили γ=8.302>ρ⁰(t_*, x_*)=6.601.

Рис. 1. u – оптимальное, υ – оптимальное

Рис. 2. u – оптимальное, υ₁=cos(π t), υ₂=sin(π t)

Рис. 3. υ – оптимальное, u₁=2cos(π t), u₂=2sin(π t)

Результаты проведенного эксперимента полностью согласуются с теорией.

Список литературы

Айзекс Р. Дифференциальные игры. – M.: Мир, 1967.
Красовский А.А., Красовский А.Н. Нелинейная позиционная дифференциальная игра в классе смешанных стратегий // Тр. МИАН, 277, МАИК, – М., 2012.
Красовский А.Н. О позиционной дифференциальной игры // Докл. АН СССР. 1981. Т. 257. № 4.
Красовский А.Н., Куанышев В.Т. Метод экстремального сдвига для оптимального управления в позиционной дифференциальной игре // Актуальные исследования. 2019. № 1.
Красовский А.Н., Куанышев В.Т. Обратная связь в задачах позиционного минимаксного управления // Естествознание, техника, технологии: современные парадигмы и практические разработки: сб. материалов международной научн.-практ. конференции, г. Белгород, 30 октября 2019 г. – Белгород: ООО Агентство перспективных научных исследований, 2019.
Красовский Н.Н. Теория управления движением. – М.: Наука, 1968.
Красовский Н.Н. Управление динамической системой. Задача на минимум гарантированного результата. – М.: Наука, 1985.
Понтрягин Л.С., Болтянский В.Г., Гамкрелидзе Р.В., Мищенко Е.Ф. Математическая теория оптимальных процессов. – М.: Физматгиз, 1961.
Krasovskii A.N., Krasovskii N.N. Control Under Lack of Information. Boston: Birkhauser, 1994.

Моделирование одной антагонистической позиционной дифференциальной игры

Цитирование

Похожие статьи

Другие статьи из раздела «Математика»